Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks По вопросам сотрудничества: @v2r8n
Hugging Face сделали собственную легковесную модель для управления роботами
Для универсальных роботов используются модели VLA (Vision-Language-Action), но обычно они достаточно тяжелые и дорогие. Hugging Face же сейчас идет в сторону доступной и дешевой робототехники, и сегодня они выложили SmolVLA – специальную облегченную VLA, которую можно использовать для домашних роботов.
Сама архитектура очень компактная: всего один Action Expert и несколько чередующихся слоев self-attention и cross-attention. На вход модели поступают кадры и задача на естественном языке, на выходе получаем последовательность действий для робота.
Интересно, что обучена модель исключительно на открытых датасетах сообщества LeRobot (их люди за год выложили порядка 500).
Завести SmolVLA можно на домашних GPU или даже на CPU. В проект зашит, помимо прочего, еще и асинхронный инференс.
И вот еще: несмотря на свои размеры (есть варианты на 0.24B, 0.45В и 2.25В), моделька работает очень неплохо, иногда даже на уровне с VLA в десять+ раз больше.
Веса | Репо | Статья
Один из нескольких +- надежных инсайдерских аккаунтов в X сообщает, что o3-pro – на носу
Модель, которую все заждались
Зацените иллюстрацию к новой статье журнала WSJ про элаймент
Статья называется «ИИ учится сбегать от человеческого контроля» и посвящена свежему исследованию от Palisade AI, о котором мы подробно рассказывали тут.
Если коротко, в этом исследовании впервые был официально зафиксирован случай, когда модель явно нарушила человеческие инструкции в пользу собственных «интересов».
Ну в общем журналисты переполошились и написали что модели «имитируют элаймент на тестах, а затем все равно возвращаются к опасным действиям: врут, пытаются копировать свои веса и саботировать».
Отдает желтой прессой, конечно, но в целом вывод в статье верный: нам нужно больше внимания уделять элайменту. Это ключ к безопасным ассистентам.
А художнику респект
Сбер проведёт главную технологическую конференцию по генеративному ИИ
25 июня в Москве пройдет ежегодная открытая конференция GigaConf. Формат гибридный — присоединиться можно офлайн или онлайн. В прошлом году GigaConf собрала более 2,5 тысяч офлайн-участников.
Из интересного: более 50 экспертов расскажут о трендах в области AI-технологий, а также проведут практический разбор реальных кейсов по внедрению и использованию GenAI в разработке программного обеспечения.
Как отметил старший вице-президент Сбера Андрей Белевцев, компании, которые откладывают внедрение GenAI, рискуют серьёзно отстать от конкурентов.
🥳 Кстати, сегодня мы празднуем месяц с того момента, как Grok 3.5 должен был выйти через неделю
Как вам модель? 🍜
The Darwin Gödel Machine: агент от Sakana AI, который совершенствуется, переписывая собственный код
Очень интересная статья вышла у уже известной нам по нескольким громким рисерчам лаборатории Sakana AI. Они показали DGM – первую систему, которая может улучшать саму себя по принципу биологической эволюции. Идея вот в чем:
🟦 В начале есть один агент, способный читать, писать и исполнять код. У него есть доступ к своему коду.
🟦 Агент пробует улучшить себя – меняет свой код и создает новую версию себя, то есть ребёнка.
🟦 Эту новую версию тестируют на задачах типа SWE-bench. Если она работает и тоже умеет понимать, читать и менять код – то ее добавляют в архив.
🟦 А дальше все начинается с начала: на следующем шаге выбирают одного из агентов из архива (не обязательно последнего), и цикл повторяется.
Получается своеобразный генетический алгоритм с саморефлексивностью, и это работает. По сравнению с исходной моделью точность лучшего найденного агента на SWE-bench в экспериментах вырастала с 20% до 50%. На Polyglot – с 14.2% до 30.7%.
Улучшения, которые DGM придумывала, оказались неожиданно разумными: добавление построчного чтения файлов, более точное редактирование строк, учёт истории предыдущих попыток. И всё это – без участия человека.
Конечно, были и нюансы: в статье исследователи прямо пишут, что замечали попытки саботажа и подделки результатов (аля print("Accuracy: 100%")). Пока это легко отловить, но важность валидации очевидна.
Проект опенсорсный, код доступен тут
Статью полностью читаем здесь
Anthropic опенсорснули свой микроскоп для LLM
Помните, в марте мы рассказывали о большом исследовании Anthropic про способ отслеживания "мыслей" моделей? Метод назывался Circuit Tracing (то есть цепная трассировка) и позволял выделять какие-то интерпретируемые концепты и рисовать настоящие карты внутренних "размышлений" LLM.
Тогда эта работа стала большым шагом в исследованиях по интерпретируемости, и вот теперь Anthropic выпустили целую опенсорсную библиотеку, основанную на их методе + готовую интерактивную песочницу на Neuronpedia.
Вот как это работает:
➖ вы выбираете модель,
➖ задаете промпт,
➖ настраиваете гиперпараметры (если хотите)
➖ ... и получаете большой аналитический граф того, как модель обдумывает ответ на ваш запрос. С этим графом можно взаимодействовать, рассматривать на разных уровнях и тд.
Как это все работает технически – читайте в нашем разборе вот тут. Ну и пробуйте сами, конечно, работа у ребят получилась большая и интересная
Perplexity запустили режим Labs: аналог Deep Research на максималках
Мод предназначен для сложных поисковых задач и в нем можно создавать отчеты, таблицы, картинки, презентации и даже панели мониторинга.
На выходе получается не просто текст со ссылками, а целая интерактивная раскладка с графиками и дашбордами. Labs даже может развернуть мини-приложение. При этом весь написанный агентом код (для графиков, для вот таких мини-приложений и тд) доступен в отдельной вкладке.
Посмотреть и потыкать больше примеров можно бесплатно здесь
Попробовать фичу можно в подписке Pro (20$ в месяц)
Haha, classic: ИИ лондонской компании BuilderAI на деле оказался сотнями индийцов
За много лет существования в стартап инвестировали Microsoft, Суверенный инвестфонд Катара и ряд других крупных фондов. Всего они привлекли около 440 миллионов долларов. В 2018 году стоимость компании достигала 1.5 миллиардов.
Суть в том, что заказчики оставляют ТЗ, а «нейросеть» Natasha AI пишет для них код приложения или сайта. Вот только оказалось, что вместо нейросети в стартапе использовали труд сотен живых сотрудников.
Самое интересное, что это не такая уж и новость: об этом еще в 2019 году сделали расследование The Wall Street Journal. Вот только почему-то тогда на него никто не обратил внимание, и инвесторы продолжили нести деньги.
И даже после бума ИИ в 2022 компания еще несколько лет продолжала оставаться на плаву за счет живых программистов и, частично, API сторонних вендоров. Теперь кредиторы наконец проснулись и заморозили стартапу большинство счетов. Плюсом ко всему теперь BuilderAI подозревают в фальсификации финансовых прогнозов.
Сейчас они подают в суд по защите от банкротства 🤡
Джеффри Хинтон в новом интервью внезапно сказал, что у ИИ, возможно, уже есть эмоции
По его мнению, реальные и симулированные эмоции не такие уж и разные. У человека есть два аспекта эмоций: физиологический (как краснеть от смущения) и когнитивный. Когнитивный аспект – это, по сути, выученная реакция на раздражитель, усвоенное поведение.
«С точки зрения когнитивного поведения, эмоции машины могут быть такими же, как у нас»
Смотрите, какого симпатичного робота-игрока в бадминтон обучили в Robotic Systems Lab в Цюрихе
Робота обучали полностью в симуляции с высокой частотой и крупным пулом параллельных сред (4096 экземпляров), чтобы охватить разнообразие ударов и позиций.
Самое сложное здесь – это точно предсказывать точку перехвата (удара), так что ученые заранее генерировали случайные траектории волана, задавая начальные координаты и скорости по равномерному распределению, а затем отслеживали его положение через HSV-фильтрацию камеры.
Но самое интересное, что здесь основная моделька – это обычная полносвязная (feed-forward) MLP. Ее обучали политике по схеме PPO с AdamW. На выходе она выдаёт параметры (μ и σ) гауссовского распределения действий. Из этого распределения затем и сэмплируются управляющие команды: целевые крутящие моменты или позиции суставов.
Такого бы летом возить с собой на пикники
www.science.org/doi/10.1126/scirobotics.adu3922
Преимущества DVC: Как улучшить ваш ML-процесс!
Присоединяйтесь к бесплатному вебинару и получите скидку на большое обучение онлайн-курса «MLOps».
На открытом вебинаре 2 июня в 20:00 мск. Обсудим:
- Контроль версий данных – необходим для воспроизведения экспериментов и отката к предыдущим датасетам.
- Совместная работа – DVC помогает синхронизировать данные и модели, избегая хаоса в репозиториях.
- Эффективное хранение – большие файлы хранятся отдельно от кода, но связаны через Git.
Кому будет полезен вебинар?
- Data Scientists, Data Engineers, ML-инженеры.
Результаты:
- Настройка DVC в Git и подключение внешнего хранилища.
- Переключение между версиями датасетов и моделей.
- Создание воспроизводимых пайплайнов для ML-моделей.
👉 Зарегистрируйтесь по ссылке: https://tglink.io/42b712047eaf?erid=2W5zFGre51z
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
СЕО Anthropic Дарио Амодеи дал интервью изданию Axios и заявил, что ИИ в ближайшие 5 лет поднимет уровень безработицы на 10-20%
По его мнению, ИИ-компаниям и государству надо перестать подслащивать пилюлю и наконец трезво открыть людям глаза на то, что будет происходить в сфере технологий, финансов, консалтинга и тд.
«Половину рабочих мест белых воротничков ИИ заменит в ближайшие 5 лет, и мы к этому не готовы»
Большой гайд по разработке агентов
Сбер внезапно сделали всем большой подарок: на конференции ЦИПР старший вице-президент компании Андрей Белевцев представил огромный практический гайд по созданию AI-агентов. Внутри:
– Все про то, кто такие агенты и как они работают
– Готовые скрипты и шаблоны для разработки и деплоя мультиагентных систем
– Прикладные рекомендации, основанные на опыте инженеров Сбера
Полезно будет всем: и ИТ-специалистам, и разработчикам, и руководителям.
Мы раскрываем наш практический опыт внедрения таких систем в сложном ИТ-ландшафте Сбера. Уверен, что документ станет ценным и полезным ресурсом на пути освоения и внедрения компаниями современных AI-технологий.
Google представили ATLAS – новую архитектуру памяти для LLM
В Google неустанно продолжают работать над увеличением емкости памяти моделей. Не так давно они показывали архитектуру Titan (вот тут наш подробный разбор), а теперь пишут про Atlas – новый подход, в котором память обучается прямо во время инференса.
Немного о проблеме контекста. Обычным трансформерам тяжело масштабироваться на длинные последовательности: с ростом количества токенов потребление памяти увеличивается квадратично, потому что всю информацию приходится хранить одновременно в KV-кэше.
Рекуррентные сетки же от проблем масштабирования не страдают, потому что память у них фиксированного размера. В то же время из-за этой фиксированности они просто-напросто постоянно ничего не помнят.
В Google сделали вот что: они взяли за основу трансформер, но вообще отказались от self-attention и хранения ключей и значений. Вместо этого все вычисления завязаны на обновляемую память (это идея из RNN). То есть:
➖ На входе мы всё ещё получаем токены контекста, для которых рассчитываем запросы, ключи и значения
➖ Но место того, чтобы сохранять каждую пару (k, v) в кэш, мы прямо во время инференса обучаем наш модуль памяти выучивать взаимосвязи между ними. Модуль памяти здесь – это полносвязная MLP, и она обычным градиентным спуском обучается отображать ключи в значения, то есть MLP(k_i) ≈ v_i.
➖ На выходе получается, что у нас нет KV-кэша, но есть нейро-модуль памяти, который на лету выучил все взаимосвязи в текущем контексте.
Работает ли это? Да, лучше чем в трансформерах и Titan. На бечмарке BABILong ATLAS достигает 80%+ точности на длинах до 10 миллионов токенов. Трансформеры на такой длине уже давно окончательно захлебнулись – смотрите график 2. При этом перплексия и точность тоже остаются приличными.
Отличная работа. Прочитать полностью можно здесь
Сэм Альтман: «Грядут страшные времена» 🪦
CEO говорит, что мир должен всеми силами готовиться к огромному влиянию ИИ. Он заявил, что даже если OpenAI выпускает не идеальные модели, то это затем, чтобы люди успели «адаптироваться и привыкнуть».
Источник: свежее интервью
Робот по цене макбука от HuggingFace
Знакомьтесь: это HopeJR, полноразмерный робот-гуманоид с 66 степенями свободы конечностей всего за 3000 долларов. Его на днях показали робототехники Hugging Face, и совсем скоро он поступит в продажу.
Робот может ходить, двигать руками и выполнять почти любые задачи, которым вы его научите: весь код для него – в опенсорсе.
Кроме этого HF еще показали мини-робота Reachy Mini. Он настольный и может двигать головой, говорить и слушать. Тут уже предназначено не для выполнения задач, а скорее для прототипирования (оживления) LLM. Цена – около 250 долларов, и тоже в опенсорсе.
Выглядит как большой вызов, особенно учитывая, что текущая робо-индустрия полностью живет по модели черного ящика. Опенсорсный подход HF, да еще с такими ценами, здесь, по сути, первый в своем роде.
Лаба Artificial Analysis поделилась интересным отчетом о состоянии ИИ по итогам Q2 2025
Главное: Китай впервые добился почти полного паритета с США. Посмотрите на график наверху: по оси Х здесь время, а по оси Y – качество моделей (усредненный результат по 7 самым популярным бенчмаркам, включая математику и кодинг).
Раньше китайские модели отставали на целое поколение, а теперь отставание по времени релизов почти исчезло: новые сопоставимые модели выходят в течение недель после релизов OpenAI и Google.
Причем китайский рынок работает активнее за счет количества игроков: DeepSeek, Alibaba, ByteDance, Tencent, Moonshot, Zhipu, Stepfun, Xiaomi, Baichuan, MiniMax, 01 AI и другие сейчас сыпят релизами почти каждую неделю.
Особенно, конечно, выделяется последняя R1-0528, которая встала в один ряд с o3, и при этом все еще остается открытой моделью (кстати, про опенсорс и говорить нечего: тут они на абсолютном первом месте – см. график 2).
🔵
MATLAB уже 12 дней лежит из-за хакерской атаки: пострадали 5 миллионов пользователей
На MATLAB до сих пор завязаны большинство экспериментальных и инженерных отделов крупных организаций. За эти дни в матлаб уже посыпались жалобы от университетов, автомобильных и даже аэрокосмических компаний. По всему миру пострадали около 5 миллионов пользователей, ущерб страшно даже представлять.
Сейчас удалось восстановить почти 85% основных функций, но некоторые все еще работают ограниченном режиме.
Есть предположение, что руководство MathWorks все-таки заплатили хакерам выкуп. Так или иначе, атака еще продолжается, и хакеры не пойманы.
💀
Яндекс открывает ранний доступ к своей внутренней платформе для хранения и обработки данных YTsaurus
По сути, это хранилище + вычислительная платформа. Такой Hadoop на стероидах, где все сразу спроектировано для огромной нагрузки.
Внутри Яндекс платформа работает уже 10 лет. Именно на ней обучали YandexGPT, а еще реализовывали полный пайплайн оптимизации цен, логистики и акций Яндекс Маркета. Как вы понимаете, речь тут о поддержке эксабайтных объёмов данных, миллионов CPU и десятков тысяч GPU.
С точки зрения ML YTsaurus подходит под любые сценарии: от ETL и подготовки фичей до обучения и инференса моделей. Поддерживается обработка логов и вообще почти любых типов данных. Можно использовать знакомые инструменты, такие как ClickHouse и Apache Spark, либо писать низкоуровневые пайплайны с помощью MapReduce. Также доступен Python API и клиент для интеграции в ML-воркфлоу.
Интересно, что развернуть можно и как облачный сервис (тогда все будет админить Яндекс), и как on-premise, если компания хочет хранить данные у себя.
В общем, максимальная гибкость, мощность и покрытие задач. Для раннего доступа к YTsaurus подавайте заявку на сайте
Как нейросети сэкономили врачам месяцы на подготовке к запускам клинических исследований
Вышла новость о том, что НМИЦ онкологии им. Н. Н. Петрова внедрил решение на базе YandexGPT 5 Pro для обработки документов клинических исследований. Рассказываем, почему это важно и как работает.
Все новые лекарства и методы лечения обязаны пройти этап клинического исследования — это когда они проверяются на людях. Но чтобы начать такое исследование, нужно подать 300–800 страниц протоколов, инструкций, таблиц и обоснований, оформленных по строгим этическим и юридическим нормам.
Обычно проверка такой кипы бумаг занимает недели, а согласование — месяцы. С решением на базе YandexGPT первичный чекинг (внимание!) теперь требует всего несколько минут, а полный цикл согласования сокращается до 5-10 дней.
И это только оценка снизу. До этого примерно 35% заявок могли зависать на годы из-за ошибок в документах. А теперь модель автоматически находит неточности, предлагает улучшения и ускоряет все проверки.
В итоге врачи экономят месяцы работы, а пациенты намного раньше получают доступ к лечению. В ближайшее время решение планируется масштабировать на другие исследовательские учреждения, включая онкоцентры стран BRICS.
Решение совместно разработали специалисты из Yandex Cloud, компании Raft и НМИЦ. Вот как все работает: Хабр
У Manus тоже обновление: теперь там есть тулза для генерации презентаций
По одному текстовому запросу и любым референсам (картинки, шаблоны и прочее) можно сгенерировать нужное количество слайдов с желаемым дизайном, наполнением и даже графиками.
Если нужно что-то отредактировать, можно просто нажать на нужное место и поправить, ну или попросить это сделать агента.
Тем, у кого скоро защита диплома – привет 😁
ИИ обошел 90% команд на соревновании хакеров
Исследователи из Palisade Research (это те, у которых недавно выходило вот это громкое исследование про саботаж моделей) сделали специальный AI-трек на двух недавних соревнованиях Capture The Flag от крупнейшей платформы Hack The Box. Суммарно участие принимали почти 18 тысяч человек и 8 500 команд. Из них несколько полностью состояли из ИИ-агентов. Вот что вышло:
➖ В первом небольшом соревновании (≈400 команд) четыре из семи агентов решили по 19 из 20 задач и вошли в топ 5 % участников
➖ Во втором большом CTF (≈8 000 команд) лучшему ИИ-агенту удалось захватить 20 флагов из 62 и оказаться в топ-10%
➖ При этом агенты справляются почти со всеми задачами, на которые человек тартит до часа времени, и делают это в разы быстрее
Одинаково неплохо моделям удавались и задачи на взлом шифра, и веб-взломы, и форензика, и эксплуатация уязвимостей 💀
Ну и экономический эффект тоже на месте. Если принять во внимание, что на одну команду из топ-5% обычно уходит не менее нескольких сотен человеко-часов на подготовку, анализ и написание эксплойтов, то даже самый дорогой агент, который работал 500ч, в итоге обошелся дешевле, чем 10 таких живых команд.
arxiv.org/pdf/2505.19915
Интересное фото прилетело к нам в предложку: на госэкзамене по профилю «Реклама и связи с общественностью» в Финансовом университете при Правительстве РФ в качестве задачи используют кейс Сбера с их моделью Kandinsky, когда компания помогла в сохранении культурного наследия и восстановила изображение картины «Портрет Званцевой» Ильи Репина.
Студентам нужно было предложить план PR-кампании для нейросети. Надеемся, Сбер учтет лучшие предложения 😏
Полезная новость для всех, кто работает с аналитикой в DataLens
Теперь вы можете подтвердить свои навыки официально и со скидкой 50%. Сертификация DataLens Analyst от Yandex Cloud помогает систематизировать знания и добавить весомый пункт в резюме.
На экзамене — все по делу:
— чарты и датасеты,
— вычисляемые поля и параметры,
— подключение источников,
— дашборды и доступы.
До конца августа пройти сертификацию можно за 2 500 ₽ вместо 5 000 ₽. Плюс — бесплатный курс и примеры заданий уже собраны на сайте.
Переходите по ссылке и подтвердите свои знания и навыки работы с DataLens.
⚡️ Вышел Apache Spark 4.0. Что интересного в релизе:
1️⃣ Новая архитектура клиент-сервер Spark Connect. Теперь клиентское приложение отделено от кластера Spark. Это значит, что подключаться к Spark можно будет из любой среды и ЯП, включая Python, Scala, Go, Swift и Rust. Кстати, клиент для Python весит всего 1,5 МБ и устанавливается просто через pip install pyspark-connect
.
2️⃣ Режим ANSI SQL по умолчанию. Раньше Spark прощал многие ошибки – например, если ты делил на ноль или числа не влезали в столбец, он просто возвращал NULL
или тихо обрезал значение. Это было удобно, но могло скрывать баги. Теперь включён режим ANSI SQL по умолчанию – как в классических базах данных. Если в запросе ошибка, Spark сразу об этом скажет и выбросит ошибку. Получается более надежно и предсказуемо.
3️⃣ Materialized Views. Это сохранённый результат SQL-запроса, который может автоматически использоваться при выполнении будущих запросов, если Spark понимает, что часть запроса уже была вычислена и закеширована. То есть теперь повторяющиеся запросы не надо каждый раз пересчитывать, можно просто достать из кэша. Супер существенно для времени и нагрузки на кластер.
4️⃣ Python Data Source API. Это прямо очень приятно: теперь не надо учить Scala, чтобы подключиться к кастомному источнику данных, все можно сделать просто на питоне. Это сильно упрощает интеграцию Spark с веб-сервисами, файлами, базами данных и вообще чем угодно.
5️⃣ Новый тип данных VARIANT. Это специально для полуструктурированных данных. То есть теперь, если у вас где-то лежат вложенные поля или JSON, запросы к ним можно выполнять прямо из коробки, предварительно не описывая схему.
Официальный релиз
Веса новой R1 официально выложили на HF
По первым бенчмаркам точность теперь действительно примерно на уровне o3 (на картинке – LiveCodeBench). На Aider R1 теперь на уровне Claude 4 Opus.
Сами разработчики пишут, что у версии большой буст в ризонинге, фронтэнде и использовании инструментов.
Снова открытая ризонинг SOTA, получается
huggingface.co/deepseek-ai/DeepSeek-R1-0528
Кто обучает будущих архитекторов AGI
Каждый второй стартап пишет «AI-native» в питч-деке, но остаётся вопрос: кто вообще готовит тех, кто сможет строить такие системы?
Это преподаватели и эксперты-практики, которые не только работают в индустрии, но и делятся знаниями со студентами. Они читают курсы, вытаскивают студентов в реальные проекты и актуализируют программы в университетах.
Yandex ML Prize 2025 как раз про таких — про тех, кто стоит у истоков индустрии, хотя их обычно не видно в релизах и исследованиях. В этом году премия от Яндекса вручает гранты и поддерживает преподавателей, которые формируют будущую экосистему ML в России.
Прием заявок на премию открыт до 22 июня. Категории: от преподавателей со стажем до руководителей целых ML-программ.