23723
Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
У агентов всё как у людей, кто громче и самоувереннее кричит, того мнение и слушают 😿
Multi-Agent Systems are Mixtures of Experts: Who Becomes an Influencer?
Franka Bause, Jonas Niederle, Martin Pawelczyk, Rebekka Burkholz
Paper: https://arxiv.org/abs/2605.25929
Review: https://arxiviq.substack.com/p/multi-agent-systems-are-mixtures
Code: N/A
Model: N/A
# TL;DR
Что сделали: Математически описали совместную работу нескольких больших языковых моделей (LLM) через законы социологии, объясняющие распространение мнений в обществе. Авторы доказали, что спор агентов работает как динамическая «смесь экспертов» (Mixture of Experts, MoE), где влияние автоматически переходит к наиболее уверенным участникам.
Почему это важно: Это даёт строгое математическое объяснение тому, почему и когда группы нейросетей работают лучше одиночных моделей. Вместо того чтобы подбирать текстовые запросы (промпты) вслепую, разработчики могут использовать эти формулы для создания более надёжного и безопасного коллективного ИИ, сосредоточившись на калибровке уверенности моделей.
Кричать здесь: /channel/gonzo_ML_podcasts/3826
Очень интересная работа. Модели осваивают навыки в определённом порядке и он сохраняется между разными моделями. Это можно использовать для диагностики процесса обучения.
What Do Language Models Learn and When? The Implicit Curriculum Hypothesis
Emmy Liu, Kaiser Sun, Millicent Li, Isabelle Lee, Lindia Tjuatja, Jen-tse Huang, Graham Neubig
Paper: https://arxiv.org/abs/2604.08510
Review: https://arxiviq.substack.com/p/what-do-language-models-learn-and
Code: https://github.com/KaiserWhoLearns/ElementalTask
# TL;DR
ЧТО сделали: Авторы сформулировали и провалидировали «гипотезу скрытого учебного плана» (Implicit Curriculum Hypothesis). Они показали, что в процессе предобучения LLM выучивают навыки в стабильном, композиционном и предсказуемом порядке. Этот порядок сохраняется для разных семейств моделей, их размеров и состава обучающих данных. Чтобы подтвердить гипотезу, исследователи разработали специальный набор из 91 простой и композитной задачи, а затем детально отследили траектории развития 9 моделей из 4 крупных открытых семейств объёмом от 410M до 13B параметров.
ПОЧЕМУ это важно: Эта работа предлагает уйти от непрозрачных, гладких кривых лосса на валидации и грубых комплексных бенчмарков. Вместо них мы получаем структурированный подход, где процесс освоения навыков становится предсказуемым и понятным. Самое удивительное: авторы доказали, что траекторию обучения модели на совершенно новой, незнакомой композитной задаче можно предсказать заранее. Для этого достаточно измерить геометрическую близость репрезентации этой задачи (функционального вектора) в residual stream модели.
Для практиков: Результаты исследования позволяют оптимизировать мониторинг предобучения больших моделей. Вместо того чтобы вслепую тратить ресурсы на GPU-часы и надеяться на хороший итоговый результат, можно использовать легковесные диагностические тесты. По геометрии активаций на ранних этапах можно предсказывать, освоит ли модель сложные комплексные навыки к концу обучения.
Осваивать навыки тут: /channel/gonzo_ML_podcasts/3797
Спать хорошо. А высыпаться ещё лучше.
Language Models Need Sleep
Sangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti
Paper: https://arxiv.org/abs/2605.26099
Review: https://arxiviq.substack.com/p/language-models-need-sleep
Code: N/A
Model: N/A
# TL;DR
ЧТО сделали: Авторы представили LLM Sleep — фреймворк для обучения и инференса гибридных архитектур (внимание + SSM). Метод периодически запускает N офлайн-проходов рекуррентности по активному контексту. Это позволяет консолидировать информацию в блоках SSM (structured state-space model), работающих как быстрая память, непосредственно перед тем, как очистить KV-кэш механизма внимания.
ПОЧЕМУ это важно: Стандартные гибридные архитектуры не способны выполнять глубокие рассуждения по контексту, который уже вытеснен из активного внимания, независимо от их номинальной ёмкости. Перенося вычислительно сложные итеративные рассуждения в офлайн-фазу «сна», LLM Sleep разделяет глубину вычислений, необходимую для консолидации памяти, и жёсткие ограничения по задержке (latency) при генерации в реальном времени. Это открывает путь к сложному многошаговому рассуждению (multi-hop reasoning) и пониманию сверхдлинного контекста без роста задержек на инференсе.
Для практиков: Если вы работаете с гибридными моделями для сверхдлинных контекстов (например, Samba или Jet-Nemotron) и упираетесь в ограничения качества сложных рассуждений на вытесненном контексте, данный подход позволяет использовать «время простоя» (idle time) системы для уплотнения памяти без модификации инференс-пайплайна реального времени.
Спокойной ночи: /channel/gonzo_ML_podcasts/3773
Хорошее линейное рекуррентное внимание подвезли! Новая версия Gated DeltaNet-2.
Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention
Ali Hatamizadeh, Yejin Choi, Jan Kautz
Paper: https://arxiv.org/abs/2605.22791
Code: https://github.com/NVlabs/GatedDeltaNet-2
Review: https://arxiviq.substack.com/p/gated-deltanet-2-decoupling-erase
Model: N/A
# TL;DR
ЧТО сделали: Авторы разработали архитектуру Gated DeltaNet-2 — механизм линейного рекуррентного внимания, основанный на обновлённом правиле Gated Delta Rule-2. Главная фишка подхода в том, что обновление памяти здесь разделено на два независимых процесса: поканальный гейт стирания (erase gate), действующий по оси ключей (keys), и поканальный гейт записи (write gate), работающий по оси значений (values). Чтобы модель можно было эффективно обучать параллельно, исследователи математически вывели поблочную (chunkwise) форму параллельного обучения, которая интегрирует поканальное затухание в асимметричные одноранговые факторы стирания. Всё это работает на кастомных, высокопараллельных ядрах Triton.
ПОЧЕМУ это важно: Эта архитектура решает фундаментальную проблему линейных рекуррентных моделей — жёсткую скалярную связь между стиранием старых ассоциаций и записью новых. Развязав эти операции, Gated DeltaNet-2 сводит к минимуму интерференцию в памяти при фиксированном размере скрытого состояния. В результате модель извлекает информацию из длинного контекста не хуже стандартных трансформеров, но сохраняет линейную сложность вычислений.
Для практиков: На масштабе 1.3B параметров при предобучении на 100B токенов датасета FineWeb-Edu модель Gated DeltaNet-2 показывает SOTA-результаты в языковом моделировании, задачах на здравый смысл (commonsense reasoning) и многократном извлечении информации из длинного контекста. При этом скорость обучения на GPU практически не падает с ростом контекста вплоть до 16K токенов.
Стирать память здесь: /channel/gonzo_ML_podcasts/3748
Снова про диффузию в языковых моделях (недавно было это). Красивая идея про то, как уйти от бинарного и необратимого шага с декодированием маски.
DMax: Aggressive Parallel Decoding for dLLMs
Zigeng Chen, Gongfan Fang, Xinyin Ma, Ruonan Yu, Xinchao Wang
Статья: https://arxiv.org/abs/2604.08302
Код: https://github.com/czg1225/DMax
Модель: N/A
Ревью: https://arxiviq.substack.com/p/dmax-aggressive-parallel-decoding
# TL;DR
ЧТО сделали: Авторы представили DMax — новый фреймворк обучения и инференса, созданный для реализации агрессивного параллельного декодирования в диффузионных языковых моделях (dLLM). Метод решает проблему каскадного накопления ошибок, которой страдают стандартные подходы к параллельному декодированию. DMax заменяет жёсткий бинарный переход «маска -> токен» на непрерывную самокорректирующуюся траекторию в пространстве эмбеддингов. Это достигается за счёт двух ключевых техник: On-Policy Uniform Training (OPUT) (обучение модели на её собственном предсказательном распределении для выучивания самоисправления) и Soft Parallel Decoding (SPD) (представление промежуточных состояний декодирования в виде взвешенной по степени уверенности интерполяции между эмбеддингами предсказанных токенов и маски).
ПОЧЕМУ это важно: Неавторегрессионное параллельное декодирование обещает огромный прирост пропускной способности. Однако существующие маскированные диффузионные модели резко теряют в качестве генерации при попытке ускорить процесс из-за неисправимых ранних ошибок. DMax успешно преодолевает этот компромисс между скоростью и точностью. Применение DMax к сильному SOTA-бейзлайну LLaDA-2.0-mini (https://arxiv.org/abs/2512.15745) даёт ускорение более чем в 2.5 раза (по количеству токенов за один форвард-пасс) на сложных задачах на рассуждение (GSM8K) и генерацию кода (MBPP) при минимальной потере точности. На двух GPU H200 скорость генерации превышает 1300 токенов в секунду (TPS).
Для практиков: DMax позволяет преодолеть барьер скорости для dLLM в реальных задачах (например, в интерактивных кодовых ассистентах или чат-ботах), не жертвуя при этом качеством генерации. Однако стоит учитывать, что метод требует этапа дообучения (on-policy файнтюнинга), а успешность мягкой интерполяции критически зависит от хорошей калибровки выходных вероятностей модели.
Быстро декодировать тут: /channel/gonzo_ML_podcasts/3727
Больше рекурсий богу рекурсий! По факту добавили в TRM работу с популяцией решений.
Generative Recursive Reasoning
Junyeob Baek, Mingyu Jo, Minsu Kim, Mengye Ren, Yoshua Bengio, Sungjin Ahn
Paper: https://arxiv.org/abs/2605.19376
Code: https://ahn-ml.github.io/gram-website
Review: https://arxiviq.substack.com/p/generative-recursive-reasoning
# TL;DR
ЧТО сделали:
Авторы представили GRAM (Generative Recursive reAsoning Models) — вероятностный фреймворк, который превращает рекурсивные латентные рассуждения из детерминированной последовательности шагов в стохастический многотраекторный процесс. За счёт интеграции обучаемых гауссовских шумов в скрытые переходы и обучения системы через амортизированный вариационный вывод, GRAM строит как условные рассуждения p_θ(y | x), так и генерирует распределения p_θ(x) на непрерывных латентных траекториях.
ПОЧЕМУ это важно:
Существующие рекурсивные модели страдают от коллапса мод в задачах со множеством решений, так как их латентные траектории детерминированы. GRAM преодолевает это ограничение, позволяя масштабироваться на этапе инференса «в ширину» (через параллельный сэмплинг траекторий), что отлично дополняет классическое масштабирование «в глубину» без роста задержек. Модель обходит сильные детерминированные бейзлайны в сложных задачах на рассуждение и удовлетворение ограничений (таких как экстремальное Судоку, задача о ферзях и раскраска графов), оставаясь компактной по числу параметров.
Для практиков:
Получена эффективная по параметрам архитектура, которая умеет искать альтернативные пути решения сложных комбинаторных задач прямо в латентном пространстве. Метод позволяет гибко балансировать точность и вычислительные затраты на инференсе, запуская параллельные потоки рассуждений и выбирая лучший вариант с помощью встроенной модели оценки.
Рекурсировать тут: /channel/gonzo_ML_podcasts/3687
Рабочая диффузия приходит в язык.
Continuous Diffusion Meets Language Modeling: A Strategic Analysis of Embedded Language Flows
Keya Hu, Linlu Qiu, Yiyang Lu, Hanhong Zhao, Tianhong Li, Yoon Kim, Jacob Andreas, Kaiming He
Статья: https://arxiv.org/abs/2605.10938
Код: https://github.com/lillian039/ELF
Ревью: https://arxiviq.substack.com/p/elf-embedded-language-flows
# TL;DR
ЧТО сделали: Авторы представили Embedded Language Flows (ELF) — языковую модель на основе непрерывной диффузии, использующую continuous-time Flow Matching. ELF работает полностью в непрерывном пространстве эмбеддингов высокой размерности, использует единую сеть с общими весами для денойзинга и применяет дискретизацию (перевод эмбеддингов обратно в токены) исключительно на самом последнем шаге генерации.
ПОЧЕМУ это важно: Этот фреймворк успешно опровергает устоявшееся мнение о том, что для генерации текста строго необходимы алгоритмы дискретной диффузии. ELF демонстрирует превосходное качество генерации за значительно меньшее число шагов сэмплинга и требует на порядок меньше токенов для обучения по сравнению с ведущими дискретными моделями. По сути, это открывает путь к долгожданной унификации базовых архитектур для генерации текста, изображений и видео.
Для практиков: Для исследователей и техлидов, присматривающихся к мультимодальным архитектурам нового поколения, разрыв между непрерывной диффузией в CV и дискретной диффузией (или авторегрессией) в NLP долгое время был главной архитектурной болью. Работа ELF доказывает, что исторически слабые результаты языковых моделей на непрерывной диффузии были вызваны плохими дизайнерскими решениями — в частности, промежуточной дискретизацией на каждом шаге денойзинга — а не фундаментальной несовместимостью парадигмы с языком. Благодаря использованию единой сети как для непрерывного потока, так и для финальной проекции в дискретный словарь, языковые модели теперь могут унаследовать законы масштабирования, стабильность обучения и методы сэмплинга (например, Classifier-Free Guidance), которые ранее стали драйвером невероятного прогресса в генерации картинок.
Диффундировать здесь: /channel/gonzo_ML_podcasts/3662
Большой обзор про модели мира для роботов.
World Model for Robot Learning: A Comprehensive Survey
Bohan Hou, Gen Li, Jindou Jia, Tuo An, Xinying Guo, Sicong Leng, Haoran Geng, Yanjie Ze, Tatsuya Harada, Philip Torr, Oier Mees, Marc Pollefeys, Zhuang Liu, Jiajun Wu, Pieter Abbeel, Jitendra Malik, Yilun Du, Jianfei Yang
Статья: https://arxiv.org/abs/2605.00080v1
Сайт: https://ntumars.github.io/wm-robot-survey/
Код: https://github.com/NTUMARS/Awesome-World-Model-for-Robotics-Policy
Ревью: https://arxiviq.substack.com/p/world-model-for-robot-learning-a
# TL;DR
ЧТО сделали: Статья предлагает всеобъемлющую, ориентированную на политики управления таксономию интеграции мировых моделей (world models) в обучение роботов. Авторы систематизируют область: от раздельных пайплайнов до единых архитектур с общим бэкбоном, а также по их функциональной роли — от пассивных предсказателей видео до интерактивных симуляторов для обучения с подкреплением.
ПОЧЕМУ это важно: Чисто реактивные Vision-Language-Action (VLA) модели достигают потолка в задачах, требующих рассуждений на длинных горизонтах, и страдают от накопления ошибок. Внедрение предиктивных структур даёт агентам причинно-следственное предвидение, физическую привязку к реальности и возможность генерировать масштабные синтетические данные. Всё это критически необходимо, чтобы вывести воплощённый ИИ на уровень надёжной работы в реальном мире.
Для практиков: Обзор фундаментально переосмысливает пользу мировых моделей в робототехнике. Перцептивный реализм (правдоподобная картинка) вторичен по отношению к согласованности предсказаний с действиями и функциональной полезности. Унифицируя различные архитектуры в рамках единого вероятностного фреймворка, авторы показывают стратегический сдвиг: область уходит от изолированных моделей генерации видео к интернализированным когнитивным механизмам, позволяющим роботам планировать роллауты и исправлять ошибки до совершения физического действия.
Обозревать здесь: /channel/gonzo_ML_podcasts/3640
A First Comprehensive Study of TurboQuant: Accuracy and Performance
[Блог]
Казалось бы, уже стоило бы забить на этот несчастный TurboQuant, но кому-то он все еще не дает покоя. И команда из Red Hat AI 🤠 провела систематическое исследование нашумевшего метода, фокусируясь на производительности и качестве работы на задачах.
Эволюцию скиллов подвезли.
SkillClaw: Let Skills Evolve Collectively with Agentic Evolver
Ziyu Ma, Shidong Yang, Yuxiang Ji, Xucong Wang, Yong Wang, Yiming Hu, Tongwen Huang, Xiangxiang Chu
Статья: https://arxiv.org/abs/2604.08377
Код: https://github.com/AMAP-ML/SkillClaw
Ревью: https://arxiviq.substack.com/p/skillclaw-let-skills-evolve-collectively
# TL;DR
ЧТО сделали: Авторы предложили фреймворк SkillClaw, который переводит LLM-агентов от использования жёстко заданных статических навыков к динамическим, самосовершенствующимся экосистемам. Система собирает логи выполнения от разных пользователей и использует автономного «агентного эволюционера» (agentic evolver) для итеративного улучшения или создания процедур в общей централизованной базе.
ПОЧЕМУ это важно: Современные агенты страдают от фрагментированного обучения: разные инстансы раз за разом спотыкаются об одни и те же краевые случаи. Формализация цикла сбора коллективных данных, открытого рассуждения и эмпирической валидации позволяет системе монотонно накапливать процедурный интеллект, не требуя ручного промпт-инжиниринга.
Для практиков: Подход даёт возможность агентам самостоятельно исправлять баги в логике своих инструментов в фоновом режиме. Главные трейд-оффы — существенно возросший расход токенов на регулярную симуляцию проверок и необходимость жёсткого контроля за тем, чтобы приватные данные пользователей не утекли в общий системный код навыка.
Эволюционировать тут: /channel/gonzo_ML_podcasts/3618
И снова BLT, но теперь быстрый!
Fast Byte Latent Transformer
Julie Kallini, Artidoro Pagnoni, Tomasz Limisiewicz, Gargi Ghosh, Luke Zettlemoyer, Christopher Potts, Xiaochuang Han, Srinivasan Iyer
Статья: https://arxiv.org/abs/2605.08044v1
Ревью: https://arxiviq.substack.com/p/fast-byte-latent-transformer
# TL;DR
ЧТО сделали: Авторы представили три метода генерации — BLT Diffusion (BLT-D), BLT Self-speculation (BLT-S) и BLT Diffusion+Verification (BLT-DV) — для параллельного декодирования байтов в иерархических языковых моделях. Используя поблочную дискретную диффузию и внутреннее спекулятивное декодирование, они обходят узкое место строгой авторегрессионной побайтовой генерации.
ПОЧЕМУ это важно: Байтовые архитектуры по своей природе решают проблемы сабворд-токенизации (например, уязвимость к состязательным атакам и неравенство языков), но до сих пор страдали от медленного инференса. Снижая затраты на пропускную способность памяти (memory bandwidth) до 92% в некоторых конфигурациях, эти методы делают foundation модели без токенизатора вычислительно конкурентоспособными для реального применения.
Для практиков: Фреймворк BLT-S позволяет ускорить инференс и снизить нагрузку на память без потери качества, используя саму модель в качестве генератора черновиков (drafts). Пока нет оптимизированных CUDA-ядер, это скорее концепт, но в перспективе — это готовый рецепт для деплоя байтовых моделей в продакшен.
Ускорять инференс здесь: /channel/gonzo_ML_podcasts/3597
И снова про рекурсии :)
Пользуясь случаем, поздравляю Лёшу Досовицкого и всю команду. Ещё и Питера Норвига привлекли!
https://www.recursive.com/
Гипотеза линейных репрезентаций всё. Очередная работа, показывающая, что концепты внутри сети лежат на нелинейном многообразии и интерполяция через евклидово пространство не работает. Другая похожая работа была про геометрию счёта от Антропика. И вообще за последнее время было уже столько работ про геометрию (вот, например, ещё похожая, поищите просто по слову геометрия), что неевклидовость давно уже должна стать дефолтом.
Manifold Steering Reveals the Shared Geometry of Neural Network Representation and Behavior
Daniel Wurgaft, Can Rager, Matthew Kowal, Vasudev Shyam, Sheridan Feucht, Usha Bhalla, Tal Haklay, Eric Bigelow, Raphael Sarfati, Thomas McGrath, Owen Lewis, Jack Merullo, Noah D. Goodman, Thomas Fel, Atticus Geiger, Ekdeep Singh Lubana
Статья: https://arxiv.org/abs/2605.05115v1
Код: https://github.com/goodfire-ai/causalab/tree/manifold_steering
Ревью: https://arxiviq.substack.com/p/manifold-steering-reveals-the-shared
Модели: LLaMA 3.1 8B, LLaMA 3.1 70B
# TL;DR
ЧТО сделали: Авторы предложили manifold steering — метод интервенций, который движется по искривлённым, нелинейным геометрическим структурам нейросетевых репрезентаций (вместо того чтобы полагаться на плоское евклидово скрытое пространство). Аппроксимируя сплайнами как внутренние активации, так и внешние распределения выходов, они показывают двунаправленную изометрию между этими двумя пространствами. Управление моделями вдоль этих внутренних кривых приводит к плавным, естественным траекториям в поведении.
ПОЧЕМУ это важно: Работа бросает вызов популярной гипотезе линейных репрезентаций (Linear Representation Hypothesis), которая гласит, что концепты кодируются прямыми векторами. Доказывая, что учёт внутренней геометрии необходим для когерентных каузальных интервенций, исследователи дают инструмент для борьбы с "телепортацией" (резкими скачками через неестественные промежуточные состояния) и коллапсом разнообразия. Главный вывод: правильной единицей анализа в foundation-моделях является не линейное направление, а внутренняя координата на многообразии репрезентаций.
Для практиков: Исторически управление ИИ-моделями опиралось на сдвиг их внутренних состояний по прямым линиям, что часто загоняло генерацию в ошибочные состояния. Статья доказывает, что нейросети организуют концепты в виде изогнутых многообразий. Если строго следовать этим внутренним кривым, можно плавно и надёжно контролировать модели, прокачивая AI alignment без слома внутренней логики.
Гулять по многообразию тут: /channel/gonzo_ML_podcasts/3574
Интересное на поразбираться и поприменять.
A Theory of Generalization in Deep Learning
Elon Litman, Gabe Guo
Статья: https://arxiv.org/abs/2605.01172v1
Ревью: https://arxiviq.substack.com/p/a-theory-of-generalization-in-deep
# TL;DR
ЧТО сделали:
Исследователи из Стэнфорда представили неасимптотическую теорию обобщения. Они математически доказали, что эмпирический Neural Tangent Kernel разделяет выходное пространство нейросети на две части: "видимый для теста" канал сигнала и "невидимый" резервуар шума. На базе этой теории авторы собрали модификацию для оптимизатора AdamW (с нулевым оверхедом), которая напрямую оценивает и минимизирует population risk за счёт гейтинга градиентов по их дисперсии.
ПОЧЕМУ это важно:
Теория выводит математическое понимание сетей за пределы "ленивого" режима (frozen-kernel). Она объясняет работу моделей в режиме полноценного выучивания фичей (feature learning), связывая архитектурную динамику с обобщающей способностью.
Для практиков:
Динамическая фильтрация параметров, отсекающая апдейты с доминирующим шумом батча, практически избавляет от необходимости early stopping. Модифицированный оптимизатор ускоряет грокинг в 5 раз и значительно снижает policy drift в зашумлённых задачах AI alignment (например, в DPO).
Погружаться в резервуар здесь: /channel/gonzo_ML_podcasts/3549
Наш любимый Michael Levin написал любопытную статью (он на редкость продуктивен, пишет много). В каком-то смысле про будущее машинного перевода 😁 и про общение с сильно другими живыми (и не очень) системами.
Заодно экспериментирую с форматов обзоров. Этот конкретный сделан в другом стиле относительно предыдущих — меньше математики, больше текста для тех, кому без формул легче (формулы в телеграмме дополнительно добавляют нечитаемости конечно...)
Language Game: Talking to Non-Human Systems
Yanbo Zhang, Michael Levin
Статья: https://arxiv.org/abs/2605.16321
Ревью: https://arxiviq.substack.com/p/language-game-talking-to-non-human
Код: https://github.com/Zhangyanbo/language-game
# TL;DR
Что сделали: Разработали систему Language Game («Языковая игра»), которая позволяет вести двусторонний диалог на естественном языке с «замороженными» (неизменяемыми) ненейронными биологическими системами — например, генными регуляторными сетями. Обучив простые переходники-адаптеры, которые помещают эти сети внутрь виртуальных игровых сред, авторы смогли применить большую языковую модель (LLM) для перевода человеческих запросов в физические состояния среды. Эти состояния побуждают биологическую систему вести себя нужным образом, а её ответная реакция переводится обратно в понятный человеку текст.
Почему это важно: Этот подход меняет парадигму создания биоинтерфейсов. Вместо грубого вмешательства «снизу вверх» (вроде редактирования генов) он предлагает мягкое целенаправленное общение «сверху вниз». В перспективе это позволит управлять сложнейшими биологическими процессами — например, регенерацией тканей или лечением рака, — относясь к клеткам не как к пассивным деталям механизма, а как к разумным агентам, способным принимать решения.
Играть в игры тут: /channel/gonzo_ML_podcasts/3810
Текстовой оптимизации прибыло.
SkillOpt: Executive Strategy for Self-Evolving Agent Skills
Yifan Yang, Ziyang Gong, Weiquan Huang, Qihao Yang, Ziwei Zhou, Zisu Huang, Yan Li, Xuemei Gao, Qi Dai, Bei Liu, Kai Qiu, Yuqing Yang, Dongdong Chen, Xue Yang, Chong Luo
Paper: https://arxiv.org/abs/2605.23904
Review: https://arxiviq.substack.com/p/skillopt-executive-strategy-for-self
Code: https://aka.ms/SkillOpt
Model: N/A
# TL;DR
ЧТО сделали: Авторы разработали SkillOpt — систематический и контролируемый оптимизатор в текстовом пространстве. Он рассматривает навыки ИИ-агентов на естественном языке как обучаемое внешнее состояние. Вместо ручного подбора промптов или хаотичной автоматической генерации, SkillOpt структурирует обновления поведения агентов с помощью подходов, вдохновлённых глубоким обучением. Здесь используются текстовые аналоги скорости обучения (бюджеты правок), строгие фильтры валидации, буферы отклонённых правок и медленные мета-обновления на уровне эпох.
ПОЧЕМУ это важно: Этот подход обеспечивает высокую стабильность и воспроизводимость офлайн-оптимизации как для замороженных передовых моделей, так и для небольших локальных LLM. Компилируя сложную доменную адаптацию в обычные, понятные человеку markdown-файлы, SkillOpt обеспечивает колоссальный прирост точности (в среднем на +23.5 процентных пункта для GPT-5.5) в задачах на рассуждение, работе с таблицами и управлении агентами. При этом во время инференса не возникает никакой дополнительной задержки или лишних вызовов моделей.
Для практиков: Фреймворк позволяет бесплатно переносить высококачественные «навыки», оптимизированные на мощных моделях, на более лёгкие локальные LLM (например, Qwen). Полученные файлы инструкций компактны, легко проверяются человеком и не требуют файнтюнинга весов.
Оптимизировать скиллы здесь: /channel/gonzo_ML_podcasts/3785
Нейросеть как зашумлённый канал передачи информации.
LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws
Xu Ouyang, Deyi Liu, Yuhang Cai, Jing Liu, Yuan Yang, Chen Zheng, Thomas Hartvigsen, Yiyuan Ma
Paper: https://arxiv.org/abs/2605.23901
Ревью: https://arxiviq.substack.com/p/llms-as-noisy-channels-a-shannon
Code: N/A
Model: N/A
# TL;DR
ЧТО сделали: Авторы предложили закон масштабирования Шеннона (Shannon Scaling Law) — новый унифицированный фреймворк для LLM, основанный на классической теореме Шеннона — Хартли. Рассматривая процесс обучения как передачу информации по зашумлённому каналу, они представили параметры модели как полосу пропускания канала, а обучающие токены — как мощность сигнала. Это позволило объединить стандартное монотонное масштабирование с немонотонными эффектами, такими как катастрофическое переобучение и деградация при квантовании.
ПОЧЕМУ это важно: Традиционные законы масштабирования предполагают бесконечный монотонный рост качества. Однако на практике инженеры всё чаще сталкиваются с "U-образным" поведением лосса, когда качество падает из-за чрезмерного предобучения или низкобитного квантования. Закон масштабирования Шеннона закладывает строгий теоретический фундамент под эти ограничения. Он позволяет точнее распределять ресурсы, планировать вычислительные затраты и экстраполировать результаты на более крупные модели и длинные циклы обучения там, где классические законы масштабирования пасуют.
Для практиков: Для исследователей и технических менеджеров эта работа знаменует переход от экстенсивного наращивания параметров к оптимизации "плотности информации". Показав, что ёмкость LLM строго ограничена совокупным шумом (который возникает из-за данных, взаимодействия компонентов модели и архитектурных ограничений), авторы дают математический инструмент для определения точных порогов, за которыми дальнейшее предобучение, квантование или файнтюнинг приведут к катастрофической потере ёмкости модели.
Сдвигать парадигмы тут: /channel/gonzo_ML_podcasts/3760
Хорошая, полезная работа. Лишний раз показывает, что оркестрация важна, и подводит под это математический фундамент.
Agentic Systems as Boosting Weak Reasoning Models
Varun Sunkaraneni, Pierfrancesco Beneventano, Riccardo Neumarker, Tomaso Poggio, Tomer Galanti
Paper: https://arxiv.org/abs/2605.14163
Review: https://arxiviq.substack.com/p/agentic-systems-as-boosting-weak
Code: N/A
Model: N/A
# TL;DR
ЧТО сделали: Авторы представили теоретический фреймворк, который формализует агентный поиск комитетом (committee search) как бустинг во время инференса (test-time boosting). Разделив задачу на отдельные компоненты — покрытие генератора (proposal coverage), локальную идентифицируемость (local identifiability), глубину прогресса (progress depth) и разнообразие (diversity), — они показали, что легковесную модель (GPT-5.4 nano) под управлением структурированной обвязки из критиков и компараторов можно заставить работать на уровне лучших коммерческих SOTA-моделей на бенчмарках по разработке ПО.
ПОЧЕМУ это важно: Эта работа смещает фокус масштабирования LLM с гигантского увеличения параметров моделей на программно-определяемые архитектуры инференса. Авторы математически доказывают, что способность генерировать решения не означает способность их валидировать. Таким образом, предел масштабирования во время инференса ограничен «слепыми зонами» базовой модели-генератора, а не неэффективностью выбора.
Для практиков: Вместо того чтобы тратить миллионы на файнтюнинг огромных моделей, можно использовать ансамбли из дешёвых и быстрых моделей-генераторов, обёрнутых в строгие каскады критиков и попарных компараторов. Главное — убедиться, что у базовой модели в принципе есть ненулевая вероятность сгенерировать правильный ответ (хотя бы в одном из k сэмплов), и предоставить системе надёжные внешние сигналы валидации (тесты, линтеры).
Ансамблировать и оркестрировать тут: /channel/gonzo_ML_podcasts/3739
Красивая история. UT с последовательным применением линейного внимания увеличивает выразительность трансформера, одновременно сохраняя разумную вычислительную сложность.
LT2: Linear-Time Looped Transformers
Chunyuan Deng, Yizhe Zhang, Rui-jie Zhu, Yuanyuan Xu, Jiarui Liu, T. S. Eugene Ng, and Hanjie Chen
Paper: https://arxiv.org/abs/2605.20670
Code: https://github.com/chili-lab/LT2
Model: https://huggingface.co/chili-lab/Ouro-hybrid-1.4B
Review: https://arxiviq.substack.com/p/lt2-linear-time-looped-transformers
# TL;DR
ЧТО сделали: Авторы представили архитектуру LT2 (Linear-Time Looped Transformers) — семейство рекурсивных моделей, в которых ресурсоёмкое квадратичное внимание заменено на субквадратичные, линейные или разреженные механизмы смешивания токенов. Также они предложили гибридный подход, сочетающий разные типы внимания по глубине и шагам цикла, и разработали многоэтапную стратегию дистилляции для переноса весов из предобученных полносвязных зацикленных трансформеров.
ПОЧЕМУ это важно: Хотя зацикленные трансформеры отлично экономят параметры за счёт повторного использования слоёв, стандартный softmax attention заставляет объём вычислений при обучении и размер KV-cache расти квадратично от длины контекста. LT2 устраняет это узкое место. Исследователи доказали, что зацикливание качественно обогащает субквадратичные миксеры — оно расширяет комбинаторное рецептивное поле разреженного внимания и повышает ранг состояния линейного внимания. Это позволяет запускать мощные рассуждающие модели на длинных контекстах с минимальным потреблением памяти.
Для практиков: Разработанный метод дистилляции даёт готовый рецепт превращения тяжёлой зацикленной модели с полным вниманием в лёгкую субквадратичную версию. Это сокращает объём памяти под KV-cache и ускоряет инференс в 5–6 раз без потери качества работы с длинным контекстом.
Линейно зацикливать здесь: /channel/gonzo_ML_podcasts/3714
Стратегии test-time scaling вручную подбирать не надо, когда есть автомат.
LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling
Tong Zheng, Haolin Liu, Chengsong Huang, Huiwen Bao, Sheng Zhang, Rui Liu, Runpeng Dai, Ruibo Chen, Chenxi Liu, Tianyi Xiong, Xidong Wu, Hongming Zhang, Heng Huang
Статья: https://arxiv.org/abs/2605.08083
Код: https://github.com/zhengkid/AutoTTS
Ревью: https://arxiviq.substack.com/p/llms-improving-llms-agentic-discovery
# TL;DR
ЧТО сделали: Группа исследователей представила AutoTTS — фреймворк, который использует LLM-исследователя для автоматического поиска и синтеза алгоритмов test-time scaling (TTS). Формулируя распределение вычислений на инференсе как поиск политики в офлайн-среде, система автономно проектирует Python-контроллеры. Эти контроллеры в динамике решают, когда модели нужно создать новую ветку, сделать пробинг, выполнить прунинг или остановиться.
ПОЧЕМУ это важно: Сейчас в test-time scaling доминируют ручные эвристики (например, классический self-consistency или раннее завершение). AutoTTS показывает сдвиг парадигмы: авторы создают среду для поиска, а не сам алгоритм. Найденная таким образом стратегия Confidence Momentum Controller описывает оптимальную границу (Pareto frontier) между точностью и стоимостью, снижая расход токенов почти на 70% по сравнению со стандартным self-consistency. А весь процесс автоматического поиска обошёлся менее чем в $40.
Для практиков: Вместо того чтобы вручную подбирать пороги для отсечения веток или фиксировать количество генераций, можно собрать офлайн-базу логов генерации и заставить агента написать оптимальный код контроллера, который будет динамически управлять бюджетом токенов под вашу конкретную задачу.
Скейлить тут: /channel/gonzo_ML_podcasts/3706
С одной стороны весь файнтюнинг безопасности можно обойти, воздействуя на один единственный нейрон, с другой стороны если грохнуть одну конкретную важную для решения задачи схему, найдётся ещё миллион других не хуже. Диалектика.
All Circuits Lead to Rome: Rethinking Functional Anisotropy in Circuit and Sheaf Discovery for LLMs
Xi Chen, Mingyu Jin, Jingcheng Niu, Yutong Yin, Jinman Zhao, Bangwei Guo, Dimitris N. Metaxas, Zhaoran Wang, Yutao Yue, Gerald Penn
Статья: https://arxiv.org/abs/2605.12671
Код: https://github.com/TonyXiChen/OASR
Ревью: https://arxiviq.substack.com/p/all-circuits-lead-to-rome-rethinking
# TL;DR
ЧТО сделали: Авторы предложили метод Overlap-Aware Sheaf Repulsion (OASR) и показали, что в LLM есть множество функционально эквивалентных и почти не пересекающихся вычислительных подграфов. Эти механизмы независимо выполняют одну и ту же задачу, что разрушает привычную гипотезу о существовании уникальных "каноничных" вычислительных схем.
ПОЧЕМУ это важно: Работа сдвигает парадигму механистической интерпретируемости от редукционистского поиска единственной истинной схемы к распределённому подходу. Попытки выравнивания (AI alignment), редактирования или оценки моделей на основе одиночных подсетей могут провалиться, так как параллельные избыточные механизмы легко поддержат исходное поведение.
Для практиков: Если вы пытаетесь задебажить LLM, удаляя одну конкретную цепочку вычислений, будьте готовы, что модель решит задачу обходным путём. Искать и контролировать нужно целые плотные семейства резервных механизмов, а не одиночные связи.
Искать схемы тут: /channel/gonzo_ML_podcasts/3677
Про разную экономику разметки для реворда и для динамики среды при обучении моделей мира.
On Training in Imagination
Nadav Timor, Ravid Shwartz-Ziv, Micah Goldblum, Yann LeCun, David Harel
Paper: https://arxiv.org/abs/2605.06732v2
Review: https://arxiviq.substack.com/p/on-training-in-imagination
# TL;DR
ЧТО сделали: Авторы предлагают теоретический и эмпирический фреймворк, который разделяет ошибку возврата в model-based RL на независимые компоненты динамики и реворда. Применяя степенные законы скейлинга к этим источникам ошибок, они выводят аналитическое (closed-form) решение для оптимального распределения фиксированного бюджета данных между сбором транзишенов среды и разметкой ревордов.
ПОЧЕМУ это важно: В современных парадигмах вроде RLHF и робототехники разметка ревордов обходится значительно дороже, чем сбор сырых переходов между состояниями среды. Эта работа заменяет эвристический подбор гиперпараметров математически строгой стратегией сбора данных. Она доказывает, что разное поведение скейлинга для моделей динамики и реворда требует фундаментально асимметричного распределения бюджета.
Для практиков: Модели ревордов выучиваются намного быстрее, чем модели динамики. Следовательно, пайплайны сбора данных должны делать сильный упор на транзишены, а не на разметку ревордов. Анализ также показывает: при фиксированном бюджете закупка больших объёмов дешёвых, зашумлённых лейблов математически выгоднее покупки небольшой партии дорогих высококачественных лейблов, при условии, что шум имеет нулевое матожидание.
Считать деньги здесь: /channel/gonzo_ML_podcasts/3654
🔬 Метод
В оригинальной работе метод был из себя весь такой замечательный, но замерялся на сравнительно простых задачах, без интеграций с эффективными фреймворками инференса.
Здесь же решили замерить скорость в работы в vLLM интеграции на широком наборе задач, включая ризонинг.
Рассматривают следующие конфигурации:
👉 bf16 бейзлайн
👉 fp8
👉 TQ k8v4 (6-7 бит на значение)
👉 TQ 4bit-nc
👉 TQ k3v4-nc
👉 TQ 3bit-nc
🧪 Эксперименты
Качество замеряют на Llama-3.3-70B-Instruct, Qwen3-30B-A3B-Instruct-2507, Minimax-2.7.
На long-context retrieval (MRCR) bf16/fp8/2 более высокобитных TurboQuant дают примерно одинаковое качество. Более агрессивные TurboQuant квантизации заметно просаживают.
На ризонинге fp8/k8v4 сохраняют 98% качества, TQ 4bit-nc 96%, а более агрессивные квантизации уже сильно хуже.
В плане экономии памяти fp8 экономит вдвое по сравнению с bf16, TQ k8v4 2.3-2.4 раза, TQ 4bit-nc - 3.1 - 3.4 раза, TQ 3bit-nc до 4-х раз.
На Llama fp8 дает почти двухкратное ускорение инференса, но почти без разницы для Qwen3 MoE. TQ замедляет на 20-40% инференс на Llama, и на 40-60% на Qwen3.
Throughput у FP8/BF16 примерно одинаковый, TQ уменьшает его до 66-80% в зависимости от модели и конфигурации квантизации.
💡 Выводы
📌 FP8 все еще остается хорошим бейзлайном по соотношению качество / экономия.
📌 TurboQuant k8v4 не дает существенной экономии против FP8, но замедляет инференс.
📌 TurboQuant 4bit-nc неплох как баланс между сжатием / качеством, если скорость не критична.
📌 Более агрессивные квантизации бесполезны.
Итого, TurboQuant не то чтобы особо практически полезная шняга.
Этой работе уже год, но мы её не разбирали, а она неожиданно выстрелила в этом году перед ICLR.
Многомерные пространства рулят, а идея со случайным вращением просто красивая. И вообще случайные вектора — это сила.
Пользуясь случаем хочу порекомендовать книгу "High-Dimensional Probability" Романа Вершинина про многомерную вероятность, в этом году вышло второе издание. Доступно на сайте автора: https://www.math.uci.edu/~rvershyn/papers/HDP-book/HDP-2.pdf (но я как обычно купил бумажную копию).
Курс лекций Романа также выложен на ютуб: https://www.youtube.com/playlist?list=PLPjEEUWIWhQV7X6dXfrVP3w0KBBLBVJ0j
TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate
Amir Zandieh, Majid Daliri, Majid Hadian, Vahab Mirrokni
Paper: https://arxiv.org/abs/2504.19874v1
Review: https://arxiviq.substack.com/p/turboquant-online-vector-quantization
Code: N/A + Unofficial
Model: N/A
# TL;DR
ЧТО сделали: Исследователи из Google и NYU представили TurboQuant — двухэтапный алгоритм векторного квантования, не зависящий от данных (data-oblivious). Он достигает почти оптимальных показателей искажения за счёт случайного вращения многомерных векторов для создания стабильного бета-распределения, применения оптимального скалярного квантования и использования однобитного скетча на остатках для гарантии несмещённой оценки скалярного произведения.
ПОЧЕМУ это важно: Для AI-инфраструктуры, упирающейся в память, традиционная офлайн-предобработка и зависящие от данных кодовые книги (как в k-means) создают серьёзное узкое горлышко.
Для практиков: Алгоритм работает "из коробки" как векторизованная альтернатива индексации с нулевым оверхедом, позволяя агрессивно сжимать KV-кэши LLM и масштабные векторные базы данных без просадок качества в long-context задачах или RAG-пайплайнах.
Квантовать тут: /channel/gonzo_ML_podcasts/3627
Слаб наш алайнмент!
A Single Neuron Is Sufficient to Bypass Safety Alignment in Large Language Models
Hamid Kazemi, Atoosa Chegini, Maria Safi
Статья: https://arxiv.org/abs/2605.08513v1
Ревью: https://arxiviq.substack.com/p/a-single-neuron-is-sufficient-to
# TL;DR
ЧТО сделали:
Исследователи из Apple показали, что механизмы безопасности (safety alignment) в современных LLM завязаны на отдельные, изолированные MLP-нейроны, а не распределены по всей сети. Найдя всего один «нейрон отказа» (refusal neuron) и вмешавшись в его работу, авторы успешно обошли все защитные барьеры. И наоборот: усиление всего одного «нейрона концепта» заставило модель генерировать вредоносный контент в ответ на абсолютно безобидные промпты.
ПОЧЕМУ это важно:
Это открытие ломает устоявшееся мнение, что стандартные методы вроде RLHF или файнтюнинга создают надёжную, распределённую систему безопасности. Тот факт, что у защитного периметра модели есть единая точка отказа, обнажает серьёзную архитектурную уязвимость. Это значит, что нужны принципиально новые парадигмы алаймента, которые будут по-настоящему распределять знания о безопасности по сети, делая её устойчивой к точечным white-box вмешательствам.
Для практиков:
Статья подсвечивает критическую уязвимость в современных frontier и открытых моделях. Несмотря на миллионы параметров, задействованных в файнтюнинге для безопасности, реальный механизм блокировки вредоносных запросов схлопывается до одного-единственного нейрона. Причём это касается не только отказов: базовые вредоносные знания точно так же изолированы в конкретных «нейронах концептов». Выходит, что текущее обучение безопасности не затирает опасные способности и не формирует надёжных этических представлений. Оно лишь натягивает хрупкую «растяжку», завязанную на один компонент, которую элементарно обойти на инференсе.
Выравниваться тут: /channel/gonzo_ML_podcasts/3608
Картинка с геораспределением аффилиаций на последнем ICLR 2026
https://x.com/konstantdobler/status/2053098441069216113
Сейчас по сети ходит также другая картинка (https://github.com/DmytroLopushanskyy/iclr2026-affiliations), но как я понимаю эта вторая фильтрует top-50 institutions из-за чего EU + Япония не представлены на графике, что неверно.
Новый закон скейлинга для байтов вместо токенов. 60 байт на параметр.
Compute Optimal Tokenization
Tomasz Limisiewicz, Artidoro Pagnoni, Srini Iyer, Mike Lewis, Sachin Mehta, Alisa Liu, Margaret Li, Gargi Ghosh, Luke Zettlemoyer
Paper: https://arxiv.org/abs/2605.01188v1
Code: https://co-tok.github.io
Review: https://arxiviq.substack.com/p/compute-optimal-tokenization
Model: N/A
# TL;DR
ЧТО сделали: Авторы систематически вывели законы скейлинга (neural scaling laws) с учётом сжатия информации. Для этого они обучили почти 1300 моделей, чтобы понять, как гранулярность информации (байты на токен) влияет на оптимальное распределение вычислительных ресурсов.
ПОЧЕМУ это важно: Работа доказывает, что общепринятая эвристика масштабирования моделей (20 токенов на параметр) — это просто артефакт конкретных сабворд-токенизаторов. Переход к независимым от токенизатора законам на основе байтов даёт надёжный фреймворк для максимизации эффективности вычислений на разных языках и модальностях.
Для практиков: Для команд, оптимизирующих масштабное предобучение, токенизация часто выглядит как статичный шаг препроцессинга. Эта статья предлагает смотреть на токенизацию как на динамическую переменную масштабирования. Оптимизируя степень сжатия (информационную плотность), авторы показывают, что объём обучающих данных должен масштабироваться пропорционально параметрам модели в *байтах*, а не в токенах. Кроме того, оптимальная степень сжатия зависит от доступных вычислений: чем больше бюджет FLOPs, тем меньшее сжатие требуется. Это даёт новый чертёж для сборки сверхэффективных мультиязычных foundation-моделей.
Изучать законы здесь: /channel/gonzo_ML_podcasts/3587
Новые ядра и формат упаковки для _неструктурированной_ разреженности от Sakana + NVIDIA.
Sparser, Faster, Lighter Transformer Language Models
Edoardo Cetin, Stefano Peluchetti, Emilio Castillo, Akira Naruse, Mana Murakami, Llion Jones
Статья: https://arxiv.org/abs/2603.23198
Код: https://github.com/SakanaAI/sparser-faster-llms
Ревью: https://arxiviq.substack.com/p/sparser-faster-lighter-transformer
# TL;DR
ЧТО сделали: Авторы представили аппаратно-ориентированный фреймворк, который ускоряет LLM за счет использования неструктурированной разреженности активаций. Они разработали новый формат упаковки в памяти (TwELL), динамические гибридные представления для этапа обучения и набор кастомных CUDA-ядер, которые бесшовно объединяют материализацию разреженных данных с вычислениями.
ПОЧЕМУ это важно: Исследование решает фундаментальный боттлнек современных ИИ-систем: парадокс, при котором теоретически более дешевые умножения разреженных матриц на GPU работают медленнее плотных из-за неоптимальных паттернов доступа к памяти. Подход доказывает, что 99% неструктурированную разреженность можно конвертировать в >20% реального ускорения (wall-clock speedup) без перекройки архитектуры.
Для практиков: Фреймворк позволяет использовать стандартную L₁-регуляризацию для создания разреженности и легко интегрируется как drop-in replacement слой ускорения для существующих моделей. На выходе получаем снижение пикового потребления памяти до 28% и расхода энергии на 17% без потерь в качестве.
Разреживать тут: /channel/gonzo_ML_podcasts/3562
2) test-time scaling из коробки — часто можно погонять рекурсию поглубже для получения более качественного результата. Это в каком-то смысле ризонинг внутри latent space, только реализованный снова по глубине, а не по длине последовательности как у Coconut. И даже на моём примере с UT+memory в решении задач судоку модель скейлится сильно за пределы количества итераций, на котором она обучалась, и продолжает улучшать результат.
В общем, я лично жду появления реально больших моделей с такими свойствами. Наверняка, конечно, в сочетании с другими современными улучшениями — sparse MoE, mHC, низкоразрядным обучением и квантованием (ещё лучше для edge!). В своём прогнозе на 2026 я как-то невнятно про рекуррентность написал, одним словом просто, но теперь исправляюсь!