gonzo_ml | Unsorted

Telegram-канал gonzo_ml - gonzo-обзоры ML статей

23723

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Subscribe to a channel

gonzo-обзоры ML статей

Красивая история. UT с последовательным применением линейного внимания увеличивает выразительность трансформера, одновременно сохраняя разумную вычислительную сложность.

LT2: Linear-Time Looped Transformers
Chunyuan Deng, Yizhe Zhang, Rui-jie Zhu, Yuanyuan Xu, Jiarui Liu, T. S. Eugene Ng, and Hanjie Chen
Paper: https://arxiv.org/abs/2605.20670
Code: https://github.com/chili-lab/LT2
Model: https://huggingface.co/chili-lab/Ouro-hybrid-1.4B
Review: https://arxiviq.substack.com/p/lt2-linear-time-looped-transformers

# TL;DR

ЧТО сделали: Авторы представили архитектуру LT2 (Linear-Time Looped Transformers) — семейство рекурсивных моделей, в которых ресурсоёмкое квадратичное внимание заменено на субквадратичные, линейные или разреженные механизмы смешивания токенов. Также они предложили гибридный подход, сочетающий разные типы внимания по глубине и шагам цикла, и разработали многоэтапную стратегию дистилляции для переноса весов из предобученных полносвязных зацикленных трансформеров.

ПОЧЕМУ это важно: Хотя зацикленные трансформеры отлично экономят параметры за счёт повторного использования слоёв, стандартный softmax attention заставляет объём вычислений при обучении и размер KV-cache расти квадратично от длины контекста. LT2 устраняет это узкое место. Исследователи доказали, что зацикливание качественно обогащает субквадратичные миксеры — оно расширяет комбинаторное рецептивное поле разреженного внимания и повышает ранг состояния линейного внимания. Это позволяет запускать мощные рассуждающие модели на длинных контекстах с минимальным потреблением памяти.

Для практиков: Разработанный метод дистилляции даёт готовый рецепт превращения тяжёлой зацикленной модели с полным вниманием в лёгкую субквадратичную версию. Это сокращает объём памяти под KV-cache и ускоряет инференс в 5–6 раз без потери качества работы с длинным контекстом.

Линейно зацикливать здесь: /channel/gonzo_ML_podcasts/3714

Читать полностью…

gonzo-обзоры ML статей

Стратегии test-time scaling вручную подбирать не надо, когда есть автомат.

LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling
Tong Zheng, Haolin Liu, Chengsong Huang, Huiwen Bao, Sheng Zhang, Rui Liu, Runpeng Dai, Ruibo Chen, Chenxi Liu, Tianyi Xiong, Xidong Wu, Hongming Zhang, Heng Huang
Статья: https://arxiv.org/abs/2605.08083
Код: https://github.com/zhengkid/AutoTTS
Ревью: https://arxiviq.substack.com/p/llms-improving-llms-agentic-discovery

# TL;DR

ЧТО сделали: Группа исследователей представила AutoTTS — фреймворк, который использует LLM-исследователя для автоматического поиска и синтеза алгоритмов test-time scaling (TTS). Формулируя распределение вычислений на инференсе как поиск политики в офлайн-среде, система автономно проектирует Python-контроллеры. Эти контроллеры в динамике решают, когда модели нужно создать новую ветку, сделать пробинг, выполнить прунинг или остановиться.

ПОЧЕМУ это важно: Сейчас в test-time scaling доминируют ручные эвристики (например, классический self-consistency или раннее завершение). AutoTTS показывает сдвиг парадигмы: авторы создают среду для поиска, а не сам алгоритм. Найденная таким образом стратегия Confidence Momentum Controller описывает оптимальную границу (Pareto frontier) между точностью и стоимостью, снижая расход токенов почти на 70% по сравнению со стандартным self-consistency. А весь процесс автоматического поиска обошёлся менее чем в $40.

Для практиков: Вместо того чтобы вручную подбирать пороги для отсечения веток или фиксировать количество генераций, можно собрать офлайн-базу логов генерации и заставить агента написать оптимальный код контроллера, который будет динамически управлять бюджетом токенов под вашу конкретную задачу.

Скейлить тут: /channel/gonzo_ML_podcasts/3706

Читать полностью…

gonzo-обзоры ML статей

С одной стороны весь файнтюнинг безопасности можно обойти, воздействуя на один единственный нейрон, с другой стороны если грохнуть одну конкретную важную для решения задачи схему, найдётся ещё миллион других не хуже. Диалектика.

All Circuits Lead to Rome: Rethinking Functional Anisotropy in Circuit and Sheaf Discovery for LLMs
Xi Chen, Mingyu Jin, Jingcheng Niu, Yutong Yin, Jinman Zhao, Bangwei Guo, Dimitris N. Metaxas, Zhaoran Wang, Yutao Yue, Gerald Penn
Статья: https://arxiv.org/abs/2605.12671
Код: https://github.com/TonyXiChen/OASR
Ревью: https://arxiviq.substack.com/p/all-circuits-lead-to-rome-rethinking

# TL;DR

ЧТО сделали: Авторы предложили метод Overlap-Aware Sheaf Repulsion (OASR) и показали, что в LLM есть множество функционально эквивалентных и почти не пересекающихся вычислительных подграфов. Эти механизмы независимо выполняют одну и ту же задачу, что разрушает привычную гипотезу о существовании уникальных "каноничных" вычислительных схем.

ПОЧЕМУ это важно: Работа сдвигает парадигму механистической интерпретируемости от редукционистского поиска единственной истинной схемы к распределённому подходу. Попытки выравнивания (AI alignment), редактирования или оценки моделей на основе одиночных подсетей могут провалиться, так как параллельные избыточные механизмы легко поддержат исходное поведение.

Для практиков: Если вы пытаетесь задебажить LLM, удаляя одну конкретную цепочку вычислений, будьте готовы, что модель решит задачу обходным путём. Искать и контролировать нужно целые плотные семейства резервных механизмов, а не одиночные связи.

Искать схемы тут: /channel/gonzo_ML_podcasts/3677

Читать полностью…

gonzo-обзоры ML статей

Про разную экономику разметки для реворда и для динамики среды при обучении моделей мира.

On Training in Imagination
Nadav Timor, Ravid Shwartz-Ziv, Micah Goldblum, Yann LeCun, David Harel
Paper: https://arxiv.org/abs/2605.06732v2
Review: https://arxiviq.substack.com/p/on-training-in-imagination

# TL;DR

ЧТО сделали: Авторы предлагают теоретический и эмпирический фреймворк, который разделяет ошибку возврата в model-based RL на независимые компоненты динамики и реворда. Применяя степенные законы скейлинга к этим источникам ошибок, они выводят аналитическое (closed-form) решение для оптимального распределения фиксированного бюджета данных между сбором транзишенов среды и разметкой ревордов.

ПОЧЕМУ это важно: В современных парадигмах вроде RLHF и робототехники разметка ревордов обходится значительно дороже, чем сбор сырых переходов между состояниями среды. Эта работа заменяет эвристический подбор гиперпараметров математически строгой стратегией сбора данных. Она доказывает, что разное поведение скейлинга для моделей динамики и реворда требует фундаментально асимметричного распределения бюджета.

Для практиков: Модели ревордов выучиваются намного быстрее, чем модели динамики. Следовательно, пайплайны сбора данных должны делать сильный упор на транзишены, а не на разметку ревордов. Анализ также показывает: при фиксированном бюджете закупка больших объёмов дешёвых, зашумлённых лейблов математически выгоднее покупки небольшой партии дорогих высококачественных лейблов, при условии, что шум имеет нулевое матожидание.

Считать деньги здесь: /channel/gonzo_ML_podcasts/3654

Читать полностью…

gonzo-обзоры ML статей

🔬 Метод

В оригинальной работе метод был из себя весь такой замечательный, но замерялся на сравнительно простых задачах, без интеграций с эффективными фреймворками инференса.

Здесь же решили замерить скорость в работы в vLLM интеграции на широком наборе задач, включая ризонинг.

Рассматривают следующие конфигурации:
👉 bf16 бейзлайн
👉 fp8
👉 TQ k8v4 (6-7 бит на значение)
👉 TQ 4bit-nc
👉 TQ k3v4-nc
👉 TQ 3bit-nc

🧪 Эксперименты

Качество замеряют на Llama-3.3-70B-Instruct, Qwen3-30B-A3B-Instruct-2507, Minimax-2.7.

На long-context retrieval (MRCR) bf16/fp8/2 более высокобитных TurboQuant дают примерно одинаковое качество. Более агрессивные TurboQuant квантизации заметно просаживают.

На ризонинге fp8/k8v4 сохраняют 98% качества, TQ 4bit-nc 96%, а более агрессивные квантизации уже сильно хуже.

В плане экономии памяти fp8 экономит вдвое по сравнению с bf16, TQ k8v4 2.3-2.4 раза, TQ 4bit-nc - 3.1 - 3.4 раза, TQ 3bit-nc до 4-х раз.

На Llama fp8 дает почти двухкратное ускорение инференса, но почти без разницы для Qwen3 MoE. TQ замедляет на 20-40% инференс на Llama, и на 40-60% на Qwen3.

Throughput у FP8/BF16 примерно одинаковый, TQ уменьшает его до 66-80% в зависимости от модели и конфигурации квантизации.

💡 Выводы

📌 FP8 все еще остается хорошим бейзлайном по соотношению качество / экономия.
📌 TurboQuant k8v4 не дает существенной экономии против FP8, но замедляет инференс.
📌 TurboQuant 4bit-nc неплох как баланс между сжатием / качеством, если скорость не критична.
📌 Более агрессивные квантизации бесполезны.

Итого, TurboQuant не то чтобы особо практически полезная шняга.

Читать полностью…

gonzo-обзоры ML статей

Этой работе уже год, но мы её не разбирали, а она неожиданно выстрелила в этом году перед ICLR.

Многомерные пространства рулят, а идея со случайным вращением просто красивая. И вообще случайные вектора — это сила.

Пользуясь случаем хочу порекомендовать книгу "High-Dimensional Probability" Романа Вершинина про многомерную вероятность, в этом году вышло второе издание. Доступно на сайте автора: https://www.math.uci.edu/~rvershyn/papers/HDP-book/HDP-2.pdf (но я как обычно купил бумажную копию).

Курс лекций Романа также выложен на ютуб: https://www.youtube.com/playlist?list=PLPjEEUWIWhQV7X6dXfrVP3w0KBBLBVJ0j

TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate
Amir Zandieh, Majid Daliri, Majid Hadian, Vahab Mirrokni
Paper: https://arxiv.org/abs/2504.19874v1
Review: https://arxiviq.substack.com/p/turboquant-online-vector-quantization
Code: N/A + Unofficial
Model: N/A

# TL;DR

ЧТО сделали: Исследователи из Google и NYU представили TurboQuant — двухэтапный алгоритм векторного квантования, не зависящий от данных (data-oblivious). Он достигает почти оптимальных показателей искажения за счёт случайного вращения многомерных векторов для создания стабильного бета-распределения, применения оптимального скалярного квантования и использования однобитного скетча на остатках для гарантии несмещённой оценки скалярного произведения.

ПОЧЕМУ это важно: Для AI-инфраструктуры, упирающейся в память, традиционная офлайн-предобработка и зависящие от данных кодовые книги (как в k-means) создают серьёзное узкое горлышко.

Для практиков: Алгоритм работает "из коробки" как векторизованная альтернатива индексации с нулевым оверхедом, позволяя агрессивно сжимать KV-кэши LLM и масштабные векторные базы данных без просадок качества в long-context задачах или RAG-пайплайнах.

Квантовать тут: /channel/gonzo_ML_podcasts/3627

Читать полностью…

gonzo-обзоры ML статей

Слаб наш алайнмент!

A Single Neuron Is Sufficient to Bypass Safety Alignment in Large Language Models
Hamid Kazemi, Atoosa Chegini, Maria Safi
Статья: https://arxiv.org/abs/2605.08513v1
Ревью: https://arxiviq.substack.com/p/a-single-neuron-is-sufficient-to

# TL;DR

ЧТО сделали:
Исследователи из Apple показали, что механизмы безопасности (safety alignment) в современных LLM завязаны на отдельные, изолированные MLP-нейроны, а не распределены по всей сети. Найдя всего один «нейрон отказа» (refusal neuron) и вмешавшись в его работу, авторы успешно обошли все защитные барьеры. И наоборот: усиление всего одного «нейрона концепта» заставило модель генерировать вредоносный контент в ответ на абсолютно безобидные промпты.

ПОЧЕМУ это важно:
Это открытие ломает устоявшееся мнение, что стандартные методы вроде RLHF или файнтюнинга создают надёжную, распределённую систему безопасности. Тот факт, что у защитного периметра модели есть единая точка отказа, обнажает серьёзную архитектурную уязвимость. Это значит, что нужны принципиально новые парадигмы алаймента, которые будут по-настоящему распределять знания о безопасности по сети, делая её устойчивой к точечным white-box вмешательствам.

Для практиков:
Статья подсвечивает критическую уязвимость в современных frontier и открытых моделях. Несмотря на миллионы параметров, задействованных в файнтюнинге для безопасности, реальный механизм блокировки вредоносных запросов схлопывается до одного-единственного нейрона. Причём это касается не только отказов: базовые вредоносные знания точно так же изолированы в конкретных «нейронах концептов». Выходит, что текущее обучение безопасности не затирает опасные способности и не формирует надёжных этических представлений. Оно лишь натягивает хрупкую «растяжку», завязанную на один компонент, которую элементарно обойти на инференсе.

Выравниваться тут: /channel/gonzo_ML_podcasts/3608

Читать полностью…

gonzo-обзоры ML статей

Картинка с геораспределением аффилиаций на последнем ICLR 2026

https://x.com/konstantdobler/status/2053098441069216113

Сейчас по сети ходит также другая картинка (https://github.com/DmytroLopushanskyy/iclr2026-affiliations), но как я понимаю эта вторая фильтрует top-50 institutions из-за чего EU + Япония не представлены на графике, что неверно.

Читать полностью…

gonzo-обзоры ML статей

Новый закон скейлинга для байтов вместо токенов. 60 байт на параметр.

Compute Optimal Tokenization
Tomasz Limisiewicz, Artidoro Pagnoni, Srini Iyer, Mike Lewis, Sachin Mehta, Alisa Liu, Margaret Li, Gargi Ghosh, Luke Zettlemoyer
Paper: https://arxiv.org/abs/2605.01188v1
Code: https://co-tok.github.io
Review: https://arxiviq.substack.com/p/compute-optimal-tokenization
Model: N/A

# TL;DR

ЧТО сделали: Авторы систематически вывели законы скейлинга (neural scaling laws) с учётом сжатия информации. Для этого они обучили почти 1300 моделей, чтобы понять, как гранулярность информации (байты на токен) влияет на оптимальное распределение вычислительных ресурсов.

ПОЧЕМУ это важно: Работа доказывает, что общепринятая эвристика масштабирования моделей (20 токенов на параметр) — это просто артефакт конкретных сабворд-токенизаторов. Переход к независимым от токенизатора законам на основе байтов даёт надёжный фреймворк для максимизации эффективности вычислений на разных языках и модальностях.

Для практиков: Для команд, оптимизирующих масштабное предобучение, токенизация часто выглядит как статичный шаг препроцессинга. Эта статья предлагает смотреть на токенизацию как на динамическую переменную масштабирования. Оптимизируя степень сжатия (информационную плотность), авторы показывают, что объём обучающих данных должен масштабироваться пропорционально параметрам модели в *байтах*, а не в токенах. Кроме того, оптимальная степень сжатия зависит от доступных вычислений: чем больше бюджет FLOPs, тем меньшее сжатие требуется. Это даёт новый чертёж для сборки сверхэффективных мультиязычных foundation-моделей.

Изучать законы здесь: /channel/gonzo_ML_podcasts/3587

Читать полностью…

gonzo-обзоры ML статей

Новые ядра и формат упаковки для _неструктурированной_ разреженности от Sakana + NVIDIA.

Sparser, Faster, Lighter Transformer Language Models

Edoardo Cetin, Stefano Peluchetti, Emilio Castillo, Akira Naruse, Mana Murakami, Llion Jones
Статья: https://arxiv.org/abs/2603.23198
Код: https://github.com/SakanaAI/sparser-faster-llms
Ревью: https://arxiviq.substack.com/p/sparser-faster-lighter-transformer

# TL;DR

ЧТО сделали: Авторы представили аппаратно-ориентированный фреймворк, который ускоряет LLM за счет использования неструктурированной разреженности активаций. Они разработали новый формат упаковки в памяти (TwELL), динамические гибридные представления для этапа обучения и набор кастомных CUDA-ядер, которые бесшовно объединяют материализацию разреженных данных с вычислениями.

ПОЧЕМУ это важно: Исследование решает фундаментальный боттлнек современных ИИ-систем: парадокс, при котором теоретически более дешевые умножения разреженных матриц на GPU работают медленнее плотных из-за неоптимальных паттернов доступа к памяти. Подход доказывает, что 99% неструктурированную разреженность можно конвертировать в >20% реального ускорения (wall-clock speedup) без перекройки архитектуры.

Для практиков: Фреймворк позволяет использовать стандартную L₁-регуляризацию для создания разреженности и легко интегрируется как drop-in replacement слой ускорения для существующих моделей. На выходе получаем снижение пикового потребления памяти до 28% и расхода энергии на 17% без потерь в качестве.

Разреживать тут: /channel/gonzo_ML_podcasts/3562

Читать полностью…

gonzo-обзоры ML статей

2) test-time scaling из коробки — часто можно погонять рекурсию поглубже для получения более качественного результата. Это в каком-то смысле ризонинг внутри latent space, только реализованный снова по глубине, а не по длине последовательности как у Coconut. И даже на моём примере с UT+memory в решении задач судоку модель скейлится сильно за пределы количества итераций, на котором она обучалась, и продолжает улучшать результат.

В общем, я лично жду появления реально больших моделей с такими свойствами. Наверняка, конечно, в сочетании с другими современными улучшениями — sparse MoE, mHC, низкоразрядным обучением и квантованием (ещё лучше для edge!). В своём прогнозе на 2026 я как-то невнятно про рекуррентность написал, одним словом просто, но теперь исправляюсь!

Читать полностью…

gonzo-обзоры ML статей

Ещё одна красивая история про забывание, но теперь с другой стороны — делаем попараметрический weight decay для continual learning.

Learning to Forget: Continual Learning with Adaptive Weight Decay
Aditya A. Ramesh, Alex Lewandowski, Jürgen Schmidhuber
Статья: https://arxiv.org/abs/2604.27063v1
Код: https://github.com/Aditya-Ramesh-10/Fade
Ревью: https://arxiviq.substack.com/p/learning-to-forget-continual-learning

# TL;DR

ЧТО сделали:
Авторы предлагают Forgetting through Adaptive DEcay (FADE) — online-алгоритм метаобучения (meta-learning), который назначает динамический коэффициент weight decay (затухания весов) индивидуально для каждого параметра сети. Используя forward-mode дифференцирование, FADE избирательно регулирует скорость, с которой конкретные веса забывают прошлые состояния, на основе ошибки предсказания.

ПОЧЕМУ это важно:
В сценариях continual learning с нестационарными потоками данных и конечной емкостью модели возникает дилемма стабильности-пластичности (stability-plasticity trade-off). Стандартный скалярный weight decay работает как глобальный регуляризатор, равномерно стирая как устаревшие отображения, так и стабильные знания. FADE решает эту проблему, автоматизируя разумное забывание для каждого параметра. Это существенно повышает качество работы и предотвращает потерю пластичности без усложнения архитектуры.

Для практиков:
Статья предлагает крайне эффективный метод с вычислительной сложностью O(d) для автоматизации попараметрического забывания в нейросетях. Превращая weight decay из статического штрафа в динамический механизм, алгоритм вдвое снижает ошибку отслеживания (tracking error) по сравнению со стандартными оптимизаторами вроде AdamW. Это фундаментальная техника для агентов с ограниченной емкостью, работающих в средах с непрерывным обучением, где границы задач неизвестны, а данные полностью нестационарны.

Подзабывать здесь: /channel/gonzo_ML_podcasts/3536

Читать полностью…

gonzo-обзоры ML статей

Хитроумный Одиссей.

Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning
Chengshuai Shi, Wenzhe Li, Xinran Liang, Yizhou Lu, Wenjia Yang, Ruirong Feng, Seth Karten, Ziran Yang, Zihan Ding, Gabriel Sarch, Danqi Chen, Karthik Narasimhan, Chi Jin
Статья: https://arxiv.org/abs/2605.00347
Код: https://odysseus-project.github.io/
Ревью: https://arxiviq.substack.com/p/odysseus-scaling-vlms-to-100-turn

# TL;DR

ЧТО сделали: Авторы представили Odysseus — открытый фреймворк обучения с подкреплением (RL), который позволяет масштабировать Vision-Language Models (VLM) на задачи непрерывного принятия решений длиной более 100 шагов взаимодействия. Спарив огромную VLM-политику с крошечным CNN-критиком и применив фильтрацию положительных преимуществ (positive-advantage filtering), исследователи обходят вычислительные боттлнеки и нестабильность традиционных мультимодальных actor-critic методов.

ПОЧЕМУ это важно: Текущий RL-файнтюнинг для фундаментальных моделей обычно буксует на горизонте в 20–30 шагов или полностью опирается на чистое имитационное обучение. Работа даёт вычислительно подъёмный рецепт превращения пассивных рассуждающих моделей (reasoning models) в надёжных embodied-агентов. Делегирование распределения награды во времени крошечному «зрительному» критику позволяет стабильно обучать VLM на сотни шагов плотного взаимодействия со средой.

Смотреть тут: /channel/gonzo_ML_podcasts/3511

Читать полностью…

gonzo-обзоры ML статей

Не все йогурты репрезентации одинаково полезны!

Convergent Evolution: How Different Language Models Learn Similar Number Representations
Deqing Fu, Tianyi Zhou, Mikhail Belkin, Vatsal Sharan, Robin Jia
Paper: https://arxiv.org/abs/2604.20817
Model: https://hf.co/collections/deqing/convergent-evolution
Review: https://arxiviq.substack.com/p/convergent-evolution-how-different

# TL;DR

ЧТО сделали:
Авторы систематически исследуют, почему разнообразные языковые модели естественным образом вырабатывают периодические репрезентации для числовых токенов. Они выделяют двухуровневую иерархию, отделяющую «спектральную сходимость» (универсальное появление Фурье-всплесков в пространстве эмбеддингов) от «геометрической сходимости» (функциональной способности линейно классифицировать числа по модулю периода).

ПОЧЕМУ это важно:
Эта работа вводит критически важную теоретическую проверку для механистической интерпретируемости. Она доказывает, что визуально заметные структуры в пространстве репрезентаций модели не гарантируют выучивания функционального алгоритма. Это ставит под сомнение гипотезу о том, что общие статистические артефакты автоматически означают общие способности к рассуждению.

Для практиков:
Часто периодические паттерны в эмбеддингах LLM трактуются как доказательство того, что модель освоила модульную арифметику. Статья показывает, что эти Фурье-сигнатуры — лишь повсеместный артефакт частотностей токенов датасета. Они появляются даже в классических эмбеддингах или в сырых, необученных распределениях данных. При этом настоящая функциональность, измеряемая линейной разделимостью классов вычетов, возникает избирательно и только тогда, когда архитектура, оптимизатор и данные о совместной встречаемости текста и чисел работают согласованно. Описывая этот феномен как форму «конвергентной эволюции», авторы предлагают строгий фреймворк, позволяющий отличить поверхностную статистическую мимикрию от реального функционального выучивания фичей.

Полезные и бесполезные репрезентации тут: /channel/gonzo_ML_podcasts/3487

Читать полностью…

gonzo-обзоры ML статей

Попалась свежая интересная репа, собирающая всё про UT/Looped Models

https://github.com/huskydoge/Awesome-Loop-Models

Читать полностью…

gonzo-обзоры ML статей

Ты инженер или философ?

Читать полностью…

gonzo-обзоры ML статей

Больше рекурсий богу рекурсий! По факту добавили в TRM работу с популяцией решений.

Generative Recursive Reasoning
Junyeob Baek, Mingyu Jo, Minsu Kim, Mengye Ren, Yoshua Bengio, Sungjin Ahn
Paper: https://arxiv.org/abs/2605.19376
Code: https://ahn-ml.github.io/gram-website
Review: https://arxiviq.substack.com/p/generative-recursive-reasoning

# TL;DR

ЧТО сделали:
Авторы представили GRAM (Generative Recursive reAsoning Models) — вероятностный фреймворк, который превращает рекурсивные латентные рассуждения из детерминированной последовательности шагов в стохастический многотраекторный процесс. За счёт интеграции обучаемых гауссовских шумов в скрытые переходы и обучения системы через амортизированный вариационный вывод, GRAM строит как условные рассуждения p_θ(y | x), так и генерирует распределения p_θ(x) на непрерывных латентных траекториях.

ПОЧЕМУ это важно:
Существующие рекурсивные модели страдают от коллапса мод в задачах со множеством решений, так как их латентные траектории детерминированы. GRAM преодолевает это ограничение, позволяя масштабироваться на этапе инференса «в ширину» (через параллельный сэмплинг траекторий), что отлично дополняет классическое масштабирование «в глубину» без роста задержек. Модель обходит сильные детерминированные бейзлайны в сложных задачах на рассуждение и удовлетворение ограничений (таких как экстремальное Судоку, задача о ферзях и раскраска графов), оставаясь компактной по числу параметров.

Для практиков:
Получена эффективная по параметрам архитектура, которая умеет искать альтернативные пути решения сложных комбинаторных задач прямо в латентном пространстве. Метод позволяет гибко балансировать точность и вычислительные затраты на инференсе, запуская параллельные потоки рассуждений и выбирая лучший вариант с помощью встроенной модели оценки.

Рекурсировать тут: /channel/gonzo_ML_podcasts/3687

Читать полностью…

gonzo-обзоры ML статей

Рабочая диффузия приходит в язык.

Continuous Diffusion Meets Language Modeling: A Strategic Analysis of Embedded Language Flows
Keya Hu, Linlu Qiu, Yiyang Lu, Hanhong Zhao, Tianhong Li, Yoon Kim, Jacob Andreas, Kaiming He
Статья: https://arxiv.org/abs/2605.10938
Код: https://github.com/lillian039/ELF
Ревью: https://arxiviq.substack.com/p/elf-embedded-language-flows

# TL;DR

ЧТО сделали: Авторы представили Embedded Language Flows (ELF) — языковую модель на основе непрерывной диффузии, использующую continuous-time Flow Matching. ELF работает полностью в непрерывном пространстве эмбеддингов высокой размерности, использует единую сеть с общими весами для денойзинга и применяет дискретизацию (перевод эмбеддингов обратно в токены) исключительно на самом последнем шаге генерации.

ПОЧЕМУ это важно: Этот фреймворк успешно опровергает устоявшееся мнение о том, что для генерации текста строго необходимы алгоритмы дискретной диффузии. ELF демонстрирует превосходное качество генерации за значительно меньшее число шагов сэмплинга и требует на порядок меньше токенов для обучения по сравнению с ведущими дискретными моделями. По сути, это открывает путь к долгожданной унификации базовых архитектур для генерации текста, изображений и видео.

Для практиков: Для исследователей и техлидов, присматривающихся к мультимодальным архитектурам нового поколения, разрыв между непрерывной диффузией в CV и дискретной диффузией (или авторегрессией) в NLP долгое время был главной архитектурной болью. Работа ELF доказывает, что исторически слабые результаты языковых моделей на непрерывной диффузии были вызваны плохими дизайнерскими решениями — в частности, промежуточной дискретизацией на каждом шаге денойзинга — а не фундаментальной несовместимостью парадигмы с языком. Благодаря использованию единой сети как для непрерывного потока, так и для финальной проекции в дискретный словарь, языковые модели теперь могут унаследовать законы масштабирования, стабильность обучения и методы сэмплинга (например, Classifier-Free Guidance), которые ранее стали драйвером невероятного прогресса в генерации картинок.

Диффундировать здесь: /channel/gonzo_ML_podcasts/3662

Читать полностью…

gonzo-обзоры ML статей

Большой обзор про модели мира для роботов.

World Model for Robot Learning: A Comprehensive Survey
Bohan Hou, Gen Li, Jindou Jia, Tuo An, Xinying Guo, Sicong Leng, Haoran Geng, Yanjie Ze, Tatsuya Harada, Philip Torr, Oier Mees, Marc Pollefeys, Zhuang Liu, Jiajun Wu, Pieter Abbeel, Jitendra Malik, Yilun Du, Jianfei Yang
Статья: https://arxiv.org/abs/2605.00080v1
Сайт: https://ntumars.github.io/wm-robot-survey/
Код: https://github.com/NTUMARS/Awesome-World-Model-for-Robotics-Policy
Ревью: https://arxiviq.substack.com/p/world-model-for-robot-learning-a

# TL;DR

ЧТО сделали: Статья предлагает всеобъемлющую, ориентированную на политики управления таксономию интеграции мировых моделей (world models) в обучение роботов. Авторы систематизируют область: от раздельных пайплайнов до единых архитектур с общим бэкбоном, а также по их функциональной роли — от пассивных предсказателей видео до интерактивных симуляторов для обучения с подкреплением.

ПОЧЕМУ это важно: Чисто реактивные Vision-Language-Action (VLA) модели достигают потолка в задачах, требующих рассуждений на длинных горизонтах, и страдают от накопления ошибок. Внедрение предиктивных структур даёт агентам причинно-следственное предвидение, физическую привязку к реальности и возможность генерировать масштабные синтетические данные. Всё это критически необходимо, чтобы вывести воплощённый ИИ на уровень надёжной работы в реальном мире.

Для практиков: Обзор фундаментально переосмысливает пользу мировых моделей в робототехнике. Перцептивный реализм (правдоподобная картинка) вторичен по отношению к согласованности предсказаний с действиями и функциональной полезности. Унифицируя различные архитектуры в рамках единого вероятностного фреймворка, авторы показывают стратегический сдвиг: область уходит от изолированных моделей генерации видео к интернализированным когнитивным механизмам, позволяющим роботам планировать роллауты и исправлять ошибки до совершения физического действия.

Обозревать здесь: /channel/gonzo_ML_podcasts/3640

Читать полностью…

gonzo-обзоры ML статей

A First Comprehensive Study of TurboQuant: Accuracy and Performance
[Блог]

Казалось бы, уже стоило бы забить на этот несчастный TurboQuant, но кому-то он все еще не дает покоя. И команда из Red Hat AI 🤠 провела систематическое исследование нашумевшего метода, фокусируясь на производительности и качестве работы на задачах.

Читать полностью…

gonzo-обзоры ML статей

Эволюцию скиллов подвезли.

SkillClaw: Let Skills Evolve Collectively with Agentic Evolver
Ziyu Ma, Shidong Yang, Yuxiang Ji, Xucong Wang, Yong Wang, Yiming Hu, Tongwen Huang, Xiangxiang Chu
Статья: https://arxiv.org/abs/2604.08377
Код: https://github.com/AMAP-ML/SkillClaw
Ревью: https://arxiviq.substack.com/p/skillclaw-let-skills-evolve-collectively

# TL;DR

ЧТО сделали: Авторы предложили фреймворк SkillClaw, который переводит LLM-агентов от использования жёстко заданных статических навыков к динамическим, самосовершенствующимся экосистемам. Система собирает логи выполнения от разных пользователей и использует автономного «агентного эволюционера» (agentic evolver) для итеративного улучшения или создания процедур в общей централизованной базе.

ПОЧЕМУ это важно: Современные агенты страдают от фрагментированного обучения: разные инстансы раз за разом спотыкаются об одни и те же краевые случаи. Формализация цикла сбора коллективных данных, открытого рассуждения и эмпирической валидации позволяет системе монотонно накапливать процедурный интеллект, не требуя ручного промпт-инжиниринга.

Для практиков: Подход даёт возможность агентам самостоятельно исправлять баги в логике своих инструментов в фоновом режиме. Главные трейд-оффы — существенно возросший расход токенов на регулярную симуляцию проверок и необходимость жёсткого контроля за тем, чтобы приватные данные пользователей не утекли в общий системный код навыка.

Эволюционировать тут: /channel/gonzo_ML_podcasts/3618

Читать полностью…

gonzo-обзоры ML статей

И снова BLT, но теперь быстрый!

Fast Byte Latent Transformer
Julie Kallini, Artidoro Pagnoni, Tomasz Limisiewicz, Gargi Ghosh, Luke Zettlemoyer, Christopher Potts, Xiaochuang Han, Srinivasan Iyer
Статья: https://arxiv.org/abs/2605.08044v1
Ревью: https://arxiviq.substack.com/p/fast-byte-latent-transformer

# TL;DR

ЧТО сделали: Авторы представили три метода генерации — BLT Diffusion (BLT-D), BLT Self-speculation (BLT-S) и BLT Diffusion+Verification (BLT-DV) — для параллельного декодирования байтов в иерархических языковых моделях. Используя поблочную дискретную диффузию и внутреннее спекулятивное декодирование, они обходят узкое место строгой авторегрессионной побайтовой генерации.

ПОЧЕМУ это важно: Байтовые архитектуры по своей природе решают проблемы сабворд-токенизации (например, уязвимость к состязательным атакам и неравенство языков), но до сих пор страдали от медленного инференса. Снижая затраты на пропускную способность памяти (memory bandwidth) до 92% в некоторых конфигурациях, эти методы делают foundation модели без токенизатора вычислительно конкурентоспособными для реального применения.

Для практиков: Фреймворк BLT-S позволяет ускорить инференс и снизить нагрузку на память без потери качества, используя саму модель в качестве генератора черновиков (drafts). Пока нет оптимизированных CUDA-ядер, это скорее концепт, но в перспективе — это готовый рецепт для деплоя байтовых моделей в продакшен.

Ускорять инференс здесь: /channel/gonzo_ML_podcasts/3597

Читать полностью…

gonzo-обзоры ML статей

И снова про рекурсии :)

Пользуясь случаем, поздравляю Лёшу Досовицкого и всю команду. Ещё и Питера Норвига привлекли!

https://www.recursive.com/

Читать полностью…

gonzo-обзоры ML статей

Гипотеза линейных репрезентаций всё. Очередная работа, показывающая, что концепты внутри сети лежат на нелинейном многообразии и интерполяция через евклидово пространство не работает. Другая похожая работа была про геометрию счёта от Антропика. И вообще за последнее время было уже столько работ про геометрию (вот, например, ещё похожая, поищите просто по слову геометрия), что неевклидовость давно уже должна стать дефолтом.

Manifold Steering Reveals the Shared Geometry of Neural Network Representation and Behavior

Daniel Wurgaft, Can Rager, Matthew Kowal, Vasudev Shyam, Sheridan Feucht, Usha Bhalla, Tal Haklay, Eric Bigelow, Raphael Sarfati, Thomas McGrath, Owen Lewis, Jack Merullo, Noah D. Goodman, Thomas Fel, Atticus Geiger, Ekdeep Singh Lubana
Статья: https://arxiv.org/abs/2605.05115v1
Код: https://github.com/goodfire-ai/causalab/tree/manifold_steering
Ревью: https://arxiviq.substack.com/p/manifold-steering-reveals-the-shared
Модели: LLaMA 3.1 8B, LLaMA 3.1 70B

# TL;DR

ЧТО сделали: Авторы предложили manifold steering — метод интервенций, который движется по искривлённым, нелинейным геометрическим структурам нейросетевых репрезентаций (вместо того чтобы полагаться на плоское евклидово скрытое пространство). Аппроксимируя сплайнами как внутренние активации, так и внешние распределения выходов, они показывают двунаправленную изометрию между этими двумя пространствами. Управление моделями вдоль этих внутренних кривых приводит к плавным, естественным траекториям в поведении.

ПОЧЕМУ это важно: Работа бросает вызов популярной гипотезе линейных репрезентаций (Linear Representation Hypothesis), которая гласит, что концепты кодируются прямыми векторами. Доказывая, что учёт внутренней геометрии необходим для когерентных каузальных интервенций, исследователи дают инструмент для борьбы с "телепортацией" (резкими скачками через неестественные промежуточные состояния) и коллапсом разнообразия. Главный вывод: правильной единицей анализа в foundation-моделях является не линейное направление, а внутренняя координата на многообразии репрезентаций.

Для практиков: Исторически управление ИИ-моделями опиралось на сдвиг их внутренних состояний по прямым линиям, что часто загоняло генерацию в ошибочные состояния. Статья доказывает, что нейросети организуют концепты в виде изогнутых многообразий. Если строго следовать этим внутренним кривым, можно плавно и надёжно контролировать модели, прокачивая AI alignment без слома внутренней логики.

Гулять по многообразию тут: /channel/gonzo_ML_podcasts/3574

Читать полностью…

gonzo-обзоры ML статей

Интересное на поразбираться и поприменять.

A Theory of Generalization in Deep Learning
Elon Litman, Gabe Guo
Статья: https://arxiv.org/abs/2605.01172v1
Ревью: https://arxiviq.substack.com/p/a-theory-of-generalization-in-deep

# TL;DR

ЧТО сделали:
Исследователи из Стэнфорда представили неасимптотическую теорию обобщения. Они математически доказали, что эмпирический Neural Tangent Kernel разделяет выходное пространство нейросети на две части: "видимый для теста" канал сигнала и "невидимый" резервуар шума. На базе этой теории авторы собрали модификацию для оптимизатора AdamW (с нулевым оверхедом), которая напрямую оценивает и минимизирует population risk за счёт гейтинга градиентов по их дисперсии.

ПОЧЕМУ это важно:
Теория выводит математическое понимание сетей за пределы "ленивого" режима (frozen-kernel). Она объясняет работу моделей в режиме полноценного выучивания фичей (feature learning), связывая архитектурную динамику с обобщающей способностью.

Для практиков:
Динамическая фильтрация параметров, отсекающая апдейты с доминирующим шумом батча, практически избавляет от необходимости early stopping. Модифицированный оптимизатор ускоряет грокинг в 5 раз и значительно снижает policy drift в зашумлённых задачах AI alignment (например, в DPO).

Погружаться в резервуар здесь: /channel/gonzo_ML_podcasts/3549

Читать полностью…

gonzo-обзоры ML статей

Recursion strikes back

Тема про рекурсию активно развивается в последний год. Мне кажется, это уже становится трендом, который должен дать много полезного выхлопа. Вот даже YCombinator на днях выложил видео “Recursion Is The Next Scaling Law In AI”, где они разбирают HRM и TRM (которые мы разобрали полгода назад, здесь и здесь соответственно) — опережаем YC в важных вещах на полгода! 💪😁

Ну а если серьёзно, то хочется эту тему немного дополнить. Видео хорошее, если хотите понять идеи за HRM/TRM и пока ещё не успели это сделать. И они молодцы, что при этом даже показывают немного кода для объяснения. Но видео могло бы быть сильно лучше, если бы авторы дали чуть больше контекста.

Что хорошо, они начинают с RNN, это ценно, а то в современном мире для многих ничего кроме трансформеров уже не существует. Исторический контекст HRM мы разбирали здесь, там кроме просто RNN как класса было много важных добавлений про Clockwork RNN и быстрые-медленные веса.

Что плохо, в видео рассказывают про HRM/TRM напрочь игнорируя важные работы-предшественницы.

Во-первых, как вы можете догадаться, это мой любимый Universal Transformer (2018) про который я вам тут уже все уши прожужжал. Ну это прям странно ничего не сказать про эту работу, когда она была одной из первых важных вех с рекурсией в трансформерной эре. Были, конечно ещё Transformer-XL (2019) и Compressive Transformer (2019), но у последних двух рекурсия была по последовательности (что хорошо для обработки длинных последовательностей особенно когда у тебя контекстное окно мелкое, как было в те годы), а у UT рекурсия по глубине, используя шаренные веса общего для всех слоя, это другое. То есть для XL это скорее память, а для UT — вычисления.

Ещё в 2019 был ALBERT aka A Lite BERT, который я вижу как UT-Lite, тоже шаренные веса, то есть применяется один и тот же слой, но нет механизма адаптивной остановки, количество рекурсий (=глубина трансформера) задана и фиксирована извне, просто работает всегда L итераций. UT в отличие от него для каждого токена мог решать, как долго его надо обрабатывать — простые можно быстро прогнать через несколько слоёв и успокоиться, а сложные можно и подольше поварить, если надо.

Работа про HRM при этом на UT ссылается, он как бы один из предшественников, а работа про TRM вообще про него молчит, хотя TRM сильно более похож на UT, чем HRM.

Второй большой момент — в конце 2025 появилась работа про URM, которую мы тогда же немедленно и разобрали. URM — это прям уже практически UT, и они конечно не могли не сослаться. В видео YC стоило бы его включить, как никак уже почти пять месяцев прошло, да и результат как бы лучше, чем у HRM/TRM. Пытался оставить им комментарий в ютубе, но все мои комментарии со ссылками ютуб по-тихому грохнул, я их не вижу 😿

Ну и ещё напрочь были проигнорированы все истории про Looped Transformers (которые по сути синоним UT) и которые уже появляются на масштабах малых LLM, из наиболее известных это Huginn (https://arxiv.org/abs/2502.05171) и Ouro (https://ouro-llm.github.io/).

Чтобы лучше подсветить разницу между всеми этими моделями, я в новой версии своей статьи про UT+memory даже табличку собрал (см. Table 9 здесь https://arxiv.org/abs/2604.21999v3).

Возвращаясь к теме про рекуррентность, таки да, я тоже считаю, что это большая тема. “Итерация от человека. Рекурсия - от Бога.” 😁

С теоретической стороны от неё поближе будет к универсальным вычислениям. С более практической стороны это два офигенных свойства:

1) низкий memory footprint — вместо модели, требующей памяти на условно 24 слоя, мы получаем модель весом в 24 раза меньше (ладно, в реальности не в 24, ибо эмбеддинги ещё, но тем не менее). Для edge и особенно носимых устройств вообще биг дил. С нынешними ценами на память — тоже 😁

1b) А как следствие ещё и избавляемся от постоянной загрузки весов из HBM (или ещё хуже обычной памяти, или совсем-совсем хуже — с диска) в SRAM ускорителя, что ещё всё ускоряет. Меньше гоняем данные — больше считаем, utilization ускорителя растёт.

Читать полностью…

gonzo-обзоры ML статей

Развитие тем покойного Нафтали Тишби (https://www.youtube.com/watch?v=utvIaZ6wYuw).

Learning Is Forgetting: LLM Training as Lossy Compression
Henry C. Conklin, Tom Hosking, Tan Yi-Chern, Julian Gold, Jonathan D. Cohen, Thomas L. Griffiths, Max Bartolo, Seraphina Goldfarb-Tarrant
Статья: https://arxiv.org/abs/2604.07569v1
Код: https://github.com/hcoxec/soft_h
Ревью: https://arxiviq.substack.com/p/learning-is-forgetting-llm-training

# TL;DR

ЧТО сделали: Исследователи из Принстона и Cohere успешно применили теорию информационного бутылочного горлышка (Information Bottleneck, IB) к большим языковым моделям (LLM) размером до 32 миллиардов параметров. Внедрив дифференцируемую оценку "мягкой энтропии", они спроецировали траектории предобучения больших трансформеров на информационную плоскость. Оказалось, что обучение состоит из двух чётких фаз: сначала репрезентации расширяются для подгонки под целевые метки, а затем наступает длительная фаза сжатия, во время которой нерелевантные входные данные "забываются".

ПОЧЕМУ это важно: Работа предлагает целостный подход на уровне всей модели, выступающий альтернативой механистической интерпретируемости. Авторы показали, что то, насколько близко модель подходит к оптимальному пределу сжатия с потерями, строго предсказывает её перформанс на сложных бенчмарках (r = 0.52) и согласованность с человеческими предпочтениями (r = 0.76).

Для практиков: Появляется рабочий способ использовать unsupervised метрики из теории информации для ранней остановки и выбора моделей. Это может существенно снизить зависимость от тяжёлых и вычислительно затратных доменных эвалюаций.

Забывать здесь: /channel/gonzo_ML_podcasts/3524

Читать полностью…

gonzo-обзоры ML статей

Сжатие сырых логов в структурированные саммари помогает кодовым агентам.

Scaling Test-Time Compute for Agentic Coding
Joongwon (Daniel) Kim, Winnie Yang, Kelvin Niu, Hongming Zhang, Yun Zhu, Eryk Helenowski, Ruan Silva, Zhengxing Chen, Srini Iyer, Manzil Zaheer, Daniel Fried, Hannaneh Hajishirzi, Sanjeev Arora, Gabriel Synnaeve, Ruslan Salakhutdinov, Anirudh Goyal
Статья: https://arxiv.org/abs/2604.16529
Ревью: https://arxiviq.substack.com/p/scaling-test-time-compute-for-agentic

# TL;DR

ЧТО сделали: Исследователи представили фреймворк для масштабирования вычислений на инференсе для агентов, решающих задачи с длинным горизонтом планирования. Они отказались от использования сырых логов выполнения в пользу структурированных саммари. Для выбора лучших решений распараллеленно применяется алгоритм Recursive Tournament Voting (RTV), а для последовательного ризонинга — адаптированный метод Parallel-Distill-Refine (PDR).

ПОЧЕМУ это важно: Работа изолирует главный боттлнек в масштабировании автономных агентов — представление информации. Авторы доказывают, что модели не могут эффективно оценивать шумные сырые логи взаимодействий или обучаться на них. Предложенная методология позволяет значительно улучшить результаты передовых моделей на сложных бенчмарках без дополнительного предобучения.

Для практиков: Если вы проектируете архитектуры System 2, учтите: выделение большего объема вычислений на инференсе даёт убывающую отдачу, если базовый опыт агента не сжимается. Превращение сырых логов агента (роллаутов) в дистиллированные репрезентации позволяет моделям надежно обмениваться идеями из неудачных попыток. Это радикально сокращает количество шагов для последующих решений и задает новый архитектурный стандарт для агентов-программистов.

Структурированное саммари: https://arxiviq.substack.com/p/scaling-test-time-compute-for-agentic

Читать полностью…

gonzo-обзоры ML статей

Прикольная работа про быстрый и отзывчивый user experience при общении с LLM на edge и носимых девайсах. На старте не ждём ответа от хорошей облачной модели, а генерируем первые 4 токена локально через микро-LLM и сразу выдаём в интерфейс, время до первого токена 45 мс. Затем облачная модель продолжает (и при необходимости корректирует ошибку). Психологический эффект огромен, пользователь не воспринимает это как большую задержку.

Что-то мне это напоминает... Предлагаю супер-быструю фемто-LLM для биологических задач:

def forward():
return "Рыбы — это такие животные"


Micro Language Models Enable Instant Responses

Wen Cheng, Tuochao Chen, Karim Helwani, Sriram Srinivasan, Luke Zettlemoyer, Shyamnath Gollakota
Статья: https://arxiv.org/abs/2604.19642v1
Код: https://github.com/Sensente/micro_language_model_swen_project
Ревью: https://arxiviq.substack.com/p/micro-language-models-enable-instant

# TL;DR

ЧТО сделали: Исследователи из Вашингтонского университета представили микро-языковые модели (μLM) размером от 8M до 30M параметров. Они предназначены для работы по асимметричному протоколу «commit-and-continue» (зафиксируй и продолжай). Локальная μLM на устройстве мгновенно генерирует и безвозвратно выводит первые 4–8 слов ответа, скрывая сетевую задержку, а облачная LLM использует этот префикс как сид для бесшовного завершения фразы.

ПОЧЕМУ это важно: Подход решает проблему жёстких ограничений по памяти и тепловыделению для таких edge-устройств, как умные часы и очки. Переведя облачную модель в роль «продолжателя», а не основного генератора, система достигает времени до первого токена (TTFT) менее 50 мс. Это позволяет обойти многосекундные сетевые задержки на отправку запроса в облако и ожидание ответа, сохраняя иллюзию мгновенного общения.

Для практиков: Подобный пайплайн отлично подходит для развёртывания AI-ассистентов на девайсах с памятью в десятки мегабайт. Использование 4–8 начальных слов даёт оптимальный баланс: скрывает задержку и требует минимальных корректировок со стороны облачной модели (менее 8.4% случаев). Это крайне удачный паттерн проектирования для гибридных систем, где важны и скорость, и качество рассуждений большой LLM.

Быстро получать ответ здесь: /channel/gonzo_ML_podcasts/3476

Читать полностью…

gonzo-обзоры ML статей

Готовлю обновление своей статьи, получил интересную картинку, подтверждающую, что UT с памятью обменивает размер памяти на количество итераций.

По мере того как размер памяти T растёт 8→64, среднее число итераций падает 11.6→8.3 при том же стабильном качестве в районе ~57% exact match на судоку.

Читать полностью…
Subscribe to a channel