gonzo_ml | Unsorted

Telegram-канал gonzo_ml - gonzo-обзоры ML статей

23724

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Subscribe to a channel

gonzo-обзоры ML статей

Невидимая рука рынка для AGI: Безопасность через экономику

Distributional AGI Safety
Nenad Tomašev, Matija Franklin, Julian Jacobs, Sébastien Krier, Simon Osindero
Статья: https://arxiv.org/abs/2512.16856
Ревью: https://arxiviq.substack.com/p/distributional-agi-safety

# TL;DR

ЧТО сделали:
Авторы предлагают фреймворк "Distributional AGI Safety", смещающий фокус с выравнивания (alignment) отдельных моделей на управление взаимодействиями в мультиагентных системах. Вводится концепция Virtual Agentic Sandbox Economy (Виртуальная агентная песочница-экономика) — архитектура глубокоэшелонированной защиты. Безопасность здесь обеспечивается рыночными механизмами (налоги на транзакции, криптографически подтверждённая идентичность, автоматические предохранители), а не только надеждой на "правильные" веса внутри одной нейросети.

ПОЧЕМУ это важно:
Текущие парадигмы безопасности в основном готовятся к появлению монолитного AGI (одной гигантской модели). Эта работа аргументирует в пользу гипотезы "Patchwork AGI" (Лоскутный AGI): общий интеллект возникает из сети специализированных агентов, каждый из которых по отдельности не является AGI. Это меняет правила игры: стандартные методы вроде RLHF не могут предотвратить эмерджентные коллективные патологии — например, неявный сговор или биржевые крахи (flash crashes). Безопасность AGI становится задачей экономического дизайна и системного управления, а не просто психологией одиночного сверхразума.

Подробнее: /channel/gonzo_ML_podcasts/1833

Читать полностью…

gonzo-обзоры ML статей

Монстрический Tri Dao (соавтор Мамбы) и его группа снова делает хардкорные инженерные вещи, теперь про MoE.

SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations
Wentao Guo, Mayank Mishra, Xinle Cheng, Ion Stoica, Tri Dao
Статья: https://arxiv.org/abs/2512.14080
Код: https://github.com/Dao-AILab/sonic-moe
Ревью: https://arxiviq.substack.com/p/sonicmoe-accelerating-moe-with-io

# TL;DR

ЧТО сделали: Представили SonicMoE — фреймворк для обучения, заточенный под современные "мелкозернистые" (fine-grained) MoE-модели с большим числом экспертов и малой размерностью. Авторы предложили memory-efficient алгоритм обратного прохода, набор ядер под NVIDIA Hopper с перекрытием вычислений и IO, а также стратегию роутинга "Token Rounding", устраняющую накладные расходы на паддинг.

ПОЧЕМУ это важно: Индустрия (DeepSeek-V3, Qwen3) движется к мелкозернистым MoE ради качества (quality per FLOP). Но такая архитектура упирается в пропускную способность памяти (memory wall) и страдает от неэффективных вычислений из-за невыровненных тайлов GEMM. SonicMoE решает эти проблемы, выдавая ускорение 1.86x на H100 по сравнению с SOTA-бейзлайнами вроде ScatterMoE (https://arxiv.org/abs/2403.08245) и снижая потребление памяти активациями на 45%.

Подробнее: /channel/gonzo_ML_podcasts/1821

Читать полностью…

gonzo-обзоры ML статей

https://z.ai/blog/glm-4.7

🔥

Читать полностью…

gonzo-обзоры ML статей

Авторы добавляют одномерную depthwise свёртку с ядром k=2 (так понимаю, текущий токен и предыдущий токен) поверх фич, уже прошедших гейт:

H_conv = σ(W_dwconv * H_ffn)

К теме про такую активацию они, как я понимаю, пришли после изучения абляций, показавших, что последовательное убирание нелинейности из функции активации монотонно уменьшает перформанс на ARC-AGI-1. Что, мне кажется, в целом согласуется с ранжированием упомянутых там функций активации: SwiGLU → SiLU → ReLU, тут вроде ничего нового нет, что SiLU/swish лучше ReLU, а функция с гейтингом ещё лучше (/channel/gonzo_ML/4070). Поэтому решили ещё нелинейности подбавить. На картинке, кстати, у них ещё один SiLU заявлен, уже после свёртки, его нет в формуле статьи, но в коде он есть.

Провели эксперименты со свёртками разных размеров, для ядра размером 2 оказался лучший результат. Попробовали попереставлять свёртки в разные места трансформера. Внутри механизма внимания позиция мало на что влияет и порой даже ухудшает всё. Лучший результат (на ARC-AGI) если ставить после MLP expansion. Но это вроде не очень соответствует положению на картинке — оно конечно после expansion, но оно уже и после гейта. Может они просто неточто это всё описали.

TBPTL нужен для ограничения глубины рекурсии, он считает только градиенты поздних циклов. Внутри TRM и HRM тоже была аналогичная логика: HRM использовал градиенты только с последнего цикла (финальное состояние H модуля и финальное состояние L-модуля), а TRM при deep recursion прогонял внутренний цикл без отслеживания градиентов для всех раз кроме последнего. Да ещё и при самом высокоуровневом deep supervision выходные значения отсоединялись от графа вычислений и передавались на следующий шаг улучшения просто как входные данные.

TBPTL делает примерно аналогичное. Если взять модель с D слоями и применять её итеративно в течение M итераций, то новые репрезентации h_t^d слоя d ∈ {1, . . . , D} на итерации t ∈ {1, . . . , M} будут вычисляться как функция от h_t^{d-1} (предыдущий слой той же итерации) и h_{t-1}^d (тот же слой предыдущей итерации). Тут я кстати тоже не уверен, что они это верно написали, эта вот тема с тем же слоем предыдущей итерации какая-то сомнительная имхо. Я это воспринимал как вложенные циклы.

Здесь вместо полного бэкпропа через все M итераций мы задаём индекс отсечения N<M, так что для всех шагов от 1 до N бэкпроп не делается, а для N+1 .. M -- делается. Идейно абсолютно та же логика, в лоссе учитываем только последние вычисления.

Например, для модели c D=4 слоя и M=8 внутренних циклов (что по идее эквивалентно 32 слоям) при выборе N=2 только 6 последних циклов (t=3..8) повлияют на градиент. Такая конфигурация с 6 из 8 шагов и была выбрана по результатам перебора всех вариантов на ARC-AGI (правда это делалось на двуслойной модели без свёрток, а не на четырёхслойной со свёртками).

Эксперименты

Авторы взяли те же датасеты и аугментации, что у TRM/HRM (респект авторам оригинальной HRM за то, что дали референсный код, на котором смогли строить все остальные).

В TRM (но не HRM) использовалась EMA (модель обучается и обновляет свои параметры, но параллельно этому мы держим другую модель, которая является экспоненциальным скользящим средним от весов обновляемой модели, и на этой модели и делается оценка).

Обучали с AdamAtan2 как в оригинальной работе. Weight decay также как в предыдущих работах. Использовалась модель с 4 слоями размерности 512 и с 8 головами.

Итого, весь процессинг включает 4 слоя на внутреннем уровне, 8 итераций (из которых только 6 последних участвуют в бэкпропе) и внешний цикл с ACT и максимум 16 шагами. То есть, если я правильно всё понял, как бы 4*8*16=512-слойная модель. Между ACT шагами, как я понимаю, градиенты не передаются, но вот эта часть в статье не описана, надо по коду перепроверять.

Читать полностью…

gonzo-обзоры ML статей

В последние полгода происходит тотальная джепизация планеты. Вот свежая NEPA.

Next-Embedding Prediction Makes Strong Vision Learners
Sihan Xu, Ziqiao Ma, Wenhao Chai, Xuweiyi Chen, Weiyang Jin, Joyce Chai, Saining Xie, Stella X. Yu
Статья: https://arxiv.org/abs/2512.16922
Код: https://github.com/sihanxu/nepa
Модель: https://sihanxu.github.io/nepa
Сайт: https://sihanxu.github.io/nepa
Ревью: https://arxiviq.substack.com/p/next-embedding-prediction-makes-strong

# TL;DR

ЧТО сделали:
Авторы представили NEPA (Next-Embedding Predictive Autoregression) — фреймворк для self-supervised обучения визуальных трансформеров (ViT). Идея заключается в предсказании эмбеддинга *следующего* патча изображения при условии знания предыдущих. В отличие от стандартных генеративных подходов, NEPA работает полностью в непрерывном латентном пространстве, не используя дискретные токенизаторы (как в VQ-VAE) или попиксельную реконструкцию (как в MAE).

ПОЧЕМУ это важно:
Этот подход фактически унифицирует цели обучения визуальных и языковых моделей. NEPA доказывает, что чистый objective "предсказания следующего токена" отлично работает на непрерывных визуальных репрезентациях без костылей вроде momentum encoders или майнинга негативных пар для контрастивного обучения. Это масштабируемая и простая парадигма, которая достигает SOTA результатов (85.3% Top-1 на ImageNet-1K с ViT-L), показывая, что каузального моделирования достаточно для выучивания надежной визуальной семантики.

Подробнее: /channel/gonzo_ML_podcasts/1797

Читать полностью…

gonzo-обзоры ML статей

Предлагаю ребрендинг – не АИ слоп, а эко-текст и не бездушная АИ-картинка - а эко-графика

Потому что текст из LLM и генеративные АИ-картинки оставляют намного меньший отпечаток карбона в мире, чем реальные художники и писатели ☕️

Читать полностью…

gonzo-обзоры ML статей

Новый стартап Лекуна и Лебруна

https://techcrunch.com/2025/12/19/yann-lecun-confirms-his-new-world-model-startup-reportedly-seeks-5b-valuation/

Читать полностью…

gonzo-обзоры ML статей

Не комикс, но мне нравится.

Читать полностью…

gonzo-обзоры ML статей

В IEEE Spectrum прикольная статья про то, как LLM меняют современные лэптопы:
https://spectrum.ieee.org/ai-models-locally

С необходимостью локального инференса моделей старые подходы требуют переосмысления. Например, разделение на системную память и видеопамять, связанные через не самую быструю шину.

Современный ноутбук для LLM (или ноутбук ближайшего будущего) — это ноутбук с большим объёмом консолидированной быстрой памяти, отдельным NPU — теперь у нас уже совсем гетерогенная система, включающая CPU, GPU и NPU (вспоминаются старые времена, когда математический сопроцессор был отдельным девайсом и ставился рядом с основным, типа Intel 80286/287), работающие совместно, а в идеале ещё и на общем чипе, чтобы укоротить физические пути к памяти и между собой, и с умным управлением потребляемой мощностью.

Я когда-то создавал большие посты про железо для deep learning, у меня были отдельные секции про CPU , GPU и ASIC. По-хорошему, конечно, надо написать современные версии про это всё, тут и TPU уже 7-й версии, а там только 4-й, и GPU несколько поколений сменилось, и в CPU интересные вещи творятся.

Например, у AMD прикольный топовый 4нм чип AMD Ryzen™ AI Max+ 395 c 16 ядрами Zen5 (и 32 тредами), частотой до 5.1 ГГц, до 128 Гб 256-bit LPDDR5x памяти, с графикой Radeon 8060S Graphics (которая вроде бьёт отдельную 3060 или ноутовую 4060) и, самое интересное, со встроенным NPU в 50 TOPS (в сочетании со всем остальным 126 TOPS) и всего 55 Вт потребления. Производительность конечно далека от ~3300 TOPS у 5090, но ведь и энергии жрёт в десять раз меньше, и дешевле.

Я видел комменты на реддите, где народ пишет, что запускает на машинах с этим процом gpt-oss-120b на 40+ токенов в секунду и оно под нагрузкой жрёт меньше энергии, чем другие их сервера при простое.

На этом же чипе от AMD есть прикольный EVO-X2 от GMKtec , который на инференсе сравним (где-то лучше, где-то хуже) с NVIDIA DGX Spark.

В серверных процессорах тоже вроде что-то интересное происходит и у Интела, и у АМД. Прикольный движ.

Читать полностью…

gonzo-обзоры ML статей

100-страничный обзор про память агентов с кучей красивых картинок. С таким добром и комикс не нужен!

Memory in the Age of AI Agents: A Survey
Yuyang Hu, Shichun Liu, Yanwei Yue, Guibin Zhang, Boyang Liu, Fangyi Zhu, Jiahang Lin, Honglin Guo, Shihan Dou, Zhiheng Xi, Senjie Jin, Jiejun Tan, Yanbin Yin, Jiongnan Liu, Zeyu Zhang, Zhongxiang Sun, Yutao Zhu, Hao Sun, Boci Peng, Zhenrong Cheng, Xuanbo Fan, Jiaxin Guo, Xinlei Yu, Zhenhong Zhou, Zewen Hu, Jiahao Huo, Junhao Wang, Yuwei Niu, Yu Wang, Zhenfei Yin, Xiaobin Hu, Yue Liao, Qiankun Li, Kun Wang, Wangchunshu Zhou, Yixin Liu, Dawei Cheng, Qi Zhang, Tao Gui, Shirui Pan, Yan Zhang, Philip Torr, Zhicheng Dou, Ji-Rong Wen, Xuanjing Huang, Yu-Gang Jiang, Shuicheng Yan
Статья: https://arxiv.org/abs/2512.13564
Ревью: https://arxiviq.substack.com/p/memory-in-the-age-of-ai-agents
Репа: https://github.com/Shichun-Liu/Agent-Memory-Paper-List

# TL;DR

ЧТО сделали: Авторы предложили всеобъемлющую таксономию Памяти Агентов (Agent Memory). Они отказались от классической дихотомии «кратковременная/долговременная память» в пользу структурированного фреймворка, определяемого через Формы (токены, параметры, латентная), Функции (фактическая, опытная, рабочая) и Динамику (формирование, эволюция, поиск). Работа чётко отделяет память агента от смежных концепций вроде RAG или инженерии контекста, предлагая чертёж для саморазвивающихся систем.

ПОЧЕМУ это важно: По мере того как LLM-агенты переходят от простых ответов на вопросы к длительным автономным задачам, отсутствие у базовых моделей состояния (их stateless-природа) становится критическим узким местом. Статья важна тем, что формализует память не просто как буфер для хранения данных, а как активный, самооптимизирующийся когнитивный субстрат. Это необходимо для непрерывного обучения (continual learning) и самоэволюции без непомерных затрат на постоянное переобучение модели.

Подробнее: /channel/gonzo_ML_podcasts/1760

Читать полностью…

gonzo-обзоры ML статей

Любопытный (но дорогой) заход на стабильность мультишаговых воркфлоу с LLM :)

Solving a Million-Step LLM Task with Zero Errors

Elliot Meyerson, Giuseppe Paolo, Roberto Dailey, Hormoz Shahrzad, Olivier Francon, Conor F. Hayes, Xin Qiu, Babak Hodjat, Risto Miikkulainen
Статья: https://arxiv.org/abs/2511.09030
Ревью: https://arxiviq.substack.com/p/solving-a-million-step-llm-task-with
Код: https://github.com/cognizant-ai-lab/neuro-san-benchmarking

# TL;DR

ЧТО сделали: Предложили фреймворк MAKER (Maximal Agentic decomposition, first-to-ahead-by-K Error correction, and Red-flagging), который позволяет решать задачи длиной более миллиона последовательных шагов LLM с нулевым количеством ошибок. Разбив задачу «Ханойская башня» на атомарные подзадачи (m=1) и применив специфический механизм голосования, авторы показали, что относительно небольшие модели (не являющиеся рассуждающими, reasoning models) могут достигать уровня надёжности, ранее считавшегося невозможным для стохастических генераторов.

ПОЧЕМУ это важно: Работа бросает вызов догме, что для длинных задач нужны экспоненциально более умные модели. Вместо этого приводится доказательство существования Массивно декомпозированных агентных процессов (MDAP). Показано, что архитектурные изменения — в частности, экстремальная модульность и статистическая коррекция ошибок — позволяют стоимости расти лог-линейно (Θ(s ln s)), а не экспоненциально в зависимости от длины задачи.

Подробнее: /channel/gonzo_ML_podcasts/1749

Читать полностью…

gonzo-обзоры ML статей

Ну и, кстати, если ещё не видели, новая Gemini 3 Flash выглядит неплохо!

https://blog.google/products/gemini/gemini-3-flash/

Читать полностью…

gonzo-обзоры ML статей

Странная какая-то статья, как будто пытались по-быстрому выложить. Больше набор буллет пойнтов, чем статья, да и практическая часть с эвалами практически же отсутствует. Но сама идея (как я её понял) интересна. В любом случае, вручную разбирать не стал бы, а так автоматом хоть что-то.

JEPA as a Neural Tokenizer: Learning Robust Speech Representations with Density Adaptive Attention

Georgios Ioannides, Christos Constantinou, Aman Chadha, Aaron Elkins, Linsey Pang, Ravid Shwartz-Ziv, Yann LeCun
Статья: https://arxiv.org/abs/2512.07168
Код: https://github.com/gioannides/Density-Adaptive-JEPA
Ревью: https://arxiviq.substack.com/p/jepa-as-a-neural-tokenizer-learning

# TL;DR

ЧТО сделали: Авторы предложили двухэтапный фреймворк для создания речевых представлений. На первом этапе используется архитектура Joint-Embedding Predictive Architecture (JEPA), усиленная механизмом адаптивного к плотности внимания (DAAM). Это позволяет выучивать семантические фичи через предсказание маскированных латентов в полном отрыве от задачи реконструкции волны. На втором этапе энкодер замораживают и обучают HiFi-GAN декодер с конечно-скалярным квантованием (FSQ). Итог — экстремально низкая частота кадров: всего 2.5 Гц (47.5 токенов в секунду).

ПОЧЕМУ это важно: Подход разрешает вечный конфликт нейронных аудиокодеков между сохранением акустической точности и изучением высокоуровневой семантики. Заменив стандартные кодовые книги VQ-VAE на аналитическое FSQ и используя гейтинг внимания на основе вероятностей, модель выдает сильно сжатые, обратимые токены. Они идеально подходят для скармливания в LLM, не жертвуя при этом качеством восстановления аудио.

Подробнее: /channel/gonzo_ML_podcasts/1727

Читать полностью…

gonzo-обзоры ML статей

Очередной способ параллелизации размышлений. Мультитрединг приходит в LLM :)

ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models
Long Lian, Sida Wang, Felix Juefei-Xu, Tsu-Jui Fu, Xiuyu Li, Adam Yala, Trevor Darrell, Alane Suhr, Yuandong Tian, Xi Victoria Lin
Статья: https://arxiv.org/abs/2512.07843
Ревью: https://arxiviq.substack.com/p/threadweaver-adaptive-threading-for

# TL;DR

ЧТО сделали: Авторы представили ThreadWeaver — фреймворк, позволяющий LLM динамически разбивать последовательную цепочку рассуждений (CoT) на параллельные потоки. Обучив модель выдавать специальные управляющие токены (<Parallel>, <Thread>) и используя trie-based механизм внимания, система реализует паттерн выполнения «fork-join». Для оптимизации используется модифицированный алгоритм P-GRPO, который балансирует между правильностью ответа и сокращением длины критического пути.

ПОЧЕМУ это важно: Время инференса в сложных задачах на рассуждение (reasoning tasks) обычно растёт линейно с длиной цепочки (O(N)), создавая узкое место для масштабирования System 2. ThreadWeaver показывает, что можно сохранить SOTA-качество (на уровне последовательного Qwen3-8B) и при этом получить значительное ускорение по времени (до 1.53x). Что важно, это работает на стандартных движках (например, vLLM) без необходимости писать кастомные CUDA-ядра или хитро управлять KV-кэшем.

Подробнее: /channel/gonzo_ML_podcasts/1708

Читать полностью…

gonzo-обзоры ML статей

В обоих случаях, если репликатор подсадить в суп, он быстро распространяется. Но при рандомной инициализации суп остаётся равномерно рандомным и после миллиардов инструкций. Динамики изменения распределения строк не наблюдается, само-репликаторы не возникают (или авторы не дождались). Возможно, дело таки в длине -- в других языках репликаторы были сильно короче. Возможно, пример SUBLEQ является хорошей отправной точкой для выработки теории, предсказывающей возникновение такой жизни.

Авторы также проверили на реальном живом языке, взяли ассемблер Z80 (когда-то давно я тоже на нём писал, это был мой первый язык ассемблера, и практически первый язык программирования). Здесь изучали двумерную сетку 16-байтовых программ, инициализированных случайно. В каждый момент случайно выбирали пару программ A и B, конкатенировали в случайном порядке, сбрасывали эмулятор Z80 и запускали 256 шагов выполнения инструкций. Лента с объединённой программой использовалась как память и все операции работы с памятью выполнялись по модулю длины этой ленты (32). Плюс фоновые мутации для рандомных байт на сетке.

Даже такой простой вариант дал жизнь довольно сложному поведению и появлению разных поколений репликаторов. Некоторые образовывали симбиотические экосистемы, другие боролись за доминирование. Разные репликаторы или коллективы несколько раз захватывали бульон. Ранние репликаторы использовали механизм копирования через стек (потому что при старте стек устанавливается на конец адресного пространства, что даёт простой способ ленте A писать на ленту B). Со временем такие репликаторы замещались репликаторами, копирующими память с помощью специальных инструкций LDIR/LDDR (из моей остаточной памяти про программирование под Z80 я ожидал, что инструкция LDIR окажется полезной для такого дела, и судя по картинке всё так). Авторы сделали отдельную репу для таких восьмибитных экспериментов на z80.

Ещё попробовали ассемблер процессора 8080 (я, кстати, упустил, что Z80 был создан выходцами из Интела, сделавшими процессор 8080, а также самый первый Intel 4004) в варианте с длинной лентой. Там рулили репликаторы из повторяющихся двух байт, без циклов. Например, последовательность байт 01 c5 01 c5 выполняет две команды LXI BC, 01c5 (загрузить в регистр BC слово 01c5), PUSH BC (и затем отправить его в стек -- то есть, как я понимаю, в итоге на ленту B). Репликаторы такого типа работали очень хорошо, поэтому, видимо, более сложные с циклами не возникли (ну или снова не дождались).

---

Такие дела. Не знаю, говорит ли это что-нибудь о биологии, процессы всё же сильно разные. Но всё равно прикольная работа. Какие там могут быть следующие качественные переходы в таком супе, интересно?

Вообще за работами Blaise Agüera y Arcas следить интересно, он в последние пару лет много говорит и пишет про темы вокруг жизни, вычислений и интеллекта. Вот совсем недавняя его колонка в Nature, “What is the future of intelligence? The answer could lie in the story of its evolution”. В принципе каких-то супер новых вещей там может и нет, многие эти идеи уже давно витают вокруг и высказываются разными людьми. Но ценности это не уменьшает, Эйнштейн тоже не на пустом месте свои открытия делал. Здесь Blaise Agüera y Arcas пишет, например, про Computogenesis и вычислительную природу, но не в смысле панпсихизма или чего-то такого, а в смысле, что живые клетки и далее организмы последовательно осваивали вычисления для разных своих нужд, от поддержания гомеостаза, репродукции и до предсказания действий других. А с репродукцией уже и тема про универсальный конструктор где-то рядом (помните Дойча и Марлето?). В этом свете первичный бульон Земли с разными конкурирующими химическими реакциями, протоклетками и прочим может и не так сильно уже отличается от первичного бульона программ, а появление длинных молекул типа РНК и ДНК идейно похоже на эксперименты текущей работы с длинными лентами.

Читать полностью…

gonzo-обзоры ML статей

Интересно как...

Today, Groq announced that it has entered into a non-exclusive licensing agreement with Nvidia for Groq’s inference technology. The agreement reflects a shared focus on expanding access to high-performance, low cost inference.

As part of this agreement, Jonathan Ross, Groq’s Founder, Sunny Madra, Groq’s President, and other members of the Groq team will join Nvidia to help advance and scale the licensed technology.

Groq will continue to operate as an independent company with Simon Edwards stepping into the role of Chief Executive Officer.

https://groq.com/newsroom/groq-and-nvidia-enter-non-exclusive-inference-technology-licensing-agreement-to-accelerate-ai-inference-at-global-scale

Вот бы ещё Гугл начал TPU продавать, вообще бы весело стало.

Читать полностью…

gonzo-обзоры ML статей

Важная тема на живом примере. Переход от прототипа к продакшн-агенту нетривиален. Имхо это вообще одна из самих больших проблем области в моменте.

Традиционный инжиниринг привык работать в терминах надёжности и часто оперирует уровнями нескольких девяток — три девятки (99.9%, 8.7 часов даунтайма в год) это минимальный стандарт, пять девяток (99.999%, 5 минут даунтайма) — стандарт для критических сервисов, некоторые экзотические вещи требуют и обеспечивают ещё более высокие стандарты (есть мифический легендарный Эриксоновский свитч AXD301 с софтом на Эрланге, обеспечивающий 9 девяток, 32 миллисекунды даунтайма в год). *Здесь конечно отдельный вопрос, что именно считается, я тоже довольно вольно с этим обошёлся, смешав надёжность и доступность, но суть тезиса это не меняет.

Так вот, в агентах в среднем надёжность не дотягивает и до одной девятки. Я бы сказал, что мы там на уровне семёрок или даже шестёрок. В сочетании с оверселлингом от некоторых игроков это особенно бросается в глаза.

Побывав в этом году на каком-то заметном числе конференций, я хочу сказать, что процент фейлов агентских демонстраций запредельно высок, даже на уровне кейноутов. То агент войдёт в цикл смерти, не способный решить проблему перед ним; то сделает не то, что от него хотят; то просто упадёт вместе с сервером и запятисотит; ну и так далее. По ощущениям, фейлов не менее 30%. Конечно есть отдельные ниши, где всё детерминировано и хорошо, но такое счастье далеко не везде.

Нам эту пропасть ещё преодолевать.

A Practical Guide for Designing, Developing, and Deploying Production-Grade Agentic AI Workflows

Eranga Bandara, Ross Gore, Peter Foytik, Sachin Shetty, Ravi Mukkamala, Abdul Rahman, Xueping Liang, Safdar H. Bouka, Amin Hass, Sachini Rajapakse, Ng Wee Keong, Kasun De Zoysae, Aruna Withanage, Nilaan Loganathan
Статья: https://arxiv.org/abs/2512.08769
Код: https://gitlab.com/rahasak-labs/podcast-workflow
Ревью: https://arxiviq.substack.com/p/a-practical-guide-for-designing-developing

# TL;DR

ЧТО сделали:
Авторы представили комплексный инженерный фреймворк для переноса агентных систем из экспериментальных ноутбуков в полноценные продакшен-среды на базе Kubernetes. На примере пайплайна «Новости в подкаст» они сформулировали девять паттернов проектирования (например, «Чистые функции вместо вызовов инструментов» и «Рассуждение через консорциум»), призванных нивелировать врождённый недетерминизм LLM.

ПОЧЕМУ это важно:
Пока индустрия пытается перейти от простых промптов к многошаговым агентным цепочкам, надёжность становится главным бутылочным горлышком. Эта статья даёт необходимый чертёж для AgentOps, показывая, как отделить рассуждения от исполнения и доказывая, что строгие принципы программной инженерии (вроде Single Responsibility Principle) становятся ещё важнее, когда наш вычислительный движок носит вероятностный характер.

Подробнее: /channel/gonzo_ML_podcasts/1811

Читать полностью…

gonzo-обзоры ML статей

Результат: бьют HRM и TRM на Sudoku, ARC-AGI-1 и ARC-AGI-2. В предыдущих работах ещё был Maze-Hard, здесь не сделали. Для ARC приводят скоры для pass@1, @10, @100 и @1000, для судоку только pass@1. Про ARC выглядит странно, мне казалось, что в предыдущих работах проверка была устроена так, что генерировались 1000 аугментаций, но из них выбирались два самых частых результата, по которым оценивался ARC (то есть как бы pass@2). Здесь написано, что сэмплилось n ответов и сэмпл считался корректным, если хотя бы один ответ был верным, то есть для n=1000 это реально pass@1000, что несравнимо с предыдущими работами. Смотреть вроде как тогда осмысленно только на pass@1

Интересно, что скоры заметно отличаются от скоров в статьях про HRM/TRM. Например, для судоку результаты HRM и TRM были 87.4/74.7 (у TRM были две разные версии, с MLP и SA) и 55.0 соответственно. Здесь в статье скоры этих моделей 63.9 и 66.8, что интересно потому что, во-первых, заметно меньше для TRM, во-вторых разница между ними стала крайне маленькой. У URM скор 77.6, что выше цифр TRM/HRM из текущей работы, но ниже оригинальной работы про TRM. На ARC-AGI-2 вообще здесь HRM выше TRM, что очевидно было иначе в работе про TRM, и так же иначе на картинке из начала статьи, где они явно говорят, что цифры взяли от ARC-AGI.

Муть какая-то, надо очень внимательно разбираться. Вообще непонятно, как с предыдущими работами сравниться. Надежда только на самих ARC, чтобы по-честному померяли.

Из интересного, авторы прогнали на ARC-AGI-1 много вариантов обычного трансформера и пару вариантов UT и показали цифры. UT с 4 слоями и 8 циклами заметно бьёт ванильный трансформер с 32 слоями, у которого столько же вычислений и в 8 раз больше параметров. Я только не понял, что здесь с ACT, это цикл равен 1? Вроде как получается, что итеративные вычисления лучше, чем добавление слоёв (перекликается с https://arxiv.org/abs/2502.17416). Рекуррентный Inductive bias UT лучше подходит для таких задач?

Для полного бинго авторы попробовали оптимизатор Muon (я сделал то же самое). Muon дал более быструю сходимость, чуть ли не в два раза на ARC-AGI-2, но финальный результат такой же. С мюоном, правда, дьявол в деталях, к каким слоям его применяют, с какими именно гиперпараметрами. В статье деталей нет, надо в код лезть (при условии, что он соответствует).

Мысли сходятся. И очень жду перепроверки от ARC-AGI.

Читать полностью…

gonzo-обзоры ML статей

Universal Reasoning Model
Zitian Gao, Lynx Chen, Yihao Xiao, He Xing, Ran Tao, Haoming Luo, Joey Zhou, Bryan Dai
Статья: https://www.arxiv.org/abs/2512.14693
Код: https://github.com/zitian-gao/URM

Молодцы чуваки, сделали ровно то, что я сам хотел сделать после статей про HRM/TRM. Там прямо просилось взять UT, или по сути ALBERT с ACT и посмотреть, какое качество достигается на нём. Было очень сильное чувство, что не нужно городить HRM/TRM. Мои изыскания закончились на окончании гуглового кредита и машин с GPU, а также свободного времени. А их вон, в статью вылились. Хорошо быть GPU-Rich 😭

Напомню, что HRM (/channel/gonzo_ML/4097) предложила вдохновлённую мозгом иерархию сетей с высокоуровневым и низкоуровневым модулями. Последующие разборы от авторов ARC-AGI показали, что чуть ли не самое важное в работе было deep supervision, который делал много итераций на одном сэмпле, последовательно улучшая репрезентацию (похоже на recycling в alphafold), поверх этого ещё был навёрнут adaptive computation time, чтобы делать этот процесс не дольше, чем нужно. А два уровня с рекурсиями нафиг не сдались, обычный трансформер того же достигает плюс минус. Там я и написал, что UT или ALBERT — наше всё (/channel/gonzo_ML/4100).

Потом вышла упрощённая TRM (/channel/gonzo_ML/4127), которая переинтерпретировала HRM и упаковала это всё в почти обычный рекуррентный трансформер, который сначала обновляет внутреннюю репрезентацию, а потом уточняет по ней ответ, и поверх делается всё тот же deep supervision. Из обучаемых параметров там была только двуслойная сеть, которая применялась во всех этих циклах и давала эффективную глубину в 42 слоя. Это ещё ближе к UT/ALBERT.

Напомню в двух словах про Universal Transformer (UT) и ALBERT. UT (/channel/gonzo_ML/90) состоит из одного шаренного слоя, который рекурсивно применяется множество раз, последовательно улучшая эмбеддинги. В самой полноценной версии количество раз определяется динамически через Adaptive Computation Time (ACT), которое для каждого конкретного токена решало, сколько его надо обрабатывать. Я до сих пор считаю, что это очень красивая и недооценённая идея, вернее эти две, UT и ACT. ALBERT (/channel/gonzo_ML/131) был сильно идейно похож на UT с той лишь разницей, что один слой там применялся фиксированное количество раз и это был трансформер-энкодер. В этом моём посте собрано всё воедино и с картинками.

Поскольку HRM и TRM были энкодерами с ACT, то просилось, конечно, взять ALBERT+ACT и дотюнить его до состояния, когда он даст результаты не хуже.

Авторы текущей работы тоже вдохновлялись UT и предложили URM (Universal Reasoning Model) по его лекалам.

Пишут, что взяли decoder-only (“The base architecture of our Universal Reasoning Model (URM) closely follows that of the Universal Transformer, with the difference being its decoder-only design. This aspect is consistent with previous works such as HRM and TRM”), но мне кажется это ошибка. HRM/TRM были энкодерами (в работе про HRM явно говорят: “Both the low-level and high-level recurrent modules f_L and f_H are implemented using encoder-only Transformer blocks with identical architectures and dimensions”, а TRM строится на ней) и нигде там авторегрессионной генерации нет, ни в статье, ни в коде. И в целом для этой задачи декодер не нужен, размер выхода заранее известен и фиксирован, энкодер был бы логичен. Так что видимо, опечатка.

В отличие от TRM/HRM авторы URM сделали более кастомный трансформер с ConvSwiGLU и Truncated Backpropagation Through Loops (TBPTL).

ConvSwiGLU — это стандартный SwiGLU с короткой depthwise свёрткой. Обычный SwiGLU работает с каждым токеном независимо, свёртка добавляет в механизм гейтинга локальные контекстные взаимодействия, реализуя смешивание каналов для соседних токенов.

Напомню, что уже классический SwiGLU — это функция с гейтингом. Сначала для каждого токена вычисляется преобразование через матрицу W_up:

[G, U] = X W_up ∈ R^{T×2m}

Затем из G через активацию SiLU считаются веса гейтов, которые поэлементно умножаются с U:

H_ffn = SiLU(G) ⊙ U

Читать полностью…

gonzo-обзоры ML статей

2025 LLM Year in Review by Andrej Karpathy
https://karpathy.bearblog.dev/year-in-review-2025/

Читать полностью…

gonzo-обзоры ML статей

Очередная новая JEPA, теперь vision-language.

VL-JEPA: Joint Embedding Predictive Architecture for Vision-language
Delong Chen, Mustafa Shukor, Théo Moutakanni, Willy Chung, Jade Yu, Tejaswi Kasarla, Allen Bolourchi, Yann LeCun, Pascale Fung
Статья: https://arxiv.org/abs/2512.10942
Ревью: https://arxiviq.substack.com/p/vl-jepa-joint-embedding-predictive

# TL;DR

ЧТО сделали: Представили VL-JEPA — неавторегрессионную визуально-языковую модель, которая предсказывает непрерывные текстовые эмбеддинги вместо дискретных токенов. Используя архитектуру Joint Embedding Predictive Architecture (JEPA), модель выравнивает визуальные входы и текстовые запросы непосредственно в латентном пространстве представлений. Текстовый декодер вызывается только в тот момент, когда строго необходим читаемый вывод.

ПОЧЕМУ это важно: Архитектура развязывает семантическое рассуждение и синтаксическую генерацию. Это позволяет сократить количество операций декодирования в 2.85 раза в задачах потокового видео за счет механизма «селективного декодирования». В контролируемых условиях модель обходит стандартные токен-генерирующие VLM сопоставимого размера. Теоретически работа подтверждает переход к подходу «World Model» Яна ЛеКуна в мультимодальном домене, доказывая, что обучение (supervision) в абстрактном пространстве эмбеддингов более эффективно по данным (sample-efficient), чем реконструкция в пространстве пикселей.

Подробнее: /channel/gonzo_ML_podcasts/1785

Читать полностью…

gonzo-обзоры ML статей

Впрочем комикс тоже держите

Читать полностью…

gonzo-обзоры ML статей

DeepMind выпустил новую T5Gemma 2, построена по старому рецепту (конвертируем декодер-only в энкодер-декодер), теперь на базе Gemma 3 (старая версия была на Gemma 2). Я бы назвал, конечно, T5Gemma 3 во избежание путаницы :) Из интересного, сделали архитектурное изменение в блоке внимания декодера — теперь там один объединённый блок вместо двух ранее (cross-attention + self-attention).

Короче, зачётная тема. Энкодер-декодеры начинают рулить. Если вы забыли или не знали, в чём разница, то я собрал краткое введение в своём недавнем посте.

Ещё хочу сказать, что автообзоры дошли до вполне достойного уровня. Статья про T5Gemma из той группы, которую я бы разобрал вручную. Но после авторазбора мне тут добавить уже особо нечего, он вполне хороший и заменяет то, что я сделал бы вручную. Добавочная ценность теперь скорее в мета-анализе и размышлениях за пределами статьи как таковой.

T5Gemma 2: Seeing, Reading, and Understanding Longer
Biao Zhang, Paul Suganthan, Gaël Liu, Ilya Philippov, Sahil Dua, Ben Hora, Kat Black, Gus Martins, Omar Sanseviero, Shreya Pathak, Cassidy Hardin, Francesco Visin, Jiageng Zhang, Kathleen Kenealy, Qin Yin, Olivier Lacombe, Armand Joulin, Tris Warkentin and Adam Roberts
Статья: https://arxiv.org/abs/2512.14856
Ревью: https://arxiviq.substack.com/p/t5gemma-2-seeing-reading-and-understanding
Модель: https://huggingface.co/collections/google/t5gemma-2

# TL;DR

ЧТО сделали: Исследователи из Google DeepMind представили T5Gemma 2 — семейство моделей (270M, 1B, 4B) архитектуры энкодер-декодер, собранных на базе чекпоинтов decoder-only модели Gemma 3. Авторы расширили рецепт адаптации для поддержки мультимодальных входов (через SigLIP) и длинного контекста (до 128k токенов), попутно внедрив оптимизации вроде связанных эмбеддингов (tied embeddings) и объединенного внимания (merged attention), что сократило количество параметров на ~10% без потери качества.

ПОЧЕМУ это важно: Работа бросает вызов тотальному доминированию decoder-only архитектур (типа LLaMA или GPT). Она доказывает, что энкодер-декодеры обладают лучшими индуктивными смещениями (inductive biases) для моделирования длинного контекста и мультимодального поиска. Это готовый блюпринт по эффективной конвертации мощных каузальных LLM в двунаправленные модели, которые умеют глубоко «вчитываться» в объемный контекст перед генерацией, что критически важно для RAG и сложных пайплайнов работы с документами.

Подробнее: /channel/gonzo_ML_podcasts/1775

Читать полностью…

gonzo-обзоры ML статей

Статья, которую я точно разбирать не буду, ни вручную, ни автоматом (она ещё и за пейволлом). Практическая, наверное даже полезная, но оценить не могу, их таких уже миллион, и я не знаю, лучше ли она предыдущих сколь-нибудь заметно.

Но. В целом именно вот такие вот продукты и меняют жизнь среднего пользователя к лучшему, в каждой из узких ниш. Опять же, не про эту конкретную статью речь, от неё до полезного продукта может быть ещё и очень далеко, она скорее как пример. Классно, что сейчас в целом практически любой человек может собрать что-то подобное. Не сравнить с доступностью технологий даже десять лет назад. What a time to be alive!

Explainable Artificial Intelligence with Deep Convolutional Neural Networks for Real-Time Image-Based Yoga Posture Recognition in Fitness Training
https://link.springer.com/article/10.1007/s00354-025-00310-8

Но на самом деле я просто картинку хотел расшарить :)

Читать полностью…

gonzo-обзоры ML статей

Альтернатива. Извинити )

Читать полностью…

gonzo-обзоры ML статей

Шмидхубер ссылается на фундаментальные работы Беннета и Шмидхубера!

Multiple Token Divergence: A Measure of In-Context Computation Density

Vincent Herrmann, Eric Alcaide, Jürgen Schmidhuber
Статья: https://openreview.net/forum?id=jNJwgg0opm
Ревью: https://arxiviq.substack.com/p/multiple-token-divergence-a-measure

# TL;DR

ЧТО сделали: Авторы предложили метрику Multiple Token Divergence (MTD), которая оценивает «вычислительную плотность» сгенерированного токена. Это делается через измерение KL-дивергенции между выходным распределением полной модели и её ограниченной, «поверхностной» вспомогательной головы.

ПОЧЕМУ это важно: Стандартный лосс предсказания следующего токена (L_NLL) — плохой прокси для оценки затрат на рассуждение. Модель может показывать низкий лосс на тривиальных задачах (копирование) и такой же низкий на сложных, но детерминированных вычислениях. MTD позволяет отделить «предсказуемость» от «вычислительных усилий», давая неинвазивный способ понять, использует ли модель всю свою глубину для ризонинга или выезжает на простых эвристиках.

Подробнее: /channel/gonzo_ML_podcasts/1741

Читать полностью…

gonzo-обзоры ML статей

А вот это прикольно!

https://ai.meta.com/samaudio/

Читать полностью…

gonzo-обзоры ML статей

Продолжаем кросс-опыление. JIT-компиляция для агентской памяти.

General Agentic Memory Via Deep Research
B.Y. Yan, Chaofan Li, Hongjin Qian, Shuqi Lu, Zheng Liu
Статья: https://arxiv.org/abs/2511.18423
Ревью: https://arxiviq.substack.com/p/general-agentic-memory-via-deep-research
Код: https://github.com/VectorSpaceLab/general-agentic-memory

# TL;DR

ЧТО сделали: Авторы предлагают General Agentic Memory (GAM) — фреймворк, меняющий парадигму управления памятью со статического сжатия (Ahead-of-Time, AOT) на компиляцию "точно в срок" (Just-in-Time, JIT). Вместо хранения готовых саммари или векторных индексов, GAM использует систему из двух агентов: Memorizer (структурирует сырую историю в страницы с контекстными заголовками) и Researcher (выполняет итеративный "deep research" в рантайме — планирует, ищет, рефлексирует).

ПОЧЕМУ это важно: Подход решает проблему потери информации, присущую традиционному RAG и суммаризации. Откладывая решение о том, "что важно", до момента реального запроса, GAM достигает SOTA-результатов на тяжелых бенчмарках (HotpotQA, RULER). Работа доказывает, что вычислительно затратный поиск в момент инференса эффективнее, чем статическое расширение контекстного окна.

Подробнее: /channel/gonzo_ML_podcasts/1720

Читать полностью…

gonzo-обзоры ML статей

Отдельного внимания здесь заслуживает симбиогенез, который выводит эволюцию за пределы борьбы в общей нише и принципа “выживает наиболее приспособленный” в область создания новых ниш и освоения новых источников энергии. Симбиогенез с нами на протяжении всего пути: первые клетки, эукариоты, хлоропласты, многоклеточность и специализация, появление плацентарных (своеобразный кейс, но тем не менее, без того вирусного белка, встроенного в геном, нас бы не было в текущем виде), микробиом, разделение труда в обществе. Машины вероятно встроятся сюда же -- мы уже не можем без машин, как и они не могут без нас и мы продолжаем создавать дальше друг друга. Смотреть в таком ключе на AI интересно.

У меня в очереди лежат другие работы Blaise, в частности пара свежих книг про жизнь и про интеллект. Буду знакомиться дальше. Ну и помните недавний авторазбор про Embedded Universal Predictive Intelligence и моделирование агентов вместе со средой? Тоже в том числе он, и в вышеописанном ключе та работа имеет ещё больший смысл.

Всем добра.

P.S. Кстати, не забывайте, что у канала есть Патреон и не только. Для меня этот канал чистый хобби проект без рекламы, но за токены и разные эксперименты мне платить приходится.

Читать полностью…

gonzo-обзоры ML статей

Описанная выше симуляция является по сути 0-мерной средой, где у всех программ равные шансы провзаимодействовать. Авторы попробовали сделать 1D и 2D среды с локальностью коммуникации. Само-репликаторы возникают во всех конфигурациях.

Авторы сфокусировались на 2D с 32400 BFF программами на сетке 240x135. Программы взаимодействовали только с соседями в пределах двух клеток по каждой координате. Итерируются по всем программам P в случайном порядке, для каждой P равномерно выбирают соседа N и, если их ещё не брали в пару, выполняют обычную процедуру split(exec(PN)) → P′ + N′. Результат перезаписывает родителей. Неотобранные программы по-прежнему могут мутировать.

В такой конфигурации само-репликаторы по-прежнему возникают, на рисунке 8 они красиво отображены на плоскости, где каждый квадратик 8x8 пикселей представляет одну ленту. Видео этой симуляции тут, можно медитировать пять минут. Игра жызнь на стероидах. Такой сетап влияет на скорость распространения репликаторов, для супа размера n у свежевозникшего репликатора время полузахвата супа составляет примерно log n шагов.

Был ещё эксперимент с длинной лентой, 65536 байт, там случайно выбиралась позиция на ленте, откуда стартовало выполнение программы. Здесь саморепликатор -- это подстрока. И в таком эксперименте они тоже возникают, там только с начальными позициями обеих голов надо было поиграть (у второй смещение 12 или 16 относительно первой), чтобы нетривиальные репликаторы начали появляться. Этот эксперимент не обсуждается, но код для воспроизведения лежит в репе.

Другие языки

Авторы не предлагают пока какой-либо теории, определяющей, что делает язык или среду подходящей для возникновения само-репликаторов, но они наблюдают это поведение и в других языках кроме BFF.

Во-первых, в языке форт (Forth), который является стековым языком. Команды с ленты либо запихивают что-то в стек, либо выполняют там операции. С фортом провели два эксперимента: аналог первичного бульона с выполнением пары лент, и аналог длинной ленты, когда индивидуальные интерпретаторы выполняются параллельно в разных частях ленты. Само-репликаторы возникли в обоих случаях, но авторы не нашли набора инструкций, которые работают в этих случаях “из коробки”.

В варианте с бульоном использовался форт с ограниченным набором команд и снова ленты фиксированного размера. Интересная особенность такого форта в том, что он позволяет собрать тривиальный однобайтовый само-репликатор (команда с опкодом 0C, скопировать байт из ячейки через 64 символа, то есть с другой ленты в той же позиции), на базе него быстро возникает само-репликатор, копирующий целую ленту. Происходит это всё гораздо быстрее и надёжнее, чем в случае BFF.

В варианте с двумерным супом само-репликаторы возникают в разных частях бульона. Они чуть отличаются друг от друга, так что в итоге никто из них в бульоне не доминирует, остаётся конкуренция.

В варианте с длинной лентой (65536) несколько вариантов также продуцируют репликаторы, но не все. Возникают примерно за 60 секунд работы или 180B инструкций. В статье есть более подробный анализ, что именно возникает и как оно себя ведёт.

На языке SUBLEQ (забавный Тьюринг полный язык с одной инструкцией, но таких языков кроме него -- десятки, см. OISC, сама по себе интересная тема). В терминах языка C инструкция с тремя операндами делает что-то такое (где pc -- program counter):

*a -= *b; if (*a <= 0) { goto c; } else { goto pc + 3; } 


Минимальный созданный авторами вручную репликатор занимает 60 байт. Возможно это длинновато для самозарождения.

Авторы сделали свой вариант языка RSUBLEQ4, где у единственной инструкции 4 операнда и делает она следующее:

*(pc + a) = *(pc + b) - *(pc + c); if (*a <= 0) { goto pc + d; } else { goto pc + 4; }


В этом случае репликатор получается в 25 байт.

Читать полностью…
Subscribe to a channel