23724
Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Очередная новая JEPA, теперь vision-language.
VL-JEPA: Joint Embedding Predictive Architecture for Vision-language
Delong Chen, Mustafa Shukor, Théo Moutakanni, Willy Chung, Jade Yu, Tejaswi Kasarla, Allen Bolourchi, Yann LeCun, Pascale Fung
Статья: https://arxiv.org/abs/2512.10942
Ревью: https://arxiviq.substack.com/p/vl-jepa-joint-embedding-predictive
# TL;DR
ЧТО сделали: Представили VL-JEPA — неавторегрессионную визуально-языковую модель, которая предсказывает непрерывные текстовые эмбеддинги вместо дискретных токенов. Используя архитектуру Joint Embedding Predictive Architecture (JEPA), модель выравнивает визуальные входы и текстовые запросы непосредственно в латентном пространстве представлений. Текстовый декодер вызывается только в тот момент, когда строго необходим читаемый вывод.
ПОЧЕМУ это важно: Архитектура развязывает семантическое рассуждение и синтаксическую генерацию. Это позволяет сократить количество операций декодирования в 2.85 раза в задачах потокового видео за счет механизма «селективного декодирования». В контролируемых условиях модель обходит стандартные токен-генерирующие VLM сопоставимого размера. Теоретически работа подтверждает переход к подходу «World Model» Яна ЛеКуна в мультимодальном домене, доказывая, что обучение (supervision) в абстрактном пространстве эмбеддингов более эффективно по данным (sample-efficient), чем реконструкция в пространстве пикселей.
Подробнее: /channel/gonzo_ML_podcasts/1785
DeepMind выпустил новую T5Gemma 2, построена по старому рецепту (конвертируем декодер-only в энкодер-декодер), теперь на базе Gemma 3 (старая версия была на Gemma 2). Я бы назвал, конечно, T5Gemma 3 во избежание путаницы :) Из интересного, сделали архитектурное изменение в блоке внимания декодера — теперь там один объединённый блок вместо двух ранее (cross-attention + self-attention).
Короче, зачётная тема. Энкодер-декодеры начинают рулить. Если вы забыли или не знали, в чём разница, то я собрал краткое введение в своём недавнем посте.
Ещё хочу сказать, что автообзоры дошли до вполне достойного уровня. Статья про T5Gemma из той группы, которую я бы разобрал вручную. Но после авторазбора мне тут добавить уже особо нечего, он вполне хороший и заменяет то, что я сделал бы вручную. Добавочная ценность теперь скорее в мета-анализе и размышлениях за пределами статьи как таковой.
T5Gemma 2: Seeing, Reading, and Understanding Longer
Biao Zhang, Paul Suganthan, Gaël Liu, Ilya Philippov, Sahil Dua, Ben Hora, Kat Black, Gus Martins, Omar Sanseviero, Shreya Pathak, Cassidy Hardin, Francesco Visin, Jiageng Zhang, Kathleen Kenealy, Qin Yin, Olivier Lacombe, Armand Joulin, Tris Warkentin and Adam Roberts
Статья: https://arxiv.org/abs/2512.14856
Ревью: https://arxiviq.substack.com/p/t5gemma-2-seeing-reading-and-understanding
Модель: https://huggingface.co/collections/google/t5gemma-2
# TL;DR
ЧТО сделали: Исследователи из Google DeepMind представили T5Gemma 2 — семейство моделей (270M, 1B, 4B) архитектуры энкодер-декодер, собранных на базе чекпоинтов decoder-only модели Gemma 3. Авторы расширили рецепт адаптации для поддержки мультимодальных входов (через SigLIP) и длинного контекста (до 128k токенов), попутно внедрив оптимизации вроде связанных эмбеддингов (tied embeddings) и объединенного внимания (merged attention), что сократило количество параметров на ~10% без потери качества.
ПОЧЕМУ это важно: Работа бросает вызов тотальному доминированию decoder-only архитектур (типа LLaMA или GPT). Она доказывает, что энкодер-декодеры обладают лучшими индуктивными смещениями (inductive biases) для моделирования длинного контекста и мультимодального поиска. Это готовый блюпринт по эффективной конвертации мощных каузальных LLM в двунаправленные модели, которые умеют глубоко «вчитываться» в объемный контекст перед генерацией, что критически важно для RAG и сложных пайплайнов работы с документами.
Подробнее: /channel/gonzo_ML_podcasts/1775
Статья, которую я точно разбирать не буду, ни вручную, ни автоматом (она ещё и за пейволлом). Практическая, наверное даже полезная, но оценить не могу, их таких уже миллион, и я не знаю, лучше ли она предыдущих сколь-нибудь заметно.
Но. В целом именно вот такие вот продукты и меняют жизнь среднего пользователя к лучшему, в каждой из узких ниш. Опять же, не про эту конкретную статью речь, от неё до полезного продукта может быть ещё и очень далеко, она скорее как пример. Классно, что сейчас в целом практически любой человек может собрать что-то подобное. Не сравнить с доступностью технологий даже десять лет назад. What a time to be alive!
Explainable Artificial Intelligence with Deep Convolutional Neural Networks for Real-Time Image-Based Yoga Posture Recognition in Fitness Training
https://link.springer.com/article/10.1007/s00354-025-00310-8
Но на самом деле я просто картинку хотел расшарить :)
Шмидхубер ссылается на фундаментальные работы Беннета и Шмидхубера!
Multiple Token Divergence: A Measure of In-Context Computation Density
Vincent Herrmann, Eric Alcaide, Jürgen Schmidhuber
Статья: https://openreview.net/forum?id=jNJwgg0opm
Ревью: https://arxiviq.substack.com/p/multiple-token-divergence-a-measure
# TL;DR
ЧТО сделали: Авторы предложили метрику Multiple Token Divergence (MTD), которая оценивает «вычислительную плотность» сгенерированного токена. Это делается через измерение KL-дивергенции между выходным распределением полной модели и её ограниченной, «поверхностной» вспомогательной головы.
ПОЧЕМУ это важно: Стандартный лосс предсказания следующего токена (L_NLL) — плохой прокси для оценки затрат на рассуждение. Модель может показывать низкий лосс на тривиальных задачах (копирование) и такой же низкий на сложных, но детерминированных вычислениях. MTD позволяет отделить «предсказуемость» от «вычислительных усилий», давая неинвазивный способ понять, использует ли модель всю свою глубину для ризонинга или выезжает на простых эвристиках.
Подробнее: /channel/gonzo_ML_podcasts/1741
А вот это прикольно!
https://ai.meta.com/samaudio/
Продолжаем кросс-опыление. JIT-компиляция для агентской памяти.
General Agentic Memory Via Deep Research
B.Y. Yan, Chaofan Li, Hongjin Qian, Shuqi Lu, Zheng Liu
Статья: https://arxiv.org/abs/2511.18423
Ревью: https://arxiviq.substack.com/p/general-agentic-memory-via-deep-research
Код: https://github.com/VectorSpaceLab/general-agentic-memory
# TL;DR
ЧТО сделали: Авторы предлагают General Agentic Memory (GAM) — фреймворк, меняющий парадигму управления памятью со статического сжатия (Ahead-of-Time, AOT) на компиляцию "точно в срок" (Just-in-Time, JIT). Вместо хранения готовых саммари или векторных индексов, GAM использует систему из двух агентов: Memorizer (структурирует сырую историю в страницы с контекстными заголовками) и Researcher (выполняет итеративный "deep research" в рантайме — планирует, ищет, рефлексирует).
ПОЧЕМУ это важно: Подход решает проблему потери информации, присущую традиционному RAG и суммаризации. Откладывая решение о том, "что важно", до момента реального запроса, GAM достигает SOTA-результатов на тяжелых бенчмарках (HotpotQA, RULER). Работа доказывает, что вычислительно затратный поиск в момент инференса эффективнее, чем статическое расширение контекстного окна.
Подробнее: /channel/gonzo_ML_podcasts/1720
Отдельного внимания здесь заслуживает симбиогенез, который выводит эволюцию за пределы борьбы в общей нише и принципа “выживает наиболее приспособленный” в область создания новых ниш и освоения новых источников энергии. Симбиогенез с нами на протяжении всего пути: первые клетки, эукариоты, хлоропласты, многоклеточность и специализация, появление плацентарных (своеобразный кейс, но тем не менее, без того вирусного белка, встроенного в геном, нас бы не было в текущем виде), микробиом, разделение труда в обществе. Машины вероятно встроятся сюда же -- мы уже не можем без машин, как и они не могут без нас и мы продолжаем создавать дальше друг друга. Смотреть в таком ключе на AI интересно.
У меня в очереди лежат другие работы Blaise, в частности пара свежих книг про жизнь и про интеллект. Буду знакомиться дальше. Ну и помните недавний авторазбор про Embedded Universal Predictive Intelligence и моделирование агентов вместе со средой? Тоже в том числе он, и в вышеописанном ключе та работа имеет ещё больший смысл.
Всем добра.
P.S. Кстати, не забывайте, что у канала есть Патреон и не только. Для меня этот канал чистый хобби проект без рекламы, но за токены и разные эксперименты мне платить приходится.
Описанная выше симуляция является по сути 0-мерной средой, где у всех программ равные шансы провзаимодействовать. Авторы попробовали сделать 1D и 2D среды с локальностью коммуникации. Само-репликаторы возникают во всех конфигурациях.
Авторы сфокусировались на 2D с 32400 BFF программами на сетке 240x135. Программы взаимодействовали только с соседями в пределах двух клеток по каждой координате. Итерируются по всем программам P в случайном порядке, для каждой P равномерно выбирают соседа N и, если их ещё не брали в пару, выполняют обычную процедуру split(exec(PN)) → P′ + N′. Результат перезаписывает родителей. Неотобранные программы по-прежнему могут мутировать.
В такой конфигурации само-репликаторы по-прежнему возникают, на рисунке 8 они красиво отображены на плоскости, где каждый квадратик 8x8 пикселей представляет одну ленту. Видео этой симуляции тут, можно медитировать пять минут. Игра жызнь на стероидах. Такой сетап влияет на скорость распространения репликаторов, для супа размера n у свежевозникшего репликатора время полузахвата супа составляет примерно log n шагов.
Был ещё эксперимент с длинной лентой, 65536 байт, там случайно выбиралась позиция на ленте, откуда стартовало выполнение программы. Здесь саморепликатор -- это подстрока. И в таком эксперименте они тоже возникают, там только с начальными позициями обеих голов надо было поиграть (у второй смещение 12 или 16 относительно первой), чтобы нетривиальные репликаторы начали появляться. Этот эксперимент не обсуждается, но код для воспроизведения лежит в репе.
Другие языки
Авторы не предлагают пока какой-либо теории, определяющей, что делает язык или среду подходящей для возникновения само-репликаторов, но они наблюдают это поведение и в других языках кроме BFF.
Во-первых, в языке форт (Forth), который является стековым языком. Команды с ленты либо запихивают что-то в стек, либо выполняют там операции. С фортом провели два эксперимента: аналог первичного бульона с выполнением пары лент, и аналог длинной ленты, когда индивидуальные интерпретаторы выполняются параллельно в разных частях ленты. Само-репликаторы возникли в обоих случаях, но авторы не нашли набора инструкций, которые работают в этих случаях “из коробки”.
В варианте с бульоном использовался форт с ограниченным набором команд и снова ленты фиксированного размера. Интересная особенность такого форта в том, что он позволяет собрать тривиальный однобайтовый само-репликатор (команда с опкодом 0C, скопировать байт из ячейки через 64 символа, то есть с другой ленты в той же позиции), на базе него быстро возникает само-репликатор, копирующий целую ленту. Происходит это всё гораздо быстрее и надёжнее, чем в случае BFF.
В варианте с двумерным супом само-репликаторы возникают в разных частях бульона. Они чуть отличаются друг от друга, так что в итоге никто из них в бульоне не доминирует, остаётся конкуренция.
В варианте с длинной лентой (65536) несколько вариантов также продуцируют репликаторы, но не все. Возникают примерно за 60 секунд работы или 180B инструкций. В статье есть более подробный анализ, что именно возникает и как оно себя ведёт.
На языке SUBLEQ (забавный Тьюринг полный язык с одной инструкцией, но таких языков кроме него -- десятки, см. OISC, сама по себе интересная тема). В терминах языка C инструкция с тремя операндами делает что-то такое (где pc -- program counter):
*a -= *b; if (*a <= 0) { goto c; } else { goto pc + 3; } *(pc + a) = *(pc + b) - *(pc + c); if (*a <= 0) { goto pc + d; } else { goto pc + 4; }
Эксперименты начинаются со всеми любимого брейнфака (кстати, не знал, что есть такой прекрасный вариант упоминания как “b****fuck”). Кто не знает, brainfuck -- минималистичный язык вдохновлённый машиной Тьюринга. Используется чуть расширенная версия языка (это семейство далее зовётся BFF) -- вместо ввода-вывода есть две головы, читающие одну общую для данных и команд ленту, и операции, копирующие данные между головами. Поскольку ввода-вывода нет, строки программ могут взаимодействовать только друг с другом. Никаких явных фитнес-функций не задаётся и программы предоставлены сами себе для выполнения кода и перезаписи себя и соседей. Как показывают авторы, этого достаточно для возникновения само-репликаторов.
Основной тип используемых в статье симуляций -- вариант газа Тьюринга (Turing gas) из вышеупомянутой Algorithmic chemistry. В этом газе большое число программ (2^17) формируют первичный бульон. Каждая программа содержит 64 однобайтовых символа (которые могут быть как данными, так и инструкциями -- из 256 возможных значений 10 отведено под инструкции, одна под ноль для выхода из циклов и остальное для данных). Символы всех программ инициализированы из равномерного распределения. Большой рандомный исполнимый бульон в общем. Новые программы ни добавляются, ни убираются в процессе, только само-модификация или фоновые мутации.
Программы взаимодействуют друг с другом следующим образом: в каждую эпоху выбираются случайные пары программ, программы в паре конкатенируются и результирующий код выполняется фиксированное количество шагов или пока программа не остановится. Обычно это модифицирует обе программы. В конце они разделяются и возвращаются обратно в суп.
Взаимодействие между двумя программами интерпретируется как необратимая химическая реакция, где порядок важен.
A + B → split(exec(AB)) = A′ + B′
B + A → split(exec(BA)) = B′′ + A′′
В этом ключе само-репликатор может выглядеть как автокаталитическая реакция программы S и пищи F:
S + F → split(exec(SF)) = 2 · S
Это не ловит кейсы с циклами длиной больше единицы. Также это не ловит кейсы репликации со смещением, отличным от 64.
Авторы предлагают свою меру сложности -- high-order entropy, которая для строки длины n вычисляется как разность между энтропией Шеннона (посчитанной по отдельным байтам) и нормализованной (делённой на n) Колмогоровской сложности. С Колмогоровской сложностью сложно (она невычислима), поэтому здесь её аппроксимировали размером сжатой с помощью SoTA архиватора строки (использовался brotli -q2, https://github.com/google/brotli, вариант LZ компрессора).
Эта метрика подходит по двум причинам:
1. Для последовательности из n i.i.d. символов ожидаемая энтропия высокого порядка сходится к нулю при n стремящемся к бесконечности (то есть случайный шум будет иметь нулевую сложность).
2. Для последовательности k i.i.d. символов с распределением D ожидаемая энтропия высокого порядка строки, сформированной конкатенацией n копий этих символов сходится к энтропии Шеннона для D по мере того как n стремится к бесконечности (суп из кучи копий одной и той же строки будет иметь заметно ненулевую сложность).
Для отслеживания истории символов к ним цепляют дополнительную информацию, так что они являются кортежами (epoch, position, char) упакованными в int64 токены.
На старте симуляции есть 2^17 строки по 64 символа, что даёт 2^23 = 8M уникальных токенов при инициализации. Анализ токенов позволяет отследить изменение состояния. Без изменения состояния количество уникальных токенов в супе постепенно уменьшается и стабилизируется на 3M уникальных токенов, где мутации и случайные репликации балансируют друг друга.
Изменение состояния вызывает резкое уменьшение числа уникальных токенов и в супе начинают доминировать небольшое число id токенов. Благодаря добавленной к символам информации можно отследить конкретную эпоху и строку, где возник первый репликатор.
История одного репликатора
Одна из историй развивается следующим образом (картинка 2).
Наука скейлинга агентов.
Towards a Science of Scaling Agent Systems
Yubin Kim, Ken Gu, Chanwoo Park, Chunjong Park, Samuel Schmidgall, A. Ali Heydari, Yao Yan, Zhihan Zhang, Yuchen Zhuang, Mark Malhotra, Paul Pu Liang, Hae Won Park, Yuzhe Yang, Xuhai Xu, Yilun Du, Shwetak Patel, Tim Althoff, Daniel McDuff, and Xin Liu
Статья: https://arxiv.org/abs/2512.08296
Ревью: https://arxiviq.substack.com/p/towards-a-science-of-scaling-agent
# TL;DR
ЧТО сделали: Авторы провели масштабное контролируемое исследование 180 конфигураций агентных систем, варьируя возможности моделей (семейства OpenAI, Google, Anthropic), топологию координации и свойства задач. На основе этого вывели количественный «закон масштабирования» для мультиагентных систем (MAS). Этот закон предсказывает итоговую производительность на основе метрик взаимодействия, ставя под сомнение популярное мнение, что простое увеличение числа агентов всегда ведет к улучшению результата.
ПОЧЕМУ это важно: Работа доказывает, что эффективность MAS зависит не от линейного масштабирования, а от компромисса между выгодой от распараллеливания и накладными расходами на координацию. Исследователи выявили конкретные «режимы отказа» — в частности, задачи с интенсивным использованием инструментов и последовательной логикой — где добавление агентов ухудшает результат вплоть до 70%. Предложен предиктивный фреймворк (R^2=0.513), помогающий определить, когда стоит разворачивать сложный рой, а когда лучше справится одна сильная модель.
Подробнее: /channel/gonzo_ML_podcasts/1693
Забавная работа, обучаем модели специальному языку для ризонинга.
ORION: Teaching Language Models to Reason Efficiently in the Language of Thought
Kumar Tanmay, Kriti Aggarwal, Paul Pu Liang, Subhabrata Mukherjee
Статья: https://arxiv.org/abs/2511.22891
Код: https://github.com/Hippocratic-AI-Research/Orion
Ревью: https://arxiviq.substack.com/p/orion-teaching-language-models-to
# TL;DR
ЧТО сделали: Представили ORION — фреймворк, сжимающий траектории рассуждений (reasoning traces) больших рассуждающих моделей (LRM) в символический «Язык мысли» (*Mentalese*). Процесс двухэтапный: сначала SFT на датасете из 40 тысяч сжатых примеров, затем применение нового метода обучения с подкреплением SLPO (Shorter Length Preference Optimization), который динамически награждает за краткость без ущерба для точности.
ПОЧЕМУ это важно: Современные модели (DeepSeek-R1, OpenAI o1) достигают высоких результатов за счёт масштабирования вычислений во время инференса (test-time compute), часто генерируя многословные и дорогие ответы. ORION показывает, что модель на 1.5B параметров может сравняться или превзойти гигантов вроде GPT-4o и Claude 3.5 Sonnet в математике, генерируя цепочки рассуждений в 10–20 раз короче. Это снижает задержку и стоимость обучения (в 7–9 раз), открывая путь к быстрым рассуждающим агентам.
Подробнее: /channel/gonzo_ML_podcasts/1682
Walrus: A Cross-domain Foundation Model for Continuum Dynamics
Michael McCabe, Payel Mukhopadhyay, Tanya Marwah, Bruno Regaldo-Saint Blancard, Francois Rozet, Cristiana Diaconu, Lucas Meyer, Kaze W. K. Wong, Hadi Sotoudeh, Alberto Bietti, Irina Espejo, Rio Fear, Siavash Golkar, Tom Hehir, Keiya Hirashima, Geraud Krawezik, Francois Lanusse, Rudy Morel, Ruben Ohana, Liam Parker, Mariel Pettee, Jeff Shen, Kyunghyun Cho, Miles Cranmer, Shirley Ho
Статья: https://arxiv.org/abs/2511.15684
Ревью: https://arxiviq.substack.com/p/walrus-a-cross-domain-foundation
Код: https://github.com/PolymathicAI/walrus
Модель: https://huggingface.co/polymathic-ai/walrus
# TL;DR
ЧТО сделали: Представили Walrus — фундаментальную модель на базе трансформера (1.3B параметров) для симуляции физических полей. Модель предобучена на 19 разнообразных сценариях (от астрофизики до неньютоновских жидкостей). Главная фишка: данные 2D трактуются как срезы в 3D-пространстве эмбеддингов, а для стабильности длинных прогнозов используется новая техника джиттеринга.
ПОЧЕМУ это важно: Существующие суррогатные модели (вроде FNO или GraphCast) обычно зажаты в рамки конкретной геометрии, что мешает им масштабироваться так же эффективно, как LLM. Walrus показывает, что унификация 2D и 3D режимов и решение проблемы артефактов сетки позволяют одной модели обобщаться на совершенно разные физические режимы, побеждая узкоспециализированные бейзлайны по точности и стабильности.
Подробнее: /channel/gonzo_ML_podcasts/1670
Другая недавняя идейно близкая работа: Towards a Physics Foundation Model (/channel/gonzo_ML_podcasts/1055)
Недавно Гугл выпускал блог пост про SIMA 2, а теперь наконец вышла статья.
SIMA 2: A Generalist Embodied Agent for Virtual Worlds
SIMA Team, Google DeepMind
Paper: https://arxiv.org/abs/2512.04797
Review: https://arxiviq.substack.com/p/sima-2-a-generalist-embodied-agent
# TL;DR
ЧТО сделали: Представили SIMA 2 — универсальную Vision-Language-Action (VLA) модель, созданную через файнтюнинг Gemini Flash-Lite. В отличие от первой версии (/channel/gonzo_ML/2466), которая просто переводила инструкции в нажатия клавиш, SIMA 2 интегрирует внутренний процесс рассуждения (chain-of-thought). Это позволяет ей справляться с неоднозначными инструкциями, вести диалог и выполнять сложные многошаговые задачи в различных 3D-средах.
ПОЧЕМУ это важно: Работа демонстрирует успешный рецепт создания "foundation agents", которые не страдают от катастрофического забывания: SIMA 2 сохраняет математические и рассуждающие способности базовой Gemini, при этом достигая человеческого уровня в видеоиграх. Кроме того, предложен масштабируемый механизм open-ended self-improvement, где LLM выступают и постановщиками задач, и моделями вознаграждения, позволяя агенту учиться в новых средах без доступа к программным API игры.
Подробнее: /channel/gonzo_ML_podcasts/1656
Новый стартап Лекуна и Лебруна
https://techcrunch.com/2025/12/19/yann-lecun-confirms-his-new-world-model-startup-reportedly-seeks-5b-valuation/
В IEEE Spectrum прикольная статья про то, как LLM меняют современные лэптопы:
https://spectrum.ieee.org/ai-models-locally
С необходимостью локального инференса моделей старые подходы требуют переосмысления. Например, разделение на системную память и видеопамять, связанные через не самую быструю шину.
Современный ноутбук для LLM (или ноутбук ближайшего будущего) — это ноутбук с большим объёмом консолидированной быстрой памяти, отдельным NPU — теперь у нас уже совсем гетерогенная система, включающая CPU, GPU и NPU (вспоминаются старые времена, когда математический сопроцессор был отдельным девайсом и ставился рядом с основным, типа Intel 80286/287), работающие совместно, а в идеале ещё и на общем чипе, чтобы укоротить физические пути к памяти и между собой, и с умным управлением потребляемой мощностью.
Я когда-то создавал большие посты про железо для deep learning, у меня были отдельные секции про CPU , GPU и ASIC. По-хорошему, конечно, надо написать современные версии про это всё, тут и TPU уже 7-й версии, а там только 4-й, и GPU несколько поколений сменилось, и в CPU интересные вещи творятся.
Например, у AMD прикольный топовый 4нм чип AMD Ryzen™ AI Max+ 395 c 16 ядрами Zen5 (и 32 тредами), частотой до 5.1 ГГц, до 128 Гб 256-bit LPDDR5x памяти, с графикой Radeon 8060S Graphics (которая вроде бьёт отдельную 3060 или ноутовую 4060) и, самое интересное, со встроенным NPU в 50 TOPS (в сочетании со всем остальным 126 TOPS) и всего 55 Вт потребления. Производительность конечно далека от ~3300 TOPS у 5090, но ведь и энергии жрёт в десять раз меньше, и дешевле.
Я видел комменты на реддите, где народ пишет, что запускает на машинах с этим процом gpt-oss-120b на 40+ токенов в секунду и оно под нагрузкой жрёт меньше энергии, чем другие их сервера при простое.
На этом же чипе от AMD есть прикольный EVO-X2 от GMKtec , который на инференсе сравним (где-то лучше, где-то хуже) с NVIDIA DGX Spark.
В серверных процессорах тоже вроде что-то интересное происходит и у Интела, и у АМД. Прикольный движ.
100-страничный обзор про память агентов с кучей красивых картинок. С таким добром и комикс не нужен!
Memory in the Age of AI Agents: A Survey
Yuyang Hu, Shichun Liu, Yanwei Yue, Guibin Zhang, Boyang Liu, Fangyi Zhu, Jiahang Lin, Honglin Guo, Shihan Dou, Zhiheng Xi, Senjie Jin, Jiejun Tan, Yanbin Yin, Jiongnan Liu, Zeyu Zhang, Zhongxiang Sun, Yutao Zhu, Hao Sun, Boci Peng, Zhenrong Cheng, Xuanbo Fan, Jiaxin Guo, Xinlei Yu, Zhenhong Zhou, Zewen Hu, Jiahao Huo, Junhao Wang, Yuwei Niu, Yu Wang, Zhenfei Yin, Xiaobin Hu, Yue Liao, Qiankun Li, Kun Wang, Wangchunshu Zhou, Yixin Liu, Dawei Cheng, Qi Zhang, Tao Gui, Shirui Pan, Yan Zhang, Philip Torr, Zhicheng Dou, Ji-Rong Wen, Xuanjing Huang, Yu-Gang Jiang, Shuicheng Yan
Статья: https://arxiv.org/abs/2512.13564
Ревью: https://arxiviq.substack.com/p/memory-in-the-age-of-ai-agents
Репа: https://github.com/Shichun-Liu/Agent-Memory-Paper-List
# TL;DR
ЧТО сделали: Авторы предложили всеобъемлющую таксономию Памяти Агентов (Agent Memory). Они отказались от классической дихотомии «кратковременная/долговременная память» в пользу структурированного фреймворка, определяемого через Формы (токены, параметры, латентная), Функции (фактическая, опытная, рабочая) и Динамику (формирование, эволюция, поиск). Работа чётко отделяет память агента от смежных концепций вроде RAG или инженерии контекста, предлагая чертёж для саморазвивающихся систем.
ПОЧЕМУ это важно: По мере того как LLM-агенты переходят от простых ответов на вопросы к длительным автономным задачам, отсутствие у базовых моделей состояния (их stateless-природа) становится критическим узким местом. Статья важна тем, что формализует память не просто как буфер для хранения данных, а как активный, самооптимизирующийся когнитивный субстрат. Это необходимо для непрерывного обучения (continual learning) и самоэволюции без непомерных затрат на постоянное переобучение модели.
Подробнее: /channel/gonzo_ML_podcasts/1760
Любопытный (но дорогой) заход на стабильность мультишаговых воркфлоу с LLM :)
Solving a Million-Step LLM Task with Zero Errors
Elliot Meyerson, Giuseppe Paolo, Roberto Dailey, Hormoz Shahrzad, Olivier Francon, Conor F. Hayes, Xin Qiu, Babak Hodjat, Risto Miikkulainen
Статья: https://arxiv.org/abs/2511.09030
Ревью: https://arxiviq.substack.com/p/solving-a-million-step-llm-task-with
Код: https://github.com/cognizant-ai-lab/neuro-san-benchmarking
# TL;DR
ЧТО сделали: Предложили фреймворк MAKER (Maximal Agentic decomposition, first-to-ahead-by-K Error correction, and Red-flagging), который позволяет решать задачи длиной более миллиона последовательных шагов LLM с нулевым количеством ошибок. Разбив задачу «Ханойская башня» на атомарные подзадачи (m=1) и применив специфический механизм голосования, авторы показали, что относительно небольшие модели (не являющиеся рассуждающими, reasoning models) могут достигать уровня надёжности, ранее считавшегося невозможным для стохастических генераторов.
ПОЧЕМУ это важно: Работа бросает вызов догме, что для длинных задач нужны экспоненциально более умные модели. Вместо этого приводится доказательство существования Массивно декомпозированных агентных процессов (MDAP). Показано, что архитектурные изменения — в частности, экстремальная модульность и статистическая коррекция ошибок — позволяют стоимости расти лог-линейно (Θ(s ln s)), а не экспоненциально в зависимости от длины задачи.
Подробнее: /channel/gonzo_ML_podcasts/1749
Ну и, кстати, если ещё не видели, новая Gemini 3 Flash выглядит неплохо!
https://blog.google/products/gemini/gemini-3-flash/
Странная какая-то статья, как будто пытались по-быстрому выложить. Больше набор буллет пойнтов, чем статья, да и практическая часть с эвалами практически же отсутствует. Но сама идея (как я её понял) интересна. В любом случае, вручную разбирать не стал бы, а так автоматом хоть что-то.
JEPA as a Neural Tokenizer: Learning Robust Speech Representations with Density Adaptive Attention
Georgios Ioannides, Christos Constantinou, Aman Chadha, Aaron Elkins, Linsey Pang, Ravid Shwartz-Ziv, Yann LeCun
Статья: https://arxiv.org/abs/2512.07168
Код: https://github.com/gioannides/Density-Adaptive-JEPA
Ревью: https://arxiviq.substack.com/p/jepa-as-a-neural-tokenizer-learning
# TL;DR
ЧТО сделали: Авторы предложили двухэтапный фреймворк для создания речевых представлений. На первом этапе используется архитектура Joint-Embedding Predictive Architecture (JEPA), усиленная механизмом адаптивного к плотности внимания (DAAM). Это позволяет выучивать семантические фичи через предсказание маскированных латентов в полном отрыве от задачи реконструкции волны. На втором этапе энкодер замораживают и обучают HiFi-GAN декодер с конечно-скалярным квантованием (FSQ). Итог — экстремально низкая частота кадров: всего 2.5 Гц (47.5 токенов в секунду).
ПОЧЕМУ это важно: Подход разрешает вечный конфликт нейронных аудиокодеков между сохранением акустической точности и изучением высокоуровневой семантики. Заменив стандартные кодовые книги VQ-VAE на аналитическое FSQ и используя гейтинг внимания на основе вероятностей, модель выдает сильно сжатые, обратимые токены. Они идеально подходят для скармливания в LLM, не жертвуя при этом качеством восстановления аудио.
Подробнее: /channel/gonzo_ML_podcasts/1727
Очередной способ параллелизации размышлений. Мультитрединг приходит в LLM :)
ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models
Long Lian, Sida Wang, Felix Juefei-Xu, Tsu-Jui Fu, Xiuyu Li, Adam Yala, Trevor Darrell, Alane Suhr, Yuandong Tian, Xi Victoria Lin
Статья: https://arxiv.org/abs/2512.07843
Ревью: https://arxiviq.substack.com/p/threadweaver-adaptive-threading-for
# TL;DR
ЧТО сделали: Авторы представили ThreadWeaver — фреймворк, позволяющий LLM динамически разбивать последовательную цепочку рассуждений (CoT) на параллельные потоки. Обучив модель выдавать специальные управляющие токены (<Parallel>, <Thread>) и используя trie-based механизм внимания, система реализует паттерн выполнения «fork-join». Для оптимизации используется модифицированный алгоритм P-GRPO, который балансирует между правильностью ответа и сокращением длины критического пути.
ПОЧЕМУ это важно: Время инференса в сложных задачах на рассуждение (reasoning tasks) обычно растёт линейно с длиной цепочки (O(N)), создавая узкое место для масштабирования System 2. ThreadWeaver показывает, что можно сохранить SOTA-качество (на уровне последовательного Qwen3-8B) и при этом получить значительное ускорение по времени (до 1.53x). Что важно, это работает на стандартных движках (например, vLLM) без необходимости писать кастомные CUDA-ядра или хитро управлять KV-кэшем.
Подробнее: /channel/gonzo_ML_podcasts/1708
В обоих случаях, если репликатор подсадить в суп, он быстро распространяется. Но при рандомной инициализации суп остаётся равномерно рандомным и после миллиардов инструкций. Динамики изменения распределения строк не наблюдается, само-репликаторы не возникают (или авторы не дождались). Возможно, дело таки в длине -- в других языках репликаторы были сильно короче. Возможно, пример SUBLEQ является хорошей отправной точкой для выработки теории, предсказывающей возникновение такой жизни.
Авторы также проверили на реальном живом языке, взяли ассемблер Z80 (когда-то давно я тоже на нём писал, это был мой первый язык ассемблера, и практически первый язык программирования). Здесь изучали двумерную сетку 16-байтовых программ, инициализированных случайно. В каждый момент случайно выбирали пару программ A и B, конкатенировали в случайном порядке, сбрасывали эмулятор Z80 и запускали 256 шагов выполнения инструкций. Лента с объединённой программой использовалась как память и все операции работы с памятью выполнялись по модулю длины этой ленты (32). Плюс фоновые мутации для рандомных байт на сетке.
Даже такой простой вариант дал жизнь довольно сложному поведению и появлению разных поколений репликаторов. Некоторые образовывали симбиотические экосистемы, другие боролись за доминирование. Разные репликаторы или коллективы несколько раз захватывали бульон. Ранние репликаторы использовали механизм копирования через стек (потому что при старте стек устанавливается на конец адресного пространства, что даёт простой способ ленте A писать на ленту B). Со временем такие репликаторы замещались репликаторами, копирующими память с помощью специальных инструкций LDIR/LDDR (из моей остаточной памяти про программирование под Z80 я ожидал, что инструкция LDIR окажется полезной для такого дела, и судя по картинке всё так). Авторы сделали отдельную репу для таких восьмибитных экспериментов на z80.
Ещё попробовали ассемблер процессора 8080 (я, кстати, упустил, что Z80 был создан выходцами из Интела, сделавшими процессор 8080, а также самый первый Intel 4004) в варианте с длинной лентой. Там рулили репликаторы из повторяющихся двух байт, без циклов. Например, последовательность байт 01 c5 01 c5 выполняет две команды LXI BC, 01c5 (загрузить в регистр BC слово 01c5), PUSH BC (и затем отправить его в стек -- то есть, как я понимаю, в итоге на ленту B). Репликаторы такого типа работали очень хорошо, поэтому, видимо, более сложные с циклами не возникли (ну или снова не дождались).
---
Такие дела. Не знаю, говорит ли это что-нибудь о биологии, процессы всё же сильно разные. Но всё равно прикольная работа. Какие там могут быть следующие качественные переходы в таком супе, интересно?
Вообще за работами Blaise Agüera y Arcas следить интересно, он в последние пару лет много говорит и пишет про темы вокруг жизни, вычислений и интеллекта. Вот совсем недавняя его колонка в Nature, “What is the future of intelligence? The answer could lie in the story of its evolution”. В принципе каких-то супер новых вещей там может и нет, многие эти идеи уже давно витают вокруг и высказываются разными людьми. Но ценности это не уменьшает, Эйнштейн тоже не на пустом месте свои открытия делал. Здесь Blaise Agüera y Arcas пишет, например, про Computogenesis и вычислительную природу, но не в смысле панпсихизма или чего-то такого, а в смысле, что живые клетки и далее организмы последовательно осваивали вычисления для разных своих нужд, от поддержания гомеостаза, репродукции и до предсказания действий других. А с репродукцией уже и тема про универсальный конструктор где-то рядом (помните Дойча и Марлето?). В этом свете первичный бульон Земли с разными конкурирующими химическими реакциями, протоклетками и прочим может и не так сильно уже отличается от первичного бульона программ, а появление длинных молекул типа РНК и ДНК идейно похоже на эксперименты текущей работы с длинными лентами.
В доисторический период (до перехода) большинство само-модификаций происходят на концах ленты с редкими мутациями в середине. Некоторые ленты полностью перезаписываются повторяющимися символами. Распределение символов устаканивается в районе стационарного с тенденцией к определённым операторам брейнфака. Сложность супа низкая.
В эпоху номер 2355 в результате сложной перезаписи появляется первый репликатор (картинка 3 разбирает как именно на уровне кода это произошло). Небольшое число байт сохраняется на ленте с первой эпохи, но большая часть скопирована с другой ленты. У репликатора есть определённая симметрия. Сложность бульона начинает расти. Репликатор вскоре перезаписывает себя содержимым другой ленты, но его копии выживают.
Затем лента перезаписывается снова, на этот раз повреждённым обратным репликатором. На концах ленты начинают появляться нули, это признаки “отравления нулями” (zero-poisoning) всего супа, поскольку оригинальная версия репликатора могла копировать нули, но не могла их перезаписывать, что вело к мультиплицированию этого добра в супе. Репликация стагнирует и сложность падает. 14% супа -- нули.
Вскоре другой репликатор возникает в супе и начинает доминировать. У него более устойчивая структура, способная перезаписывать нули. С этого момента в супе постоянная движуха: куча разных репликаторов, постоянно друг друга перезаписывающих. Они содержат много токенов из оригинального репликатора, но в различном порядке. Сложность супа увеличивается сначала быстро, а затем медленно, но устойчиво. В пике примерно 80% токенов происходят с одной ленты.
Авторы отдистиллировали пример репликатора, на него можно посмотреть на картинке 4, а также в этом видео.
Эволюция сложности
Эволюцию сложности анализировали на 1000 разных запусков с одинаковыми гиперпараметрами. Энтропия высокого порядка стабильно увеличивается в течение первых 1000 эпох, чтобы (в среднем) уменьшиться снова с отличным от начального распределением (которое было равномерным). Есть красивая визуализация на картинке 5. Чем больше эпох, тем выше вероятность перехода. Стабильные само-репликаторы возникают в 40% запусков в течение 16000 эпох. Некоторые особенно удачливые запуски получают фазовый переход практически сразу.
Дефолтная частота мутаций была 0.024%, и в общем её увеличение ускоряет появление репликаторов (хотя не скажу, что по картинке 6 это прям заметно). Но и с отключенной мутацией фазовый переход случается примерно с той же частотой, так что дело явно не просто в мутации. Она может ускорять процесс, но она не необходима. Забавно, что при 1% мутаций возникновение репликаторов сильно деградирует.
Отдельно проверили влияние случайной инициализации. Насколько вообще вероятно, что репликатор будет присутствовать уже при инициализации? Это не так просто понять, ибо репликатор может быть не просто копировщиком целой строки, но может являться частью более сложного автокаталитического набора. В любом случае репликатору требуется время для захвата всего супа и в процессе он легко может быть уничтожен. В 50% случаев одиночный само-репликатор будет в правой половине ленты и он может быть уничтожен кодом с левой половины. Да ещё и случайные мутации могут попортить.
На рисунке 7 сравнивают несколько разных типов запуска: долгий (обычный на 16к эпох) -- примерно 40% таких запусков создали саморепликатор; короткий (128 эпох, достаточно времени для захвата супа, если репликатор уже был в инициализации, но он может быть уничтожен или возникнуть заново) -- очень редкое событие, 0.3%; подсаженный/seeded (на старте подселяют один созданный вручную репликатор и выполняют 128 эпох) -- 22% успеха, то есть 1 из 5 репликаторов выживает; долгий без шума (обычные 16к эпох без мутаций и с фиксированной последовательностью паттернов перемешивания, чтобы не увеличивать общую энтропию системы) -- оказывается ещё лучше, примерно в 50% случаев получаем переход.
Из всего этого выводы, что само-репликаторы возникают в основном из само-модификации и взаимодействия между программами, а не просто из-за инициализации и мутаций.
Сегодня супердлинный жанр.
Computational Life: How Well-formed, Self-replicating Programs Emerge from Simple Interaction
Blaise Agüera y Arcas, Jyrki Alakuijala, James Evans, Ben Laurie, Alexander Mordvintsev, Eyvind Niklasson, Ettore Randazzo, Luca Versari
Статья: https://arxiv.org/abs/2406.19108
Код: https://github.com/paradigms-of-intelligence/cubff
Эту статью хотелось разобрать давно. Она появилась больше года назад, но я так и не увидел нигде вокруг какого-то достаточно подробного обзора. Статья касается возникновения само-репликации в системах, отличающих живое от пред-жизни и касается как обычной жизни так и ALife. Текущая работа рассматривает появление само-репликации на вычислительном субстрате поверх разных языков программирования.
О жизни
Разговоры про жизнь и её определение и так довольно сложны, но они ещё более усложняются, когда мы переходим от “life as it is” к “life as it could be”. Этому, кстати, посвящена более поздняя работа одного из соавторов (Blaise Aguera y Arcas) вместе с другими, включая нашего любимого Michael Levin, под названием “What Lives? A meta-analysis of diverse opinions on the definition of life”. Но про неё как-нибудь отдельно.
В науке о происхождении жизни (OoL) существует фундаментальное противоречие: сложно объяснить фазовый переход от абиотической материи (хаотичного химического супа с высокой энтропией) к биотической, способной к саморепликации и эволюции. Многие симуляции искусственной жизни исторически обходят это узкое место, просто помещая в симуляцию написанного вручную “предка”. Это позволяет изучать эволюцию после биогенеза, но совершенно упускает сам момент зарождения.
Авторы текущей работы сфокусированы именно на моменте зарождения. Они инициализируют среду равномерным случайным шумом и проверяют, обладают ли вычислительные субстраты внутренней динамикой, которая сама подталкивает к спонтанному возникновению автокаталитических наборов. Обычно наблюдается значительное изменение динамики системы, совпадающее с появлением само-репликаторов, независимо от субстрата. Поэтому, возможно, мы можем использовать появление само-репликаторов как разумный переход для различения динамики пре-жизни и жизни.
Работы в этом направлении ведутся десятки лет. Вводный раздел вообще рекомендую почитать, там много ссылок на интересные работы. Вот, например, Algorithmic chemistry 1990 года. Или довольно свежая работа 2022 года с Томашом Миколовым (помните word2vec?) “Emergence of Self-Reproducing Metabolisms as Recursive Algorithms in an Artificial Chemistry”.
В работе “The coreworld: Emergence and evolution of cooperative structures in a computational chemistry” 1990 года программы потребляли локальный ресурс (энергию) на выполнение каждой операции (похоже, кажется, на газ в эфире), и там возникали простые двухкомандные репликаторы, но работали и сложные, когда их подселяли в среду. В другой работе, “The evolution of self-replicating computer organisms” 1996 года, репликаторы появлялись благодаря случайной инициализации и последующим мутациям.
Текущая работа фокусируется на Тьюринг-полных средах (Brainfuck, Forth, Z80) и она не про инициализацию и мутации. Авторы показывают, что в большинстве исследованных конфигураций само-репликаторы возникали благодаря само-модификации. Во всех экспериментах отсутствовала какая-либо явно заданная функция приспособленности (которая могла бы направлять усложнение или появление само-репликаторов). Сложная динамика появляется из-за неявной конкуренции за ограниченный ресурс (место, время выполнения, энергия).
Вычислительный суп
Эксперименты успешно проводились на расширенном варианте Brainfuck, Forth, а также на реальных инструкциях Z80 и i8080. И неуспешно на языке SUBLEQ, экзотическом языке с одной инструкцией "Subtract and Branch if Less than or EQual to zero". Пользуясь случаем, хочу порекомендовать старый добрый сайт https://esolangs.org про эзотерические языки программирования, список их там немал!
И для разнообразия про другие Gemini. В эти выходные максимум метеорного потока Геминиды:
https://www.rmg.co.uk/stories/space-astronomy/geminid-meteor-shower-uk-dates-how-to-see
Надеюсь, вам повезёт с погодой.
Выкатили.
https://openai.com/index/introducing-gpt-5-2/
Меня периодически спрашивают, как я генерю комиксы. Выношу из комментов, ибо многие могли пропустить.
Примерно так:
https://gonzoml.substack.com/p/visualizing-research-how-i-use-gemini
Для тех, кому нравилась тема про Lottery Ticket Hypothesis (/channel/gonzo_ML/21). Взяли кучу моделей одинаковой архитектуры, полные или LoRA, и нашли через SVD небольшое подмножество универсальных весов, которые хорошо работают для всего.
The Universal Weight Subspace Hypothesis
Prakhar Kaushik, Shravan Chaudhari, Ankit Vaidya, Rama Chellappa, Alan Yuille
Статья: https://arxiv.org/abs/2512.05117
Код: https://toshi2k2.github.io/unisub/
Ревью: https://arxiviq.substack.com/p/the-universal-weight-subspace-hypothesis
# TL;DR
ЧТО сделали: Авторы проанализировали более 1100 глубоких нейросетей — от Vision Transformers до LoRA-адаптеров для LLaMA-3 и Mistral. Они показали, что модели, обученные на совершенно разных задачах, сходятся к общему низкоразмерному подпространству параметров. Применив спектральное разложение к агрегированным весам этих моделей, исследователи выделили «универсальный» набор базисных векторов, который объясняет большую часть дисперсии. Это позволяет обучаться под новые задачи, оптимизируя лишь скалярные коэффициенты, а не полные матрицы весов.
ПОЧЕМУ это важно: Результаты говорят о том, что огромная часть параметров в моделях после файнтюнинга избыточна. Это даёт геометрическое объяснение успеху методов PEFT (Parameter-Efficient Fine-Tuning), открывает возможность для экстремального сжатия моделей (до 100 раз по памяти) и мгновенного слияния моделей через простую арифметику без сложного дообучения или эвристического прунинга.
Подробнее: /channel/gonzo_ML_podcasts/1644