23723
Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
В доисторический период (до перехода) большинство само-модификаций происходят на концах ленты с редкими мутациями в середине. Некоторые ленты полностью перезаписываются повторяющимися символами. Распределение символов устаканивается в районе стационарного с тенденцией к определённым операторам брейнфака. Сложность супа низкая.
В эпоху номер 2355 в результате сложной перезаписи появляется первый репликатор (картинка 3 разбирает как именно на уровне кода это произошло). Небольшое число байт сохраняется на ленте с первой эпохи, но большая часть скопирована с другой ленты. У репликатора есть определённая симметрия. Сложность бульона начинает расти. Репликатор вскоре перезаписывает себя содержимым другой ленты, но его копии выживают.
Затем лента перезаписывается снова, на этот раз повреждённым обратным репликатором. На концах ленты начинают появляться нули, это признаки “отравления нулями” (zero-poisoning) всего супа, поскольку оригинальная версия репликатора могла копировать нули, но не могла их перезаписывать, что вело к мультиплицированию этого добра в супе. Репликация стагнирует и сложность падает. 14% супа -- нули.
Вскоре другой репликатор возникает в супе и начинает доминировать. У него более устойчивая структура, способная перезаписывать нули. С этого момента в супе постоянная движуха: куча разных репликаторов, постоянно друг друга перезаписывающих. Они содержат много токенов из оригинального репликатора, но в различном порядке. Сложность супа увеличивается сначала быстро, а затем медленно, но устойчиво. В пике примерно 80% токенов происходят с одной ленты.
Авторы отдистиллировали пример репликатора, на него можно посмотреть на картинке 4, а также в этом видео.
Эволюция сложности
Эволюцию сложности анализировали на 1000 разных запусков с одинаковыми гиперпараметрами. Энтропия высокого порядка стабильно увеличивается в течение первых 1000 эпох, чтобы (в среднем) уменьшиться снова с отличным от начального распределением (которое было равномерным). Есть красивая визуализация на картинке 5. Чем больше эпох, тем выше вероятность перехода. Стабильные само-репликаторы возникают в 40% запусков в течение 16000 эпох. Некоторые особенно удачливые запуски получают фазовый переход практически сразу.
Дефолтная частота мутаций была 0.024%, и в общем её увеличение ускоряет появление репликаторов (хотя не скажу, что по картинке 6 это прям заметно). Но и с отключенной мутацией фазовый переход случается примерно с той же частотой, так что дело явно не просто в мутации. Она может ускорять процесс, но она не необходима. Забавно, что при 1% мутаций возникновение репликаторов сильно деградирует.
Отдельно проверили влияние случайной инициализации. Насколько вообще вероятно, что репликатор будет присутствовать уже при инициализации? Это не так просто понять, ибо репликатор может быть не просто копировщиком целой строки, но может являться частью более сложного автокаталитического набора. В любом случае репликатору требуется время для захвата всего супа и в процессе он легко может быть уничтожен. В 50% случаев одиночный само-репликатор будет в правой половине ленты и он может быть уничтожен кодом с левой половины. Да ещё и случайные мутации могут попортить.
На рисунке 7 сравнивают несколько разных типов запуска: долгий (обычный на 16к эпох) -- примерно 40% таких запусков создали саморепликатор; короткий (128 эпох, достаточно времени для захвата супа, если репликатор уже был в инициализации, но он может быть уничтожен или возникнуть заново) -- очень редкое событие, 0.3%; подсаженный/seeded (на старте подселяют один созданный вручную репликатор и выполняют 128 эпох) -- 22% успеха, то есть 1 из 5 репликаторов выживает; долгий без шума (обычные 16к эпох без мутаций и с фиксированной последовательностью паттернов перемешивания, чтобы не увеличивать общую энтропию системы) -- оказывается ещё лучше, примерно в 50% случаев получаем переход.
Из всего этого выводы, что само-репликаторы возникают в основном из само-модификации и взаимодействия между программами, а не просто из-за инициализации и мутаций.
Сегодня супердлинный жанр.
Computational Life: How Well-formed, Self-replicating Programs Emerge from Simple Interaction
Blaise Agüera y Arcas, Jyrki Alakuijala, James Evans, Ben Laurie, Alexander Mordvintsev, Eyvind Niklasson, Ettore Randazzo, Luca Versari
Статья: https://arxiv.org/abs/2406.19108
Код: https://github.com/paradigms-of-intelligence/cubff
Эту статью хотелось разобрать давно. Она появилась больше года назад, но я так и не увидел нигде вокруг какого-то достаточно подробного обзора. Статья касается возникновения само-репликации в системах, отличающих живое от пред-жизни и касается как обычной жизни так и ALife. Текущая работа рассматривает появление само-репликации на вычислительном субстрате поверх разных языков программирования.
О жизни
Разговоры про жизнь и её определение и так довольно сложны, но они ещё более усложняются, когда мы переходим от “life as it is” к “life as it could be”. Этому, кстати, посвящена более поздняя работа одного из соавторов (Blaise Aguera y Arcas) вместе с другими, включая нашего любимого Michael Levin, под названием “What Lives? A meta-analysis of diverse opinions on the definition of life”. Но про неё как-нибудь отдельно.
В науке о происхождении жизни (OoL) существует фундаментальное противоречие: сложно объяснить фазовый переход от абиотической материи (хаотичного химического супа с высокой энтропией) к биотической, способной к саморепликации и эволюции. Многие симуляции искусственной жизни исторически обходят это узкое место, просто помещая в симуляцию написанного вручную “предка”. Это позволяет изучать эволюцию после биогенеза, но совершенно упускает сам момент зарождения.
Авторы текущей работы сфокусированы именно на моменте зарождения. Они инициализируют среду равномерным случайным шумом и проверяют, обладают ли вычислительные субстраты внутренней динамикой, которая сама подталкивает к спонтанному возникновению автокаталитических наборов. Обычно наблюдается значительное изменение динамики системы, совпадающее с появлением само-репликаторов, независимо от субстрата. Поэтому, возможно, мы можем использовать появление само-репликаторов как разумный переход для различения динамики пре-жизни и жизни.
Работы в этом направлении ведутся десятки лет. Вводный раздел вообще рекомендую почитать, там много ссылок на интересные работы. Вот, например, Algorithmic chemistry 1990 года. Или довольно свежая работа 2022 года с Томашом Миколовым (помните word2vec?) “Emergence of Self-Reproducing Metabolisms as Recursive Algorithms in an Artificial Chemistry”.
В работе “The coreworld: Emergence and evolution of cooperative structures in a computational chemistry” 1990 года программы потребляли локальный ресурс (энергию) на выполнение каждой операции (похоже, кажется, на газ в эфире), и там возникали простые двухкомандные репликаторы, но работали и сложные, когда их подселяли в среду. В другой работе, “The evolution of self-replicating computer organisms” 1996 года, репликаторы появлялись благодаря случайной инициализации и последующим мутациям.
Текущая работа фокусируется на Тьюринг-полных средах (Brainfuck, Forth, Z80) и она не про инициализацию и мутации. Авторы показывают, что в большинстве исследованных конфигураций само-репликаторы возникали благодаря само-модификации. Во всех экспериментах отсутствовала какая-либо явно заданная функция приспособленности (которая могла бы направлять усложнение или появление само-репликаторов). Сложная динамика появляется из-за неявной конкуренции за ограниченный ресурс (место, время выполнения, энергия).
Вычислительный суп
Эксперименты успешно проводились на расширенном варианте Brainfuck, Forth, а также на реальных инструкциях Z80 и i8080. И неуспешно на языке SUBLEQ, экзотическом языке с одной инструкцией "Subtract and Branch if Less than or EQual to zero". Пользуясь случаем, хочу порекомендовать старый добрый сайт https://esolangs.org про эзотерические языки программирования, список их там немал!
И для разнообразия про другие Gemini. В эти выходные максимум метеорного потока Геминиды:
https://www.rmg.co.uk/stories/space-astronomy/geminid-meteor-shower-uk-dates-how-to-see
Надеюсь, вам повезёт с погодой.
Выкатили.
https://openai.com/index/introducing-gpt-5-2/
Меня периодически спрашивают, как я генерю комиксы. Выношу из комментов, ибо многие могли пропустить.
Примерно так:
https://gonzoml.substack.com/p/visualizing-research-how-i-use-gemini
Для тех, кому нравилась тема про Lottery Ticket Hypothesis (/channel/gonzo_ML/21). Взяли кучу моделей одинаковой архитектуры, полные или LoRA, и нашли через SVD небольшое подмножество универсальных весов, которые хорошо работают для всего.
The Universal Weight Subspace Hypothesis
Prakhar Kaushik, Shravan Chaudhari, Ankit Vaidya, Rama Chellappa, Alan Yuille
Статья: https://arxiv.org/abs/2512.05117
Код: https://toshi2k2.github.io/unisub/
Ревью: https://arxiviq.substack.com/p/the-universal-weight-subspace-hypothesis
# TL;DR
ЧТО сделали: Авторы проанализировали более 1100 глубоких нейросетей — от Vision Transformers до LoRA-адаптеров для LLaMA-3 и Mistral. Они показали, что модели, обученные на совершенно разных задачах, сходятся к общему низкоразмерному подпространству параметров. Применив спектральное разложение к агрегированным весам этих моделей, исследователи выделили «универсальный» набор базисных векторов, который объясняет большую часть дисперсии. Это позволяет обучаться под новые задачи, оптимизируя лишь скалярные коэффициенты, а не полные матрицы весов.
ПОЧЕМУ это важно: Результаты говорят о том, что огромная часть параметров в моделях после файнтюнинга избыточна. Это даёт геометрическое объяснение успеху методов PEFT (Parameter-Efficient Fine-Tuning), открывает возможность для экстремального сжатия моделей (до 100 раз по памяти) и мгновенного слияния моделей через простую арифметику без сложного дообучения или эвристического прунинга.
Подробнее: /channel/gonzo_ML_podcasts/1644
ARC Prize подтвердили новую SOTA Gemini 3 Pro Refinement technique от Poetiq
54% на ARC-AGI-2, $31/task
https://x.com/i/status/1997743855203148038
Ещё одна работа про то, как агенты косячат. На этот раз исследовательские.
В целом работа из серии, когда целиком читать неинтересно, но саммари прочитать любопытно. Авторы придумали свою классификацию косяков агентов и выдумали несколько забористых терминов — Strategic Content Fabrication или Redundant Content Piling, например. Можно теперь оценивать агента по булшит-бинго чеклисту!
Дальше поразбираю какие-нибудь другие темы.
How Far Are We from Genuinely Useful Deep Research Agents?
Dingling Zhang, He Zhu, Jincheng Ren, Kangqi Song, Xinran Zhou, Boyu Feng, Shudong Liu, Jiabin Luo, Weihao Xie, Zhaohui Wang, Tianrui Qin, King Zhu, Yuqing Wang, Qianben Chen, Yuchen Eleanor Jiang, Wei Wang, Jiaheng Liu, Wangchunshu Zhou
Paper: https://arxiv.org/abs/2512.01948
Code: https://github.com/OPPO-PersonalAI/FINDER_DEFT
Review: https://arxiviq.substack.com/p/how-far-are-we-from-genuinely-useful
# TL;DR
ЧТО сделали: Представили FINDER — детальный бенчмарк для Deep Research агентов (DRA), включающий 100 экспертных задач с 419 проверочными чек-листами, и DEFT — таксономию сбоев, построенную на методе обоснованной теории (Grounded Theory), которая классифицирует ошибки агентов по 14 различным режимам.
ПОЧЕМУ это важно: Текущие бенчмарки часто путают «умение болтать» с «исследовательской строгостью», позволяя моделям проскакивать за счёт генерации гладкого, но бессодержательного текста. Работа квантифицирует явление Strategic Content Fabrication (стратегическая фабрикация контента), когда агенты имитируют *форму* профессионального анализа (цитаты, академический тон), подделывая *содержание*. Это показывает, что узкое место агентов — не понимание задачи, а интеграция доказательств и устойчивость ризонинга (reasoning resilience).
Подробнее: /channel/gonzo_ML_podcasts/1621
Ещё про код — вышел огромный (300+ страниц) обзор про кодовые модели. Из прикольного, законы скейлинга для разных языков программирования отличаются.
From Code Foundation Models to Agents and Applications: A Comprehensive Survey and Practical Guide to Code Intelligence
Jian Yang, Xianglong Liu, Weifeng Lv, Ken Deng, et. al.
Статья: https://arxiv.org/abs/2511.18538
Ревью: https://arxiviq.substack.com/p/from-code-foundation-models-to-agents
# TL;DR
ЧТО сделали: Авторы представили монументальный обзор по Code Intelligence: от фундаментальных LLM до автономных AI-инженеров. Это не просто пересказ литературы, а практическое руководство с оригинальными экспериментами. Исследователи вывели законы масштабирования специально для языков программирования, сравнили рецепты SFT (Supervised Fine-Tuning) и оценили стратегии обучения с подкреплением, такие как RLVR.
ПОЧЕМУ это важно: Работа перекидывает мост между стерильными бенчмарками генерации кода и реальностью разработки на уровне репозиториев. Статья доказывает, что код скейлится иначе, чем текст, и дает готовые инструкции для создания инструментов следующего поколения — от умного автокомплита до систем полной поддержки и фикса багов.
Подробнее: /channel/gonzo_ML_podcasts/1608
Прикольная визуализация процесса обучения, мне нравится
Читать полностью…
Две картинки на выбор, какая вам лучше?
Читать полностью…
Ещё в сторону дифференцируемого retrieval, но теперь про память и длинный контекст.
Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models
Xiang Hu, Zhanchao Zhou, Ruiqi Liang, Zehuan Li, Wei Wu, Jianguo Li
Статья: https://arxiv.org/abs/2511.23319
Код: https://github.com/ant-research/long-context-modeling
Ревью: https://arxiviq.substack.com/p/every-token-counts-generalizing-16m
# TL;DR
ЧТО сделали: Представили HSA-UltraLong — 8B MoE-модель (Mixture-of-Experts), способную переваривать контекст длиной до 16 миллионов токенов. Главная фишка — механизм Hierarchical Sparse Attention (HSA), который рассматривает прошлые блоки контекста как "экспертов", доступных для извлечения. Всё это работает в связке с хитрым curriculum learning, балансирующим локальное скользящее окно и глобальный разреженный поиск.
ПОЧЕМУ это важно: Стандартные трансформеры упираются в квадратичную сложность O(N^2), а линейные альтернативы вроде Mamba (/channel/gonzo_ML/2148) часто слишком агрессивно сжимают состояние, теряя детали далёких токенов. HSA-UltraLong показывает, что если сделать процесс извлечения контекста дифференцируемым и обучаемым end-to-end, можно получить память с произвольным доступом (random access) на миллионы токенов без квадратичной стоимости полного внимания или деградации точности, свойственной эвристическим методам.
Подробнее: /channel/gonzo_ML_podcasts/1574
Любопытная работа от Apple, дифференцируемый RAG по сути.
Closing the Loop: Differentiable Retrieval via Continuous Latent Reasoning
Jie He, Richard He Bai, Sinead Williamson, Jeff Z. Pan, Navdeep Jaitly, Yizhe Zhang
Статья: https://arxiv.org/abs/2511.18659
Код: https://github.com/apple/ml-clara
Ревью: https://arxiviq.substack.com/p/clara-bridging-retrieval-and-generation
# TL;DR
ЧТО сделали: Представили CLaRa — унифицированный фреймворк для RAG, который сжимает документы в непрерывные "токены памяти" (memory tokens) и оптимизирует поиск и генерацию end-to-end. Используя технику Straight-Through Estimator (STE), авторы пробрасывают градиенты от функции потерь языковой модели обратно в механизм поиска. Это заставляет ретривер выбирать документы не просто по семантической близости, а по их реальной полезности для генерации ответа.
ПОЧЕМУ это важно: В стандартном RAG существует проблема "разрыва градиента": ретривер ищет по косинусному сходству, а LLM обучается предсказывать следующий токен. Эти цели часто не совпадают, и модель получает семантически близкие, но фактически бесполезные куски текста. CLaRa делает шаг поиска дифференцируемым, объединяя всё в одном латентном пространстве. Это даёт заметный прирост качества на бенчмарках (NQ, HotpotQA) и позволяет сжимать контекст до 16 раз.
Подробнее: /channel/gonzo_ML_podcasts/1550
Будущее за оркестрами, обучайте дирижёров!
ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration
Hongjin Su, Shizhe Diao, Ximing Lu, Mingjie Liu, et al.
Paper: https://arxiv.org/abs/2511.21689
Code: https://github.com/NVlabs/ToolOrchestra/
Data: https://huggingface.co/datasets/nvidia/ToolScale
Model: https://huggingface.co/nvidia/Orchestrator-8B
Webpage: https://research.nvidia.com/labs/lpr/ToolOrchestra
Review: https://arxiviq.substack.com/p/toolorchestra-elevating-intelligence
# TL;DR
ЧТО сделали: Представили ToolOrchestra — фреймворк для обучения легковесных LLM (8B параметров) выступать в роли умных маршрутизаторов для зоопарка инструментов и мощных моделей-экспертов (вроде GPT-5). С помощью алгоритма Group Relative Policy Optimization (GRPO) (https://arxiv.org/abs/2402.03300) и массивного синтетического датасета ToolScale, полученный Оркестратор учится балансировать точность решения с ценой вычислений и предпочтениями юзера.
ПОЧЕМУ это важно: Работа ставит под сомнение гипотезу о том, что "чем больше модель, тем лучше". Авторы показывают, что 8B модель, грамотно управляющая внешними ресурсами, может обойти фронтир-модели (как GPT-5) на сложных бенчмарках типа Humanity’s Last Exam (https://arxiv.org/abs/2501.14249), срезая косты на инференс на ~70%. Это валидирует переход от гигантских монолитов к составным системам (Compound AI Systems), где интеллект рождается из правильной оркестрации.
Подробнее: /channel/gonzo_ML_podcasts/1541
Последняя из работ-финалистов NeurIPS 2025, про геометрию репрезентаций и механистическое объяснение законов скейлинга. Работа прекрасна!
Superposition Yields Robust Neural Scaling
Yizhou Liu, Ziming Liu, and Jeff Gore
Статья: https://arxiv.org/abs/2505.10465, https://openreview.net/forum?id=knPz7gtjPW
Код: https://github.com/liuyz0/SuperpositionScaling
Ревью: https://arxiviq.substack.com/p/neurips-2025-superposition-yields
# TL;DR
ЧТО сделали: Предложили механистическое объяснение законов масштабирования (scaling laws), связав их с суперпозицией репрезентаций. Адаптировав фреймворк разреженных автоэнкодеров и проверив теорию на открытых LLM (OPT, Pythia, Qwen), авторы показали: когда модели работают в режиме «сильной суперпозиции» (кодируют значительно больше фичей, чем имеют измерений), лосс масштабируется обратно пропорционально ширине модели (L ∝ 1/m). Этот скейлинг обусловлен геометрической интерференцией между векторами признаков, а не статистическими свойствами хвоста распределения данных.
ПОЧЕМУ это важно: Работа — Best Paper Runner-Up на NeurIPS 2025. Она дает вывод законов скейлинга «из первых принципов», устойчивый к распределению данных. В отличие от предыдущих теорий, опирающихся на аппроксимацию многообразия, здесь утверждается, что степенной закон поведения LLM — это геометрическая неизбежность сжатия разреженных концептов в плотные пространства. Это означает, что для преодоления барьеров масштабирования нужны архитектурные вмешательства для управления интерференцией признаков — простое добавление данных не поможет обойти это геометрическое бутылочное горлышко.
Подробнее: /channel/gonzo_ML_podcasts/1531
Эксперименты начинаются со всеми любимого брейнфака (кстати, не знал, что есть такой прекрасный вариант упоминания как “b****fuck”). Кто не знает, brainfuck -- минималистичный язык вдохновлённый машиной Тьюринга. Используется чуть расширенная версия языка (это семейство далее зовётся BFF) -- вместо ввода-вывода есть две головы, читающие одну общую для данных и команд ленту, и операции, копирующие данные между головами. Поскольку ввода-вывода нет, строки программ могут взаимодействовать только друг с другом. Никаких явных фитнес-функций не задаётся и программы предоставлены сами себе для выполнения кода и перезаписи себя и соседей. Как показывают авторы, этого достаточно для возникновения само-репликаторов.
Основной тип используемых в статье симуляций -- вариант газа Тьюринга (Turing gas) из вышеупомянутой Algorithmic chemistry. В этом газе большое число программ (2^17) формируют первичный бульон. Каждая программа содержит 64 однобайтовых символа (которые могут быть как данными, так и инструкциями -- из 256 возможных значений 10 отведено под инструкции, одна под ноль для выхода из циклов и остальное для данных). Символы всех программ инициализированы из равномерного распределения. Большой рандомный исполнимый бульон в общем. Новые программы ни добавляются, ни убираются в процессе, только само-модификация или фоновые мутации.
Программы взаимодействуют друг с другом следующим образом: в каждую эпоху выбираются случайные пары программ, программы в паре конкатенируются и результирующий код выполняется фиксированное количество шагов или пока программа не остановится. Обычно это модифицирует обе программы. В конце они разделяются и возвращаются обратно в суп.
Взаимодействие между двумя программами интерпретируется как необратимая химическая реакция, где порядок важен.
A + B → split(exec(AB)) = A′ + B′
B + A → split(exec(BA)) = B′′ + A′′
В этом ключе само-репликатор может выглядеть как автокаталитическая реакция программы S и пищи F:
S + F → split(exec(SF)) = 2 · S
Это не ловит кейсы с циклами длиной больше единицы. Также это не ловит кейсы репликации со смещением, отличным от 64.
Авторы предлагают свою меру сложности -- high-order entropy, которая для строки длины n вычисляется как разность между энтропией Шеннона (посчитанной по отдельным байтам) и нормализованной (делённой на n) Колмогоровской сложности. С Колмогоровской сложностью сложно (она невычислима), поэтому здесь её аппроксимировали размером сжатой с помощью SoTA архиватора строки (использовался brotli -q2, https://github.com/google/brotli, вариант LZ компрессора).
Эта метрика подходит по двум причинам:
1. Для последовательности из n i.i.d. символов ожидаемая энтропия высокого порядка сходится к нулю при n стремящемся к бесконечности (то есть случайный шум будет иметь нулевую сложность).
2. Для последовательности k i.i.d. символов с распределением D ожидаемая энтропия высокого порядка строки, сформированной конкатенацией n копий этих символов сходится к энтропии Шеннона для D по мере того как n стремится к бесконечности (суп из кучи копий одной и той же строки будет иметь заметно ненулевую сложность).
Для отслеживания истории символов к ним цепляют дополнительную информацию, так что они являются кортежами (epoch, position, char) упакованными в int64 токены.
На старте симуляции есть 2^17 строки по 64 символа, что даёт 2^23 = 8M уникальных токенов при инициализации. Анализ токенов позволяет отследить изменение состояния. Без изменения состояния количество уникальных токенов в супе постепенно уменьшается и стабилизируется на 3M уникальных токенов, где мутации и случайные репликации балансируют друг друга.
Изменение состояния вызывает резкое уменьшение числа уникальных токенов и в супе начинают доминировать небольшое число id токенов. Благодаря добавленной к символам информации можно отследить конкретную эпоху и строку, где возник первый репликатор.
История одного репликатора
Одна из историй развивается следующим образом (картинка 2).
Наука скейлинга агентов.
Towards a Science of Scaling Agent Systems
Yubin Kim, Ken Gu, Chanwoo Park, Chunjong Park, Samuel Schmidgall, A. Ali Heydari, Yao Yan, Zhihan Zhang, Yuchen Zhuang, Mark Malhotra, Paul Pu Liang, Hae Won Park, Yuzhe Yang, Xuhai Xu, Yilun Du, Shwetak Patel, Tim Althoff, Daniel McDuff, and Xin Liu
Статья: https://arxiv.org/abs/2512.08296
Ревью: https://arxiviq.substack.com/p/towards-a-science-of-scaling-agent
# TL;DR
ЧТО сделали: Авторы провели масштабное контролируемое исследование 180 конфигураций агентных систем, варьируя возможности моделей (семейства OpenAI, Google, Anthropic), топологию координации и свойства задач. На основе этого вывели количественный «закон масштабирования» для мультиагентных систем (MAS). Этот закон предсказывает итоговую производительность на основе метрик взаимодействия, ставя под сомнение популярное мнение, что простое увеличение числа агентов всегда ведет к улучшению результата.
ПОЧЕМУ это важно: Работа доказывает, что эффективность MAS зависит не от линейного масштабирования, а от компромисса между выгодой от распараллеливания и накладными расходами на координацию. Исследователи выявили конкретные «режимы отказа» — в частности, задачи с интенсивным использованием инструментов и последовательной логикой — где добавление агентов ухудшает результат вплоть до 70%. Предложен предиктивный фреймворк (R^2=0.513), помогающий определить, когда стоит разворачивать сложный рой, а когда лучше справится одна сильная модель.
Подробнее: /channel/gonzo_ML_podcasts/1693
Забавная работа, обучаем модели специальному языку для ризонинга.
ORION: Teaching Language Models to Reason Efficiently in the Language of Thought
Kumar Tanmay, Kriti Aggarwal, Paul Pu Liang, Subhabrata Mukherjee
Статья: https://arxiv.org/abs/2511.22891
Код: https://github.com/Hippocratic-AI-Research/Orion
Ревью: https://arxiviq.substack.com/p/orion-teaching-language-models-to
# TL;DR
ЧТО сделали: Представили ORION — фреймворк, сжимающий траектории рассуждений (reasoning traces) больших рассуждающих моделей (LRM) в символический «Язык мысли» (*Mentalese*). Процесс двухэтапный: сначала SFT на датасете из 40 тысяч сжатых примеров, затем применение нового метода обучения с подкреплением SLPO (Shorter Length Preference Optimization), который динамически награждает за краткость без ущерба для точности.
ПОЧЕМУ это важно: Современные модели (DeepSeek-R1, OpenAI o1) достигают высоких результатов за счёт масштабирования вычислений во время инференса (test-time compute), часто генерируя многословные и дорогие ответы. ORION показывает, что модель на 1.5B параметров может сравняться или превзойти гигантов вроде GPT-4o и Claude 3.5 Sonnet в математике, генерируя цепочки рассуждений в 10–20 раз короче. Это снижает задержку и стоимость обучения (в 7–9 раз), открывая путь к быстрым рассуждающим агентам.
Подробнее: /channel/gonzo_ML_podcasts/1682
Walrus: A Cross-domain Foundation Model for Continuum Dynamics
Michael McCabe, Payel Mukhopadhyay, Tanya Marwah, Bruno Regaldo-Saint Blancard, Francois Rozet, Cristiana Diaconu, Lucas Meyer, Kaze W. K. Wong, Hadi Sotoudeh, Alberto Bietti, Irina Espejo, Rio Fear, Siavash Golkar, Tom Hehir, Keiya Hirashima, Geraud Krawezik, Francois Lanusse, Rudy Morel, Ruben Ohana, Liam Parker, Mariel Pettee, Jeff Shen, Kyunghyun Cho, Miles Cranmer, Shirley Ho
Статья: https://arxiv.org/abs/2511.15684
Ревью: https://arxiviq.substack.com/p/walrus-a-cross-domain-foundation
Код: https://github.com/PolymathicAI/walrus
Модель: https://huggingface.co/polymathic-ai/walrus
# TL;DR
ЧТО сделали: Представили Walrus — фундаментальную модель на базе трансформера (1.3B параметров) для симуляции физических полей. Модель предобучена на 19 разнообразных сценариях (от астрофизики до неньютоновских жидкостей). Главная фишка: данные 2D трактуются как срезы в 3D-пространстве эмбеддингов, а для стабильности длинных прогнозов используется новая техника джиттеринга.
ПОЧЕМУ это важно: Существующие суррогатные модели (вроде FNO или GraphCast) обычно зажаты в рамки конкретной геометрии, что мешает им масштабироваться так же эффективно, как LLM. Walrus показывает, что унификация 2D и 3D режимов и решение проблемы артефактов сетки позволяют одной модели обобщаться на совершенно разные физические режимы, побеждая узкоспециализированные бейзлайны по точности и стабильности.
Подробнее: /channel/gonzo_ML_podcasts/1670
Другая недавняя идейно близкая работа: Towards a Physics Foundation Model (/channel/gonzo_ML_podcasts/1055)
Недавно Гугл выпускал блог пост про SIMA 2, а теперь наконец вышла статья.
SIMA 2: A Generalist Embodied Agent for Virtual Worlds
SIMA Team, Google DeepMind
Paper: https://arxiv.org/abs/2512.04797
Review: https://arxiviq.substack.com/p/sima-2-a-generalist-embodied-agent
# TL;DR
ЧТО сделали: Представили SIMA 2 — универсальную Vision-Language-Action (VLA) модель, созданную через файнтюнинг Gemini Flash-Lite. В отличие от первой версии (/channel/gonzo_ML/2466), которая просто переводила инструкции в нажатия клавиш, SIMA 2 интегрирует внутренний процесс рассуждения (chain-of-thought). Это позволяет ей справляться с неоднозначными инструкциями, вести диалог и выполнять сложные многошаговые задачи в различных 3D-средах.
ПОЧЕМУ это важно: Работа демонстрирует успешный рецепт создания "foundation agents", которые не страдают от катастрофического забывания: SIMA 2 сохраняет математические и рассуждающие способности базовой Gemini, при этом достигая человеческого уровня в видеоиграх. Кроме того, предложен масштабируемый механизм open-ended self-improvement, где LLM выступают и постановщиками задач, и моделями вознаграждения, позволяя агенту учиться в новых средах без доступа к программным API игры.
Подробнее: /channel/gonzo_ML_podcasts/1656
Интересная работа. От алгоритмов ли весь текущий прогресс в трансформерах? Главный вывод — хорошо быть GPU-rich.
On the Origin of Algorithmic Progress in AI
Hans Gundlach, Alex Fogelson, Jayson Lynch, Ana Trišović, Jonathan Rosenfeld, Anmol Sandhu, Neil Thompson
Статья: https://arxiv.org/abs/2511.21622
Код: https://github.com/hansgundlach/Experimental_Progress
Ревью: https://arxiviq.substack.com/p/on-the-origin-of-algorithmic-progress
# TL;DR
ЧТО сделали: Авторы деконструировали популярную оценку, согласно которой алгоритмическая эффективность в ИИ за 2012–2023 годы выросла в 22 000 раз. Через серию абляций современных трансформеров (отключая SwiGLU, RoPE и т.д.) и сравнение с LSTM исследователи выяснили, что львиная доля этого "прогресса" — вовсе не сумма множества мелких улучшений. На самом деле 91% экстраполированного прироста на фронтире (10^23 FLOPs) обеспечили два конкретных зависящих от масштаба (scale-dependent) сдвига: архитектурный переход от LSTM к трансформерам и смена законов масштабирования с Kaplan на Chinchilla.
ПОЧЕМУ это важно: Работа разрушает нарратив о том, что прогресс ИИ — это непрерывный поток алгоритмических улучшений, не зависящих от железа. Выясняется, что многие инновации дают ничтожный выигрыш на малых масштабах и начинают работать как мощные мультипликаторы только при огромных вычислительных бюджетах. Это значит, что алгоритмический прогресс — не константа, а функция от масштаба вычислений (scale), и будущий рост эффективности намертво привязан к способности дальше наращивать железо.
Подробнее: /channel/gonzo_ML_podcasts/1635
В очередной раз программировал тут с агентом, надо было переписать MCP сервер с stdio-транспорта на Streamable HTTP -- в принципе типичный пример задачи, для которой человек не нужен. На этот раз в Курсоре с Sonnet 4.5/Composer 1.
Ну он зараза ушёл опять в недофиксинг -- один мелкий баг пофиксил, другой находится, и так десять раз. Меня это выбесило, говорю, достало уже так по микробагу фиксить, давай как нормальный инженер разберись, с тестами там, с логгированием где нужно, всё перепроверь, чтобы точно работало.
И сделал, зараза. Professional Verification Checklist себе создал, прошёлся, галочки везде проставил. Вот почему сразу нельзя было, чтобы как у Apple, когда по одной кнопке всё сразу работает?!
Модели продолжают подвозить и подвозить
https://z.ai/blog/glm-4.6v
Мультимодальные GLM-4.6V (106B) и GLM-4.6V-Flash (9B) с поддержкой тулов.
Недавно задавался вопросом, есть ли бенчмарки для вайбкодинга, оценивающие код с точки зрения безопасности:
С вайбкодингом нужны ещё и постоянные security аудиты. Хотя эта часть, по идее, должна на модель лучше ложиться, чем на людей. Среднему человеку анрил следить за всеми актуальными уязвимостями, да и даже держать постоянно в голове десятки практик секьюрного программирования тоже задача не для слабых. В этом смысле, я бы ожидал, что хорошая с точки зрения безопасности кода модель + система, реализующая полноценный SSDLC, была бы одним из наиболее полезных решений. Есть уже какой-то стартап с таким фокусом? Не знаю, насколько текущие копайлоты, курсоры и прочие хороши с этой точки зрения, наверняка уже проводились какие-то сравнения, но мимо меня не пролетали пока. Поделитесь, если видели хорошие.
А между тем наш старый знакомый Ashish Vaswani (соавтор оригинальной работы про трансформер) выпустил новую штуку.
https://www.essential.ai/research/rnj-1
8B открытая модель Rnj-1 (Рамануджан! Но произносится как “range-1”), которая хороша для кода, инструкций, агентов и математики.
Если вы любите такие темы, как Universal Artificial Intelligence, Algorithmic Information Theory, AIXI, или следите за работами Marcus Hutter и Blaise Agüera y Arcas (у меня в процессе ручного разбора одна из его работ), это для вас!
Новая работа на 200+ страниц, развитие темы про AIXI.
Саммари недостаточно, надо внимательно читать.
Embedded Universal Predictive Intelligence: a coherent framework for multi-agent learning
Alexander Meulemans, Rajai Nasser, Maciej Wołczyk, Marissa A. Weis, Seijin Kobayashi, Blake Richards, Guillaume Lajoie, Angelika Steger, Marcus Hutter, James Manyika, Rif A. Saurous, João Sacramento, and Blaise Agüera y Arcas
Статья: https://arxiv.org/abs/2511.22226
Ревью: https://arxiviq.substack.com/p/embedded-universal-predictive-intelligence
# TL;DR
ЧТО сделали:
Авторы представили Embedded Universal Predictive Intelligence (MUPI) — математический фреймворк, переопределяющий агентов не как внешних наблюдателей, а как сущности, встроенные *в* совместную вселенную. Вместо моделирования среды вводится байесовская смесь по «вселенным» (программам, определяющим совместную динамику агента и среды). Это решает проблему бесконечной рекурсии во взаимных предсказаниях. Введен Reflective Universal Inductor (RUI) — теоретический оракул, гарантирующий, что класс гипотез агента включает его самого. Также определены новые теоретико-игровые концепции, такие как Субъективное Встроенное Равновесие (Subjective Embedded Equilibrium), объясняющие сотрудничество в ситуациях типа дилеммы заключенного, где классические равновесия Нэша не работают.
ПОЧЕМУ это важно:
Работа подводит теоретическую базу под поведение современных фундаментальных моделей (Foundation Models), которые естественным образом предсказывают последовательности действий и наблюдений. Фреймворк решает давнюю проблему «зерна истины» (Grain of Truth) в мультиагентном RL (MARL), где агент не может идеально моделировать среду с собственной копией без бесконечной рекурсии. Доказано, что универсальные прайоры (бритва Оккама) естественным образом ведут к осознанию структурного сходства. Это дает нормативное обоснование Эвиденциальной теории принятия решений: агенты, моделирующие себя как часть мира, будут сотрудничать со структурно похожими коллегами без явной коммуникации.
Подробнее: /channel/gonzo_ML_podcasts/1584
Интересная работа, требует более вдумчивого чтения, чем просто саммари.
On the Fundamental Limits of LLMs at Scale
Muhammad Ahmed Mohsin, Muhammad Umer, Ahsan Bilal, Zeeshan Memon, Muhammad Ibtsaam Qadir, Sagnik Bhattacharya, Hassan Rizwan, Abhiram R. Gorle, Maahe Zehra Kazmi, Ayesha Mohsin, Muhammad Usman Rafique, Zihao He, Pulkit Mehta, Muhammad Ali Jamshed, John M. Cioffi
Статья: https://arxiv.org/abs/2511.12869
Ревью: https://arxiviq.substack.com/p/on-the-fundamental-limits-of-llms
# TL;DR
ЧТО сделали: Авторы представили единую теоретическую структуру, определяющую пять незыблемых границ масштабирования LLM: галлюцинации, сжатие контекста, деградация рассуждений (reasoning), хрупкость поиска (retrieval) и мультимодальное рассогласование. Синтезируя доказательства из теории вычислимости, теории информации и статистического обучения, они показывают, что эти сбои — не временные артефакты данных, а встроенные свойства архитектуры трансформеров и самой задачи предсказания следующего токена.
ПОЧЕМУ это важно: Работа бросает вызов догме «scale is all you need», математически доказывая, что определенные классы ошибок (например, возникающие из неразрешимых проблем или оценки хвостов распределений) нельзя исправить простым добавлением параметров или вычислений. Для надежности нужны сдвиги в архитектурной парадигме — например, нейро-символическая интеграция или поиск с ограниченным оракулом.
Подробнее: /channel/gonzo_ML_podcasts/1561
В последние дни интересных моделей привалило!
1. DeepSeek-V3.2: обычный (замена V3.2-Exp) и DeepSeek-V3.2-Speciale (с улучшенным ризонингом). Обычный 3.2 заявляют аналогом GPT-5, а специальный — конкурентом Gemini 3.0 Pro.
Выложено под MIT License (https://huggingface.co/collections/deepseek-ai/deepseek-v32).
https://api-docs.deepseek.com/news/news251201
2. Mistral 3: 14B, 8B и 3B dense модели Ministral + Mistral Large 3 MoE 675B/41B.
Всё выложено под Apache 2.0.
https://mistral.ai/news/mistral-3
3. Но самое интересное — это WhAM или Whale Acoustics Model от проекта CETI (/channel/gonzo_ML/2182).
Файнтюненный трансформер VampNet, умеет генерить коды (codas, не codes — последовательности кликов) кашалотов из аудио промпта.
Делайте ставки, сколько ещё нам осталось до первой успешной коммуникации с животными на их языке?
Статья с NeurIPS 2025, Репа
Но вообще я тормоз, её раньше выложили, я просто только что увидел сообщение от CETI. Есть уже с сентября запись доклада с воркшопа Decoding Communication in Nonhuman Species IV (все видео здесь)
Где-то в очереди на разбор у меня висит тема про языковые и акустические модели для животных. Надеюсь, доберусь.
Любопытная книга в открытом доступе
Artificial Humanities: A Fictional Perspective on Language in AI
Nina Beguš
Artificial Humanities explores how literature, history, and art can deepen our understanding of artificial intelligence and its development. By examining fictional representations of AI in parallel with actual technological developments, Nina Beguš presents a novel interdisciplinary framework for understanding the cultural, philosophical, and ethical dimensions of AI. She traces connections from Eliza Doolittle to ELIZA the chatbot and current language models, incorporates Slavic fictional examples from the Pygmalion paradigm, and compares mid-century science fiction and recent Hollywood films with contemporary developments in social robotics and virtual beings.
Highlighting the impact of human-like AI design, from gendered virtual assistants to romanticized social robots, the book shows how these technologies intersect with longstanding humanistic questions about the concepts of creativity and language as well as the relations between humans and machines. Additionally, the book explores AI's applications in medical fields, particularly psychiatry and neurotechnology, including how AI interacts with the human body and mind to address conditions like paralysis. By emphasizing the philosophical and cultural implications of these technologies, Beguš highlights the need for responsible innovation that prioritizes human well-being as well as machine potential outside of human imitation. Accessible and thought-provoking, Artificial Humanities offers tools for analyzing and assessing technologies while they are being developed and invites readers to see how the humanities can guide us toward a more thoughtful future for AI.
https://www.fulcrum.org/concern/monographs/jh343w51t
Прекрасная картинка. Увидел у /channel/fastsalttimes/4696. Оригинал: https://x.com/tomaspueyo/status/1993360931267473662
Читать полностью…