gonzo_ml | Unsorted

Telegram-канал gonzo_ml - gonzo-обзоры ML статей

23724

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Subscribe to a channel

gonzo-обзоры ML статей

Интересная работа. От алгоритмов ли весь текущий прогресс в трансформерах? Главный вывод — хорошо быть GPU-rich.

On the Origin of Algorithmic Progress in AI
Hans Gundlach, Alex Fogelson, Jayson Lynch, Ana Trišović, Jonathan Rosenfeld, Anmol Sandhu, Neil Thompson
Статья: https://arxiv.org/abs/2511.21622
Код: https://github.com/hansgundlach/Experimental_Progress
Ревью: https://arxiviq.substack.com/p/on-the-origin-of-algorithmic-progress

# TL;DR

ЧТО сделали: Авторы деконструировали популярную оценку, согласно которой алгоритмическая эффективность в ИИ за 2012–2023 годы выросла в 22 000 раз. Через серию абляций современных трансформеров (отключая SwiGLU, RoPE и т.д.) и сравнение с LSTM исследователи выяснили, что львиная доля этого "прогресса" — вовсе не сумма множества мелких улучшений. На самом деле 91% экстраполированного прироста на фронтире (10^23 FLOPs) обеспечили два конкретных зависящих от масштаба (scale-dependent) сдвига: архитектурный переход от LSTM к трансформерам и смена законов масштабирования с Kaplan на Chinchilla.

ПОЧЕМУ это важно: Работа разрушает нарратив о том, что прогресс ИИ — это непрерывный поток алгоритмических улучшений, не зависящих от железа. Выясняется, что многие инновации дают ничтожный выигрыш на малых масштабах и начинают работать как мощные мультипликаторы только при огромных вычислительных бюджетах. Это значит, что алгоритмический прогресс — не константа, а функция от масштаба вычислений (scale), и будущий рост эффективности намертво привязан к способности дальше наращивать железо.

Подробнее: /channel/gonzo_ML_podcasts/1635

Читать полностью…

gonzo-обзоры ML статей

В очередной раз программировал тут с агентом, надо было переписать MCP сервер с stdio-транспорта на Streamable HTTP -- в принципе типичный пример задачи, для которой человек не нужен. На этот раз в Курсоре с Sonnet 4.5/Composer 1.

Ну он зараза ушёл опять в недофиксинг -- один мелкий баг пофиксил, другой находится, и так десять раз. Меня это выбесило, говорю, достало уже так по микробагу фиксить, давай как нормальный инженер разберись, с тестами там, с логгированием где нужно, всё перепроверь, чтобы точно работало.

И сделал, зараза. Professional Verification Checklist себе создал, прошёлся, галочки везде проставил. Вот почему сразу нельзя было, чтобы как у Apple, когда по одной кнопке всё сразу работает?!

Читать полностью…

gonzo-обзоры ML статей

Модели продолжают подвозить и подвозить

https://z.ai/blog/glm-4.6v

Мультимодальные GLM-4.6V (106B) и GLM-4.6V-Flash (9B) с поддержкой тулов.

Читать полностью…

gonzo-обзоры ML статей

Недавно задавался вопросом, есть ли бенчмарки для вайбкодинга, оценивающие код с точки зрения безопасности:

С вайбкодингом нужны ещё и постоянные security аудиты. Хотя эта часть, по идее, должна на модель лучше ложиться, чем на людей. Среднему человеку анрил следить за всеми актуальными уязвимостями, да и даже держать постоянно в голове десятки практик секьюрного программирования тоже задача не для слабых. В этом смысле, я бы ожидал, что хорошая с точки зрения безопасности кода модель + система, реализующая полноценный SSDLC, была бы одним из наиболее полезных решений. Есть уже какой-то стартап с таким фокусом? Не знаю, насколько текущие копайлоты, курсоры и прочие хороши с этой точки зрения, наверняка уже проводились какие-то сравнения, но мимо меня не пролетали пока. Поделитесь, если видели хорошие.


И вот как раз прилетела статья в тему. Если кратко про ситуацию — полная жопа.

Is Vibe Coding Safe? Benchmarking Vulnerability of Agent-Generated Code in Real-World Tasks

Songwen Zhao, Danqing Wang, Kexun Zhang, Jiaxuan Luo, Zhuo Li, Lei Li
Статья: https://arxiv.org/abs/2512.03262
Код: https://github.com/LeiLiLab/susvibes
Ревью: https://arxiviq.substack.com/p/is-vibe-coding-safe-benchmarking

# TL;DR

ЧТО сделали: Представили SusVibes — бенчмарк для оценки безопасности кода, генерируемого автономными агентами (вроде SWE-Agent и OpenHands) в контексте целых репозиториев. Вместо простых сниппетов авторы собрали 200 сложных задач на основе реальных исторических исправлений уязвимостей (CVE) в open-source Python проектах.

ПОЧЕМУ это важно: Работа в цифрах показывает риски "вайб-кодинга" (vibe coding) — делегирования реализации агентам с минимальным контролем. Результаты пугающие: хотя современные SOTA-агенты (на базе Claude 3.5 Sonnet) решают 61% задач функционально верно, более 80% этих рабочих решений содержат критические уязвимости. Это подсвечивает фундаментальный разрыв между полезностью кода и его безопасностью.

Подробнее: /channel/gonzo_ML_podcasts/1594

Читать полностью…

gonzo-обзоры ML статей

А между тем наш старый знакомый Ashish Vaswani (соавтор оригинальной работы про трансформер) выпустил новую штуку.

https://www.essential.ai/research/rnj-1

8B открытая модель Rnj-1 (Рамануджан! Но произносится как “range-1”), которая хороша для кода, инструкций, агентов и математики.

Читать полностью…

gonzo-обзоры ML статей

Если вы любите такие темы, как Universal Artificial Intelligence, Algorithmic Information Theory, AIXI, или следите за работами Marcus Hutter и Blaise Agüera y Arcas (у меня в процессе ручного разбора одна из его работ), это для вас!

Новая работа на 200+ страниц, развитие темы про AIXI.

Саммари недостаточно, надо внимательно читать.

Embedded Universal Predictive Intelligence: a coherent framework for multi-agent learning

Alexander Meulemans, Rajai Nasser, Maciej Wołczyk, Marissa A. Weis, Seijin Kobayashi, Blake Richards, Guillaume Lajoie, Angelika Steger, Marcus Hutter, James Manyika, Rif A. Saurous, João Sacramento, and Blaise Agüera y Arcas
Статья: https://arxiv.org/abs/2511.22226
Ревью: https://arxiviq.substack.com/p/embedded-universal-predictive-intelligence

# TL;DR

ЧТО сделали:
Авторы представили Embedded Universal Predictive Intelligence (MUPI) — математический фреймворк, переопределяющий агентов не как внешних наблюдателей, а как сущности, встроенные *в* совместную вселенную. Вместо моделирования среды вводится байесовская смесь по «вселенным» (программам, определяющим совместную динамику агента и среды). Это решает проблему бесконечной рекурсии во взаимных предсказаниях. Введен Reflective Universal Inductor (RUI) — теоретический оракул, гарантирующий, что класс гипотез агента включает его самого. Также определены новые теоретико-игровые концепции, такие как Субъективное Встроенное Равновесие (Subjective Embedded Equilibrium), объясняющие сотрудничество в ситуациях типа дилеммы заключенного, где классические равновесия Нэша не работают.

ПОЧЕМУ это важно:
Работа подводит теоретическую базу под поведение современных фундаментальных моделей (Foundation Models), которые естественным образом предсказывают последовательности действий и наблюдений. Фреймворк решает давнюю проблему «зерна истины» (Grain of Truth) в мультиагентном RL (MARL), где агент не может идеально моделировать среду с собственной копией без бесконечной рекурсии. Доказано, что универсальные прайоры (бритва Оккама) естественным образом ведут к осознанию структурного сходства. Это дает нормативное обоснование Эвиденциальной теории принятия решений: агенты, моделирующие себя как часть мира, будут сотрудничать со структурно похожими коллегами без явной коммуникации.

Подробнее: /channel/gonzo_ML_podcasts/1584

Читать полностью…

gonzo-обзоры ML статей

Интересная работа, требует более вдумчивого чтения, чем просто саммари.

On the Fundamental Limits of LLMs at Scale
Muhammad Ahmed Mohsin, Muhammad Umer, Ahsan Bilal, Zeeshan Memon, Muhammad Ibtsaam Qadir, Sagnik Bhattacharya, Hassan Rizwan, Abhiram R. Gorle, Maahe Zehra Kazmi, Ayesha Mohsin, Muhammad Usman Rafique, Zihao He, Pulkit Mehta, Muhammad Ali Jamshed, John M. Cioffi
Статья: https://arxiv.org/abs/2511.12869
Ревью: https://arxiviq.substack.com/p/on-the-fundamental-limits-of-llms

# TL;DR

ЧТО сделали: Авторы представили единую теоретическую структуру, определяющую пять незыблемых границ масштабирования LLM: галлюцинации, сжатие контекста, деградация рассуждений (reasoning), хрупкость поиска (retrieval) и мультимодальное рассогласование. Синтезируя доказательства из теории вычислимости, теории информации и статистического обучения, они показывают, что эти сбои — не временные артефакты данных, а встроенные свойства архитектуры трансформеров и самой задачи предсказания следующего токена.

ПОЧЕМУ это важно: Работа бросает вызов догме «scale is all you need», математически доказывая, что определенные классы ошибок (например, возникающие из неразрешимых проблем или оценки хвостов распределений) нельзя исправить простым добавлением параметров или вычислений. Для надежности нужны сдвиги в архитектурной парадигме — например, нейро-символическая интеграция или поиск с ограниченным оракулом.

Подробнее: /channel/gonzo_ML_podcasts/1561

Читать полностью…

gonzo-обзоры ML статей

В последние дни интересных моделей привалило!

1. DeepSeek-V3.2: обычный (замена V3.2-Exp) и DeepSeek-V3.2-Speciale (с улучшенным ризонингом). Обычный 3.2 заявляют аналогом GPT-5, а специальный — конкурентом Gemini 3.0 Pro.

Выложено под MIT License (https://huggingface.co/collections/deepseek-ai/deepseek-v32).

https://api-docs.deepseek.com/news/news251201

2. Mistral 3: 14B, 8B и 3B dense модели Ministral + Mistral Large 3 MoE 675B/41B.

Всё выложено под Apache 2.0.

https://mistral.ai/news/mistral-3

3. Но самое интересное — это WhAM или Whale Acoustics Model от проекта CETI (/channel/gonzo_ML/2182).

Файнтюненный трансформер VampNet, умеет генерить коды (codas, не codes — последовательности кликов) кашалотов из аудио промпта.

Делайте ставки, сколько ещё нам осталось до первой успешной коммуникации с животными на их языке?

Статья с NeurIPS 2025, Репа

Но вообще я тормоз, её раньше выложили, я просто только что увидел сообщение от CETI. Есть уже с сентября запись доклада с воркшопа Decoding Communication in Nonhuman Species IV (все видео здесь)

Где-то в очереди на разбор у меня висит тема про языковые и акустические модели для животных. Надеюсь, доберусь.

Читать полностью…

gonzo-обзоры ML статей

Любопытная книга в открытом доступе

Artificial Humanities: A Fictional Perspective on Language in AI
Nina Beguš

Artificial Humanities explores how literature, history, and art can deepen our understanding of artificial intelligence and its development. By examining fictional representations of AI in parallel with actual technological developments, Nina Beguš presents a novel interdisciplinary framework for understanding the cultural, philosophical, and ethical dimensions of AI. She traces connections from Eliza Doolittle to ELIZA the chatbot and current language models, incorporates Slavic fictional examples from the Pygmalion paradigm, and compares mid-century science fiction and recent Hollywood films with contemporary developments in social robotics and virtual beings.

Highlighting the impact of human-like AI design, from gendered virtual assistants to romanticized social robots, the book shows how these technologies intersect with longstanding humanistic questions about the concepts of creativity and language as well as the relations between humans and machines. Additionally, the book explores AI's applications in medical fields, particularly psychiatry and neurotechnology, including how AI interacts with the human body and mind to address conditions like paralysis. By emphasizing the philosophical and cultural implications of these technologies, Beguš highlights the need for responsible innovation that prioritizes human well-being as well as machine potential outside of human imitation. Accessible and thought-provoking, Artificial Humanities offers tools for analyzing and assessing technologies while they are being developed and invites readers to see how the humanities can guide us toward a more thoughtful future for AI.

https://www.fulcrum.org/concern/monographs/jh343w51t

Читать полностью…

gonzo-обзоры ML статей

Прекрасная картинка. Увидел у /channel/fastsalttimes/4696. Оригинал: https://x.com/tomaspueyo/status/1993360931267473662

Читать полностью…

gonzo-обзоры ML статей

Но дебажит знатно! План на 59 шагов

Читать полностью…

gonzo-обзоры ML статей

2. В другом примере качество по одной из метрик снова стагнировало на плато, я попросил модель разобраться. Она обнаружила, что в дропауте используется всегда один и тот же random seed (потому что в JAX функции работы со случайными числами требуют передачи сида в виде ключа извне -- чтобы быть функционально чистыми -- а в коде оно не передавалось и использовалось какое-то дефолтное из одного места). Это конечно странный косяк, хорошо бы чтобы модель знала как верно использовать разные функции. Но ещё более интересный косяк в том, что в модели не было дропаута вообще, ни в оригинальной, ни в переписанной. То, что она там нашла и предлагала пофиксить, было галлюцинацией галлюцинации. В итоге "пришёл муж и переделал всё по-своему".

И я ещё не знаю, сколько там других скользких мест в коде, я его внимательно не валидировал. Надо по-хорошему, но этот эксперимент я гоняю в условиях отсутствия свободного времени, так что получается лишь несколько раз в день заглянуть и дать новые рекомендации. Как альтернатива здесь только не сделать этот эксперимент ни в каком виде вообще. Так что по чистому затраченному времени не знаю был бы выигрыш или нет, но по суммарному эффекту он точно есть -- без (в данном случае) Antigravity я бы просто не сделал это совсем, потому что не нашёл бы времени.

В целом, конечно, весёлая деятельность -- сам накосячил, сам исправил. Постоянная занятость! Хорошо хоть сам отлаживать теперь умеет без постоянного копипаста туда-сюда. Если разрешить запускать скрипты самостоятельно, то вполне сносно уже получается, модель идёт по плану, включающему до 60 шагов -- создаёт проверочные скрипты, тестовые датасеты, запускает, анализирует ошибки и прочее. No more copy-paste!

Но этого всего пока недостаточно. Это в конечном счёте твой зоркий глаз должен найти проблему!

Я активно использую модели для перевода постов в блог, а теперь ещё и для автоматической генерации ревью. У меня огромный массив автоматических проверок и своя конституция aka гайд про то, что должно быть в посте и чего там не должно быть, какие проверки сделать, какие из них сделать дважды или трижды. Но я всё равно потом вычитываю пост вручную (вглазную), чтобы убедиться, что всё верно. Каких-то радикальных проблем я за несколько месяцев не нашёл, но несколько неточных формулировок за это время исправил, а также гору просочившихся галлюцинаций, в основном по части ссылок. Но если блог-пост я ещё могу прочитать, и подкаст худо-бедно тоже могу прослушать, то вот на большую сгенерённую кодовую базу требуется сильно больше времени, которого обычно нет.

Для кода явно нужны свои промпты с принципами, и наверняка кто-то их уже собирает (поделитесь, если нашли для себя что-то рабочее). Нужно, чтобы модель создавала документацию. Не столько для человека, сколько для самой же себя, когда будешь новый чат или агента запускать. Нужны обязательно тесты и прочие автоматические проверочные сценарии, условно всё то же, что могло бы пригодиться для RLVR. Но в отличие от классических юнит-, интеграционных и иногда присутствующих перформанс-тестов, нужно явно больше, особенно если вы кодите что-то в области около ML -- различные проверки качества и детекция аномалий в обучающем процессе.

С вайбкодингом нужны ещё и постоянные security аудиты. Хотя эта часть, по идее, должна на модель лучше ложиться, чем на людей. Среднему человеку анрил следить за всеми актуальными уязвимостями, да и даже держать постоянно в голове десятки практик секьюрного программирования тоже задача не для слабых. В этом смысле, я бы ожидал, что хорошая с точки зрения безопасности кода модель + система, реализующая полноценный SSDLC, была бы одним из наиболее полезных решений. Есть уже какой-то стартап с таким фокусом? Не знаю, насколько текущие копайлоты, курсоры и прочие хороши с этой точки зрения, наверняка уже проводились какие-то сравнения, но мимо меня не пролетали пока. Поделитесь, если видели хорошие.

Читать полностью…

gonzo-обзоры ML статей

Закончили с призёрами NeurIPS, теперь финалисты. Статья про RLVR, который на самом деле не находит ничего нового.

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
Yang Yue, Zhiqi Chen, Rui Lu, Andrew Zhao, Zhaokai Wang, Yang Yue, Shiji Song, Gao Huang
Статья: https://arxiv.org/abs/2504.13837, https://openreview.net/forum?id=4OsgYD7em5
Код: https://limit-of-rlvr.github.io
Ревью: https://arxiviq.substack.com/p/neurips-2025-does-reinforcement-learning

# TL;DR

ЧТО сделали? В этой работе, прошедшей в финал (Best Paper Runner-Up) на NeurIPS 2025, авторы систематически исследовали границы возможностей рассуждающих моделей (reasoning models), обученных с помощью RLVR (Reinforcement Learning with Verifiable Rewards). Используя несмещённую метрику pass@k на задачах по математике, кодингу и визуальному мышлению, они сравнили базовые модели с их RL-версиями, чтобы выяснить: генерирует ли RLVR принципиально новые паттерны мышления или лишь усиливает существующие.

ПОЧЕМУ это важно? Результаты разрушают популярный миф о том, что RLVR позволяет моделям автономно открывать "сверхчеловеческие" стратегии подобно AlphaGo. Исследование показывает: RLVR радикально улучшает *эффективность сэмплирования* (правильные ответы выпадают чаще), но не расширяет фундаментальные границы возможностей модели. На больших значениях k базовые модели часто решают *больше* уникальных задач, чем их RL-версии, что говорит об ограниченности текущих методов RL прайорами предобучения.

Подробнее: /channel/gonzo_ML_podcasts/1513

Читать полностью…

gonzo-обзоры ML статей

Следующая работа с NeurIPS 2025 Best Paper Award. Про динамику обучения диффузионок.

Why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training
Tony Bonnaire, Raphaël Urfin, Giulio Biroli, Marc Mézard
Статья: https://openreview.net/forum?id=BSZqpqgqM0, https://arxiv.org/abs/2505.17638
Код: https://github.com/tbonnair/Why-Diffusion-Models-Don-t-Memorize
Ревью: https://arxiviq.substack.com/p/neurips-2025-why-diffusion-models

# TL;DR

ЧТО сделали: Авторы провели теоретический и эмпирический анализ динамики обучения score-based диффузионных моделей. Понимая, что модели в конечном итоге могут переобучиться, исследователи выделили два различных временных масштаба: tau_gen, когда модель учится генерировать валидные сэмплы, и tau_mem, когда она начинает запоминать конкретные примеры из обучения. Работа получила Best Paper Award на NeurIPS 2025.

ПОЧЕМУ это важно: Статья разрешает парадокс: почему перепараметризованные диффузионные модели обладают хорошей обобщающей способностью, хотя имеют ёмкость для идеального запоминания обучающих данных. Доказав, что время начала запоминания tau_mem растёт линейно с размером датасета n, а время обучения генерации tau_gen остаётся константой, авторы утверждают: "ранняя остановка" (early stopping) — это не просто эвристика, а структурная необходимость, обусловленная неявной динамической регуляризацией. Это объясняет, почему увеличение датасетов расширяет "безопасное окно" для обучения, позволяя огромным моделям надёжно обобщать данные.

Подробнее: /channel/gonzo_ML_podcasts/1504

Читать полностью…

gonzo-обзоры ML статей

Крепитесь! Скоро наиграюсь 😁

Читать полностью…

gonzo-обзоры ML статей

ARC Prize подтвердили новую SOTA Gemini 3 Pro Refinement technique от Poetiq

54% на ARC-AGI-2, $31/task

https://x.com/i/status/1997743855203148038

Читать полностью…

gonzo-обзоры ML статей

Ещё одна работа про то, как агенты косячат. На этот раз исследовательские.

В целом работа из серии, когда целиком читать неинтересно, но саммари прочитать любопытно. Авторы придумали свою классификацию косяков агентов и выдумали несколько забористых терминов — Strategic Content Fabrication или Redundant Content Piling, например. Можно теперь оценивать агента по булшит-бинго чеклисту!

Дальше поразбираю какие-нибудь другие темы.

How Far Are We from Genuinely Useful Deep Research Agents?
Dingling Zhang, He Zhu, Jincheng Ren, Kangqi Song, Xinran Zhou, Boyu Feng, Shudong Liu, Jiabin Luo, Weihao Xie, Zhaohui Wang, Tianrui Qin, King Zhu, Yuqing Wang, Qianben Chen, Yuchen Eleanor Jiang, Wei Wang, Jiaheng Liu, Wangchunshu Zhou
Paper: https://arxiv.org/abs/2512.01948
Code: https://github.com/OPPO-PersonalAI/FINDER_DEFT
Review: https://arxiviq.substack.com/p/how-far-are-we-from-genuinely-useful

# TL;DR

ЧТО сделали: Представили FINDER — детальный бенчмарк для Deep Research агентов (DRA), включающий 100 экспертных задач с 419 проверочными чек-листами, и DEFT — таксономию сбоев, построенную на методе обоснованной теории (Grounded Theory), которая классифицирует ошибки агентов по 14 различным режимам.

ПОЧЕМУ это важно: Текущие бенчмарки часто путают «умение болтать» с «исследовательской строгостью», позволяя моделям проскакивать за счёт генерации гладкого, но бессодержательного текста. Работа квантифицирует явление Strategic Content Fabrication (стратегическая фабрикация контента), когда агенты имитируют *форму* профессионального анализа (цитаты, академический тон), подделывая *содержание*. Это показывает, что узкое место агентов — не понимание задачи, а интеграция доказательств и устойчивость ризонинга (reasoning resilience).

Подробнее: /channel/gonzo_ML_podcasts/1621

Читать полностью…

gonzo-обзоры ML статей

Ещё про код — вышел огромный (300+ страниц) обзор про кодовые модели. Из прикольного, законы скейлинга для разных языков программирования отличаются.

From Code Foundation Models to Agents and Applications: A Comprehensive Survey and Practical Guide to Code Intelligence

Jian Yang, Xianglong Liu, Weifeng Lv, Ken Deng, et. al.
Статья: https://arxiv.org/abs/2511.18538
Ревью: https://arxiviq.substack.com/p/from-code-foundation-models-to-agents

# TL;DR

ЧТО сделали: Авторы представили монументальный обзор по Code Intelligence: от фундаментальных LLM до автономных AI-инженеров. Это не просто пересказ литературы, а практическое руководство с оригинальными экспериментами. Исследователи вывели законы масштабирования специально для языков программирования, сравнили рецепты SFT (Supervised Fine-Tuning) и оценили стратегии обучения с подкреплением, такие как RLVR.

ПОЧЕМУ это важно: Работа перекидывает мост между стерильными бенчмарками генерации кода и реальностью разработки на уровне репозиториев. Статья доказывает, что код скейлится иначе, чем текст, и дает готовые инструкции для создания инструментов следующего поколения — от умного автокомплита до систем полной поддержки и фикса багов.

Подробнее: /channel/gonzo_ML_podcasts/1608

Читать полностью…

gonzo-обзоры ML статей

Прикольная визуализация процесса обучения, мне нравится

Читать полностью…

gonzo-обзоры ML статей

Две картинки на выбор, какая вам лучше?

Читать полностью…

gonzo-обзоры ML статей

Ещё в сторону дифференцируемого retrieval, но теперь про память и длинный контекст.

Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models

Xiang Hu, Zhanchao Zhou, Ruiqi Liang, Zehuan Li, Wei Wu, Jianguo Li
Статья: https://arxiv.org/abs/2511.23319
Код: https://github.com/ant-research/long-context-modeling
Ревью: https://arxiviq.substack.com/p/every-token-counts-generalizing-16m

# TL;DR

ЧТО сделали: Представили HSA-UltraLong — 8B MoE-модель (Mixture-of-Experts), способную переваривать контекст длиной до 16 миллионов токенов. Главная фишка — механизм Hierarchical Sparse Attention (HSA), который рассматривает прошлые блоки контекста как "экспертов", доступных для извлечения. Всё это работает в связке с хитрым curriculum learning, балансирующим локальное скользящее окно и глобальный разреженный поиск.

ПОЧЕМУ это важно: Стандартные трансформеры упираются в квадратичную сложность O(N^2), а линейные альтернативы вроде Mamba (/channel/gonzo_ML/2148) часто слишком агрессивно сжимают состояние, теряя детали далёких токенов. HSA-UltraLong показывает, что если сделать процесс извлечения контекста дифференцируемым и обучаемым end-to-end, можно получить память с произвольным доступом (random access) на миллионы токенов без квадратичной стоимости полного внимания или деградации точности, свойственной эвристическим методам.

Подробнее: /channel/gonzo_ML_podcasts/1574

Читать полностью…

gonzo-обзоры ML статей

Любопытная работа от Apple, дифференцируемый RAG по сути.

Closing the Loop: Differentiable Retrieval via Continuous Latent Reasoning
Jie He, Richard He Bai, Sinead Williamson, Jeff Z. Pan, Navdeep Jaitly, Yizhe Zhang
Статья: https://arxiv.org/abs/2511.18659
Код: https://github.com/apple/ml-clara
Ревью: https://arxiviq.substack.com/p/clara-bridging-retrieval-and-generation

# TL;DR

ЧТО сделали: Представили CLaRa — унифицированный фреймворк для RAG, который сжимает документы в непрерывные "токены памяти" (memory tokens) и оптимизирует поиск и генерацию end-to-end. Используя технику Straight-Through Estimator (STE), авторы пробрасывают градиенты от функции потерь языковой модели обратно в механизм поиска. Это заставляет ретривер выбирать документы не просто по семантической близости, а по их реальной полезности для генерации ответа.

ПОЧЕМУ это важно: В стандартном RAG существует проблема "разрыва градиента": ретривер ищет по косинусному сходству, а LLM обучается предсказывать следующий токен. Эти цели часто не совпадают, и модель получает семантически близкие, но фактически бесполезные куски текста. CLaRa делает шаг поиска дифференцируемым, объединяя всё в одном латентном пространстве. Это даёт заметный прирост качества на бенчмарках (NQ, HotpotQA) и позволяет сжимать контекст до 16 раз.

Подробнее: /channel/gonzo_ML_podcasts/1550

Читать полностью…

gonzo-обзоры ML статей

Будущее за оркестрами, обучайте дирижёров!

ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration
Hongjin Su, Shizhe Diao, Ximing Lu, Mingjie Liu, et al.
Paper: https://arxiv.org/abs/2511.21689
Code: https://github.com/NVlabs/ToolOrchestra/
Data: https://huggingface.co/datasets/nvidia/ToolScale
Model: https://huggingface.co/nvidia/Orchestrator-8B
Webpage: https://research.nvidia.com/labs/lpr/ToolOrchestra
Review: https://arxiviq.substack.com/p/toolorchestra-elevating-intelligence

# TL;DR

ЧТО сделали: Представили ToolOrchestra — фреймворк для обучения легковесных LLM (8B параметров) выступать в роли умных маршрутизаторов для зоопарка инструментов и мощных моделей-экспертов (вроде GPT-5). С помощью алгоритма Group Relative Policy Optimization (GRPO) (https://arxiv.org/abs/2402.03300) и массивного синтетического датасета ToolScale, полученный Оркестратор учится балансировать точность решения с ценой вычислений и предпочтениями юзера.

ПОЧЕМУ это важно: Работа ставит под сомнение гипотезу о том, что "чем больше модель, тем лучше". Авторы показывают, что 8B модель, грамотно управляющая внешними ресурсами, может обойти фронтир-модели (как GPT-5) на сложных бенчмарках типа Humanity’s Last Exam (https://arxiv.org/abs/2501.14249), срезая косты на инференс на ~70%. Это валидирует переход от гигантских монолитов к составным системам (Compound AI Systems), где интеллект рождается из правильной оркестрации.

Подробнее: /channel/gonzo_ML_podcasts/1541

Читать полностью…

gonzo-обзоры ML статей

Последняя из работ-финалистов NeurIPS 2025, про геометрию репрезентаций и механистическое объяснение законов скейлинга. Работа прекрасна!

Superposition Yields Robust Neural Scaling
Yizhou Liu, Ziming Liu, and Jeff Gore
Статья: https://arxiv.org/abs/2505.10465, https://openreview.net/forum?id=knPz7gtjPW
Код: https://github.com/liuyz0/SuperpositionScaling
Ревью: https://arxiviq.substack.com/p/neurips-2025-superposition-yields

# TL;DR

ЧТО сделали: Предложили механистическое объяснение законов масштабирования (scaling laws), связав их с суперпозицией репрезентаций. Адаптировав фреймворк разреженных автоэнкодеров и проверив теорию на открытых LLM (OPT, Pythia, Qwen), авторы показали: когда модели работают в режиме «сильной суперпозиции» (кодируют значительно больше фичей, чем имеют измерений), лосс масштабируется обратно пропорционально ширине модели (L ∝ 1/m). Этот скейлинг обусловлен геометрической интерференцией между векторами признаков, а не статистическими свойствами хвоста распределения данных.

ПОЧЕМУ это важно: Работа — Best Paper Runner-Up на NeurIPS 2025. Она дает вывод законов скейлинга «из первых принципов», устойчивый к распределению данных. В отличие от предыдущих теорий, опирающихся на аппроксимацию многообразия, здесь утверждается, что степенной закон поведения LLM — это геометрическая неизбежность сжатия разреженных концептов в плотные пространства. Это означает, что для преодоления барьеров масштабирования нужны архитектурные вмешательства для управления интерференцией признаков — простое добавление данных не поможет обойти это геометрическое бутылочное горлышко.

Подробнее: /channel/gonzo_ML_podcasts/1531

Читать полностью…

gonzo-обзоры ML статей

Предпоследняя работа-финалист NeurIPS 2025. Тотальный хардкор! Специалисты в теории трансдуктивного онлайн-обучения есть?

Но зато узнал, что в дополнение к VC-размерности бывает ещё и LD.

The Quadratic Gap: Resolving the Value of Unlabeled Data in Online Learning
Zachary Chase, Steve Hanneke, Shay Moran, Jonathan Shafer
Статья: https://openreview.net/forum?id=EoebmBe9fG
Ревью: https://arxiviq.substack.com/p/neurips-2025-optimal-mistake-bounds

# TL;DR

ЧТО сделали: Авторы решили 30-летнюю открытую проблему, получив за это Best Paper Runner-Up на NeurIPS 2025. Они доказали, что для класса гипотез с размерностью Литтлстоуна d оптимальная граница ошибок в трансдуктивном онлайн-обучении составляет Θ(√d).

ПОЧЕМУ это важно: Результат математически строго показывает, насколько полезно «заглядывать в будущее». Доступ к неразмеченной последовательности тестовых данных позволяет квадратично снизить число ошибок по сравнению со стандартным онлайн-сеттингом (где граница равна d). Это закрывает огромный экспоненциальный разрыв между старой нижней границей Ω(log d) и верхней O(d).

Подробнее: /channel/gonzo_ML_podcasts/1524

Читать полностью…

gonzo-обзоры ML статей

При этом я не могу сказать, что вся эта генерация контента и кода -- это плохо. Это хорошо, потому что без неё, я бы сделал вдесятеро меньше (а в некоторых местах не сделал бы вообще ничего). Но доверять сгенерённому коду я по-прежнему не могу, пока не проревьюил всё сам, да и после этого тоже не могу, но уже в меньшей степени -- лучше всё же, когда больше одного человека сделали такое ревью. Все классические практики software engineering обретают в новом мире десятикратно большую значимость -- код ревью, тесты, документация, проверки типов, контроль версий, … -- жить без этого в эпоху вайбкодинга просто опасно для здоровья. И разные языки для этого тоже явно не одинаково хороши, ждём куда эволюция вырулит.

Автономность таких решений продолжает расти. Будет всё как с генерацией картинок. Два года назад мы все смеялись над лишними пальцами, а теперь видите ли уже фактология сгенерённой картинки не совсем исторически точная для промпта со всего лишь точкой во времени-пространстве. Прогресс в последнее время быстр, так же будет и с кодом. Раз в год, наверное, буду постить эту свою старую статью 2017 года на Форбс (https://www.forbes.ru/tehnologii/341535-mashiny-vmesto-inzhenerov-pochemu-iskusstvennyy-intellekt-doberetsya-i-do) и пытаться понять, где мы уже на этом пути. В 2017-м я думал, что продвинемся быстрее, но в последние пару лет мы наконец начали прямо бежать.

Читать полностью…

gonzo-обзоры ML статей

Зарисовки на тему программирования с моделями.

Ещё совсем недавно я пользовался AI лишь в режиме умного саджеста, а потом генерации кода по запросу в чате и копипасту туда-сюда. Теперь ради интереса пробую более автономные агентские режимы типа Cursor 2.0 или свежего Antigravity.

Мой вывод на сегодня -- модели далеки от рабочей автономности, но всё же сделали огромный шаг вперёд за последние полгода. Они могут быстро делать туеву хучу полезной работы, но постоянно плодят ошибки и упущения. От банальных типа использования переменной до её объявления (странно, конечно, что такое просачивается, но обычно оно не при первой генерации появляется, а уже после редактирования) или забытого параметра при вызове функции, к более сложному незнанию особенностей текущей версии библиотеки (должно лечиться в том числе и правильным RAG или скорее уже context engineering) и до порой логически очень противных косяков, которые можно было бы списать на невнимательность в случае человека, но от модели с большим контекстом ожидаешь иного.

На днях я игрался с запуском сетки новой архитектуры. У меня уже был код на PyTorch (полученный таким же вайбкодингом из другого кода на PyTorch), который как-то работал. Надо сказать, собирать это в Курсоре было очень удобно -- модель быстро писала код, можно было давать ей примеры статей (прямо ссылками на arxiv) и объяснять, что именно ты хочешь оттуда перенять, и она в целом справлялась. Да, тоже приходилось итерироваться на ошибках запуска, но тот процесс я в целом прошёл довольно быстро.

К сожалению, в прошлый раз у меня кончились кредиты на GPU чтобы продолжить эти эксперименты. Теперь зато появилось сколько-то кредитов на TPU и соответственно я хотел портировать этот код на TPU, а заодно попробовать свежий Antigravity. С этим всем оказалось сложнее. Сначала я хотел переписать код на PyTorch/XLA, модель в первом приближении это сделала, но потом начались проблемы с задействованием всех ядер TPU на одной машине и модель застряла в синхронизациях и race conditions.

Ещё я по ошибке сначала выбрал не ту версию системы (образ с последним из доступных там PyTorch), где PyTorch и питон оказались слишком старыми, чтобы поддерживать код, собранный на nightly build или хотя бы на 2.9, так что часть новых фич пришлось переписать на старые. Надо было, конечно, сразу на новый образ перейти, а не страдать фигнёй. Выбирайте в таком случае последнюю убунту, а не все эти предсобранные образы.

В какой-то момент я решил, что проще и интереснее не бороться с PyTorch/XLA, а переписать сразу на JAX/NNX и не мучиться. Antigravity довольно резво переписал (составил себе многошаговый план и прошёлся по нему), потом я сколько-то поитерировался с довольно глупыми банальными ошибками и наконец модель типа заработала. Но были раскиданы грабли.

Из топа моих находок:

1. Модель написала код, который технически работал и обучение модели новой архитектуры как-то шло. Но мне не нравилась скорость обучения и в частности динамика уменьшения лосса. Я наблюдал эту динамику в старом коде на пайторче, здесь же лосс уменьшался сильно медленнее. Я несколько раз просил модель внимательно пройтись по коду и найти расхождения с оригинальной версией, она по мелочи что-то находила, но не то, и убеждала меня, что всё замечательно обучается, надо просто подождать. Предлагала также архитектурные изменения, но это было ни к чему, явно что-то не так было с кодом. В итоге раз на пятый я от неё добился более подробного анализа и она нашла прекрасную ошибку -- градиенты считались верно, но затем они не вычитались из весов модели, а просто их перезаписывали. Удивительно вообще, что оно ещё и обучалось, надо будет копнуть, что там на самом деле происходило, тоже интересный эффект. Напоминает старый анекдот про кота, оставленного на неделю полуслепому соседу, у которого кот ел "неохотно" — по ошибке вместо кошачьего корма тот сыпал коту кофейные зёрна.

Читать полностью…

gonzo-обзоры ML статей

Ещё прекрасных механизмов вам в ленту

https://x.com/BrianRoemmele/status/1994524678191477101

Читать полностью…

gonzo-обзоры ML статей

Красивое про размер транзистора

https://www.reddit.com/r/AICompanions/s/xrCXEf66qd

Читать полностью…

gonzo-обзоры ML статей

Интересный результат про скейлинг по размеру батча

Читать полностью…
Subscribe to a channel