23722
Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Recursion strikes back
Тема про рекурсию активно развивается в последний год. Мне кажется, это уже становится трендом, который должен дать много полезного выхлопа. Вот даже YCombinator на днях выложил видео “Recursion Is The Next Scaling Law In AI”, где они разбирают HRM и TRM (которые мы разобрали полгода назад, здесь и здесь соответственно) — опережаем YC в важных вещах на полгода! 💪😁
Ну а если серьёзно, то хочется эту тему немного дополнить. Видео хорошее, если хотите понять идеи за HRM/TRM и пока ещё не успели это сделать. И они молодцы, что при этом даже показывают немного кода для объяснения. Но видео могло бы быть сильно лучше, если бы авторы дали чуть больше контекста.
Что хорошо, они начинают с RNN, это ценно, а то в современном мире для многих ничего кроме трансформеров уже не существует. Исторический контекст HRM мы разбирали здесь, там кроме просто RNN как класса было много важных добавлений про Clockwork RNN и быстрые-медленные веса.
Что плохо, в видео рассказывают про HRM/TRM напрочь игнорируя важные работы-предшественницы.
Во-первых, как вы можете догадаться, это мой любимый Universal Transformer (2018) про который я вам тут уже все уши прожужжал. Ну это прям странно ничего не сказать про эту работу, когда она была одной из первых важных вех с рекурсией в трансформерной эре. Были, конечно ещё Transformer-XL (2019) и Compressive Transformer (2019), но у последних двух рекурсия была по последовательности (что хорошо для обработки длинных последовательностей особенно когда у тебя контекстное окно мелкое, как было в те годы), а у UT рекурсия по глубине, используя шаренные веса общего для всех слоя, это другое. То есть для XL это скорее память, а для UT — вычисления.
Ещё в 2019 был ALBERT aka A Lite BERT, который я вижу как UT-Lite, тоже шаренные веса, то есть применяется один и тот же слой, но нет механизма адаптивной остановки, количество рекурсий (=глубина трансформера) задана и фиксирована извне, просто работает всегда L итераций. UT в отличие от него для каждого токена мог решать, как долго его надо обрабатывать — простые можно быстро прогнать через несколько слоёв и успокоиться, а сложные можно и подольше поварить, если надо.
Работа про HRM при этом на UT ссылается, он как бы один из предшественников, а работа про TRM вообще про него молчит, хотя TRM сильно более похож на UT, чем HRM.
Второй большой момент — в конце 2025 появилась работа про URM, которую мы тогда же немедленно и разобрали. URM — это прям уже практически UT, и они конечно не могли не сослаться. В видео YC стоило бы его включить, как никак уже почти пять месяцев прошло, да и результат как бы лучше, чем у HRM/TRM. Пытался оставить им комментарий в ютубе, но все мои комментарии со ссылками ютуб по-тихому грохнул, я их не вижу 😿
Ну и ещё напрочь были проигнорированы все истории про Looped Transformers (которые по сути синоним UT) и которые уже появляются на масштабах малых LLM, из наиболее известных это Huginn (https://arxiv.org/abs/2502.05171) и Ouro (https://ouro-llm.github.io/).
Чтобы лучше подсветить разницу между всеми этими моделями, я в новой версии своей статьи про UT+memory даже табличку собрал (см. Table 9 здесь https://arxiv.org/abs/2604.21999v3).
Возвращаясь к теме про рекуррентность, таки да, я тоже считаю, что это большая тема. “Итерация от человека. Рекурсия - от Бога.” 😁
С теоретической стороны от неё поближе будет к универсальным вычислениям. С более практической стороны это два офигенных свойства:
1) низкий memory footprint — вместо модели, требующей памяти на условно 24 слоя, мы получаем модель весом в 24 раза меньше (ладно, в реальности не в 24, ибо эмбеддинги ещё, но тем не менее). Для edge и особенно носимых устройств вообще биг дил. С нынешними ценами на память — тоже 😁
1b) А как следствие ещё и избавляемся от постоянной загрузки весов из HBM (или ещё хуже обычной памяти, или совсем-совсем хуже — с диска) в SRAM ускорителя, что ещё всё ускоряет. Меньше гоняем данные — больше считаем, utilization ускорителя растёт.
Развитие тем покойного Нафтали Тишби (https://www.youtube.com/watch?v=utvIaZ6wYuw).
Learning Is Forgetting: LLM Training as Lossy Compression
Henry C. Conklin, Tom Hosking, Tan Yi-Chern, Julian Gold, Jonathan D. Cohen, Thomas L. Griffiths, Max Bartolo, Seraphina Goldfarb-Tarrant
Статья: https://arxiv.org/abs/2604.07569v1
Код: https://github.com/hcoxec/soft_h
Ревью: https://arxiviq.substack.com/p/learning-is-forgetting-llm-training
# TL;DR
ЧТО сделали: Исследователи из Принстона и Cohere успешно применили теорию информационного бутылочного горлышка (Information Bottleneck, IB) к большим языковым моделям (LLM) размером до 32 миллиардов параметров. Внедрив дифференцируемую оценку "мягкой энтропии", они спроецировали траектории предобучения больших трансформеров на информационную плоскость. Оказалось, что обучение состоит из двух чётких фаз: сначала репрезентации расширяются для подгонки под целевые метки, а затем наступает длительная фаза сжатия, во время которой нерелевантные входные данные "забываются".
ПОЧЕМУ это важно: Работа предлагает целостный подход на уровне всей модели, выступающий альтернативой механистической интерпретируемости. Авторы показали, что то, насколько близко модель подходит к оптимальному пределу сжатия с потерями, строго предсказывает её перформанс на сложных бенчмарках (r = 0.52) и согласованность с человеческими предпочтениями (r = 0.76).
Для практиков: Появляется рабочий способ использовать unsupervised метрики из теории информации для ранней остановки и выбора моделей. Это может существенно снизить зависимость от тяжёлых и вычислительно затратных доменных эвалюаций.
Забывать здесь: /channel/gonzo_ML_podcasts/3524
Сжатие сырых логов в структурированные саммари помогает кодовым агентам.
Scaling Test-Time Compute for Agentic Coding
Joongwon (Daniel) Kim, Winnie Yang, Kelvin Niu, Hongming Zhang, Yun Zhu, Eryk Helenowski, Ruan Silva, Zhengxing Chen, Srini Iyer, Manzil Zaheer, Daniel Fried, Hannaneh Hajishirzi, Sanjeev Arora, Gabriel Synnaeve, Ruslan Salakhutdinov, Anirudh Goyal
Статья: https://arxiv.org/abs/2604.16529
Ревью: https://arxiviq.substack.com/p/scaling-test-time-compute-for-agentic
# TL;DR
ЧТО сделали: Исследователи представили фреймворк для масштабирования вычислений на инференсе для агентов, решающих задачи с длинным горизонтом планирования. Они отказались от использования сырых логов выполнения в пользу структурированных саммари. Для выбора лучших решений распараллеленно применяется алгоритм Recursive Tournament Voting (RTV), а для последовательного ризонинга — адаптированный метод Parallel-Distill-Refine (PDR).
ПОЧЕМУ это важно: Работа изолирует главный боттлнек в масштабировании автономных агентов — представление информации. Авторы доказывают, что модели не могут эффективно оценивать шумные сырые логи взаимодействий или обучаться на них. Предложенная методология позволяет значительно улучшить результаты передовых моделей на сложных бенчмарках без дополнительного предобучения.
Для практиков: Если вы проектируете архитектуры System 2, учтите: выделение большего объема вычислений на инференсе даёт убывающую отдачу, если базовый опыт агента не сжимается. Превращение сырых логов агента (роллаутов) в дистиллированные репрезентации позволяет моделям надежно обмениваться идеями из неудачных попыток. Это радикально сокращает количество шагов для последующих решений и задает новый архитектурный стандарт для агентов-программистов.
Структурированное саммари: https://arxiviq.substack.com/p/scaling-test-time-compute-for-agentic
Прикольная работа про быстрый и отзывчивый user experience при общении с LLM на edge и носимых девайсах. На старте не ждём ответа от хорошей облачной модели, а генерируем первые 4 токена локально через микро-LLM и сразу выдаём в интерфейс, время до первого токена 45 мс. Затем облачная модель продолжает (и при необходимости корректирует ошибку). Психологический эффект огромен, пользователь не воспринимает это как большую задержку.
Что-то мне это напоминает... Предлагаю супер-быструю фемто-LLM для биологических задач:
def forward():
return "Рыбы — это такие животные"
Готовлю обновление своей статьи, получил интересную картинку, подтверждающую, что UT с памятью обменивает размер памяти на количество итераций.
По мере того как размер памяти T растёт 8→64, среднее число итераций падает 11.6→8.3 при том же стабильном качестве в районе ~57% exact match на судоку.
Про природу минибатчевого SGD.
SGD at the Edge of Stability: The Stochastic Sharpness Gap
Fangshuo Liao, Afroditi Kolomvaki, Anastasios Kyrillidis
Статья: https://arxiv.org/abs/2604.21016
Ревью: https://arxiviq.substack.com/p/sgd-at-the-edge-of-stability-the
# TL;DR
ЧТО сделали: Авторы расширили теорию самостабилизации градиентного спуска на стохастический режим. Они показали, что градиентный шум мини-батча усиливает кубическую силу, снижающую резкость (sharpness) ландшафта лосса. Также вывели точную формулу для "стохастического разрыва резкости" (Stochastic Sharpness Gap) — величины, на которую стохастический градиентный спуск (SGD) подавляет резкость ниже классического порога нестабильности 2/η.
ПОЧЕМУ это важно: Работа математически связывает два важнейших феномена глубокого обучения: Edge of Stability (EoS) и неявную регуляризацию малых размеров батча. Доказано, что сильный градиентный шум (через малые батчи) напрямую загоняет оптимизацию в более плоские минимумы.
Для практиков: Это закладывает строгий механистический фундамент под законы масштабирования гиперпараметров, переводя нас от эмпирических эвристик к точному и предсказуемому контролю над ландшафтом лосса.
Оптимизировать тут: /channel/gonzo_ML_podcasts/3454
Ещё в тему про Universal Transformer (/channel/gonzo_ML/5270). Здесь улучшили способности UT через матричные residual connections (mHC от дипсика, про который недавно писали /channel/gonzo_ML/4497). Мне кажется это дуальная история к добавлению памяти, они в целом на одно и то же работают.
Hyperloop Transformers
Abbas Zeitoun, Lucas Torroba-Hennigen, Yoon Kim
Статья: https://arxiv.org/abs/2604.21254
Ревью: https://arxiviq.substack.com/p/hyperloop-transformers
# TL;DR
ЧТО сделали: Авторы представили Hyperloop Transformer — новую parameter-efficient архитектуру языковой модели. Она комбинирует стратегию шаринга параметров в средних слоях (middle-cycle) с гиперсвязями (manifold-constrained hyper-connections, mHC), которые применяются строго на границах циклов. Это расширяет стандартный одномерный residual stream в параллельный матричный поток, позволяя переиспользуемым слоям более гибко адаптироваться к разной глубине.
ПОЧЕМУ это важно: Развёртывание мощных LLM на edge-устройствах (например, смартфонах с 8–16 ГБ оперативки) упирается именно в память, а не только в вычисления. Исторически модели с шарингом весов (looped-архитектуры) проигрывали по перплексии обычным моделям той же глубины. Эта работа закрывает разрыв: грамотно спроектированный матричный residual stream позволяет модели с вдвое меньшим числом параметров обходить свой обычный аналог, сохраняя при этом устойчивость к 4-битной посттренировочной квантизации.
Для практиков: Архитектура позволяет уместить мощную модель в жёсткие лимиты памяти (8–16 ГБ) без сильной деградации качества. Модель отлично держит INT4 квантизацию и быстро сходится к правильным логитам внутри циклов, что открывает путь к быстрому инференсу с early-exit на локальных устройствах.
Гиперлуп здесь: /channel/gonzo_ML_podcasts/3427
Развитие подхода DiLoCo (Distributed Low-Communication) обучения, теперь асинхронная версия! Можно не блокироваться на поломанных воркеров в большом обучении, и даже миксовать разнородное железо. Может и не строго нужны будут огромные ДЦ с тоннами одинаковых чипов.
Decoupled DiLoCo for Resilient Distributed Pre-training
Arthur Douillard, Keith Rush, Yani Donchev, Zachary Charles, Nova Fallen, Ayush Dubey, Ionel Gog, Josef Dean, Blake Woodworth, Zachary Garrett, Nate Keating, Jenny Bishop, Henry Prior, Edouard Yvinec, Arthur Szlam, Marc’Aurelio Ranzato, Jeff Dean
Статья: https://arxiv.org/abs/2604.21428
Ревью: https://arxiviq.substack.com/p/decoupled-diloco-for-resilient-distributed
# TL;DR
ЧТО сделали: Авторы представили Decoupled DiLoCo — фреймворк для распределённого предобучения, который заменяет жёстко связанную парадигму Single Program Multiple Data (SPMD) на полностью асинхронную архитектуру. Вычисления делятся на независимых воркеров (learners), которые передают фрагменты параметров центральному синхронизатору (syncer) на CPU. Использование минимального кворума и адаптивного grace-окна позволяет изолировать аппаратные сбои и избавиться от барьеров жёсткой синхронизации.
ПОЧЕМУ это важно: Традиционный подход SPMD фундаментально ограничен надёжностью железа на больших масштабах: отказ одного чипа или случайная задержка сети могут застопорить весь гигантский кластер. Исследователи подошли к предобучению как к задаче распределённых систем, поставив доступность (availability) и устойчивость к разделению (partition tolerance) выше строгой консистентности параметров. Это обеспечивает нулевой глобальный даунтайм и почти оптимальный goodput даже при массовых сбоях оборудования. Метод позволяет использовать географически распределённое, разнородное и прерываемое (preemptible) железо без падения итогового качества моделей.
Для практиков: Работа даёт готовый рецепт, как преодолеть лимиты надёжности оборудования при обучении передовых моделей. Позволяя частям кластера работать независимо и синхронизироваться асинхронно, можно собирать вместе более дешёвые, менее надёжные или физически удалённые чипы (и даже миксовать разные поколения железа) для обучения масштабных LLM без простоев.
Координироваться тут: /channel/gonzo_ML_podcasts/3401
Для практиков: Если вы экспериментируете со скейлингом вычислений на инференсе и рекурсивными циклами рассуждений, эта статья подсвечивает критическое упущение в классических сетях с адаптивными вычислениями. Трансформерному блоку с общими весами фундаментально необходимы выделенные токены памяти в качестве вычислительного "черновика" (scratchpad). Кроме того, стандартная нулевая или положительная инициализация bias в адаптивном роутинге часто загоняет модель в локальный минимум с ранней остановкой (shallow-halt). Просто инвертировав этот bias, чтобы заставить модель "думать" дольше на ранних этапах обучения, авторы радикально стабилизировали процесс и разблокировали специализированные механизмы внимания. Подход провалидирован на заведомо сложном бенчмарке.
Входить в рекурсию тут: /channel/gonzo_ML_podcasts/3387
Улучшение Self-Play за счёт добавления гида для фильтрации обучающих задач. Задним умом идея настолько простая, что странно, что раньше не добавили.
Scaling Self-Play with Self-Guidance
Luke Bailey, Kaiyue Wen, Kefan Dong, Tatsunori Hashimoto, Tengyu Ma
Статья: https://arxiv.org/abs/2604.20209v1
Код: https://github.com/LukeBailey181/sgs
Датасет: https://huggingface.co/datasets/LukeBailey181Pub/D_3k
Ревью: https://arxiviq.substack.com/p/scaling-self-play-with-self-guidance
# TL;DR
ЧТО сделали:
Исследователи из Стэнфорда представили Self-Guided Self-Play (SGS) — алгоритм асимметричного self-play для формального доказательства теорем. Он решает частую проблему хакинга награды (reward hacking) при автоматической генерации curriculum'а, добавляя в цикл языковую модель Guide (Гид). Этот Гид явно оценивает синтетические задачи на математическую элегантность и релевантность, не давая генератору скатываться в вырожденные выходы.
ПОЧЕМУ это важно:
Поддержание self-play на длительных горизонтах вычислений — главное "бутылочное горлышко" автономного обучения с подкреплением (RL). Систематически курируя синтетические данные, этот фреймворк позволяет модели на 7B параметров обойти бейзлайн на 671B. Это доказывает, что качественная фильтрация данных — критическое требование для масштабирования инференса в RL.
Для практиков:
Для команд, разрабатывающих следующее поколение рассуждающих моделей (reasoning models), вывод однозначен: оптимизация механизма фильтрации данных внутри цикла self-play так же важна, как и оптимизация самого алгоритма RL. Обычная максимизация сложности задач больше не работает.
Гид тут: /channel/gonzo_ML_podcasts/3374
И чтоб два раза не вставать, ещё одна интересная работа про теорию DL
There Will Be a Scientific Theory of Deep Learning
Jamie Simon, Daniel Kunin, Alexander Atanasov, Enric Boix-Adserà, Blake Bordelon, Jeremy Cohen, Nikhil Ghosh, Florentin Guth, Arthur Jacot, Mason Kamb, Dhruva Karkada, Eric J. Michaud, Berkan Ottlik, Joseph Turnbull
Статья: https://arxiv.org/abs/2604.21691v1
Ревью: https://arxiviq.substack.com/p/there-will-be-a-scientific-theory
Сайт: https://learningmechanics.pub/
# TL;DR
ЧТО сделали: Большая коалиция исследователей из разных институтов синтезировала пять растущих направлений теоретических работ и предложила концепцию «механики обучения» (learning mechanics). Суть в том, что глубокое обучение переходит от эмпирического искусства к предсказательной науке, управляемой разрешимыми макроскопическими законами, по аналогии со статистической и классической механикой в физике.
ПОЧЕМУ это важно: Опираться исключительно на метод проб и ошибок при масштабировании перепараметризованных моделей стало экономически и вычислительно невозможно. Если подвести под динамику нейросетей предсказательную математическую базу, мы получим zero-shot перенос гиперпараметров между масштабами, сможем математически (а не эмпирически) прогнозировать экспоненты законов масштабирования (scaling laws) и заложим строгий фундамент для AI alignment и безопасности.
Для практиков: Математическое понимание динамики обучения, такое как подход Maximal Update Parameterization (μP), позволяет настраивать гиперпараметры на дешёвых прокси-моделях и без изменений переносить их на огромные production архитектуры, навсегда избавляя от дорогого поиска по сетке.
Погружаться тут: /channel/gonzo_ML_podcasts/3349
Разбор архитектуры свежего DeepSeek-V4.
Впечатляет вот это: на контексте в миллион токенов V4 требует всего 27% FLOPs при инференсе одного токена и лишь 10% KV-кэша от объёмов V3.2.
DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence
DeepSeek-AI
Paper: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
Code: https://github.com/deepseek-ai/DeepGEMM
Model: https://huggingface.co/collections/deepseek-ai/deepseek-v4
Review: https://arxiviq.substack.com/p/deepseek-v4-towards-highly-efficient
# TL;DR
ЧТО сделали: DeepSeek-AI представили серию моделей DeepSeek-V4 (включая Pro-версию на 1.6T параметров и Flash на 284B). Авторы разработали новую гибридную архитектуру внимания, внедрили residual connections, ограниченные многообразием, и оптимизатор Muon, чтобы нативно и эффективно поддерживать окно контекста в миллион токенов.
ПОЧЕМУ это важно: Квадратичная сложность механизма внимания и линейный рост KV-кэша долгое время оставались главным боттлнеком для длинного контекста. За счёт уменьшения размера KV-кэша на 90% и снижения FLOPs на инференсе на 73% (на отметке в миллион токенов по сравнению с предыдущим поколением), новая архитектура делает масштабный кросс-документный анализ, онлайн-обучение и постоянные агентские рассуждения вычислительно и экономически оправданными.
Для практиков: DeepSeek-V4 объединяет недавние достижения в масштабировании MoE, обучении с подкреплением и системной инженерии. Для инженеров и стратегов выход V4 доказывает: барьер для работы с экстремально длинным контекстом больше не упирается исключительно в железо. Его можно планомерно преодолеть с помощью алгоритмической компрессии, специализированных ядер и строгой post-training дистилляции, достигая при этом качества на уровне топовых проприетарных моделей.
Глубоко искать здесь: /channel/gonzo_ML_podcasts/3324
Свежак от DeepSeek
https://github.com/deepseek-ai/TileKernels
Tile Kernels
Optimized GPU kernels for LLM operations, built with TileLang. TileLang is a domain-specific language for expressing high-performance GPU kernels in Python, featuring easy migration, agile development, and automatic optimization.
Most kernels in this project approach the limit of hardware performance regarding the compute intensity and memory bandwidth. Some of them have already been used in internal training and inference scenarios. However, they do not represent best practices and we are actively working on improving the code quality and documentation.
Прикольный подход к оценке моделей через тензорные разложения. Для 3D тензора <навык модели> <сложность промпта> <особенности оценщика> мы сначала выучиваем латентную структуру моделей и промптов по дешёвым разметчикам, а затем файнтюним по (дорогим и редким) человеческим оценкам. Много что напоминает, и self-supervised pre-training (representation learning) + supervised fine-tuning, и подходы из рекомендательных систем: factorization machines, а ещё больше коллаборативку типа SVD, особенно когда к двумерным матрицам товар-юзер добавляли третье измерение про контекст — время, место, whatever.
Rich Insights from Cheap Signals: Efficient Evaluations via Tensor Factorization
Felipe Maia Polo, Aida Nematzadeh, Virginia Aglietti, Adam Fisch, Isabela Albuquerque
Paper: https://arxiv.org/abs/2603.02029
Review: https://arxiviq.substack.com/p/rich-insights-from-cheap-signals
# TL;DR
ЧТО сделали: Разработали статистический фреймворк на базе тензорного разложения CANDECOMP/PARAFAC (CP). Он позволяет объединить огромный объём шумных автоматических оценок с крайне редкими, но эталонными человеческими оценками. Двухэтапный метод сначала выучивает латентные репрезентации генеративных моделей и промптов на основе машинного фидбека, а затем калибрует их под человеческие предпочтения. На выходе получаем метрики качества для каждого отдельного промпта со строгими доверительными интервалами.
ПОЧЕМУ это важно: В условиях, когда флагманские модели показывают одинаковые агрегированные результаты на бенчмарках, понять их реальные способности можно только через детальный анализ на уровне отдельных промптов. Этот подход решает проблему непомерной стоимости человеческой разметки, превращая процесс оценки в задачу трансферного обучения. Теперь разработчики могут создавать статистически надёжные микро-лидерборды и точно предсказывать, как новая модель справится с задачей, вообще не собирая для неё новые данные от людей.
Для практиков: Парадигма оценки ИИ смещается от монолитных средних баллов к детальной диагностике. Но оценка качества на уровне отдельных промптов упирается в жёсткую нехватку данных: разметка людьми стоит слишком дорого, а LLM в роли судей (подход LLM-as-a-judge) систематически предвзяты. Исследователи из DeepMind и Мичиганского университета элегантно обошли это, представив пространство оценок в виде тензора низкого ранга. Они доказали, что скрытые факторы, определяющие сложность задачи и навык модели, можно вытащить из дешёвых автоматических сигналов и математически выровнять с человеческими предпочтениями с помощью крошечного калибровочного датасета.
Раскладывать тензоры тут: /channel/gonzo_ML_podcasts/3301
И ещё про развитие ветки Universal Transformer (см.вчерашнее /channel/gonzo_ML/5206).
Интересно про трёхфазовый гроккинг:
На ранних этапах обучения сеть просто запоминает данные. Дальнейшее обучение запускает фазовый переход к in-distribution обобщению, и, наконец, появляется систематическое out-of-distribution обобщение.
Ещё одна красивая история про забывание, но теперь с другой стороны — делаем попараметрический weight decay для continual learning.
Learning to Forget: Continual Learning with Adaptive Weight Decay
Aditya A. Ramesh, Alex Lewandowski, Jürgen Schmidhuber
Статья: https://arxiv.org/abs/2604.27063v1
Код: https://github.com/Aditya-Ramesh-10/Fade
Ревью: https://arxiviq.substack.com/p/learning-to-forget-continual-learning
# TL;DR
ЧТО сделали:
Авторы предлагают Forgetting through Adaptive DEcay (FADE) — online-алгоритм метаобучения (meta-learning), который назначает динамический коэффициент weight decay (затухания весов) индивидуально для каждого параметра сети. Используя forward-mode дифференцирование, FADE избирательно регулирует скорость, с которой конкретные веса забывают прошлые состояния, на основе ошибки предсказания.
ПОЧЕМУ это важно:
В сценариях continual learning с нестационарными потоками данных и конечной емкостью модели возникает дилемма стабильности-пластичности (stability-plasticity trade-off). Стандартный скалярный weight decay работает как глобальный регуляризатор, равномерно стирая как устаревшие отображения, так и стабильные знания. FADE решает эту проблему, автоматизируя разумное забывание для каждого параметра. Это существенно повышает качество работы и предотвращает потерю пластичности без усложнения архитектуры.
Для практиков:
Статья предлагает крайне эффективный метод с вычислительной сложностью O(d) для автоматизации попараметрического забывания в нейросетях. Превращая weight decay из статического штрафа в динамический механизм, алгоритм вдвое снижает ошибку отслеживания (tracking error) по сравнению со стандартными оптимизаторами вроде AdamW. Это фундаментальная техника для агентов с ограниченной емкостью, работающих в средах с непрерывным обучением, где границы задач неизвестны, а данные полностью нестационарны.
Подзабывать здесь: /channel/gonzo_ML_podcasts/3536
Хитроумный Одиссей.
Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning
Chengshuai Shi, Wenzhe Li, Xinran Liang, Yizhou Lu, Wenjia Yang, Ruirong Feng, Seth Karten, Ziran Yang, Zihan Ding, Gabriel Sarch, Danqi Chen, Karthik Narasimhan, Chi Jin
Статья: https://arxiv.org/abs/2605.00347
Код: https://odysseus-project.github.io/
Ревью: https://arxiviq.substack.com/p/odysseus-scaling-vlms-to-100-turn
# TL;DR
ЧТО сделали: Авторы представили Odysseus — открытый фреймворк обучения с подкреплением (RL), который позволяет масштабировать Vision-Language Models (VLM) на задачи непрерывного принятия решений длиной более 100 шагов взаимодействия. Спарив огромную VLM-политику с крошечным CNN-критиком и применив фильтрацию положительных преимуществ (positive-advantage filtering), исследователи обходят вычислительные боттлнеки и нестабильность традиционных мультимодальных actor-critic методов.
ПОЧЕМУ это важно: Текущий RL-файнтюнинг для фундаментальных моделей обычно буксует на горизонте в 20–30 шагов или полностью опирается на чистое имитационное обучение. Работа даёт вычислительно подъёмный рецепт превращения пассивных рассуждающих моделей (reasoning models) в надёжных embodied-агентов. Делегирование распределения награды во времени крошечному «зрительному» критику позволяет стабильно обучать VLM на сотни шагов плотного взаимодействия со средой.
Смотреть тут: /channel/gonzo_ML_podcasts/3511
Не все йогурты репрезентации одинаково полезны!
Convergent Evolution: How Different Language Models Learn Similar Number Representations
Deqing Fu, Tianyi Zhou, Mikhail Belkin, Vatsal Sharan, Robin Jia
Paper: https://arxiv.org/abs/2604.20817
Model: https://hf.co/collections/deqing/convergent-evolution
Review: https://arxiviq.substack.com/p/convergent-evolution-how-different
# TL;DR
ЧТО сделали:
Авторы систематически исследуют, почему разнообразные языковые модели естественным образом вырабатывают периодические репрезентации для числовых токенов. Они выделяют двухуровневую иерархию, отделяющую «спектральную сходимость» (универсальное появление Фурье-всплесков в пространстве эмбеддингов) от «геометрической сходимости» (функциональной способности линейно классифицировать числа по модулю периода).
ПОЧЕМУ это важно:
Эта работа вводит критически важную теоретическую проверку для механистической интерпретируемости. Она доказывает, что визуально заметные структуры в пространстве репрезентаций модели не гарантируют выучивания функционального алгоритма. Это ставит под сомнение гипотезу о том, что общие статистические артефакты автоматически означают общие способности к рассуждению.
Для практиков:
Часто периодические паттерны в эмбеддингах LLM трактуются как доказательство того, что модель освоила модульную арифметику. Статья показывает, что эти Фурье-сигнатуры — лишь повсеместный артефакт частотностей токенов датасета. Они появляются даже в классических эмбеддингах или в сырых, необученных распределениях данных. При этом настоящая функциональность, измеряемая линейной разделимостью классов вычетов, возникает избирательно и только тогда, когда архитектура, оптимизатор и данные о совместной встречаемости текста и чисел работают согласованно. Описывая этот феномен как форму «конвергентной эволюции», авторы предлагают строгий фреймворк, позволяющий отличить поверхностную статистическую мимикрию от реального функционального выучивания фичей.
Полезные и бесполезные репрезентации тут: /channel/gonzo_ML_podcasts/3487
Попалась свежая интересная репа, собирающая всё про UT/Looped Models
https://github.com/huskydoge/Awesome-Loop-Models
И снова Universal/Looped Transformers. На этот раз для генерации изображений. Один из главных selling point, что модель целиком вмещается в кеш ускорителя, не надо перекачивать постоянно веса из обычной памяти.
ELT: Elastic Looped Transformers for Visual Generation
Sahil Goyal, Swayam Agrawal, Gautham Govind Anil, Prateek Jain, Sujoy Paul, Aditya Kusupati
Paper: https://arxiv.org/abs/2604.09168
Review: https://arxiviq.substack.com/p/elt-elastic-looped-transformers-for
Code: N/A
Model: N/A
# TL;DR
ЧТО сделали:
Авторы представили Elastic Looped Transformers (ELT) — рекуррентную архитектуру для генерации изображений, которая крайне экономно расходует параметры. Модель итеративно применяет один и тот же блок трансформерных слоёв с общими весами и обучается с помощью нового алгоритма Intra-Loop Self Distillation (ILSD). Это позволяет динамически менять вычислительный бюджет (количество циклов) прямо на инференсе без переобучения.
ПОЧЕМУ это важно:
Подход отвязывает количество параметров генеративной модели от её вычислительной глубины. ELT умещается целиком в быстрой накристальной памяти (SRAM) ускорителя, обходя «стену памяти» — медленную передачу данных из HBM. Метод выдаёт качество картинки на уровне SOTA, при этом используя в 4 раза меньше параметров. Это даёт удобный рычаг управления вычислениями на инференсе: от слабых edge-устройств до мощных облачных серверов.
Для практиков:
Для инженеров, масштабирующих архитектуры визуальной генерации, простое добавление новых трансформерных слоёв даёт убывающую отдачу из-за жёстких бутылочных горлышек при передаче данных. Статья показывает, что рекурсивная глубина архитектуры, если её грамотно регуляризовать для раннего выхода (early exit) через дистилляцию, даёт ту же репрезентативную силу, что и огромные feedforward-сети. В итоге получается модель, которая может динамически прерывать внутренние итерации на инференсе, предоставляя инженерам непрерывный Парето-фронт между задержкой и качеством из одного прогона обучения.
Эластично генерировать тут: /channel/gonzo_ML_podcasts/3462
Больше моделей мира за пределами красивых картинок!
Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond
Meng Chu, Xuan Billy Zhang, Kevin Qinghong Lin, Lingdong Kong, Jize Zhang, Teng Tu, Weijian Ma, Ziqi Huang, Senqiao Yang, Wei Huang, Yeying Jin, Zhefan Rao, Jinhui Ye, Xinyu Lin, Xichen Zhang, Qisheng Hu, Shuai Yang, Leyang Shen, Wei Chow, Yifei Dong, Fengyi Wu, Quanyu Long, Bin Xia, Shaozuo Yu, Mingkang Zhu, Wenhu Zhang, Jiehui Huang, Haokun Gui, Haoxuan Che, Long Chen, Qifeng Chen, Wenxuan Zhang, Wenya Wang, Xiaojuan Qi, Yang Deng, Yanwei Li, Mike Zheng Shou, Zhi-Qi Cheng, See-Kiong Ng, Ziwei Liu, Philip Torr, Jiaya Jia
Paper: https://arxiv.org/abs/2604.22748
Code: https://github.com/matrix-agent/awesome-agentic-world-modeling
Review: https://arxiviq.substack.com/p/agentic-world-modeling-foundations
# TL;DR
ЧТО сделали: Авторы проанализировали более 400 работ и предложили унифицированную двумерную классификацию моделей мира (уровни × законы). Выделено три иерархических уровня способностей: L1 Предсказатель (одношаговые локальные переходы), L2 Симулятор (многошаговые роллауты с соблюдением ограничений среды) и L3 Эволюционер (автономное обновление модели на основе собранных улик). Эта архитектура пересекается с четырьмя типами законов (физические, цифровые, социальные, научные), которые задают правила для симулируемой среды.
ПОЧЕМУ это важно: Термин "модель мира" (world model) стал слишком размытым — часто под ним ошибочно понимают просто качественную генерацию видео. Строгое определение границ на основе чувствительности к вмешательствам, когерентности на длинных горизонтах и способности к автономному обновлению дает сообществу четкий диагностический инструмент. Фокус смещается с визуального реализма на активное уточнение внутренних законов, прокладывая путь к по-настоящему автономным агентам.
Для практиков: Предложен фреймворк оценки MREP (Minimal Reproducible Evaluation Package), который призывает отказаться от визуальных метрик вроде FVD в пользу метрик, ориентированных на принятие решений (Action Success Rate, Counterfactual Outcome Deviation). Теперь успех измеряется тем, насколько модель полезна для планирования, а не тем, насколько красиво она рисует пиксели.
Моделировать мир тут: /channel/gonzo_ML_podcasts/3436
Красивая история про квантизацию. Как сделать INT4, который нормально работает на текущем железе. И вообще это большая тема про то как делать не просто теоретически эффективные алгоритмы, а такие, которые хорошо работают на практике. Что вообще не одно и то же. Хотите научиться в этом разбираться — читайте все работы с Tri Dao в соавторах.
SAW-INT4: System-AWare 4-Bit KV-Cache Quantization for Real-World LLM Serving
Jinda Jia, Jisen Li, Zhongzhu Zhou, Jung Hwan Heo, Jue Wang, Tri Dao, Shuaiwen Leon Song, Ben Athiwaratkun, Chenfeng Xu, Tianyi Zhang, Xiaoxia Wu
Paper: https://arxiv.org/abs/2604.19157
Code: https://github.com/togethercomputer/saw-int4
Review: https://arxiviq.substack.com/p/saw-int4-system-aware-4-bit-kv-cache
# TL;DR
ЧТО сделали: Представляют SAW-INT4 — фреймворк для потокенной 4-битной квантизации KV-кэша на основе блочно-диагонального вращения Адамара (Block-Diagonal Hadamard Rotation, BDR). Метод реализован как слитое (fused) CUDA-ядро, полностью совместимое с современными страничными структурами памяти (paged-memory layouts). Это позволяет достичь почти lossless 4-битного сжатия без падения пропускной способности, типичного для сложных техник квантизации.
ПОЧЕМУ это важно: В продакшене при работе с длинным контекстом (миллионы токенов) пропускная способность памяти и её объём становятся жёстким ограничителем для масштабирования. Эта работа показывает, что алгоритмические успехи в сжатии теряют смысл, если они нарушают аппаратные ограничения — например, ломают coalesced доступ к памяти или непрерывный батчинг. Ставя системную совместимость выше теоретической репрезентативной ёмкости, исследователи дают рецепт для двукратного увеличения вместимости одновременного инференса.
Для практиков: Управление KV-кэшем остаётся инфраструктурной болью при деплое LLM. Хотя многие стратегии сжатия показывают впечатляющую точность офлайн, их нерегулярный паттерн доступа к памяти уничтожает пропускную способность железа. Статья доказывает, что легковесная статическая математическая ротация компенсирует деградацию точности наивной INT4-квантизации и добавляет ровно ноль задержек. Эффективное сжатие KV-кэша — это в первую очередь задача системного кодизайна.
Квантовать тут: /channel/gonzo_ML_podcasts/3418
"Кладбище домашних животных", Стивен Кинк
Читать полностью…
Я тут в свободное время продолжаю интересные мне эксперименты и решил вот развить давние темы Миши Бурцева про Memory Transformer (https://arxiv.org/abs/2006.11527).
Как вы могли заметить, мне очень нравится архитектура Universal Transformer (UT), я много про неё пишу и даже порывался собрать на ней модель-замену TRM, но не успел (/channel/gonzo_ML/4437). Мысли всё равно не оставляли и раз не получилось собрать URM, то почему бы не сделать тогда следующий логичный шаг, добавив память. Что я и сделал. Идея Universal Transformer + Memory мне нравится особенно, потому что это ещё ближе к полноценному компьютеру (хотя и обычный UT по идее уже Turing-complete).
Подход сработал. Если взять однослойный UT, добавить динамическую рекурсию этого слоя с механизмом Adaptive Computation Time (ACT), который динамически решает, когда останавливать обработку конкретного токена, и начать учить его решать сложные судоку, то без памяти это не удаётся. Зато если добавить хотя бы 8 токенов памяти, то дело идёт существенно лучше! У голов внимания при этом явно наблюдается разная специализация по части работы с памятью. Интересно.
Параллельно удалось разобраться с проблемой большой зависимости от случайного сида. На некоторых сидах обучение происходило (среди чемпионов, что забавно, был сид 42), на некоторых -- нет. Оказалось, что сильная зависимость от сида была проблемой архитектуры, а вернее инициализации роутера в механизме ACT. При правильной инициализации обучение случается на всех протестированных сидах.
Код для экспериментов я оформил в виде JAX кода, используя свежее NNX API, гонял на TPU v6e. Код выложил на гитхаб. Постарался сделать его минималистичным, чтобы любой мог начать экспериментировать. Также мне лично нравится практика записывать и сохранять ADR (Architecture Decision Records), в которых отражены важные архитектурные решения с объяснением, почему они были приняты и какие были альтернативы. Это и в классическом SWE очень полезная вещь, и в ML-research мне так же всегда её не хватало -- успеваешь перепробовать много разных подходов, откинув множество разных веток, и если это не логгировать, то легко потеряться. А кроме того, для всех, кто впоследствии будет работать с этим кодом, код превращается из замороженного артефакта в живую летопись, объясняющую почему код именно такой какой есть. Наверное, бывают репозитории с экспериментами, где это понятно и очевидно, но мне в целом такие не попадались. Надо задать тренд! А ещё это хорошее подспорье для агентов, помогающих в рисёче.
Такие дела. Читайте, критикуйте, пробуйте, дополняйте.
Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning
Grigory Sapunov
Статья: https://arxiv.org/abs/2604.21999v2
Код: https://github.com/che-shr-cat/utm-jax
Ревью: https://arxiviq.substack.com/p/universal-transformers-need-memory
Пост про подход: https://gonzoml.substack.com/p/why-i-keep-coming-back-to-universal
# TL;DR
ЧТО сделали: Исследователи (1 шт.) представили одноблочный Universal Transformer, дополненный явными токенами памяти и модифицированным механизмом Adaptive Computation Time (ACT). Они показали, что устранение неочевидной ловушки при инициализации роутера позволяет этой компактной модели решать сложные комбинаторные задачи на рассуждение (наподобие судоку из датасета Sudoku-Extreme (https://huggingface.co/datasets/sapientinc/sudoku-extreme)), при условии наличия достаточного объёма внутренней памяти.
ПОЧЕМУ это важно: Работа предоставляет эмпирические доказательства того, что одной лишь глубины архитектуры — даже если она динамически адаптируется — недостаточно для сложных рассуждений без постоянного, выделенного пространства состояний. Авторы диагностировали и исправили давнюю проблему с инициализацией ACT. Это открывает более стабильный путь к созданию эффективных по числу параметров рекурсивных моделей "Системы 2", способных масштабировать вычисления на инференсе.
Продолжим выходные интересной теории
The Linear Centroids Hypothesis: How Deep Network Features Represent Data
Thomas Walker, Ahmed Imtiaz Humayun, Randall Balestriero, Richard Baraniuk
Статья: https://arxiv.org/abs/2604.11962
Код: https://github.com/ThomasWalker1/LinearCentroidsHypothesis
Ревью: https://arxiviq.substack.com/p/the-linear-centroids-hypothesis-how
# TL;DR
ЧТО сделали: Авторы предлагают гипотезу линейных центроидов (Linear Centroids Hypothesis, LCH) — новый фреймворк для механистической интерпретируемости. Вместо анализа фичей как линейных направлений в латентном пространстве активаций модели, LCH ищет фичи, опираясь на геометрию входного пространства сети. Вычисляя «центроиды» — векторные репрезентации, полученные через якобиан входа-выхода и описывающие функциональное отображение локальной области сети, исследователи предлагают более строгий метод для извлечения фичей, поиска внутренних схем (circuits) и построения карт салиентности.
ПОЧЕМУ это важно: Текущие подходы к интерпретируемости сильно опираются на гипотезу линейного представления. Её слабое место — склонность находить «паразитные» (spurious) фичи: модель их выучивает, но фактически не использует в своём графе вычислений. LCH привязывает поиск фичей к реальной функциональной геометрии модели.
Для практиков: Метод работает как drop-in замена латентным активациям. Он даёт гораздо более чистые словари фичей, радикально повышает устойчивость линейных пробов на out-of-distribution данных и естественным образом связывает конкретные фичи с функциональными схемами на разных слоях сети.
Изучать репрезентации тут: /channel/gonzo_ML_podcasts/3361
Интересное на подумать.
Generalization at the Edge of Stability
Mario Tuci, Caner Korkmaz, Umut Şimşekli, Tolga Birdal
Статья: https://arxiv.org/abs/2604.19740v1
Сайт: https://circle-group.github.io/research/GATES
Ревью: https://arxiviq.substack.com/p/generalization-at-the-edge-of-stability
# TL;DR
ЧТО сделали: Авторы предложили теоретический фреймворк, моделирующий стохастическую оптимизацию как случайную динамическую систему, сходящуюся к фрактальному пуллбэк-аттрактору (pullback attractor). Они вывели новую меру сложности — размерность резкости (Sharpness Dimension), которая опирается на полный спектр гессиана для оценки наихудшей ошибки обобщения нейросетей, обучающихся в локально нестабильных режимах.
ПОЧЕМУ это важно: Современное масштабное обучение часто загоняет модели в осциллирующий, хаотичный режим Edge of Stability, где классические теории «плоских минимумов» (flat minima) перестают работать. Математически доказав, что обобщающая способность сети контролируется размерностью фрактального подмножества меньшей размерности, а не общим количеством параметров, эта работа строго объясняет, почему массивно перепараметризованные сети хорошо обобщают без необходимости сходиться к единой стабильной точке.
Для практиков: Для исследователей и инженеров, масштабирующих передовые модели, статья диктует смену парадигмы: от анализа изолированных чекпоинтов к изучению аттракторов — множеств состояний, которые алгоритмы исследуют в долгосрочной перспективе. Оценка ландшафта лосса по одной метрике (например, по старшему собственному значению гессиана) — ненадёжный предиктор качества модели. Вместо этого вычисление Sharpness Dimension, балансирующего как расширяющиеся, так и сжимающиеся направления ландшафта, даёт надёжный предиктор обобщающей способности и объясняет внезапные скачки в обучении вроде гроккинга.
Грокать тут: /channel/gonzo_ML_podcasts/3338
Про важность харнесса на примере Клод Кода:
https://www.anthropic.com/engineering/april-23-postmortem
Продолжение темы /channel/gonzo_ML/5209
Шажок на пути к автоматической науке
GIANTS: Generative Insight Anticipation from Scientific Literature
Joy He-Yueya, Anikait Singh, Ge Gao, Michael Y. Li, Sherry Yang, Chelsea Finn, Emma Brunskill, Noah D. Goodman
Статья: https://arxiv.org/abs/2604.09793
Код: https://github.com/joyheyueya/giants
Модель: https://huggingface.co/giants2026
Ревью: https://arxiviq.substack.com/p/giants-generative-insight-anticipation
# TL;DR
ЧТО сделали: Авторы формализуют задачу "предвосхищения инсайтов" (insight anticipation) — предсказания главной новизны будущей научной статьи исключительно по саммари её основополагающих "родительских" работ. Для этого собрали датасет GiantsBench на 17 тысяч примеров и обучили GIANTS-4B, языковую модель на 4 миллиарда параметров, прошедшую файнтюнинг с помощью обучения с подкреплением (RL), где в качестве награды выступает семантическая близость.
ПОЧЕМУ это важно: Работа показывает, что способность синтезировать научную литературу не масштабируется линейно только за счёт размера модели. Изолировав этап концептуального синтеза от шума открытой генерации идей, авторы доказывают, что специализированное RL на небольших open-weight моделях сильно превосходит огромные SOTA-модели в целенаправленных задачах на рассуждение.
Для практиков: Для тех, кто разрабатывает агентов для научных открытий или проверяемые RAG-системы, предложенный пайплайн (ограниченный контекст + GRPO с семантическим ревордом) — это отличный шаблон. Он заставляет небольшую модель делать строгий концептуальный синтез, а не галлюцинировать абстрактными идеями.
Подробнее тут: /channel/gonzo_ML_podcasts/3311
Давно мы про табличный ML не писали!
Selecting Feature Interactions for Generalized Additive Models by Distilling Foundation Models
Jingyun Jia, Chandan Singh, Rich Caruana, Ben Lengerich
Paper: https://arxiv.org/abs/2604.13332
Code: https://github.com/Clouddelta/tab-distill
Review: https://arxiviq.substack.com/p/selecting-feature-interactions-for
# TL;DR
ЧТО сделали: Авторы предложили TabDistill — фреймворк, который использует табличные фундаментные модели (TFM) для поиска сложных взаимодействий признаков высоких порядков. Затем эти взаимодействия извлекаются и встраиваются в обобщённые аддитивные модели (GAM) как явные слагаемые.
ПОЧЕМУ это важно: Это перекидывает мост между высокоёмкими, но непрозрачными фундаментными моделями и строгими статистическими подходами. В сферах с высокими рисками, таких как медицина или финансы, теперь можно использовать продвинутое обучение репрезентаций без потери читаемости и возможностей аудита.
Для практиков: Глубокое обучение наконец-то достигло SOTA-результатов на табличных данных благодаря фундаментным моделям, но они остаются непроницаемыми чёрными ящиками. Работа переворачивает их привычную роль: вместо сквозного предсказания они используются как структурные учителя. Систематически «прощупывая» фундаментную модель, можно вытащить точные комбинации признаков, на которые она опирается, и передать их простой интерпретируемой GAM. Это даёт высокую точность при сохранении полностью прозрачной (glass-box) архитектуры.
Углубляться тут: /channel/gonzo_ML_podcasts/3290
Это нельзя не запостить прямо щас. Чуваки проанализировали и разобрали утекший код Клод кода и анализируют как устроен агент такого рода. Интересное чтиво. Харнесс, всюду харнесс. Больше 98% кода это оркестрационная обвязка вокруг интеллекта.
Dive into Claude Code: The Design Space of Today’s and Future AI Agent Systems
Jiacheng Liu, Xiaohan Zhao, Xinyi Shang, Zhiqiang Shen
Статья: https://arxiv.org/abs/2604.14228v1
Репа: https://github.com/VILA-Lab/Dive-into-Claude-Code
Ревью: https://arxiviq.substack.com/p/dive-into-claude-code-the-design
# TL;DR
ЧТО сделали: Авторы провели реверс-инжиниринг исходного кода на TypeScript агента Claude Code (v2.1.88) от Anthropic. Цель — разобрать архитектурный дизайн промышленных AI-агентов для написания кода. Исследователи вытащили наружу базовые механизмы системы и показали сложную инфраструктуру из семи компонентов, которая жёстко отделяет способности LLM к рассуждению от операционной обвязки, отвечающей за безопасность, контекст и память.
ПОЧЕМУ это важно: Работа эмпирически доказывает: по мере того как базовые способности фундаментальных моделей выравниваются, главным конкурентным преимуществом надёжных автономных систем становится именно детерминированная инженерная обвязка вокруг модели. Оказалось, что 98.4% кодовой базы промышленного агента — это операционная инфраструктура, а не логика принятия решений ИИ. Это заставляет переосмыслить подход к разработке и уйти от хрупкой оркестрации на базе промптов в сторону надёжных архитектур, напоминающих операционные системы.
Для практиков: Для техлидов и ИИ-исследователей этот анализ служит детальным чертежом того, как топовые лаборатории разворачивают автономные инструменты в продакшене. Статья подробно разбирает, как Claude Code справляется с давлением бесконечно растущего контекста через пятиуровневый пайплайн сжатия и обеспечивает безопасность с помощью жёсткого гейта разрешений (deny-first). Важно отметить, что работа подсвечивает и структурные трейды: хотя мощная инфраструктура ускоряет разработку в моменте, ограниченное окно контекста и изолированные субагенты создают риск того, что со временем общая связность кодовой базы и понимание проекта человеком будут деградировать.
Погружаться сюда: /channel/gonzo_ML_podcasts/3260
Удобнее наверно читать в виде страницы, где картинки вставлены к месту: https://arxiviq.substack.com/p/dive-into-claude-code-the-design