gonzo_ml | Unsorted

Telegram-канал gonzo_ml - gonzo-обзоры ML статей

23470

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Subscribe to a channel

gonzo-обзоры ML статей

Новую архитектуру подвезли! ‘Dragon Hatchling’ (BDH) построена на принципах распределённых графовых моделей мозга, при этом есть GPU-friendly имплементация. Выглядит очень интересно и демонстрирует свойства, характерные для биологических систем.

/channel/gonzo_ML_podcasts/906

Более фундаментальное изменение, чем например недавние Tversky Neural Networks (/channel/gonzo_ML/3932).

Читать полностью…

gonzo-обзоры ML статей

Stochastic activations
Maria Lomeli, Matthijs Douze, Gergely Szilvasy, Loic Cabannes, Jade Copet, Sainbayar Sukhbaatar, Jason Weston, Gabriel Synnaeve, Pierre-Emmanuel Mazaré, Hervé Jégou
Статья: https://arxiv.org/abs/2509.22358

Есть ещё на свете люди, продолжающие копаться в низких уровнях (на этот раз активации)! Но привязывают всё равно к LLM. Так необычно во введении читать, что функция активации -- это то, что внутри LLM между двумя линейными слоями в FFN блоке. Мы раньше всегда это проще объясняли, на примере одного нейрона…

Авторы предлагают стохастические активации. Я сначала по названию подумал, что речь будет несколько про другое, что будет какая-то хитрая функция с рандомом, ну как RReLU (randomized rectified linear unit, где для отрицательной части выбирался рандомный небольшой линейный коэффициент), но оказалось, что они предлагают случайно выбирать между SILU и RELU (что конечно тоже можно рассматривать как стохастическую функцию, но здесь стохастика вынесена на более высокий уровень), и у этого подхода есть свои плюсы.

RELU (=max(x, 0)) как известно был хорош, помог быстро продвинуть всю область где-то в районе AlexNet, когда оказалось, что с ним учится сильно быстрее, чем с дифференцируемой классикой типа сигмоид и гиперболических тангенсов. Проблема с RELU была в том, что если активация в зоне отрицательного аргумента, то там нулевой градиент и она оттуда не выберется. Как раз поэтому сети с RELU также естественным образом демонстрировали тенденцию к разреженности, что в свою очередь хорошо, если железо более эффективно умеет перемножать разреженные матрицы (но такое появилось сильно не сразу, да и для подобного паттерна разреженности это может быть непросто).

SILU (Sigmoid Linear Unit, оно же swish, =xσ(x)), особенно в сочетании с гейтами (SwiGLU), стабильно бил RELU по качеству, но не давал разреженности. Возможно, что бил как раз потому, что у RELU градиенты нулевые были в большом количестве случаев, и это не давало сети хорошо учиться.

Был и миллион других функций. Из относительно недавнего, например, Adaptive SwisH (ASH, https://arxiv.org/abs/2210.11672), со стохастическим сэмплингом внутри. Где-то идейно рядом с разреженностью также лежит Dropout, включая structured варианты типа LayerDrop (упоминали тут /channel/gonzo_ML/2845).

Вопрос далее классический: как адресовать ограничения RELU, сохранив все его преимущества?

Если бы губы Никанора Ивановича да приставить к носу Ивана Кузьмича, да взять сколько-нибудь развязности, какая у Балтазара Балтазарыча, да, пожалуй, прибавить к этому ещё дородности Ивана Павловича — я бы тогда тотчас же решилась.


Предлагаются два подхода:

1) Swi+FT -- файнтюнинг активаций: обучаешь LLM с одной активацией (более качественной), потом заменяешь на RELU и файнтюнишь. Если точнее, то при обучении для первых 1 − α от общего числа шагов выбирается хорошая активация (SILU например), а затем переключаемся на вторую (RELU). Значение α обычно в районе 5-10%, иногда пробуют 20%. На инференсе тоже оставляем вторую активацию. Нет никаких прогревов оптимизатора, его параметры не переинициализируются, но применяется косинусное расписание, где learning rate плавно уменьшается до 0.01 от своего пикового значения. Поскольку SILU и RELU похожи (одинаковые асимптоты и значение в нуле), то проблемы не возникает. Есть спайк на лоссе в момент переключения, но он быстро уходит.

2) StochA -- собственно стохастические активации: случайно выбираются активации из заданного набора, либо в трейне, либо в тесте. Здесь используется бернуллиевская (бинарная) случайная величина ω ∼ Bernoulli(p), так что с вероятностью p выбирается одна функция, и 1-p -- другая. Это, кстати, тоже напоминает дропаут активаций (хоть дропаут и для другой цели), так как получается что с заданной вероятностью мы выбираем функцию, которая занулит отрицательный аргумент.

Альтернативная стратегия -- случайно выбирать между identity (y=x) и нулевой функцией (y=0) с вероятностью, заданной сигмоидой, что в матожидании даёт SILU. На практике работает не очень.

Читать полностью…

gonzo-обзоры ML статей

Что-то интересное


Ring-1T-preview: Deep Thinking, No Waiting

The first 1 trillion open-source thinking model

https://huggingface.co/inclusionAI/Ring-1T-preview

Читать полностью…

gonzo-обзоры ML статей

😥

Philosopher John Searle, well-known for his work on philosophy of mind and philosophy of language, has died.

https://dailynous.com/2025/09/28/john-searle-1932-2025/

Там вообще какая-то грустная история...
https://www.colinmcginn.net/john-searle/

Читать полностью…

gonzo-обзоры ML статей

Новый Клод Сонет 4.5, хорош для кода и агентов

https://www.anthropic.com/news/claude-sonnet-4-5

Читать полностью…

gonzo-обзоры ML статей

Какой любопытный проект!

https://zml.ai/

Написан на Zig!

Читать полностью…

gonzo-обзоры ML статей

Что-то интересное:

Happy to release Meta Code World Model (CWM), a 32-billion-parameter dense LLM that enables novel research on improving code generation through agentic reasoning and planning with world models.
https://ai.meta.com/research/publications/cwm

When humans plan, we imagine the possible outcomes of different actions. When we reason about code we simulate part of its execution in our head. The current generation of LLMs struggles to do this. What kind of research will an explicitly trained code world model enable? CWM allows us to study this question. Our model is trained on large amounts of coding data & bespoke Python + Bash world modeling data, allowing it to simulate Python function execution and agentic interactions in Bash environments.

The team and I can’t wait to see what new research will be enabled with a world model.
📊 Tech Report https://ai.meta.com/research/publications/cwm/
⚖️ Models weights https://ai.meta.com/resources/models-and-libraries/cwm-downloads/
🤗 On Huggingface https://huggingface.co/facebook/cwm
https://huggingface.co/facebook/cwm-sft
https://huggingface.co/facebook/cwm-pretrain
🧑‍💻 Inference Code https://github.com/facebookresearch/cwm

We believe CWM provides a strong testbed for research on improving code generation with world models. We performed multi-task RL, and CWM has competitive perfor mance for its size with 68.6% on LiveCodeBench v5, 76% on AIME24, and 65.8% on SweBench Verified with test time scaling.

I'm immensely proud of the work done by my cracked CodeGen team at Meta, with PhD students and veterans, for which nothing is someone else's problem.
The broader Meta AI community all pulled together for this.
I'm very thankful for the unwavering support of our whole leadership.

https://www.facebook.com/share/p/1DEqPXYp1g/

Читать полностью…

gonzo-обзоры ML статей

Когда же уже R2 наконец?!

DeepSeek-V3.1 → DeepSeek-V3.1-Terminus

✨ What’s improved?
🌐 Language consistency: fewer CN/EN mix-ups & no more random chars.
🤖 Agent upgrades: stronger Code Agent & Search Agent performance.

https://x.com/deepseek_ai/status/1970117808035074215?t=zuXvRjUBudH5diKElMnijg&s=19

Читать полностью…

gonzo-обзоры ML статей

* Самодистилляция: Ещё более удивительно, что авторы показывают, как самодистилляция (тоже упоминалась в канале не раз, один из интересных кейсов тут /channel/gonzo_ML/202) -- когда модель на 300M параметров выступает учителем для нового 300М-студента той же архитектуры -- может привести к лучшей модели. Обучая студента на смеси реальных и синтетических данных от учителя, студент превосходит своего учителя, достигая асимптоты регуляризованного рецепта без необходимости в более крупной модели на каком-либо этапе обучения. Это не просто трюк с аугментацией данных; в статье предполагается, что это можно интерпретировать как форму неявного ансамблирования, сродни объединению исходного учителя с вновь инициализированным студентом, что позволяет студенту найти лучшее решение. Это интересный механизм аугментации данных, причём ключевым моментом является необходимость подмешивать реальные данные, чтобы избежать коллапса модели.

Статья подтверждает, что эти улучшения -- не просто артефакты лосса на валидации. Выигрыш напрямую переносится на нижестоящие задачи: лучший ансамбль превосходит лучшую нерегуляризованную модель в среднем на 9% на бенчмарках PIQA, SciQ и ARC Easy.

Более того, методы оказываются высокоэффективными в сценарии continued pre-training (CPT). При применении к математическому датасету ансамбль, обученный всего на 4B токенов данных, превзошёл базовую модель, обученную на полных 73B токенов, достигнув 17.5-кратного улучшения эффективности данных.

Остаются и вопросы. Идея асимптоты опирается на экстраполяцию степенных законов, которая , может быть шумной, и результаты следует интерпретировать как приблизительные оценки. Эксперименты, хоть и обширны, проводились на моделях до 1.4B параметров, может на других масштабах что-нибудь происходит. Тем не менее, результаты интересные.

Читать полностью…

gonzo-обзоры ML статей

Pre-training under infinite compute
Konwoo Kim, Suhas Kotha, Percy Liang, Tatsunori Hashimoto
Статья: https://arxiv.org/abs/2509.14786
Код: https://github.com/marin-community/marin/tree/suhas/data-efficiency

Прикольная работа про законы скейлинга, разные экспоненты и пользу дистилляции и ансамблирования. Авторы задают очень интересный вопрос: в будущем, когда компьюта будет дофига, а данные кончатся, как наиболее эффективно обучать модели? Ответы интересны.

Исследование начинается с создания базового сценария, который имитирует текущую практику в условиях нехватки данных: берётся фиксированный датасет на 200М токенов, и для него либо увеличивается количество эпох обучения, либо масштабируется число параметров модели. Результаты не слишком удивляют: оба подхода в конечном итоге приводят к переобучению, когда лосс на валидации выходит на плато, а затем начинает расти. Это показывает, что простое вливание большего количества вычислений в существующие рецепты даёт убывающую и в конечном счёте отрицательную отдачу, ограничивая достижимую производительность.

Вопрос, что можно сделать по-другому?

Вместо оценки производительности при фиксированном вычислительном бюджете авторы предлагают измерять конечный потенциал рецепта обучения по асимптоте его закона масштабирования. Найдя методы, которые заставляют лосс монотонно убывать с ростом вычислений, можно аппроксимировать эту зависимость степенным законом и экстраполировать производительность при стремлении вычислений к бесконечности. Эта асимптота представляет собой наилучший возможный лосс, которого данный рецепт может достичь на фиксированном датасете, что даёт более надёжную метрику для будущего с избытком вычислительных ресурсов.

Ядро статьи заключается в поиске простых, но эффективных алгоритмических приёмов, которые обеспечивают желаемое монотонное масштабирование и приводят к более низким асимптотам лосса.

1. Агрессивная регуляризация для масштабирования параметров

Ключ к предотвращению переобучения при масштабировании параметров одной модели -- это правильная регуляризация. Авторы обнаружили, что совместный подбор скорости обучения, количества эпох и weight decay для каждого размера модели позволяет достичь чистого, монотонного убывания лосса, которое следует степенному закону. Этот результат согласуется с современной теорией машинного обучения о сверхпараметризации и «двойном спуске» (double descent, /channel/gonzo_ML/832), когда производительность очень больших моделей может ухудшиться, прежде чем снова начать улучшаться. Статья показывает, что при правильной настройке регуляризации эту проблемную область можно сгладить, получив чистый закон масштабирования.

Ключевой вывод заключается в том, что оптимальное значение затухания весов для сверхпараметризованных моделей значительно выше стандартной практики -- вплоть до 30x. Такая агрессивная регуляризация позволяет более крупным моделям продолжать улучшаться там, где их нерегуляризованные аналоги переобучились бы. Для датасета в 200M токенов этот регуляризованный рецепт следует степенному закону L̂₂₀₀ₘ,ₙ = 0.05 / N¹·⁰² + 3.43, что предсказывает наилучшую асимптоту лосса в 3.43.

2. Ансамблирование: лучший путь к масштабированию

Читать полностью…

gonzo-обзоры ML статей

Интересный подход PostNAS с поиском оптимальной архитектуры LLM в работе про Jet-Nemotron:

/channel/gonzo_ML_podcasts/863

Не надо пробовать 100500 вариантов во время обучения (как работает классический NAS), надо обучить большую сеть, "включающую всё", а потом коцать её, занимаясь оптимизацией. Напоминает идейно pruning, но на чуть другом уровне.

Результат интересный. Итоговые маленькие модели бьют оригинальные хорошие (и часто более тяжёлые) бейзлайны. Скорость генерации на уровне топовых нетрансформерных архитектур. Ну и сам JetBlock в целом по сути из той же когорты.

Читать полностью…

gonzo-обзоры ML статей

Прикольно. Статья про Deepseek-R1 (/channel/gonzo_ML/3319) вышла в натуре. Не всё Дипмайнду только там публиковаться :)

https://www.nature.com/articles/s41586-025-09422-z

Читать полностью…

gonzo-обзоры ML статей

Потрясающий набор реакций на Юдковского, впрочем ожидаемо. Я лично прочитаю, мне интересно, какие у него аргументы. В плане аргументов мне также нравятся аргументы Рассела (/channel/gonzo_ML/1516), но что-то мне подсказывает, многие из скептиков про них даже не думали.

Читать полностью…

gonzo-обзоры ML статей

Огромная работа с обзором всего современного RL для ризонинга:

/channel/gonzo_ML_podcasts/849

Читать полностью…

gonzo-обзоры ML статей

Ещё одна любопытная недавно нашумевшая работа про SpikingBrain LLM, где взяли Qwen2.5 и делают на его базе эффективную модель. В этот раз более спайко-подобную, хорошо работающую на очень длинном контексте и потенциально намного более энергоэффективную. Это ещё не полноценная спайковая сеть на нейроморфном процессоре, но уже шаг. Гоняют на китайском GPU MetaX.

Очень перекликается с K2-Think, хоть его результаты и обругали (ничего, исправят в следующей версии). Везде фулл-стек инжиниринг, в обеих работах не-нвидиевское железо и база Qwen2.5. Всё, я уже жду вакансии фулл-стеков в ML!

/channel/gonzo_ML_podcasts/834

Читать полностью…

gonzo-обзоры ML статей

Обучают dense декодеры с GQA, RMSNorm + pre-norm, RoPE. Модели 1.5B и 3B. Оптимизатор AdamW. Токенизатор Llama3, словарь 128k + 256 зарезервированных токенов. Предобучение на 47B и 80B токенов, в основном англ тексты и код. Батч 1M токенов, контекст 8k.

Стохастическая активация даёт чуть меньший лосс на трейне по сравнению с RELU. Но и SILU тоже даёт меньший лосс, и не заметно как-то очень больших различий с ним. Без файнтюнинга на валидации всё проседает, но после него норм, но опять же, насколько я вижу, не лучше детерминированного SILU.

При использовании RELU на инференсе разреженность может превышать 90%, что по идее позволяет не тягать из памяти 90% весов. Разреженность в 90% даёт ускорение инференса на 65% на CPU. На GPU надо ещё как-то сделать вычисления достаточно предсказуемыми, чтобы балансировать нагрузку между CUDA тредами.

Вот эта часть вообще одна из самых интересных, но деталей тут не очень много. Как именно реализовали вычисления на CPU? Если боттлнек -- доступ к памяти, то всё равно ведь сначала надо прочитать, чтобы понять, что там ноль? Либо сразу делать sparse вычисления и для конкретных умножений использовать какую-то библиотеку для разреженной линейной алгебры с правильным форматом хранения. Была ли процедура конвертации dense модели в частично sparse для инференса? Упоминают хранение разных матриц по строкам или столбцам, но хочется мяса про sparse FFN.

Интересно, что при файнтюнинге, если использовать одновременно Swi+FT и StochA, то в момент переключения на RELU есть выброс на графике лосса, но далее он уходит и финальное качество модели выше, чем если бы изначально обучалась на RELU. При этом если использовать только Swi+FT, то итоговый результат хуже. И они всё равно хуже детерминированного SILU.

Другое любопытное замечание: в тест-тайм можно использовать StochA вместо RELU и без файнтюнинга (!). Оно неплохо работает, результат между RELU и SILU. Можно это использовать для генерации множественных ответов по одному промпту.

На downstream задачах похожая картина. Новые методы лучше RELU, но хуже SILU. То есть главный selling point, это потенциальное ускорение за счёт разреженности, 1.65x для CPU (а для GPU ещё надо постараться, но по идее для нвидиевских GPU нескольких последних поколений с поддержкой разреженности в тензорных ядрах должно как-то работать). Если нужно качество, то SILU лучше без вариантов. Ну или популярный SwiGLU, который SILU с гейтом. Есть ещё часто используемый GELU, хотя мне кажется от него стали уходить в SwiGLU (Себастиан подтверждает).

Наверное какие-то другие более новые функции активации тоже есть, но я не видел современного сравнения их всех по типу старого доброго для CNN (https://arxiv.org/abs/1505.00853) или исследования Ноама Шазира про трансформеры (https://arxiv.org/abs/2002.05202). Был вот ReLU^2 для разреженных LLM, где он всех побил (https://arxiv.org/abs/2402.03804). Был xIELU (https://arxiv.org/abs/2411.13010), который тоже вроде лучше SwiGLU. Ждём, когда кто-то снова сделает полномасштабное сравнение.

Наверное, здесь в очередной раз можно закончить цитатой Ноама Шазира из той работы 2020 года:

We offer no explanation as to why these architectures seem to work; we attribute their success, as all else, to divine benevolence


В общем непонятно, может глобально это всё неважно и мелочи, но может за этим и скрывается что-то фундаментальное, что мы пока ещё не поняли, базовые физические законы.

Кстати, у Ноама был кейноут доклад на свежей HotChips:
https://www.youtube.com/watch?v=v0beJQZQIGA

Всё в его участием смотреть и читать стоит! Напомню также, что он соавтор статьи про трансформер, T5, статей про MoE и т.п.. Пример очень крутого человека без PhD.

На этом и закончим.

Читать полностью…

gonzo-обзоры ML статей

Вот наконец и продукт доехал

Introducing Tinker: a flexible API for fine-tuning language models.

Write training loops in Python on your laptop; we'll run them on distributed GPUs.

Private beta starts today. We can't wait to see what researchers and developers build with cutting-edge open models!

https://thinkingmachines.ai/tinker/

https://x.com/thinkymachines/status/1973447428977336578

Today we launched Tinker.

Tinker brings frontier tools to researchers, offering clean abstractions for writing experiments and training pipelines while handling distributed training complexity. It enables novel research, custom models, and solid baselines.

Excited to see what people build.

https://x.com/miramurati/status/1973498366521954774

Читать полностью…

gonzo-обзоры ML статей

Кстати, там продолжения в блоге пошли:

LoRA Without Regret
https://thinkingmachines.ai/blog/lora/

Modular Manifolds
https://thinkingmachines.ai/blog/modular-manifolds/

Читать полностью…

gonzo-обзоры ML статей

Ещё из интересного, что антропик теперь свой агентский SDK выпустил

https://www.anthropic.com/engineering/building-agents-with-the-claude-agent-sdk

Читать полностью…

gonzo-обзоры ML статей

Прикольная работа Parallel-R1 про параллелизацию и исследование разных независимых путей во время ризонинга:

/channel/gonzo_ML_podcasts/894

(параллелизация пока скорее только логическая, не техническая, но это логичный следующий шаг)

Ещё забавно, что это напоминает parallel scaling из “One extinction scenario” свежей книги Юдковского и Соареса ;)

Читать полностью…

gonzo-обзоры ML статей

Sakana опять что-то прикольное сделала.

We’re excited to introduce ShinkaEvolve: An open-source framework that evolves programs for scientific discovery with unprecedented sample-efficiency.
Blog: https://sakana.ai/shinka-evolve/
Code: https://github.com/SakanaAI/ShinkaEvolve
Paper: https://arxiv.org/abs/2509.19349

Like AlphaEvolve and its variants, our framework leverages LLMs to find state-of-the-art solutions to complex problems, but using orders of magnitude fewer resources!

Many evolutionary AI systems are powerful but act like brute-force engines, burning thousands of samples to find good solutions. This makes discovery slow and expensive. We took inspiration from the efficiency of nature.‘Shinka’ (進化) is Japanese for evolution, and we designed our system to be just as resourceful.

On the classic circle packing optimization problem, ShinkaEvolve discovered a new state-of-the-art solution using only 150 samples. This is a massive leap in efficiency compared to previous methods that required thousands of evaluations.

We applied ShinkaEvolve to a diverse set of hard problems with real-world applications:

1/ AIME Math Reasoning: It evolved sophisticated agentic scaffolds that significantly outperform strong baselines, discovering an entire Pareto frontier of solutions trading performance for efficiency.

2/ Competitive Programming: On ALE-Bench (a benchmark for NP-Hard optimization problems), ShinkaEvolve took the best existing agent's solutions and improved them, turning a 5th place solution on one task into a 2nd place leaderboard rank in a competitive programming competition.

3/ LLM Training: We even turned ShinkaEvolve inward to improve LLMs themselves. It tackled the open challenge of designing load balancing losses for Mixture-of-Experts (MoE) models. It discovered a novel loss function that leads to better expert specialization and consistently improves model performance and perplexity.

ShinkaEvolve achieves its remarkable sample-efficiency through three key innovations that work together: (1) an adaptive parent sampling strategy to balance exploration and exploitation, (2) novelty-based rejection filtering to avoid redundant work, and (3) a bandit-based LLM ensemble that dynamically picks the best model for the job.

By making ShinkaEvolve open-source and highly sample-efficient, our goal is to democratize access to advanced, open-ended discovery tools. Our vision for ShinkaEvolve is to be an easy-to-use companion tool to help scientists and engineers with their daily work. We believe that building more efficient, nature-inspired systems is key to unlocking the future of AI-driven scientific research. We are excited to see what the community builds with it!

Читать полностью…

gonzo-обзоры ML статей

Что почитать в дороге

Читать полностью…

gonzo-обзоры ML статей

Мы уже писали про варианты JEPA, например, JEPA для time series (/channel/gonzo_ML_podcasts/513) или для видео, типа V-JEPA (/channel/gonzo_ML/3501) и V-JEPA 2 (/channel/gonzo_ML/3953). Теперь JEPA доехала до LLM и есть LLM-JEPA!

/channel/gonzo_ML_podcasts/880

Результат интересный. Главный челлендж, как для языковых данных создавать различные view.

Читать полностью…

gonzo-обзоры ML статей

Хотя регуляризация решает проблему масштабирования одной модели, авторы задаются вопросом, есть ли лучший способ потратить бесконечные вычислительные ресурсы. Мы все знаем про пользу ансамблирования. Кажется, на Каггле это традиционно был универсальный рецепт -- в любой непонятной ситуации делай ансамблирование. Обучая несколько (K) независимых моделей фиксированного размера и усредняя их логиты, они достигают значительно более низкой асимптоты лосса. Например, ансамбль моделей на 300M параметров даёт асимптоту 3.34, что лучше, чем 3.43 (цифры как назло такие, что легко перепутать), достигаемая при масштабировании одной модели до бесконечного числа параметров. Авторы объясняют это, ссылаясь на гипотезу «множественных представлений» (multi-view) от Allen-Zhu и Li (https://arxiv.org/abs/2012.09816). Идея в том, что для данного датасета может существовать много различных наборов предсказательных признаков. Одна модель часто склонна выучивать только одно из этих представлений, в то время как независимо обученные члены ансамбля с большей вероятностью выучат разные. Усреднение их выходов позволяет уловить более полный сигнал. Это, кстати, неплохо перекликается с другой недавней работой про то, как лучше выучивать хорошие фичи (/channel/gonzo_ML/4009), там тоже рецепт был в обучении нескольких моделей и их конкатенации.

Это означает, что при достаточно большом общем количестве параметров эффективнее обучать кучу небольших моделей, чем одного монолитного гиганта. Авторы также обнаружили, что оптимальные гиперпараметры для членов ансамбля (настроенные для предела K → ∞) предпочитают большее количество эпох и меньшее затухание весов по сравнению с одиночной моделью. Интуитивно это позволяет каждому члену ансамбля стать слегка переобученным «специалистом».

Объединение этих двух стратегий -- совместный рецепт масштабирования, где и количество параметров каждого члена (N), и число членов ансамбля (K) стремятся к бесконечности, — даёт наименьшую возможную асимптоту лосса, оценённую в 3.17 для датасета в 200M токенов. Интересно, кстати, какое место здесь занял бы MoE, он выглядит как более срединный путь.

Эти алгоритмические улучшения приводят к значительному выигрышу в эффективности использования данных. На масштабе 200M токенов совместный рецепт масштабирования оказывается в 5.17 раз более эффективным по данным, чем стандартный. Анализируя масштабирование на более крупных датасетах (до 1.6B токенов), авторы показывают, что этот прирост эффективности, по прогнозам, останется постоянным, поскольку законы масштабирования по данным для всех рецептов убывают с одинаковой скоростью.

И тут начинается особенно интересная часть.

Вычислительные затраты на обучение и запуск больших ансамблей могут показаться непрактичными. Однако статья демонстрирует, что эти улучшения производительности можно упаковать в меньшие, эффективные модели с помощью дистилляции. Про виды дистилляции мы писали много (/channel/gonzo_ML/117), поищите поиском по каналу. Здесь рассматриваются два:

* Дистилляция ансамбля: Ансамбль из 8 членов (с общим числом параметров 2.4B) был дистиллирован в одну модель-студента на 300M параметров. Этот студент, с в 8 раз меньшим бюджетом на инференс, сохранил 83% улучшения лосса ансамбля по сравнению с лучшей регуляризованной 300М-моделью и даже превзошёл асимптоту регуляризованного рецепта.

Читать полностью…

gonzo-обзоры ML статей

А вот и Навье-Стокс от Дипмайнда подоспел

https://deepmind.google/discover/blog/discovering-new-solutions-to-century-old-problems-in-fluid-dynamics/

Читать полностью…

gonzo-обзоры ML статей

В тему агентских экономик (/channel/gonzo_ML/4032), Гугл анонсировал агентский протокол для платежей Agent Payments Protocol (AP2), расширение A2A. Покупки могут совершаться как с человеком, так и без.

https://cloud.google.com/blog/products/ai-machine-learning/announcing-agents-to-payments-ap2-protocol

Читать полностью…

gonzo-обзоры ML статей

Вот вам ещё свежая работа из Дипмайнда: Virtual Agent Economies

/channel/gonzo_ML_podcasts/860

Авторы утверждают, что наш путь по умолчанию — спонтанная и проницаемая экономика — функционально эквивалентен простому участию ИИ-агентов в существующей человеческой экономике, но на машинных скоростях и в машинных масштабах. Этот сценарий служит предостережением о непредвиденном эмерджентном поведении и потенциале широкомасштабного финансового ущерба. Ключевой тезис работы — это призыв к действию: перейти от реактивной позиции к проактивному архитектурному проектированию.

Читать полностью…

gonzo-обзоры ML статей

16 сентября у Элиезера Юдковского выходит новая книга!

О книге уже положительно отозвались крупные учёные (от самого высокоцитируемого живущего учёного и лауреата премии Тьюринга Йошуа Бенжио до Нобелевского лауреата по экономике Бена Бернанке), профессора компьютерных наук и информационной безопасности, бывший промежуточный CEO OpenAI и какое-то число известных людей (от Стивена Фрая до Grimes).

Макс Тегмарк (профессор физики из MIT) назвал эту книгу самой важной книгой десятилетия.

В отличие от известного многим вам фанфика, эта книга — нон-фикшн (и написана в соавторстве с президентом MIRI Нейтом Соаресом). Она называется "If Anyone Builds It, Everyone Dies: Why Superhuman AI Would Kill Us All" и рассказывает о проблеме, над которой Юдковский стал работать за десять лет до начала написания ГПиМРМ.

К сожалению, название книги — не преувеличение, а точное описание ситуации, в которой находится человечество. Книга подробно объясняет, почему из-за того, как устроены современные ИИ, какой уровень контроля мы имеем над их внутренним устройством и какой уровень контроля будем иметь над их целями, когда эти системы станут сверхчеловеческими, все на планете буквально умрут, если искусственный суперинтеллект будет создан в условиях и с технологиями, подобными текущим.

Юдковский с соавтором выпускают книгу через традиционное издательство, потому что надеются так достичь аудиторию, обычно недоступную постам в блогах и статьям в научных журналах. Цель — не заработать на продажах: они потратят на книгу гораздо больше своих авторских гонораров.

У книги уже больше 5 000 предзаказов; вероятно, она попадёт в список бестселлеров New York Times. Но чтобы попасть на первые строчки списка и получить максимально широкое освещение, нужно 20-25 000 проданных копий за неделю. (Предзаказы считаются продажами в первую неделю.)

Поэтому огромная просьба: если у вас есть возможность заказать книжку, сделайте это. Особенно если Юдковский был вам больше, чем на тридцать долларов полезен: заказ книги сейчас очень поможет.

Со мной ещё до выхода поделились черновиком; книга ещё и очень хорошо написана и убедительно и корректно рассказывает о самой важной (на мой взгляд и на взгляд авторов) из стоящих перед человечеством проблем.

Сделать предзаказ на Amazon: amzn.to/4pnKLAW

Если вы в России, воспользуйтесь любой из служб доставки, которые пересылают посылки от Amazon. Мы собрали несколько способов в этом гугл-доке. (Если можете порекомендовать другие способы, посоветуйте в комментариях!).

Если вы в других странах вне Штатов, по ссылке может быть доступна только версия в мягкой обложке — paperback. Найдите местную версию книги через поиск или в книжных вашей страны.

На русском книга выйдет в следующем году в Corpus. Но огромная просьба попытаться сделать предзаказ на английском. Это действительно очень помогло бы.

Читать полностью…

gonzo-обзоры ML статей

Стартап Миры Мурати разродился на этой неделе первым постом в блоге. Тема: воспроизводимость ответов LLM.

https://thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/

Где там остаётся недетерминизм, когда все сиды уже зафиксированы. Разбирают неассоциативность сложения чисел с плавающей точкой и прочее.

Прикольно, но задачей на миллиард не выглядит :) Ждём других постов.

Читать полностью…

gonzo-обзоры ML статей

Важный апдейт про развенчание заоблачного перформанса K2-Think от независимой команды.

Оценка была некорректная, включала контаминацию, занижала скоры других моделей и использовала их неоптимальным образом. Микро-усреднение также даёт избыточно высокий вес (66%) бенчмарку, на котором модель лучше всего.

Плюс претензии к неравному сравнению: best-of-3 vs. best-of-1 и неизвестного размера внешняя модель-помощник. Этот момент интересный, поскольку во многих случаях и так уже неясно, сравниваем мы чистую модель или какую-то систему с моделью, что особенно часто проявляется при сравнении с закрытыми моделями. Мне кажется было бы правильно сравнивать нормируя на вычислительные ресурсы.

https://www.sri.inf.ethz.ch/blog/k2think

Авторы сделали переоценку на MathArena:

Читать полностью…
Subscribe to a channel