gonzo_ml | Unsorted

Telegram-канал gonzo_ml - gonzo-обзоры ML статей

21999

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Subscribe to a channel

gonzo-обзоры ML статей

Но предварительные эксперименты на ResNet показали, что прямая замена BN там не очень работает, требует отдельного разбирательства.

Короче, назад, к основам! 🙂

Читать полностью…

gonzo-обзоры ML статей

Мэтры рекомендуют

https://www.nytimes.com/2025/03/14/technology/why-im-feeling-the-agi.html

Читать полностью…

gonzo-обзоры ML статей

Ну в общем публичного списка языков реально нет, и это очень печально. В остальном мультиязычность выглядит очень интересно.

Читать полностью…

gonzo-обзоры ML статей

Gemma 3 is coming!

https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf

We introduce Gemma 3, a multimodal addition to the Gemma family of lightweight open models, ranging in scale from 1 to 27 billion parameters. This version introduces vision understanding abilities, a wider coverage of languages and longer context – at least 128K tokens. We also change the architecture of the model to reduce the KV-cache memory that tends to explode with long context. This is achieved by increasing the ratio of local to global attention layers, and keeping the span on local attention short.

The Gemma 3 models are trained with distillation and achieve superior performance to Gemma 2 for both pre-trained and instruction finetuned versions. In particular, our novel post-training recipe significantly improves the math, chat, instruction-following and multilingual abilities, making Gemma3- 4B-IT competitive with Gemma2-27B-IT and Gemma3-27B-IT comparable to Gemini-1.5-Pro across benchmarks. We release all our models to the community.

Читать полностью…

gonzo-обзоры ML статей

AI Scientist-v2 от Sakana (первую версию упоминали тут) создал статью, которая прошла пир ревью на воркшоп ICLR.

https://sakana.ai/ai-scientist-first-publication/

We looked at the generated papers and submitted those we thought were the top 3 (factoring in diversity and quality—We conducted our own detailed analysis of the 3 papers, please read on in our analysis section). Of the 3 papers submitted, two papers did not meet the bar for acceptance. One paper received an average score of 6.25, ranking approximately 45% of all submissions. These scores are higher than many other accepted human-written papers at the workshop, placing the paper above the average acceptance threshold. Specifically, the scores were:

* Rating: 6: Marginally above acceptance threshold
* Rating: 7: Good paper, accept
* Rating: 6: Marginally above acceptance threshold
* Rating: 6: Marginally above acceptance threshold

Ну, можно было смеяться над ошибками и косяками ранних моделей, можно и продолжать это делать, но тренд неостановим.

Читать полностью…

gonzo-обзоры ML статей

И вот до кучи мой старый пост из 2020-го.

“Чужой разум”, Питер Годфри-Смит (Peter Godfrey-Smith, Other Minds: The Octopus, the Sea, and the Deep Origins of Consciousness)
https://ast.ru/book/chuzhoy-razum-841787/

“Ложная слепота”, Питер Уоттс (Peter Watts, Blindsight)
https://ast.ru/book/lozhnaya-slepota-714648/

Две крайне сильно перекликающиеся между собой книги, одна художественная, другая научно-популярная, обе с впечатляющим набором примечаний со ссылками на научные работы. Книги в общем про одно и то же, только одна написана в парадигме what is, а другая — what if. Одно и то же — это сознание или субъективный опыт, причём рассмотренный со стороны распределённых интеллектов типа осьминога (но этим не ограничивающиеся).

Что характерно, оба автора — морские биологи (ну или около того), только один теперь философ, а другой фантаст. И по странному стечению обстоятельств, оба — Питеры.

У нас на планете по факту есть минимум три различных эволюционных эксперимента по созданию разума: мы, млекопитающие (и затем приматы, а также вероятно, иные развилки, типа дельфинов и китов); птицы (особенно врановые и попугаи); головоногие (осьминоги, каракатицы, кальмары). Последние — самые “инопланетные” для нас, хотя в общем и про птиц в последние годы тоже много интересного публикуется (типа https://www.facebook.com/grigory.sapunov/posts/10215874024103747).

“Чужой разум” Годдфри-Смита, книга с подзаголовком “Осьминоги, море и глубинные истоки сознания”, на первый взгляд кажется книгой про сознание осьминогов (что в общем уже интересно), но на поверку оказывается книгой по философии сознания, включающей в себя также довольно подробный разбор эволюционных корней сознания, и даже, неожиданно, вопросы старения.

Автор прослеживает эволюционные истоки развитых нервных систем фактически от коммуникации одноклеточных, к клеткам внутри многоклеточного организма, появлению нервной системы (возможно, ещё у эдиакарской фауны), и множеству дальнейших эволюционных развилок. Описывает устройство тел и особенности биологии головоногих (не знал, что у них кожа по сути представляет многопиксельный экран и то, что они, вероятно, могут кожей “видеть”). Рассуждает, когда в эволюции появляется субъективный опыт, и в какой момент внутри “загорается свет”, обсуждает некоторые теории сознания. Ну и попутно, конечно, много рассказывает о своих и чужих наблюдениях за осьминогами и каракатицами.

Много классных примеров поведения осьминогов, которые вместо того, чтобы дёргать рычаг и получать пищу, начинают откручивать лампочки, брызгаться водой или отламывать этот рычаг. Мне очень запомнился пример с осьминогом, жившим в каком-то аквариуме то ли в зоопарке, то ли в институте, где их кормили вроде размороженной рыбой, которая для осьминогов скорее второсортна. И вот осьминог в первом аквариуме после получения этой еды терпеливо дождался, пока исследовательница пройдёт все остальные аквариумы и раздаст еду их обитателям, и на её обратном пути встретил её у стекла, держа в щупальцах эту еду, а затем не отрывая взгляда поплыл вглубь аквариума, где находился слив воды, и демонстративно, глядя на исследовательницу, отправил туда в слив эту размороженную рыбу.

На очереди у меня также давно лежит “Душа осьминога” Сай Монтгомери, её теперь ещё больше хочется почитать. А “Чужой разум”, думаю, ещё буду перечитывать, она того стоит.

“Ложная слепота” Питера Уоттса появилась раньше, в 2006-м (“Чужой разум” в 2016-м, и, кстати, у Годдфри-Смита вот только что, месяц назад, вышла новая книга “Metazoa: Animal Life and the Birth of the Mind”). Читать интересно, но спойлерить не буду, там кроме инопланетных разумов и про наши тоже есть неплохие рассуждения. Тоже рекомендую.

#books

Читать полностью…

gonzo-обзоры ML статей

Ну и до кучи к предыдущему, если ещё не видели

https://www.anthropic.com/news/anthropic-s-recommendations-ostp-u-s-ai-action-plan

Читать полностью…

gonzo-обзоры ML статей

Дожили

https://corticallabs.com/cl1.html

Читать полностью…

gonzo-обзоры ML статей

Давно Шмидхубера не видели?

https://www.ted.com/talks/juergen_schmidhuber_why_2042_will_be_a_big_year_for_ai

Читать полностью…

gonzo-обзоры ML статей

Всех поздравляю!

https://openai.com/index/introducing-gpt-4-5/

Читать полностью…

gonzo-обзоры ML статей

DeepSeek пошёл всё опенсорсить на этой неделе.

Сегодня опубликовали DeepEP, коммуникационную библиотеку для MoE с GPU кернелами
https://github.com/deepseek-ai/DeepEP

Вчера выложили кернелы для MLA
https://github.com/deepseek-ai/FlashMLA

Завтра ещё что-нибудь выложат.

Читать полностью…

gonzo-обзоры ML статей

Акустические модемы снова в моде!

https://devpost.com/software/gibber-link

Читать полностью…

gonzo-обзоры ML статей

О, Sonnet 3.7 подоспел!

https://anthropic.com/news/claude-3-7-sonnet

Читать полностью…

gonzo-обзоры ML статей

6.5 минут рассказа про работу с демонстрациями

Читать полностью…

gonzo-обзоры ML статей

https://x.com/maximelabonne/status/1890018729389359307

Читать полностью…

gonzo-обзоры ML статей

Transformers without Normalization
Jiachen Zhu, Xinlei Chen, Kaiming He, Yann LeCun, Zhuang Liu
Статья: https://arxiv.org/abs/2503.10622
Сайт: https://jiachenzhu.github.io/DyT/
Код: https://github.com/jiachenzhu/DyT

Интересная работа от интересных авторов.

В трансформерах можно заменить слои нормализации на поэлементный гиперболический тангенс, Dynamic Tanh (DyT), DyT(x)=tanh(αx), где параметр α обучаемый, — и перформанс не ниже, без всякого тюнинга гиперпараметров.

Это интересный заход. Когда в 2015 появилась одна из первых нормализаций, BatchNorm (BN), она много чего улучшила. Работала она в итоге, кажется, не таким образом, как задумывали, но работала хорошо. После появились другие варианты нормализации, и сейчас в трансформерах доминирует LayerNorm (LN) и RMSNorm. Все они так или иначе нормализуют то, что прилетает на вход, то ли защищая от внутреннего distribution shift, насыщения активаций и т.п. (но это не точно, как показали работы про BN типа https://arxiv.org/abs/1805.11604), то ли сглаживая fitness landscape и делая оптимизацию проще, то ли ещё как. Главное, на практике работают — качество выше, сходимость лучше, глубокие архитектуры обучаются лучше.

Внутри нормализации обычно устроены так, что вычитают среднее, делят на дисперсию (могут различаться по чему именно это всё считается или игнорировать что-то из этого, например, среднее), поверх этого реализуют обучаемые shift и scaling, чтобы если надо, можно было бы вернуть к исходному и реализовать identity transformation.

Были заходы внести нормализацию внутрь функции активации, например SELU (https://arxiv.org/abs/1706.02515) имени Сеппа Хохрейтера, но как-то совсем в массы они не пошли вроде, там другие функции активации сейчас доминируют.

[Пользуясь случаем хочу сказать, что лаба Сеппа в Линце сейчас ищет 5 постдоков и 10 PhD исследователей, подробности тут https://www.jku.at/en/lit-artificial-intelligence-lab/career/deep-learning/, тут количество позиций ниже почему-то, но он буквально вчера писал про 5 и 10.]

Так вот, в текущей работе показывают, что скрипач не нужен и есть простая альтернатива нормализации, этот самый DyT. Хотя SELU показывал то же самое, мне кажется. Плюсы такого подхода в том, что не надо считать никакие статистики активаций по всему слою (а также возможно батчу), и не надо ничего хранить для инференса (что было нужно для оригинального BN).

Авторы зашли с анализа поведения трансформеров с LN: ViT-B, wav2vec 2.0 Large Transformer, DiT-XL. Обнаружили линейную зависимость между входом и выходом для ранних слоёв и S-образные кривые для глубоких (но с широким линейным участком посередине). Это нелинейное преобразование выглядит сильно похоже на масштабированный tanh, поэтому и решили сделать DyT.

Полная форма выгдялит так DyT(x) = γ ∗ tanh(αx) + β, где α, γ и β — обучаемые параметры.

В общем, тянет на функцию активации, но в таком режиме в работе это не проверяли и другие функции активации заменить не пытались, только целиком замена LN слоёв.

Проверили на всяком разном: ViT, MAE, DINO, DiT, LLaMA 7B, 13B, 34B, 70B (в ламе заменяли RMSNorm), wav2vec 2.0, HyenaDNA, Caduceus. Везде примерно так же по качеству (микро-чуть-чуть хуже, без изменений, чуть лучше).

По времени инференса DyT лучше: почти в два раза на уровне слоя, но относительно слабо на уровне всей модели.

В абляциях поубирали tanh, заменяли на identity, hardtanh, sigmoid — tanh лучше всех. Без обучаемой α тоже похуже.

Посмотрели как ведёт себя α в процессе обучения, близко следует 1/std от активаций. После обучения есть сильная корреляция с 1/std входных активаций, и у более глубоких слоёв эти активации с большей дисперсией.

Сравнили с другими методами, позволяющими обучать трансформеры без слоёв нормализации, Fixup, SkipInit, σReparam. На ViT и MAE лучшие цифры даёт DyT.

Инициализация α не влияет сильно нигде кроме LLM, хотя меньшие значения ведут к более стабильному обучению. Для LLM игра со значениями помогает, они зависят от размера модели (в первую очередь model width) и типа блока, на который навешиваются (внимание или всё остальное).

Читать полностью…

gonzo-обзоры ML статей

Визуально про архитектуру Gemma 3 и некоторые другие интересные вещи

Читать полностью…

gonzo-обзоры ML статей

Особенно приятно, что модель наконец мультиязычная, это был мой главный фичареквест в команду Джеммы начиная с первой версии.

Заявлено 140 языков в обучающем датасете, но списка я пока не видел.

Читать полностью…

gonzo-обзоры ML статей

Я помню как на NIPS 2016 (?) в Барселоне во время доклада Гудфеллоу про GAN вылез Шмидхубер с обычным комментарием про то, что всё, включая GAN, изобретено им. Я щетаю, это ответочка, процитировать именно Гудфеллоу :)))

Читать полностью…

gonzo-обзоры ML статей

И нельзя не напомнить про китов:
/channel/gonzo_ML/2182

Читать полностью…

gonzo-обзоры ML статей

Прогресс в зоопсихологии:

Интересный систематический обзор всех аспектов психики головоногих, включен полный библиографический список всей накопленной к данному моменту литературы по этому вопросу. Линии человека и головоногих разошлись более 600 миллионов лет назад, тем не менее дальнейшие эволюционные процессы (включая механизмы конвергентной эволюции) создали во многом параллельные формы мозга и психики. Изучение психики настолько эволюционно далеких от нас форм жизни важно для дальнейшего расширения круга эмпатии человечества и разработки законодательных мер защиты сложных форм нечеловеческого сознания.

https://thebrooksinstitute.org/sites/default/files/2025-02/Cephalopod%20Cognition%20and%20Sentience.pdf

Читать полностью…

gonzo-обзоры ML статей

Что ни день, то сто грамм! А то и двести!

"Mutual Assured AI Malfunction (MAIM)"

https://www.nationalsecurity.ai/

Читать полностью…

gonzo-обзоры ML статей

Turning Award у Barto & Sutton за RL! И bitter lesson

https://www.acm.org/media-center/2025/march/turing-award-2024

Читать полностью…

gonzo-обзоры ML статей

Пост с выжимкой трансляции:

— модель будет в API вместе с выпуском в Pro-подписку (сегодня)
— Модель будет доступна разработчикам в API ВСЕХ ТИРОВ (не только тем, кто потратил $100+ или $250+). У меня уже появился доступ. В теории завтра-послезавтра появятся независимые бенчмарки... если авторы наскребут денег на тесты ;) новая модель ОЧЕНЬ дорогая
— в остальные тиры (Plus за $20) попадёт уже на следующей неделе
— появился блог: https://openai.com/index/introducing-gpt-4-5/
— модель уже работает с Canvas и поиском (инструменты в ChatGPT), а самое главное поддерживает загрузку файлов
— «GPT-4.5 демонстрирует более сильную эстетическую интуицию и креативность» (прилагаются результаты слепого тестирования на пользователях, как часто они предпочитали ответ одной модели другой). Новая модель побеждает в 57%-63% чатов (более высокий процент достигается на «профессиональных» запросах, что бы это не значило).
— модель тренировалась на нескольких датацентрах одновременно (как Gemini 1.0 год назад)
— как я писал, сделали акцент на том, что новая модель будет очень крутой базой для обучения рассуждающих моделей. Второй акцент — на существенном уменьшении галлюцинаций и улучшении надёжности.

UPD: появились цены!
— $75 долларов за миллион токенов на входе, $150 за миллион на выходе — существенно дороже, чем на релизе была GPT-4. Сейчас GPT-4o стоит $2.5/$10 — в 30 и 15 раз дешевле соответственно (а ведь это ещё и не самая дешёвая модель на рынке DeepSeek стоит значимо дешевле). Страшно представить, сколько будут рассуждалки стоить..
— модель похоже реально ОГРОМНАЯ, скорость генерации ну очень маленькая. Даже простых ответов приходится ждать... как будто вернулся в март '23-го и свежую GPT-4.

Длина контекста остаётся 128k токенов, но почти для всех кейсов этого хватает. Всё равно длинный контекст не так надёжен сам по себе :)

UPD2: модель имеет знания до Октября 2023-го года, согласно документации, то есть как o1/o3/GPT-4o. Это очень не здорово( хотелось хотя бы плюс 8-10 месяцев данных получить...

Читать полностью…

gonzo-обзоры ML статей

Сегодня выложили кернелы для матричных операций в FP8

https://github.com/deepseek-ai/DeepGEMM

DeepGEMM is a library designed for clean and efficient FP8 General Matrix Multiplications (GEMMs) with fine-grained scaling, as proposed in DeepSeek-V3. It supports both normal and Mix-of-Experts (MoE) grouped GEMMs. Written in CUDA, the library has no compilation need during installation, by compiling all kernels at runtime using a lightweight Just-In-Time (JIT) module.

Currently, DeepGEMM exclusively supports NVIDIA Hopper tensor cores. To address the imprecise FP8 tensor core accumulation, it employs CUDA-core two-level accumulation (promotion). While it leverages some concepts from CUTLASS and CuTe, it avoids heavy reliance on their templates or algebras. Instead, the library is designed for simplicity, with only one core kernel function comprising around ~300 lines of code. This makes it a clean and accessible resource for learning Hopper FP8 matrix multiplication and optimization techniques.

Despite its lightweight design, DeepGEMM's performance matches or exceeds expert-tuned libraries across various matrix shapes.

Неделя опенсорса продолжается!

Читать полностью…

gonzo-обзоры ML статей

https://youtu.be/EtNagNezo8w

Читать полностью…

gonzo-обзоры ML статей

Обещают лучше на SWE

Читать полностью…

gonzo-обзоры ML статей

Работа на самом деле год отлёживалась

Читать полностью…

gonzo-обзоры ML статей

World and Human Action Models towards gameplay ideation
Anssi Kanervisto, Dave Bignell, Linda Yilin Wen, Martin Grayson, Raluca Georgescu, Sergio Valcarcel Macua, Shan Zheng Tan, Tabish Rashid, Tim Pearce, Yuhan Cao, Abdelhak Lemkhenter, Chentian Jiang, Gavin Costello, Gunshi Gupta, Marko Tot, Shu Ishida, Tarun Gupta, Udit Arora, Ryen W. White, Sam Devlin, Cecily Morrison & Katja Hofmann
Статья: https://www.nature.com/articles/s41586-025-08600-3
Модели: https://huggingface.co/microsoft/wham
Пост: https://news.xbox.com/en-us/2025/02/19/muse-ai-xbox-empowering-creators-and-players/
Более подробный пост: https://www.microsoft.com/en-us/research/blog/introducing-muse-our-first-generative-ai-model-designed-for-gameplay-ideation/

Не так давно на новый год я писал свой топ результатов (/channel/gonzo_ML/3175) и одним из них были World Models (/channel/gonzo_ML/3176), а также изменения, назревающие в игровой индустрии.

На прошлой неделе Microsoft (точнее Xbox) сделал сильный ход здесь, выпустив Muse.

Muse -- это World and Human Action Model (WHAM), обученная на игре Bleeding Edge (https://www.bleedingedge.com/en). Это модель, которая моделирует динамику игры, по сути позволяет играть.

Muse обучена на записях игры человека, она предсказывает кадры и действия игрока. Это декодер трансформера, работающий с дискретными токенами, в которых чередуются последовательности кадров и действий на игровом контроллере. За кодирование изображения в токены и декодирование обратно отвечает VQGAN.

Датасет -- это 500,000 анонимизированных игровых сессий, более 7 лет непрерывной игры по семи разным картам игры. Он и называется соответственно, 7 Maps. Есть фильтрованный вариант, где оставили карту Skygarden и 1 год игры.

Трансформеры (вариация nanoGPT) обучены размером от 15M до 894M с VQGAN на 60M параметров, и отдельный самый большой трансформер на 1.6B плюс ViT-VQGAN на 300M. Размер контекста -- 1 секунда игры, для малых трансформеров это 2,720 токенов, для большого 5,560. Размер картинки для малых 128×128 и 256 токенов, для большого 300×180 и 540 токенов.

Ну то есть по архитектуре всё довольно традиционно.

Бюджет на обучение большой модели 10^22 FLOPS. Скромно на фоне фронтира (https://epoch.ai/blog/tracking-large-scale-ai-models). Обучали на 98xH100 GPUs в течение 5 дней. PyTorch Lightning, FSDP, Flash Attention.

На HF опубликованы две модели, на 200M и 1.6B параметров.

Оценивали модель по Consistency (в геймплее не должно быть резких изменений и всё должно быть когерентно), Diversity (для поддержки ‘Divergent thinking’ нужно разнообразие!), Persistency (должна позволять модификации пользователем и давать интерактивность).

Позиционируют как для gameplay ideation. Но мы ждём нейроигр!

Читать полностью…

gonzo-обзоры ML статей

https://arxiv.org/abs/2409.10566

Читать полностью…
Subscribe to a channel