Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Just for fun продолжаю автоматическую публикацию обзоров статей, которые вручную разбирать всё равно не буду.
Сегодня "A Deep Reinforcement Learning Approach to Automated Stock Trading, using xLSTM Networks" (https://arxiv.org/abs/2503.09655) про применение xLSTM (/channel/gonzo_ML/2624) для биржевой торговли.
* English TLDR (/channel/gonzo_ML_podcasts/51)
* русскоязычный автообзор (/channel/gonzo_ML_podcasts/52)
Transformers without Normalization: Многообещающий шаг к более простым и быстрым моделям
Название статьи: Transformers without Normalization
Авторы: Jiachen Zhu, Xinlei Chen, Kaiming He, Yann LeCun, Zhuang Liu
Статья: [https://arxiv.org/abs/2503.10622](https://arxiv.org/abs/2503.10622)
Код: [http://jiachenzhu.github.io/DyT](http://jiachenzhu.github.io/DyT)
---
В этом обзоре рассматривается статья "Transformers without Normalization", в которой исследуется необходимость слоёв нормализации в современных нейронных сетях, особенно в архитектурах трансформеров. Авторы предлагают новую альтернативу, Dynamic Tanh (DyT), стремясь воспроизвести преимущества нормализации без её вычислительных затрат и архитектурной сложности.
Слои нормализации, такие как Layer Normalization (LN) ([Ba et al., 2016](https://arxiv.org/abs/1607.06450)) и Batch Normalization (BN) ([Ioffe and Szegedy, 2015](https://arxiv.org/abs/1502.03167)), стали повсеместным компонентом в глубоком обучении, во многом благодаря их способности стабилизировать обучение и ускорять сходимость. Однако авторы данной статьи ставят под сомнение эту парадигму, демонстрируя, что трансформеры могут достигать сопоставимой, а иногда и улучшенной производительности без явных слоёв нормализации. Их ключевое нововведение, Dynamic Tanh (DyT), представляет собой простую поэлементную операцию, определяемую как DyT(x) = γ * tanh(ax) + β, где 'a' - это обучаемый скалярный параметр, а γ и β - обучаемые параметры масштабирования и сдвига для каждого канала, соответственно. Этот подход мотивирован наблюдением, что слои LN в обученных трансформерах часто демонстрируют tanh-подобное отображение входа-выхода, что предполагает, что их основная роль может быть аппроксимирована масштабированной нелинейностью.
Методология сосредоточена вокруг замены стандартных слоёв нормализации (LN или RMSNorm) в различных моделях на основе трансформеров, включая Vision Transformers (ViT), ConvNeXt, Diffusion Transformers (DiT) и Large Language Models (LLMs) вроде LLaMA, на DyT. В экспериментах с LLM авторы добавляют обучаемый скаляр сразу после слоя эмбеддингов, инициализированный как sqrt(d), где d - размерность эмбеддинга модели. Без этого масштабирующего скаляра модель не может нормально сходиться. Параметр γ DyT инициализируется вектором из единиц, а параметр β - вектором из нулей. Авторы сохраняют большинство гиперпараметров из оригинальных моделей, демонстрируя plug-and-play характер предложенного ими метода. Эмпирическая валидация охватывает широкий спектр задач, включая распознавание изображений, self-supervised learning, генерацию изображений, языковое моделирование и speech pretraining. Сила этого подхода заключается в его простоте и широкой эмпирической проверке. DyT требует минимальных архитектурных изменений и, по-видимому, хорошо обобщается на различные модальности и задачи. Авторы тщательно сравнивают модели, оснащённые DyT, с их нормализованными аналогами, а также с другими техниками, не использующими нормализацию, такими как Fixup ([Zhang et al., 2019](https://arxiv.org/abs/1901.09321)), SkipInit ([De and Smith, 2020](https://arxiv.org/abs/2002.06308)) и Reparam ([Zhai et al., 2023](https://arxiv.org/abs/2302.05449)). Подробные инструкции по воспроизведению результатов приведены в [Приложении A статьи](https://arxiv.org/abs/2503.10622).
Однако методология также имеет некоторые ограничения. Хотя статья предоставляет убедительные доказательства эффективности DyT в трансформерах, его производительность при замене BatchNorm в традиционных CNN-архитектурах, таких как ResNet-50 и VGG19, приводит к снижению производительности. Это говорит о том, что DyT может быть не универсальной заменой для всех типов нормализации во всех архитектурах. Кроме того, оценка, хотя и обширная, в основном фокусируется на показателях производительности, таких как точность и FID. Статистическая значимость сообщаемых улучшений оценивается не всегда, что затрудняет определение того, насколько действительно надежны наблюдаемые улучшения.
Но предварительные эксперименты на ResNet показали, что прямая замена BN там не очень работает, требует отдельного разбирательства.
Короче, назад, к основам! 🙂
Мэтры рекомендуют
https://www.nytimes.com/2025/03/14/technology/why-im-feeling-the-agi.html
Ну в общем публичного списка языков реально нет, и это очень печально. В остальном мультиязычность выглядит очень интересно.
Читать полностью…Gemma 3 is coming!
https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf
We introduce Gemma 3, a multimodal addition to the Gemma family of lightweight open models, ranging in scale from 1 to 27 billion parameters. This version introduces vision understanding abilities, a wider coverage of languages and longer context – at least 128K tokens. We also change the architecture of the model to reduce the KV-cache memory that tends to explode with long context. This is achieved by increasing the ratio of local to global attention layers, and keeping the span on local attention short.
The Gemma 3 models are trained with distillation and achieve superior performance to Gemma 2 for both pre-trained and instruction finetuned versions. In particular, our novel post-training recipe significantly improves the math, chat, instruction-following and multilingual abilities, making Gemma3- 4B-IT competitive with Gemma2-27B-IT and Gemma3-27B-IT comparable to Gemini-1.5-Pro across benchmarks. We release all our models to the community.
AI Scientist-v2 от Sakana (первую версию упоминали тут) создал статью, которая прошла пир ревью на воркшоп ICLR.
https://sakana.ai/ai-scientist-first-publication/
We looked at the generated papers and submitted those we thought were the top 3 (factoring in diversity and quality—We conducted our own detailed analysis of the 3 papers, please read on in our analysis section). Of the 3 papers submitted, two papers did not meet the bar for acceptance. One paper received an average score of 6.25, ranking approximately 45% of all submissions. These scores are higher than many other accepted human-written papers at the workshop, placing the paper above the average acceptance threshold. Specifically, the scores were:
* Rating: 6: Marginally above acceptance threshold
* Rating: 7: Good paper, accept
* Rating: 6: Marginally above acceptance threshold
* Rating: 6: Marginally above acceptance threshold
Ну, можно было смеяться над ошибками и косяками ранних моделей, можно и продолжать это делать, но тренд неостановим.
И вот до кучи мой старый пост из 2020-го.
“Чужой разум”, Питер Годфри-Смит (Peter Godfrey-Smith, Other Minds: The Octopus, the Sea, and the Deep Origins of Consciousness)
https://ast.ru/book/chuzhoy-razum-841787/
“Ложная слепота”, Питер Уоттс (Peter Watts, Blindsight)
https://ast.ru/book/lozhnaya-slepota-714648/
Две крайне сильно перекликающиеся между собой книги, одна художественная, другая научно-популярная, обе с впечатляющим набором примечаний со ссылками на научные работы. Книги в общем про одно и то же, только одна написана в парадигме what is, а другая — what if. Одно и то же — это сознание или субъективный опыт, причём рассмотренный со стороны распределённых интеллектов типа осьминога (но этим не ограничивающиеся).
Что характерно, оба автора — морские биологи (ну или около того), только один теперь философ, а другой фантаст. И по странному стечению обстоятельств, оба — Питеры.
У нас на планете по факту есть минимум три различных эволюционных эксперимента по созданию разума: мы, млекопитающие (и затем приматы, а также вероятно, иные развилки, типа дельфинов и китов); птицы (особенно врановые и попугаи); головоногие (осьминоги, каракатицы, кальмары). Последние — самые “инопланетные” для нас, хотя в общем и про птиц в последние годы тоже много интересного публикуется (типа https://www.facebook.com/grigory.sapunov/posts/10215874024103747).
“Чужой разум” Годдфри-Смита, книга с подзаголовком “Осьминоги, море и глубинные истоки сознания”, на первый взгляд кажется книгой про сознание осьминогов (что в общем уже интересно), но на поверку оказывается книгой по философии сознания, включающей в себя также довольно подробный разбор эволюционных корней сознания, и даже, неожиданно, вопросы старения.
Автор прослеживает эволюционные истоки развитых нервных систем фактически от коммуникации одноклеточных, к клеткам внутри многоклеточного организма, появлению нервной системы (возможно, ещё у эдиакарской фауны), и множеству дальнейших эволюционных развилок. Описывает устройство тел и особенности биологии головоногих (не знал, что у них кожа по сути представляет многопиксельный экран и то, что они, вероятно, могут кожей “видеть”). Рассуждает, когда в эволюции появляется субъективный опыт, и в какой момент внутри “загорается свет”, обсуждает некоторые теории сознания. Ну и попутно, конечно, много рассказывает о своих и чужих наблюдениях за осьминогами и каракатицами.
Много классных примеров поведения осьминогов, которые вместо того, чтобы дёргать рычаг и получать пищу, начинают откручивать лампочки, брызгаться водой или отламывать этот рычаг. Мне очень запомнился пример с осьминогом, жившим в каком-то аквариуме то ли в зоопарке, то ли в институте, где их кормили вроде размороженной рыбой, которая для осьминогов скорее второсортна. И вот осьминог в первом аквариуме после получения этой еды терпеливо дождался, пока исследовательница пройдёт все остальные аквариумы и раздаст еду их обитателям, и на её обратном пути встретил её у стекла, держа в щупальцах эту еду, а затем не отрывая взгляда поплыл вглубь аквариума, где находился слив воды, и демонстративно, глядя на исследовательницу, отправил туда в слив эту размороженную рыбу.
На очереди у меня также давно лежит “Душа осьминога” Сай Монтгомери, её теперь ещё больше хочется почитать. А “Чужой разум”, думаю, ещё буду перечитывать, она того стоит.
“Ложная слепота” Питера Уоттса появилась раньше, в 2006-м (“Чужой разум” в 2016-м, и, кстати, у Годдфри-Смита вот только что, месяц назад, вышла новая книга “Metazoa: Animal Life and the Birth of the Mind”). Читать интересно, но спойлерить не буду, там кроме инопланетных разумов и про наши тоже есть неплохие рассуждения. Тоже рекомендую.
#books
Ну и до кучи к предыдущему, если ещё не видели
https://www.anthropic.com/news/anthropic-s-recommendations-ostp-u-s-ai-action-plan
Дожили
https://corticallabs.com/cl1.html
Давно Шмидхубера не видели?
https://www.ted.com/talks/juergen_schmidhuber_why_2042_will_be_a_big_year_for_ai
Всех поздравляю!
https://openai.com/index/introducing-gpt-4-5/
DeepSeek пошёл всё опенсорсить на этой неделе.
Сегодня опубликовали DeepEP, коммуникационную библиотеку для MoE с GPU кернелами
https://github.com/deepseek-ai/DeepEP
Вчера выложили кернелы для MLA
https://github.com/deepseek-ai/FlashMLA
Завтра ещё что-нибудь выложат.
Акустические модемы снова в моде!
https://devpost.com/software/gibber-link
О, Sonnet 3.7 подоспел!
https://anthropic.com/news/claude-3-7-sonnet
Экспериментальные результаты, суммированные в многочисленных таблицах, в целом подтверждают утверждения авторов. В задачах контролируемой классификации изображений на ImageNet-1K, ViT и ConvNeXt модели, оснащённые DyT, достигают сопоставимой или немного лучшей точности top-1, чем их аналоги с LN. В сценариях self-supervised learning (MAE и DINO) модели DyT поддерживают или незначительно улучшают производительность. Diffusion models (DiT), использующие DyT, демонстрируют сопоставимые или немного улучшенные оценки FID, за исключением DiT-XL, где наблюдается незначительное ухудшение. Примечательно, что в больших языковых моделях (LLaMA) DyT достигает производительности на уровне RMSNorm для различных размеров моделей, предлагая при этом значительное сокращение задержек при выводе и обучении при использовании BF16 precision. Ablation studies дополнительно подтверждают необходимость как tanh-нелинейности, так и обучаемого параметра масштабирования в DyT. Однако важно отметить, что прирост производительности часто является скромным, с типичными улучшениями в точности top-1 в диапазоне от 0,1% до 0,5%, и в отсутствие отчётов о статистической значимости практическая значимость этих небольших улучшений может быть оспорена в некоторых приложениях.
Потенциальное влияние этого исследования заключается в его способности упростить сетевые архитектуры и потенциально повысить вычислительную эффективность. Авторы пишут, что "предварительные измерения показывают, что DyT повышает скорость обучения и вывода, что делает его кандидатом для ориентированного на эффективность проектирования сети". Удаление слоёв нормализации может привести к более быстрому выводу и обучению, что демонстрируется измерениями задержек авторов в LLM. Это особенно актуально для сред с ограниченными ресурсами и крупномасштабных развёртываний. Результаты статьи также вносят вклад в более глубокое понимание роли слоёв нормализации, предполагая, что их основная функциональность может быть аппроксимирована простой, обучаемой нелинейностью. Будущие направления исследований, предложенные авторами, включают в себя изучение адаптивности DyT к другим типам нормализации и изучение его ограничений в различных архитектурных контекстах, особенно в CNN, где он в настоящее время уступает Batch Normalization. Было бы также ценно дополнительно исследовать теоретические основы эффективности DyT и изучить потенциальные стратегии настройки гиперпараметров для более широкой применимости.
Авторы признают ограничение DyT, заключающееся в том, что он приводит к снижению производительности при прямой замене BN в ResNet-50 и VGG19. Это важный момент, который правильно определяет рамки их вклада. Кроме того, хотя статья исследует применение DyT в различных архитектурах трансформеров и задачах, она могла бы выиграть от более тщательного исследования чувствительности DyT к различным настройкам гиперпараметров и схемам инициализации, помимо тех, которые уже изучены, особенно за пределами домена LLM, где была обнаружена важность настройки инициализации α.
В заключение, эта статья представляет убедительный аргумент в пользу жизнеспособности Transformers без нормализации посредством введения Dynamic Tanh. Хотя DyT может и не быть универсальной drop-in replacement для всех слоёв нормализации в каждой архитектуре, его продемонстрированная эффективность в трансформерах, в сочетании с его простотой и потенциалом повышения эффективности, делает его значительным вкладом в эту область. Эта статья предлагает ценный вклад в эту область и открывает многообещающие пути для будущих исследований более простых и эффективных моделей глубокого обучения. Хотя необходимы дальнейшие исследования для полного понимания его ограничений и оптимальных сценариев применения, DyT представляет собой примечательный шаг к оспариванию установленных норм в проектировании нейронных сетей.
Экспериментирую с заменой себя и обкатываю первую версию мультиагентной системы для разбора статей.
Вот сгенерил ревью этой же самой статьи про DyT, что постил утром. Какие-то ограничения системы ясны, будем устранять в следующих версиях. Фидбек приветствуется!
Transformers without Normalization
Jiachen Zhu, Xinlei Chen, Kaiming He, Yann LeCun, Zhuang Liu
Статья: https://arxiv.org/abs/2503.10622
Сайт: https://jiachenzhu.github.io/DyT/
Код: https://github.com/jiachenzhu/DyT
Интересная работа от интересных авторов.
В трансформерах можно заменить слои нормализации на поэлементный гиперболический тангенс, Dynamic Tanh (DyT), DyT(x)=tanh(αx), где параметр α обучаемый, — и перформанс не ниже, без всякого тюнинга гиперпараметров.
Это интересный заход. Когда в 2015 появилась одна из первых нормализаций, BatchNorm (BN), она много чего улучшила. Работала она в итоге, кажется, не таким образом, как задумывали, но работала хорошо. После появились другие варианты нормализации, и сейчас в трансформерах доминирует LayerNorm (LN) и RMSNorm. Все они так или иначе нормализуют то, что прилетает на вход, то ли защищая от внутреннего distribution shift, насыщения активаций и т.п. (но это не точно, как показали работы про BN типа https://arxiv.org/abs/1805.11604), то ли сглаживая fitness landscape и делая оптимизацию проще, то ли ещё как. Главное, на практике работают — качество выше, сходимость лучше, глубокие архитектуры обучаются лучше.
Внутри нормализации обычно устроены так, что вычитают среднее, делят на дисперсию (могут различаться по чему именно это всё считается или игнорировать что-то из этого, например, среднее), поверх этого реализуют обучаемые shift и scaling, чтобы если надо, можно было бы вернуть к исходному и реализовать identity transformation.
Были заходы внести нормализацию внутрь функции активации, например SELU (https://arxiv.org/abs/1706.02515) имени Сеппа Хохрейтера, но как-то совсем в массы они не пошли вроде, там другие функции активации сейчас доминируют.
[Пользуясь случаем хочу сказать, что лаба Сеппа в Линце сейчас ищет 5 постдоков и 10 PhD исследователей, подробности тут https://www.jku.at/en/lit-artificial-intelligence-lab/career/deep-learning/, тут количество позиций ниже почему-то, но он буквально вчера писал про 5 и 10.]
Так вот, в текущей работе показывают, что скрипач не нужен и есть простая альтернатива нормализации, этот самый DyT. Хотя SELU показывал то же самое, мне кажется. Плюсы такого подхода в том, что не надо считать никакие статистики активаций по всему слою (а также возможно батчу), и не надо ничего хранить для инференса (что было нужно для оригинального BN).
Авторы зашли с анализа поведения трансформеров с LN: ViT-B, wav2vec 2.0 Large Transformer, DiT-XL. Обнаружили линейную зависимость между входом и выходом для ранних слоёв и S-образные кривые для глубоких (но с широким линейным участком посередине). Это нелинейное преобразование выглядит сильно похоже на масштабированный tanh, поэтому и решили сделать DyT.
Полная форма выгдялит так DyT(x) = γ ∗ tanh(αx) + β, где α, γ и β — обучаемые параметры.
В общем, тянет на функцию активации, но в таком режиме в работе это не проверяли и другие функции активации заменить не пытались, только целиком замена LN слоёв.
Проверили на всяком разном: ViT, MAE, DINO, DiT, LLaMA 7B, 13B, 34B, 70B (в ламе заменяли RMSNorm), wav2vec 2.0, HyenaDNA, Caduceus. Везде примерно так же по качеству (микро-чуть-чуть хуже, без изменений, чуть лучше).
По времени инференса DyT лучше: почти в два раза на уровне слоя, но относительно слабо на уровне всей модели.
В абляциях поубирали tanh, заменяли на identity, hardtanh, sigmoid — tanh лучше всех. Без обучаемой α тоже похуже.
Посмотрели как ведёт себя α в процессе обучения, близко следует 1/std от активаций. После обучения есть сильная корреляция с 1/std входных активаций, и у более глубоких слоёв эти активации с большей дисперсией.
Сравнили с другими методами, позволяющими обучать трансформеры без слоёв нормализации, Fixup, SkipInit, σReparam. На ViT и MAE лучшие цифры даёт DyT.
Инициализация α не влияет сильно нигде кроме LLM, хотя меньшие значения ведут к более стабильному обучению. Для LLM игра со значениями помогает, они зависят от размера модели (в первую очередь model width) и типа блока, на который навешиваются (внимание или всё остальное).
Визуально про архитектуру Gemma 3 и некоторые другие интересные вещи
Читать полностью…Особенно приятно, что модель наконец мультиязычная, это был мой главный фичареквест в команду Джеммы начиная с первой версии.
Заявлено 140 языков в обучающем датасете, но списка я пока не видел.
Я помню как на NIPS 2016 (?) в Барселоне во время доклада Гудфеллоу про GAN вылез Шмидхубер с обычным комментарием про то, что всё, включая GAN, изобретено им. Я щетаю, это ответочка, процитировать именно Гудфеллоу :)))
Читать полностью…И нельзя не напомнить про китов:
/channel/gonzo_ML/2182
Прогресс в зоопсихологии:
Интересный систематический обзор всех аспектов психики головоногих, включен полный библиографический список всей накопленной к данному моменту литературы по этому вопросу. Линии человека и головоногих разошлись более 600 миллионов лет назад, тем не менее дальнейшие эволюционные процессы (включая механизмы конвергентной эволюции) создали во многом параллельные формы мозга и психики. Изучение психики настолько эволюционно далеких от нас форм жизни важно для дальнейшего расширения круга эмпатии человечества и разработки законодательных мер защиты сложных форм нечеловеческого сознания.
https://thebrooksinstitute.org/sites/default/files/2025-02/Cephalopod%20Cognition%20and%20Sentience.pdf
Что ни день, то сто грамм! А то и двести!
"Mutual Assured AI Malfunction (MAIM)"
https://www.nationalsecurity.ai/
Turning Award у Barto & Sutton за RL! И bitter lesson
https://www.acm.org/media-center/2025/march/turing-award-2024
Пост с выжимкой трансляции:
— модель будет в API вместе с выпуском в Pro-подписку (сегодня)
— Модель будет доступна разработчикам в API ВСЕХ ТИРОВ (не только тем, кто потратил $100+ или $250+). У меня уже появился доступ. В теории завтра-послезавтра появятся независимые бенчмарки... если авторы наскребут денег на тесты ;) новая модель ОЧЕНЬ дорогая
— в остальные тиры (Plus за $20) попадёт уже на следующей неделе
— появился блог: https://openai.com/index/introducing-gpt-4-5/
— модель уже работает с Canvas и поиском (инструменты в ChatGPT), а самое главное поддерживает загрузку файлов
— «GPT-4.5 демонстрирует более сильную эстетическую интуицию и креативность» (прилагаются результаты слепого тестирования на пользователях, как часто они предпочитали ответ одной модели другой). Новая модель побеждает в 57%-63% чатов (более высокий процент достигается на «профессиональных» запросах, что бы это не значило).
— модель тренировалась на нескольких датацентрах одновременно (как Gemini 1.0 год назад)
— как я писал, сделали акцент на том, что новая модель будет очень крутой базой для обучения рассуждающих моделей. Второй акцент — на существенном уменьшении галлюцинаций и улучшении надёжности.
UPD: появились цены!
— $75 долларов за миллион токенов на входе, $150 за миллион на выходе — существенно дороже, чем на релизе была GPT-4. Сейчас GPT-4o стоит $2.5/$10 — в 30 и 15 раз дешевле соответственно (а ведь это ещё и не самая дешёвая модель на рынке DeepSeek стоит значимо дешевле). Страшно представить, сколько будут рассуждалки стоить..
— модель похоже реально ОГРОМНАЯ, скорость генерации ну очень маленькая. Даже простых ответов приходится ждать... как будто вернулся в март '23-го и свежую GPT-4.
Длина контекста остаётся 128k токенов, но почти для всех кейсов этого хватает. Всё равно длинный контекст не так надёжен сам по себе :)
UPD2: модель имеет знания до Октября 2023-го года, согласно документации, то есть как o1/o3/GPT-4o. Это очень не здорово( хотелось хотя бы плюс 8-10 месяцев данных получить...
Сегодня выложили кернелы для матричных операций в FP8
https://github.com/deepseek-ai/DeepGEMM
DeepGEMM is a library designed for clean and efficient FP8 General Matrix Multiplications (GEMMs) with fine-grained scaling, as proposed in DeepSeek-V3. It supports both normal and Mix-of-Experts (MoE) grouped GEMMs. Written in CUDA, the library has no compilation need during installation, by compiling all kernels at runtime using a lightweight Just-In-Time (JIT) module.
Currently, DeepGEMM exclusively supports NVIDIA Hopper tensor cores. To address the imprecise FP8 tensor core accumulation, it employs CUDA-core two-level accumulation (promotion). While it leverages some concepts from CUTLASS and CuTe, it avoids heavy reliance on their templates or algebras. Instead, the library is designed for simplicity, with only one core kernel function comprising around ~300 lines of code. This makes it a clean and accessible resource for learning Hopper FP8 matrix multiplication and optimization techniques.
Despite its lightweight design, DeepGEMM's performance matches or exceeds expert-tuned libraries across various matrix shapes.
Неделя опенсорса продолжается!
Работа на самом деле год отлёживалась
Читать полностью…