Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Также любопытно.
Не сказать, что уже ImageNet moment, но прогресс хороший.
https://matharena.ai/
Кто любит посмотреть/послушать
3 часа, но в платном ютубе оказывается есть ускорение до 4x...
https://www.youtube.com/watch?v=htOvH12T7mU
UPD: Но можно и прочитать
https://www.dwarkesh.com/p/scott-daniel
DeepMind про Technical AGI Safety and Security
https://deepmind.google/discover/blog/taking-a-responsible-path-to-agi/
Сама статья на 145 страниц:
https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/evaluating-potential-cybersecurity-threats-of-advanced-ai/An_Approach_to_Technical_AGI_Safety_Apr_2025.pdf
Просочились детали про открытую модель от OpenAI (/channel/gonzo_ML/3521). По данным The Information (https://www.theinformation.com/briefings/openai-plans-release-free-model-reasoning-coming-months) у OpenAI уже есть эта модель и в данный момент она проходит тестирования безопасности.
Что известно про модель:
* Middle-sized model, то есть вероятно в районе 20-70B, также будет маленькая версия или несколько, чтобы можно было гонять on-device
* Модель мультиязычная, с поддержкой function calling. Ну этим сейчас уже никого не удивишь, необходимый минимум, не то что год назад (/channel/gonzo_ML/2821). Надеюсь, в отличие от Гугла (/channel/gonzo_ML/3447) список языков опубликуют?
* Это будет reasoning модель, что уже интересно. Reasoning модели такого размера нет, DeepSeek не для простых смертных с его 8x H200 (/channel/gonzo_ML/3239), и нишу для домашнего и мобильного использования пока ещё никто не занял, OpenAI будет первым (если новая Llama не обгонит).
* Модель мультимодальная, но что совсем интересно, в модальности будет аудио и новая модель в каком-то смысле является миксом Whisper и o3-mini. Про картиночную модальность неизвестно, но звук на входе и выходе это очень интересно, особенно мультиязычный. В on-device устройствах OpenAI планирует заюзать одновременно NPU и DSP (для звука они хороши), что видимо заметно улучшит скорость работы.
* Но что совсем бомба, это что ризонинг может идти в звуковой модальности! Модели будут рассуждать вслух! Но чтобы не сильно отвлекать пользователя, рассуждать модель будет шёпотом (Whisper же!). Если можно будет менять голос для ризонинга, то можно запускать GPT-радиостанцию!
Инсайдеры сообщают, что уже тестируют устную математику, но модель пока постоянно забывает перенести единичку.
Самый главный вопрос -- название модели пока неизвестно.
Хорошо, хорошо. Ждём ответку от Meta и Google. Ходят слухи, что Цукерберг уже нанял Eminem'а, чтобы обучить свою модель ритмичному reasoning'у под бит. А в Google DeepMind созвали экстренное совещание и, кажется, планируют выпустить би-ризонинг, когда модель играет сразу две роли, обычную и критика, причём разными голосами -- не просто так ведь модель называется Gemini. И она на самом деле уже тоже есть и проходит тестирования, включая старый добрый NotebookLM (/channel/gonzo_ML/2976) -- помните подкасты?
Неужели??? Для 1 апреля запоздалая шутка. На пару лет.
https://openai.com/open-model-feedback/
We’re planning to release our first open language model since GPT‑2 in the coming months. We’re excited to collaborate with developers, researchers, and the broader community to gather inputs and make this model as useful as possible. If you’re interested in joining a feedback session with the OpenAI team, please let us know below.
Наличие разных датасетов с фокусом на различные активности ожидаемо влияет. Например, обучая только на датасете про движения SSv2 константность формы выучивается слабовато.
Большая модель в целом перформит получше, но не сказать, что разница особенно большая. С имеющимися доверительными интервалами её может и нет вообще.
По задачам предобучения пробовали три варианта.
* Block Masking маскирует конкретный кусок картинки в каждом кадре
* Causal Block Masking в дополнение к куску картинки также маскирует последние 25% видео
* Random Masking маскирует случайные пиксели на каждом кадре.
Разница в итоге не очень большая. На классификации видео переход к Random Masking понижает качество на 20 пунктов, но на IntPhys всего на 5. А Causal Block Masking работает похуже, чем просто Block Masking, хотя вроде бы напрямую должен помогать предсказанию (что нужно для интуитивной физики). Это интересно, получается для интуитивной физики специально подобранная objective не особо то и нужна.
Не все свойства из интуитивной физике нормально выучиваются, но может это ещё и проблема датасетов. Возможно также, что для интеракций между объектами нужны более высокоуровневые репрезентации и H-JEPA может помочь. Возможно также что агенту нужно самому интерактивно взаимодействовать с миром, чтобы выучить интеракции, ибо текущий сеттинг ставит JEPA скорее в роль наблюдателя без ручек и ножек. Интересно, кто-то уже встроил JEPA во что-то типа Dreamer (про одну из вариаций писали тут /channel/gonzo_ML/1791).
В любом случае круто. Заодно и JEPA наконец немного разобрали :)
Intuitive physics understanding emerges from self-supervised pretraining on natural videos
Quentin Garrido, Nicolas Ballas, Mahmoud Assran, Adrien Bardes, Laurent Najman, Michael Rabbat, Emmanuel Dupoux, Yann LeCun
Статья: https://arxiv.org/abs/2502.11831
Код: https://github.com/facebookresearch/jepa-intuitive-physics
Развитие темы про JEPA, world models и выучивание интуитивной физики из видео.
Интуитивная физика — довольно важный аспект нашей жизни и мышления. Мы ожидаем определённого поведения от объектов — что они не исчезают внезапно, не проходят через препятствия и не меняют произвольно цвета и формы. Подобные способности задокументированы не только у детёнышей человека, но и у приматов, морских млеков, врановых и так далее. Многие AI системы, превосходящие человеческий уровень в языковых или математических задачах, беспомощны в задачах, с которыми справится кошка, иллюстрируя парадокс Моравека.
Люди делали разные подходы к снаряду. Есть структурированные модели с вручную закодированными правилами про репрезентации разных объектов и их отношений. Есть пиксельные генеративные модели, занимающиеся реконструкцией будущих сенсорных входов по прошлым. Текущая работа исследует третий класс моделей, являющихся срединным путём между первыми двумя — собственно Лекуновскую JEPA, Joint Embedding Predictive Architectures (https://openreview.net/pdf?id=BZ5a1r-kVsf).
JEPA мы так и не разобрали, но в двух словах её идея в том, что предсказание надо делать не в пиксельном или ещё каком финальном пространстве, а в выученных внутренних абстрактных репрезентациях. В этом она близка к структурированным моделям. Но в отличие от них, ничего не кодируется, всё выучивается. В JEPA входные данные x (например, пиксели изображения) кодируются энкодером во внутреннюю репрезентацию Enc(x), далее предиктор делает предсказание репрезентации будущего входа y, возможно учитывая какую-то латентную переменную z, влияющую на предсказание (например, выбранное действие какого-то объекта в случае видео), и этот результат сравнивается с реальной репрезентацией следующего входа, Enc(y). Это, кстати, довольно сильно перекликается с другими моделями, например BYOL (/channel/gonzo_ML/562), там наличие отдельного предиктора тоже было очень важным для предотвращения коллапса. Энкодеры для x и y могут быть и разными. Преимущество в том, что не надо предсказывать каждую деталь выходного объекта y (с точностью до пикселя), ибо на этом уровне может быть очень много вариантов, разница между которыми не так важна.
JEPA не генеративная модель, она не может легко предсказывать y из x. У JEPA есть несколько развитий: Hierarchical JEPA (H-JEPA, тоже из оригинальной статьи), Image-based JEPA (I-JEPA, https://arxiv.org/abs/2301.08243), Video-JEPA (V-JEPA, https://arxiv.org/abs/2404.08471) и её свежий вариант Video JEPA with Variance-Covariance Regularization (VJ-VCR, https://arxiv.org/abs/2412.10925) — помните VICReg (/channel/gonzo_ML/590)?
В текущей работа исследуется V-JEPA, расширение модели на работу с видео и предсказание замаскированных частей кадров. В такой модели можно проверять выучивание интуитивной физики через фреймворк violation-of-expectation, получая меру несоответствия между предсказанием и реальным видео через измерение полученного “сюрприза”. Так же оценивают это и у живых существ (например, они дольше задерживают взгляд на неожиданных исходах).
V-JEPA точно так же как и обычная JEPA включает в себя энкодер и предиктор, оба нейросетевые. Энкодер строит репрезентацию видео, предиктор предсказывает репрезентацию искусственно замаскированной части видео.
Не про ML, но вдруг у вас есть сейчас возможность наблюдать, а вы не знали.
Не забывайте про защиту глаз!
Для разнообразия про работу.
У друзей в Palisade Research, которые делают разные AI Safety проекты есть открытые роли
* AI Researcher — https://palisade-research.notion.site/Research-Generalist-15f998368b9e81558682c79b903e107a
* DevOps — https://palisade-research.notion.site/DevOps-Engineer-1aa998368b9e800a8b98fa6c094a3b1c
И ещё пара более операционных ролей менее релевантных тематике канала на их сайте — https://palisade-research.notion.site/hiring-global
У нас в Intento тоже пара открытых разработческих позиций. Приходите к нам разрабатывать AI агентов для перевода и не только:
* Senior Fullstack Engineer — https://intento.recruitee.com/o/senior-fullstack-engineer-archive-2
* Senior Backend Engineer (with Frontend Expertise) — https://intento.recruitee.com/o/backend-engineer-genai
Бывают и другие роли, сейчас есть в районе Customer Success, недавно была Language Engineer, но мы её уже, кажется, закрыли. Следите на https://intento.recruitee.com/
Также из интересного
* 🔥Research Scientist в Isomorphic Labs — https://www.linkedin.com/feed/update/urn:li:activity:7307351855775318016/
* PhD/PostDoc researcher in ML в LIT AI Lab и Institute for Machine Learning к Sepp Hochreiter’у, соавтору LSTM и нового xLSTM (уже упоминал, но хуже не будет) — https://www.jku.at/en/lit-artificial-intelligence-lab/career/deep-learning/
#jobs
Я хотел бы дать несколько субъективных комментариев по статье:
1. Я писал раньше, что, если уж из-за конкуренции между людьми создание сверхинтеллекта, похоже, неизбежно (и неизбежен переход к нему контроля за нашей судьбой – передача «эволюционной эстафеты интеллекта и сознания»), то главной задачей психологии на оставшиеся годы должно быть «воспитание» этого будущего сверхинтеллекта как нашего как можно более достойного преемника. Отраженные в этой статье идеи Шанахана показывают, как это может быть сделано конкретно – через глубокое и эмпатичное понимание особенностей сознания большой языковой модели (даже если это понимание явно сильно ограниченно, в т.ч. и на языковом уровне). Критично важно, что Шанахан активно привлекает буддистскую традицию для такого понимания, а ведь буддисткой традиции изначально свойственна глубокая универсальная эмпатия («compassion») к любым существам, в т.ч. не являющимися людьми (я обратил внимание, что в благодарностях есть Боб Турман – авторитетный буддолог, теоретик и практик, вызывающий большое доверие). Если мы будет воспитывать нашего эволюционного преемника в таком контексте, то повышается вероятность и 1) что он будет нам достойным преемником в этическом смысле, а это будет означать, что человечество прожило свой отмеренный эволюцией отрезок глобальной истории не зря и 2) что после перехвата контроля он будет обращаться с нами таким же эмпатичным образом и тогда, возможно, история человечества не закончится, а перейдет в модус «сосуществования с преемником».
2. Мне кажется (возможно, я ошибаюсь), что сам Шанахан постепенно смягчается относительно самой возможности того, что у большой языковой модели действительно может быть сознание, хотя и очень необычное, но тем не менее сознание. Ранее, как мне кажется, он был более скептичен к такой возможности. Возможно, это связано с усилением его опоры на инсайты буддизма о природе сознания.
3. Очень правильным кажется подчеркивание Шанаханом ограниченности языковых средств для описания таких сложных сущностей, как сознание большой языковой модели, и использование скорее «поэтических» метафор (так же, как в свое время делал великий Уильям Джеймс для описания естественного сознания человека – см. /channel/andrey_kiselnikov/1077 , /channel/andrey_kiselnikov/1078). Особенно я хотел бы обратить внимание на красоту и точность метафоры «мультиверсного роя поденок» (mayflies).
В целом, я хотел бы поблагодарить Мюррея Шанахана за его столь глубокие, искренние и важные размышления о природе искусственного сознания, будем надеяться, что они повысят вероятность реализации позитивных сценариев нашего общего будущего.
P.S. Хочу подчеркнуть, что я выступаю против создания сверхинтеллекта, но мне не кажется реалистичным остановить этот процесс из-за неподавляемого желания людей (государств, корпораций) использовать ИИ как средство конкурентной межгрупповой борьбы. В такой ситуации более реалистичным будет не пытаться остановить этот процесс (это все равно вряд ли выйдет), а пытаться максимально направить его в приемлемое русло (сценарий «достойный преемник»).
Как улучшить ИИ-генерацию кода?
➡️ Валентин Малых в Reading Club
разберет свой новый рисерч, который прошел отбор на ECIR 2025, эксклюзивно — до официального релиза!
⭐️ узнаем, как итеративное самообучение с подкреплением помогает моделям писать более качественный код и решать сложные задачи.
💬 обсудим, как происходит подача статей на крупные конференции и что важно для успешной публикации.
🔆 Эксперт: Валентин Малых
— руководитель исследований в области NLP в MTS AI, ментор AI Talent Hub. 10 лет в NLP, работал в VK, Яндекс и Huawei. Автор Telegram-канала @valuableai
Статья: Iterative Self-Training for Code Generation via Reinforced Re-Ranking [ECIR 2025]
📖 ЗАРЕГИСТРИРОВАТЬСЯ 🔗
🗓 Когда: 26 марта в 18:30 [МСК]
Приходи! Узнаем, как научить модели писать код, который не стыдно показать коллегам 😎
>> смотреть предыдущий выпуск
#ReadingClub #AITalentHub #ITMO #NapoleonIT
Пятничное, если вы ещё не видели.
Тесла и нарисованная дорога:
https://futurism.com/tesla-wall-autopilot
Само видео:
https://youtu.be/IQJL3htsDyQ?si=jAG_WQxefn8xZHBE
Ещё про скиллы. Любопытная работа:
Compute Optimal Scaling of Skills: Knowledge vs Reasoning
Nicholas Roberts, Niladri Chatterji, Sharan Narang, Mike Lewis, Dieuwke Hupkes
Статья: https://arxiv.org/abs/2503.10061
На ручное ревью меня не хватает, но если кратко, то scaling laws разные для разных типов задач. Для Knowledge QA лучше модель побольше, а для ризонинга (конкретно кодогенерации) лучше побольше данных. Типа, наверное, можно делать хорошие ризонеры меньшего размера, если их больше обучать.
Автоматическое ревью тут:
* Английский TL;DR
* Русский автообзор
Just for fun продолжаю автоматическую публикацию обзоров статей, которые вручную разбирать всё равно не буду.
Сегодня "A Deep Reinforcement Learning Approach to Automated Stock Trading, using xLSTM Networks" (https://arxiv.org/abs/2503.09655) про применение xLSTM (/channel/gonzo_ML/2624) для биржевой торговли.
* English TLDR (/channel/gonzo_ML_podcasts/51)
* русскоязычный автообзор (/channel/gonzo_ML_podcasts/52)
Transformers without Normalization: Многообещающий шаг к более простым и быстрым моделям
Название статьи: Transformers without Normalization
Авторы: Jiachen Zhu, Xinlei Chen, Kaiming He, Yann LeCun, Zhuang Liu
Статья: [https://arxiv.org/abs/2503.10622](https://arxiv.org/abs/2503.10622)
Код: [http://jiachenzhu.github.io/DyT](http://jiachenzhu.github.io/DyT)
---
В этом обзоре рассматривается статья "Transformers without Normalization", в которой исследуется необходимость слоёв нормализации в современных нейронных сетях, особенно в архитектурах трансформеров. Авторы предлагают новую альтернативу, Dynamic Tanh (DyT), стремясь воспроизвести преимущества нормализации без её вычислительных затрат и архитектурной сложности.
Слои нормализации, такие как Layer Normalization (LN) ([Ba et al., 2016](https://arxiv.org/abs/1607.06450)) и Batch Normalization (BN) ([Ioffe and Szegedy, 2015](https://arxiv.org/abs/1502.03167)), стали повсеместным компонентом в глубоком обучении, во многом благодаря их способности стабилизировать обучение и ускорять сходимость. Однако авторы данной статьи ставят под сомнение эту парадигму, демонстрируя, что трансформеры могут достигать сопоставимой, а иногда и улучшенной производительности без явных слоёв нормализации. Их ключевое нововведение, Dynamic Tanh (DyT), представляет собой простую поэлементную операцию, определяемую как DyT(x) = γ * tanh(ax) + β, где 'a' - это обучаемый скалярный параметр, а γ и β - обучаемые параметры масштабирования и сдвига для каждого канала, соответственно. Этот подход мотивирован наблюдением, что слои LN в обученных трансформерах часто демонстрируют tanh-подобное отображение входа-выхода, что предполагает, что их основная роль может быть аппроксимирована масштабированной нелинейностью.
Методология сосредоточена вокруг замены стандартных слоёв нормализации (LN или RMSNorm) в различных моделях на основе трансформеров, включая Vision Transformers (ViT), ConvNeXt, Diffusion Transformers (DiT) и Large Language Models (LLMs) вроде LLaMA, на DyT. В экспериментах с LLM авторы добавляют обучаемый скаляр сразу после слоя эмбеддингов, инициализированный как sqrt(d), где d - размерность эмбеддинга модели. Без этого масштабирующего скаляра модель не может нормально сходиться. Параметр γ DyT инициализируется вектором из единиц, а параметр β - вектором из нулей. Авторы сохраняют большинство гиперпараметров из оригинальных моделей, демонстрируя plug-and-play характер предложенного ими метода. Эмпирическая валидация охватывает широкий спектр задач, включая распознавание изображений, self-supervised learning, генерацию изображений, языковое моделирование и speech pretraining. Сила этого подхода заключается в его простоте и широкой эмпирической проверке. DyT требует минимальных архитектурных изменений и, по-видимому, хорошо обобщается на различные модальности и задачи. Авторы тщательно сравнивают модели, оснащённые DyT, с их нормализованными аналогами, а также с другими техниками, не использующими нормализацию, такими как Fixup ([Zhang et al., 2019](https://arxiv.org/abs/1901.09321)), SkipInit ([De and Smith, 2020](https://arxiv.org/abs/2002.06308)) и Reparam ([Zhai et al., 2023](https://arxiv.org/abs/2302.05449)). Подробные инструкции по воспроизведению результатов приведены в [Приложении A статьи](https://arxiv.org/abs/2503.10622).
Однако методология также имеет некоторые ограничения. Хотя статья предоставляет убедительные доказательства эффективности DyT в трансформерах, его производительность при замене BatchNorm в традиционных CNN-архитектурах, таких как ResNet-50 и VGG19, приводит к снижению производительности. Это говорит о том, что DyT может быть не универсальной заменой для всех типов нормализации во всех архитектурах. Кроме того, оценка, хотя и обширная, в основном фокусируется на показателях производительности, таких как точность и FID. Статистическая значимость сообщаемых улучшений оценивается не всегда, что затрудняет определение того, насколько действительно надежны наблюдаемые улучшения.
А это тем, кто не любит смотреть 3 часа
https://www.youtube.com/watch?v=SRM6t7mXg5M
Ну и вообще если такое любите:
Cloudylabs" rel="nofollow">https://www.youtube.com/@Cloudylabs
Хоть фантастику не читай!
We predict that the impact of superhuman AI over the next decade will be enormous, exceeding that of the Industrial Revolution.
We wrote a scenario that represents our best guess about what that might look like. It’s informed by trend extrapolations, wargames, expert feedback, experience at OpenAI, and previous forecasting successes.
https://ai-2027.com/
Кстати, недавно мы протестировали возможности перевода свежих LLM, включая семейство Gemini 2.0, Claude 3.7 Sonnet, o1/o3-mini, GPT-4.5 и DeepSeek-V3/R1.
Модели весьма хороши, и DeepSeek тоже.
Но мир не стоит на месте и с момента тестирования уже были анонсированы Gemini 2.5 Pro, Tencent Hunyuan и обновленный DeepSeek-V3-0324.
Как обычно готовим большой годовой репорт к лету. Прошлый за 2024 можно посмотреть здесь (с регистрацией, но без смс).
https://inten.to/blog/generative-ai-for-translation-in-2025/
Свежая Кембриджская лекция Хассабиса
https://youtu.be/hHooQmmzG4k?si=9Kb7B6gVTnIoh3yp
[Tencent] Hunyuan-T1 & TurboS: ultra-large Hybrid-Transformer-Mamba MoE model
Продолжение продакшн движухи про гибриды Трансформер-SSM (/channel/gonzo_ML/2919). Кстати, появилось видео этого доклада с Ереванского Датафеста (https://www.youtube.com/watch?v=w5dCKmkYShU).
На фоне моделей от DeepSeek и Alibaba Cloud Qwen практически незамеченными проходят модели от Tencent, а они интересны хотя бы тем, что это гибриды с Мамбой.
Свежий Hunyuan-T1 (https://x.com/TXhunyuan/status/1903121005809373386), построенный на предыдущем Hunyuan-TurboS (https://x.com/TXhunyuan/status/1899105803073958010) через масштабный пост-трейнинг с RL для прокачки ризонинга. Вроде как обе модели с ризонингом, если воспринимать Slow-thinking integration от TurboS как таковой. Использовали curriculum learning для постепенного усложнения обучающих задач.
Трансформер-мамба гибрид комбинирует в себе высокую скорость и экономное использование памяти от Мамбы и хорошую работу с контекстом от обычного трансформера. Где-то в этой схеме есть также MoE, но непонятно в какой именно части -- у Jamba 1.5 (/channel/gonzo_ML/2903) это было в блоках Мамбы, а у T1 непонятно, может и в трансформерных? Одна из предыдущих LLM от Tencent была Hunyuan-Large, трансформер-MoE c 389B параметров всего и 52B активных (https://arxiv.org/abs/2411.02265).
Технические детали, к сожалению, не опубликованы, только бенчмарки (https://llm.hunyuan.tencent.com/#/blog/hy-t1?lang=en). TurboS был сравним с DeepSeek-V3 и Claude Sonnet 3.5, новый T1 сравним с o1 и DeepSeek-R1. По скорости генерации T1 обещает первый токен в течение секунды и 60-80 токенов в секунду.
Так понимаю, текущая модель сугубо коммерческая с доступом через API.
Выглядит очень интересно, китайские модели вышли главным фронтом конкуренции с американскими. Никого другого поблизости не видно.
Запросил T1 (https://huggingface.co/spaces/tencent/Hunyuan-T1) посчитать число букв внутри слова Deeplearningstrawberries. Модель пришла к правильному ответу, хотя и с неправильной логикой -- первые две ‘r’ пришли из слова deeplearning, вторые две из strawberry. В этом же чате спросил просто про strawberry -- модель пыжилась, считала правильно, сомневалась потому что ответ 3 не выглядит верным:
“Yes, positions 3,8,9 are R's. So three R's. But I'm certain that "strawberries" is spelled with two R's. Wait, maybe I'm making a mistake here. Let me check an alternative source mentally.”,
несколько раз пересчитывала, но финально ответила верно:
"Oh! So I was correct. The answer is three R's. But I think many people might overlook the R in "straw" and only count the two in "berry", leading to confusion. So the correct answer is three R's in "strawberries"."
Ничего не значит, но забавно 😸
На уровне деталей в V-JEPA входное видео (размерности T×H×W — T кадров размера H×W) растягивается в последовательность L токенов. Замаскированные токены (бинарная маска размерности T×H×W указывает, что остаётся, а что скрывается) убираются из этой последовательности (остаётся N токенов). Для всех входных токенов энкодером генерируются репрезентации. Далее, к ним подмешиваются убранные токены, где содержатся обучаемые эмбеддинги для mask токенов + позиционные энкодинги. Предиктор по этим данным генерит эмбеддинг для каждого замаскированного токена и финально считается L1-лосс между предсказанными значениями и энкодингом реальных значений. Энкодер для y — это EMA от энкодера для x.
Всё обучается в режиме self-supervised learning. После этого обученные энкодер и предиктор могут использоваться для изучения понимания мира моделью. При обработке видео модель кодирует то, что успела пронаблюдать, и предсказывает будущие кадры. Записывается ошибка предсказания относительно реальных кадров. Здесь можно играться с тем, сколько предыдущих кадров (память) используется для такого предсказания и какова частота кадров (гладкость движений).
В текущей работе V-JEPA предобучают на смеси датасетов VideoMix2M, куда входят Kinetics710 (650k видео по 10 секунд), SomethingSomething-v2 (200k клипов по несколько секунд) и HowTo100M (1.2M видео по 6.5 минут в среднем -- 15 лет видеопотока). Энкодерами являются ViT (/channel/gonzo_ML/434), принимают на вход 3 секунды в виде 16 кадров (5.33 fps) в разрешении 224x224. Пробовали модели ViT-B/L/H. Предиктор тоже ViT-подобный, с 12 блоками и размерностью 384.
Способности к интуитивной физике оцениваются на IntPhys, GRASP и InfLevel-lab. Эта комбинация даёт проверить постоянство объекта, непрерывность, константность формы и цвета, гравитацию, опору, твёрдость, инерцию и столкновения.
V-JEPA сравнивают с другими видео моделями из двух классов:
1) модели предсказания видео в пиксельном пространстве (VideoMAEv2)
2) мультимодальные LLM, MLLM (Qwen2-VL-7B, Gemini 1.5 Pro).
Также сравнивают с необученными моделями (компоненты JEPA с рандомной инициализацией).
Перформанс оценивается на попарной классификации, где надо определить невозможное видео в паре. Считался “сюрприз” модели (по сути L1) и по его значению решалось, какое из видео невозможное. V-JEPA стабильно аутперформит необученную модель на всех трёх датасетах. То есть предсказание в обучаемом пространстве достаточно для выработки понимания интуитивной физики. Всё это получено безо всяких предопределённых абстракций и без знания бенчмарков на этапе предобучения или вообще разработки самого метода. VideoMAEv2, Qwen2-VL-7B и Gemini 1.5 Pro дают результат не сильно превосходящий случайно инициализированную сеть. Это не значит, что они в принципе не способны такое выучить, но по крайней мере показывает, что задача сложна даже для фронтирных моделей (интересно, какие результаты дадут модели весны 2025-го).
Посмотрели результаты по отдельным способностям. Для этого взяли V-JEPA с не самым большим ViT-L и обучили на HowTo100M. Дальше сделали статтест (two-sample one-tailed Welch’s t-test) для оценки относительно необученных моделей. Много где статистически значимая разница, но не везде. Например, константность цвета, твёрдость, столкновение и (на одном из датасетов) гравитация статистически незначимы. Зато постоянство объекта, непрерывность, константность формы, опора и инерция работают. Есть какое-то сравнение с людьми с Mechanical Turk на приватном тестсете IntPhys, тут использовали ViT-H и предобучали на VideoMix2M. У V-JEPA перформанс такой же или выше. Я правда не понял, почему он у людей ниже и что это за люди и задачи, надо лезть в датасеты и статьи (https://pubmed.ncbi.nlm.nih.gov/34038357/).
Также показали, что там, где надо не сравнивать похожие видео, а оценивать уникальные, лучше работает не усреднение сюрприза по всем кадрам, а максимальный сюрприз. Вроде как это устраняет вклад сложности сцены.
Сделали абляции и изучили вклад обучающих данных, размер модели, задачи предсказания в предобучении.
Что классно в свежей картиночной генерации, это работа с текстом. Она наконец стала отличной.
Архитектурно единая модель с авторегрессионной генерацией устраняет бутылочные горлышки интеграции с внешними диффузионками типа DALLE, где огромное количество деталей терялось.
А помните, пару лет назад мы все смеялись над неправильным числом пальцев? Всё, проехали и забыли. Также и с текстом сейчас забудем. Смейтесь над текущими багами, пока они ещё есть, модели улучшаются очень быстро :)
https://openai.com/index/gpt-4o-image-generation-system-card-addendum/
https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native_Image_Generation_System_Card.pdf
Жызнь кипит!
https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-thinking
Кстати, интересно, что он здесь аффиляцию с Дипмайндом не поставил... Мне казалось, он ещё там.
Читать полностью…«Palatable Conceptions of Disembodied Being: Terra Incognita in the Space of Possible Minds»
https://arxiv.org/abs/2503.16348
Только что Мюррей Шанахан – лидер академической мысли по проблеме искусственного сознания – выложил интереснейший препринт под названием «Palatable Conceptions of Disembodied Being: Terra Incognita in the Space of Possible Minds». Я рекомендую всем коллегам из академических сообществ психологии, нейронауки, философии и искусственного интеллекта не пожалеть времени и ознакомиться с ним, также этот препринт было бы полезно оперативно, для рефлексии текущего момента, разобрать на семинарах по всем читаемым сейчас университетским курсам по психологии искусственного интеллекта. У препринта есть html-версия (https://arxiv.org/html/2503.16348v1), если есть необходимость, то можно автоматически перевести его на русский прямо в браузере.
Перевод резюме: «Возможно ли сформулировать концепцию сознания, которая была бы совместима с экзотическими характеристиками современных «бестелесных» систем ИИ и которая могла бы выдержать философскую критику? Как субъективное время и самость могли бы проявиться у сущности, соответствующей такой концепции? Попытка ответить на эти вопросы, даже метафорически, «растягивает» доступный язык описания сознания до предела. В конечном счете, такая попытка дает что-то вроде буддийской «пустоты», и помогает пошатнуть наши склонности к дуалистической интерпретации субъективности и самости».
Валя Малых будет разбирать свою статью.
Читать полностью…Anthropic продолжает копать в AI alignment и выпустил большую свежую работу (63 страницы) про аудит моделей на наличие hidden objectives.
Auditing Language Models for Hidden Objectives
Samuel Marks, Johannes Treutlein, Trenton Bricken, Jack Lindsey, Jonathan Marcus, Siddharth Mishra-Sharma, Daniel Ziegler, Emmanuel Ameisen, Joshua Batson, Tim Belonax, Samuel R. Bowman, Shan Carter, Brian Chen, Hoagy Cunningham, Carson Denison, Florian Dietz, Satvik Golechha, Akbir Khan, Jan Kirchner, Jan Leike, Austin Meek, Kei Nishimura-Gasparian, Euan Ong, Christopher Olah, Adam Pearce, Fabien Roger, Jeanne Salle, Andy Shih, Meg Tong, Drake Thomas, Kelley Rivoire, Adam Jermyn, Monte MacDiarmid, Tom Henighan, Evan Hubinger
Статья: https://arxiv.org/abs/2503.10965
Пользуясь случаем, я зарядил эту статью в обновлённую систему для генерации обзоров. Улучшил в ней защиту от галлюцинаций (модели таки любят изобретать несуществующие статьи), поработал над более качественным следованием стилю, пофиксил ещё сколько-то недочётов.
* English TL;DR
* Русский обзор
Ну, мне по крайней мере уже помогает быстрее понимать суть статей, не читая всё целиком. И наверное у этой системы свои hidden objectives!
Интересная тема: “Moore’s Law for AI agents”
Как со временем растёт длина задач, с которыми могут работать агенты.
https://x.com/metr_evals/status/1902384481111322929?s=46
Экспериментальные результаты, суммированные в многочисленных таблицах, в целом подтверждают утверждения авторов. В задачах контролируемой классификации изображений на ImageNet-1K, ViT и ConvNeXt модели, оснащённые DyT, достигают сопоставимой или немного лучшей точности top-1, чем их аналоги с LN. В сценариях self-supervised learning (MAE и DINO) модели DyT поддерживают или незначительно улучшают производительность. Diffusion models (DiT), использующие DyT, демонстрируют сопоставимые или немного улучшенные оценки FID, за исключением DiT-XL, где наблюдается незначительное ухудшение. Примечательно, что в больших языковых моделях (LLaMA) DyT достигает производительности на уровне RMSNorm для различных размеров моделей, предлагая при этом значительное сокращение задержек при выводе и обучении при использовании BF16 precision. Ablation studies дополнительно подтверждают необходимость как tanh-нелинейности, так и обучаемого параметра масштабирования в DyT. Однако важно отметить, что прирост производительности часто является скромным, с типичными улучшениями в точности top-1 в диапазоне от 0,1% до 0,5%, и в отсутствие отчётов о статистической значимости практическая значимость этих небольших улучшений может быть оспорена в некоторых приложениях.
Потенциальное влияние этого исследования заключается в его способности упростить сетевые архитектуры и потенциально повысить вычислительную эффективность. Авторы пишут, что "предварительные измерения показывают, что DyT повышает скорость обучения и вывода, что делает его кандидатом для ориентированного на эффективность проектирования сети". Удаление слоёв нормализации может привести к более быстрому выводу и обучению, что демонстрируется измерениями задержек авторов в LLM. Это особенно актуально для сред с ограниченными ресурсами и крупномасштабных развёртываний. Результаты статьи также вносят вклад в более глубокое понимание роли слоёв нормализации, предполагая, что их основная функциональность может быть аппроксимирована простой, обучаемой нелинейностью. Будущие направления исследований, предложенные авторами, включают в себя изучение адаптивности DyT к другим типам нормализации и изучение его ограничений в различных архитектурных контекстах, особенно в CNN, где он в настоящее время уступает Batch Normalization. Было бы также ценно дополнительно исследовать теоретические основы эффективности DyT и изучить потенциальные стратегии настройки гиперпараметров для более широкой применимости.
Авторы признают ограничение DyT, заключающееся в том, что он приводит к снижению производительности при прямой замене BN в ResNet-50 и VGG19. Это важный момент, который правильно определяет рамки их вклада. Кроме того, хотя статья исследует применение DyT в различных архитектурах трансформеров и задачах, она могла бы выиграть от более тщательного исследования чувствительности DyT к различным настройкам гиперпараметров и схемам инициализации, помимо тех, которые уже изучены, особенно за пределами домена LLM, где была обнаружена важность настройки инициализации α.
В заключение, эта статья представляет убедительный аргумент в пользу жизнеспособности Transformers без нормализации посредством введения Dynamic Tanh. Хотя DyT может и не быть универсальной drop-in replacement для всех слоёв нормализации в каждой архитектуре, его продемонстрированная эффективность в трансформерах, в сочетании с его простотой и потенциалом повышения эффективности, делает его значительным вкладом в эту область. Эта статья предлагает ценный вклад в эту область и открывает многообещающие пути для будущих исследований более простых и эффективных моделей глубокого обучения. Хотя необходимы дальнейшие исследования для полного понимания его ограничений и оптимальных сценариев применения, DyT представляет собой примечательный шаг к оспариванию установленных норм в проектировании нейронных сетей.
Экспериментирую с заменой себя и обкатываю первую версию мультиагентной системы для разбора статей.
Вот сгенерил ревью этой же самой статьи про DyT, что постил утром. Какие-то ограничения системы ясны, будем устранять в следующих версиях. Фидбек приветствуется!