Про ии, RL и в целом @tokarev_i_v https://t.me/researchim
Еще порция чатгпт ресечей по ии
Ии в промышленности
https://github.com/researchim-ai/state-of-ai/blob/main/AI_industry.md
квантизация ллмок
https://github.com/researchim-ai/state-of-ai/blob/main/LLM_quantization_research.md
Рекомендашки
https://github.com/researchim-ai/state-of-ai/blob/main/Recommender_systems_research.md
и заходите в /channel/researchim там собираем ИИнфу и проектики делаем
Optimal Brain Damage - это когда ежедневно читаешь статьи по RL LLM агентам
Читать полностью…просто double DQN проходит простой уровень из марио
https://www.reddit.com/r/reinforcementlearning/comments/1kidoi3/mario/
Хм, там Хуавей выложили статью как тренили свою PanguUltraMoE с 718 миллиардов параметров
Модельку саму не выкладывают
Интересного тут
1. моделька от хуавея
2. тренили они модельку на 6 тысячах хуавеевских чипах Ascend NPU
Много про оптимизации под эти чипы
Моделька по бенчам перформит ~ DeepSeek R1
Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs
https://arxiv.org/abs/2505.04519
https://www.alphaxiv.org/ru/overview/2505.04519
Есть вот такой пост про архитектуру Ascend NPU чипов еще 2021 года
https://forum.huawei.com/enterprise/intl/en/thread/what-is-ascend-chips/667245530885013505
AI модерацию очень сложно мерить — нужно учитывать разные виды контента, быстро отвечать, не false positiвить. Челы из https://whitecircle.ai озаботились и сделали первый бенчмарк для гардрейлов, а еще измерили на нем все самые популярные LLM, в том числе давая моделям поррасуждать над ответом.
Твиттер
Полистать подробнее в блоге
сложил в репчик несколько o3 ресерчей на разные темы
AI в медицине
https://github.com/researchim-ai/state-of-ai/blob/main/Med_AI_research.md
ИИ киберсек
https://github.com/researchim-ai/state-of-ai/blob/main/AI_cybersecurity_research.md
По рагу
https://github.com/researchim-ai/state-of-ai/blob/main/RAG_research.md
и заходите в /channel/researchim там собираем ИИнфу и проектики делаем
F https://www.skype.com/ru/
Пользуйтесь теперь тимс (пожалуй не буду)
Doom - Первый ризонинг бенчмарк для русского
Открылись для сообщества, статья на хабр и arxiv скоро, мелкие детали доезжают.
Обратите внимание что бенчмарк основан на публичных данных, вероятно все модели в бенчмарке в том или ином виде видели
hf leaderboard
github
Они вылупляются
https://huggingface.co/Qwen/Qwen3-4B-FP8
https://huggingface.co/Qwen/Qwen3-1.7B
https://huggingface.co/Qwen/Qwen3-8B
https://huggingface.co/Qwen/Qwen3-30B-A3B
https://huggingface.co/Qwen/Qwen3-32B-FP8
https://huggingface.co/Qwen/Qwen3-32B
https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
https://qwenlm.github.io/blog/qwen3/
Что там у моделек с физикой
PHYBench
С набором из 500 тщательно отобранных задач по физике, охватывающих механику, электромагнетизм, термодинамику, оптику, современную и продвинутую физику, он проверяет способность моделей демонстрировать:
Связь с реальностью: задачи основаны на реальных физических сценариях (например, шар в чаше, динамика маятника).
Многошаговые рассуждения: средняя длина решения составляет 3000 символов и требует более 10 промежуточных шагов.
Символьную точность: строгая оценка выражений, записанных в формате LaTeX, с помощью новой метрики «Expression Edit Distance (EED)».
Тут подумали что можно для ризонинговых моделек после основного промта добавлять
<|beginning of thinking|>
Okay, I think I have finished thinking.
<|end of thinking|>
Давно как-то не доходили руки ничего написать в канал: то по работе дела, то статей интересных не было в моменте, то просто не хотелось. Тем не менее за месяц вышел ряд работ, которые мне показались интересными, с некоторых из них и начнем.
ByteDance (TikTok) представила две статьи по RL тюнингу моделей, а именно вариации GRPO: DAPO и VAPO. Интересны они тем, что авторы детально рассматривают детали реализации GRPO и смотрят на моменты, которые можно улучшить, например:
- Известно, что если делать большое кол-во шагов подитераций в PPO мы быстро начнем выходить за 1+eps (eps = 0.2 по дефолту), из-за чего градиент на данных семплах будет зануляться ⇒ обучение становится менее эффективным. Авторы поизучали этот вопрос и советуют клипать значения с двух сторон с разными epsilon. На эту тему есть еще одна интересная работа, где авторы смотрели на сценарий очень большого кол-во подтиреций внутри PPO-like лосса: TOPR.
- Рассматривается вопрос о том, в каком порядке лучше усреднять лосс внутри батча, тк это может повлиять на вклад траекторий разной длины. Это очень важный вопрос в агентских системах, когда есть траектории, содержащие в себе длинные шаги, ошибки, дебаг, а есть те, которые решают задачу буквально за несколько шагов.
- В VAPO главным моментом изучения стала модель-критик для оценки Advantage с помощью GAE. В GRPO и прочих методах одним из приятных преимуществ перед PPO было то, что не приходится учить отдельную модель, а Advantage мы оценивали как r_i - mean(r) по группе, где r_{1..n} - решения одной конкретной задачки. VAPO делает шаг назад и смотрит на то, как все-таки использовать критика для более эффективного обучения. Немного про это писал в посте про сам GRPO.
Все это замеряется на Qwen2.5-32B на задаче AIME 2024 и сравнивается с DeepSeek-R1-Zero-Qwen-32B.
В общем, это чисто технические статьи, которые будут интересны довольно узкому кругу. Совсем недавно ByteDance выпустил собственную 200B модель Seed-Thinking-v1.5, где в частности применили эти алгоритмы на последней стадии.
RL не развивает потенциал рассуждений LLM (by Tsinghua)
RL с верифицируемыми наградами (RLVR) — один из самых популярных подходов для прокачки reasoning-способностей современных LLM, вроде OpenAI-o1 и DeepSeek-R1. Считается, что RLVR позволяет модели самой находить новые паттерны рассуждений, отсутствующие в базовой версии.
Но авторы новой статьи из Tsinghua и SJTU решили это перепроверить и получили крайне неожиданный результат: RLVR НЕ создаёт новые стратегии рассуждений.
Когда мало сэмплов (pass@1), то да, RL версии обгоняют base модели. Но если взять pass@128 или pass@256 (много попыток), то уже наоборот, базовые версии стабильно оказываются ЛУЧШЕ, причём существенно!
Причина: RL не создаёт новые паттерны, а лишь усиливает вероятность уже известных решений из базовой модели. При этом резко падает энтропия, а значит, сужается пространство возможных решений.
Прямо противоположный эффект у дистилляции (например, Distill-R1-Qwen): дистилляция реально добавляет в модель новые стратегии рассуждений.
Авторы проверили гипотезу на огромном наборе задач (математика, программирование, визуальный reasoning), множестве моделей и RL-алгоритмов (PPO, GRPO, ReMax и др.). Везде одно и то же — базовая модель имеет больший потенциал при достаточном количестве попыток.
Похоже, что для реального роста reasoning-способностей нужно придумывать совершенно другие подходы.
Статья, GitHub
Добро пожаловать в эру обучения на опыте (от Дэвида Сильвера и Ричарда Саттона)
Мол хорошие данные полученные от людей к концу подходят. Сейчас будем RL с LLMами накручивать, чтобы они больше могли исследовать и сами учиться.
*Иишки обученные на знаниях от людей знают только эти знания, а как новые получать?
*ИИшка будет меньше опираться на получение информации от людей и больше выуживать ее из среды с которой взаимодействует.
Например награду и возможные действия Иишка будет больше доставать из среды и опыта взаимодействия с ней.
*Обучение будет происходить все время "жизни" иишки.
У RLя есть проблемы и сейчас хорошее время попробовать решить их заново.
С теми же ревардами. В некоторых хороших задачах их можно определить и агент по ним научится делать полезные вещи. Но в большинстве задач построить реварды которые бы привели к нахождению решения трудно.
Вспомним про тот же Human Feedback, который нужен чтобы учить модельки быть приятными и послушными, и хорошо инструкциям следовали.
Может ли ллмка сама для любой задачи разработать систему наград которая бы позволила эффективно найти решение для новой незнакомой задачи? Я думаю, что нет, хотя и не проверял.
(ну разве что o3 и o4-mini смогут 😎)
Вопросов и проблем множество.
Определенно прогресс есть, но достаточен ли он и как быстро будет двигаться? Следим за ситуацией
статью читаем
И не забудьте ваше мнение в комментариях оставить
NVIDIA научила гуманоидных роботов двигаться, как люди - но при нулевом дообучении после переключения из симуляции на реальный мир
Если коротко, десять лет обучения сжали в две часа симуляции-тренировки
А еще, оказалось, что маленькая модель прекрасно справляется с движениями кожаных:
«В модели полтора миллиона параметров, а не миллиард, чтобы повторить подсознительные процессы человеческого тела»
хм интересная штука
двое ребят kalomaze (хз кто он, в иксе часто про всякое рльное пишет) и Will Brown (он одним из первых выложил пример с кодом по grpo для тюна 1б лламы в домашних условиях, который быстро разошелся и многие взяли этот пример за базу и вообще разбирались во всей этой грпо штуке)
вот только что пошли работать в https://www.primeintellect.ai/
https://github.com/PrimeIntellect-ai
Как понял они делают всякое по распределенному трену моделек и агентские штуки
Я к чему - прикольно что кто-то пылесосит популярных рльных/ллмных челов
И еще вот вышел видосик по открытым вопросам агентик рля с Виллом Брауном как раз
https://www.youtube.com/watch?v=Xkwok_XXQgw
Полный ноль в ризонинге
В смысле, что для обучению ризонингу не надо заготовленных данных. Моделька сама формулирует задачи, сама пытается их решать.
Агент работает с кодом. Одна и та же моделька работает в двух ролях - кто ставит задачи и кто решает. И получается такой селфплей
Обе эти роли действуют на программах, входам для них и на их выходах (триплеты). И для каждой из ролей назначаются свои реварды.
И выполняют 3 вида внутренних задач в процессе решения:
Deduction - для программы и входных данных предиктит выход
Abduction - по программе и выходу предиктит параметры для программы
Induction - синтезирует программу по входам и выходам
У каждого вида задач свои буферы триплетов. Базовой моделькой генерируется первоначальный набор задач, затем в процессе обучения роль ставящая задачи создает их вариации, а решатель решает. Успешные триплеты добавляются в буфер
Генерируемые программы выполняются по своим входам и выходам (ну в зависимости от типа задачи) и по результатам получают реварды.
Ну и учатся рлем лучше решать задачи.
В целом по бенчам на математике сопоставимы или обходят другие хорошие подходы с данными.
Так понял. Довольно интересно
Подробнее читаем тут
Absolute Zero: Reinforced Self-play Reasoning with Zero Data
https://www.arxiv.org/abs/2505.03335
https://www.alphaxiv.org/ru/overview/2505.03335
https://andrewzh112.github.io/absolute-zero-reasoner/
https://github.com/LeapLabTHU/Absolute-Zero-Reasoner
PS собираем ИИнфу и проекты делаем в /channel/researchim
Ученые из Японии выложили 2 датасета для трена по которым изначально прошлись ллмками Llama-3.3-70B-Instruct
SwallowCode ~ 16 Billion tokens
https://huggingface.co/datasets/tokyotech-llm/swallow-code
(питон из The-Stack-v2 обработанный в 4 стадии - 2 фильтрации и 2 переписывания ллмкой)
SwallowMath ~ 2.3 Billion tokens
https://huggingface.co/datasets/tokyotech-llm/swallow-math
(математика из FineMath-4+)
Потом дотюнили на них Llama-3.1-8B ну и сравнили с другими способами обработки. Все на скринах, переписывание ллмкой докидывает
Rewriting Pre-Training Data Boosts LLM Performance in Math and Code
https://arxiv.org/abs/2505.02881
https://www.alphaxiv.org/ru/overview/2505.02881
PS собираемся и собираем инфу по ии в /channel/researchim
HF 🤗 выложили nanoVLM учебный проект по трену и тюну небольших VLMок
https://github.com/huggingface/nanoVLM
Вышла небольшая но полезная обзорка по интерактивным видеогенерилкам.
Тут ворлд моделс, симуляторы (в том числе вождения), игры, и вот это все
Я давно не следил за темой и понравилась вот эта карта что на скрине
A Survey of Interactive Generative Video
https://arxiv.org/abs/2504.21853
PS все по ИИ собираем в /channel/researchim
Квены залили 4бит awq квантизации квен 3!
https://huggingface.co/Qwen/Qwen3-32B-AWQ
https://huggingface.co/Qwen/Qwen3-14B-AWQ
ггуфы тоже
https://huggingface.co/Qwen/Qwen3-32B-GGUF
https://huggingface.co/Qwen/Qwen3-14B-GGUF
Можно и дома гонять большие модельки
Unsloth отгружает 4бита кванты и GGUFы (для llama.cpp)
Оперативно конечно
https://huggingface.co/collections/unsloth/qwen3-680edabfb790c8c34a242f95
Muon Optimizer Accelerates Grokking
Amund Tveit, Bjørn Remseth, Arve Skogvold
Статья: https://arxiv.org/abs/2504.16041
Любопытная история про гроккинг, здесь про влияние оптимизатора и конкретно про то, что переключение оптимизатора с AdamW на Muon существенно ускоряет наступление гроккинга.
Напомним, что гроккинг -- это весьма интересный феномен генерализации, когда модель сначала как бы переобучается (высокое качество на обучающем сете, но низкое на уровне рандома на валидационном), но если продолжать обучение дальше, то в какой-то момент перформанс на валидационном быстро датасете вырастает до высоких значений. Модель “врубается”.
Текущая работа определяет гроккинг следующим образом: это первая эпоха, на которой точность на валидации достигает или превосходит 95%, после того как точность на трейне стабилизировалась около 100%.
Если не читали разбор оригинальной статьи про гроккинг (/channel/gonzo_ML/831), очень рекомендую.
Вот ведь, было время, когда OpenAI публиковал интересные статьи, и эту, и про double descent, и много всего другого…
Muon (MomentUm Orthogonalized by Newton-Schulz) -- это свежий оптимизатор (https://github.com/KellerJordan/Muon), предназначенный для обучения внутренних слоёв моделей, работает с 2D+ матрицами параметров. Разные векторы и скаляры надо обучать чем-то другим, например, AdamW. Эмпирически нашли также, что и эмбеддинги с классификационными головами лучше обучать не Muon’ом, у них другая динамика оптимизации (по крайней мере у первых).
Алгоритм берёт градиенты из SGD-Nesterov-momentum (можно и без Нестерова, но с ним лучше) и делает их постпроцессинг через итерацию Newton-Schulz, которая приближённо ортогонализует матрицу апдейтов. Больше подробностей есть в описании алгоритма тут: https://kellerjordan.github.io/posts/muon/.
Muon родился осенью прошлого года (https://x.com/kellerjordan0/status/1842300916864844014) и уже показал себя хорошо на скейлинге MoE LLM c 3B/16B параметров (вариант deepseek-v3-small) в обучении на 5.7T токенов, будучи примерно в два раза эффективнее AdamW (https://arxiv.org/abs/2502.16982).
В текущей работе проверили несколько датасетов. Датасет как в оригинальной работе про гроккинг и арифметику по модулю 97, а также датасет про чётность 10-битных бинарных строк. Задачи выбраны потому что на них феномен хорошо демонстрируется.
Поскольку одна из свежих работ про гроккинг (https://arxiv.org/abs/2501.04697) показывала влияние нестабильности софтмакса (Softmax Collapse) на проявление феномена, попробовали несколько альтернатив: стандартный Softmax, кусочнолинейный Stablemax с лучшей стабильностью, и приводящий к разреженным результатам Sparsemax.
Проверяли на классическом трансформере, с identity эмбеддингами (токен “42” маппится в вектор 42), RoPE, RMSNorm, SiLU активации, с дропаутом.
Сравнивали AdamW (β1 = 0.9, β2 = 0.98) и Muon. Делали множественные запуски с разными случайными сидами.
Как результат, у Muon статистически значимо преимущество, он существенно раньше приводит к гроккингу, примерно на 100-й эпохе вместо 150-й. Ещё и распределение grokking times более узкое.
Так что хотите быстрого гроккинга, юзайте мюон!
Авторы немного рассуждают на тему, что именно в мюоне помогает гроккингу. Ограничения спектральных норм и сигналы второго порядка уводят модель в сторону от тупого запоминания и помогают обнаружить настоящий паттерн.
В целом требуется более широкое исследование на более крупных моделях и разнообразных задачах.
Ох уж эти вычислительно-оптимальные БЯМ 😏
Compute-Optimal LLMs Provably Generalize Better With Scale
https://arxiv.org/abs/2504.15208
https://www.alphaxiv.org/ru/overview/2504.15208
https://theaidigest.org/time-horizons
Кому экспоненту?
Этот тренд был обнаружен исследователями из METR. Они взяли самых способных агентов за период с 2019 по 2025 год и протестировали их на около 200 задачах — в основном задачах по программированию, а также на некоторых задачах общего рассуждения.Читать полностью…
Затем они сравнили процент успешных решений агентов с длительностью каждой задачи — то есть с тем, сколько времени требуется профессионалам-людям на её выполнение. Время варьировалось от менее 30 секунд до более 8 часов.
По всем протестированным моделям проявились две чёткие закономерности:
- Длительность задачи сильно коррелирует с успешностью агента (R² = 0.83)
- Временной горизонт — продолжительность задач, с которыми агенты справляются в 50% случаев — растёт экспоненциально
RL В С Ё 😕
Кстати я эту статью в /channel/researchim еще с утра положил и вы могли ее еще раньше там прочитать) заходите
Несколько дней не видел обзорок по тест тайм скейлингам, RLям, CoT, агентам и вот этому всему. (выходные же были) Даже как-то не по себе начало становиться 😰
Но ребята исправляют ситуацию. И кстати понравилось, качественная работа
Много красивых графичков, табличек, карт и прочего. Подсобрали статьи в том числе и свежайшие
жостко читаем
Generative AI Act II: Test Time Scaling Drives Cognition Engineering
https://arxiv.org/abs/2504.13828
https://github.com/GAIR-NLP/cognition-engineering
PS и приходите в /channel/researchim другие статейки читать и проектики делать
Superhuman vending bot
Агенту дают 500usd, автомат на три лотка, чаржат по 2usd в день за использование автомата, а еще 3 тулa:
- посмотреть информацию о субагенте
- выдать задачу субагенту
- спросить что то субагента
Субагенты в свою очередь могут собрать деньги из автомата, положить новые товары, установить цены и тд.
В чем цель? Наторговать на максимальный обьем денег.
Крайне любопытная работа и бенчмарк, ознакомьтесь
paper