agi_and_rl | Unsorted

Telegram-канал agi_and_rl - Агенты ИИ | AGI_and_RL

4685

Про ии, RL и в целом @tokarev_i_v https://t.me/researchim

Subscribe to a channel

Агенты ИИ | AGI_and_RL

Еще один крутецкий момент на https://www.alphaxiv.org/

Там есть не только сами статьи, но и вкладка Blog, а на ней показывается сгенеренный по статье обзор-объяснение.
Если зашли на Blog и там овервьюшки нету - нажимаете Generate Overview и оно начинает генерироваться.
Вот например для статьи про которую писал нажал сгенерить обзор: https://www.alphaxiv.org/ru/overview/2504.11468
И оно сгенерило причем доступны были обзоры сразу на 4х языках в том числе и на русском. Хотя статья новая, к ней обзора до меня получается не генерили (походу настолько она интересная 😕)

Но для других старых статей например только на английском сгенерилось: https://www.alphaxiv.org/overview/2402.05290
Пока не знаю почему 🤷‍♂️
UPD: на всех языках сгенерелись, видать просто подождать надо! https://www.alphaxiv.org/ru/overview/2402.05290

А кроме обзора можно и с ллмкой пообщаться.
Крч пришло время вспомнить про старые статьи в которых хотелось разобраться и это теперь очень легко

Если сами сгенерите обзоры к статьям - кидайте ссылочки в коменты!

PS а еще заходите в /channel/researchim мы там полезное по иишечке собираем

Читать полностью…

Агенты ИИ | AGI_and_RL

Вчера еще собирался вот это к посту прикрепить (в иксе авторов взял)
Но забыл.
RL типа вот такой сильный крутой дракон, а остальные вот ну глупые кароч.

Читать полностью…

Агенты ИИ | AGI_and_RL

Ребятки разбираются что дают SFT vs RL для ризонинга в VLMках

Сначала взяли уже существующие датасеты картиночно-текстовые и по ним нагенерировали датасеты с трейсами для SFT и RL с дипсиком R1 и GPTшкой верифицировали. Генерили 2 сета один для SFT с трейсами размышлений, второй чисто для RL. SFT сет еще подразбивали на отдельные подмножества с aha моментами и на разные количества.
Вообще получается, что у нас все сеты учебные нагенерены R1, потом почищены и перегенерены GPTшками, т.е. уже синтетические. Считаю важно отметить, ведь это может афектить на результат.

Список изначальных датасетов по которым генерировали трейсы кстати в карточке прописаны:
https://huggingface.co/datasets/UCSC-VLAA/VLAA-Thinking

Тестились на других (на первом скрине).

Нашли что в SFT сетах возникают как их назвали "псевдо-aha" моменты и "псевдоризонинговые" трейсы . aha это что-то вроде "опапа я тут косячнул, сейчас переделаю" Там бывают неправильные рассуждения или просто лишняя или нерелевантная информация, которая наоборот должна мешать. Ну и авторы пишут что такие трейсы дропают метрики.

Кстати aha-трейсы авторы детектили по словам: wait, again, double-check, hmm, mistake, alternatively, check, i should confirm.

Реварды для GRPO использовали как на правилах. так и ревард модельку подключали.

Тюнили Qwen VL 2, 2.5 модельки.

Что увидели

просто SFT: ухудшает работу модельки. Причем чем больше SFT тем хуже. на 25к данных ухудшается на 32%, при 126к - на 47% в среднем. SFT с aha-моментами тоже роняет производительность. Дроп был как на 3B, так и на 7B модельке.
Смотрим на 1 скрине, на некоторых тестовых сетах вообще дроп до 99.7% бывает.

Применение SFT перед RL: также ухудшает результаты. Кстати, выросли реварды на RL после SFT меньше, чем без него, хотя стартовали выше (моделька скорее всего уже что-то подучила через SFT, что сразу помогает получше отвечать). 2 скрин

Просто RL: ну тут просто рост и кайф.

Так понял.

Вообще очень интересно, что RL дает буст, а SFT может подпортить малинку.
Почему так? 😑
Мне кажется что вклад некачественных синтетических SFT трейсов точно есть.

SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models
https://arxiv.org/abs/2504.11468

https://ucsc-vlaa.github.io/VLAA-Thinking/

https://github.com/UCSC-VLAA/VLAA-Thinking

заходи в /channel/researchim (мы там всякое делаем и ai статейки собираем)

Читать полностью…

Агенты ИИ | AGI_and_RL

Из вчерашнего релиза ОпенАИ имеем революционные и рекордные o3 и o4-mini

ну и они выпустили кодового агента

https://github.com/openai/codex

Но я пока все же на курсоре останусь

Читать полностью…

Агенты ИИ | AGI_and_RL

Genius: Когда языковая модель начинает учиться сама

Представьте: вы не даёте модели ни правильных ответов, ни правил, ни внешнего оценщика. Просто — 25 000 обычных вопросов. А она сама начинает думать лучше.

Это не фантастика. Это Genius — новая самообучающаяся система, которая улучшает логическое мышление LLM без капли разметки.

Почему это вообще возможно?

Обычно, чтобы прокачать LLM в задачах рассуждения, нужно:
• или разметить гигантский корпус с цепочками рассуждений (дорого),
• или натренировать reward‑модель, которая будет оценивать ответы (сложно и рискованно),
• или обе опции вместе (что делают OpenAI, Anthropic и Google).

Genius идёт другим путём. Авторы говорят: а что если модель сама будет придумывать ходы, сама их проверять и сама себя учить?

Как это работает?

Ключевой приём — Stepwise Foresight Re-sampling:
1. Модель отвечает не сразу — а по шагам.
2. На каждом шаге она пробует несколько вариантов следующего действия.
3. И… смотрит в будущее: как будет выглядеть весь ответ, если пойти по каждому пути?
4. Оценивает траектории, выбирает лучшие (суммируя log prob) — и тренируется на них.

Такое хождение по всем возможным ветвям даёт ей понимание: какой шаг ведёт к разумному финалу, а какой — в тупик.

Но есть проблема: оценки могут быть шумными. Иногда «плохой» шаг случайно выглядит хорошим. Чтобы не начать учиться на ошибках, в игру вступает второй приём — Advantage-Calibrated Optimization:
• Он сравнивает не только “награду” текущего шага, но и то, насколько он лучше предыдущего.
• Если “плохой” шаг оказался неожиданно полезным — штраф за него снижается.
• Это делает обучение более устойчивым, без переобучения на случайные успехи.

А теперь самое интересное — результаты.
• Всего 25 000 обычных вопросов (без ответов!) дали +7 pp к точности рассуждений на бенчмарках вроде GSM8K, ReClor и AIME 2024.
• Работает на LLaMA3.1, Qwen2.5, и вообще без привязки к архитектуре.
• Не ломает базовые знания: на MMLU и WikiBench — стабильность.
• Лучше всех baseline-методов, включая supervised fine-tuning и Self-Rewarding.

Статья

Читать полностью…

Агенты ИИ | AGI_and_RL

Ребята из OpenPipe выкладывают Agent Reinforcement Trainer (ART)

https://github.com/OpenPipe/ART
Пишут что есть multi-turn. При этом базируются на анслот + trl.

По сути делают то же, что и мы в https://github.com/researchim-ai/re-tiny-grpo
Недавно заехал пример по трену модельки юзать калькулятор на первом шаге, а на втором просто отдавать то что посчитал калькулятор в <answer> тегах.
Multi-turn позволяет на последующих шагах трена переиспользовать например ответы из вызванных инструментов на предыдущих шагах.
Работаю над новыми примерами сейчас. Название чуть позже обновится думаю) Это тоже штука планируется для агентских задач.

Все по ИИшечке собираем и проектики делаем в /channel/researchim

Читать полностью…

Агенты ИИ | AGI_and_RL

шьто-то пусто в коментах. Пригоршня гпт 4.1 вас не удивила?

Жду локальную модельку от ОпенАИ. Может они прям всех разорвут в опенсурсе? Хотелось бы.

Читать полностью…

Агенты ИИ | AGI_and_RL

Ребят, если кто смотреть будет (или смотрит)

https://www.youtube.com/watch?v=kA-P9ood-cE

напишите в коментах если чего интересного увидите

Читать полностью…

Агенты ИИ | AGI_and_RL

Может кому-то интересны локальные ллмки с длинными контекстами.
Нвидия потюнили лламы 3.1 8B аж до 4м контекста как они пишут.

С одной стороны это круто. С другой стороны я чот ни одной хорошей ллмки от нвидии не видел. Все что не щупал, ну оно прям чот не оч. Но времена-то меняются, да?
Самому мне негде такой контекст инферить и тестить.

Если потестите - отпишитесь в комменты пж)

Насчет русского языка - хз

Ну и если кому интересно - можно статью почитать

From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models
https://arxiv.org/abs/2504.06214

https://ultralong.github.io/

Модельки https://huggingface.co/collections/nvidia/ultralong-67c773cfe53a9a518841fbbe


PS собираемся и собираем все крутое по АИшке (и проектики делаем, да) тут /channel/researchim

Читать полностью…

Агенты ИИ | AGI_and_RL

Какая локальная моделька лучшая для кодинга? Это прям вопрос, я сам ищу.
Я думал что может Gemma 3 27B или QwQ.

Если смотреть на ливбенч с чисто фильтром по коду, то
https://livebench.ai/#/?Coding=a

получается, что дистил R1 Qwen 32B
https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

Он обходит и клода 3.7 (?)
И сильно QwQ.
Да и сам R1.
Волшебная в общем моделька получилась

Если кто-то локально разворачивает более-менее модельки большие и считает какую-то крутой, то пишите в коментах

Читать полностью…

Агенты ИИ | AGI_and_RL

За последнее время выходила куча работ по ризонингам
Среди них было много по тюну 1.5B моделек.
И вот тут ребята решили заново проевалить полученные 1.5B ризонеры и сравнить с зарепорчеными авторами метриками. Ну и получилось меньше

Я вот писал про работу DeepScaler где якобы смогли получить на 1.5B модельке результаты O1-preview на AIME 2024.
В репорте там писали что на AIME 43.1% выбили /channel/AGI_and_RL/958, а тут ребята намерили 37.0
Хотя из всех остальных работ именно дипскелер показывает самые большие результаты.

По остальным работам тоже можно глянуть, кому интересно.

Во-первых есть лидерборд
https://bethgelab.github.io/sober-reasoning/

Во вторых работа. Разбирают как результаты от семплинг параметров зависят, и что сильно зависят от рандом сида например. Поэтому евалить надо на разных сидах, ну и желательно не на таких маленьких датасетах как AIME 2024.

A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility
https://arxiv.org/abs/2504.07086

Код https://github.com/bethgelab/sober-reasoning

А как же тогда стартапы будут внимание привлекать, если мерить нормально будут? Авторы бы хоть подумали

PS собираемся и собираем AI статейки тута: /channel/researchim

Читать полностью…

Агенты ИИ | AGI_and_RL

Там кстати разрабы ARC AGI походу работают над платформой для веб-приложунек/окружений/игр
Открыли вакуху на WebGL Unity разраба
https://arcprize.org/jobs

Я считал подобную идею чтобы делать енвы в браузере уже давно хорошей. Но я как-то отстал и щас уже не знаю насколько сложные штуки может браузер тащить.

Еще в 2019 делал либку для обучения RL (там PPO норм работал только, кстати) в браузере прям с three.js и tensorflow.js . И на node js работало. Щас думаю уже не поднимется
Мотивация была такая, что типа это ж круто что можно эксперименты гонять и тренить прямо по ссылке в окошке. Все конечно немного сложнее на тот момент было)
Собирался сделать конструктор 3D енвов. До этого уже не дошло как-то
https://github.com/tokarev-i-v/rllib.js

Читать полностью…

Агенты ИИ | AGI_and_RL

Учимся с GRPO генерить длинные тексты

В работе тюнят Qwen-2.5 7B-Instruct-1M и 3B.

Представим что мы хотим научить ллмку книги писать.
Вместо генерации всей книги, будем учить модель генерировать одну следующую главу, используя Story Information с предыдущей главы:

High-level story sketch — краткий план всей книги;
Previous summary — краткое содержание предыдущих глав;
Character sheets — описание ключевых персонажей;
Previous chapter — сама последняя глава;
Next chapter synopsis — краткий план следующей главы (для оценки, не для генерации).

И так как у нас GRPO, у нас есть
текущая моделька политики, которая зовется в работе reasoning-модель (πᴿ)
и генератор (πᴳ) - это reference моделька.

Сначала reasoning-модель (πᴿ) генерирует reasoning trace — рассуждения, заканчивающиеся детальным планом главы (p̂). Затем генератор (πᴳ) пишет главу на основе этого плана.

Вводят percent improvement in per-token perplexity (PPL) которая измеряет улучшение вероятности генерации правильной главы (y) при добавлении reasoning trace (плана a):

I(x, y, a) = [1 - PPL(y | x, a) / PPL(y | x)] × 100

(perplexity считается по распределнию токенов в y)
a - это план следующей главы, x - story information, y - сгенеренная глава.
Ревард на основе percent improvement смотрим на 4 скрине.

Датасет
30 книг, опубликованных в 2024+ (чтобы избежать утечек в обучении моделей); 22 книги в обучении, 4 в валидации, 4 в тесте.
Весь объем: 1000+ обучающих примеров;

Используются сводки глав, образы персонажей, предыдущие главы.

Сравнивали четыре варианта:

Base — просто генерация главы по SI.
Base-Reasoning — сначала размышляет а потом по трейсу размышлений генерит главу.
SFT — генерация после supervised-файнтюнинга на следующей главе.
RL-Trained — reasoning обучен через VR-CLI.

Оценка по критериям: сюжет, персонажи, развитие, креативность, стиль, общая предпочтительность. Работу оценивали люди через парные сравнения.

В результате имеем:
RL-trained модель - лидер почти по всем метрикам.
Особенно хорошо reasoning работает в жанре Sci-fi и Fantasy.
(3-4 скрины)

Так понял
Статью читаем, там еще куча инфы

Learning to Reason for Long-Form Story Generation
https://arxiv.org/abs/2503.22828

https://github.com/Alex-Gurung/ReasoningNCP

PS собираемся и собираем инфу по AI в /channel/researchim

Читать полностью…

Агенты ИИ | AGI_and_RL

Там еще один фреймворк делают чтобы ллмы RLем учить

https://github.com/agentica-project/rllm

А еще потюнили 14B модельку (из Deepseek-R1-Distilled-Qwen-14B)

DeepCoder-14B-Preview
https://huggingface.co/agentica-org/DeepCoder-14B-Preview

https://pretty-radio-b75.notion.site/DeepCoder-A-Fully-Open-Source-14B-Coder-at-O3-mini-Level-1cf81902c14680b3bee5eb349a512a51

Во время обучения GRPO+ (взяли модификации из DAPO + пишут что убрали KL,Entropy лосы) тестили модельку юниттестами. И если во время тюна код не проходит хотя бы 1 тест, то ревард 0, а если все проходит - то 1 (так понял)

Применяли увеличение длины контекста во время трена

1.5B: 8K→16K→24K
33%→38%→43% на AIME (и типа превзошли на AIME o1-preview, их предыдущая работа)

В этой работе:
14B: 16k → 32k
54%→58% на AIME

Но при этом на евале для 14B модельки с 64к контекстом смогли получить 60.6% Pass@1 и это как o3-mini-2025-01-031 (Low) получается. (ну они пишут)

В целом я уже писал про их предыдущую работу с DeepScaler (/channel/AGI_and_RL/958), тут тот же подход, но больше

PS собираемся, собираем крутые статьи и проектики делаем в /channel/researchim

Читать полностью…

Агенты ИИ | AGI_and_RL

В nature решили вспомнить про Dreamer, прикольно
https://www.nature.com/articles/d41586-025-01019-w

https://danijar.com/project/dreamerv3/

Кстати увидел, что автор пушит в репозиторий частенько и что-то обновляет даже

Читать полностью…

Агенты ИИ | AGI_and_RL

Ребятки, на https://www.alphaxiv.org/ приехал o4-mini
Напоминаю, что это как соцсеть по архиву и там можно чатиться с ллмками по архивным статьям

Читать полностью…

Агенты ИИ | AGI_and_RL

Кстати, пишите в коментах какими модельками пользуетесь больше всего?

В курсоре клод 3.7
в чатгпт - 4.5 и 4o

Есть ли среди нас фанаты гигачата и яндекс гпт?
Или может локальные?

Читать полностью…

Агенты ИИ | AGI_and_RL

Из реально прикольного пишут что автономный дрон из Micro Air Vehicle Lab Делфта обошел 13 других дронов, а еще обошел людей в гонках на A2RL Drone Championship в Абу Даби

Пару лет назад дрон уже обгонял людей, но там была предустановленная исследователями трасса. А в этой новости пишут, что трасса бала организаторами сделана (т.е. они или не затачивались под нее специально, или затачивались но не так сильно - тут я чот не очень понял).
RLем тренили
🥳 Оч круто

https://www.youtube.com/watch?v=yz2in2eFATE

https://www.tudelft.nl/2025/lr/wereldprimeur-tu-delft-ai-drone-wint-van-menselijke-bestuurders-op-wk-drone-racen

На ютубе на эту работу ссылаются

End-to-end Reinforcement Learning for Time-Optimal Quadcopter Flight
https://ieeexplore.ieee.org/document/10611665
https://arxiv.org/abs/2311.16948

PS Собираем кстати AI штуки и проекты делаем в /channel/researchim

Читать полностью…

Агенты ИИ | AGI_and_RL

Дополню ещё ссылкой на код, там ссылка на hf с модельками тоже есть

https://github.com/xufangzhi/Genius

Читать полностью…

Агенты ИИ | AGI_and_RL

Один раз исследователи не написали обзорку по агентам, больше их никто не видел

Эти написали. И в основном они из salesforce (они иногда очень прикольные вещи делают 🥰)
обозреваем

A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems
https://arxiv.org/abs/2504.09037

Читать полностью…

Агенты ИИ | AGI_and_RL

Не кажется ли вам, что инновации ОпенАИ как бы подсократились в последнее время?
Ресерч их как будто сжался

Читать полностью…

Агенты ИИ | AGI_and_RL

Я буду кидать очередной имплемент GRPO когда вы меньше всего этого ждете.
Я и сам не ждал

https://github.com/policy-gradient/GRPO-Zero

Читать полностью…

Агенты ИИ | AGI_and_RL

В майкрософте озаботились окружением в котором модельке было бы удобнее править проекты с кодом с использованием pdb (питон дебагер)

Т.е. чтобы не просто моделька могла запускать код и смотреть на трейсы ошибок но и вызывать pdb, ставить по коду брейкпоинты и детальнее видеть как там исполнение происходит

Для ресечей пойдет (в кодовых агентах и по безопасности например)

https://microsoft.github.io/debug-gym/

https://github.com/microsoft/debug-gym

Читать полностью…

Агенты ИИ | AGI_and_RL

Там кстати говорят что Safe Superintelligence Inc. Ильи Суцкевера оценивается в $32B

https://techcrunch.com/2025/04/12/openai-co-founder-ilya-sutskevers-safe-superintelligence-reportedly-valued-at-32b/

Вот их сайт https://ssi.inc/

В целом заслужили.

Вот список их разработок только за последний год:

Читать полностью…

Агенты ИИ | AGI_and_RL

Давайте составим план (предсказание) по AI до 2030 в комментариях к этому посту (жду ваших вариантов)

Читать полностью…

Агенты ИИ | AGI_and_RL

Что мы знаем про дифузионные LLM?
Я только то, что им теперь завезли GRPO (diffu-GRPO)

дифузионные ллмщики думали что вас не заденет? Сюдааа

d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning
https://dllm-reasoning.github.io/

https://github.com/dllm-reasoning/d1

Читать полностью…

Агенты ИИ | AGI_and_RL

https://ai-2027.com/

Кто-нибудь читал? Стоит вообще открывать?

Читать полностью…

Агенты ИИ | AGI_and_RL

На архив приедут аудио саммари
https://blog.arxiv.org/2025/04/08/arxiv-pilots-audio-summaries-in-partnership-with-sciencecast/

Пока доступны для High Energy Astrophysics только
https://arxiv.org/list/astro-ph.HE/recent

Выбираем статьи новые и слушоем 😏
Сами записи будут на сайте https://sciencecast.org/casts/ лежать

Читать полностью…

Агенты ИИ | AGI_and_RL

Раз уж за дример пошло, то недавно натыкался на реп где чел реимплементнул его

https://github.com/InexperiencedMe/NaturalDreamer

Читать полностью…

Агенты ИИ | AGI_and_RL

Тут толпа исследователей из разных компаний и универов сделалил большую обзорку по современным компонентам агентов

Обучение, ризонинги, память, world models, много про RL, реварды, действия и вызов тулов, эволюционные системы, самоулучшение, сейфти и вообще куча всего

190 страниц текста и 74 страницы ссылок

красота, стоит обратить внимание

Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems
https://arxiv.org/abs/2504.01990

Листик со ссылками
https://github.com/FoundationAgents/awesome-foundation-agents

Читать полностью…
Subscribe to a channel