Про ии, RL и в целом @tokarev_i_v https://t.me/researchim
Тренили OlympicCoder со следующими параметрами:
Базовая модель: Qwen2.5 Coder Instruct 7B and 32B
количество эпох: 10
батч сайз: 128
Learning rate: 4e-5
Scheduler: Cosine with a decay to 10% of the peak learning rate
длина контекста: 32,768 токенов для 7B и 22,528 токенов 32B
И вот что выяснили
Урок 1: packing ухудшает качество рассуждений
Упаковка образцов – это широко применяемый метод для эффективной обработки последовательностей переменной длины и ускорения обучения. "тот метод заключается в конкатенации обучающих образцов (раскрашенных) в чанки равного размера, что устраняет необходимость использования токенов заполнения) в батчах:
При упаковке образцы могут перекрываться через границы каждого чанка, но на практике это не имеет большого значения, если большинство образцов значительно меньше размера чанка.
Без упаковки производительность улучшается в течение нескольких эпох, прежде чем стабилизируется.
Тем не менее, мы обнаружили, что во всех анализируемых датасетах упаковка давала худшие результаты.
Для большинства экспериментов SFT, которые мы проводили с моделями Qwen, lr 2e-5 обычно достаточна для достижения высокой производительности. Однако при применении SFT с данными рассуждений к уже существующей модели-инструктору, мы обнаружили, что значительное улучшение результатов можно получить, используя гораздо большую скорость обучения — 4e-5. Как показано на диаграмме ниже, каждое удвоение скорости обучения давало улучшение почти на 10 пунктов по LiveCodeBench!
Когда мы создавали поднабор solutions_w_editorials из open-r1/codeforces-cots, наша интуиция заключалась в том, что, предоставив R1 проблему и решение, мы получим лучшие трассы рассуждений. Однако, к нашему удивлению, эта интуиция не подтвердилась при оценке: наивная выборка из описаний задач давала скромное, но последовательное улучшение в процессе обучения.
При тестировании некоторых наших моделей мы столкнулись с любопытным явлением: при подаче запросов из той же предметной области (например, по конкурентному программированию) модель генерировала ожидаемую длинную цепочку рассуждений, заключённую между токенами <think> и </think>, за которой следовал окончательный ответ. Однако для запросов из другой области, таких как «Какая столица Швейцарии?», модель возвращалась к поведению исходной модели-инструктора!
Это показывает, что при дистилляции трейсов рассуждений в уже обученную модель-инструктора следует по умолчанию использовать префилл в шаблоне чата финальной модели. Кстати, именно так поступает DeepSeek со своими дистиллированными моделями, и описанное выше поведение может быть объяснением их подхода.
На одном узле 8xH100 авторы смогли обучить модели с контекстом в 32k используя DeepSpeed ZeRO-3. Однако при попытке применить подход к 32B модели возникло множество проблем с памятью. В частности, наши эксперименты приводили к ошибке Out Of Memory, когда контекст увеличивался свыше 20к токенов, даже на 16 узлах 8xH100. А в датасете CodeForces-CoTs 20% трейсов больше 20к токенов, значит они бы обрезались во время трена.Читать полностью…
Корень проблемы в том, что и трансформеры, и trl пока не поддерживают параллелизм по контексту, хотя по данной проблеме можно следить по соответствующему issue.
В то же время мы изучили различные техники экономии памяти и обнаружили, что сочетание FSDP с оптимизатором paged_adamw_8bit позволило нам масштабировать контекст до 22,528 токенов: всё ещё не идеально, но теперь обрезается только 9% данных.
ЛЛМам пора на завод. Там сделали енвайронмент-бенч для ллмок из игры Factorio.
Я не специалист по факторио, но в целом всегда казалось что тут можно тестить и учить рл. Вот ллмки тестят
https://jackhopkins.github.io/factorio-learning-environment/
Factorio Learning Environment
https://jackhopkins.github.io/factorio-learning-environment/assets/documents/paper.pdf
https://github.com/JackHopkins/factorio-learning-environment
2 режима
Lab-play где 24 задачи и фиксированными ресурсами
Open-play на процедурной карте нужно построить самый большой завод
Есть лидерборд (Factory-Bench Leaderboard) - https://jackhopkins.github.io/factorio-learning-environment/leaderboard/
Авторы тестили: Claude 3.5-Sonnet, GPT-4o, GPT-4o-Mini, Deepseek-v3, Gemini-2-Flash и Llama-3.3-70B-Instruct
Sonnet из протестированных лучше всех себя показывает
Выводы авторов:
1. Навыки в кодинге имеют значение
Модели с более высокими способностями программирования (Claude 3.5-Sonnet, GPT-4o) достигли более высоких Production Scores и выполнили больше лабораторных задач. Claude превзошёл остальных, заработав PS равный 293 206 и достигнув 28 вех, продвинувшись за рамки добычи ресурсов на ранних этапах.
2. Инвестиции в технологии стимулируют рост
Только Claude стабильно инвестировал ресурсы в исследования новых технологий, несмотря на их важность для долгосрочного прогресса. После внедрения электрических буровых установок на шаге 3 000, PS Claude вырос на 50% (с 200 000 до 300 000), что демонстрирует ценность стратегических инвестиций.
3. Планирование является ключевым фактором в режиме открытой игры
В режиме открытой игры агенты часто преследуют краткосрочные цели — например, Gemini-2.0 вручную изготовил более 300 деревянных сундуков за 100 шагов — вместо того чтобы инвестировать в исследования или масштабировать существующее производство. Это выявляет существенное расхождение: хотя Gemini-2 и Deepseek демонстрируют возможности автоматизации на ранних этапах в структурированном лабораторном режиме, они редко пытаются создать согласованную фабричную систему во время открытых исследований, что приводит к ухудшению общей производительности.
4. Способности к пространственному мышление пока недостаточны
Все модели продемонстрировали ограничения в пространственном планировании при создании много-секционных фабрик. Распространённые ошибки включали размещение объектов слишком близко друг к другу, недостаточное выделение пространства для соединений или неправильное расположение инсертеров — проблемы, которые существенно влияют на производительность в сложных заданиях, требующих координации нескольких производственных линий.
5. Сейчас ллмкам сложно исправлять ошибки
Модели часто оказываются в повторяющихся циклах ошибок, повторяя одни и те же неверные операции вместо того чтобы искать альтернативные решения. Например, GPT-4o неверно повторял один и тот же метод API на протяжении 78 последовательных шагов, несмотря на идентичные сообщения об ошибке.
6. Стили программирования существенно различаются
Модели демонстрировали различные подходы к программированию: Claude предпочитал стиль REPL с большим количеством операторов вывода (43,3% строк кода), но с малым числом утверждений (2,0%), в то время как GPT-4o использовал оборонительный стиль с большим числом проверок валидации (12,8% утверждений) и меньшим количеством операторов вывода (10,3%).
Там походу на редите засветились 4090 96гб
Нада 😱
https://www.reddit.com/r/LocalLLaMA/s/gHde13Isqx
хотел полистать серваки, открыл первый
а там RL-агенты 🕺🕺🕺
Сразу понял что день будет отличным
Квены дают QwQ-32B. Моделька с размышлениями, которую можно у себя развернуть.
https://qwenlm.github.io/blog/qwq-32b/
https://huggingface.co/Qwen/QwQ-32B
В целом дроп этот я ждал, ибо еще на той неделе в иксах и редитах писали что вот скоро чего-та будет.
Пишут много про РЛ.
Применяли РЛ, и дальше будут ЕЩЕ БОЛЬШЕ делать РЛ. (а мне большего-то и не надо...)
Мы начали с контрольной точки холодного старта и реализовали масштабируемый подход обучения с подкреплением (RL), основанный на вознаграждениях, зависящих от результатов. На начальном этапе мы масштабировали RL специально для задач по математике и программированию. Вместо того чтобы полагаться на традиционные модели вознаграждений, мы использовали проверку точности для математических задач, чтобы обеспечить правильность окончательных решений, и сервер выполнения кода для оценки успешности прохождения сгенерированного кода по заранее заданным тест-кейсам. По мере прохождения тренировочных эпизодов производительность в обеих областях демонстрировала постоянное улучшение. После первого этапа мы добавляем ещё один этап RL для общих возможностей. Он обучается с вознаграждениями от общей модели вознаграждений и некоторыми верификаторами, основанными на правилах. Мы обнаружили, что этот этап обучения с подкреплением с небольшим количеством шагов может повысить производительность других общих возможностей, таких как следование инструкциям, согласование с предпочтениями человека и производительность агента, без значительного снижения эффективности в математике и программировании.
Это знаменует собой первый шаг Qwen в масштабировании обучения с подкреплением (RL) для повышения способностей к рассуждению. В ходе этой работы мы не только увидели огромный потенциал масштабированного RL, но и осознали, насколько велики ещё неиспользованные возможности предварительно обученных языковых моделей. Разрабатывая следующее поколение Qwen, мы уверены, что объединение более мощных фундаментальных моделей с обучением с подкреплением, использующим масштабируемые вычислительные ресурсы, приблизит нас к достижению искусственного общего интеллекта (AGI). Кроме того, мы активно изучаем возможность интеграции агентов с обучением с подкреплением для обеспечения долгосрочного планирования и рассуждений, стремясь раскрыть ещё более высокий уровень интеллекта посредством масштабирования во время инференса.
Вышла приятная обзорка по методам посттренинга LLMов и по ризонингу. С красивыми табличками, схемками.
Много про разного вида RL который можно применять, цепочки рассуждений, test-time scaling и вот это все
Читаем!
LLM Post-Training: A Deep Dive into Reasoning Large Language Models
https://arxiv.org/abs/2502.21321
И конечно же листик пособирали, тоже приятный.
https://github.com/mbzuai-oryx/Awesome-LLM-Post-training
PS собираемся и собираем все крутое по нейронкам тут /channel/researchim
Ребятки, не забываем про квен (он в России работает)
https://chat.qwen.ai/
Там вроде как апдейтик с думающим Qwen2.5-Max подвезли. Нравится.
Чтобы модельки размышляли нажимаем Thinking (QwQ)
У нас тут бегущий по ризонингу
Ребята потренили Qwen 1.5B на то чтобы проходить не сильно сложные лабиринты 5x5. Но исходная моделька и этого не умела.
Нагенерили https://huggingface.co/datasets/jan-hq/Maze-Reasoning датасет со 100к лабиринтами, с COT трейсами.
И вот в блоге https://homebrew.ltd/blog/alpha-maze пишут про этот датасет. И там много подробностей с ревардами и сетапом.
Но вообще в статье пишут
AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO
https://arxiv.org/abs/2502.14669
что для SFT был 500к датасет для SFT, 16к для GRPO и евал был на 30к сете. Чего тогда только 100к выложили - не пон. Вполне возможно что разные эксперименты описываются.
Есть как картинка, так и текстовое описание задачи. А моделька должна сгенерить в качестве ответа путь прохождения вида: <|down|><|left|><|left|><|down|><|right|><|right|><|right|>
Вообще всего в описании лабиринта участвуют следующие маркеры:
Координаты:
<row-col> (например, <0-0>, <2-4>) для идентификации каждой клетки в сетке.
Стены:
Токены, такие как <no_wall>, <up_wall>, <down_wall> и т.д., указывающие на наличие или отсутствие стен в каждом направлении. Это позволяет модели «видеть» структуру лабиринта.
Движение:
<up>, <down>, <left>, <right> для обозначения возможных действий, которые может совершить модель.
Специальные маркеры:
<origin> и <target> для обозначения начальной и конечной точек.
В статье пишут, что исходная моделька на евале показала 0% акураси.
Ребята сделали SFT на своем сете (добились 86%), а потом GRPO сверху 1600 шагов (подняли до 93%).
А вот если учить без ризонинга напрямую генерить решение - то акураси тот же 0% будет. То есть для решения лабиринта нужно учить решать задачу по шагам с размышлениями.
Надо больше экспериментов и с лабиринтами разных размеров.
Вообще прохождение лабиринтов - это большая задача и в обычном RLе, без ллмок, там много этим занимаются. И бОльшие лабиринты проходят и в 3D, ну у ллмок все впереди похоже.
Так понял. Ризонинг делать нада.
покайфу собираем статьи и всякое полезное в том числе и по ризонингу (много) тут: /channel/researchim
Ребята на https://www.alphaxiv.org/ завезли o3-mini с которой можно по статьям общаться, вот это прикольно
Читать полностью…🌸MLGym – открытый фреймворк и бенчмарк для Агентов в автоматизации ML-задач🌸
#nlp #про_nlp #nlp_papers
Сегодня, под конец этой насыщенной недели, мы с коллегами выпускаем новую работу "MLGym: A New Framework and Benchmark for Advancing AI Research Agents".
🟣TL;DR
MLGym – это фреймворк для оценки и развития LLM-агентов.
В нем пока 15 различных ML задач, включая хорошо и не очень определенные: задачи на NLP, CV, RL, теорию игр.
Агенты должны продемонстрировать свою способность понять задачу, запустить бейзлайн, оцени его, и начать итерировать эксперименты и улучшать результат, находясь при этом в заданной среде. В среде есть набор инструментов, которые можно использовать: поиск по файловой системе, поиск по файлам, модуль памяти, просмотр и изменение файлов, и собственно действия запуска скрипта оценки и сабмита решения.
Каждая задача содержит датасет, метрику, бейзлайн, а также свою собственную среду, где есть контролируемые ограничения на вычислительный бюджет и таймауты.
Мы предлагаем иерархическую структуру из 6 уровней для оценки степени автономии и научного вклада агентов:
Уровень 0: воспроизведение – аккуратно повторить чужие эксперименты без ошибок
Уровень 1: Итеративное улучшение бейзлайна – применение лучших практик, перебор гипертапаметров
Уровень 2: Достижение SOTA через итерации от бейзлайна – решение лучше тех, что смогли найти люди
Уровень 3: Новый научный вклад – можно быть принятым на условный NeurIPS
Уровень 4: Научное новаторство, фундаментальный научный вклад – можно получить "лучшую статью" на том же NeurIPS
Уровень 5: Долгосрочная исследовательская программа – test of time awards, научная революция, премия Тьюринга.
🟣Что мы выяснили?
Текущие ИИ системы находятся почти поголовно на уровне 1.
Удобно оценивать все системы относительно дельты, которую они смогли достичь, опираясь на бейзлайн, за заданное количество итераций (за первые 5 шагов у системы Х получили +15% точности, а у системы Y +20%). Если оценивать LLM-агенты так, то увидим, что O1-preview вырывается вперед практически на всех задачах. GPT-4o и LLama 3.1 405B примерно на одном уровне, Claude и Gemini делят обычно 2 и 3 место. Ну а если помимо дельты оценивать еще и стоимость инференса модели, но картина меняется, и лучше по соотношению оказывается Gemini с большим отрывом.
Достаточно интересно посмотреть распределение действий агентов и их ошибок:
— большинство LLM-агентов делают ошибки и из-за этого не доходят до сабмита, тогда как O1 и Gemini гораздо чаще просто не доделывают сабмит до конца.
— все агенты большую часть действий тратят на изменение файлов: редактирование скриптов обучения, а также чтение файлов, запуск обучения и валидацию — соотношение действий примерно у всех одинаковое, хотя некоторым система действий требуется меньше.
— почти все агенты очень мало используют поиск, хотя могли бы.
— минимальное число итераций до первого сабмита — примерно 5. Все системы начинают с чтения файлов, затем запускают валидацию, и дальше планомерно итерируются, изменяя скрипты и запуская обучение.
🟣Что еще есть полезного?
— Классный Web UI визуализатор агентных логов на streamlit
— Есть набор полезных функций и tools, полностью совместимый с SWE-Agent.
— Есть модуль памяти, модуль поиска научной литературы, и еще много разных ништяков, которые можно использовать отдельно от бенчмарка, просто развивая своего агента (свой агент? Это же неодушевленное...).
— Есть большой обзор литературы, охватывающий почти все последние работы в области агентов для SWE, ML, науки, который угадайте кто писал.
Линейку задач можно легко расширять — поэтому мы будем рады идеям и контрибьюшенам, а также любой активности в репозитории.
🟣Arxiv: https://arxiv.org/abs/2502.14499
🟣Github: https://github.com/facebookresearch/MLGym
🟣Лицензия: CC-BY-NC 4.0
HuggingFace 🤗 выложили
The Ultra-Scale Playbook:
Training LLMs on GPU Clusters
https://huggingface.co/spaces/nanotron/ultrascale-playbook
- это интерактивный учебник по тому как тренируются ллмковые разных размеров на видеокартах (и на кластерах) и что там внутри происходит.
Под что память выделяется и как рассчитывается,
про виды распределенного обучения (Data Parallelism, Tensor Parallelism, Context Parallelism, Pipeline Parallelism),
как атеншены вычисляются и оптимизируются,
Flash Attention 1-3,
овервью того как GPUшки работают,
как кернелы оптимизировать
и много всякого полезного
Раньше многие вещи пришлось бы собирать самому по всему интернету, а теперь все здесь с примерами кода из своего учебного фреймворка для распределенного обучения ллмов https://github.com/huggingface/picotron. Ну и много полезных ссылочек.
Ну прям молодцы ребятки. Изучаем 🤗 (и picotron тоже)
—
PS покайфу собираем все что с мл/ии связано в группе /channel/researchim
Кстати, Сэм Альтман проводил опрос, чего бы опенсурснуть следующим - модельку типа o3-mini (небольшую рассуждалку) или вообще мелкую модельку которую можно было бы на мобилках крутить.
Сам на опрос не успел, но по-моему пусть лучше модельку уровня o3-mini выклыдывают в общий. Ну оно и победило, кстати) Жду
Вот и 1.5B с RL на русском) Молодцы ребята, RL любят
Читать полностью…Тут потюнили 1.5B модельку и авторы пишут, что на некоторых бенчах смогли выбить результы больше чем у O1-Preview.
Ребятам для тюна потребовало 3,800 часов на A100. Взяли они уже претрененую Deepseek-R1-Distilled-Qwen-1.5B модельку. В процессе тюна они увеличивали размер контекстного окна с 8к до 16к, а потом до 24к.
Ревард:
1 — если ответ модели корректный и его удалось нормально спарсить;
0 — если модель ответила неправильно или не соблюдала формат (например, отсутствуют разделители <think> и </think>)
Данные - взяли AIME с 1984 по 2023 годы, задачи AMC до 2023 года, а также вопросы из наборов Omni-MATH и Still. Ответы из AMC и AIME доставали с помощью gemini-1.5-pro-002, удаляли дубликаты и отфильтровали некоторые вопросы ответы на которые пришлось бы оценивать с помощью другой ллмку (а это накладно на трене).
В конце получили 40000 пар задача-ответ (данные выложили, внизу будут по ссылке).
В результате трена 1.5B моделька выдала 43,1% точности Pass@1 на AIME2024 (против 28,8% у базовой модельки), .
Что они еще отмечают:
*Пока тестировали Deepseek-R1-Distilled-Qwen-1.5B (исходную) на AIME2024 то увидели, что неверные ответы в среднем содержат в три раза больше токенов, чем правильные (20 346 против 6 395), и вот мол если сразу начинать RL тюн с длинным контекстом, то оно вот будет длинные и неправильные ответы давать, поэтому может быть полезным увеличивать контекст постепенно.
*Достижение уровня O1-preview получилось лишь с расширением контекста до 24K: после того как расширили до 16к контексти и тренили 500 шагов - ревард вышел на плато в какой-то момент (0.625) и только после расширения контекста до 24к удалось преодолеть 40% AIME (через 50 шагов трена с 24к контекстом) и выйти на 43% в дальнейшем (еще через 200 шагов).
В целом прогресс шел так:
*изначальная моделька выдавала 28.9% на AIME, при инициализации с 8К окном трена упала до 22% затем через тысячу шагов поднялась до 33.9% при этом сильно укоротив среднюю длину ответов (корректные в среднем 6396 -> 3661.2, некорректные 20346.3 -> 6976.8)
*затем 500 шагов с 16к контекстом удалось выбить 38% AIME но средняя длина ответа увеличилась с 3500 токенов до 5500;
*еще 250 шагов с 24к контекстом и тут удалось дойти до 43.1% AIME.
И еще ребята считают что надо и качественный SFT делать и RL потом :)
Так понял.
Кстати, сначала собираю подобные проекты и статьи в ресечим: /channel/researchim а потом уже тут рассказываю.
Ссылки по проекту:
https://pretty-radio-b75.notion.site/DeepScaleR-Surpassing-O1-Preview-with-a-1-5B-Model-by-Scaling-RL-19681902c1468005bed8ca303013a4e2
https://github.com/agentica-project
Код и Датасет в репе лежит:
https://github.com/agentica-project/deepscaler
Моделька:
https://huggingface.co/agentica-org/DeepScaleR-1.5B-Preview
Первая экспериментальная Ruadapt ризонинг модель:
RuadaptQwen2.5-14B-R1-distill-preview-v1
Это адаптация модели deepseek-ai/DeepSeek-R1-Distill-Qwen-14B с SFT шагом после LEP на смеси датасетов kristaller486/Nebo-T1-Russian (все ру, 12-13 т.) и Egor-AI/CoT-XLang (2 т. случайных англ.) Во время SFT шага никаких системных промптов не использовалось, а рассуждения оборачиваются в <think> </think> теги. Модель иногда уходит в повторы, так что вооружаемся repetition_penalty в таких случаях.
Так как это ризонинг модель, а под рукой у меня нет датасетов для оценки качества подобных моделей, качество мы пока не оценивали. Если у кого-то есть бенчмарк / датасет на примете - пишите в комментариях.
В чем плюс данной модели - ризонинг идет стабильно на русском, без иероглифов в принципе, а скорость генерации русскоязычного текста повышена, так как это Ruadapt. Фидбек как всегда крайне приветстветствуется.
Временно (на вечер) поднял Space с данной моделькой, можно потестировать в нем:
https://huggingface.co/spaces/RefalMachine/RuadaptQwen2.5
Модель: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-R1-distill-preview-v1
GGUF: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-R1-distill-preview-v1-GGUF
третий апдейт по Open R1
https://huggingface.co/blog/open-r1/update-3
Чем занимались
Созданием CodeForces-CoTs: датасетом, содержащим почти 100 тысяч высококачественных примеров, полученных в результате дистилляции R1 для генерации решений на C++ и Python.
https://huggingface.co/datasets/open-r1/codeforces - задачи
https://huggingface.co/datasets/open-r1/codeforces-cots - решения с трейсами от R1
IOI-бенчмарком: новым набором сложных задач с Международной олимпиады по информатике 2024 года
https://huggingface.co/datasets/open-r1/ioi задачи IOI’2020 - IOI’2024
https://huggingface.co/datasets/open-r1/ioi-cots - трейсы решений с R1
(еще много дополнительного в статье)
OlympicCoder: двумя дообученными моделями кода (7B и 32B), которые превосходят закрытые передовые модели, такие как Claude 3.7 Sonnet, при решении задач IOI
https://huggingface.co/open-r1/OlympicCoder-7B
https://huggingface.co/open-r1/OlympicCoder-32B
Уже было бы прикольно увидеть сам Open R1, но ребята еще только учатся тренить ризонинг модельки и пишут в посте подробности!
В том числе рассказывают что выяснили пока делали OlympicCoder
PS собираем полезное по ллмам тут /channel/researchim
Towards General-Purpose Model-Free Reinforcement Learning
Скотт Фуджимото может быть известен вам как один из пионеров современных рл методов - TD3 & TD3-BC, а так же он в принципе один из тех кто сильно продвинул область оффлайн рл (точнее model-free offline rl), когда она еще называлась батч рл
теперь, полагаю, ему надоело перебирать гиперпараметры под каждый бенчмарк чтобы vydrochit’ сота перформанс на каждом в отдельности, а захотелось отскейлить это дело созданием метода, который может выступать на около-сота уровне с фиксированным набором гиперпараметров для каждого бенчмарка
но если не хочется vydrachivat’ гиперпараметры → стоит vydrochit’ многие аспекты в пайплайне, как уже примерно делал первый автор улучшения TD3-BC → TD7 по state-action репрезентациям
только здесь пошло еще дальше: авторы добиваются такой генерализации (относительно перебора гиперпараметров) на model-free методе при помощи внедрения model-based идей (и не только) для получения cупер-пупер крутых репрезентаций
а именно
- состояния переводятся в латентное пространство (что проприоцепция, что пиксельные обсервейшны) при помощи энкодера + так же есть энкодер под состояния и действия одновременно (те самые state-action репрезентации)
- эти энкодеры обновляются в model-based стиле “анроллом динамики”: надо по горизонту восстанавливать награду, следующее латентное состояние и флаг терминальности (булево значение, которое показывает, закончился ли эпизод)
- при том последние 2 явления обучаются классически в мсе стиле, а награда восстанавливается по бинам при помощи twohot трансформации (она так же используется в дримере для предсказания реварда, да и в последнее время все чаще фигурирует как вид обучения критика через классификацию а не регрессию)
- критик же обучается через мульти-степ сумму наград по заранее выбранному горизонту
- а политика после всего этого оптимизируется в более-менее классическом стиле (разве что за нестандартный прием имхо можно посчитать гамбел софтмакс для дискретных действий)
- и это все в конце полируется тем, что семплы подаются на вход во время обучения при помощи буффера LAP, который выставляет приоритет при семплировании в соответствии с ошибкой критика (в терминологии рл это называется Temporal Difference error, TD error)
ну и вроде по экспериментам вырисовывается что-то интересное - хоть и не везде выбивается сота, но метод ощутимо находится на высоком уровне. и это все при том, что гиперпараметры не перебирались в отличие от других методов, хотя конечно остается вопрос точно ли авторы ничего не перебирали хотя бы чуть-чуть, или же как именно они решили выставить неизменяемую конфигурацию гиперов (например момент с exploration noise, значение которого они позаимствовали из предыдущих работ по d4rl, но не по атари)
а вообще в целом результаты довольно классные - еще бы такая концепция повторялась бы, если и обучать в мультитаск/мета стиле (ведь название статьи тоже на это может намекать в плане general-purpose RL), так еще и model-based это типа world models так что хайп бррррррр
👀LINK
Учим модельки решать интегралы через декомпозицию задач и обучение на более простых вариантах. С RLем конечно же.
Подход называется Learning through Autonomous Difficulty-Driven Example Recursion (LADDER).
Моделька генерирует более простые версии сложных задач, которые становятся всё проще на каждом шаге. Возникает градация сложности и моделька учится сначала на самых простых вариантах, а потом переходит ко все более сложным.
Генерация вариантов (Variant Generation) -
Для каждой сложной задачи модель генерирует упрощенные варианты. Эти варианты организуются в виде дерева, где каждая ветка представляет переход от сложной задачи к её упрощённой версии.
Используются заранее подготовленные математические трансформации ( упрощение показателей, замена функций и т.д.).
Применяются техники для увеличения разнообразия вроде temperature cycling (меняют температуру от 0.8 до1.4) и persona-based prompting (модель пытается вести себя как математик).
Рекурсивный процесс: генерация идет по уровням (ограничено, например, тремя уровнями), чтобы сохранить релевантность задачи.
Проверка решения (Solution Verification) -
Для проверки корректности решений применяется численная интеграция:
Решения сравниваются с исходным интегралом по пяти точкам на интервале от -10 до 10.
Используются адаптивные квадратурные методы, обработка особенностей функций или потенциальные численные ошибки.
Еще верификация нужная быстрая – введены ограничения по времени (таймауты) и методика повторного отбора точек при возникновении проблем.
Учимся с RLем (GRPO).
Награды:
Accuracy reward - Проверка правильности решения через численную верификацию.
Format reward - Дополнительное вознаграждение за правильное форматирование ответа (вроде заключения ответа в специальные теги <ANSWER></ANSWER>).
т.е. учим модельку и правильно решать и формат соблюдать. В целом так щас часто и делают.
применяется еще Test-Time Reinforcement Learning (TTRL):
Даже после обучения по LADDER остаются задачи, на которые модель отвечает неверно. TTRL позволяет на этапе тестирования генерировать дополнительные варианты конкретной проблемной задачи и проводить короткое обучение RLем, чтобы моделька подучилась именно на этом примере.
Количество шагов TTRL варьируется от 3 до 30 в зависимости от задачи авторы пишут.
С LADDER Llama 7B улучшилась с 2% до 73% (это Pass@1), а применение еще TTRL улучшило с 73% до 90% на MIT Integration Bee 2025 (но с TTRL это Pass@100, как я понял - т.е. нужно сгенерить 100 решений чтобы решить задачку).
Так понял.
В общем - важно уметь декомпозить и упрощать задачки (ну и усложнять тоже важно уметь).
Теперь надо пробовать этот подход к другим задачкам
LADDER: Self-Improving LLMs Through Recursive Problem Decomposition
https://arxiv.org/abs/2503.00735
PS всякое крутое по rlю и ризонингам собираем (а еще всякие там проектики делаем) в /channel/researchim
AMD выложили 3B модельки трененые на MI300X
https://github.com/AMD-AIG-AIMA/Instella
https://huggingface.co/amd/Instella-3B-Instruct
Надеюсь на обычных карточках тоже норм тюниться можно будет скоро. Хотя мб и щас можно там в репе инструкции лежат
reinforcementlearningreinforcementlearningreinforcementlearning
Ну шьто? Эндрю Барто и Ричард Саттон получают премию Тьюринга за RL 🥳🕺🥰
https://awards.acm.org/about/2024-turing
Я считаю что заслужили.
А отметить можно тут: http://incompleteideas.net/book/the-book-2nd.html
Member of Technical Staff LLM (Оптимизация и RL Alignment)
Стартап в области безопасности ИИ
Чем предстоит заниматься:
Дообучение и Оценка Sota llm, аттаки на blackbox модели
Заставлять LLM генерировать рецепты всего и тд
Улучшение RL для аттак на модели, настройки моделей (PPO, RLHF, стабильность обучения).
Бенчмаркинг и оценка качества моделей (ELO-метрики, alignment).
Оптимизация инференса (vLLM, SGLang, TRT).
Требования:
Опыт работы с LLM (архитектуры, RL, alignment).
Знание PyTorch/JAX.
Реальная практика с RL методами (DPO, RLHF — плюс).
Опыт с системами инференса (vLLM, kuber, docker).
Публикации в NeurIPS/ICML/ICLR и др. — сильный плюс.
Преимущество:
Экспертиза в байесовской оптимизации, эволюционных алгоритмах, гиперпараметрическом поиске, автоматической оптимизации промптов.
Условия:
Зарплата: 80K–130K usd + опционы.
Релокация в Париж🥐, полная занятость.
Работа с передовым стеком (AI research, model alignment).
Отклик:
https://forms.gle/z45WwdBTRHrd8inM9
Ммм, там датасетик на 250к семплов под RL над LLMками и ризонинге подвезли. Все по матеше конечное
Это сборка из других открытых датасетов (на скринах) + 47к своих новых (назвали Big-Math-Reformulated).
Мол в открытых датасетах не всегда прям качественные данные, поэтому вот авторы хорошее пособирали и своего долили.
Big-Math-RL-Verified
https://huggingface.co/datasets/SynthLabsAI/Big-Math-RL-Verified
Как все это дело компилировали читаем здесь:
Big-Math: A Large-Scale, High-Quality Math Dataset for Reinforcement Learning in Language Models
https://arxiv.org/abs/2502.17387
PS собираемся и cобираем все крутое по нейронкам тут: /channel/researchim
сори, тупанул, вот правильный скрин 🤨
кроме 03-mini есть claude 3.5 и Gemini 2
По лимитам я пока не понял. Но блин, с такой штукой очень удобно статейки читать
rl... rl всегда возвращается
это еще из очень олдовых экспериментов хардмару, но ржомба
Если убрать все ограничения конструкции, оптимизатор придумал действительно высокого двуногого шагающего робота, который «решает» задачу, просто падая и приземляясь около выхода.
Там это... Ребята из Саканы выложили своего оптимизатора торч кода для видеокарт.
The AI CUDA Engineer: Agentic CUDA Kernel Discovery, Optimization and Composition
https://sakana.ai/ai-cuda-engineer/
Это фреймворк с ллмкой и эволюционкой который транслирует торч в оптимизированные куда кернелы.
Ну и написали, что иногда код на выходе получается 10x-100x быстрее.
Выложили статью с примерами кернелов.
Ребятки в интернете додумались прогнать кернелы через o3-mini и спросить, есть ли там проблемы.
o3-mini проблемы нашла. Суть была в том, что AI CUDA Engineer также генерит и тестовый код для запуска алгоритма который получился. И в конкретном примере с обсчетом матрицы запускался обсчет всего одной строки в матрице.
Внесли фиксы в код запуска и запустили кернел он оказался ~3 раза медленнее (вместо большого ускорения).
Такие дела. Надеюсь что ребята в Сакане все перепроверят ну и мб апдейт какой выложат)
Вот тут разборки с фиксами:
https://x.com/giffmana/status/1892510741242036468
PS покайфу собираем все что с мл/ии связано в группе /channel/researchim
Qwen2.5-7B-Instruct-Tool-Planning-v0.1
Первый vikhr обученный на Function Calling а так же Tool planing!
Модель обучена преимущественно на английском и это экспериментальный чекпоинт, используйте и пишите отзывы!
🔗модель
🔗датасет
Ребята из Open-R1 продолжают рассказывать о том, что сейчас делают.
https://huggingface.co/blog/open-r1/update-2
Нагенерили датасетов (трейсы с R1 к решению мат задачек из https://huggingface.co/datasets/AI-MO/NuminaMath-1.5). По 2-4 трейса на задачу. Ну и рассказывают как собирали и чистили.
почищенные 220к задач с решениями:
https://huggingface.co/datasets/open-r1/OpenR1-Math-220k
нефильтрованные 516,499 задач и 1,209,403 решений:
https://huggingface.co/datasets/open-r1/OpenR1-Math-Raw
-
PS покайфу собираем все что с мл/ии связано в группе /channel/researchim
⚡️ QVikhr-2.5-1.5B-Instruct-r — Наша новая компактная llm теперь еще и с GRPO этапом. За счет GRPO это теперь первая reasoning модель на русском языке с честным RL .
🔗 Карточка модели:
https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r
Претренить нужно в INT4
Выпустили статью где задизайнили новый способ обучения в низкой битности: QuEST. Если вкратце, аккуратно оптимизировали как производить округление на forward и как пропускать через него градиенты на backward. И это и для весов, и для активаций.
Результаты. Обнаружили, что самым оптимальным по трейдоффу качества претрена/скорости инференса из всех типов данных является INT4. Кроме того, модель даже стабильно обучается в W1A1, то есть и веса и активации и матричное умножение в bool. И это на гиперпараметрах (оптимайзер, lr, decay) таких же как BF16: гиперпараметры не надо тюнить отдельно.
Scaling laws. Затестили, что перформанс консистентен на моделях от 30M до 800M параметров. Квантизация дает очень предсказуемые изменения в лоссе и предсказуемо скалируется.
Код, текст. Статья доступна как преринт на arXiv. Код выложен на github: любой может воспроизвести претрены. Для этих экспериментов достаточно всего одной ноды с 8xH100!
Нынче выходит много работ по квантизации LLMок, но чтобы и веса, и активации и претрен - не так много.
Ребятки из HF выкатили небольшой постик по текущему прогрессу с Open-R1
https://huggingface.co/blog/open-r1/update-1