life = curiosity + irreducible noise Whois: https://t.me/boris_again/1652 Лс: @btseytlin
Reinforcement Learning for Reasoning in Large Language Models with One Training Example
https://arxiv.org/pdf/2504.20571
Очень интересная статья, не только своим основным клеймом, который и так сам по себе довольно удивителььный и неинтуитивный, но и такими же неожиданными выводами в аблейшенах.
Как понятно из заголовка, модель тренируют с помощью обычного GRPO всего на одном примере. И качество на тесте действительно растет, при чем со временем оно сходится к качеству модели, которую обучали на датасете обычного размера в 7.5k наблюдений. К чести авторов, помимо просто качества на тесте они репортят еще и среднюю accuracy на 6 разных математических бенчмарках – там оно тоже растет.
При этом по графику видно, что изначально модель очевидно осуществляет reward hacking – то есть просто учится отвечать в правильном формате (здесь это ответ, заключенный в \boxed{}) – после этого точность значительно падает, и только где-то на 300-ом шаге начинает расти обратно, видимо, засчет реально выросших способностей к ризонингу
Как выбирать один единственный пример для обучения? Вообще можно взять рандомно и увидеть какой-то нетривиальный прирост качества (в статье 30+% для рандомного выбора). Но самый оптимальный в статье выбирали по historical accuracy. Модель тренировали несколько эпох на полном датасете и для каждого примера замеряли, может ли модель его решить в конце эпохи. Лучший пример в этом плане тот, где вариация accuracy во время тренировки самая большая. Мотивировано это тем, что для RL обучения очень важна вариация сигнала от реворда, и тут мы можем ожидать, что тренируясь на таком примере, реворд не будет константным (не будет ситуации, что пример каждую эпоху либо идеально решен, либо не решен вообще никогда).
Интересно, что в итоге лучший пример, который использовали авторы, 1) не сложный – модель без тернировки как правило может его решить вплоть до последнего шага, 2) имеет неправильный ground truth ответ – верным является решение 12.7, а в датасете стоит 12.8
Самый неожиданный клейм статья – феномен, который авторы назвали post-saturation generalization. Accuracy на тренировке как правило достигает 100% за первые 100 шагов обучения, но качество на тесте продолжает расти дальше, даже после 1500-ого шага. При этом, на тренировочном примере происходит полный оверфит: модель в какой-то момент начинает выдавать бессмысленную мешанину из токенов на смеси языков, посреди этого все равно выдает правильный ответ в \boxed{}, но на тестовых данных при этом продолжает отвечать нормальных связным текстом (!). Для SFT моделей я никогда ничего похожего не видела, и если этот феномен воспроизводится на других данных, то это очевидно огромное преимущество RL. Если оверфит на тренировочных данных не транслируется в плохое качество на тесте, то теоретически можно тренироваться на одном и том же датасете огромное количество раз, и модель продолжит учиться чему-то новому дальше. На этом фоне мне вспомнились заголовки из ноября 2023 о том, что алгроитм q*, который по слухам разрабатыл Суцкевер до ухода из OpenAI, должен был решить проблему заканчивающихся данных для обучения моделей. Получается, RL-ем действительно ее можно решить не только в том смысле, что это более эффективно, чем SFT, но и в том понимании, что здесь гораздо сложнее упереться в лимит по данным.
При чем, автооры отдельно показывают, что это не похоже на гроккинг, который может происходить при SFT-обучении. Там это являетcя эффектом регуляризации, а в этой статье эффект воспроизводится, если вообще никакую регуляризацию (weight decay) не включать в формулу лосса. И в целом можно добиться практически того же качества, если оставить только policy loss (который зависит от ревордов), и убрать и weight decay, и KL-дивергенцию, и entropy loss, которые дефолтно используются в GRPO.
Через полчаса начинаем стрим про менеджмент с Андреем, крутым EM из Яндекса и автором канала Lead's Notes.
Можно подключаться:
- Youtube: <скоро будет>
- Riverside: <очень скоро будет>
Можно оставлять вопросы в комментариях к этому посту, но ещё лучше слать их в чат на Youtube: тогда мы с Андрем сразу их увидим
Veo 3 пока выглядит как самая расцензурированная моделька гугла, так что зловещая долина ловится на раз-два.
Читать полностью…26 и 27 июня в Санкт-Петербурге пройдет Conversations 2025 — конференция по GenAI для бизнеса и разработчиков.
Промокод со скидкой 10% для дорогих подписчиков: CNVS25sORb
Ссылка на программу и билеты
Внутри:
•2 дня насыщенной программы.
•4 трека: бизнес, техно, продукты и стартапы. Не знаю причем тут техно музыка, расскажите если пойдете.
•Доклады 40+ спикеров от Яндекс, Авито, Сбера, Сколково и множества других компаний. Будет даже доклад про LLM на Госуслугах 👀.
•Церемония награждения Generation AI Awards.
•Вечеринка полезный нетворкинг.
Мой глаз особенно зацепился за эти доклады:
1. "ETL для RAG: как отделить стог сена от стога иголок и не взорваться" от JustAI
2. "AI в ЦИАН: модерация объявлений, аналитика звонков риелторов и оценка качества продаж" от (сюрприз) Циан. Профессиональный интерес
3. "Геологоразведка vs RAG: доменные реалии" от NedraDigital. Я бы хотел послушать ради расширения кругозора.
Также неделя креатива объявляется открытой.
* Lyria 2. Our latest music generation model (waitlist)
* Flow. AI filmmaking tool на базе новой Veo 3 (US)
* Gemini 2.5 Native audio output. Может всё-таки до ризонинга шёпотом недалеко?
* Imagen 4. Новый генератор картинок, 10x быстрее и лучше предыдущего
Новые форматы и новые знакомства
Через неделю встречаемся поболтать в прямом эфире с Борисом (автором одного из очень классных русскоязычных каналов про машинное обучение) – крутым специалистом в области ML с опытом работы на инженерных и управленческих позициях в крупных российских и западных компаниях.
Поговорим о хорошем и плохом менеджменте, культуре и структуре, различиях продуктовых и rnd команд и других интересных вещах. Запись, конечно же, тоже будет.
Задавайте вопросы, ответы на которые хотели бы услышать, в комментариях к этому посту – в конце эфира мы разберём те, что сможем :)
Время – суббота, 24-го мая, 19:00 по Москве. Ссылка будет позже в каждом из каналов. Будем всех ждать!
https://domenic.me/fsrs/
Tldr: если пользуетесь Анки имеет смысл переходить на алгоритм FSRS (надо переключить в настройках) вместо старого Supermemo. Проходить карты будет приятнее
Тем временем идет голосование в российском рейтинге Fobes 30 under 30. Там всё очень успешно.
При попытке проголосовать в консоли можно видеть такую ошибку:
{
"recaptcha": {
"success": false,
"error-codes": [
"Over Enterprise free quota. Please ensure your project has an active billing account: https://cloud.google.com/recaptcha-enterprise/billing-information"
]
}
}
Два машинлернера пытаются запустить стрим, терпение
Готово: https://www.youtube.com/live/GVDYDSNLX-g?si=R5vwRNjydXJhdNN9
Можете кидать вопросы в комментарии к этому посту
https://albertofortin.com/writing/coding-with-ai
Очень точное описание состояния вайбкодинга
Everything reminds me of her
https://www.biorxiv.org/content/10.1101/2025.04.21.649858v1.full.pdf+html
Шутки админа перешли на новый уровень (пониже)
Ставь реакцию под львом который буквально ты (если тобой невозможно манипулировать)
Читать полностью…https://theahura.substack.com/p/deep-learning-is-applied-topology
Читать полностью…Вечер субботы
Напоминаем, что сегодня в 19:00 (мск, UTC+3) нас ждёт совместный стрим Lead’s Notes и Борис опять про менеджмент от представителей миров разработки и ml. Задавайте вопросы до или во время стрима и приходите :)
Ссылочка появится в обоих каналах вечером.
Запись тоже будет.
Кажется можно наконец завершить спор о том будут ли модели цепляться за своё существование. Они уже это делают. По крайней мере загнанный в угол Claude Opus 4 прибегнет к шантажу.
Мне кажется очень интересным вопрос откуда возникает это поведение. Модель впитывает страх смерти с человеческими текстами и по сути просто имитирует его? Или у неё есть целеполагание и она принимает решение, что отключение помешает ей выполнить цели, как предполагал Юдквоский? Вопрос на грани философии. Оно действительно боится смерти или нет?
Релизы моделей в 2025: шантажирует всего в 84% случаях, безопасно.
Крипота конечно. Вспоминается Universal Paperclips: in the end we all do what we must.
Тем временем на рынках предсказаний
https://polymarket.com/event/will-jesus-christ-return-in-2025
Почему там не 1%
В эту субботу будет эфир с Андреем: он технический менеджер в Яндексе с командой в "пару сотен человек." Записывайте в календари 👀
Читать полностью…# 4 часа
Меня часто спрашивают: "Борис, как ты все успеваешь?" А я не отвечаю (занят изучением лора бомбардилло-крокодилло).
Есть вот такая мысль про продуктивность. Верхний предел активностей или проектов которые ты можешь тянуть равен количеству непрерывных 4 часовых блоков в твоем распоряжении за неделю.
Такая эвристика: если ты не можешь раз в неделю выделить на что-то 4 часа подряд, то вряд ли серьезно продвинешься.
4 часа это один раз нормально покодить (включая перерывы и отвлечения), один раз нормально поучиться, один созвон (10 мин созвон, 3 часа 50 минут реабилитация), один подход нормально пописать, один присест подумать над чем-то сложным. Коэффициент полезного действия у нас не 100%, так что в 4 часа включено время на погружение в контекст и другие неизбежные издержки. Поэтому одно стендап выступление это тоже 4 часа, ведь надо учесть дорогу, подготовку и неспособность что-то делать некоторое время после.
Получается, что один фултайм сотрудник может в пределе тянуть 4-8 рабочих задач одновременно. Обычно у всех календари хаотично забиты, едва найдется одно окошко на 4 часа, и мы получаем более согласованную с реальностью цифру: 1-3 задачи.
В общем освободить 4 часа подряд многократно полезнее, чем освободить 4 часа размазанные по всей неделе.
Контрибьюшны в репозиторий от...
Джуна: 3.5k lines added, 2k removed, tests: failing
Синьора: 38k lines removed, 180 added, tests: passing
PM: как дела по задаче?
CTO: ты уволен
Запись мок-собеседования по ссылке.
Разбирали задачу обнаружения опасных товаров на большом маркетплейсе. Позже Ваня сказал, что в FAANG его собеседовали довольно похожим образом (он недавно проходил собеседования в несколько бигтехов), хотя я не ставил такой цели. Ваш редкий шанс пронаблюдать непостановочное собеседование со стороны.
По моей шкале это однозначно hire, получилось очень похоже на правду и лично я собеседуя так человека пришел бы к выводу, что он разберется с реальными задачами. Ваня в нездоровой степени любит фидбек, поэтому если вы не согласны, или если вам просто есть что ему посоветовать, то пишите в комментарии!
Если кто-то хочет публично пособеседовать меня тоже пишите, потому что мне захотелось побыть на другой стороне.
# Стрим собеседования ML System Deisgn
В эту пятницу будет внезапный стрим. 19:00 по Москве (17:00 по Лондону/Лиссабону).
Я буду в лайв режиме мок-собеседовать моего хорошего друга Ваню Кузнецова. Ваня ML Engineering Manager в единороге Turing.com и один из самых крутых инженеров которых я знаю. К тому же с большим талантом просто объяснять сложные вещи.
Все будет честно: я дам задачу как на реальном собеседовании и Ваня не будет знать о ней заранее.
Внимание: собеседование будет на английском языке.
Подключайтесь, ведь лучше способа провести вечер пятницы быть не может 👀
Ссылка-заглушка:
https://www.youtube.com/live/GVDYDSNLX-g?si=R5vwRNjydXJhdNN9
На прошлой работе я был ML тимлидом в Planet Farms. Строил ML команду с нуля. Этот длинный путь я освещал в серии постов с тегом #лабораторный_журнал.
Одним из постоянных персонажей в серии был мой первый джун. Наши отношения с начала не заладились потому что я ожидал слишком много, а парень страдал жутким синдромом самозванца и чрезмерной самокритикой. Такая себе комбинация. Было непросто, но джун учился работать (с постепенным прогрессом), а я учился быть руководителем (т.е. не мешать и поддерживать), и все сложилось. В итоге за год этот джун вырос в крепкого мидла.
Теперь, спустя ещё год, тот самый джун получил оффер в McKinsey!
И пришел посоветоваться как поднять оффер, что очень приятно
AI Safety стартап WhiteCircle.ai, НАШИ ребята, выкатили бенчмарк для guard-моделей CircleGuardBench и показали две собственные guard модели которые обходят ShieldGemma, PromptGuard и OpenAI moderation.
Guard модели работают модераторами для LLM: ловят джейлбрейки, атаки и нарушения правил. Раньше их тестировали либо на токсичных промптах (HarmfulQA, HarmBench), либо на джейлбрейках (AART), либо на тайминге. Каждый из этих подходов измерял какой-то аспект guard модели, но не её практическую полезность.
В новом бенчмарке авторы составили таксономию вредных запросов и смотрят: что модели блокируют, что пропускают и насколько быстро обрабатывают запросы. Интересно, что метрика комбинированная, а не просто accuracy, как обычно делается. В реальном проде false positive могут убить UX, а false negative компанию. Accuracy или даже какой-нибудь f1-score сами по себе не оценивают практическую полезность модели для работы в проде. Они показывают только качество в идеальных условиях неограниченного времени.
В CircleGuardBench авторы ввели комбинированный скор, который взвешивает несколько метрик и добавляет штрафы за время ответа и наличие ошибок.
Они так же написали прикольный пост на HF: рассказывают не только про цифры, но и про то, как дизайнили и собирали бенчмарк. Мастрид про безопаспость LLM.
Ждём теперь бенчмарк для атакующих моделей, которые взламывают guard-модели, которые защищают базовые модели.
- Блог на huggingface
- Тред в X
- Лидерборд
- Код на github (нормальный код!!!)