seeallochnaya | Unsorted

Telegram-канал seeallochnaya - Сиолошная

62062

Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy

Subscribe to a channel

Сиолошная

Ну и давайте чтоб два раза не вставать, сразу ещё про другой бенчмарк поговорим, LiveBench. Как можно догадаться по названию, его хотели сделать «актуальным» и валидировать модели на новых свежих примерах. Его регулярно обновляют, убирая старые задачи и добавляя новые. Вот что пишут сами авторы: «LiveBench разработан для ограничения потенциального запоминания данных путем ежемесячной публикации новых вопросов, а также путем включения задач, основанных на недавно опубликованных наборах данных, статей с arXiv, новостных статьях итд».

Например, для программирования (колонка Coding) там используются свежие задачи с площадок Leetcode и AtCoder, которые хоть и не всегда прям супер-ультра уникальные, но всё же лучше, чем задачи, которые точно в такой же формулировке уже были в интернете 5-6 лет назад. А по математике доливают задачи с только что прошедших олимпиад (там-то авторы обычно прям очень сильно заточены на то чтобы давать что-то абсолютно новое и неповторяющееся; и задачи проходят много циклов проверки и доработки — ну по крайней мере такое у меня представление, а я до всероса даже не доходил).

o1 уверенно занимает первую строчку, в некоторых колонках с большим отрывом от конкурентов (особенно заметно в Reasoning — сюда входят в том числе загадки Эйнштейна, но OpenAI почти наверняка тренировались на их вариациях, чтобы развивать рассуждения моделей).

Значимые цифры у других моделей также постарался выделить.

Детали о всех типах задач в каждой колонке можно прочитать вот тут.

Читать полностью…

Сиолошная

Появились идейки 2 мини-проектов с LLM (по сути чуть-чуть пошатать существующие бенчмарки и относительно немного пописать код). Суммы на эксперименты там достаточно маленькие, могу выдать кредиты, если нужно. Не думаю, что на занятия уйдет большее 10-12 часов. Цель исключительно просветительская, никакой коммерции, и все результаты/инсайды будут открыты.

Но вот не знаю, как отобрать двух (или более?) людей, с кем работать. Код там должен быть очень простой, большую его часть почти наверняка может написать Cursor или o1.

Какие у вас есть идеи, как можно выбрать людей, по каким критериям? Не хочется оценивать по времени реакции (первые под постом) или по акткивности на гитхабе/Kaggle, и хочется сделать это быстро, без мороки.

Читать полностью…

Сиолошная

Вторая заметка, про цену использования o3:
— сам по себе бенчмарк подразумевает, что нужно достигнуть определённого уровня (75%) с учётом ограничения на вычислительные мощности, конвертированные в доллары ($10000 за 500 задач, 400 общедоступных + 100 секретных; $20 за задачу, в среднем человеку платили где-то $4-5)
— на ARC свежая модель OpenAI тестировалась двумя способами: чтобы уложиться в это ограничение, и чтобы пофлексить мускулами и показать наилучший возможный результат, потратив гораздо, нет, ГОРАЗДО больше денег.
— первый сетап, чтобы уложиться в $20 на задачу: модель параллельно и независимо генерирует 6 вариантов ответа, и затем из них выбирается один или два, который появлялся чаще всего (вообще ARC позволяет и людям делать 2 попытки, и обычно модели замеряют также, а тут не уточнили; по умолчанию считаю, что тоже 2, но это не важно).
— при этом цена использования o3 не сообщалась, и при расчётах используются цены на o1 (ведь она уже выпущена). Я делаю аккуратное предположение, что скорее всего модель будет стоить столько же, и что она, видимо, имеет примерно те же самые размеры (по крайней мере количество активных параметров). Увидим в январе-феврале '25-го, тут вообще спекуляция.
— для 100 приватных задач модель сгенерировала 33 миллиона токенов решений, то есть каждое решение (из 6 для задачи) в среднем имело длину 33M / 100 / 6 = 55'000 токенов, примерно 100 страниц текста. Жаль, что не показали результаты замера с генерацией одного решения.
— кажется, что 100 страниц это очень много и «модели очень глупые раз нужно столько писать» (тупейший аргумент кста), но на самом деле это может снова быть связано с форматом входных данных. Каждая клетка в сетке для задачи — это одна цифра плюс запятая. Сетка 20x20 квадратов — это уже 400+ токенов, страница текста в представлении LLM.
— и вот при таком подходе получилось 75%, планка взята, никаких суперультрабезумных затрат в миллионы долларов нет.
— Что плохо: мне не удалось найти, какие настройки o3 использовались. OpenAI показывали, что и для o1, и для o3 есть настройка длины и интенсивности цепочек рассуждений (low, medium и high), чтобы контролировать цену. Больше платишь = модель рассуждате дольше = ответы лучше. Аккуратно предположу, что 55'000 токенов — это средний режим рассуждений (он стоит у o1 пол умолчанию), не очень коротко, но и не очень долго.
— теперь к флекс-режиму. Он отличается тем, что вместо 6 решений генерируется 1024, и уже среди них выбирается одно или два самых популярных. Отсюда увеличение в ~170 раз (1024 / 6), в том числе и по цене: вместо $10'000 нужно потратить $1.7M. Это приносит свои плоды — качество вырастает с 75.7% до 87.5%. Обратите внимание, что это не «87.5% при возможности отправить 1024 ответа»: ответов отправляется 1 или 2, и они выбираются из этого множества генераций автоматически, без вмешательства человека и без доступа к истинному ответу. Вам не нужно в жизни генерировать и отсматривать столько решений.

Так что результаты, сравнимые со средними человеческим, можно получать в рамках относительно разумных затрат.

UPD к предыдущему посту: меня поправили и указали, что 300 задач для тренировки — это отдельные задачи, выделенные именно для тренировки, не связанные с 400, на которых мерили качество (но для них ответы всё равно доступны). Это никак не меняет канву повествования, кроме как подкрепляет тезис, что эти 400 и новые 100 сильно отличаются (так как качество просаживается, но всё равно остаётся высоким).

Читать полностью…

Сиолошная

...и на 13й день сказал Sama: да пусть каждый подписчик ChatGPT, даже за $20, получит возможность генерировать видео (в приоритетной очереди) в Sora без ограничений

✨ да начнётся креатив 💫

Читать полностью…

Сиолошная

😭 песок по бенчмаркам на уровне людей

Но нам всё ещё нужно сделать его плавление и добавление смесей более дешёвыми

Читать полностью…

Сиолошная

Подаёмся на раннее тестирование на безопасность тут: https://openai.com/index/early-access-for-safety-testing/

Читать полностью…

Сиолошная

o3-mini на математике с разными длинами цепочек рассуждений

Читать полностью…

Сиолошная

Цены на прогон модели на ARC Benchmark

Шкала OX — логарифмическая 👀

o3 low не выглядит как очень дорогая

Читать полностью…

Сиолошная

Для тех, кто не понимает в бенчмарках:
все цифры которые показывают — невероятные, немыслимые полгода назад. Например, ARC использовался долгое время как доказательство того, что модели не могут думать. Мол, если могут — чего ж они так плохо решают? Ну, вот...решают...

Читать полностью…

Сиолошная

метрики на свежем бенчмарке неопубликованных задач, про которые я писал тут

Читать полностью…

Сиолошная

Программисты не нужны

Читать полностью…

Сиолошная

early evals of o3 ЧТО?

Читать полностью…

Сиолошная

3 дня назад в чате писал, что от 2025-го года у меня пока главное ожидание — это ни GPT-5, ни Claude 4, ни LLAMA 5o, а o2 (pro, если будет). Хотел оставить этот пост на конец года и отправить под НГ.

Почему o2:
1) она будет обучена поверх базовой модели Orion (GPT-5), то есть сама по себе мощнее, лучше понимать картинки и тексты, иметь больше знаний, общаться на разных языках ещё лучше. Это само по себе вкупе с процессом дообучения o1 принесёт приумножающиеся плоды
2) o1 — самая первая модель новой линейки, в которой некоторые вещи могли быть сделаны просто так, потому что на тщательное тестирование и проверки не было времени. Или какие-то вещи не сделаны вовсе. Поэтому осталась куча так называемых low hanging fruits, которые в релиз следующей модели уже попадут.
3) при релизе o1 OpenAI показывали два графика масштабирования качества от количества ресурсов: один — от длины цепочки рассуждений, а другой — от длительности самого процесса дообучения, когда поверх базовой модели «прививаются» рассуждения. Больше задач, больше возможных вариантов, больше всего — и как результат лучше модель. Так как у OpenAI уже освободились ресурсы от тренировки Orion, то в эту часть обучения можно будет вбухать на порядок больше мощностей, что даже при неизменных длинах цепочек рассуждений улучшит результаты по всем направлениям ещё на сколько-то
4) как результат всего вышеперечисленного — более длительные цепочки рассуждений, потенциально покрывающие более широкий набор задач (условно сейчас 3-5 минут, а станет 10 или даже 15-20 минут).

Очень условно, если o1 можно воспринимать как хоть и законченное, но демо технологии, то o2 будет сформированным продуктом.

===

TheInformation пишут, что OpenAI рассматривает возможность пропустить o2 и перейти сразу к o3, но не по тем причинам, которые вы могли придумать — всё дело в конфликте имён с британским телекоммуникационным провайдером. Некоторые руководители внутри компании уже называют эту модель o3. Столько шуток про «не хватает как кислорода» потеряем...

===

Вчера на стриме OpenAI упомянули, что сегодня, в последний день презентации, нас ждёт большой сюрприз; и будет присутствовать CEO компании Sam Altman (он пропускал менее приоритетные дни). «ho ho ho 🎅 увидимся завтра» — написал он в Твиттере, а после дал одну (возможно, саркастическую) подсказку: «должен был сказать oh oh oh».

И началось, кто-то в этом видит намёк на анонс или даже релиз Orion (в поясе Ориона, в честь которого назван проект GPT-5, 3 звезды), кто-то — на целых три релиза (Orion, Operator, Omnimodal), кто-то в свете новостей про переименование o2 в o3 пишет свои догадки про свежую модель с рассуждениями. В последнее я точно не верю, ну не должно быть такой быстро смены поколений. В GPT-5 без 4.5 персонально мне верится с трудом (хотя чисто в теории может быть). А Operator планировали показать в январе.

Ну а как будет на самом деле, и чьи домысли были ближе всего к реальности — узнаем сегодня в 21:00 по Москве. Рекомендую прийти, а не пропустить, как прошлые (скучные) демо-дни.

Читать полностью…

Сиолошная

В API Google Незаметно появилась модель с интересным названием: gemini-2.0-flash-thinking-exp

Описание:
Best for
- Multimodal understanding
- Reasoning
- Coding

Use case
- Reason over the most complex problems
- Show the thinking process of the model
- Tackle difficult code and math problems

Knowledge cutoff: Aug 2024


ждём официального анонса и метрик...

(правда мы ещё цен не знаем на gemini flash 2.0, моя ставка что она в 2-4 раза дороже flash1.5, так что конкретно эта моделька может быть ещё дороже)

Играться тут

UPD: ведущие лица компании уже отписались в твиттере, но никто не выложил результаты бенчмарков. Модель доступна в API (с.. лимитами бесплатного тира), через сутки будут первые результаты.

Читать полностью…

Сиолошная

Я думал, что про это внятно и подробно напишет Денис или ещё кто, а я репостну, но нет — поэтому мучайтесь (от голода) и вы.

Вот генерации видео, где пара рук нарезает сочный стейк. В левом верхнем углу новая свежая модель Google Veo 2.0, анонсированная вчера, на фоне других моделей. Доступ пока есть у очень узкой географии и по заявкам.

Какая генерация понравилась вам больше?

Источник видео

Другие завораживающие примеры и сравнения можете посмотреть в официальном блоге. Многие выглядят куда лучше, чем у Sora (да ещё и могут генериться в 4k)

Читать полностью…

Сиолошная

Уже пару раз в канале писал про Aider, открытого AI-ассистента для написания кода, поддерживающего почти всех LLM провайдеров. Для того, чтобы отслеживать тренды в области и давать рекомендации/советы пользователям касательно выбора моделей, создатель придумал несколько бенчмарков по программированию на внесение изменений в код.

Однако прошлый основной бенчмарк за +-годик уже немного устарел, потому разработчик решил сделать новый. Очень большая доля тестовых датасетов по программированию — на Python, что не совсем точно отражает качество работы в менее популярных языках. Теперь же бенчмарк содержит 225 задач на C++, Go, Java, JavaScript, Python и Rust. Это самые сложные задачи с образовательной площадки Exercism (не реклама, я впервые слышу про этот сайт). Минус тут, как можно понять по последнему предложению, что это задачи а) открытые, выложенные в интернет б) обучающие, то есть скорее всего часть из них повторяется и обсуждается на других сайтах.

Но имеем что имеем, всё же делать с нуля бенчмарк с уникальными и написанными с нуля задачами на 200+ примеров — дело достаточно времязатратное. С проверкой моделей всё хуже и хуже, так как нужно нанимать очень высококвалифицированных специалистов, чтобы делать актуальный тест — вон как в FrontierMath нанимали ведущих исследователей в математике, вплоть до лауреатов Филдсовской премии.

Тем не менее, давайте смотреть на результаты. o1 от OpenAI тут существенно обгоняет всех подряд. Свежая gemini-exp-1206 на уровне с o1-mini, gemini-2.0-flash решает лишь 22%, что меньше Haiku 3.5. Внизу неожиданно волокётся gpt-4o с 15% решений, это немного неожиданно. Но если принимать за правду спекуляцию, что o1 обучена поверх той же базовой модели, что 4o, то становится заметен результат нового подхода к обучению от компании, приводящий к существенному улучшению (ну это мы по всем остальным бенчмаркам заметили).

Читать полностью…

Сиолошная

Давайте ещё поговорим про цену. Пусть даже сейчас $20 за задачу кажется большой суммой. Нет оснований полагать, что цены на модели уровня o3 в течение года не упадут в 5 и более раз. На горизонте 5 лет я КОНСЕРВАТИВНО ожидаю, что цены снизятся более чем в 25 раз (так ещё и модели поумнеют), основные причины:

— текущая маржа всех в цепочке оооочень большая. Основная стоимость тренировки и применения сеток — это чипы, а не электричество или человеческий труд (и эта доля будет расти). Nvidia продаёт карты с гросс маржой 75%, сколько-то ещё отстегивает себе Microsoft.

— вот тут я репостил расчёты исследователя из Google об экономике инференса модели gpt-4o. Там получалось, что наценка для нас с вами в 50 раз))) я чуть не согласен с расчётом, но порядок величин такой же. Представляете, насколько самим OpenAI и другим компаниям легко себе миллиарды страниц синтетики генерировать?)

— у модели нет конкурентов (ща эксперты в комментариях расскажут как они на LLAMA-2-7B получают ответы лучше GPT-5), цены задирают. Как только релизнутся Gemini и Claude — как и в случае с GPT-4, пойдет спад цены (см. пункт выше, есть куда ужиматься)

— как только станет понятно, насколько o3 хороша в экономически важных задачах определённого рода (программирование, юриспруденция, медицина, etc) — люди будут готовы и больше $1000 за задачу выкладывать, что ещё больше разгонит индустрию железа для минимизации цен на инференс моделей

— GPU и специальные чипы не стоят на месте, и в пересчёте на доллар мощности прибавляются и прибавляются

— модели научатся оптимизировать, условная o5-mini может быть лучше большой o3 в задачах, тесно связанных с рассуждениями (o3-mini вот в программировании на ряде бенчмарков, показанных OpenAI, обходит полноценную o1)

— И как саммари всего вышенаписанного: GPT-4 подешевела в 5+ раз за 14 месяцев (понятно, что это другая модель, но качество-то на абсолютном большинстве задач выросло)

Так что это релиз стоит рассматривать исключительно с точки зрения возможностей, которые будут скоро доступны по крайне низким ценам. Любая критика, сводящаяся к «ну да норм но $6000 за задачу которую ребёнок решает?» банально неуместна. Человек её высказывающий и использующий как основную имеет меньше интеллекта, чем o3 😀

Читать полностью…

Сиолошная

Проснулись-потянулись, изучили детали тестирования модели o3. К сожалению, много интересной информации есть только про замеры на ARC-AGI, поэтому про него и будем говорить. Во первых, вот четыре моих поста, которые рассказывают идею, заложенную создателем теста, и некоторый бэкграунд о том, насколько хорошо такие задачи решались (и почему не решались): раз, два, три, четыре. Последние два опциональны, первые два рекомендую к ознакомлению перед дальнейшим чтением.

Итак, сходу две важные заметки.
Первая:
— в тренировочную выборку o3 добавили 75% тренировочной выборки ARC (300 задач из 400 доступных). То есть модель точно знакома с форматом заданий, и примерно понимает типы преобразований паттернов в датасете. Тренироваться на тренировочной выборке — это не проблема, она для этого и существует. В эпоху до LLM, да и в её первые годы так всегда делали, только примеров было куда больше, потому что глупые модели не могли быстро выучиться
— одной из моих основных критик ARC'а было как раз то, в каком формате подаются данные в модели (`[[0, 1, 0, 0, 2, 0, ...], [2, 0, 1...],...]`, каждая цифра — отдельный цвет квадратика). Это сильно усложняет восприятие задач моделью и обнаружение пространственных паттернов; у нас над этим мозга, натренированная на миллиардах секунд визуальной и пространственной информации.
— так что добавление примеров в тренировку — это, в моём представлении, попытка показать модели, как понимать входные данные. OpenAI говорят, что они не дообучали модель никак отдельно, то есть эти 300 примеров были добавлены вместе с сотнями тысяч других задач, от программирования до математики. Та же модель, что проходит ARC, применялась для всех остальных замеров, никакой специально заточенной версии нет, это общая модель.
— сам автор бенчмарка, François Chollet, тоже не видит проблем с использованием 300 тренировочных задач для... тренировки.
— результаты, которыми хвастались OpenAI, получены на сотне других задач, тестовых и полу-приватных. Более того уже давно известно, что эти задачи содержат другие паттерны, которые сложнее в том числе и для людей (померили, насколько много задач решают бычные люди тут и там, и оказалось, что во втором случае процент меньше). Собственно, François так и задумывал: он хотел тестировать, что модели могут находить и комбинировать новые паттерны на лету, в его представлении это и было отражением интеллекта
— считаю важным отметить, что возможность закинуть любые задачи, для которых существует верифицируемый ответ, в процедуру тренировки o1/o3 моделей, так, что это принесёт плоды и ничего не сломает — это очень круто, так как показывает обобщаемость (и вместе с тем ограниченность) метода
— закономерно, результаты на 400 задачах лучше (ведь модель видела 300 из них, в том числе и ответы), но на новой сотне они тоже очень высокие: 87.5% (я не знаю, как получилось пол прцоента при 100 задачах, не спрашивайте). В среднем, участвовавший в онлайн-разметке человек решает 75% (хотя по другим данным 60%, так что задачи точно не «такие легкие»).
— Итого: на этой сотне новых задач o3 показывает феноменальные результаты, которые очень удивили авторов бенчмарка. Они не были к этому готовы, потому пишут: «Это не просто постепенное улучшение, а настоящий прорыв, знаменующий качественный сдвиг в возможностях ИИ по сравнению с прежними ограничениями LLM. o3 — это система, способная адаптироваться к задачам, с которыми она никогда раньше не сталкивалась». К сожалению, мы не знаем, является ли o3 системой (из нескольких компонент) или же это просто одной LLM, которая пишет оооочень длинные цепочки рассуждений, сама себя проверяет и приходит к ответу. Для o1 это верно, и если верно для o3, то это безумно круто.

И вдобавок:
— o3 показывает результаты гораздо лучше, чем системы, разработанные в рамках соревнований за миллион долларов в этом году (писал тут). А там люди не то что на 400 тренировочных примерах обучали свои модели, они генерировали СОТНИ ТЫСЯЧ синтетических примеров, и уже на этом тренировались (200 и 400 тысяч вот в этой статье).

Читать полностью…

Сиолошная

Мужик сказал, мужик чуть-чуть опоздал (скрин от 14-го мая 2024-го, прошло 7.33 месяца, а не 6).

💪

На скрине: известный критик нейросетей Gary Marcus показывает результаты gpt-4o в день релиза и говорит, что прогресса нет и ждать уже нечего. Ему отвечает Mark, в yolo-стиле, попросив напомнить об этом через 6 месяцев.

Читать полностью…

Сиолошная

Забавные моменты:
* получить 91% на 400 примерах public arc-agi стоило x172 больше ресурсов чем на 82%. Похоже больше ляма баксов (6677*172 = 1148444) если в деньгах.
* авторы ARC-AGI все же не думают что это AGI.

😏

Читать полностью…

Сиолошная

o3-mini планируют запустить в конце января, и o3 немногим после этого. Чем больше тестировщиков безопасности будет, тем быстрее станет доступно всем

НА ЭТОМ — ВСЁ!

Читать полностью…

Сиолошная

также в их твиттере косты на модель, o3 стоит 1,5k$ судя по графику 🙂

Читать полностью…

Сиолошная

Метрики o3-mini по сравнению со старшей версией в задачах на программирование

Как и у o1, доступно несколько режимов рассуждений (влияет на цену и длительность).

o3-mini будет сильно дешевле и быстрее, чем o3 (очевидно), и предложит невероятные навыки за свою цену.

Читать полностью…

Сиолошная

ARC бенчмарк — В С Ё!

Это очень HUGE, метрики больше чем у людей на закрытых данных, которые "показывают что модели не могут думать"

Читать полностью…

Сиолошная

Математика и задачи со свежего AIME

Читать полностью…

Сиолошная

Две модели, o3 и o3-mini, публично доступно не будет, только для тестирования на безопасность (mini-версия)

Читать полностью…

Сиолошная

Стрим OpenAI через 55 минут тут: https://www.youtube.com/live/SKBG1sqdyIU

Будет Sama, CEO компании, Mark Chen, Head of frontiers research, и Hongyu Ren, "Creator of OpenAI o1-mini; Foundational contributor to OpenAI o1. Leads of GPT-4o mini; Core contributor to GPT-4o. "

Читать полностью…

Сиолошная

Уходит эпоха — из OpenAI уходит Alec Radford, один из самых ранних и известных (и непубличных) исследователей. Он был первым автором статей про GPT-1 и GPT-2, а также работы Unsupervised sentiment neuron, напрямую им предшествующей.

В четверг он сообщил коллегам, что уходит, чтобы продолжить независимые и самостоятельные исследования. Alec написал, что планирует сотрудничать с OpenAI, а также с другими разработчиками ИИ-моделей.

Radford носит легендарный характер — о его блестящей интуиции исследователя и инженера ходит много баек (и все правдивые).

Читать полностью…

Сиолошная

Сегодня на ежедневной презентации OpenAI вроде и не показали ничего важного, что одномоментно вызывает восторг, но:

— полноценная o1 теперь в API (не pro), правда пока доступна только пользователям с максимальным уровнем аккаунта
— o1 поддерживает структурированную генерацию по заданной схеме (это чтобы не было проблем с чтением ответов на бэкенде) и принимает на вход картинки
— длина контекста 200'000 токенов, при этом за одну генерацию ограничение в 100'000 на выход (ооооочень много)
— цена как у preview, однако обещают, что модель теперь в среднем тратит на 60% меньше токенов на рассуждения. Не понимаю, как это работает, что не ухудшает качество
— а ещё запросы в o1 теперь кэшируются, так что копеечку можно будет сэкономить (платить в 2 раза меньше за первую часть запроса, которая совпадает с тем, что вы уже отправляли)
— есть параметр reasoning_effort, который позволяет контролировать, как долго модель будет рассуждать перед ответом; правда в документации его пока нет, так что не ясно, как работает: уссловно может быть три настройки "мало-средне-долго", а может число от 0 до 10. Посмотрим

Но так как модель доступна в API — авторы почти всех бенчмарков (у кого на кармане завалялась лишняя пачка баксов) кинутся её тестировать, а мы, соответственно, увидим, как и в чём модель суперхороша. Так что где-то через недельку сделаю пост с большими и не очень прорывами.

На картинке: прирост метрик в LiveBench-Code (там задачи регулярно обновляют, чтобы быть уверенными в новизне проблем, по которым меряют качество). Сейчас там топ-1 у Claude 3.6, 67%, а у o1, согласно замеру OpenAI, будет примерно 77%+- — если подтвердится.

Читать полностью…

Сиолошная

Ещё из этого поста узнал про ProcessBench от Qwen Team, вышедший неделю назад. Как вы могли понять из объяснения выше, очень важно, чтобы у вас был качественный оценщик — если он умеет обнаруживать ошибки почти идеально, и имеет интуицию о том, какие решения более перспективны, то это существенно улучшает оптимальность генерации десятков-сотен решений.

Вот ProcessBench и оценивает это: исследователи собрали 3400 примеров и разметили их вручную по шагам, а затем смотрели, насколько хорошо разные LLM умеют обнаруживать самый первый шаг, содержащий ошибку (или наоборот отсутствие проблем во всём решении).

Лучше всех из открытых моделей показала себя... их QwQ-32B-Preview, что не удивительно (не потому, что модель выпущена ими, а потому что она умеет рассуждать и сама по себе сильна в математике). Она правильно оценила 71.5% примеров, что больше, чем GPT-4o (61.9%), но меньше, чем o1-mini (87.9, существенно выше).

Почему это важно: с очень качественными оценщиками (верификаторами) можно запускать автоматический цикл генерации сотне решений и дообучения на самых высоко оценённых (и правильных). Предположительно, именно так и учили o1, и отсюда видно, насколько большим остаётся гэп в обучении оценщика.

Читать полностью…
Subscribe to a channel