seeallochnaya | Unsorted

Telegram-канал seeallochnaya - Сиолошная

56984

Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно запинено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy

Subscribe to a channel

Сиолошная

Вторая заметка, про цену использования o3:
— сам по себе бенчмарк подразумевает, что нужно достигнуть определённого уровня (75%) с учётом ограничения на вычислительные мощности, конвертированные в доллары ($10000 за 500 задач, 400 общедоступных + 100 секретных; $20 за задачу, в среднем человеку платили где-то $4-5)
— на ARC свежая модель OpenAI тестировалась двумя способами: чтобы уложиться в это ограничение, и чтобы пофлексить мускулами и показать наилучший возможный результат, потратив гораздо, нет, ГОРАЗДО больше денег.
— первый сетап, чтобы уложиться в $20 на задачу: модель параллельно и независимо генерирует 6 вариантов ответа, и затем из них выбирается один или два, который появлялся чаще всего (вообще ARC позволяет и людям делать 2 попытки, и обычно модели замеряют также, а тут не уточнили; по умолчанию считаю, что тоже 2, но это не важно).
— при этом цена использования o3 не сообщалась, и при расчётах используются цены на o1 (ведь она уже выпущена). Я делаю аккуратное предположение, что скорее всего модель будет стоить столько же, и что она, видимо, имеет примерно те же самые размеры (по крайней мере количество активных параметров). Увидим в январе-феврале '25-го, тут вообще спекуляция.
— для 100 приватных задач модель сгенерировала 33 миллиона токенов решений, то есть каждое решение (из 6 для задачи) в среднем имело длину 33M / 100 / 6 = 55'000 токенов, примерно 100 страниц текста. Жаль, что не показали результаты замера с генерацией одного решения.
— кажется, что 100 страниц это очень много и «модели очень глупые раз нужно столько писать» (тупейший аргумент кста), но на самом деле это может снова быть связано с форматом входных данных. Каждая клетка в сетке для задачи — это одна цифра плюс запятая. Сетка 20x20 квадратов — это уже 400+ токенов, страница текста в представлении LLM.
— и вот при таком подходе получилось 75%, планка взята, никаких суперультрабезумных затрат в миллионы долларов нет.
— Что плохо: мне не удалось найти, какие настройки o3 использовались. OpenAI показывали, что и для o1, и для o3 есть настройка длины и интенсивности цепочек рассуждений (low, medium и high), чтобы контролировать цену. Больше платишь = модель рассуждате дольше = ответы лучше. Аккуратно предположу, что 55'000 токенов — это средний режим рассуждений (он стоит у o1 пол умолчанию), не очень коротко, но и не очень долго.
— теперь к флекс-режиму. Он отличается тем, что вместо 6 решений генерируется 1024, и уже среди них выбирается одно или два самых популярных. Отсюда увеличение в ~170 раз (1024 / 6), в том числе и по цене: вместо $10'000 нужно потратить $1.7M. Это приносит свои плоды — качество вырастает с 75.7% до 87.5%. Обратите внимание, что это не «87.5% при возможности отправить 1024 ответа»: ответов отправляется 1 или 2, и они выбираются из этого множества генераций автоматически, без вмешательства человека и без доступа к истинному ответу. Вам не нужно в жизни генерировать и отсматривать столько решений.

Так что результаты, сравнимые со средними человеческим, можно получать в рамках относительно разумных затрат.

UPD к предыдущему посту: меня поправили и указали, что 300 задач для тренировки — это отдельные задачи, выделенные именно для тренировки, не связанные с 400, на которых мерили качество (но для них ответы всё равно доступны). Это никак не меняет канву повествования, кроме как подкрепляет тезис, что эти 400 и новые 100 сильно отличаются (так как качество просаживается, но всё равно остаётся высоким).

Читать полностью…

Сиолошная

...и на 13й день сказал Sama: да пусть каждый подписчик ChatGPT, даже за $20, получит возможность генерировать видео (в приоритетной очереди) в Sora без ограничений

✨ да начнётся креатив 💫

Читать полностью…

Сиолошная

😭 песок по бенчмаркам на уровне людей

Но нам всё ещё нужно сделать его плавление и добавление смесей более дешёвыми

Читать полностью…

Сиолошная

Подаёмся на раннее тестирование на безопасность тут: https://openai.com/index/early-access-for-safety-testing/

Читать полностью…

Сиолошная

o3-mini на математике с разными длинами цепочек рассуждений

Читать полностью…

Сиолошная

Цены на прогон модели на ARC Benchmark

Шкала OX — логарифмическая 👀

o3 low не выглядит как очень дорогая

Читать полностью…

Сиолошная

Для тех, кто не понимает в бенчмарках:
все цифры которые показывают — невероятные, немыслимые полгода назад. Например, ARC использовался долгое время как доказательство того, что модели не могут думать. Мол, если могут — чего ж они так плохо решают? Ну, вот...решают...

Читать полностью…

Сиолошная

метрики на свежем бенчмарке неопубликованных задач, про которые я писал тут

Читать полностью…

Сиолошная

Программисты не нужны

Читать полностью…

Сиолошная

early evals of o3 ЧТО?

Читать полностью…

Сиолошная

3 дня назад в чате писал, что от 2025-го года у меня пока главное ожидание — это ни GPT-5, ни Claude 4, ни LLAMA 5o, а o2 (pro, если будет). Хотел оставить этот пост на конец года и отправить под НГ.

Почему o2:
1) она будет обучена поверх базовой модели Orion (GPT-5), то есть сама по себе мощнее, лучше понимать картинки и тексты, иметь больше знаний, общаться на разных языках ещё лучше. Это само по себе вкупе с процессом дообучения o1 принесёт приумножающиеся плоды
2) o1 — самая первая модель новой линейки, в которой некоторые вещи могли быть сделаны просто так, потому что на тщательное тестирование и проверки не было времени. Или какие-то вещи не сделаны вовсе. Поэтому осталась куча так называемых low hanging fruits, которые в релиз следующей модели уже попадут.
3) при релизе o1 OpenAI показывали два графика масштабирования качества от количества ресурсов: один — от длины цепочки рассуждений, а другой — от длительности самого процесса дообучения, когда поверх базовой модели «прививаются» рассуждения. Больше задач, больше возможных вариантов, больше всего — и как результат лучше модель. Так как у OpenAI уже освободились ресурсы от тренировки Orion, то в эту часть обучения можно будет вбухать на порядок больше мощностей, что даже при неизменных длинах цепочек рассуждений улучшит результаты по всем направлениям ещё на сколько-то
4) как результат всего вышеперечисленного — более длительные цепочки рассуждений, потенциально покрывающие более широкий набор задач (условно сейчас 3-5 минут, а станет 10 или даже 15-20 минут).

Очень условно, если o1 можно воспринимать как хоть и законченное, но демо технологии, то o2 будет сформированным продуктом.

===

TheInformation пишут, что OpenAI рассматривает возможность пропустить o2 и перейти сразу к o3, но не по тем причинам, которые вы могли придумать — всё дело в конфликте имён с британским телекоммуникационным провайдером. Некоторые руководители внутри компании уже называют эту модель o3. Столько шуток про «не хватает как кислорода» потеряем...

===

Вчера на стриме OpenAI упомянули, что сегодня, в последний день презентации, нас ждёт большой сюрприз; и будет присутствовать CEO компании Sam Altman (он пропускал менее приоритетные дни). «ho ho ho 🎅 увидимся завтра» — написал он в Твиттере, а после дал одну (возможно, саркастическую) подсказку: «должен был сказать oh oh oh».

И началось, кто-то в этом видит намёк на анонс или даже релиз Orion (в поясе Ориона, в честь которого назван проект GPT-5, 3 звезды), кто-то — на целых три релиза (Orion, Operator, Omnimodal), кто-то в свете новостей про переименование o2 в o3 пишет свои догадки про свежую модель с рассуждениями. В последнее я точно не верю, ну не должно быть такой быстро смены поколений. В GPT-5 без 4.5 персонально мне верится с трудом (хотя чисто в теории может быть). А Operator планировали показать в январе.

Ну а как будет на самом деле, и чьи домысли были ближе всего к реальности — узнаем сегодня в 21:00 по Москве. Рекомендую прийти, а не пропустить, как прошлые (скучные) демо-дни.

Читать полностью…

Сиолошная

В API Google Незаметно появилась модель с интересным названием: gemini-2.0-flash-thinking-exp

Описание:
Best for
- Multimodal understanding
- Reasoning
- Coding

Use case
- Reason over the most complex problems
- Show the thinking process of the model
- Tackle difficult code and math problems

Knowledge cutoff: Aug 2024


ждём официального анонса и метрик...

(правда мы ещё цен не знаем на gemini flash 2.0, моя ставка что она в 2-4 раза дороже flash1.5, так что конкретно эта моделька может быть ещё дороже)

Играться тут

UPD: ведущие лица компании уже отписались в твиттере, но никто не выложил результаты бенчмарков. Модель доступна в API (с.. лимитами бесплатного тира), через сутки будут первые результаты.

Читать полностью…

Сиолошная

Я думал, что про это внятно и подробно напишет Денис или ещё кто, а я репостну, но нет — поэтому мучайтесь (от голода) и вы.

Вот генерации видео, где пара рук нарезает сочный стейк. В левом верхнем углу новая свежая модель Google Veo 2.0, анонсированная вчера, на фоне других моделей. Доступ пока есть у очень узкой географии и по заявкам.

Какая генерация понравилась вам больше?

Источник видео

Другие завораживающие примеры и сравнения можете посмотреть в официальном блоге. Многие выглядят куда лучше, чем у Sora (да ещё и могут генериться в 4k)

Читать полностью…

Сиолошная

Вчера HuggingFace 🤗 выпустили блогпост под названием «Scaling test time compute with open models». Их посты как всегда написаны очень понятно и последовательно, и обильно сопровождены пояснительными иллюстрациями.

Исследователи выбрали путь, альтернативный оному у o1: вместо увеличения длины цепочек рассуждений они генерировали больше самих решений, из которых отбирали потенциально правильные. Так что формально говорить «подольше подумать» верно, но средняя длина таких ответов не сильно больше простых ответов, генерируемых их моделями сходу, без всяких надстроек.

Основной результат: они взяли LLAMA-3 на 3 миллиарда параметров, также взяли Llama3.1-8B-PRM-Deepseek-Data, 8 миллиардную модель, обученную выдавать оценки шагам неполных решений. Под «оценкой» тут подразумевается некоторая величина, которая коррелирует с вероятностью частичного решения стать правильным. Условно если где-то LLM написала 2+2=5 (явная ошибка), то оценка будет низкая — потому что есть ошибка в подсчётах.

И эти две модели скрестили — первая маленькая генерировала десятки-сотни решений, а вторая оценивала их. Но оценивать можно по разному:
— всё решение в самом конце
— каждый промежуточный шаг (и отсекать самые неправильные)

Второй способ показывает себя лучше при масштабировании. Итого связка модель на 3 миллиарда параметров + проверяльщик на 8 миллиардов при генерации 256 решений показала себя как старшая версия LLAMA 3 на 70 миллиардов.

Эта работа — ни в коей мере не попытка воспроизвести о1-подобные модели. Сами авторы сходу признаются, что они лишь пробовали повторить вот эту статью от DeepMind, где пытались ответить на вопрос: можно ли за счёт большего количества генераций маленькими получать результат, схожий с большими моделями, при этом затратив меньше вычислительный бюджет? (правда по итогу сравнений именно по вычислениям исследователи из HF не делают, не ясно, 256 генераций 3B моделью с 8B-оценщиком — больше или меньше, чем 1 запуск 70B модели?).

А дальше, я полагаю, они возьмутся за реимплементацию вот этой статьи (тоже от DeepMind), где делается следующий логический шаг: тренировка на сгенерированных и отобранных правильных решениях.

На картинке: рост качества описанной системы при увеличении количества генерируемых (и оцениваемых) решений.

Читать полностью…

Сиолошная

Интересный, показательный и свежий пример.

В октябре вышла статья, которая напугала какое-то количество людей (после того, как в декабре её разнесли разные новостные аутлеты). TLDR: утверждалось, что кухонные приборы, сделанные из чёрного пластика, очень токсичны (они были загрязнены антипиреном из-за ошибки при переработке сырья).

Оказалось, что в статье есть математическая ошибка, и на самом деле всё ок.

Ethan Mollick скормил оригинальную 10-страничную статью o1 (не pro), и дал очень простой промпт: «Тщательно проверь математику в этой статье». Через 23 секунды модель написала ответ, в котором и указала на ошибку. Причём, так как и статья, и новости с её разбором свежие, а o1 не имеет доступа в интернет (да и к любым другим инструментам, даже калькулятору), то это именно модель смогла справиться с задачей.

Sonnet 3.6 справился со второго раза, когда ему дали подсказку, где искать.

Вообще этот пример показывает, как может измениться наука через лет 5 — не такое далёкое будущее, кстати — когда модели будут и гораздо умнее, и существенно дешевле (хотя такой разовый прогон на о1 так и так стоит меньше $0.5, а будет совсем копейки).

Читать полностью…

Сиолошная

Проснулись-потянулись, изучили детали тестирования модели o3. К сожалению, много интересной информации есть только про замеры на ARC-AGI, поэтому про него и будем говорить. Во первых, вот четыре моих поста, которые рассказывают идею, заложенную создателем теста, и некоторый бэкграунд о том, насколько хорошо такие задачи решались (и почему не решались): раз, два, три, четыре. Последние два опциональны, первые два рекомендую к ознакомлению перед дальнейшим чтением.

Итак, сходу две важные заметки.
Первая:
— в тренировочную выборку o3 добавили 75% тренировочной выборки ARC (300 задач из 400 доступных). То есть модель точно знакома с форматом заданий, и примерно понимает типы преобразований паттернов в датасете. Тренироваться на тренировочной выборке — это не проблема, она для этого и существует. В эпоху до LLM, да и в её первые годы так всегда делали, только примеров было куда больше, потому что глупые модели не могли быстро выучиться
— одной из моих основных критик ARC'а было как раз то, в каком формате подаются данные в модели (`[[0, 1, 0, 0, 2, 0, ...], [2, 0, 1...],...]`, каждая цифра — отдельный цвет квадратика). Это сильно усложняет восприятие задач моделью и обнаружение пространственных паттернов; у нас над этим мозга, натренированная на миллиардах секунд визуальной и пространственной информации.
— так что добавление примеров в тренировку — это, в моём представлении, попытка показать модели, как понимать входные данные. OpenAI говорят, что они не дообучали модель никак отдельно, то есть эти 300 примеров были добавлены вместе с сотнями тысяч других задач, от программирования до математики. Та же модель, что проходит ARC, применялась для всех остальных замеров, никакой специально заточенной версии нет, это общая модель.
— сам автор бенчмарка, François Chollet, тоже не видит проблем с использованием 300 тренировочных задач для... тренировки.
— результаты, которыми хвастались OpenAI, получены на сотне других задач, тестовых и полу-приватных. Более того уже давно известно, что эти задачи содержат другие паттерны, которые сложнее в том числе и для людей (померили, насколько много задач решают бычные люди тут и там, и оказалось, что во втором случае процент меньше). Собственно, François так и задумывал: он хотел тестировать, что модели могут находить и комбинировать новые паттерны на лету, в его представлении это и было отражением интеллекта
— считаю важным отметить, что возможность закинуть любые задачи, для которых существует верифицируемый ответ, в процедуру тренировки o1/o3 моделей, так, что это принесёт плоды и ничего не сломает — это очень круто, так как показывает обобщаемость (и вместе с тем ограниченность) метода
— закономерно, результаты на 400 задачах лучше (ведь модель видела 300 из них, в том числе и ответы), но на новой сотне они тоже очень высокие: 87.5% (я не знаю, как получилось пол прцоента при 100 задачах, не спрашивайте). В среднем, участвовавший в онлайн-разметке человек решает 75% (хотя по другим данным 60%, так что задачи точно не «такие легкие»).
— Итого: на этой сотне новых задач o3 показывает феноменальные результаты, которые очень удивили авторов бенчмарка. Они не были к этому готовы, потому пишут: «Это не просто постепенное улучшение, а настоящий прорыв, знаменующий качественный сдвиг в возможностях ИИ по сравнению с прежними ограничениями LLM. o3 — это система, способная адаптироваться к задачам, с которыми она никогда раньше не сталкивалась». К сожалению, мы не знаем, является ли o3 системой (из нескольких компонент) или же это просто одной LLM, которая пишет оооочень длинные цепочки рассуждений, сама себя проверяет и приходит к ответу. Для o1 это верно, и если верно для o3, то это безумно круто.

И вдобавок:
— o3 показывает результаты гораздо лучше, чем системы, разработанные в рамках соревнований за миллион долларов в этом году (писал тут). А там люди не то что на 400 тренировочных примерах обучали свои модели, они генерировали СОТНИ ТЫСЯЧ синтетических примеров, и уже на этом тренировались (200 и 400 тысяч вот в этой статье).

Читать полностью…

Сиолошная

Мужик сказал, мужик чуть-чуть опоздал (скрин от 14-го мая 2024-го, прошло 7.33 месяца, а не 6).

💪

На скрине: известный критик нейросетей Gary Marcus показывает результаты gpt-4o в день релиза и говорит, что прогресса нет и ждать уже нечего. Ему отвечает Mark, в yolo-стиле, попросив напомнить об этом через 6 месяцев.

Читать полностью…

Сиолошная

Забавные моменты:
* получить 91% на 400 примерах public arc-agi стоило x172 больше ресурсов чем на 82%. Похоже больше ляма баксов (6677*172 = 1148444) если в деньгах.
* авторы ARC-AGI все же не думают что это AGI.

😏

Читать полностью…

Сиолошная

o3-mini планируют запустить в конце января, и o3 немногим после этого. Чем больше тестировщиков безопасности будет, тем быстрее станет доступно всем

НА ЭТОМ — ВСЁ!

Читать полностью…

Сиолошная

также в их твиттере косты на модель, o3 стоит 1,5k$ судя по графику 🙂

Читать полностью…

Сиолошная

Метрики o3-mini по сравнению со старшей версией в задачах на программирование

Как и у o1, доступно несколько режимов рассуждений (влияет на цену и длительность).

o3-mini будет сильно дешевле и быстрее, чем o3 (очевидно), и предложит невероятные навыки за свою цену.

Читать полностью…

Сиолошная

ARC бенчмарк — В С Ё!

Это очень HUGE, метрики больше чем у людей на закрытых данных, которые "показывают что модели не могут думать"

Читать полностью…

Сиолошная

Математика и задачи со свежего AIME

Читать полностью…

Сиолошная

Две модели, o3 и o3-mini, публично доступно не будет, только для тестирования на безопасность (mini-версия)

Читать полностью…

Сиолошная

Стрим OpenAI через 55 минут тут: https://www.youtube.com/live/SKBG1sqdyIU

Будет Sama, CEO компании, Mark Chen, Head of frontiers research, и Hongyu Ren, "Creator of OpenAI o1-mini; Foundational contributor to OpenAI o1. Leads of GPT-4o mini; Core contributor to GPT-4o. "

Читать полностью…

Сиолошная

Уходит эпоха — из OpenAI уходит Alec Radford, один из самых ранних и известных (и непубличных) исследователей. Он был первым автором статей про GPT-1 и GPT-2, а также работы Unsupervised sentiment neuron, напрямую им предшествующей.

В четверг он сообщил коллегам, что уходит, чтобы продолжить независимые и самостоятельные исследования. Alec написал, что планирует сотрудничать с OpenAI, а также с другими разработчиками ИИ-моделей.

Radford носит легендарный характер — о его блестящей интуиции исследователя и инженера ходит много баек (и все правдивые).

Читать полностью…

Сиолошная

Сегодня на ежедневной презентации OpenAI вроде и не показали ничего важного, что одномоментно вызывает восторг, но:

— полноценная o1 теперь в API (не pro), правда пока доступна только пользователям с максимальным уровнем аккаунта
— o1 поддерживает структурированную генерацию по заданной схеме (это чтобы не было проблем с чтением ответов на бэкенде) и принимает на вход картинки
— длина контекста 200'000 токенов, при этом за одну генерацию ограничение в 100'000 на выход (ооооочень много)
— цена как у preview, однако обещают, что модель теперь в среднем тратит на 60% меньше токенов на рассуждения. Не понимаю, как это работает, что не ухудшает качество
— а ещё запросы в o1 теперь кэшируются, так что копеечку можно будет сэкономить (платить в 2 раза меньше за первую часть запроса, которая совпадает с тем, что вы уже отправляли)
— есть параметр reasoning_effort, который позволяет контролировать, как долго модель будет рассуждать перед ответом; правда в документации его пока нет, так что не ясно, как работает: уссловно может быть три настройки "мало-средне-долго", а может число от 0 до 10. Посмотрим

Но так как модель доступна в API — авторы почти всех бенчмарков (у кого на кармане завалялась лишняя пачка баксов) кинутся её тестировать, а мы, соответственно, увидим, как и в чём модель суперхороша. Так что где-то через недельку сделаю пост с большими и не очень прорывами.

На картинке: прирост метрик в LiveBench-Code (там задачи регулярно обновляют, чтобы быть уверенными в новизне проблем, по которым меряют качество). Сейчас там топ-1 у Claude 3.6, 67%, а у o1, согласно замеру OpenAI, будет примерно 77%+- — если подтвердится.

Читать полностью…

Сиолошная

Ещё из этого поста узнал про ProcessBench от Qwen Team, вышедший неделю назад. Как вы могли понять из объяснения выше, очень важно, чтобы у вас был качественный оценщик — если он умеет обнаруживать ошибки почти идеально, и имеет интуицию о том, какие решения более перспективны, то это существенно улучшает оптимальность генерации десятков-сотен решений.

Вот ProcessBench и оценивает это: исследователи собрали 3400 примеров и разметили их вручную по шагам, а затем смотрели, насколько хорошо разные LLM умеют обнаруживать самый первый шаг, содержащий ошибку (или наоборот отсутствие проблем во всём решении).

Лучше всех из открытых моделей показала себя... их QwQ-32B-Preview, что не удивительно (не потому, что модель выпущена ими, а потому что она умеет рассуждать и сама по себе сильна в математике). Она правильно оценила 71.5% примеров, что больше, чем GPT-4o (61.9%), но меньше, чем o1-mini (87.9, существенно выше).

Почему это важно: с очень качественными оценщиками (верификаторами) можно запускать автоматический цикл генерации сотне решений и дообучения на самых высоко оценённых (и правильных). Предположительно, именно так и учили o1, и отсюда видно, насколько большим остаётся гэп в обучении оценщика.

Читать полностью…

Сиолошная

Я решил, что продолжу отдавать OpenAI $200 в месяц (пока не вышли конкуренты у Google / Anthropic) — потому, что o1 Pro фантастический компаньон в жизни/работе

— Наверное, стоит сказать пару слов, что LLM-бенчмарки часто критикуют за их неспособность объективно оценить качество модели — и с Pro O1 такая же ситуация:
Я видел результаты, где какая-то новая модель, якобы, пишет код также и даже лучше, чем Sonnet 3.6 — а по факту, альтернатива может и хорошо пишет код, но не способна в то, что Anthropic делает лучше всего — Sonnet эстетически лучше, чем конкуренты, не только в коде, но и в дизайне, в UX, в чувстве прекрасного у решений которые он предлагает

— Такая же ситуация с o1 Pro — очень сложно выразить в числах, почему эта модель хорошая; я уже писал выше, что мне нравится o1 Pro потому что она для узких специалистов (место для дилятор-шутки), но я чуть дополню свой тогдашний отзыв — o1 Pro модель ответам которой можно доверять и это полностью меняет мой подход к работе с LLM. Если раньше, за ответами Sonnet / Gemeni / 4o — мне приходилось ходить и пруфчекать факты, пытаясь понять придумала она их или нет, то внутренние рассуждения o1 Pro практически полностью лечат модель от галлюцинаций (в разумных пределах, время на циферблате она все еще распознает). То есть: я готов платить за гарантии того, что модель с очень высокой вероятностью не ошибется в ответе, потому что если она не уверена — она откажется давать ответ в целом и мне кажется это самой ценной фичей этих моделей

— o1 Pro сложнее поддается инструкциям — и не потому, что она им плохо следует, а наоборот, потому что она слишком хорошо им следует и любая ошибка в инструкциях может привести к неправильным результатам (например, если приложить непродуманный пример решения задачи, в таком же формате все и придет и тп)

— Самое клевое: помните я с вами делился кастомными инструкциями для ChatGPT которые доказательно улучшали качество ответов gpt4o на 7%? Так вот, во-первых — я их выложил на GitHub, можно подписаться и получить уведомление когда будет новая версия; во-вторых — o1 Pro полностью раскрывается с такой инструкцией: модель, перед тем как начать цепочку внутренних рассуждений, сначала назначает себе профессиональную роль и уже потом, от имени этой роли «думает» и пишет промежуточные ответы. Я попробовал пару дней пожить без инструкций этих и не смог — o1 модели по настоящему раскрываются с такой инструкцией, потому что вешают на себя роли каких-то выдающихся специалистов в области

— Я перевел в o1 Pro вообще все, что делаю или потребляю: она пишет для меня вики-лайк статьи (они совпадают с реальными в фактах, я проверял), книги-истории, помогает в учебе, бизнесе и творчестве, и сейчас мой день больше всего напоминает какой-то SciFi фильм 60х, где коммуникатор героя решает для него все вопросы и задачи. У меня однажды уже было похожее чувство — когда мне было 12 лет и я попал в интернет по карточкам, и ощутил что теперь можно узнать что угодно и не мог выбрать с чего начать, куда пойти, потому что интернет уже тогда был большим, и все было интересным

Я понимаю, что $200 заградительная цена для многих — и не призываю вас тратить на нее деньги; я просто рассказываю свою мотивацию, почему я продолжу платить — потому что люди часто спрашивают в личке

Если вы хотите похожие на o1 модели дома, вы можете рассмотреть эти: QwQ 32B, Phi 14B и Deepthought 8b, но все они будут всегда ограничены знаниями которые поместились в их размеры, ну и не забывайте их просить решать задачи шаг-за-шагом и проверять свои ответы по пути

tl;dr Денис поехавший — отдает ClosedAI 200 баксов в месяц

Читать полностью…

Сиолошная

Я устал. Каждый 5й коммент не только в моём, но и в других чатах — «а что правда модель X лучше чем модель Y? А мне другой человек говорил наоборот (или я сам попробовал и вышло не так)».

Давайте выскажу свою позицию:
1) Модели могут быть лучше на одних задачах и хуже на других. Нет универсально умной модели, которая в каждой отдельной вещи лучше остальных.
2) Это остаётся верным даже если кажется, что домен или тип навыка один и тот же. К примеру, программирование — ну чё тут, вот Python и Web, и там и там код в файлах, да? Нет. Одна модель может быть лучше в конкретно вашем проекте конкретно с Python, а другая лучше в Web-программировании (даже не всём, а, скажем, только фронтэнде на React)
3) Даже в одном и том же домене одна и та же модель может вызывать кардинально разные ощущения у пользователей, один скажет «по мне так топ, сравнивал с Claude», другой: «не, чёт не зашло». Почему? Моё основное объяснение — конкретные юзкейсы, сценарии использования и типы запросов.
4) Все бенчмарки всегда стоит воспринимать максимально буквально: конкретно ТАКАЯ-ТО задача в ТАКОЙ-ТО постановке и вот с ТАКИМИ ограничениями, и ничего более. Именно поэтому я всегда пишу детальные длинные посты, объясняющие процесс сбора и фильтрации данных, процесс разметки и оценки. И вам всегда рекомендую в это вникать и разбираться.
4.1) вот даже конкретный пример про o1 — в системной карточке по замерам самих OpenAI оказывалось, что во многих задачах она хуже o1-preview. Вы правда думаете что они бы выпустили такую модель? Как объяснили в твиттере, почему-то замеры делались не на финальном файле с параметрами, и оттого результат не лучший. Но чисто по цифрам смотреть так да, прогресса нет

Так как же быть? Что делать? Брать и проверять самому в своих задачах. Все бенчмарки и списки могут лишь дать примерное представление о том, какие модели в самом верху, и с кого можно начать. Например, модели Gemini много где прям не всплывают вообще, так что если видите такое же на бенчмарке, максимально приближённом к своим задачам (такой очень полезно найти для ваших задач) — можно пропускать их и приоритизировать модели других провайдеров.

Пробовать, пробовать, ещё раз пробовать. В идеале конечно собрать свой бенчмарк вообще (даже в 30-40 запросов), как тут, но многие тут не технари, поэтому не буду это рекомендовать прям каждому. Проведите с моделькой пару часов, всё увидите (кто-то по 3 запросам определяет, но такое порицаю — слишком разреженный сигнал).

... ну или просто используйте ChatGPT как золотой стандарт, и всё. В среднем это рациональное решение по кругу бенчмарков ;)

Читать полностью…
Subscribe to a channel