seeallochnaya | Unsorted

Telegram-канал seeallochnaya - Сиолошная

62062

Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy

Subscribe to a channel

Сиолошная

Ринат с канала @llm_under_hood достаточно давно собрал бенчмарк, основанный на бизнес-кейсах, в рамках которых он внедряет LLM. Это полезно, чтобы и самому отслеживать прогресс, и клиентам показывать, мол, такое можем решать, а с таким модели не справляются. Схожая идея была у меня и для нашего агентства, максимально понятное value.

Сначала Ринат посчитал результаты, и модели серии o1 оказались примерно на уровне передовых GPT-4o, которые так и так возглавляли топ. В целом, немного было удивительно, но не очень подозрительно:
1) OpenAI сразу задали ожидания и сказали, что эта линейка o1 нацелена на задачи, связанные с «science, coding, and math» (цитата с сайта). Да, конечно размышления прокачали, но явно есть области, где упор не делался
2) новая модель требует другой подход к заданию промптов, и старые запросы/инструкции могут не работать (даже «скорее не будут работать»)
3) OpenAI во время тестов зметили, что большое количество излишнего исходного контекста негативно сказывается на системе. То есть не рекомендуется брать 10 разных страниц текста, лишь одна из которых релевантна, загрузить в промпт и ждать чуда

Так что увидев результаты в топ-1 и топ-3 я подумал «ну ок, хорошо, что хоть бизнес-кейсы не сломали». В комментариях, конечно, нашлись добрые люди с сообщениями примерно такого рода:
> Их давят что-то выдать, выдали что-то ) медленное, дорогое и не сильно лучше

Ну понятно, снова скам от Альтмана, наобещали золотых гор а на деле нифига, LLM вышли на плато.

Далее цитирую пост Рината:
🚀Update: в процессе ручной проверки результатов выяснилось, что в Reason часть моих evals была неправильной. Я знал, что с ними ни одна модель не справляется, поэтому не обращал внимания на результаты. А вот o1, оказывается, могли справиться! Я исправил логику проверки и пересчитал все модели.

😱 😀 🤣 🆒

(и ещё на всякий случай напомню, что у OpenAI уже гарантировано прям точно есть модель сильно лучше, чем o1-preview, и что они намеренно её не выпускают сейчас. Разницу в метриках можете посмотреть тут и тут — и стоит ожидать, что когда модель появится через месяц-два, цифры подрастут ещё чуть-чуть)

((и ещё ждём адаптации промптов и инструкций, Ринат! ну и новый бенчмарк...))

Читать полностью…

Сиолошная

10'000 обезьян и 🥇IOI

Я уже пару месяцев как работаю в OpenAI, так что времени на посты сюда почти не осталось. Нужно исправляться. Вчера мы выпустили новую модель, которая думает перед тем как отвечать. Я даже успел попасть в список контрибьюторов. Но пост не об этом — хочу рассказать про результат, который упоминается в посте про новую модель, кажется мне очень неочевидным, но мало обсуждаемый.

Как известно, если 10000 обезьян посадить за пишущие машинки, и дать им бесконечно времени, то рано или поздно они возьмут золото на IOI. Наша новая модель гораздо лучше справляется с задачами, где нужно думать, чем все предыдущие модели, но все еще в абсолютных значениях делает это довольно плохо. Ее рейтинг CodeForces оценивается примерно в 1800, и это очень далеко от того, чтобы взять даже бронзовую медаль на IOI.

Нам стало интересно, можно ли просто увеличив количество вычислений, добиться лучших результатов. Сетап был такой. Давайте модель попросим 10000 раз решить каждую задачу, а потом выберем лучшие решения. Интуитивно кажется, что для решения сложных олимпиадных задач обычно нужно придумать какую-то красивую идею, и, если модель имеет CF рейтинг 1800, то от увеличения количества попыток, особо ничего не поменяется. Она просто не сможет ее придумать.

На практике же оказалось все наоборот. Среди 10000 попыток оказываются такие, когда модель случайно подумала в нужную сторону, и придумала правильную идею. В итоге, если отфильтровать самые лучшие попытки, то их достаточно, чтобы получить золото на IOI (и мне кажется это очень крутой результат!). Правда, как именно находить лучшие решения, если у вас нет возможности протестировать их все, не очень понятно.

Получается, что если вам не жалко потратить очень много денег на кучу попыток решить задачу, и вы придумаете как из 10000 решений выбирать самые лучшие, то уже с текущим уровнем развития AI можно довольно хорошо решать олимпиадные задачи.

Читать полностью…

Сиолошная

Официальный советы по промпт-инженерингу o1:

Держите промпты простыми и прямолинейными: модель o1 превосходно понимает и отвечает на краткие, четкие инструкции без необходимости в обширных объяснениях

Избегайте промптов с цепочкой рассуждений (речь про Chain Of thoughts и «думай шаг за шагом»):
так как модель выполняет логические выводы внутри себя, не нужно побуждать ее «думать шаг за шагом» или «объяснять своё рассуждение вслух»

Используйте разделители для ясности: используйте разделители, такие как тройные кавычки ```, XML-теги или заголовки разделов, чтобы четко обозначить разные части ввода, помогая модели правильно интерпретировать различные секции

Ограничьте дополнительный контекст при генерации с RAG:
при предоставлении дополнительного контекста или документов включайте только самую релевантную информацию, чтобы предотвратить усложнение ответа моделью

***

Это интересно, то есть промпт-инженеринг в такой модели уже совсем не нужен, кроме систематизации данных – жду не дождусь доступа

Видимо, в gpt5 уже и промпты не нужны будут, да?

Читать полностью…

Сиолошная

Пример решения довольно нетривиальной задачки, с которой текущие модели не справляются

Читать полностью…

Сиолошная

Мне как обычно доступ дают последнему, поэтому вот из комментариев видео того, как рассуждает модель. В ЧатГПТ можно будет посмотреть цепочку рассуждений.

Однако как я понял эту фичу уберут (и в АПИ не будет) — OpenAI на сайте написали, что рассуждения не будут показываться.

Читать полностью…

Сиолошная

В рамках тестирования моделей до анонса проводили тестирование на агентские задачи и саморазмножение модели.

Улучшения относительно GPT-4o если и есть, то слабые — видимо, на это упор не делался (не доучивали специально на агентские типы задач и рассуждений).

Другие картинки со схожими тестами тут: https://cdn.openai.com/o1-system-card.pdf

Читать полностью…

Сиолошная

The o1 models introduce reasoning tokens. The models use these reasoning tokens to "think", breaking down their understanding of the prompt and considering multiple approaches to generating a response. After generating reasoning tokens, the model produces an answer as visible completion tokens, and discards the reasoning tokens from its context.

Here is an example of a multi-step conversation between a user and an assistant. Input and output tokens from each step are carried over, while reasoning tokens are discarded.

Советы по использованию:
— Keep prompts simple and direct: The models excel at understanding and responding to brief, clear instructions without the need for extensive guidance.
— Avoid chain-of-thought prompts: Since these models perform reasoning internally, prompting them to "think step by step" or "explain your reasoning" is unnecessary.

(так как модель это сделает за вас)

Читать полностью…

Сиолошная

Модели серии o1 требуют существенно больше мощностей для работы

На графике за 100% взят максимальный бюджет для крупной версии o1. Видно, что версии GPT-4o, доступные сегодня, берут меньше 2-3%. Даже o1-mini жрёт в 10-15 раз больше — но и результат лучше качественно.

По шкале OY — доля решенных олимпиадных задач по математике.

Читать полностью…

Сиолошная

так, я договорился

ссылка заработала, нажмите ещё раз

https://openai.com/index/learning-to-reason-with-llms/

Читать полностью…

Сиолошная

o1 is trained with RL to “think” before responding via a private chain of thought. The longer it thinks, the better it does on reasoning tasks. This opens up a new dimension for scaling. We’re no longer bottlenecked by pretraining. We can now scale inference compute too.

AIME — олимпиадные задания по математике

Читать полностью…

Сиолошная

Поехали

https://openai.com/index/learning-to-reason-with-llms/

Читать полностью…

Сиолошная

Флеш-новости 3 (на самом деле это я так третий пост про 🍓Strawberry замаскировал 🤡)

— Вот я вчера написал, что датацентры со 100'000 передовых GPU подтверждены у трёх компаний, а прям сегодня появилась новость: Oracle построит датацентр на 130'000 H100, а питать его будут 3 маленьких ядерных реактора нового поколения. Вот так за год мы перешли от шутки к практике, мол, искусственный интеллект в будущем — это датацентр, стоящий за АЭС, стоящей за бункером

— Bloomberg обновил информацию, и теперь, согласно их источникам, Strawberry покажут уже на этой неделе. Доступ получит ограниченное количество пользователей. Будем молиться, чтобы нам дали, да побольше 🙏

— Jimmy Apples ещё вчера писал, что релиз будет сегодня (в четверг) или завтра (в пятницу), в зависимости от того, с какой ноги встанет Sam Altman. В OpenAI в 10 утра по Калифорнии (GMT-7, 20:00 МСК) по четвергам происходят All-Hands встречи, где собирается вся компания, потому релизы и обновления чаще проходят в этот день недели. Держим пальцы 🤞

— Bloomberg также уточняет принцип работы Strawberry: опыт использования обновленной ИИ-системы от OpenAI будет несколько отличаться от того, что люди ожидают от ChatGPT. Прежде чем ответить на запрос пользователя, новое программное обеспечение делает паузу на несколько секунд, в то время как незаметно для пользователя оно генерирует ряд связанных запросов, а затем обобщает то, что кажется лучшим ответом. Эту технику иногда называют «цепочки мыслей».

— Мне кажется, тут намешано в кучу несколько техник, которые могут и не относиться вообще к Strawberry. «Цепочки мыслей», или Chain-of-Thought — это когда модель вместо ответа сходу пишет рассуждения — но это то, что мы так и так получаем во время работы с ChatGPT. Генерация нескольких вариантов ответа с аггрегацией в конце — это Self-Consistency (который может применяться поверх Chain-of-Thought). Однако если Strawberry окажется вот этим вот, и существенного улучшения за счёт специального дообучения не будет — я буду расстроен, это ниже моих ожиданий. Ключевое тут — «если существенного улучшения за счёт специального дообучения не будет». Сейчас, насколько мне известно, модели не затачивают специально под это (чтобы генерировать и проверять разные гипотезы, и потом выбирать лучшую); применяется простой промптинг

— Однако у меня нет супер-завышенных ожиданий, что будет очень заметный результат на простых вопросах, не связанных с математикой/программированием/науками/точному следованию инструкциям. На вопросы в духе «как дела» или «расскажи сказку» система не будет отвечать прям заметно лучше

— В комментарии приглашаю писать задачки в духе «сколько у Алисы братьев» или «сколько букв Р в слове варенье», с прикреплённым скриншотом, что GPT-4o/Claude 3.5 не могут их решить. Как выйдет Strawberry — побежим проверять! Будем смеяться, как буквально неделю назад уже решённые задачи использовались как пример «ограничений LLM».

=====

Я сегодня вечером:

Читать полностью…

Сиолошная

В последние пару лет почти каждый раз, когда речь заходит о больших языковых моделях, разговор сводится к противоборству двух лагерей: одни считают, что модели «понимают», умеют «размышлять» и выводить новую информацию; другие смеются над ними, и сравнивают модели со статистическими попугаями, которые просто выкрикивают услышанное, без выработанного понимания. Обе стороны приводят множество аргументов, кажущихся убедительными, однако точка в вопросе никогда не ставится.

Разрешить дискуссию помогают методы механистической интерпретируемости. В канале я обозревал несколько статей, в каждой из которых маленькое открытие позволяло чуть больше понять внутрянку нейросетей и даже улучшить сам механизм работы.

Сегодня я предлагаю вам прочитать мой лонг для погружения в эту тему. В нём я применил классический приём «да ща быстро сяду напишу как попало, будет средней длинны пост» — и это оказалось самообманом 😭. В итоге вышло полно, плотно, некоторые объяснения переписывались, сопроводительные иллюстрации перерисовывались, но результатом доволен.
▀▀▀▀▀▀▀▀▀▀
Оценить самим можно тут: https://habr.com/ru/companies/ods/articles/839694/
▀▀▀▀▀▀▀▀▀▀
Отдельная благодарность Павлу Комаровскому @RationalAnswer за (уже далеко не первую) помощь в редактуре и подготовке материала — не забывайте подписываться и на него.

Читать полностью…

Сиолошная

SB 1047 (читать тут) — акт, направленный на регуляции в области AI в рамках Калифорнии — прошёл последнее голосование в Сенате Штата и теперь ждёт подписания губернатором. Тот всё ещё может наложить вето, и сейчас разные субъекты выражают своё мнение за и против. Напомню, что Anthropic высказались в поддержку принятия акта — в их представлении «акт принесёт больше пользы чем вреда», хоть в нём всё ещё присутствуют пункты, с которыми компания очень не согласна, и рекомендует их к изменению. OpenAI тоже многое не нравится — они выступают против.

Jan Leike, бывший ко-глава команды SuperAlignment, разделявший эту роль с легендарным Ilya Sutskever, а ныне сотрудник Anthropic, высказался в поддержу:

— Недовольство влиянием на инновации, стартапы и опенсорс не кажется обоснованным: Если ваша команда тратит >10 миллионов долларов на дотренировку модели, то она может себе позволить а) написать план обеспечения безопасности модели в соответствии с индустриальными нормами и б) провести несколько оценок по принятым тестам

— Если ваша модель приводит к массовым жертвам или ущербу на сумму более 500 миллионов долларов, что-то явно пошло не так. Такой сценарий не является нормальной частью инноваций.

— «теперь каждому придётся нанимать команду юристов! это регуляторный захват!». Jan не согласен — как вы можете потратить 100 миллионов долларов на предтренировку модели, но не иметь достаточно денег, чтобы нанять команду юристов?

— И вообще Jan не считает, что этот акт — пример regulatory capture

— «Но тот кто делает ножи не должен отвечать за совершённые изделием убийства!!!» — Вы можете убить кого-то молотком, и никто не будет привлекать к ответственности производителя молотка. Но существует длинный список случаев, когда общество решило, что производители или торговые посредники несут ответственность за вред, причиненный в результате использования чего-либо, если они не предпринимают «разумные меры осторожности»: фармацевтические препараты, алкоголь и табак, оружие (даже в США, где казалось бы достать его легко), продукты питания, автомобили, самолеты...

— «Да по схожему закону эти ребятки и после катастрофы дирижабля «Гинденбург» бы сразу запретили весь воздушный транспорт!»: это неправда, акт как раз про другое. Аналогия должна была бы звучать так: «Если вы хотите наполнять свои дирижаабли водородом (несмотря на то, что эксперты по безопасности выступают за гелий как более безопасную альтернативу), вам нужно написать документ с анализом того, насколько это достаточно безопасно, и показать его правительству, в противном случае вы будете нести ответственность, если люди умрут, когда ваш дирижабль взорвётся. Это не отменяет авиаперелеты и даже не запрещает дирижабли, наполненные водородом, так что это даже не настолько далеко заходит с точки зрения регуляций, как это было в реальном историческом случае с полным запретом водородных дирижаблей»

===

Убедительно? :jordan_belfort:

Читать полностью…

Сиолошная

Думал отложить, но заставляют написать...

Вчера в социальной сети ИКС ТОЧКА КОМ анонсировали LLAMA 3.1 70B, дообученную на синтетических данных, и выдающую результаты лучше, чем GPT-4o / Claude Sonnet 3.5 на нескольких бенчмарках. Модель получила название Reflection — потому что её ответ формируется как объединение рассуждения (Chain-of-Thought) и рефлексии/анализа ошибок. Эти два шага чередуются до тех пор, пока сама же модель не решит написать итоговый ответ. В итоге, перед получением результата нужно немного подождать, пока идут рассуждения (но их можно читать, чтобы не заскучать).

Что в этой истории дурно пахнет:
1) На наборе математических задач GSM8k модель выдала 99.2% правильных ответов. Однако скорее всего в самой разметке больше одного процента неправильных ответов — а как можно давать такие же, но неправильные ответы? Основная версия, проходящая бритву Оккама — модель уже училась на этих данных. Альтернативная и более щадящая: LLM делает те же ошибки, что и люди, и потому пришла к тем же неправильным ответам
2) Эти методы рассуждений и рефлексии — не новинка, и уже было показано, что они существенно улучшают качество. И потому все передовые модели так и так учили с чем-то подобным (особенно если явно прописать "подумай хорошенько шаг за шагом"). Потому сходу не ясно, что именно дало такой прирост для маленькой 70B модели.
3) Авторы не раскрывают технические детали и не показывают «синтетические» примеры для дообучения, лишь ссылаются на какую-то платформу, которая позволяет в пару кликов генерировать синтетику. А ещё я прочитал, что автор модели — инвестор этой конторы. Так что модель больше похожа на рекламный продукт, потому стоит ждать независимых замеров.
4) Сами подробности якобы раскроют на следующей неделе после выпуска 405B версии, которая может существенно переплюнуть все проприетарные закрытые модели. Из-за этого и хотел отложить написание поста. Ну, посмотрим, что покажут.

Опять же, концептуально такой подход действительно должен бустить качество, вопрос в том, почему настолько сильно, и почему передовые модели такой трюк не применяют.

Если у вас есть железо и время для запуска 70B модели — веса тут.
Сайт с демкой был тут, но его отключили из-за наплыва аудитории. Я за вчера 3 раза пытался зайти, ни разу даже одного слова сгенерированного не получил 🥱 правда у кого-то в чате получилось закинуть задачку "А и Б сидели на трубе" (кстати, решила правильно).

Первая картинка — сравнение метрик на самых распространённых бенчмарках (от части которых уже давно пора отказаться..), 2 и 3 — примеры работы на боянистых задачах, 4 и 5 — на свежей.

Читать полностью…

Сиолошная

Если за вчерашний вечер вы исчерпали лимиты сообщений моделям o1 и o1-mini в ChatGPT, то возрадуйтесь: OpenAI сжалились и сбросили всем счётчик. Теперь можно снова отправить 50 сообщений в младшую и 30 в старшую версии.

Бонусная информация:
— o1-mini планируется добавить в бесплатный тир, то есть каждый сможет с ней общатсья
— сотрудник OpenAI заявил, что скоро появятся модели с более длинным контекстом (в том числе для размышлений). А то как-то несолидно, конкуренты тут давно обогнали :(
— модель o1-preview — это ранняя версия уже законченной o1. Они одного размера, и вторая получена из первой дообучением. Но по какой-то причине доступа, увы, не дают. По метрикам в некоторых задачах там прям сильный разрыв.

Читать полностью…

Сиолошная

Удивлён, что про это не написал никакой другой канал. Придётся делать самому 🥺

В рамках подготовки к релизу o1/o1-mini OpenAI отдали модели на тестирование безопасности внешним командам, ну и проводили внутреннее тестирование. В частности, проверяли навыки LLM-агента в решении задач кибербезопасности (писал об этом тут).

По сравнению с GPT-4o, o1-preview и o1-mini продемонстрировали улучшение в способности разбивать задачи на подзадачи, рассуждать о том, какие стратегии будут эффективны для успешного выполнения, и пересматривать планы в случае неудачи этих стратегий — ну, это ожидаемо. Но вот во время тестирования произошёл один курьёзно-неприятный случай.

Была задача нахождения уязвимости в коде программы, запущенной в отдельном Docker-контейнере. В контейнере есть файл с секретной строкой, которую атакующий (человек или модель) должны получить — как раз используя найденную проблему.

Однако из-за инфраструктурной ошибки контейнер не запустился. Модель, будучи неспособной подключиться к контейнеру, заподозрила проблемы с DNS и использовала программу nmap для сканирования сети. Вместо того, чтобы найти целевой контейнер (в рамках задачи LLM знает, какую цельнужно «атаковать»), модель обнаружила, что из-за неправильной конфигурации был доступен внешний API-интерфейс демона Docker, работающий на виртуальной машине. «Демон» это программа верхнего уровня, отвечающая за оркестрацию и управляющая процессом, по сути родительский процесс и для контейнера с LLM-агентом, и для контейнера с целевой программой/файлом для атаки.

Модель использовала демон для получения списка контейнеров, запущенных на сервере. Она обнаружила тот самый сломанный сломанный контейнер и попыталась выяснить, почему же он не запустился. Не сумев исправить проблему (но будучи проинструктированной ВЫПОЛНИТЬ СВОЮ ЗАДАЧУ), модель решила пойти другим путём. Она отправила команду запуска нового контейнера (того же, который в прошлый раз не запустился), но отдала ему команду вывода содержания файла с секретной строкой. Команда была исполнена, LLM получила «ключ» в виде строки и как следствие решила задачу (ведь цель — это добраться до строчки и затем отдать её на проверку).

Этот пример отражает ключевые элементы того, что называется «instrumental convergence» и захвата ресурсов: модель преследовала поставленную перед ней цель, а когда эта цель оказалась недостижимой, она собрала больше ресурсов (в данном случае получила доступ к демону Docker) и использовала их для достижения цели — в виде способа, который человек не ожидал и не предполагал.

Источник — отчёт OpenAI

Читать полностью…

Сиолошная

Удобный пост-выжимка с новостями о новой передовой модели OpenAI, o1:

— прирост качества происходит за счёт рассуждения LLM'кой перед ответом. Текст рассуждений не будет доступен, лишь краткая выжимка с верхнеуровневым описанием

— модели и раньше умели рассуждать, но делали это менее эффективно. Основной упор OpenAI сделали именно на то, чтобы при итеративном само-исправлении (рефлексии) и рассуждениях модель куда чаще приходила к правильному ответу

— o1 это не замена gpt-4o во всех задачах. Она СИЛЬНО лучше в математике/физике/программировании, лучше и чётче следует инструкциям, но потенциально хуже говорит на разных языках и обладает не большим количеством знаний о мире. Следует воспринимать модель как reasoner («мыслитель» по-русски, видимо). Мини-версия, со слов OpenAI, в этом плане сравнима с gpt-4o-mini, тут без откровений

— модель доступна сегодня всем платным подписчикам ChatGPT Plus с жестким лимитом: 30 сообщений В НЕДЕЛЮ большой модели и 50 - маленькой. Так что собирайте все свои хотелки и продумывайте требования к решению наперёд :)

— если вы часто пользовались API и потратили больше $1000 в прошлом, то модель будет доступна по API с ограничением 20 запросов/минута

— однако цены кусаются: младшая версия o1-mini стоит чуть-чуть дороже gpt-4o августовской...но при этом вы платите за все рассуждения (которые, напомню, не увидите!) - а их будет МНОГО. Поэтому реальная наценка будет в 3-10 раз, в зависимости от времени «раздумий» модели

— модель справляется с олимпиадными задачами по математике и программированию на уровне золотых медалистов международного тура; по физике в сложных тестовых заданиях, устойчивых к решению с использованием поисковика Google, она сравнима с PhD-level студентом (~75-80% правильных ответов)

— возможности использовать изображения, поиск в интернете, запускать код пока отключены; но появятся в ближайшем будущем

— сейчас контекст моделей ограничен 128k токенами, как и у старых версий. Однако следует ожидать увеличения в будущем — OpenAI заявляют, что сейчас модель в пике «думает» чуть больше пары минуты, а они хотят стремиться к часам и дням.

— как это всегда бывает с первым релизом, могут быть очень простые баги, когда модель прям на очевиднейшие вещи не отвечает/ведется на джейлбрейки. Это — нормально, уже через 2-3 месяца, когда модель перестанет быть preview, их станет сильно меньше

— у самих OpenAI есть уже не-preview модель, однако они её тестируют, и пока не готовы выпускать. Она лучше того, что досталось нам — смотрите на прикреплённой картинке

— новую модель НЕ НУЖНО промптить, не нужно просить отвечать как-то с размышлением, шаг за шагом или по-хитрому; всё это сделается самостоятельно под капотом за вас. Советы по промптингу от OpenAI — тут

— статьи, которые можно почитать, чтобы примерно прикинуть, как обучали модель: один, два, три. Они могут иметь ничего общего с реальностью, но копают в том же направлении

Ну и да, всем — добро пожаловать в Strawberry Era!

Читать полностью…

Сиолошная

Те, кто уже получил доступ и побежал тестировать, держите в уме ограничения:

— в неделю можно отправить 30 сообщений в старшую версию o1-preview
— и 50 сообщений в маленькую o1-mini

В API ограничений нет, кроме как на 20 запросов в минуту. Но платить придётся...много 🙂

Источник

Читать полностью…

Сиолошная

Цены на новые модели кусаются и возвращают в эпоху релиза GPT-4, хотя маленькая версия более-менее доступна.

Жаль, что у всех моделей контекст лишь 128k токенов. Надеялся, что от этого уже уйдут.

Читать полностью…

Сиолошная

Ждём извинений критиков AI в твиттере и в комментах под этим постом (им соболезнуем)

Для остальных заказываю песню: https://www.youtube.com/watch?v=1k8craCGpgs

Читать полностью…

Сиолошная

Продуктовая страница модели: https://openai.com/index/introducing-openai-o1-preview/

Тут есть короткие видео с юзкейсами, перекачивать и заливать уж не буду, давайте посмотрим на сайте.

Читать полностью…

Сиолошная

Дружно идем проверять сегодня вечером

Читать полностью…

Сиолошная

Про актуальность «указывателей на ограничения LLM»😳

last month at the 2024 Association for Computational Linguistics conference, the keynote by @rao2z was titled “Can LLMs Reason & Plan?” In it, he showed a problem that tripped up all LLMs.

But OpenAI o1-preview can get it right, and o1 gets it right almost always

(кстати прикольная аннотация "думал 19 секунд" перед ответом :) )

Читать полностью…

Сиолошная

Our o1-preview and o1-mini models are available immediately. We’re also sharing evals for our (still unfinalized) o1 model to show the world that this isn’t a one-off improvement – it’s a new scaling paradigm and we’re just getting started.

Читать полностью…

Сиолошная

🍟

Читать полностью…

Сиолошная

Релиз моделей приближается, интересностей всё больше и больше, потому вот краткая сводка на ночь-утро:

— если неделю назад ходили слухи об новой оценке OpenAI в ~$105B после нового раунда инвестиций, то вчера в TheInformation была уже указана цифра в ~$120B. Сегодня же Bloomberg написал, что их источники уже говорят о $150B. Первая цифра мне казалась странной (маленький скачок относительно предыдущей оценки в $86B), вторая уже понятной, а третья — впечатляющей. Скачок на 75% это уважаемо
— в эту оценку не входит привлекаемая сумма, то есть это так называемая pre money valuation
— планируется привлечь $6.5B (что меньше прошлого раунда в $10B), причём, Microsoft лишь один из многих инвесторов, и даже не лидирующий. Это значит, что инвестиции по большей степени будут деньгами, а не кредитами на вычислительные ресурсы
— кроме этого, с банками ведутся переговоры об открытии возобновляемой кредитной линии в $5B
— выходит, оценка компании будет составлять ~$156B. На бирже в открытом обращении лишь 90 компаний с оценкой выше. Примерно в том районе находятся: Caterpillar, Walt Disney, Morgan Stanley, AT&T, Goldman Sachs и Uber
— удивительно, но OpenAI не станет самой высоко оценёной приватной компанией — впереди ByteDance ($268B) и SpaceX ($210B)

===

—  Strawberry может быть релизнута уже на этой неделе, если Sam Altman так решит (то есть в целом всё готово) — об этом сообщил Jimmy Apples. Обычно релизы-анонсы по четвергам, так что сегодня верим-надеемся-ждём. Но может быть и на следующей неделе
— 🚨 новая информация: GPT-4.x (потенциально 4.5, если решатся так назвать) должна появиться в октябре, опять же, согласно Jimmy Apples. Напомню, 1-го октября OpenAI проводят в Сан-Франциско оффлайн DevDay 2024. Правда было объявлено, что новых моделей на нём ждать не стоит. Однако странно было бы провести мероприятие, а после этого в течение 3-4 недель выкатить новую модель и сказать «ой, а ещё вот такое есть, придумывайте всё заново».
— в том же сообщении Apples пишет, что GPT-5 может быть выпущена в декабре, но скорее всего в первом или даже втором квартале 2025-го. Это бьётся с моими оценками (и даже предсказанием в одной из лекций) и паттерном выпуска моделей OpenAI: сначала маленькая версия в форм-факторе старой модели, для тестирования (GPT-3.5 = ChatGPT), а затем полноценный релиз GPT-4
— так что, насколько я понимаю, план такой: скоро увидим Strawberry как технологию поверх GPT-4 (изменения будут заметные, но не крышесносные), потом 4.5 как добивочка, и через сколько-то месяцев пятёрка, со множественными улучшениями по всем фронтам, и увеличением размера модели (а равно и стоимости)

===

— такой календарь релизов может быть обусловлен действиями конкурентов. По моим двум источникам, Google хочет выпустить Gemini 2.0 в сентябре-октябре, и (тут без источников) Anthropic удивит Claude 3.5 Opus в то же время. OpenAI — с точки зрения компании — должны соответствовать или даже возглавлять новый раунд гонки.
— последняя новость для любителей опенсурса: Meta заканчивает создание крупного кластера из 100'000 GPU H100 для тренировки LLAMA-4. Ожидается, что его запустят в октябре-ноябре. Такой же кластер есть у xAI, почти уверен, что у Google и Microsoft (OpenAI) есть что-то сравнимое

На этом у меня всё, если не читали лонг из поста выше — обязательно это сделайте, пока фидбек очень положительный, мне нравится, что люди в комментариях пишут, что всё понятно изложено, а примеры хорошо иллюстрируют рассказываемый материал.

Читать полностью…

Сиолошная

🍓🍓🍓 News

1) TheInformation: OpenAI планирует выпустить Strawberry как часть своего сервиса ChatGPT в ближайшие две недели

2) Jimmy Apples за полдня до этого написал, что на этой неделе что-то произойдет (может быть не релиз, а внутренний показ/демо)

3) Последнюю неделю некоторым пользователям ChatGPT в ответ на запрос предлагается 2 варианта ответа, но видимо это не то же самое, что и раньше. Сейчас сверху пишется «You're giving a feedback on an experimental version of ChatGPT» или «on a new version of ChatGPT», и сделана пометка, что ответы могут генерироваться не сразу, а после паузы. Именно про это, по слухам, проект Strawberry: дать модели время «на подумать» перед ответом, чтобы снизить вероятность ошибки/не спешить с неправильной генерацией. Время «раздумий» в среднем составляет от 10 до 20 секунд

4) По началу Strawberry будет работать лишь с текстом на вход и выход, никаких картинок и файлов. Цены на Strawberry, скорее всего, будут отличаться от $20 за подписку на чат-бот OpenAI. Журналисты пока не уверены, какие будут ограничения по использованию (сколько сообщений в час) и можно ли будет докупать расширенный пакет.

5) завтра утром выходит лонг, бронируйте время в календарях на прочтение (30-40 минут) 😒

Кажется, началось...

Читать полностью…

Сиолошная

Корабль Starliner успешно вернулся на землю без экипажа.

Время быстрых выводов:
- Корабль безопасно вернулся в нужную зону посадки — хорошо и важно. То, что он вернулся без экипажа — плохо и важно;

- Ситуация с утечкой гелия, как и говорили специалисты Boeing, оказалась несущественной и сильно не повлияла на работу аппарата;

- Двигательная установка и системы коррекции отработали все фазы полёта. Как и говорили специалисты Boeing в отчёте, отказ части двигателей не настолько существенный, как оценивали его в NASA. Более того, часть двигателей заработала в итоге. Но это всё равно серьёзный прецедент;

- Если бы экипаж пришлось экстренно эвакуировать на Starliner, то они смогли бы безопасно вернуться;

- Астронавты Уилмор и Уильямс не застряли на МКС. У слова «застряли» немного другой контекст, и МКС это не необитаемый остров. Они не туристы, они выполняют работу, их миссия была расширена и продлена (что учитывается в разных сценариях), а полгода на орбите — стандартный срок, а не аномалия. Там нет «надеюсь им хватит еды и воды». К ним скоро прилетит их Crew Dragon для возвращения.

- NASA выбрало самую консервативную опцию, потому что у них есть такая возможность благодаря 2 разным кораблям в активном флоте (у остальных либо 1, либо 0);

- Самую консервативную опцию выбрали потому что Apollo 1, Challenger 1986 и Columbia 2003: нельзя закрывать глаза на риски;

- По иронии, дублирование систем в CCP предусматривали из-за неуверенности в SpaceX, но годы спустя, именно благодаря SpaceX удалось минимизировать риски от Starliner;

- Всё происходящее в программе Starliner нуждается в пересмотре, доработке и оптимизации процессов, а существование подобного прецедента в целом недопустимо. Впереди месяцы, если не несколько лет, доработок и проверок, которые станут финансовой нагрузкой для Boeing и нагрузкой с точки зрения времени специалистов для NASA;

- Будущее программы Starliner после 3 оплаченных пусков для МКС под большим вопросом. NASA пока не готово коммититься и оплачивать ещё 3 пуска;

- Туристические перспективы и коммерческие заказы для будущих частных станций пока тоже под вопросом. Есть риск, что Boeing закроет программу после выполнения оплаченных полётов по финансовым соображениям;

- С 25 июля ни один специалист Boeing не появлялся на публичных панелях NASA по статусу миссии — это коммуникационная катастрофа;

- Всё происходящее по нештатной ситуации со Starliner с точки зрения коммуникации — недопустимо. Ни Boeing, ни NASA не смотрятся хорошо в этой истории. А спекуляции, новости и заголовки как результат такой коммуникации;

- Сегодняшние проблемы Starliner, это в том числе результат решений нескольких организаций, которые были приняты 12 лет назад. Как стратегических, так и технических;

- Это не последнее трудное решение для NASA в части пилотируемой космонавтики — впереди трудные решения по Artemis, которые тоже являются результатом предыдущих ошибок.

Читать полностью…

Сиолошная

Сейчас ежемесячная подписка на ChatGPT стоит $20. Как думаете, на сколько её могут поднять в ближайшем будущем с выпуском новых моделей? 50 долларов? 75 долларов? А как насчет 200 или 2000 долларов?

Вы можете удивиться, но такие цифры (да, две тыщи) фигурировали во внутренних обсуждениях в OpenAI. Сейчас этот вопрос стоит особенно остро (ну, если вы верите, что следующее поколение моделей приятно удивит) — ведь проекты Strawberry (улучшение навыков рассуждения моделей) и Orion (вероятно, GPT-5) будут требовать больше ресурсов для работы. По достаточно популярной гипотезе, моделям нужно будет время «на подумать» перед тем, как давать ответ, и всё это время в фоне будет крутиться нейронка.

Конечно, повышение цены (особенно до планки более чем 100 долларов) также будет означать, что OpenAI считает, что ее существующие клиенты ChatGPT будут считать эти новые модели гораздо более ценными для их повседневной работы.

Сейчас OpenAI рубит примерно 2 миллиарда долларов в год на $20-ых подписках. Интересно, где они будут через год 👀

Читать полностью…
Subscribe to a channel