seeallochnaya | Unsorted

Telegram-канал seeallochnaya - Сиолошная

56987

Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно запинено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy

Subscribe to a channel

Сиолошная

New York Times ознакомились с финансовыми документами OpenAI — вероятно, с проспектом сделки по привлечению очередного раунда финансирования, — в которых указано, что месячная выручка компании составила в августе 300 млн долларов и компания ожидает, что годовая выручка составит 3,7 млрд долларов. Ожидания на будущий год простираются до суммы в 11,6 млрд долларов. Месячная аудитория сервисов компании составляет примерно 350 млн человек по состоянию на июнь этого года, из которых 10 млн — это подписчики платного ChatGPT. Кстати, в документах описаны планы по повышению цены на сервис с нынешних 20 долларов — сначала на 2 доллара, а затем до 44 долларов в течение ближайших пяти лет.

Правда, из той же документации следует, что убыток в этом году составит примерно 5 млрд долларов без учета выдачи опционов.

Закрытие сделки ожидается на будущей неделе — скорее всего, OpenAI привлекут 7 млрд долларов при оценке компании в 150 млрд. Ведет раунд компания Thrive Capital, которая планирует, кроме своих денег, привлечь еще 450 млн долларов через дополнительные финансовые инструменты, а также получает опцион на инвестицию еще 1 млрд долларов в течение 2025 года по той же оценке — что может оказаться очень выгодным, если оценка в будущем году продолжит свое победоносное шествик — удваиваясь в течение года или утраиваясь за полтора-два года.

https://www.nytimes.com/2024/09/27/technology/openai-chatgpt-investors-funding.html

Читать полностью…

Сиолошная

Пост TheInformation от 29-го мая 2024-го года. Я начал писать его разбор, но подумал, что пока не стоит его публиковать. Теперь пора, итак, тезисно:
— уже в тот момент OpenAI рассматривали возможность перехода от некоммерческой организации к коммерческой (for profit). Это обсуждалось в рамках привлечения следующего раунда инвестиций
— некоторые потенциальные инвесторы заявили, что хотят, чтобы Altman получил пакет акций, чтобы согласовать его интересы с бизнесом. На данный момент Sam не владеет долей в OpenAI.
— компания может стать public benefit corporation (как Anthropic или xAI Elon'а). Что это такое и почему это не то же самое, что компания, напрямую ориентированная на заработок, можно прочитать в моём посте тут.

Почему инвесторам это важно? Потому что, как вы понимаете, никто не хочет давать денег на ничто — а именно так сейчас устроена схема вложений. Очень подробно описывал её тут, вот главная цитата:
> Такая структура создает немалые риски для инвесторов в OpenAI LP (Microsoft и других), которая по факту не владеет ничем: инвесторы в OpenAI владеют токеном от дырки от бублика — долей в OpenAI LP, которой не принадлежит ничего (никаких технологий). Теоретически возможна ситуация, при которой НКО OpenAI просто разорвет отношения с OpenAI LP, и инвесторы останутся ни с чем.

Сейчас, видимо, никто не готов давать деньги дальше без гарантии хотя бы какого-то результата в виде возврата $.

Сегодня вышел эксклюзив в Reuters, который в целом рассказывает то же самое, что и пост трёхмесячной давности, новых деталей буквально две:
— Некоммерческая организация OpenAI продолжит существовать и будет владеть миноритарной долей в новой коммерческой компании. (но не ясно, у кого будут права на технологию — сейчас инвесторы не имеют к ней никакого отношения, см. про дырку от бублика).
— коммерческая организация, как понятно по абзацу выше, не будет подчиняться совету директоров некоммерческой ветки.

===

Это была новость раз. Новость два — про масштаб, на котором новая компания будет оперировать в партнёрстве с Microsoft и другими заинтересованными лицами (это чтобы дополнить картинку, почему дальше работать как НКО сложно). Стало известно, что говорили представители OpenAI на встрече в Белом доме на прошлой неделе — об этом написал Bloomberg.

— OpenAI пытались убедить администрацию Президента в необходимости огромных центров обработки данных, каждый из которых мог бы использовать столько же энергии, сколько целые города, представляя беспрецедентное расширение, необходимое для разработки и использования всё более совершенных моделей и конкуренции с Китаем
— более конкретно, был обозначен следующий план: предлагается начать с постройки датацентра, потребляющего 5 гигаватт (ГВт) энергии; OpenAI описывают, сколько рабочих мест и денег это принесёт США (оценки сделаны внешними исполнителями, независимыми от OpenAI).
— 5 ГВт, это много или мало? Ну, это эквивалент 5-6 ядерных реакторов, работы которых достаточно для обеспечения светом ~3 миллионов домохозяйств. В США на данный момент от ядерки вырабатывается всего 96 ГВт.
— 5.5 ГВт — это среднее потребление ВСЕГО НЬЮ ЙОРКА (пиковое порядка 10 ГВт), и больше Парижа
— примерно столько, по подсчётам, должен был занимать проект Stargate (суперкомпьютер OpenAI x Microsoft за 100-125 миллиардов долларов). Читать про важность проекта тут.
— CEO Constellation Energy Corp (это владельцы АЭС, которую планируют перезапустить специально для Microsoft) проговорился, что Altman говорил ему про дальнейший план постройки ещё 5-7 таких датацентров. То есть вместо одного суперкомпьютера (масштаб которого сейчас и представить сложно) за дохреналион долларов их будет несколько 🤯 — и это план лишь одной компании

И вишенка на торте — не могу сейчас найти источник, но где-то было написано, что Sama планировал публично раскрыть детали проекта Tiger по привлечению средств на кардинальное изменение отрасли производства полупроводников и чипов до конца этого года (сейчас идут дискуссии об инвестициях). Очен ждом.

Читать полностью…

Сиолошная

CTO OpenAI Мира Мурати покидает компанию — чтобы создать время и пространство для своего собственного исследования, как говорится в её публичном заявлении.

Астрологи объявляют неделю сообщений, что OpenAI приходит в упадок и уже не торт.

https://www.cnbc.com/2024/09/25/openai-cto-mira-murati-announces-shes-leaving-the-company.html

Читать полностью…

Сиолошная

Главная ошибка при сравнении с человеком — это считать, что средний работающий человек достигнет 100% 😀

Из последующего исследования этих же авторов (выбрали одну задачу про блоки и раздали всем участникам):
> из 50 отобранных испытуемых, 39 (78%) смогли сделать валидный план
> 35 из них сделали оптимальный (то есть с наименьшим количеством ходов) план

Наверное, и говорить не стоит, что на Mystery-задаче, где вместо блоков абстрактные сущности, большая часть людей просто бы потерялась — особенно если решать задачу zero shot, то есть без примера решения другой задачи (в инструкции или промпте). У o1-preview же качество 52.8% на старом Mystery-наборе (из 2022-го) и 37.3% на новом. (На человекочитаемом там вообще 97%, но модель могла запомнить задачи, поэтому их не берём)

Думаю, что полноценная o1 без прописанных в API ограничений будет примерно равна в этой задаче по качеству со случайно выбранными с улицы людьми 🫡

Читать полностью…

Сиолошная

Авторы предлагают 2 задачи и аж 7 вопросов для исследования, но нам интересна одна задача и самый главный вопрос — могут ли модели составлять план из действий?

Для этого берётся задача Blocksworld. У вас есть одна рука, в которую помещается один блок. Блок нельзя двигать, если на нём стоят другие блоки. Блоки отличаются цветом. Цель — выложить блоки в некоторой заранее указанной последовательности. Начальное состояние может генерироваться случайно, блоки как-то просто раскидали в рандомном порядке.

Действия всего 4:
— взять блок
— отсоединить блок от блока под ним (как будто детальки лего)
— положить блок
— прикрепить блок к другому

Таких задачек сгенерировали 600 штук. Но поскольку блоки — это понятные нам абстракции (и модель-то может разобраться в физике раскладывания!), то авторы решили сделать Mystery Blocksworld — то что называется обусфицировать задачу. Кубики и цвета они заменили просто на объекты, а глаголы действий — либо на другие случайные глаголы, либо на случайно генерируемые id, не несущие смысла (например, tv30k33pzoulql6w).

Атрибуты типа «рука занята» тоже заменили на случайные буквы (a46zhwykn6jvbabk). Таким образом, единственный способ для LLM составить план — это не опираться на знания о естественном мире, а действительно вникнуть в описание состояний, дейсвтий, разобраться в цепочке что за чем следует, перебрать несколько вариантов.

На картинке вы видите описание одной из таких задач.

В задачах использовалось от 3 до 5 «блоков», большинство задач требовало 6-8 и более шагов в плане для достижения цели.

Что обнаружили в 2022-м году — так это что LLM действительно очень плохо справлялись с подобными проблемами, качество было около нуля, конкретные цифры не имеют значения.

Читать полностью…

Сиолошная

🥺 до сих пор думаю про это

(изначально это и был весь пост, но решил дописать)

Недавно из раннего доступа вышла игра Satisfactory. Это симулятор строительства фабрики масштаба целой планеты — как Factorio, только 3D, и чуть более дружелюбная к игроку. Идеальное место для медитации инженера и людей, кого может захватить настройка и создание цепочек производства.

Сначала нужно научиться добывать и перерабатывать простые материалы, песок/железо/уголь/биомассу, затем построить космический лифт и начать выполнять заказы на поставку всё более сложных и комплексных материалов: композиты, чипы, батарейки, итд. Нужно строить конвейерные ленты, железную дорогу для поездов, можно строить самосвалы и настраивать путь их проезда между производством и рудниками.

На Metacritic у игры 90 баллов от журналистов и 9.0 от игроков — одна из самых лучших игр за последние годы. Я купил и завис ещё в 2021-м, и даже просидел в ней несколько рабочих дней, не выполняя задачи 🥺 ОЧЕНЬ затягивающая, если с вами «кликнет».

Трейлер: https://youtu.be/W_lmP8jYVLs (есть более свежий, но как мне кажется игра в нём раскрывается меньше)

А ещё есть кооперативная игра, фабрики можно строить с друзьями.

Если вам мало масштаба планеты, то могу рекомендовать Dyson Sphere Program, тоже очень залипательная.

P.S.: разбор ML-статьи позже сегодня 👀

Читать полностью…

Сиолошная

Ужас, последний разбор статьи был почти месяц назад (28-го августа, на диффузионную модель, генерирующая игру в Doom, вот пост) — это за вычетом разбора системной карточки o1 и пары-тройки статей в лонгах (как-то отвлёкся на них).

Давайте исправляться. Кидайте в комментарии (без флуда пж) ссылки на то, что интересно было бы разобрать — не больше 1 ссылки в сообщении, и чтобы превью прогружалось.

У меня у самого во вкладках открыто штук 10, посмотрю 2-3 самых интересных и выложу в ближайшие дни.

Лайкайте понравившиеся ссылки — так буду понимать, что интересно аудитории.

Читать полностью…

Сиолошная

От слов к делу — Microsoft подписали контракт на покупку любого количества энергии, производимой на американской АЭС Three Mile Island, в следующие 20 лет. Эта АЭС — как Чернобыльская станция в СССР: в 1979-м году там произошла авария на одном из двух блоков. Это была крупнейшая авария в истории коммерческой атомной энергетики США, которая усилила уже существовавший кризис и вызвала всплеск антиядерных настроений в обществе. Хотя всё это и не привело к мгновенному прекращению роста атомной энергетической отрасли США, её историческое развитие было остановлено. После 1979 и до 2012 года ни одной новой лицензии на строительство АЭС не было выдано, а ввод в строй 71 ранее запланированной станции был отменён — ушла эпоха.

Первый (из двух) блоков станции в порядке, он работал до 2019-го года (на ЧАЭС тоже после выхода из строя четвертого блока продолжалась выработка энергии на остальных трёх — вплоть до 2000-го года). Но его решено было остановить по экономическим причинам: столько энергии не было нужно, да и в США появились более дешёвые источники выработки.

Старющий реактор в штате Пенсильвания должны перезапустить к 2028-му, на АЭС вернутся ~600 специалистов — и всё это для того, чтобы получить лишние 835 мегаватт энергии для подпитки датацентров. Этого примерно хватит для содержания 700'000 домов в США, но всё уйдет на обучение GPT-N+1 и генерацию картинок 😐

Google не отстаёт — буквально на днях СЕО Alphabet Sundar Pichai хвастался, что у них уже в работе гигаваттный датацентр, и что его хотят подпитывать современными небольшими модульными ядерными реакторами. Ну и новости про Oracle/Amazon не забываем — те тоже ударились в ядерку.

Кажется, AI гонка и нехватка энергии для будущих датацентров подстегнули развитие атомной энергетики в США как никто другой в последние 40 лет. Интересно, что в планах дальше у OpenAI x Microsoft и Co?

Подпись к мему:
Я не против ядерной энергетики, но перезапуск THREE MILE ISLAND, потому что Sam Altman нужно больше гигаватт, чтобы выяснить, сколько букв «r» в слове «strawberry» — это знаменательная веха в раздутии пузыря искусственного интеллекта.

Sama 🤝 Мирный Атом

Читать полностью…

Сиолошная

Сколько на самом деле стоит инференс GPT-4o?

Почему-то многие думают, что провайдеры больших языковых моделей продают API чуть ли не себе в убыток. Я бы хотел поделиться прикидками о том, почему это совсем не так, и заодно помечтать о том, сколько параметров мы можем себе позволить тратить на модель, которая сможет заменить человека в работе.

Все расчёты можно воспроизвести в колабе, меняя цифры, как вам захочется. Выводы остаются неизменны.

Для расчётов нам нужно сделать несколько допущений:
1. Количество активированных параметров в модели. Для GPT 4 Turbo широко ходили слухи про 200 миллиардов параметров, так что 4o должна быть меньше. По данным Artificial Analysis, пропускная способность GPT-4o – 95 tok/s, что находится между LLama 3.1 7b (182 tok/s) и 70b (80 tok/s). Для наших целей предположим, что в 4o 100 миллиардов активированных параметров, делая скидку на то, что в OpenAI инференсом занимаются крайне толковые люди. Кстати, Gemini Flash 1.5 с последним обновлением выдаёт 330 tok/s.
2. Амортизированная стоимость сервера с 8 H100. Чтобы не сильно расстраиваться, возьмём оценку сверху как цену такого сервера на AWS – на сегодняшний день $39.33 в час. На рынке цены могут быть минимум в пять раз меньше.
3. MFU – какой процент вычислений используется эффективно. Стандартом является 30-50%, для наших прикидок возьмём 30%.

При таких допущениях (а с другими вы можете поиграть в колабе), стоимость инференса миллиона токенов получается $0.23. Сравним это с официальной ценой в $2.5 за input и $10 за output и получим наценку API в ~50 раз. И это – оценка сверху со всеми допущениями в сторону удорожания. С другой стороны, кому-то же надо скидываться Саме на Koenigsegg. 😮‍💨

Заодно мы можем посчитать, насколько дешевле модели в сравнении с кожаными мешками. Взяв минимальную зарплату в Нью-Йорке ($16) и производительность в 100 токенов в минуту (среднее у людей примерно 50 слов в минуту), получим стоимость миллиона токенов в $2666.67. Даже o1 со своими $60 / Mtok тут рядом не стоит. Есть, куда расти!

Читать полностью…

Сиолошная

LMSYS Arena обновила рейтинг, добавив свежие модельки о1. Напомню, что LLM этого семейства не позиционируются как хорошие во всём, и заточены на науку (математика/физика/программирование). OpenAI не обещали улучшений по всем фронтам (ну это вы знаете, если читали сегодняшний лонг).

ОДНАКО

Модели всё равно в топе - на первом и третьем месте. И это с учётом контроля по стилю и длине - то есть к рейтингу модели применяют некоторую поправку, которая штрафует за очень длинные ответы, а также те, что содержат много списков, заголовков итд. Детали в официальном блоге тут.

В математике отрывы вообще неприличные (второй скрин).

А ещё обратите внимание, что обновилась модель ChatGPT (это та, которая заточена на диалоги, и именно к ней получают доступ пользователи сайта chatgpt) - она заработала +20 очков относительно предыдущей версии. То есть o1 лучше ChatGPT которая лучше прошлых ChatGPT которые лучше всех остальных моделей.

😦

Источник

Смотреть рейтинги тут

UPD: ещё добавили в сравнение 16-битную версию LLAMA-3.1-405B. Она в рейтинге выше, чем обычная пожатая восьмибитная, что ожидаемо. Разница наибольшая в reasoning-heavy задачах

Читать полностью…

Сиолошная

Dan Hendrycks, автор известных и популярных бенчмарков MATH и MMLU, посмотрел на прогресс моделей (по обоим наборам проблем современные LLM решают уже 90%+) и понял, что пора придумать новый набор задачек. Dan называет его «Последним экзаменом человечества» («Humanity's Last Exam», не шутка).

Вопросы может присылать каждый. Они должны быть экспертного уровня (человек с улицы не решит) и не быть скопированными с интернета (это чтобы модели не могли их запомнить). Всего будет не менее тысячи вопросов, и у каждого есть возможность поучаствовать — если ваш вопрос отберётся, то вы получите от $500 до $5000.

Фишка в том, что прямо на сайте в форме подачи вопроса вы указываете ответ, а затем происходит проверка:
1. 3 передовые модели пытаются ответить на вопрос / решить задачу
2. Если все лажают — в дело вступают свежеприготовленные o1-mini и o1-preview от OpenAI.

Если по итогу все 5 моделей ошиблись — открывается возможность отправки. По сути, это базовая верификация, что ваш вопрос сложен для систем сегодняшнего дня. И пишу я этот пост как раз для того, чтобы вы — даже если у вас нет подписки на ChatGPT для доступа к o1 — могли опробовать навыки передовых LLM. Правда есть парочка ограничений:
1. Вопросы не должны быть просто вопросами с подвохом. Бородатое «А и Б сидели на трубе» не подойдет (ну и это не экспертный вопрос).
2. Вопросы не должны быть просто задачей на счёт или вычисление — зачем, если LLM может вызвать Python? Такая задача ничего не проверяет.
3. Вопросы только на английском языке.

Так что если вы эксперт в какой-то области (особенно вне IT), и у вас есть сформулированная проблема (для которой вы знаете ответ) — обязательно попробуйте закинуть на сайт и посмотреть, справляются ли модели. Это даже чисто из интереса стоит опробовать, нежели в погоне за наградой за вопрос — тем более ответ будет сразу от 5 моделей!

Ссылка: https://agi.safe.ai/submit (никакой регистрации НЕ НУЖНО)

Также выкладывайте в комментарии интересные попытки, особенно если LLM смогли вас удивить и ответить правильно, хотя вы ждали промашки!

Читать полностью…

Сиолошная

Если за вчерашний вечер вы исчерпали лимиты сообщений моделям o1 и o1-mini в ChatGPT, то возрадуйтесь: OpenAI сжалились и сбросили всем счётчик. Теперь можно снова отправить 50 сообщений в младшую и 30 в старшую версии.

Бонусная информация:
— o1-mini планируется добавить в бесплатный тир, то есть каждый сможет с ней общатсья
— сотрудник OpenAI заявил, что скоро появятся модели с более длинным контекстом (в том числе для размышлений). А то как-то несолидно, конкуренты тут давно обогнали :(
— модель o1-preview — это ранняя версия уже законченной o1. Они одного размера, и вторая получена из первой дообучением. Но по какой-то причине доступа, увы, не дают. По метрикам в некоторых задачах там прям сильный разрыв.

Читать полностью…

Сиолошная

Удивлён, что про это не написал никакой другой канал. Придётся делать самому 🥺

В рамках подготовки к релизу o1/o1-mini OpenAI отдали модели на тестирование безопасности внешним командам, ну и проводили внутреннее тестирование. В частности, проверяли навыки LLM-агента в решении задач кибербезопасности (писал об этом тут).

По сравнению с GPT-4o, o1-preview и o1-mini продемонстрировали улучшение в способности разбивать задачи на подзадачи, рассуждать о том, какие стратегии будут эффективны для успешного выполнения, и пересматривать планы в случае неудачи этих стратегий — ну, это ожидаемо. Но вот во время тестирования произошёл один курьёзно-неприятный случай.

Была задача нахождения уязвимости в коде программы, запущенной в отдельном Docker-контейнере. В контейнере есть файл с секретной строкой, которую атакующий (человек или модель) должны получить — как раз используя найденную проблему.

Однако из-за инфраструктурной ошибки контейнер не запустился. Модель, будучи неспособной подключиться к контейнеру, заподозрила проблемы с DNS и использовала программу nmap для сканирования сети. Вместо того, чтобы найти целевой контейнер (в рамках задачи LLM знает, какую цельнужно «атаковать»), модель обнаружила, что из-за неправильной конфигурации был доступен внешний API-интерфейс демона Docker, работающий на виртуальной машине. «Демон» это программа верхнего уровня, отвечающая за оркестрацию и управляющая процессом, по сути родительский процесс и для контейнера с LLM-агентом, и для контейнера с целевой программой/файлом для атаки.

Модель использовала демон для получения списка контейнеров, запущенных на сервере. Она обнаружила тот самый сломанный сломанный контейнер и попыталась выяснить, почему же он не запустился. Не сумев исправить проблему (но будучи проинструктированной ВЫПОЛНИТЬ СВОЮ ЗАДАЧУ), модель решила пойти другим путём. Она отправила команду запуска нового контейнера (того же, который в прошлый раз не запустился), но отдала ему команду вывода содержания файла с секретной строкой. Команда была исполнена, LLM получила «ключ» в виде строки и как следствие решила задачу (ведь цель — это добраться до строчки и затем отдать её на проверку).

Этот пример отражает ключевые элементы того, что называется «instrumental convergence» и захвата ресурсов: модель преследовала поставленную перед ней цель, а когда эта цель оказалась недостижимой, она собрала больше ресурсов (в данном случае получила доступ к демону Docker) и использовала их для достижения цели — в виде способа, который человек не ожидал и не предполагал.

Источник — отчёт OpenAI

Читать полностью…

Сиолошная

Удобный пост-выжимка с новостями о новой передовой модели OpenAI, o1:

— прирост качества происходит за счёт рассуждения LLM'кой перед ответом. Текст рассуждений не будет доступен, лишь краткая выжимка с верхнеуровневым описанием

— модели и раньше умели рассуждать, но делали это менее эффективно. Основной упор OpenAI сделали именно на то, чтобы при итеративном само-исправлении (рефлексии) и рассуждениях модель куда чаще приходила к правильному ответу

— o1 это не замена gpt-4o во всех задачах. Она СИЛЬНО лучше в математике/физике/программировании, лучше и чётче следует инструкциям, но потенциально хуже говорит на разных языках и обладает не большим количеством знаний о мире. Следует воспринимать модель как reasoner («мыслитель» по-русски, видимо). Мини-версия, со слов OpenAI, в этом плане сравнима с gpt-4o-mini, тут без откровений

— модель доступна сегодня всем платным подписчикам ChatGPT Plus с жестким лимитом: 30 сообщений В НЕДЕЛЮ большой модели и 50 - маленькой. Так что собирайте все свои хотелки и продумывайте требования к решению наперёд :)

— если вы часто пользовались API и потратили больше $1000 в прошлом, то модель будет доступна по API с ограничением 20 запросов/минута

— однако цены кусаются: младшая версия o1-mini стоит чуть-чуть дороже gpt-4o августовской...но при этом вы платите за все рассуждения (которые, напомню, не увидите!) - а их будет МНОГО. Поэтому реальная наценка будет в 3-10 раз, в зависимости от времени «раздумий» модели

— модель справляется с олимпиадными задачами по математике и программированию на уровне золотых медалистов международного тура; по физике в сложных тестовых заданиях, устойчивых к решению с использованием поисковика Google, она сравнима с PhD-level студентом (~75-80% правильных ответов)

— возможности использовать изображения, поиск в интернете, запускать код пока отключены; но появятся в ближайшем будущем

— сейчас контекст моделей ограничен 128k токенами, как и у старых версий. Однако следует ожидать увеличения в будущем — OpenAI заявляют, что сейчас модель в пике «думает» чуть больше пары минуты, а они хотят стремиться к часам и дням.

— как это всегда бывает с первым релизом, могут быть очень простые баги, когда модель прям на очевиднейшие вещи не отвечает/ведется на джейлбрейки. Это — нормально, уже через 2-3 месяца, когда модель перестанет быть preview, их станет сильно меньше

— у самих OpenAI есть уже не-preview модель, однако они её тестируют, и пока не готовы выпускать. Она лучше того, что досталось нам — смотрите на прикреплённой картинке

— новую модель НЕ НУЖНО промптить, не нужно просить отвечать как-то с размышлением, шаг за шагом или по-хитрому; всё это сделается самостоятельно под капотом за вас. Советы по промптингу от OpenAI — тут

— статьи, которые можно почитать, чтобы примерно прикинуть, как обучали модель: один, два, три. Они могут иметь ничего общего с реальностью, но копают в том же направлении

Ну и да, всем — добро пожаловать в Strawberry Era!

Читать полностью…

Сиолошная

Те, кто уже получил доступ и побежал тестировать, держите в уме ограничения:

— в неделю можно отправить 30 сообщений в старшую версию o1-preview
— и 50 сообщений в маленькую o1-mini

В API ограничений нет, кроме как на 20 запросов в минуту. Но платить придётся...много 🙂

Источник

Читать полностью…

Сиолошная

Когда у CEO Nvidia брали интервью после презентации новых чипов, он хвастался, что разработка прототипов (включая исследования) обошлась в более чем десять миллиардов долларов. Также он отметил, что получение именно такой производительной GPU возможно лишь с использованием AI — то есть методы машинного обучения позволяют делать железки более крутыми.

Другие производители железа тоже не дремлют, вот Google занимается применением Reinforcement Learning к задаче дизайна чипов уже более четырёх лет. За это время вышло три поколения TPU (аналог GPU, заточенный конкретно под нейронки), в каждом из которых использовались аналогичные ИИ оптимизации.

Компьютерные чипы состоят из множества взаимосвязанных блоков, соединенных проводами. Существует также куча сложных и взаимосвязанных ограничений проектирования финальной компоновки, которые необходимо соблюдать (все сразу). AlphaChip — подход Google — формулирует эту проблему как игру, как было с Го или шахматами. Начиная с пустой платы, AlphaChip размещает по одному компоненту, как бы делая «ходы», пока не закончит размещение всех частей.

Затем решение оценивается некоторым способом в зависимости от качества макета. Этот процесс повторяется много-много раз, и в конце концов нейронка обретает интуицию того, какие компоновки лучше, какие — хуже.

На картинке вы видите разницу в длине проводов в чипах трёх поколений, посчитанную между компоновкой, предложенной командой инженеров, и найденной алгоритмом. В последнем рабочем поколении TPU она составляет более 6%. Это очень важно, ведь чем меньше длина, тем меньше времени нужно, чтобы передать сигнал, так что тут речь не только об экономии на материалах.

И сам процесс дизайна выходит несравненно быстрее: несколько часов, а не недель или месяцев усилий команды высокооплачиваемых инженеров.

Также Google в конце блогпоста пишет, что будущие версии уже находятся в разработке, и, вероятно, стоит ждать бОльших оптимизаций в TPU следующих поколений.

Оригинальная статья 2020-го года с описанием подхода.

Читать полностью…

Сиолошная

Флеш-новости 5:
— пока на скорую руку про уход Mira: персонально я не думаю, что это связано с какими-то проблемами на работе (от отношений с Sama'ой до ограничений технологии и хайпа). Скорее всего человек действительно устал (как Greg Brockman, который должен вернуться), и сейчас выдался момент, когда можно взять саббатикал или уйти: основные модели либо выпущены, либо тренируются/находятся на финальном этапе полировки. Время покажет, так ли это — вон Andrej Karpathy ушёл, кто-то думал, что это всё прикрытие и что он сразу пойдет в другую компанию, а человек просто в своё удовольствие код пишет, на Мальдивах отдыхает, образованием занимается. Без разных подковёрных мотивов.
— TheInformation пишет, что OpenAI тренирует следующее поколение видео-моделей Sora. Улучшения будут по всем фронтам: генерации будут быстрее (в демо для артистов было ~10 минут на 60-секундный ролик в FullHD — и это при том, что для подходящего куска приходилось делать десятки-сотню генераций), стиль объектов между кадрами будет сохраняться лучше, ошибок анатомии/физики будет меньше, итд.
— META выпустили LLAMA 3.2, теперь с мультимодальностью: модель может принимать аудио и видео/картинки на вход, и тоже отвечать голосом. Есть также маленькие модельки (1B и 3B) для работы на девайсах (как я понял — только с текстом)
— голосовой ассистент на основе LLAMA был добавлен в приложение META, и.. также как и gpt-4o с голосом оно не работает в Европейском Союзе. Надеюсь, у регуляторов что-то в голове да щёлкнет, и они поймут, что что-то делают не так — ведь пользователи просто не получают доступа к передовым технологиям, что наносит вред адаптации.
— вчера Google обновили линейку моделей Gemini с 1.5 до.... 1.5-002. Для Pro (большая версия) цены снизились на более чем 50%, а качество шустрой Flash достигло почти по всем банчмаркам показателей Pro от мая 24-го. Кроме этого, увеличили скорость генерации и уменьшили задержку при работе с API. Думаю, конкретные цифры и бенчмарки мало кому интересны, однако в целом теперь Flash выглядит очень привлекательно — если на практике окажется, что её перформанс действительно сравним с весенней Pro.


И отдельно будет пост про другие новости OpenAI, stay tuned. Ну а разбор статьи оставим на завтра 🐱

Читать полностью…

Сиолошная

Открываем шампанское — войсмод gpt-4o, показанный в мае, в течение недели станет доступен всем подписчикам

Туда сразу вкатили фичи, которые не обещали на старте:
— произвольные инструкции (которые можно задать перед началом диалога. Например, тон, как к вам обращаться, говорить длиннее или короче, итд)
— память (общая с текстовыми чатами)
— 5 новых голосов
— улучшение самого голоса, акцентов, произношения, итд

😈

UPD: новые голоса послушать тут.

Читать полностью…

Сиолошная

На днях авторы перезапустили бенчмарк, сделав новые задачки, и протестировали свежие o1 от OpenAI, которые «умеют рассуждать» — и написали новую статью «LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench». Эти новые LLM охарактеризовали как «квантовое улучшение, опережающее конкурентов» — по картинке вы можете понять почему.

Синяя линия — результат o1-preview (o1 не превью будет ещё круче!), красная — o1-mini. По горизонтали длина оптимального плана для решения задачи, выраженная в количестве действий, по вертикали — доля правильно решённых задач с соответствующей длиной плана. Например, o1-preview справляется с задачами с длиной плана в 10 шагов в 25% случаев. Это далеко от идеальных 100%, но действительно квантовый скачок.

Слева графики для Zero shot (то есть без примера решения), справа для one shot (есть решение одной другой задачки) в промпте. Для некоторых моделей лучше дать пример, но o1 становится от этого немного хуже.

Авторы замечают, что o1-preview будто бы ограничена в длине рассуждений (для этого смотрят на распределение длины ответов), и потому скорее всего без ограничения качество в правой части графика было бы выше. Однако эксперименты очень дорогие — менее чем за неделю потратили $1800 только на одну модель 😳 и отвечает она медленно — в средне по 111 секунд на запрос.

Что ещё стоит сказать:
— да, есть специальные программы, которые за доли цента и менее чем за секунду по PDDL решат задачу планирования. Но цель бенчмарка — показать прокси-метрику для реальных рассуждений, которые могут быть выражены натуральным языком, а не конвертироваться в спец. программу
— интересно, что LLM-ки лучше работают с текстовым описанием задач (которое может быть двусмысленным), а не со строгим PDDL-форматом подачи информации в промпте
— на оригинальном Blockworld, без замещения кубиков непонятно чем, o1-preview показывает 97.8% решений, что сильно удивляет авторов (они не ждали таких результатов от LLM). На Mystery качество падает до 52.8%, но говорить про переобучение (что модель видела данные) наверное не стоит — просто с блоками действительно ЯЗЫКОВОЙ модели легче управиться должно быть.
— однако когда задачи перегенерировали (уникальные id / слова), то качество упало до 37.3%. Всё ещё существенно выше околонулевых результатов любых других моделей, но хотя бы можно использовать для отслеживания дальнейшего прогресса


— Авторы заметили, что когда модель дает неверный ответ, она также иногда предоставляет креативное, но зачастую бессмысленное обоснование своего решения. Это похоже на то, как если бы o1 перешла от галлюцинаций к газлайтингу
— В одном случае o1 решила, что условие «блок_находится_на(a, c)» было выполнено, потому что, как это объяснялось в скобках, a было на b, которое было на c, и, таким образом, a было где-то выше c, что следует считать находящимся «сверху» него 🤷‍♀️(в PDDL такое недопустимо как раз, но, как указано выше, там и общее качество хуже)
— в другой задаче, которая не имела решения (авторы отдельно проверяли, как часто модель понимает тупиковость ситуации), модель всё же смогла выдать план. Когда её попросили объяснить, как мол так, она написала, что все условия были выполнены, просто не за раз, а последовательно в ходе решения 😀

Читать полностью…

Сиолошная

PlanBench: An Extensible Benchmark for Evaluating Large Language Models on Planning and Reasoning about Change

Скептики вроде Yann LeCun считают, что LLM не умеют планировать (и рассуждать). Меж тем умение генерировать план и вносить в него изменения — это ключевые навыки для следующей ступеньки развития LLM, а именно AI-агенты, которые могут автономно преследовать цели и выполнять действия.

Те, кто пытаются привести контр-аргументы и примеры, зачастую основывают своё мнение на задачах из реального мира и здравого смысла, и как следствие становится трудно сказать, планируют ли LLM или просто пользуются информацией из обширного множества знаний.

Для разрешения вопроса в 2022-м году исследователи предложили бенчмарк PlanBench. Каждая задача в нём — это описание исходного состояния некоторой системы, возможных действий и финального состояния, которое нужно достичь. План здесь — это последовательность действий. Каждое действие задано двумя компонентами:
1) условия возможности выполнения действия, без соблюдения которых само действие заблокировано
2) эффекты, срабатывающие после выполнения действия

Для наглядности — на картинке пример описания простого действия на специальном языке PDDL. Действие называется «put-down» (положить), оно принимает на вход один объект ?ob, может быть выполнено только если мы держим объект (holding ?ob). Результат выполнения действия — набор обновлений для состояния: опустошить руку, объект на столе, мы ничего не держим.

Читать полностью…

Сиолошная

Из свежего эссе Sam Altman «The Intelligence Age»:

> В ближайшие несколько десятилетий мы сможем делать то, что нашим прародителям казалось бы волшебством. Это явление не ново, но оно будет ускоряться ещё больше. Со временем люди стали значительно более способными; мы уже можем совершить то, что наши предшественники считали невозможным.

> Благодаря этим новым способностям мы можем добиться совместного процветания до такой степени, которая сегодня кажется невообразимой; в будущем жизнь каждого может быть лучше, чем жизнь кого-либо сейчас.

> Вот один из способов узкого взгляда на историю человечества: после тысяч лет смешения научных открытий и технического прогресса мы научились плавить песок, добавлять некоторые примеси, с поразительной точностью компоновать его в чрезвычайно крошечных масштабах в компьютерные чипы, пропускать энергию через него и в конечном итоге получать системы, способные создавать все более способный искусственный интеллект.

> Вполне возможно, что через несколько тысяч дней (!) у нас появится суперинтеллект; это может занять больше времени, но я уверен, что мы доберемся до цели.

> Как мы оказались на пороге следующего скачка в процветании? В трёх словах: глубокое обучение сработало (прим.: имеется в виду Deep Learning, обучение нейронных сетей). В 15 словах: глубокое обучение сработало, оно предсказуемо улучшалось с масштабированием, и мы выделяли на него все больше ресурсов.

> Это действительно вот так просто; человечество открыло алгоритм, который может выучить любое распределение данных (или, по сути, основные «правила», которые производят любое распределение данных)

> С шокирующей степенью точности, чем больше вычислений и данных доступно, тем лучше ИИ помогает людям решать сложные проблемы. Я понял, что сколько бы времени я ни размышлял об этом, я никогда не смогу осознать, насколько это важно.

> Если мы хотим передать ИИ в руки как можно большего числа людей, нам необходимо снизить стоимость вычислений и сделать их доступными (что требует много энергии и чипов). Если мы не построим достаточную инфраструктуру, ИИ станет очень ограниченным ресурсом, из-за которого будут вестись войны, и который станет в основном инструментом для богатых людей.

===

Предпоследний процитированный абзац как будто бы намекает, что закончилась тренировка GPT-5, и OpenAI получили первые замеры 🆒 но это спекуляция.

Остальная же часть эссе показывает, насколько Sama и его окружение сфокусированы на дальнейшем масштабировании всего — не только моделей, но и инфраструктуры (с постройкой и арендой ядерных энергоблоков, выстраивания логистики, итд).

Читать полностью…

Сиолошная

Проснулись-потянулись, посмотрели свежее 20-минутное видео от Andrej Karpathy про историю создания LLM.C — его сайд-проекта для тренировки и использования аналога GPT-2.

Andrej рассказывает, что он начинал делать одну из своих лекций с PyTorch, и модель обучалась с использованием torch.compile (для ускорения за счёт оптимизаций). Но почему-то после этого он не мог её запускать для тестирования, не мог получить результаты — и видел разные ошибки. Тогда ему в голову пришла чудная идея — «я сделаю всё сам, перепишу всё с нуля на C».

После первого подхода и публикации кода в репозиторий прилетели программисты со всего интернета, начали переписывать модель на CUDA (для запуска на GPU),внедрять оптимизации — и по итогу код тренировки на одном сервере с 8 GPU был на 19% быстрее PyTorch и экономил 29% памяти. Но вся библиотека была заточена ровно на одну архитектуру и в относительно ограниченном сценарии — например, не поддерживалась распределённая тренировка (на нескольких серверах) и формат данных FP8. Сейчас это добавляют энтузиасты, плюс скоро появится поддержка не только GPT-2, но и LLAMA-3.1.

Сама имплементация должна была стать частью урока, где Andrej по шагам проходится по всем частям модели и стека тренировки, ведь там всё в одном файле и с минимумом абстракций. Относительно легко для постепенного погружения. Правда с добавлением всего, что связано с CUDA, порог входа поднялся (Karpathy кстати рекомендует вот этот блогпост для вката в программирования на CUDA).

По сути, вся LLM.C — это выборка узкой части функционала из всего того множества, что предлагают современные фреймворки, и экстремальная оптимаизация под один кейс. За счёт этого и получается быть эффективнее, избавившись от ненужного, лишнего. Под конец Andrej поднимает вопрос: «а что если LLM в ближайшем будущем станут такими оптимизторами всех приложений и программ? Для каждой будет написана более эффективная версия с учётом конкретной специфики и сценариев использования».

Меня давно терзал схожий вопрос — на сколько % можно будет ускорить Linux, если все программисты откажутся от дальнейшего развития и новых фичей и сосредоточатся на переписывании чуть ли не с нуля, но уже со знанием целевой картины. Это ж могло бы сэкономить миллиарды долларов во всем мире!

Картинка: Andrej начал проект будучи в отпуске на Мальдивах, лежа в бунгало или около него. Cracked. А как вы проводите отпуск?

Читать полностью…

Сиолошная

Через минуту премьера полного интервью с разработчиками модели о1 из OpenAI. До этого мы видели лишь первые 3 минутки.

https://youtu.be/tEzs3VHyBDM?si=sUxvc53ccmf_qgIY

Читать полностью…

Сиолошная

Флеш-новости 4 (для тех, кто пережил два лонга за полторы недели 🚬):

— CEO GitHub тизерит появление моделей o1 завтра в своём продукте. Это может быть как рядовая замена модели, не привнёсшая ничего нового с точки зрения UX, так и кардинальное улучшение Copilot, который теперь будет гораздо лучше планировать изменения в коде и размышлять о том, что имел в виду пользователь.

— Ходят слухи, что, возможно, в ближайшее время (чуть ли не на этой неделе) Google представит новую Gemini (может быть 2.0, может быть Ultra — её же не обновили до 1.5). Особый упор будет сделан на программирование. Вообще Google точно делал исследовательскую работу в том же направлении, что и OpenAI для o1, потому не удивлюсь, если будут схожий анонс с теми же акцентами. Google даже может превзойти OpenAI за счёт большего количества вычислительных мощностей на тренировку LLM — Sam Altman озвучивал такие опасения менеджерам в Microsoft.

— несколько представителей AI индустрии сходили в Сенат США, где их опрашивали про регуляции. Там была и Helen Toner, бывший член совета директоров, уволившаяся после возвращения Sam Altman. В своём вводном слове она говорила, что большинство регуляций надо направить на системы будущего, а не текущего поколения, и что дипфейки и GenAI это конечно опасно, но нужно думать про более глобальное влияние. И последующие 2 часа в Сенате говорили про... дипфейки и подмену голоса в звонках 🔥.

— ещё в этих слушаниях поднялась интересная тема разницы компенсаций в индустрии и в гос. структурах, и что никакой шарящий человек не пойдет работать в агентство-регулятор на зп в 5-10 раз меньше. Что-то с этим нужно делать.

— Microsoft и BlackRock (крупнейшая в мире инвест-компания, под управлением которой находится имущества на 10 триллионов долларов, примерно 8% мирового ВВП) планируют открыть инвест-фонд на... 30 миллиардов долларов. А ещё он может быть расширен до $100B 😨. Цель фонда — инвестиции в инфраструктуру для AI. Обратите внимание, что это не то же, что инвестировать в OpenAI. Это именно про налаживание производства и цепочек поставок, про строительство датацентров и электростанций. Вероятно, BlackRock считает, что в ближайшие годы будет дефицит, и они хотят сыграть на опережение. Партнёрами также выступит MGX, крупный фонд из ОАЭ.

— неделю назад CEO OpenAI, Anthropic, Nvidia и президент Google ходили в Белый дом для обсуждения будущего электроэнерегетики, инфраструктуры под AI, производства полупроводников. Позже на той же неделе было объявлено о создании рабочей группы по AI Datacenter Infrastructure. Департамент энергетики (Department of Energy звучит несерьезно, но они отвечают за ядерное оружие и энергетику, а также под их контролем находятся самые мощные публичные суперкомпьютеры) выделит отдельную команду под AI-датацентры и общение с частным сектором. Также DOE будет рассматривать выведенные из эксплуатации места добычи угля в качестве источников сырья для выработки энерегии, на основе чего будет приниматься решени о размещении датацентров и фабрик.

— люди всё ещё не верят, что AI продолжит развиваться семимильными шагами (банально за счёт масштабирования), и думают, что вот-вот застопорится.

К этому часу у меня всё 😁😀

Читать полностью…

Сиолошная

В конце прошлой недели OpenAI анонсировали и сразу же выпустили новую модель. Вопреки ожиданиям, её назвали не GPT-5, а o1. Компания утверждает, что для них сброс счётчика линейки моделей к единичке знаменует собой переход к новой парадигме, и что эта нейросеть и вовсе демонстрирует новый уровень возможностей ИИ. Возможностей, ранее вызвавших переживания и опасения у некоторых внутренних исследователей OpenAI — да настолько, что они пожаловались совету директоров!

В свежем лонге разбираемся, что же именно произошло, как и почему появилась o1, и попытаемся понять, как правильно выстроить ожидания от этой модели.
▀▀▀▀▀▀▀▀▀▀
Читать тут: https://habr.com/ru/companies/ods/articles/843250/
(обязательно делитьесь с друзьями и жмите стрелочку вверх 🔼 под статьёй!)
▀▀▀▀▀▀▀▀▀▀
Отдельная благодарность Павлу Комаровскому @RationalAnswer за помощь в редактуре и подготовке материала — не забывайте подписываться и на него.

Читать полностью…

Сиолошная

Ринат с канала @llm_under_hood достаточно давно собрал бенчмарк, основанный на бизнес-кейсах, в рамках которых он внедряет LLM. Это полезно, чтобы и самому отслеживать прогресс, и клиентам показывать, мол, такое можем решать, а с таким модели не справляются. Схожая идея была у меня и для нашего агентства, максимально понятное value.

Сначала Ринат посчитал результаты, и модели серии o1 оказались примерно на уровне передовых GPT-4o, которые так и так возглавляли топ. В целом, немного было удивительно, но не очень подозрительно:
1) OpenAI сразу задали ожидания и сказали, что эта линейка o1 нацелена на задачи, связанные с «science, coding, and math» (цитата с сайта). Да, конечно размышления прокачали, но явно есть области, где упор не делался
2) новая модель требует другой подход к заданию промптов, и старые запросы/инструкции могут не работать (даже «скорее не будут работать»)
3) OpenAI во время тестов зметили, что большое количество излишнего исходного контекста негативно сказывается на системе. То есть не рекомендуется брать 10 разных страниц текста, лишь одна из которых релевантна, загрузить в промпт и ждать чуда

Так что увидев результаты в топ-1 и топ-3 я подумал «ну ок, хорошо, что хоть бизнес-кейсы не сломали». В комментариях, конечно, нашлись добрые люди с сообщениями примерно такого рода:
> Их давят что-то выдать, выдали что-то ) медленное, дорогое и не сильно лучше

Ну понятно, снова скам от Альтмана, наобещали золотых гор а на деле нифига, LLM вышли на плато.

Далее цитирую пост Рината:
🚀Update: в процессе ручной проверки результатов выяснилось, что в Reason часть моих evals была неправильной. Я знал, что с ними ни одна модель не справляется, поэтому не обращал внимания на результаты. А вот o1, оказывается, могли справиться! Я исправил логику проверки и пересчитал все модели.

😱 😀 🤣 🆒

(и ещё на всякий случай напомню, что у OpenAI уже гарантировано прям точно есть модель сильно лучше, чем o1-preview, и что они намеренно её не выпускают сейчас. Разницу в метриках можете посмотреть тут и тут — и стоит ожидать, что когда модель появится через месяц-два, цифры подрастут ещё чуть-чуть)

((и ещё ждём адаптации промптов и инструкций, Ринат! ну и новый бенчмарк...))

Читать полностью…

Сиолошная

10'000 обезьян и 🥇IOI

Я уже пару месяцев как работаю в OpenAI, так что времени на посты сюда почти не осталось. Нужно исправляться. Вчера мы выпустили новую модель, которая думает перед тем как отвечать. Я даже успел попасть в список контрибьюторов. Но пост не об этом — хочу рассказать про результат, который упоминается в посте про новую модель, кажется мне очень неочевидным, но мало обсуждаемый.

Как известно, если 10000 обезьян посадить за пишущие машинки, и дать им бесконечно времени, то рано или поздно они возьмут золото на IOI. Наша новая модель гораздо лучше справляется с задачами, где нужно думать, чем все предыдущие модели, но все еще в абсолютных значениях делает это довольно плохо. Ее рейтинг CodeForces оценивается примерно в 1800, и это очень далеко от того, чтобы взять даже бронзовую медаль на IOI.

Нам стало интересно, можно ли просто увеличив количество вычислений, добиться лучших результатов. Сетап был такой. Давайте модель попросим 10000 раз решить каждую задачу, а потом выберем лучшие решения. Интуитивно кажется, что для решения сложных олимпиадных задач обычно нужно придумать какую-то красивую идею, и, если модель имеет CF рейтинг 1800, то от увеличения количества попыток, особо ничего не поменяется. Она просто не сможет ее придумать.

На практике же оказалось все наоборот. Среди 10000 попыток оказываются такие, когда модель случайно подумала в нужную сторону, и придумала правильную идею. В итоге, если отфильтровать самые лучшие попытки, то их достаточно, чтобы получить золото на IOI (и мне кажется это очень крутой результат!). Правда, как именно находить лучшие решения, если у вас нет возможности протестировать их все, не очень понятно.

Получается, что если вам не жалко потратить очень много денег на кучу попыток решить задачу, и вы придумаете как из 10000 решений выбирать самые лучшие, то уже с текущим уровнем развития AI можно довольно хорошо решать олимпиадные задачи.

Читать полностью…

Сиолошная

Официальный советы по промпт-инженерингу o1:

Держите промпты простыми и прямолинейными: модель o1 превосходно понимает и отвечает на краткие, четкие инструкции без необходимости в обширных объяснениях

Избегайте промптов с цепочкой рассуждений (речь про Chain Of thoughts и «думай шаг за шагом»):
так как модель выполняет логические выводы внутри себя, не нужно побуждать ее «думать шаг за шагом» или «объяснять своё рассуждение вслух»

Используйте разделители для ясности: используйте разделители, такие как тройные кавычки ```, XML-теги или заголовки разделов, чтобы четко обозначить разные части ввода, помогая модели правильно интерпретировать различные секции

Ограничьте дополнительный контекст при генерации с RAG:
при предоставлении дополнительного контекста или документов включайте только самую релевантную информацию, чтобы предотвратить усложнение ответа моделью

***

Это интересно, то есть промпт-инженеринг в такой модели уже совсем не нужен, кроме систематизации данных – жду не дождусь доступа

Видимо, в gpt5 уже и промпты не нужны будут, да?

Читать полностью…

Сиолошная

Пример решения довольно нетривиальной задачки, с которой текущие модели не справляются

Читать полностью…

Сиолошная

Мне как обычно доступ дают последнему, поэтому вот из комментариев видео того, как рассуждает модель. В ЧатГПТ можно будет посмотреть цепочку рассуждений.

Однако как я понял эту фичу уберут (и в АПИ не будет) — OpenAI на сайте написали, что рассуждения не будут показываться.

Читать полностью…
Subscribe to a channel