Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
Вот результаты в виде таблички.
Авторы также замеряли процент задач, на котором агент доходил до отправки (Made Submission %) и что отправка проходила успешно (Valid Submission %). Видно, что кроме o1 много моделей на этом погорело — агенты просто не смогли «допинать» задачу хотя бы до чего-то.
Самая интересная колонка — последняя, это как раз хотя бы какая-то медаль. Разницу между o1 <> фронтир модели <> опенсурс заметит любой (ещё одна монетка в копилку «в открытом доступе есть модели, не уступающие проприетарным!»). o1 выбила золото на 7 задачах (среднее 3 запусков), чего достаточно, чтобы получить звание Грандмастера (там нужно 5 золотых).
В ходе ручного анализа логов выполнения авторы обнаружили вот что. Одной из причин неуспешности выполнения задачи было ограничение по ресурсам (1 GPU, 440 GB памяти) и времени — 24 часа на всё про всё. Все три агента не смогли эффективно учесть эти в своих стратегиях. Например, они выполняли команды, которые перегружали диск или оперативную память машины, что приводило к преждевременному завершению.
Если o1 дать 8 попыток (грубо говоря запустить в параллель, а затем выбрать лучшее решение по приватной оценке), то количество задач взлетает с 16.9% до 34% — уже серьёзно. Причём, модель именно качественно лучше — gpt-4o с 18 попытками хоть и улучшает оценку с 8.7% до 22%, прирост качества быстро затухает (у о1 картинка более оптимистична, см. второе изображение).
И картинки! Первая — план роста выручки компании на ближайщие годы в разбивке по источникам.
— OpenAI полагает, что ChatGPT (прямая подписка на продукт) продолжит приносить большую часть своего дохода в течение многих лет, значительно опережая другие источники
— OpenAI утверждает, что их бизнес-модель улучшится, и в следующем году валовая прибыль (gross margin) составит 49%, а в 2028 году — 67%, поскольку доходы компании растут быстрее, чем затраты на вычисления. («Gross margin is the percentage of revenue left over after you subtract your company's direct costs (i.e., the cost of producing or selling your goods or services», и видимо в cost of producing как раз кладут затраты на железо)
— обратите внимание на рост API. Он не кажется прям очень существенным, и как будто бы компания не верит в рост использования их моделей в других продуктах, но помните, что модели дешевеют. Увеличение выручки в 5 раз и удешевление моделей в 5 раз дают рост использования (=проникновения в другие продукты) в 25 раз.
И вторая картинка — структура расходов на этот год. Крупнейшие операционные расходы OpenAI — это траты на сотрудников, которые, как ожидается, составят около $700 млн. в этом году (не включая компенсацию на основе акций, там наверное ещё миллиард+). Компания рассчитывает расширить свою базу сотрудников в следующем году, что почти утроит ее расходы в этой графе до $2 млрд.
Вот буквально на днях открылся Нью-Йоркский офис, и вместе с ним: Seattle, Paris, Brussels, и Singapore. И закрыли сделку по аренде нового крупного офиса в Сан-Франциско — сделка стала самой масштабной с начала года. С новосельем 🎉
Источники в OpenAI говорят, что компания готовит реорганизацию в относительно редкий тип — Public Benefit Corporation, уставными целями которой является не только получение прибыли и соблюдение обязанностей перед акционерами, но и принесение пользы обществу. Такая форма компании накладывает обязанность отчитываться не только перед акционерами, но и перед обществом, и юридически обязывает учитывать интересы общества в своей деятельности.
Аналогичную форму компании избрали для себя Anthropic и xAI.
Одна из возможностей, которая возникает у компаний подобного типа — это защита от претензий активистов из числа акционеров. Как правило, активисты-акционеры обвиняют компании в невыполнении фидуциарных обязанностей, когда те, например, занимаются финансированием фундаментальных задач вместо увеличения прибыльности. Public Benefit Corporation может оправдать выбор приоритетов интересами общества. Аналогично, это соображение может быть основанием для отказа от попыток поглощения — к примеру, когда Илон Маск предложил купить Twitter за цену, заметно превышающую текущую капитализацию компании на тот момент, у менеджмента и совета директоров не было другого выхода, как согласиться, поскольку в противном случае им светили иски акционеров за невыполнение фидуциарных обязанностей. А, если бы тогда у Twitter был такой устав, сейчас бы у нас была нормальная соцсеть.
https://www.ft.com/content/5649b66e-fdb3-46d3-84e0-23e33bdaf363
🎓 Хинтон и Хопфилд получили Нобелевскую премию по физике за создание искусственных нейронных сетей
Нобелевскую премию по физике 2024 года Джону Дж. Хопфилду и Джеффри Э. Хинтону «за основополагающие открытия и изобретения, которые позволяют осуществлять машинное обучение с использованием искусственных нейронных сетей».
Юрист и мой давний подписчик Саша Гамбарян разобрал у себя в канале ситуацию с инспекцией датасетов OpenAI (вчера была новость о сподвижкой в судебном деле с New York Times).
TLDR: основное переживание было что такой прецедент заставит все компании предоставлять доступ к тренировочным выборкам, если вы сможете показать, что модель хотя бы изредка выдаёт что-то похожее на данные, на которые вы обладаете правами (а разработчик — нет). Однако на самом деле судья лишь утвердил договор, к которому пришли стороны (но это всё ещё прецедент).
Цитаты (уже на русском, ха!):
Можно ли использовать данные, защищённые копирайтом, для тренировки моделей? Может ли модель учиться не только на Толстом и Шекспире, но и на современной, защищённой копирайтом классике? Ответ на этот вопрос пока что есть только в Япоонии, где закон прямо разрешает тренировать модели на любых данных, и это не является нарушением копирайта. Во всём остальном мире закон на эту тему молчит - медленно мелют жернова справедливости, как говорят на иврите.
ещё куча сайтов перепечатывала статьи NYT - и сегодня можно спокойно нагуглить сайты, где можно прочитать любые платные статьи, и вероятно тексты попали в базы данных OpenAI именно оттуда.
Для того, чтоб это проверить, адвокаты газеты должны получить доступ к датасетам - тем данным, на которых обучается нейросеть. Но давать открытый доступ к святая святых - датасету - не годится, поэтому юристы обеих сторон выработали протокол доступа, который и утвердил суд. Протокол этот весьма технический и этим интересный, но кроме того у прецедентного решения есть последствия, даже у решения утвердить соглашение сторон.
Так как 78% проголосовало за то, что могут и будут читать части на английском, то попробуем так. Дело в том, что иногда суть поста сводится на 80% к переводу исходного материала, и мне лень это делать — и пост не выходит. В таких случаях выбор стоит между «запостить с частями текста на английском» и «поста не будет». Потому лучше как-то, чем никак.
===
Итак, в 2021-м году Daniel Kokotajlo, философ-предсказатель из OpenAI (да, такие позиции тоже есть), написал своё видение развития будущего. 2021-й — это когда была лишь GPT-3, большая-дорогая-глупая модель, которая вообще не слушалась инструкций, если не обманывать её промптами. InstructGPT, прародитель GPT-3.5 / ChatGPT, появится более чем через полгода. А про Daniel я уже писал несколько раз. Пока его прогноз до 2024-го достаточно точен, хоть пара отдельных веток сильно выбивается (про пропаганду, см. ниже)
Ниже отобрал некоторые предсказания, часть выкинул (они не интересны и/или неправильны):
2024:
> We don’t see anything substantially bigger (имеются в виду модели). Corporations spend their money fine-tuning and distilling and playing around with their models, rather than training new or bigger ones. (So, the most compute spent on a single training run is something like 5 x 10^25 FLOPs.)
Очень точное предсказание относительно моделей, выстреливших в 2022-23х годах. Как я писал выше в канале, для масштабирования нужно строить датацентры, это не дело пары месяцев. На LLAMA-3-405b затратили 3.8 x 10^25 FLOPs, что укладывается в оценку прям отлично.
> But the hype begins to fade as the unrealistic expectations from 2022-2023 fail to materialize. We have chatbots that are fun to talk to, at least for a certain userbase, but that userbase is mostly captured already and so the growth rate has slowed
> If all this AI tech is accelerating GDP, the effect size is too small to detect, at least for now (но так было и с интернетом)
> The AIs don't do any clever deceptions of humans, so there aren’t any obvious alignment warning shots or fire alarms. Instead, the AIs just make dumb mistakes, and occasionally “pursue unaligned goals” but in an obvious and straightforward way that quickly and easily gets corrected once people notice (такое как раз и происходит)
> Massive models are being fine-tuned to persuade/propagandize. Такого мы не наблюдаем (хоть это и может происходить), однако в комментариях от 2023-го года Daniel пишет, что тогда он очень за это переживал и потому переоценил видимую важность этих сценариев, государства пока проходят мимо, а не вливают миллиарды в боты для пропаганды. Дальше секция про это есть в каждом году, но я её вырежу.
2025:
> AIs can now play Diplomacy as well as human experts. Дипломатия — это стратегическая игра, где игрокам нужно взакрытую друг с другом договариваться, врать, захватывать страны. Facebook выпустил исследование и модель, которые играли как эксперты, в конце 2022-го года, сильно раньше предсказания. Однако там была специально обученная модель узкого назначения, с текстовым интерфейсом. Быть может, современные модели могут играть хорошо просто через текстовый интерфейс — не видел, чтобы кто-то замерял.
А дальше идёт такое предсказание:
> you can take a giant pre-trained multimodal transformer and then use it as a component in a larger system <...> and then fine-tune the whole system via RL to get good at tasks in a sort of agentic way. They keep it from overfitting to other AIs by having it also play large numbers of humans. To do this they had to build a slick online diplomacy website to attract a large playerbase. Diplomacy is experiencing a revival as a million gamers flood to the website to experience “conversations with a point” that are much more exciting (for many) than what regular chatbots provide.
Кажется, это предсказание не сбудется, но в некотором смысле люди так и так миллионами побежали общаться с LLM. И на этом даже учат модели с помощью RL! Но... сам Daniel позже написал: «Diplomacy happened faster than I expected, though in a less generalizeable way than expected».
Произошел прорыв в деле NYT и OpenAI: суд удовлетворил ходатайство NYT и теперь OpenAI должен будет предоставить базу данных, на которой обучалась OpenAI LLM.
У меня есть несколько вопросов к этому определению: дело в том, что NYT ссылались и фиксировали на нарушения с использованием GPT-4, в своем определении суд просит предоставить обучающие дата-сеты в отношении “OpenAI LLMs” - значит ли это, что это должны быть все дата-сеты для всех моделей, которые существуют на сегодняшний день у OpenAI?
Далее интересен момент с определением “relevant” - что под этим понимает суд? Должны ли это быть актуальные на сегодняшний день базы данных или те, которые существовали на дату иска (или как минимум на дату запросов, сделанных юристами NYT).
помните, как я писал о новой модели о1 - Preview, когда она только вышла? Тогда я думал, что изменения затронут в основном только специфичные роли. Как же я ошибался!
Эта модель — настоящий геймчейнджер для меня в плане решения сложных задач. Теперь я вижу, как большие сложные блоки, особенно стратегические, где нужно хорошее описание, решаются совершенно по-другому. Серьезно, с 2-3 итераций в диалоге получается достичь офигенных результатов. Раньше тратил оч много времени на промпты/роли и тд. Сейчас просто пишу 15 минут голосовые и пихаю туда.
Огромный плюс — это большое окно контекста. Я могу бесконечно уточнять в одном чате, не создавая новые треды. Раньше приходилось дробить обсуждение на несколько чатов, чтобы сохранить контекст. Теперь всё в одном месте — и это просто бомба!
Фанфакт: теперь можно посмотреть цепочку рассуждений модели. И когда я туда заглядываю, вижу, что она думает то на русском, то на английском, то на украинском, то на китайском! Выглядит очень забавно.
Кстати, разработчики спрятали эту модель так неудобно, что большинство из нас даже не заметили её. Даже активные пользователи GPT, которых я спросил не видели ее, хотя знают, что она выходила. Поэтому, вот мой экшен: Включаем новую модель, берём самую сложную задачу прошлой недели - тестируем. Ты будешь приятно удивлен!
@aihappens
— к концу 2025-го, получается, суммарное потребление этой сети из 5 тренировочных датацентров будет больше ГигаВатта, может больше двух. В 2026-м году почти каждый из них будет расширен так, что будет потреблять в районе ГигаВатта, мб чуть меньше.
— если вдруг задумались, может ли не хватить чипов, то ответ почти наверняка «нет»: Nvidia произвела за полтора года 6 миллионов H100. Для нового поколения карт почти наверняка они сделали ещё больший заказ у всех поставщиков, особенно TSMC. А в датацентр ставят по 100'000 карт — это же копейки. Даже сеть из 500'000 карт не выглядит такой гигантской на фоне производимого количества (которое растекается по нескольким игрокам). Из анализа прогнозов производства для инвесторов TSMC Dylan вынес для себя, что на 2025-2026 чипов точно хватит по текущим планам масштабирования LLM.
— если правильно помню новость, Microsoft заказала от 700'000 до 1.4M видеокарт у Nvidia (другие, вроде META и Google, заказали меньше 700'000), так что тут тоже срастается.
— «Невозможно проплатить тот масштаб кластеров, которые планируется построить в следующем году для OpenAI, если только они не привлекут ещё 50–100 миллиардов долларов, что, я думаю, они сделают в конце этого или в начале следующего года <...> Я говорю вам, Sam привлечёт эти 50-100 миллиардов долларов, потому что он уже говорит людям, что соберет столько. Он буквально ведет переговоры с суверенитетами, с Саудовской Аравией, с канадским пенсионным фондом и с крупнейшими инвесторами в мире. Конечно, и с Microsoft тоже, но он буквально ведет эти переговоры, потому что они собираются выпустить свою следующую модель или показать ее людям и привлечь эти деньги. Это их план.»
(кстати, напомню, что Sama поднял 3 из 5 самых крупных раундов в истории, включая 10-миллиардную сделку с Microsoft. Наш слоняра 💪)
— «Их план», если не ясно, это выпустить GPT-5 и поразить всех; показать, что мы очень далеки от предела масштабирования, что приросты качества и темп решения проблем в духе галлюцинаций всё ещё огромны, что полезность модели растёт и растёт. От GPT-5 многое зависит (а помните я говорил что буду писать лонг с таким названием...). Ну и под шумок после этого деньги собрать
— У OpenAI пока хороший ROI, на тренировку GPT-4 на всё про всё, с исследованиями, ушло $500M. Они до сих пор стригут деньги с модели (пусть она и улучшилась, и уменьшилась в размерах) — выручка OpenAI на конец года будет +- $4 миллиарда. Все траты, что есть сейчас — это спонсирование будущих проектов, которые тоже, по плану, окупятся: OpenAI ожидает утроение выручки в следующем году до $11.6B и последующий рост до $25.6B в 2026-м. Последняя цифра — это примерно выручка таких компаний как McDonalds или Adidas, а значит примерно столько принесёт субсидируемая сейчас GPT-5.
(Да, выручка это не прибыль, но кому это интересно, когда идёт столь бурный рост? а главное, значит, OpenAI ожидают куда большего проникновения технологии в нашу жизнь).
===
— во времена дотком-пузыря в год инвестиции в сектор оценивались в +-$150 миллиардов в год (насколько я понял, без учёта инфляции, но это не точно). Сейчас в рынок AI, включая железо, закидывают $50-60B, так что пока даже не близко. И нет причин, почему этот «пузырь» не вырастет ещё больше прежнего — так что деньги вливаться будут, кластера строиться будут, модели выходить...будут.
Так вот, к чему была вчерашняя прелюдия про положение дел в обучении больших моделей. Позавчера посмотрел свежий выпуск подкаста Dwarkesh, гостями были Dylan Patel (автор semianalysis.com, крупной компании, предоставляющей консультации и анализ рынка полупроводников и всё что с ними связано, от памяти до GPU) и автор канала Asianometry/videos">Asianometry (вам строго туда, если хотите узнать про истории крупных тех. бизнесов, особенно полупроводников).
Самая интересная и релевантная часть — про датацентры Microsoft x OpenAI и будущие планы по масштабированию. Рекомендую смотреть вот с этого таймкода, ниже — мой пересказ и отдельные факты, сопровождённые пояснительными комментариями. Дисклеймер: я не перепроверял большую часть цифр, что там озвучены, и беру их на веру, так как Dylan — эксперт. Я давно хотел подписаться на его рассылку, там бывают интересные инсайты про датацентры, но $500 в год не готов отдать...
Итак:
— GPT-4 была обучена на 25'000 видеокарт A100 в течение 3 месяцев. Сейчас есть датацентры по 100'000 карт H100, и каждая карта примерно вдвое мощнее в контексте обучения LLM. Это большие числа по современным меркам — год назад многим казалось, что никто на такое не пойдет, это безумие, 100 тыщ! Если брать тренировку в рамках одного датацентра, то за те же 3 месяца теперь можно вложить в модель в 4 раза больше мощностей за счёт кол-ва GPU и в 2 за счёт улучшения карт — итого в 8 раз. Потренировать чуть дольше — и вот вам рост...всего лишь на один порядок (то есть в 10 раз)
— а это уже беспрецедентно большие датацентры, их можно увеличить ну в 2, ну в 3, ну в 4 раза в ближайший год, но как вы понимаете, это не в 10-100 раз — поэтому очень важны алгоритмические улучшения (см. предыдущий пост). Именно за счёт них можно вырваться в условиях, когда у всех одинаковые мощности, и вы просто упираетесь в скорость строительства
— одна из основных проблем постройки датацентров — энергия, которая им потребуется (с учётом будущих расширений). Один блок АЭС, которую Microsoft хотят перезапустить, выдаёт чуть меньше 1 ГигаВатта, а к 2028-2030-му хотят запускать датацентры на несколько ГВт. В США всего 26 станций, выдающих больше 2.5 ГВт, и тысячи ооочень мелких. И те, и другие имеют многолетние контракты на поставку определённого заказа, и несмотря на то что на бумаге теоретическая производительность высокая, доставить большое количество энергии в одну конкретную точку (датацентр) — боль. Тут сверху есть сотенка МегаВатт, тут 30, тут 20, буквально по крупицам собирать. Так что в стране не так много мест, где можно ткнуть всего лишь гигаваттный датацентр и запитать его в кратчайшие сроки. Если можно подождать год-два-три, то будет доступнее, но кому ж ждать то хочется?
— при этом сами цены на энергию мало кого волнуют. В стоимости постройки и обслуживания датацентра на несколько лет примерно 80% — это сервера (GPU и прочее). Счёт за электричество редко занимает больше 10-15% в общей сумме, поэтому Microsoft и другие с радостью доплатят к рыночной цене сколько-то процентов, чтобы иметь приоритет поставки выше. Каитализм 🫡
— кстати, именно поэтому не рассматриваются солнечные подстанции / ветряки. Если вы отдали за карты СТОЛЬКО БАБОК, то не хотите, чтобы они простаивали 8-10 часов в сутки (ну а батареи и переменное питание видимо представляют больший риск).
(это всё ещё «предыдущий пост», а не следующий)
Вот картинка про алгоритмические улучшения из лекций/сообщений Noam Brown, исследователя из команды OpenAI, сделавшей о1.
На ней показано качество модели при игре в покер, по горизонтали увеличение размера модели (количества параметров), по вертикали качество, не важно, в чём измеряемое (ниже на графике = лучше). Синяя линия — это модель без поиска по будущем состояниям игры (времени на подумать, как у о1 — когда модель перебирает ходы), оранжевая — с ним.
Обратите внимание, что по горизонтали количество параметров в модели меняется в 100 раз слева направо. Но при этом линии всё равно очень далеко друг от друга.
Так вот, авторы посчитали, что нужно масштабировать модель в 100'000, чтобы синяя линия опустилась до уровня оранжевой.
Ссылка на лекцию
Пост с моим видением и объяснением ситуации в индустрии LLM (и важный пререквизит к следующему посту, кек):
— качество модели зависит от нескольких факторов: 1) количество мощностей, вбуханных в обучение (и как следствие количество данных и размер модели), 2) качество данных для дообучения, 3) методы для дообучения
— Очень грубо финальный результат можно представить как количество порядков вычислений во время обучения, которому соответствует модель. Например, если модель увеличили в 10 (и показали в 10 раз больше данных), то есть потратили мощностей в 100 раз больше, то это «+2 OOM» (Orders of magnitude, порядок величины)
— улучшения с точки зрения алгоритмов обучения и дообучения могут позволить эффективно увеличивать порядок вычислений, не меняя его в реальности. То есть можно придумать метод, который, например, позволяет получить у маленькой модели качество, сравнимое с моделью в 10 раз больше — тогда можем сказать, что этот метод добавляет 1 порядок (каждый потраченный доллар теперь более эффективен). Мы как будто обучали модель больше и дольше, и получили такое же качество
— пример такого метода — RLHF от OpenAI, когда за счёт хитрого обучения на разметке людей вида «ответ лучше — ответ хуже» модель на 1.5B параметров оценивалась людьми выше, чем модель в 100 раз больше
— несмотря на многие шутки про закрытость, OpenAI опубликовали большое количество исследований и деталей по воспроизведению модели GPT-3.5 (InstructGPT), особенно по второму и третьему пункту выше (качество данных + методы тренировки). Они даже делились инструкциями для разметчиков данных в 2022-м году (вечность назад...). Всё это как раз было в рамках метода RLHF
— GPT-4 является масштабированием применения RLHF с некоторыми, как оказалось ретроспективно достаточно минорными*, улучшениями. Рецепт в принципе был известен в общих чертах: построй большой кластер, обучай модель примерно такого размера несколько месяцев, вложи кучу денег в разметку, примени RLHF и будет +- топовая модель. Может, чуть-чуть хуже OpenAI, но одного порядка. Само воспроизведение работы нетривиально, нужны бюджеты, нужен огромный датацентр, нужна инженерная сила для масштабирования, но с точки зрения исследований и алгоритмических улучшений путь ясен
— именно поэтому мы видим, что у нескольких игроков модели +- одинаковые. Да, у некоторых под капотом есть минорные алгоритмические улучшения, которые позволяют вырваться на разных тестах на 2-3-5%. Причём, разница в качестве, я думаю, в большом количестве случаев определена приоритетами в разметке данных. Порядок вычислений, подход к обучению и дообучению +- одинаковы (как минимум это видно по LLAMA 3).
Ключевой поинт: до недавнего времени никаких алгоритмических прорывов мы не видели.
Модель о1 — это такой пример. Я не думаю, что в OpenAI вложили в неё в 10 раз больше мощностей, чем в gpt-4 / gpt-4o, но на определённого рода задачах показывает она себя лучше, чем если бы в это сделали. Получается, алгоритмическое улучшение как бы позволяет нам прыгнуть и заглянуть в мир моделей с порядком вычислений больше, чем было доступно. Грубо говоря без него через модели нужно было бы пропустить, скажем, в 200 раз больше вычислений во время тренировки (что пока не представляется возможным) для достижения такого результата.
Наверное, громко говорить, что «сейчас такой прорыв есть», как пишут сами OpenAI — это рабочий прототип, демо технологии, и в ближайшие полгода-год они много узнают о подводных камнях («сорвут низковисящие фрукты»), дошлифуют и смогут сделать значимые улучшения. Один из главных вопросов — насколько их метод получился общим, стоит ли ждать улучшений по широкому спектру задач, или же они останутся в рамках 2-3 направлений (математика, физика, программирование)
На прошедшем демо-дне представили несколько фичей, но ничего крышесносного. Сделал краткую выжимку, часть пунктов опущены:
1. Realtime API: доступ к speech-to-speech модели для создания голосовых агентов с низкой задержкой (API поддерживает стриминг). Доступно 6 голосов (те же, что были основными в ChatGPT). В ближайшем будущем поддержка речи доедет и до Chat Completions, то есть можно будет получать на вход текст, а выдавать голос, и наоборот (сейчас, повторюсь, только speech-to-speech в реальном времени). Ценник за аудио выглядит конским ($200 за миллион сгенерированных токенов), но на самом деле за час общения будет выходить $6-10 в зависимости от баланса входной/выходной звук. Пока, наверное, чуть дороже колл-центров на Филиппинах или в Индии 🫡
2. Кэширование промптов: наконец-то можно платить меньше за запросы, у которых существенная часть начала запроса повторяется (например, ваша инструкция + примеры работы). Очень долгожданная фича, OpenAI тут буквально последние — Google, Anthropic и DeepSeek уже все добавили. Если хотите узнать больше про кэширвоание, то читайте тут. И да, картинки тоже можно кэшировать!
Дисконт составляет всего лишь 50% на токены запроса, зато вы не платите за хранение, и код менять не нужно: всё происходит на сервере без вашего ведома (минимальная длина промпта — 1024 токена, иначе кэширование не включается). Кеш хранится 5-10 минут, и гарантировано удаляется через час, что не идеально — иногда запросы размазаны по времени. Скидка 50% тоже не шик — Anthropic и DeepSeek просят платить всего 10%, а Google 25% (но чарджат за хранение по часам).
3. Vision Finetuning: теперь можно дообучать модели, подавая на вход изображения (раньше было только из текста в текст). Весь тюнинг бесплатен до конца месяца, поэтому поторопитесь, если хотите провести эксперименты — можно поиграться за копейки.
4. Model Distillation: продолжая тему дообучения, теперь можно удобно, прямо из UI, обучить маленькую модель на ответах большой (и таким образом платить меньше за примерно такое же качество). Для этого можно помечать свои сообщения флагом «store», и они вместе с ответами будут сохраняться у OpenAI. А затем вы можете запустить обучение на всех сохранённых ответах, попутно отслеживая качество на нескольких десятках/сотнях примеров, разметка которых подтверждена вами вручную.
5. o1 теперь доступна в API разработчикам tier 3 уровня — это те, кто потратил не меньше $100 за всё время (за вычетом подписки ChatGPT). Дальше, видимо, уже раскатят всем.
=====
И отдельно в конце DevDay был часовой разговор с CEO компании Sam Altman. Все вопросы и ответы записал и выложил Артём, автор канала AI для всех: /channel/nn_for_science/2224 и ниже. А вот полу-корявая видеозапись из зала на YouTube от кого-то другого. Ниже — моя выборка некоторых Q/A оттуда:
Q: Когда появятся вызовы функций в O1?
A: Вероятно, до конца года. Модель будет становиться лучше очень быстро. Мы знаем, как масштабироваться от GPT-2 до GPT-4, и сделаем это для O1.
Q: Почему мы не можем разрешить пение для advanced voice mode?
A: Я сам задавал этот вопрос 4 раза. Проблема в авторских правах на песни. Сейчас это сложный и тонкий вопрос. Мы хотим, чтобы модели могли петь, но пока это невозможно.
И ещё в какой-то момент Sam спросил, кто в аудитории считает себя умнее o1. Несколько людей подняли руки. «Думаете, вы будете умнее о2? Нет? Никто не хочет сделать ставку?»
Ждём 2025-го! o2, GPT-4.5/5, 😯
===
TLDR разбора:
— данные, данные, данные
— очень важно данные, данные, данные
— и ещё качество данных (синтетические, с использованием LLM — норм)
— не экономьте на разметке
— код для обучения и данные будут в течение 2 месяцев
===
(авторы ещё по честному сравнили разные модели, наняв более 800 людей для разметки пар ответов от двух разных моделей, и построили рейтинг по более чем 320000 голосов. По нему Molmo на втором месте после gpt-4o, опережает Claude 3.5 Sonnet, кек)
===
Поиграться с демо моделькой: https://molmo.allenai.org/ (есть голосовой ввод, можно загружать свои картинки)
Веса моделей в открытом доступе: тут
Примеры того, как модель «считает» объекты, указывая на каждый из них:
Источник 1
Источник 2
MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering
Новые бенчмарки это хорошо и интересно — если они не решаются моделями сегодняшего дня (а то на многих уже 90%+ выбили, дальше не интересно). OpenAI представляют MLE-BENCH — бенчмарк для измерения того, насколько хорошо ИИ-агенты решают задачи по машинному обучению. Зачем? Потому что одна из целей компании — это сделать систему-автономного исследователя, которая будет автоматизировать части работы команды.
Бенчмарк состоит из данных 75 разных соревнований на платформе Kaggle — площадке, где компании размещают данные + методы оценки и выдают денежные призы за участие. Чем лучше ваше решение оценивается на неизвестной части данных, тем выше вы в рейтинге. Порой соревнуются тысячи команд, и ребята там реально топовые. К сожалению, сам формат соревнований далёк от реальной жизни ML инженеров — данные тут уже приготовлены (и в некотором роде очищены), выбрана легко интерпретируемая метрика (зачастую не связанная с бизнесом, не рубли/штуки), но хотя бы задачи такие, за которые компании готовы платить.
ИИ-агент получает на вход описание задачи, в том числе метод оценки успешности решения, файлы с данными, а на выходе предложенное решение с обученными моделями оценивается с историческими решениями участников. Если заходит в топ-10, то это золотая медаль, топ-5% серебро, топ-10% — бронза. В реальности люди могут делать по несколько посылок в день (обычно 3-5), чтобы проверять свои решения на предмет улучшений; для этого бенчмарка ИИ-агент может сделать отправку и удостовериться, что формат правильный, но не получит оценку.
Так как многие LLM уже могли видеть код решений, в том числе топовых (на Kaggle принято делиться идеями после соревнований), все решения, которые на 60% совпадают с хотя бы одним из 50 топовых решений, исключаются.
Исследователи сравнивают несколько имплементаций агентов с GPT-4o, а затем выбрав лучшую прогоняют на ней остальные модели. Какие фреймворки тестировались: AIDE, ResearchAgent, and CodeActAgent (в табличке ниже будет как “OpenHands"). AIDE оказалось лучшим, вот ссылка почитать побольше (мб сделаю разбор).
«А как тестировать-то?» — отличный вопрос! Авторы предлагают смотреть, в каком проценте соревнований агент попал в медали (то есть хотя бы наскрёб на бронзу).
The Information ознакомились с некоторыми документами, которые OpenAI показывали инвесторам и рассказывали о своих планах по росту выручки/потерь. Самое интересное:
— к 2029-му году ожидается рост выручки до $100B в год (сейчас примерно $4B). Это больше, чем сейчас у Nvidia, Tesla, Tencent. В этом же году компания планирует стать прибыльной и заработать $14B
— для достижения этой точки нужно очень много тратить. Потери (то есть затраты за вычетом выручки) в 2026-м году составят $14B — вдвое больше, чем компания привлекла денег в последнем раунде. Всего компания планирует потратить около $200B до конца десятилетия, 60-80% которых уйдут на вычислительные мощности
— OpenAI предлагает инвесторам (а я про это писал и тут в комментах, и в Singularis'е...) смотреть на показатель прибыльности, который не включает некоторые крупные расходы, такие как миллиарды на обучение своих моделей [будущих поколений]. По-простому, смотреть «окупает ли GPT-4 разработку и использование GPT-4», а не «окупает ли GPT-4 разработку GPT-4 и GPT-5» (разница в колоссальных ресурсах, инвестируемых в будущее поколение). Для будущего поколения моделей ожидается, что окупаемость наступит в 2026-м году (что в целом ожидаемо, второй год использования моделей, как и у GPT-4).
— сейчас компания сжигает меньше денег, чем писали газеты/аналитики ранее. З первую половину года было потрачено $340M, а на руках перед привлечением инвестиций оставался миллиард. В статье не уточняется, но я предположу, что сюда не входят вычислительные мощности — они, видимо, были проплачены ранее или просто не учтены. За этот же период компания суммарно потеряла $3B
— В новости написано: «из документов следует, что Microsoft получит 20% от выручки OpenAI, что выше, чем предполагалось ранее», однако я не понял из контекста, имеется ли в виду будущее или в него включено прошлое (потому что официально Microsoft получали только долю от прибыли, которой пока нет). Вероятнее всего, это про будущее.
— в 2026-м году затраты на мощности для тренировки модели составят $9.5B, существенно больше текущих $3B
— OpenAI также обсуждает возможность займа средств, чтобы попытаться построить датацентры быстрее, чем это может сделать Microsoft (об этом писал недавно)
TLDR: деняк нужно МНОГА.
👏 новая часть «Chip Wars»
TheInformation: в ходе общения с инвесторами последнего раунда представитель OpenAI сказала, что Microsoft действует недостаточно быстро, чтобы обеспечить OpenAI нужным количеством вычислительных мощностей.
Тезисно:
— Elon Musk подсуетился и за 4 месяца собрал кластер на 100'000 H100 (один из самых мощных среди всех компаний, тренирующих модели на таком масштабе). Это заставило переживать всех в индустрии, особенно Sam Altman. Мол, если OpenAI договаривались о создании датацентра за год-полтора до этого, и только вот весной получили в распоряжение, а тут конкурент может оперативно с нуля сделать — то будет сложно удерживать первенство в гонке. Да и значит Microsoft медлят.
— Altman просил Microsoft ускориться (я слышал про это весной из новостей), и вот видимо у корпорации не получилось
— со слов источника, OpenAI теперь планирует играть более важную роль в объединении датацентров и цепочках поставки чипов, а не полагаться исключительно на Microsoft. (Ранее собщалось, что OpenAI уже общаются с производителями и нанимают команду. Altman упоминал проект на прошлой неделе в разговоре с коллегами, но никаких деталей по статусу создания своих чипов нет)
— OpenAI закрыли сделку от своего имени на получение в пользование датацентра Oracle в Техасе; до этого все мощности им экселюзивно предоставляли Microsoft.
— Кроме этого, две компании ведут переговоры об аренде датацентра в г. Абилин, который в конечном итоге может вырасти до 2 ГигаВатт, если Oracle сможет получить доступ к большему количеству электроэнергии на объекте. Сейчас объект находится на пути к расишрению и потреблению чуть менее 1 ГВт электроэнергии к середине 2026 года, что означает, что он сможет вместить несколько сотен тысяч GPU. (тут вспоминаем недавние посты, что нельзя взять и враз быстренько подвести 1-2 ГВт к датацентру).
— OpenAI и Microsoft не расходятся, они обсуждают следующую фазу расширения: проект Fairwater. Microsoft планирует предоставить OpenAI доступ к примерно 300'000 новейших графических процессоров Nvidia, GB200, в двух датацентрах в Висконсине и Атланте к концу следующего года.
— Компании разошлись во мнениях по некоторым аспектам дизайна проекта Fairwater, сообщают два человека, работающих над проектом. OpenAI попросила Microsoft построить более продвинутый кластер и доработать проект, чтобы получить большую вычислительную мощность
🍿 🍿 🍿
Бонус: НКО OpenAI может получить 25% коммерческой OpenAI в ходе грядущей реструктуризации. Сейчас же НКО полностью владеет всеми подкомпаниями, включая коммерческие.
Следующий полёт Starship Super Heavy теперь официально запланирован на 13 октября, как только регуляторы соизволят выдать лицензию.
Попытка поймать 69-ти метровый ускоритель манипуляторами на башне, и мягкая посадка Starship в индийском океане также входят в план миссии Flight 5.
> Making models bigger is not what’s cool anymore. They are trillions of parameters big already. What’s cool is making them run longer, in bureaucracies of various designs, before giving their answers.
Ну это чисто o1 от OpenAI 🙂
2026:
> a custom AI avatar that can play some set of video games online with you and also be your friend and chat with you, and conversations with “her” are interesting because “she” can talk intelligently about the game while she plays 🙊🙊 (правда это предсказание вытекало из развития интеракций с ботом, играющим в Diplomacy, и это кажется не сбывается; но войс-мод точно есть! А про игры — посмотрим)
> Also, this same technology is being used to make AI assistants finally work for various serious economic tasks, providing all sorts of lucrative services. In a nutshell, all the things people in 2021 dreamed about doing with GPT-3 are now actually being done, successfully, it just took bigger and more advanced models
> We’re in a new chip shortage. Just when the fabs thought they had caught up to demand… Capital is pouring in, all the talking heads are saying it’s the Fourth Industrial Revolution, etc. etc. It’s bewildering how many new chip fabs are being built. But it takes time to build them. (почти совпадает с прогнозом Dylan, он говорил, что пока чипов на 25-26 годы хватит, а дальше уже вопрос).
Жаль что на этом прогноз обрывается, и что будет дальше мы не узнаем 🌚правда Daniel не писал про это потому, что посчитал, что в 27-28-ых годах начнётся AI takeover (когда AI начинает внедряться везде, как интернет, и что дальше AGI -> Сингулярность).
Под этим же постом отметился Dan Hendrycks, автор известных и популярных бенчмарков MATH и MMLU (писал тут). У него:
2023
> Generated data (math, code, models posing questions for themselves to answer) help ease data bottleneck issues since data from Web is not enough. From this, many capabilities are bootstrapped. (это мы уже наблюдаем, та же o1)
> Elon re-enters the fight to build safe advanced AI. (лол!)
2024
> Although forms of search/optimization are combined with large models for reasoning tasks, state-of-the-art models nonetheless only obtain approximately 40% accuracy on MATH. (LOL, у o1 уже 90%+! Автор бенчмарка сам недооценил прогресс моделей! Прогресс в математике случился гораздо быстрее)
📈: За вчерашний вечер и сегодняшнее утро нашел 4 статьи которых хочется разобрать
📉: а писать много буковок — не хочется 🥺
UPD: ссылки по запросам в комментариях:
— https://arxiv.org/abs/2410.01679
— https://arxiv.org/abs/2410.01748
— https://www.medrxiv.org/content/10.1101/2024.03.12.24303785v1.full.pdf
— https://arxiv.org/abs/2408.15240
— https://x.com/JJitsev/status/1842727628463128968 (+ https://arxiv.org/abs/2406.02061)
В марте 24-го люди, вестимо, думали, что это шутка. А походу нет...
Читать полностью…— получается, что если вы хотите увеличить мощности на тренировку уже в 2025м году (на обучение GPT-6; GPT-5 это как раз тренировка на кластерах в 100'000 карт), то нужно запускать распределённое обучение. Google в тех. отчёте Gemini открыто писали, что они тренируют на нескольких датацентрах (видимо, в разных географиях).
— OpenAI почти наверняка занимаются тем же. На это указывают действия их партнёра Microsoft: они заключили сделок на прокладку высокоскоростных соединений по всем Соединённым Штатам на более чем 10 миллиардов долларов. Некоторые разрешения уже выданы, и работы ведутся. Dylan говорит, что почти наверняка это будет сеть из 5 датацентров в разных штатах. Я не знаю, как он получил эту информацию, но в одной из рассылок видел анализ спутниковых снимков и тепловых карт (ведь датацентры горячие 😅), поэтому почти не сомневаюсь в верности.
— каждый из этих датацентров будет содержать по 100'000 GPU следующего поколения GB200. Они ещё мощнее H100, и масштабирование "на порядок" достигается за счёт увеличения общего количества чипов в распределённой сети. Так что Dylan ожидает запуска тренировок на 300k-500k GPU в 2025-м (GPT-5.5/GPT-6). Да, эффективность коммуникации на тысячи километров не такая, как в рамках одного здания, так что цифру выходных мощностей нужно снижать на какой-то процент (но обучать на 3-4 ДЦ точно не хуже чем на 2, там не такое замедление).
— ещё раз: мы всё ещё живём с моделями поколения GPT-4 (даже не 4.5), которые обучались на 25'000 куда более слабых карт. То есть уже точно можно говорить, что мы увидим — и к этому стоит готовиться — модели, обученные на мощностях в 50-60 раз больше (16 за счёт количества карт, 4 за счёт мощности каждой карты, и дисконт за неэффективность; но можно сделать тренировку длиннее). Плюс, добавьте сюда алгоритмические улучшения, как минорные, дающие плюс сколько-то процентов.
<прерываю написание вечернего поста, который должен продолжить серию из трех постов выше>
Во-первых, OpenAI запустили Canvas — это надстройка на ChatGPT прямо в браузере, которая облегчает работу с кодом. У вас открывается удобный редактор с подсветкой синтаксиса, в котором можно выделять отдельные куски, переписывать их, а новые сообщения LLM'ки будут обновлять код в окне (не нужно копипастить вручную). Также есть несколько быстрых опций в духе «дай комментарии, предложи изменения», «найди баги», «добавь логгирование» итд. Лучше посмотрите демку в прикреплённом твите. Доступно всем платным подписчикам сегодня (у меня пока нет, надеюсь, ночью прилетит). Можно начать шутить, что OpenAI убили Cursor 😃
И кстати, работает, оказывается, не только с кодом, но и при работе над редактированием текстов!
Во-вторых, помимо $6.6B инвестиций OpenAI получили кредитную линию от банков на четыре миллиарда долларов (написал буквами). Sama бреет бабки буквально со всех: JPMorgan Chase, Citi, Goldman Sachs, Morgan Stanley, Santander, Wells Fargo, SMBC, UBS, и HSBC. Теперь на руках более 10 миллиардов долларов.
В-третьих, вчера появилась новость, что Sam Altman попросил инвесторов, вложившихся на неделе в OpenAI, не инвестировать в компании-конкуренты (xAI, Anthropic, etc.). С точки зрения условий становится ясно, кто кому и что выкручивает, но с точки зрения имиджа выглядит не очень — «хочу, чтобы добро делал либо я, либо никто».
А после наступит этап масштабирования. Помимо самого алгоритмического улучшения, в каждый из этапов тренировки вбухают в -дцать раз больше вычислений (10-20), и это гарантировано принесёт дополнительный прирост.
Как легко видеть из этой картины, если у всех примерно одинаковые кластера, а прорывов нет, то все делают +- одни и те же модели. Получается, вопроса два:
1) как быстро разные игроки строят новые датацентры (чтобы получить возможность обучать модель с на порядок большим количеством вычислений). Пока у всех игроков либо есть, либо вот-вот будут кластера с ~100'000 H100. Как под копирку, у кого-то чуууууть-чуть больше.
2) есть ли технологическое преимущество с точки зрения алгоритмических улучшений
* я назвал их минорными потому, что они не так существенно увеличивают эффективную мощность, вбуханную в модель. Условно метод может улучшить что-то на 10-15% с точки зрения вычислений (раньше тратили $100M, теперь $85M, стало эффективнее!), но это не идёт в сравнение с методами, дающими улучшения в десятки-сотни раз. Кардинально разные вещи.
Официально: OpenAI привлекли новый раунд инвестиций. $6.6 миллиардов долларов с оценкой $157 миллиардов post-money (то есть с учётом инвестируемой суммы; без неё считайте ровно $150B)
👏
В этой новости и в предшествующих слухах меня смущает ровно одно. Полтора года назад OpenAI привлекли $10 миллиардов от Microsoft, и те средства почти кончились (согласно отчёту The Information). Сейчас они привлекают деньги, а в тот раз большая часть была в виде кредитов на вычислительные мощности, куда большая часть и ушла.
Но $6.6B — это не так много, если смотреть на скорость трат: за последний год на всё про всё потратили от $6B до $8.8B. Вижу три сценария:
1) меньше чем через полтора года будут привлекать ещё (возможно, после реорганизации в for-profit организацию);
1.1) как подвид первого — Microsoft отдельно и не в рамках раундов достигли или достигнут договорённостей касательно оплаты мощностей и дата-центров. Например, они инвестируют $20B в электроэнергию и видеокарты от своего имени, а OpenAI будет как партнёр ими пользоваться на определённых условиях (но не платить десятки миллиардов);
2) этих денег хватит, чтобы достичь позитивной экономики и начать работать в плюс даже несмотря на огромные затраты на инфраструктуру. По слухам, прогноз самих OpenAI, представленный в презентации для инвесторов, таков, что в следующем году они утроят выручку.
Исходники 4-х решений из Enterprise RAG Challenge
Месяц назад у нас прошел первый раунд Enterprise RAG Challenge - дружеского соревнования по построению AI ассистентов на годовых отчетах компаний.
Итоги соревнования с кратким разбором победивших архитектур есть тут. Среди участников были и коммерческие системы.
А вот тут лежат исходники 4-х решений из этого списка, включая победившее. Там есть описания подходов и сам код. В некоторых случаях - лог провальных экспериментов.
Код я выпросил реальный - без особого причесывания и украшательства.
Если кратко:
- daniel - решение-победитель на базе checklist + structured outputs. Первое место.
- felix - multi-agent решение на базе ChatGPT-4o. Двенадцатое место.
- maria - assistants API. Тринадцатое место.
- pedro - локальное решение на базе openchat-3.5-0106. Девятое место.
Что будет дальше? Следующий раунд состоится попозже этой осенью в большем составе. Когда - сложно сказать, зависит от отдела маркетинга в TimeToAct, который сейчас очень загружен. Я бы рассчитывал на ноябрь.
Во втором раунде генератор вопросов будет перебалансирован, чтобы:
(1) было меньше вопросов без ответов (c N/A)
(2) было больше вариативности в вопросах, чтобы подход “в лоб” с checklist + structured outputs больше не мог так легко занять топовые места.
Ну и вопросники для участников будут побольше, чтобы мы вместе могли узнать чуть побольше про реально работающие подходы с LLM под капотом.
Ваш, @llm_under_hood 🤗
PS: Если кто-то еще из участников хочет поделиться своим кодом - шлите ссылки на гитхаб, я их добавлю в этот пост.
Теперь к «агентам и роботам», которых упомянули авторы. Так как модель умеет по текстовому запросу генерировать точку на изображении, а в робототехнике уже давно появились модели, генерирующие траекторию движения по конечной точке, то инженеры на коленке склепали демку. Рекомендую посмотреть вот эти два видео:
— https://youtu.be/XBcJcULyh6I
— https://youtu.be/bHOBGAYNBNI
Вышло очень клёво, прикрутить сюда LLMку, которая генерирует цепочку рассуждений для выполнения высокоуровневой команды («уберись!» -> «найти каждую единицу мусора, понять куда её сложить, и выполнить для каждого предмета действия такие-то»), и вообще 🔥 можно в каждый дом робота затаскивать 😀
— PixMo-Points: 428k картинок (больше остальных!) и 2.3M пар вопрос-ответ. Очень необычный датасет, я бы сказал фишка модели. Чтобы обеспечить широкий спектр возможностей модели, авторы собрали данные об 2D-указателях на изображениях (точки), которые позволяют Molmo отвечать на вопросы не только с помощью естественного языка, но и с помощью тыканья пальцем.
«Указание точкой представляет собой естественное указание, основанное на пикселях изображения, что приводит к улучшению Molmo. Мы считаем, что в будущем указание точек станет важным каналом связи между VLM и агентами. Например, робот может запросить у VLM местоположение конкретного объекта рядом с ним, или веб-агент может запросить у VLM местоположение элемента пользовательского интерфейса для клика мышкой» — написано в блоге.
Итак, что сделали: попросили аннотаторов указать на что-то на изображении, написать его описание, а затем указать на каждый экземпляр этого объекта на изображении (чтобы сделать указание и разметку исчерпывающими). Также собрали пачку ответов «не присутствует на картинке», чтобы модели могли научиться правильно реагировать, когда их спрашивают о чем-то, чего на самом деле нет на изображении.
Обучение на этих данных открывает 3 новых возможности у модели / сценария использования людьми:
1) генерировать указатель на что-либо, описанное текстом (то есть находить на картинке объект)
2) считать, указывая на каждый из одинаковых объектов (обычно у моделей с этим плохо)
3) использовать указание как естественную форму визуального объяснения при ответе на вопросы.
На прикреплённой картинке вы видите архитектуру (тут ничего необычного, так делали уже больше года) и пример сгенерированной точки в ответ на запрос «покажи гору Rainier».