seeallochnaya | Unsorted

Telegram-канал seeallochnaya - Сиолошная

62062

Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy

Subscribe to a channel

Сиолошная

Шаг второй: тренировка на миксе из более чем 20 под-наборов данных

На описаниях картинок далеко не уедешь — модель не выучит полезные навыки, не сможет отвечать на вопросы в духе «какого цвета машина?», поэтому нужен второй этап. 20 датасетов это круто, но большая часть из них — старые, из академических бенчмарков, и они уже доступны публично. Примеры: VQA v2, ChartQA, ScienceQA, PlotQA. На них останавливаться подробно не будем.

Своих датасетов у авторов вышло 5 штук, у каждого своё название, а в сумме вся коллекция называется PixMo (Pixels for Molmo):

— PixMo-AskModelAnything: 73k картинок и 162k вопросов-ответов по ним. Цель датасета — дать модели возможность отвечать на разнообразные вопросы, которые могут задать ей реальные живые пользователи в реальных условиях. Процесс постарались ускорить так:
1) аннотатор выбирает картинку из огромного отфильтрованного пула
2) аннотатор пишет свой вопрос о картинке; изредка вопросы просили исковеркать, чтобы они были необычными (как любят комментаторы в телеграме, «напиши ответ перевёрнутыми буквами» или что-то такое)
3) модель, обученная на первом шаге, генерирует описание изображения
4) текст описания и результат работы системы распознавания текста (не VLM, просто стандартный инструмент) подавались в языковую модель, которая генерировала вопросы-кандидаты и потенциальный ответ (она НЕ ВИДИТ изображения)
5) аннотатор либо в один клик принимает ответ (что быстро = дёшево), либо отклоняет и даёт краткое описание проблемы
6) если ответ был неправильным (или вопрос был глупым) — LLM переписывает их с учётом обратной связи
7) повторять пункты 4-6 до готовности правильного ответа

— PixMo-CapQA: 165k картинок и 214k пар вопрос-ответ. Взяли готовую LLM, дали ей описание картинки (использовались человеческие, полученные из голоса, а не генерируемые обученной моделью) и попросили сгенерировать вопрос и ответ, которые могут быть отвечены только с использованием текста, не глядя на изображение. Чтобы увеличить разнообразие задач, авторы создали список тем и описания стилей, и просили модель использовать их.

— PixMo-Docs: 255k картинок и 2.3M вопросно-ответных пар. Сначала отобрали изображения, в которых много текста и визуальных элементов (диаграммы, документы, таблицы и схемы), затем взяли LLM и попросили сгенерировать код генерации визуальных элементов (то есть сделать рендер текстового описания). Затем другая LLM генерировала вопрос и ответ по коду — ведь она смотрит прям на цифры, на константы и значения, легшие в основу графиков, и это и был финальный набор. Очень интересное и креативное решение.

— PixMo-Clocks: 160k картинок и 826k пар вопрос-ответ. Это понравится зумерам, которые не умеют определять время на часах. Тут авторы просто создали новый набор синтетических данных с вопросами и ответами о времени. Всего было 50 уникальных циферблатов, на них случайно выставляли время, рендерили картинку, и получали результат — время то мы знаем.

Читать полностью…

Сиолошная

Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models (блог)

Если посмотреть на лучшие открытые Vision-Language Models (мультимодальные модели, принимающие на вход как минимум картинку и текст и выдающие текст), то все они попадут под две категории:
1. Обучены непонятно как и непонятно на чём (в лучшем случае будет описание в общем виде);
2. Обучены на разметке/примерах общения с проприетарными моделями; в таком случае можно говорить, что модель, по сути, является дистиллированной версией закрытой VLM.

Получается, что у сообщества разработчиков и исследователей нет точного понимания, как взять и сделать передовую VLM, только примерные наброски и опция использовать чужие данные, переходя в серую зону лицензирования (OpenAI и многие другие провайдеры запрещают тренироваться на ответах моделей, правда прецедентов судебных дел пока не видел). Ребят из Allen Institute и University of Washington это не устраивало, и они решили разобраться в вопросе, попутно задумав опубликовать всё что можно под открытой лицензией.

Забегая вперед скажу, что у них получилась модель Molmo (Multimodal Open Language Model), по бенчмаркам и человеческой оценке не уступающая GPT-4v (у последних 4o всё же подпроигрывает), так что работа действительно интересна.

Авторы выбрали прагматичный подход, в котором они берут уже готовую обученную языковую модель (LLM), кодировщик изображений (переводящий картинку в набор цифр), и поверх этой пары делают обучение на своих данных. В этой связке можно брать полностью открытые модели (OLMo, для которой есть всё от скриптов до данных), но никто не запрещает выбрать в качестве основы условную Mistral: главное, что всё, что происходит поверх базовых моделей, теперь прозрачно.

Ключевой инновацией, позволившей приблизиться к качеству закрытых фронтир моделей, стал... сделайте удивлённое лицо 😱... набор данных. В архитектуре никаких изысков нет, тренировка настолько проста, что в ней даже никакой RL не заводили (это когда модель учится на парах ответов, где человек указал, какой лучше, а какой хуже; используется для GPT-4 и прочих моделей). Ну ладно, дообучение производится в две стадии:
1. тренировка на (не)большом наборе пар «картинка — детальная подпись к ней»
2. тренировка на миксе из более чем 20 под-наборов данных, содержащих разные задачи.

Как вы понимаете, именно о данных и будет рассказ, ведь это основа.

Читать полностью…

Сиолошная

По аналогии с началом сентября, когда некоторым пользователям показывали два варианта ответа, один из которых был от моделей o1 (Strawberry), сейчас в выдачу подмешивают варианты, где явно задействован поиск по интернету (или по крайней мере по набору внешних источников; может, OpenAI показывает только сайты-партнеры?).

Напомню, что OpenAI летом анонсировали SearchGPT, которую выдали всего +-10'000 пользователей как раннюю альфу.

Возможно, релиз скоро 😟

Источник скрина

Читать полностью…

Сиолошная

Вот картинка с результатами. Тут в качестве архитектора тестируется несколько моделей (кодируется цветом), и для каждой из них пробуют разные модели-редакторы.

"Baseline" означает старый результат модели-архитектора, когда она была без пары, решала задачу сама от и до. Например, gpt4o-mini проходила 55.6% задач (самая левая колонка), а если разбить решение на два шага, то это само по себе улучшало результат до 60.2%.

Напомню, предыдущие лучшие результаты:
— Claude 3.5 Sonnet (baseline): 77.4%
— o1-preview (baseline) 79.7%

Модель Anthropic показала себя лучше, если дать ей в напарники её же (с другими вышло хуже): с 77.4% выросла до 80.5% (это прирост из-за разбиения процесса решения на два шага).

o1 приросла куда сильнее: она решает 85% задач 🔼 , если дать ей в напарники... ту самую модель DeepSeek, которая вообще аномально дешёвая. С выходом полноценной o1 (не превью), думаю, оценка будет >88%, так что автору пора задумываться о замене бенчмарка и/или его усложнении.

А вот к каким выводам с точки зрения использования пришёл разработчик:
— o1-preview + DeepSeek выглядит на бумаге солидно, но такой результат достигается за счёт метода генерации «whole» ответа (то есть целого файла с кодом, а не только изменённых кусков). Это медленнее и дороже, что может портить пользовательский опыт. Если генерировать кусок — оценка сразу упадёт до 80.5%, что не сильно лучше просто o1 из коробки.
— поэтому в качестве рабочей лошадки предлагается связка o1 + Claude 3.5 Sonnet (в режиме генерации кусков с изменениями)

Читать полностью…

Сиолошная

Я уже писал пару раз про SB 1047 — Калифорнийский акт, направленный на регуляции в AI. Губернатор пока не решил, подписывать ли его или накладывать вето, так что пока подождём, и давайте заглянем на другую сторону планеты.

Очень часто в вопросе регуляций возникает аргумент «Ну так а Китай?». Подразумевается, что если тормозить развитие AI в США (в Европе с этим так и так неплохо справляются) ради безопасности, то это не будет иметь смысла, ведь китайцы не будут столь услужливы, чтобы остановиться и подождать. И не факт, что приняв набор мер в США получится договориться об их соблюдении с мистером Xi.

The Economist опубликовали колонку, в которой разбирают этот вопрос. Тезисно:
— уже в 2023-м году в Китае были введены регуляции, применительно к чатботам и LLM. Алгоритмы работы оценивались на соответствие социалистическим нормам в попытке ответить на вопрос: «не подрывают ли ответы моделей линию партии?»
— также был введёт реестр LLM, куда разработчикам было необходимо вносить свои разработки
— всего из Китая лишь один учёный выигрывал премию Тьюринга (это Нобелевка в компьютерных науках), Andrew Chi-Chih Yao, и он обладает некоторым авторитетом; к нему прислушиваются. В июле он заявил, что ИИ представляет бОльшую экзистенциальную угрозу для человечества, чем ядерное или биологическое оружие. Бывший президент Baidu (китайского технологического гиганта), а также председатель государственного экспертного комитета по управлению ИИ, согласны с ним
— в июне Xi отправил письмо в адрес Andrew Chi-Chih Yao, в котором положительно отзывался о его работах в области ИИ. В июле на съезде ком партии Xi «подавал чёткий сигнал, что очень внимательно прислушивается к предостережениям "думеров"» (так называют людей, разделяющих переживания о экзистенциальной угрозе ИИ)
— официальный отчёт по результатам того заседания впервые призывал к мониторингу AI safety на государственном уровне
— вслед за этим, государственный орган, финансирующий научные исследования, начал предлагать гранты лабораториям, изучающим способы AI Alignment. Министерство промышленности предписало исследователям тестировать модели на предмет угрозы для людей (по сути повторять работу, которую западные лаборатории, OpenAI и Anthropic, делают сами).
— Больше деталей о взглядах Xi можно найти в учебном пособии, подготовленном для партийных кадров, которое, как говорят, генсек редактировал лично. В пособии указано, что Китаю следует «отказаться от неконтролируемого роста, который достигается ценой жертвы безопасности». Поскольку ИИ будет определять «судьбу всего человечества», он всегда должен быть контролируемым. Документ призывает к тому, чтобы регулирование было упреждающим, а не реактивным.

===

Такие вот новости. Лично мне всегда казалось логичным, что компартия не хочет, чтобы вместо них правил AI со своими интересами, и они точно также заинтересованы в методах контроля/управления/понимания/безопасности. Что, конечно, не означает, что обе стороны не будут (иногда) срезать углы.

Читать полностью…

Сиолошная

Когда у CEO Nvidia брали интервью после презентации новых чипов, он хвастался, что разработка прототипов (включая исследования) обошлась в более чем десять миллиардов долларов. Также он отметил, что получение именно такой производительной GPU возможно лишь с использованием AI — то есть методы машинного обучения позволяют делать железки более крутыми.

Другие производители железа тоже не дремлют, вот Google занимается применением Reinforcement Learning к задаче дизайна чипов уже более четырёх лет. За это время вышло три поколения TPU (аналог GPU, заточенный конкретно под нейронки), в каждом из которых использовались аналогичные ИИ оптимизации.

Компьютерные чипы состоят из множества взаимосвязанных блоков, соединенных проводами. Существует также куча сложных и взаимосвязанных ограничений проектирования финальной компоновки, которые необходимо соблюдать (все сразу). AlphaChip — подход Google — формулирует эту проблему как игру, как было с Го или шахматами. Начиная с пустой платы, AlphaChip размещает по одному компоненту, как бы делая «ходы», пока не закончит размещение всех частей.

Затем решение оценивается некоторым способом в зависимости от качества макета. Этот процесс повторяется много-много раз, и в конце концов нейронка обретает интуицию того, какие компоновки лучше, какие — хуже.

На картинке вы видите разницу в длине проводов в чипах трёх поколений, посчитанную между компоновкой, предложенной командой инженеров, и найденной алгоритмом. В последнем рабочем поколении TPU она составляет более 6%. Это очень важно, ведь чем меньше длина, тем меньше времени нужно, чтобы передать сигнал, так что тут речь не только об экономии на материалах.

И сам процесс дизайна выходит несравненно быстрее: несколько часов, а не недель или месяцев усилий команды высокооплачиваемых инженеров.

Также Google в конце блогпоста пишет, что будущие версии уже находятся в разработке, и, вероятно, стоит ждать бОльших оптимизаций в TPU следующих поколений.

Оригинальная статья 2020-го года с описанием подхода.

Читать полностью…

Сиолошная

Флеш-новости 5:
— пока на скорую руку про уход Mira: персонально я не думаю, что это связано с какими-то проблемами на работе (от отношений с Sama'ой до ограничений технологии и хайпа). Скорее всего человек действительно устал (как Greg Brockman, который должен вернуться), и сейчас выдался момент, когда можно взять саббатикал или уйти: основные модели либо выпущены, либо тренируются/находятся на финальном этапе полировки. Время покажет, так ли это — вон Andrej Karpathy ушёл, кто-то думал, что это всё прикрытие и что он сразу пойдет в другую компанию, а человек просто в своё удовольствие код пишет, на Мальдивах отдыхает, образованием занимается. Без разных подковёрных мотивов.
— TheInformation пишет, что OpenAI тренирует следующее поколение видео-моделей Sora. Улучшения будут по всем фронтам: генерации будут быстрее (в демо для артистов было ~10 минут на 60-секундный ролик в FullHD — и это при том, что для подходящего куска приходилось делать десятки-сотню генераций), стиль объектов между кадрами будет сохраняться лучше, ошибок анатомии/физики будет меньше, итд.
— META выпустили LLAMA 3.2, теперь с мультимодальностью: модель может принимать аудио и видео/картинки на вход, и тоже отвечать голосом. Есть также маленькие модельки (1B и 3B) для работы на девайсах (как я понял — только с текстом)
— голосовой ассистент на основе LLAMA был добавлен в приложение META, и.. также как и gpt-4o с голосом оно не работает в Европейском Союзе. Надеюсь, у регуляторов что-то в голове да щёлкнет, и они поймут, что что-то делают не так — ведь пользователи просто не получают доступа к передовым технологиям, что наносит вред адаптации.
— вчера Google обновили линейку моделей Gemini с 1.5 до.... 1.5-002. Для Pro (большая версия) цены снизились на более чем 50%, а качество шустрой Flash достигло почти по всем банчмаркам показателей Pro от мая 24-го. Кроме этого, увеличили скорость генерации и уменьшили задержку при работе с API. Думаю, конкретные цифры и бенчмарки мало кому интересны, однако в целом теперь Flash выглядит очень привлекательно — если на практике окажется, что её перформанс действительно сравним с весенней Pro.


И отдельно будет пост про другие новости OpenAI, stay tuned. Ну а разбор статьи оставим на завтра 🐱

Читать полностью…

Сиолошная

Открываем шампанское — войсмод gpt-4o, показанный в мае, в течение недели станет доступен всем подписчикам

Туда сразу вкатили фичи, которые не обещали на старте:
— произвольные инструкции (которые можно задать перед началом диалога. Например, тон, как к вам обращаться, говорить длиннее или короче, итд)
— память (общая с текстовыми чатами)
— 5 новых голосов
— улучшение самого голоса, акцентов, произношения, итд

😈

UPD: новые голоса послушать тут.

Читать полностью…

Сиолошная

На днях авторы перезапустили бенчмарк, сделав новые задачки, и протестировали свежие o1 от OpenAI, которые «умеют рассуждать» — и написали новую статью «LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench». Эти новые LLM охарактеризовали как «квантовое улучшение, опережающее конкурентов» — по картинке вы можете понять почему.

Синяя линия — результат o1-preview (o1 не превью будет ещё круче!), красная — o1-mini. По горизонтали длина оптимального плана для решения задачи, выраженная в количестве действий, по вертикали — доля правильно решённых задач с соответствующей длиной плана. Например, o1-preview справляется с задачами с длиной плана в 10 шагов в 25% случаев. Это далеко от идеальных 100%, но действительно квантовый скачок.

Слева графики для Zero shot (то есть без примера решения), справа для one shot (есть решение одной другой задачки) в промпте. Для некоторых моделей лучше дать пример, но o1 становится от этого немного хуже.

Авторы замечают, что o1-preview будто бы ограничена в длине рассуждений (для этого смотрят на распределение длины ответов), и потому скорее всего без ограничения качество в правой части графика было бы выше. Однако эксперименты очень дорогие — менее чем за неделю потратили $1800 только на одну модель 😳 и отвечает она медленно — в средне по 111 секунд на запрос.

Что ещё стоит сказать:
— да, есть специальные программы, которые за доли цента и менее чем за секунду по PDDL решат задачу планирования. Но цель бенчмарка — показать прокси-метрику для реальных рассуждений, которые могут быть выражены натуральным языком, а не конвертироваться в спец. программу
— интересно, что LLM-ки лучше работают с текстовым описанием задач (которое может быть двусмысленным), а не со строгим PDDL-форматом подачи информации в промпте
— на оригинальном Blockworld, без замещения кубиков непонятно чем, o1-preview показывает 97.8% решений, что сильно удивляет авторов (они не ждали таких результатов от LLM). На Mystery качество падает до 52.8%, но говорить про переобучение (что модель видела данные) наверное не стоит — просто с блоками действительно ЯЗЫКОВОЙ модели легче управиться должно быть.
— однако когда задачи перегенерировали (уникальные id / слова), то качество упало до 37.3%. Всё ещё существенно выше околонулевых результатов любых других моделей, но хотя бы можно использовать для отслеживания дальнейшего прогресса


— Авторы заметили, что когда модель дает неверный ответ, она также иногда предоставляет креативное, но зачастую бессмысленное обоснование своего решения. Это похоже на то, как если бы o1 перешла от галлюцинаций к газлайтингу
— В одном случае o1 решила, что условие «блок_находится_на(a, c)» было выполнено, потому что, как это объяснялось в скобках, a было на b, которое было на c, и, таким образом, a было где-то выше c, что следует считать находящимся «сверху» него 🤷‍♀️(в PDDL такое недопустимо как раз, но, как указано выше, там и общее качество хуже)
— в другой задаче, которая не имела решения (авторы отдельно проверяли, как часто модель понимает тупиковость ситуации), модель всё же смогла выдать план. Когда её попросили объяснить, как мол так, она написала, что все условия были выполнены, просто не за раз, а последовательно в ходе решения 😀

Читать полностью…

Сиолошная

PlanBench: An Extensible Benchmark for Evaluating Large Language Models on Planning and Reasoning about Change

Скептики вроде Yann LeCun считают, что LLM не умеют планировать (и рассуждать). Меж тем умение генерировать план и вносить в него изменения — это ключевые навыки для следующей ступеньки развития LLM, а именно AI-агенты, которые могут автономно преследовать цели и выполнять действия.

Те, кто пытаются привести контр-аргументы и примеры, зачастую основывают своё мнение на задачах из реального мира и здравого смысла, и как следствие становится трудно сказать, планируют ли LLM или просто пользуются информацией из обширного множества знаний.

Для разрешения вопроса в 2022-м году исследователи предложили бенчмарк PlanBench. Каждая задача в нём — это описание исходного состояния некоторой системы, возможных действий и финального состояния, которое нужно достичь. План здесь — это последовательность действий. Каждое действие задано двумя компонентами:
1) условия возможности выполнения действия, без соблюдения которых само действие заблокировано
2) эффекты, срабатывающие после выполнения действия

Для наглядности — на картинке пример описания простого действия на специальном языке PDDL. Действие называется «put-down» (положить), оно принимает на вход один объект ?ob, может быть выполнено только если мы держим объект (holding ?ob). Результат выполнения действия — набор обновлений для состояния: опустошить руку, объект на столе, мы ничего не держим.

Читать полностью…

Сиолошная

Из свежего эссе Sam Altman «The Intelligence Age»:

> В ближайшие несколько десятилетий мы сможем делать то, что нашим прародителям казалось бы волшебством. Это явление не ново, но оно будет ускоряться ещё больше. Со временем люди стали значительно более способными; мы уже можем совершить то, что наши предшественники считали невозможным.

> Благодаря этим новым способностям мы можем добиться совместного процветания до такой степени, которая сегодня кажется невообразимой; в будущем жизнь каждого может быть лучше, чем жизнь кого-либо сейчас.

> Вот один из способов узкого взгляда на историю человечества: после тысяч лет смешения научных открытий и технического прогресса мы научились плавить песок, добавлять некоторые примеси, с поразительной точностью компоновать его в чрезвычайно крошечных масштабах в компьютерные чипы, пропускать энергию через него и в конечном итоге получать системы, способные создавать все более способный искусственный интеллект.

> Вполне возможно, что через несколько тысяч дней (!) у нас появится суперинтеллект; это может занять больше времени, но я уверен, что мы доберемся до цели.

> Как мы оказались на пороге следующего скачка в процветании? В трёх словах: глубокое обучение сработало (прим.: имеется в виду Deep Learning, обучение нейронных сетей). В 15 словах: глубокое обучение сработало, оно предсказуемо улучшалось с масштабированием, и мы выделяли на него все больше ресурсов.

> Это действительно вот так просто; человечество открыло алгоритм, который может выучить любое распределение данных (или, по сути, основные «правила», которые производят любое распределение данных)

> С шокирующей степенью точности, чем больше вычислений и данных доступно, тем лучше ИИ помогает людям решать сложные проблемы. Я понял, что сколько бы времени я ни размышлял об этом, я никогда не смогу осознать, насколько это важно.

> Если мы хотим передать ИИ в руки как можно большего числа людей, нам необходимо снизить стоимость вычислений и сделать их доступными (что требует много энергии и чипов). Если мы не построим достаточную инфраструктуру, ИИ станет очень ограниченным ресурсом, из-за которого будут вестись войны, и который станет в основном инструментом для богатых людей.

===

Предпоследний процитированный абзац как будто бы намекает, что закончилась тренировка GPT-5, и OpenAI получили первые замеры 🆒 но это спекуляция.

Остальная же часть эссе показывает, насколько Sama и его окружение сфокусированы на дальнейшем масштабировании всего — не только моделей, но и инфраструктуры (с постройкой и арендой ядерных энергоблоков, выстраивания логистики, итд).

Читать полностью…

Сиолошная

Проснулись-потянулись, посмотрели свежее 20-минутное видео от Andrej Karpathy про историю создания LLM.C — его сайд-проекта для тренировки и использования аналога GPT-2.

Andrej рассказывает, что он начинал делать одну из своих лекций с PyTorch, и модель обучалась с использованием torch.compile (для ускорения за счёт оптимизаций). Но почему-то после этого он не мог её запускать для тестирования, не мог получить результаты — и видел разные ошибки. Тогда ему в голову пришла чудная идея — «я сделаю всё сам, перепишу всё с нуля на C».

После первого подхода и публикации кода в репозиторий прилетели программисты со всего интернета, начали переписывать модель на CUDA (для запуска на GPU),внедрять оптимизации — и по итогу код тренировки на одном сервере с 8 GPU был на 19% быстрее PyTorch и экономил 29% памяти. Но вся библиотека была заточена ровно на одну архитектуру и в относительно ограниченном сценарии — например, не поддерживалась распределённая тренировка (на нескольких серверах) и формат данных FP8. Сейчас это добавляют энтузиасты, плюс скоро появится поддержка не только GPT-2, но и LLAMA-3.1.

Сама имплементация должна была стать частью урока, где Andrej по шагам проходится по всем частям модели и стека тренировки, ведь там всё в одном файле и с минимумом абстракций. Относительно легко для постепенного погружения. Правда с добавлением всего, что связано с CUDA, порог входа поднялся (Karpathy кстати рекомендует вот этот блогпост для вката в программирования на CUDA).

По сути, вся LLM.C — это выборка узкой части функционала из всего того множества, что предлагают современные фреймворки, и экстремальная оптимаизация под один кейс. За счёт этого и получается быть эффективнее, избавившись от ненужного, лишнего. Под конец Andrej поднимает вопрос: «а что если LLM в ближайшем будущем станут такими оптимизторами всех приложений и программ? Для каждой будет написана более эффективная версия с учётом конкретной специфики и сценариев использования».

Меня давно терзал схожий вопрос — на сколько % можно будет ускорить Linux, если все программисты откажутся от дальнейшего развития и новых фичей и сосредоточатся на переписывании чуть ли не с нуля, но уже со знанием целевой картины. Это ж могло бы сэкономить миллиарды долларов во всем мире!

Картинка: Andrej начал проект будучи в отпуске на Мальдивах, лежа в бунгало или около него. Cracked. А как вы проводите отпуск?

Читать полностью…

Сиолошная

Через минуту премьера полного интервью с разработчиками модели о1 из OpenAI. До этого мы видели лишь первые 3 минутки.

https://youtu.be/tEzs3VHyBDM?si=sUxvc53ccmf_qgIY

Читать полностью…

Сиолошная

Флеш-новости 4 (для тех, кто пережил два лонга за полторы недели 🚬):

— CEO GitHub тизерит появление моделей o1 завтра в своём продукте. Это может быть как рядовая замена модели, не привнёсшая ничего нового с точки зрения UX, так и кардинальное улучшение Copilot, который теперь будет гораздо лучше планировать изменения в коде и размышлять о том, что имел в виду пользователь.

— Ходят слухи, что, возможно, в ближайшее время (чуть ли не на этой неделе) Google представит новую Gemini (может быть 2.0, может быть Ultra — её же не обновили до 1.5). Особый упор будет сделан на программирование. Вообще Google точно делал исследовательскую работу в том же направлении, что и OpenAI для o1, потому не удивлюсь, если будут схожий анонс с теми же акцентами. Google даже может превзойти OpenAI за счёт большего количества вычислительных мощностей на тренировку LLM — Sam Altman озвучивал такие опасения менеджерам в Microsoft.

— несколько представителей AI индустрии сходили в Сенат США, где их опрашивали про регуляции. Там была и Helen Toner, бывший член совета директоров, уволившаяся после возвращения Sam Altman. В своём вводном слове она говорила, что большинство регуляций надо направить на системы будущего, а не текущего поколения, и что дипфейки и GenAI это конечно опасно, но нужно думать про более глобальное влияние. И последующие 2 часа в Сенате говорили про... дипфейки и подмену голоса в звонках 🔥.

— ещё в этих слушаниях поднялась интересная тема разницы компенсаций в индустрии и в гос. структурах, и что никакой шарящий человек не пойдет работать в агентство-регулятор на зп в 5-10 раз меньше. Что-то с этим нужно делать.

— Microsoft и BlackRock (крупнейшая в мире инвест-компания, под управлением которой находится имущества на 10 триллионов долларов, примерно 8% мирового ВВП) планируют открыть инвест-фонд на... 30 миллиардов долларов. А ещё он может быть расширен до $100B 😨. Цель фонда — инвестиции в инфраструктуру для AI. Обратите внимание, что это не то же, что инвестировать в OpenAI. Это именно про налаживание производства и цепочек поставок, про строительство датацентров и электростанций. Вероятно, BlackRock считает, что в ближайшие годы будет дефицит, и они хотят сыграть на опережение. Партнёрами также выступит MGX, крупный фонд из ОАЭ.

— неделю назад CEO OpenAI, Anthropic, Nvidia и президент Google ходили в Белый дом для обсуждения будущего электроэнерегетики, инфраструктуры под AI, производства полупроводников. Позже на той же неделе было объявлено о создании рабочей группы по AI Datacenter Infrastructure. Департамент энергетики (Department of Energy звучит несерьезно, но они отвечают за ядерное оружие и энергетику, а также под их контролем находятся самые мощные публичные суперкомпьютеры) выделит отдельную команду под AI-датацентры и общение с частным сектором. Также DOE будет рассматривать выведенные из эксплуатации места добычи угля в качестве источников сырья для выработки энерегии, на основе чего будет приниматься решени о размещении датацентров и фабрик.

— люди всё ещё не верят, что AI продолжит развиваться семимильными шагами (банально за счёт масштабирования), и думают, что вот-вот застопорится.

К этому часу у меня всё 😁😀

Читать полностью…

Сиолошная

В конце прошлой недели OpenAI анонсировали и сразу же выпустили новую модель. Вопреки ожиданиям, её назвали не GPT-5, а o1. Компания утверждает, что для них сброс счётчика линейки моделей к единичке знаменует собой переход к новой парадигме, и что эта нейросеть и вовсе демонстрирует новый уровень возможностей ИИ. Возможностей, ранее вызвавших переживания и опасения у некоторых внутренних исследователей OpenAI — да настолько, что они пожаловались совету директоров!

В свежем лонге разбираемся, что же именно произошло, как и почему появилась o1, и попытаемся понять, как правильно выстроить ожидания от этой модели.
▀▀▀▀▀▀▀▀▀▀
Читать тут: https://habr.com/ru/companies/ods/articles/843250/
(обязательно делитьесь с друзьями и жмите стрелочку вверх 🔼 под статьёй!)
▀▀▀▀▀▀▀▀▀▀
Отдельная благодарность Павлу Комаровскому @RationalAnswer за помощь в редактуре и подготовке материала — не забывайте подписываться и на него.

Читать полностью…

Сиолошная

Шаг первый: тренировка на (не)большом наборе пар «картинка — детальная подпись к ней»

Большие VLM обычно обучаются на миллиардах пар текст-изображение, полученных из Интернета. Даже несмотря на большое количество фильтров по качеству и прочих приёмов, такие массивные корпуса, как правило, чрезвычайно шумные (некачественные). Часть выборки, где в тексте указаны детали, не присутствующие на картинке, и вовсе приводит к галлюцинациям (заставляем генерировать чего нет -> учим выдавать мусор).

Авторы применяют совершенно другой подход к сбору данных, уделяя особое внимание качеству. Финальный размер датасета — 712 тысяч разных изображений и примерно 1.3M аннотаций к ним. Это на 2, а то и 3 порядка меньше, чем используют другие сравнимые по качеству подходы.

Как разметить подписи для такого количества картинок? Никакой магии нет — нанять людей для разметки -_- обычно на этом шаге используются другие VLM с промптом «детально опиши происходящее», но ведь... тогда мы снова по сути будем дистиллировать знания другой модели? Так что... люди.

Если вы работали с людьми, то знаете, что многие из них не гонятся за качеством на работе. Заставить разметчиков писать объемные детальные подписи к картинкам оказалось непросто. Поэтому авторы махнули на это рукой... и предложили разметчикам записывать голосовухи 🙂, ограничив минимальную длительность аудиоклипа 60 (а на более поздних этапах сбора данных и 90) секундами.

За это время человек должен был ответить на ряд вопросов:
— Что представляет собой изображение на первый взгляд?
— Каковы объекты и их количество?
— О чем говорится в тексте? (если применимо)
— Каково положение объектов на картинке?
— Какие мелкие детали заметны?
 —Что находится на заднем плане?
— Каков стиль и цвет?

Затем голосовухи прогонялись через модель распознавания речи, и полученные транскрипты отдавались LLM с просьбой их вычитать, убрать ЭЭЭкания, паузы, сделать речь более связной (если был артефакт speech-to-text модели).

В первой части процесса картинку отсматривало 3 человека, так что получалось 3 описания. Лёгкий взмах рукой — и LLM генерирует саммари в виде четвёртого описания, которое тоже можно использовать для обучения. +33% к размеру датасета на дороге не валяются всё таки. На поздних стадиях перешли к разметке «1 картинка — 1 человек» (и как раз тут увеличили минимальную длительность до 90 секунд).

Исходный набор картинок, которые показывали пользователям, тоже как-то фильтровали (деталей пока нет), сбалансировав выборку по 70 заранее определённым категориям (типа дорожные знаки, мемы, еда, рисунки, веб-сайты, размытые фотографии, итд).

Давайте прикинем цену такой разметки:
1) если откинуть перефразирование LLM, то от людей отобрали примерно миллион уникальных подписей к изображениям. Ещё процентов 20% наверное забраковали по разным причинам.
2) так как каждый аудиоклип длился по минуте, то в час их наверное выходило ну штук 50, 10 минут туда сюда спишем.

Итого выходит 25'000 оплаченных часов. Минимальная ставка в Вашингтоне — 16.66$/час, по ней выходит $400k. Если это зааутсорсили, скажем, по $4/час, то будет всего $100k.

(Датасет и прочие детали обещали опубликовать для всех в течение 2 месяцев. Обратите внимание, что модель видела только текст, не аудио — быть может, в следующей итерации обучат аналог Voice Mode в GPT-4o?)

Читать полностью…

Сиолошная

Сегодня проходит первый осенний OpenAI DevDay (будет ещё два — в Лондоне и в Сингапуре). К сожалению, официального стрима не будет; также написали, что не следует ждать новых моделей (хотя утром OpenAI выложили новую нейронку для распознавания речи Whisper 3, но turbo — она шустрее).

При этом скорее всего будут записи (возможно, только через два месяца — как смонтируют сразу все три мероприятия). Надеюсь, что кто-то из посетителей сделает качественную съемку и конспект — будет интересно узнать, что анонсировали и о чём рассказали.

На основной сцене запланировано 4 часовых доклада, при этом их темы не указаны даже в расписании. Вместо этого указано, что темы анонсируют в открывающей речи.

Начало через 3 часа 20 минут, если будут новости — скомпилирую и выложу завтра подборку, если ничего срочного и супер крутого не будет.

А дальше ждите разбор статьи, прям как в South Park — большой, длинный, необрезанный.

UPD: самое главное в посте забыл 😀
Помимо основной сцены будет дополнительная, с практическими кейсами использования GPT в компаниях. Вот содержание, думаю, каждый найдёт для себя 1-2 самых релевантных и интересных доклада (и что можно будет потом увидеть запись с деталями):
— Amperity: Data Democratization with Text to SQL by Joyce Gordon & Camden Clark
— Dimagi: GPT-4o fine-tuning for low-resource spoken languages by Anna Dixon
— Genmab: Accelerating cancer R&D with document generation by Scott Ogden & Jan-Samuel Wagner
— Vercel: Generative UI for developer interfaces by Jared Palmer
— Altera: An AI civilization of 1,000 agents by Robert Yang & Nico Christie
— Mindtrip: The future of travel planning is multimodal by Garrick Toubasi
— Sierra: Realistic agent benchmarks with LLMs by Karthik Narasimhan & Noah Shinn
— DataKind: Activating humanitarian data for rapid response efforts by Caitlin Augustin & Mitali Ayyangar
— Cosine: Fine-tuning an AI developer by Alistair Pullen

Читать полностью…

Сиолошная

Губернатор Калифорнии ветировал закон штата SB 1047, который был посвящен безопасности AI и вокруг которого много месяцев шли дискуссии. Закон требовал от разработчиков больших AI моделей проявлять "разумную осторожность", чтобы их технологии не представляли собой "необоснованный риск причинения или существенного содействия причинению критического вреда". Под таким ущербом понимаются кибератаки, которые наносят ущерб на сумму не менее 500 миллионов долларов или приводят к массовым жертвам. Разработчики также должны были убедиться, что их ИИ может быть отключен человеком, если он начнет вести себя опасно.

Против закона выступали Google, Meta, Microsoft и OpenAI, к которым присоединились также более мелкие компании. Основные возражения касались того, что формулировки закона носят расплывчатый характер, при этом запрещая разработчикам выпускать модели, если существует "необоснованный риск". Неопределенность формулировок оставляла большое поле для толкований и фактически позволяла осложнить работу компаний, пока с вопросом не разберутся в суде, например.

Помимо того, что закон касался бы деятельности любой крупной компании в области AI — они все расположены в Калифорнии, — он бы фактически относился и к деятельности тех компаний, которые просто ведут деятельность в штате.

https://www.wsj.com/tech/ai/californias-gavin-newsom-vetoes-controversial-ai-safety-bill-d526f621?mod=hp_lead_pos4

Читать полностью…

Сиолошная

Месяц назад писал про Aider, консольный кодинг-ассистент. Тогда я отметил, что автор использует своё творение для разработки и улучшений, то есть ИИ-ассистент пишет сам себя. С тех пор вышло 6 обновлений, в которых Aider написал 405 + 204 + 811 + 154 + 394 + 712 = 2680 строк кода (везде больше 50% от общего объема обновления; максимум 70%). Продуктивно!

Но написать я хотел о другом. Для оценки работоспособности разных моделей автор собрал пару бенчмарков. В одном из них 133 задачи на Python (все — собранны вручную как учебный материал из реальных кейсов, однако сам бенчмарк публичный, и LLM могли его видеть). gpt-4o решает 72.9%, claude-3.5-sonnet была топ-1 с 77.4%, однако недавно её перегнала o1-preview с 79.7%.

При этом автор заметил, что новая модель OpenAI плохо следует инструкции форматирования ответа — ответ получается распарсить в 93.2% генераций (90% у o1-mini), то есть часть задач может и решается, просто модель добавляет отсебятины и/или не слушается. Для сравнения: Claude 3.5 почти не ошибается с этим (99.2%), а продуктовые модели OpenAI показывают 96-98%. И даже при таком подходе o1 впереди.

Поэтому в голову пришла идея разбить процесс решения задач на 2 шага:
1. Модель-Архитектор получает проблему и задачу описать решение проблемы
2. Модель-Редактор получает на вход описание решения и переводит его в код

Подход позволяет сочетать плюсы разных моделей, нивелируя минусы. Например, o1 — суперхорошо описывает декомпозицию решения, а какая-нибудь дешёвая и супер-быстрая китайская DeepSeek v2.5 исполняет план.

Читать полностью…

Сиолошная

New York Times ознакомились с финансовыми документами OpenAI — вероятно, с проспектом сделки по привлечению очередного раунда финансирования, — в которых указано, что месячная выручка компании составила в августе 300 млн долларов и компания ожидает, что годовая выручка составит 3,7 млрд долларов. Ожидания на будущий год простираются до суммы в 11,6 млрд долларов. Месячная аудитория сервисов компании составляет примерно 350 млн человек по состоянию на июнь этого года, из которых 10 млн — это подписчики платного ChatGPT. Кстати, в документах описаны планы по повышению цены на сервис с нынешних 20 долларов — сначала на 2 доллара, а затем до 44 долларов в течение ближайших пяти лет.

Правда, из той же документации следует, что убыток в этом году составит примерно 5 млрд долларов без учета выдачи опционов.

Закрытие сделки ожидается на будущей неделе — скорее всего, OpenAI привлекут 7 млрд долларов при оценке компании в 150 млрд. Ведет раунд компания Thrive Capital, которая планирует, кроме своих денег, привлечь еще 450 млн долларов через дополнительные финансовые инструменты, а также получает опцион на инвестицию еще 1 млрд долларов в течение 2025 года по той же оценке — что может оказаться очень выгодным, если оценка в будущем году продолжит свое победоносное шествик — удваиваясь в течение года или утраиваясь за полтора-два года.

https://www.nytimes.com/2024/09/27/technology/openai-chatgpt-investors-funding.html

Читать полностью…

Сиолошная

Пост TheInformation от 29-го мая 2024-го года. Я начал писать его разбор, но подумал, что пока не стоит его публиковать. Теперь пора, итак, тезисно:
— уже в тот момент OpenAI рассматривали возможность перехода от некоммерческой организации к коммерческой (for profit). Это обсуждалось в рамках привлечения следующего раунда инвестиций
— некоторые потенциальные инвесторы заявили, что хотят, чтобы Altman получил пакет акций, чтобы согласовать его интересы с бизнесом. На данный момент Sam не владеет долей в OpenAI.
— компания может стать public benefit corporation (как Anthropic или xAI Elon'а). Что это такое и почему это не то же самое, что компания, напрямую ориентированная на заработок, можно прочитать в моём посте тут.

Почему инвесторам это важно? Потому что, как вы понимаете, никто не хочет давать денег на ничто — а именно так сейчас устроена схема вложений. Очень подробно описывал её тут, вот главная цитата:
> Такая структура создает немалые риски для инвесторов в OpenAI LP (Microsoft и других), которая по факту не владеет ничем: инвесторы в OpenAI владеют токеном от дырки от бублика — долей в OpenAI LP, которой не принадлежит ничего (никаких технологий). Теоретически возможна ситуация, при которой НКО OpenAI просто разорвет отношения с OpenAI LP, и инвесторы останутся ни с чем.

Сейчас, видимо, никто не готов давать деньги дальше без гарантии хотя бы какого-то результата в виде возврата $.

Сегодня вышел эксклюзив в Reuters, который в целом рассказывает то же самое, что и пост трёхмесячной давности, новых деталей буквально две:
— Некоммерческая организация OpenAI продолжит существовать и будет владеть миноритарной долей в новой коммерческой компании. (но не ясно, у кого будут права на технологию — сейчас инвесторы не имеют к ней никакого отношения, см. про дырку от бублика).
— коммерческая организация, как понятно по абзацу выше, не будет подчиняться совету директоров некоммерческой ветки.

===

Это была новость раз. Новость два — про масштаб, на котором новая компания будет оперировать в партнёрстве с Microsoft и другими заинтересованными лицами (это чтобы дополнить картинку, почему дальше работать как НКО сложно). Стало известно, что говорили представители OpenAI на встрече в Белом доме на прошлой неделе — об этом написал Bloomberg.

— OpenAI пытались убедить администрацию Президента в необходимости огромных центров обработки данных, каждый из которых мог бы использовать столько же энергии, сколько целые города, представляя беспрецедентное расширение, необходимое для разработки и использования всё более совершенных моделей и конкуренции с Китаем
— более конкретно, был обозначен следующий план: предлагается начать с постройки датацентра, потребляющего 5 гигаватт (ГВт) энергии; OpenAI описывают, сколько рабочих мест и денег это принесёт США (оценки сделаны внешними исполнителями, независимыми от OpenAI).
— 5 ГВт, это много или мало? Ну, это эквивалент 5-6 ядерных реакторов, работы которых достаточно для обеспечения светом ~3 миллионов домохозяйств. В США на данный момент от ядерки вырабатывается всего 96 ГВт.
— 5.5 ГВт — это среднее потребление ВСЕГО НЬЮ ЙОРКА (пиковое порядка 10 ГВт), и больше Парижа
— примерно столько, по подсчётам, должен был занимать проект Stargate (суперкомпьютер OpenAI x Microsoft за 100-125 миллиардов долларов). Читать про важность проекта тут.
— CEO Constellation Energy Corp (это владельцы АЭС, которую планируют перезапустить специально для Microsoft) проговорился, что Altman говорил ему про дальнейший план постройки ещё 5-7 таких датацентров. То есть вместо одного суперкомпьютера (масштаб которого сейчас и представить сложно) за дохреналион долларов их будет несколько 🤯 — и это план лишь одной компании

И вишенка на торте — не могу сейчас найти источник, но где-то было написано, что Sama планировал публично раскрыть детали проекта Tiger по привлечению средств на кардинальное изменение отрасли производства полупроводников и чипов до конца этого года (сейчас идут дискуссии об инвестициях). Очен ждом.

Читать полностью…

Сиолошная

CTO OpenAI Мира Мурати покидает компанию — чтобы создать время и пространство для своего собственного исследования, как говорится в её публичном заявлении.

Астрологи объявляют неделю сообщений, что OpenAI приходит в упадок и уже не торт.

https://www.cnbc.com/2024/09/25/openai-cto-mira-murati-announces-shes-leaving-the-company.html

Читать полностью…

Сиолошная

Главная ошибка при сравнении с человеком — это считать, что средний работающий человек достигнет 100% 😀

Из последующего исследования этих же авторов (выбрали одну задачу про блоки и раздали всем участникам):
> из 50 отобранных испытуемых, 39 (78%) смогли сделать валидный план
> 35 из них сделали оптимальный (то есть с наименьшим количеством ходов) план

Наверное, и говорить не стоит, что на Mystery-задаче, где вместо блоков абстрактные сущности, большая часть людей просто бы потерялась — особенно если решать задачу zero shot, то есть без примера решения другой задачи (в инструкции или промпте). У o1-preview же качество 52.8% на старом Mystery-наборе (из 2022-го) и 37.3% на новом. (На человекочитаемом там вообще 97%, но модель могла запомнить задачи, поэтому их не берём)

Думаю, что полноценная o1 без прописанных в API ограничений будет примерно равна в этой задаче по качеству со случайно выбранными с улицы людьми 🫡

Читать полностью…

Сиолошная

Авторы предлагают 2 задачи и аж 7 вопросов для исследования, но нам интересна одна задача и самый главный вопрос — могут ли модели составлять план из действий?

Для этого берётся задача Blocksworld. У вас есть одна рука, в которую помещается один блок. Блок нельзя двигать, если на нём стоят другие блоки. Блоки отличаются цветом. Цель — выложить блоки в некоторой заранее указанной последовательности. Начальное состояние может генерироваться случайно, блоки как-то просто раскидали в рандомном порядке.

Действия всего 4:
— взять блок
— отсоединить блок от блока под ним (как будто детальки лего)
— положить блок
— прикрепить блок к другому

Таких задачек сгенерировали 600 штук. Но поскольку блоки — это понятные нам абстракции (и модель-то может разобраться в физике раскладывания!), то авторы решили сделать Mystery Blocksworld — то что называется обусфицировать задачу. Кубики и цвета они заменили просто на объекты, а глаголы действий — либо на другие случайные глаголы, либо на случайно генерируемые id, не несущие смысла (например, tv30k33pzoulql6w).

Атрибуты типа «рука занята» тоже заменили на случайные буквы (a46zhwykn6jvbabk). Таким образом, единственный способ для LLM составить план — это не опираться на знания о естественном мире, а действительно вникнуть в описание состояний, дейсвтий, разобраться в цепочке что за чем следует, перебрать несколько вариантов.

На картинке вы видите описание одной из таких задач.

В задачах использовалось от 3 до 5 «блоков», большинство задач требовало 6-8 и более шагов в плане для достижения цели.

Что обнаружили в 2022-м году — так это что LLM действительно очень плохо справлялись с подобными проблемами, качество было около нуля, конкретные цифры не имеют значения.

Читать полностью…

Сиолошная

🥺 до сих пор думаю про это

(изначально это и был весь пост, но решил дописать)

Недавно из раннего доступа вышла игра Satisfactory. Это симулятор строительства фабрики масштаба целой планеты — как Factorio, только 3D, и чуть более дружелюбная к игроку. Идеальное место для медитации инженера и людей, кого может захватить настройка и создание цепочек производства.

Сначала нужно научиться добывать и перерабатывать простые материалы, песок/железо/уголь/биомассу, затем построить космический лифт и начать выполнять заказы на поставку всё более сложных и комплексных материалов: композиты, чипы, батарейки, итд. Нужно строить конвейерные ленты, железную дорогу для поездов, можно строить самосвалы и настраивать путь их проезда между производством и рудниками.

На Metacritic у игры 90 баллов от журналистов и 9.0 от игроков — одна из самых лучших игр за последние годы. Я купил и завис ещё в 2021-м, и даже просидел в ней несколько рабочих дней, не выполняя задачи 🥺 ОЧЕНЬ затягивающая, если с вами «кликнет».

Трейлер: https://youtu.be/W_lmP8jYVLs (есть более свежий, но как мне кажется игра в нём раскрывается меньше)

А ещё есть кооперативная игра, фабрики можно строить с друзьями.

Если вам мало масштаба планеты, то могу рекомендовать Dyson Sphere Program, тоже очень залипательная.

P.S.: разбор ML-статьи позже сегодня 👀

Читать полностью…

Сиолошная

Ужас, последний разбор статьи был почти месяц назад (28-го августа, на диффузионную модель, генерирующая игру в Doom, вот пост) — это за вычетом разбора системной карточки o1 и пары-тройки статей в лонгах (как-то отвлёкся на них).

Давайте исправляться. Кидайте в комментарии (без флуда пж) ссылки на то, что интересно было бы разобрать — не больше 1 ссылки в сообщении, и чтобы превью прогружалось.

У меня у самого во вкладках открыто штук 10, посмотрю 2-3 самых интересных и выложу в ближайшие дни.

Лайкайте понравившиеся ссылки — так буду понимать, что интересно аудитории.

Читать полностью…

Сиолошная

От слов к делу — Microsoft подписали контракт на покупку любого количества энергии, производимой на американской АЭС Three Mile Island, в следующие 20 лет. Эта АЭС — как Чернобыльская станция в СССР: в 1979-м году там произошла авария на одном из двух блоков. Это была крупнейшая авария в истории коммерческой атомной энергетики США, которая усилила уже существовавший кризис и вызвала всплеск антиядерных настроений в обществе. Хотя всё это и не привело к мгновенному прекращению роста атомной энергетической отрасли США, её историческое развитие было остановлено. После 1979 и до 2012 года ни одной новой лицензии на строительство АЭС не было выдано, а ввод в строй 71 ранее запланированной станции был отменён — ушла эпоха.

Первый (из двух) блоков станции в порядке, он работал до 2019-го года (на ЧАЭС тоже после выхода из строя четвертого блока продолжалась выработка энергии на остальных трёх — вплоть до 2000-го года). Но его решено было остановить по экономическим причинам: столько энергии не было нужно, да и в США появились более дешёвые источники выработки.

Старющий реактор в штате Пенсильвания должны перезапустить к 2028-му, на АЭС вернутся ~600 специалистов — и всё это для того, чтобы получить лишние 835 мегаватт энергии для подпитки датацентров. Этого примерно хватит для содержания 700'000 домов в США, но всё уйдет на обучение GPT-N+1 и генерацию картинок 😐

Google не отстаёт — буквально на днях СЕО Alphabet Sundar Pichai хвастался, что у них уже в работе гигаваттный датацентр, и что его хотят подпитывать современными небольшими модульными ядерными реакторами. Ну и новости про Oracle/Amazon не забываем — те тоже ударились в ядерку.

Кажется, AI гонка и нехватка энергии для будущих датацентров подстегнули развитие атомной энергетики в США как никто другой в последние 40 лет. Интересно, что в планах дальше у OpenAI x Microsoft и Co?

Подпись к мему:
Я не против ядерной энергетики, но перезапуск THREE MILE ISLAND, потому что Sam Altman нужно больше гигаватт, чтобы выяснить, сколько букв «r» в слове «strawberry» — это знаменательная веха в раздутии пузыря искусственного интеллекта.

Sama 🤝 Мирный Атом

Читать полностью…

Сиолошная

Сколько на самом деле стоит инференс GPT-4o?

Почему-то многие думают, что провайдеры больших языковых моделей продают API чуть ли не себе в убыток. Я бы хотел поделиться прикидками о том, почему это совсем не так, и заодно помечтать о том, сколько параметров мы можем себе позволить тратить на модель, которая сможет заменить человека в работе.

Все расчёты можно воспроизвести в колабе, меняя цифры, как вам захочется. Выводы остаются неизменны.

Для расчётов нам нужно сделать несколько допущений:
1. Количество активированных параметров в модели. Для GPT 4 Turbo широко ходили слухи про 200 миллиардов параметров, так что 4o должна быть меньше. По данным Artificial Analysis, пропускная способность GPT-4o – 95 tok/s, что находится между LLama 3.1 7b (182 tok/s) и 70b (80 tok/s). Для наших целей предположим, что в 4o 100 миллиардов активированных параметров, делая скидку на то, что в OpenAI инференсом занимаются крайне толковые люди. Кстати, Gemini Flash 1.5 с последним обновлением выдаёт 330 tok/s.
2. Амортизированная стоимость сервера с 8 H100. Чтобы не сильно расстраиваться, возьмём оценку сверху как цену такого сервера на AWS – на сегодняшний день $39.33 в час. На рынке цены могут быть минимум в пять раз меньше.
3. MFU – какой процент вычислений используется эффективно. Стандартом является 30-50%, для наших прикидок возьмём 30%.

При таких допущениях (а с другими вы можете поиграть в колабе), стоимость инференса миллиона токенов получается $0.23. Сравним это с официальной ценой в $2.5 за input и $10 за output и получим наценку API в ~50 раз. И это – оценка сверху со всеми допущениями в сторону удорожания. С другой стороны, кому-то же надо скидываться Саме на Koenigsegg. 😮‍💨

Заодно мы можем посчитать, насколько дешевле модели в сравнении с кожаными мешками. Взяв минимальную зарплату в Нью-Йорке ($16) и производительность в 100 токенов в минуту (среднее у людей примерно 50 слов в минуту), получим стоимость миллиона токенов в $2666.67. Даже o1 со своими $60 / Mtok тут рядом не стоит. Есть, куда расти!

Читать полностью…

Сиолошная

LMSYS Arena обновила рейтинг, добавив свежие модельки о1. Напомню, что LLM этого семейства не позиционируются как хорошие во всём, и заточены на науку (математика/физика/программирование). OpenAI не обещали улучшений по всем фронтам (ну это вы знаете, если читали сегодняшний лонг).

ОДНАКО

Модели всё равно в топе - на первом и третьем месте. И это с учётом контроля по стилю и длине - то есть к рейтингу модели применяют некоторую поправку, которая штрафует за очень длинные ответы, а также те, что содержат много списков, заголовков итд. Детали в официальном блоге тут.

В математике отрывы вообще неприличные (второй скрин).

А ещё обратите внимание, что обновилась модель ChatGPT (это та, которая заточена на диалоги, и именно к ней получают доступ пользователи сайта chatgpt) - она заработала +20 очков относительно предыдущей версии. То есть o1 лучше ChatGPT которая лучше прошлых ChatGPT которые лучше всех остальных моделей.

😦

Источник

Смотреть рейтинги тут

UPD: ещё добавили в сравнение 16-битную версию LLAMA-3.1-405B. Она в рейтинге выше, чем обычная пожатая восьмибитная, что ожидаемо. Разница наибольшая в reasoning-heavy задачах

Читать полностью…

Сиолошная

Dan Hendrycks, автор известных и популярных бенчмарков MATH и MMLU, посмотрел на прогресс моделей (по обоим наборам проблем современные LLM решают уже 90%+) и понял, что пора придумать новый набор задачек. Dan называет его «Последним экзаменом человечества» («Humanity's Last Exam», не шутка).

Вопросы может присылать каждый. Они должны быть экспертного уровня (человек с улицы не решит) и не быть скопированными с интернета (это чтобы модели не могли их запомнить). Всего будет не менее тысячи вопросов, и у каждого есть возможность поучаствовать — если ваш вопрос отберётся, то вы получите от $500 до $5000.

Фишка в том, что прямо на сайте в форме подачи вопроса вы указываете ответ, а затем происходит проверка:
1. 3 передовые модели пытаются ответить на вопрос / решить задачу
2. Если все лажают — в дело вступают свежеприготовленные o1-mini и o1-preview от OpenAI.

Если по итогу все 5 моделей ошиблись — открывается возможность отправки. По сути, это базовая верификация, что ваш вопрос сложен для систем сегодняшнего дня. И пишу я этот пост как раз для того, чтобы вы — даже если у вас нет подписки на ChatGPT для доступа к o1 — могли опробовать навыки передовых LLM. Правда есть парочка ограничений:
1. Вопросы не должны быть просто вопросами с подвохом. Бородатое «А и Б сидели на трубе» не подойдет (ну и это не экспертный вопрос).
2. Вопросы не должны быть просто задачей на счёт или вычисление — зачем, если LLM может вызвать Python? Такая задача ничего не проверяет.
3. Вопросы только на английском языке.

Так что если вы эксперт в какой-то области (особенно вне IT), и у вас есть сформулированная проблема (для которой вы знаете ответ) — обязательно попробуйте закинуть на сайт и посмотреть, справляются ли модели. Это даже чисто из интереса стоит опробовать, нежели в погоне за наградой за вопрос — тем более ответ будет сразу от 5 моделей!

Ссылка: https://agi.safe.ai/submit (никакой регистрации НЕ НУЖНО)

Также выкладывайте в комментарии интересные попытки, особенно если LLM смогли вас удивить и ответить правильно, хотя вы ждали промашки!

Читать полностью…
Subscribe to a channel