seeallochnaya | Unsorted

Telegram-канал seeallochnaya - Сиолошная

56987

Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно запинено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy

Subscribe to a channel

Сиолошная

Конгресс США попросил NASA за 90 дней рассмотреть альтернативные варианты доставки астронавтов к Луне.

Текущая стоимость пуска ракеты SLS с будущей обновлённой второй ступенью оценивается в $2.5 миллиарда, и ещё по $680 миллионов за каждый корабль Orion. К слову, первый тестовый полёт SLS и Ориона оценили в $4.2 миллиарда.

Всего с 2006 года было потрачено свыше $60 миллиардов (с поправкой на инфляцию) на разработку и запуск производства ракеты SLS, корабля Orion и всей сопутствующей инфраструктуры. Поэтому текущие результаты на фоне достижений частных инициатив внушают «определённые опасения». Тем более такие ресурсы смотрятся совсем неоправданными на фоне китайской лунной программы.

В конгрессе решили не дожидаться очередного запроса на расширение бюджета Artemis, и у NASA теперь есть 90 дней на подготовку отчёта по альтернативным архитектурам для доставки астронавтов к Луне. Причём рассматривается опция по замене SLS/Orion начиная с Artemis V. Но есть важный нюанс.

Вся текущая программа Artemis построена вокруг ограничений корабля Orion, а точнее скудным запасам топлива. Из-за этого и астронавты, и стыковка с посадочными кораблями HLS, и станция Lunar Gateway будут находиться или летать к близкой прямолинейной гало-орбите (NRHO). Мягко скажем, не самое стандартное решение с периодом оборота вокруг Луны почти в 6 дней. И да, параметры орбиты обусловлены не только желанием постоянно находиться в видимости Земли, а именно ограничениями Ориона и экстренных сценариев.

Но какие варианты уже предлагали другие компании до запроса конгресса?
- Альтернативный пилотируемый корабль от Blue Origin, который почти в 2 раза тяжелее Orion/ESM.
- Специальная версия Starship от SpaceX;
- Лунная версия Dragon с отдельным сервисным отсеком и запасом в 16 тонн горючего (против ~9т у Orion).

Blue Origin готовы летать к Луне/NRHO за несколько пусков (корабль и разгонный блок запускаются отдельно и стыкуются). Starship использовал бы дозаправку, а Dragon для Луны запускался бы на Falcon Heavy тоже за 2 полёта.

Будет крайне интересно посмотреть на результаты исследования и какие новые опции предложат партнёры. Но риск того, что срок жизни SLS для запусков людей к Луне сократится аж вдвое — вполне ожидаем. Тем более вся программа Artemis изначально планировалась с расчётом, что других сверхтяжёлых ракет не будет. А сейчас их было бы глупо не рассмотреть.

Читать полностью…

Сиолошная

Вопреки шуточкам, и обычным пользователям прилетел доступ к голосовому режиму GPT-4o (а вот от крупных блогеров обзоров не видел, кстати). Больше количество примеров можно найти по ссылке в твиттер тут, а я хотел выделить один.

Здесь в ролике модель просят быстро посчитать до 10, а потом до 50, и она в некоторые моменты останавливается, делает звук вдоха и продолжает (между 30 и 31, как пример). Очень интересный артефакт обучения на реальных человеческих голосах и записях) Такое было в первой демке с роботом Figure, и люди думали, что это добавили отдельно и специально, но нет, просто так вышло у модели, никто не заставляет отдельно так себя вести. Причём в транскрипте сообщений вздохов нет (хотя мб текст пишет отдельная модель, распознающая голос, хз).

В целом у пользователей ощущение, что почти ничего с презентации не вырезали, и что демка не была фейком или какой-то отдельной моделью: всё реально. Чуть зарезали флиртующий голос, кажется, и на этом всё.

А в комментариях будет МЭМ (кидайте свои!).

Читать полностью…

Сиолошная

Open-TeleVision: Teleoperation with Immersive Active Visual Feedback

Когда-то у OpenAI была команда по робототехнике, но потом её закрыли. Со слов Ilya Sutskever, нужно было очень сильно вкладываться ресурсами и перепрофилироваться, и основной проблемой были данные (с реальных устройств или из симуляции). Даже вот флот в 100 роботов (роборук, робоног или цельных гуманоидов) — это уже огромное количество работы, от налаживания конвейера выпуска до обслуживания, но при этом со 100 роботов данных много и не соберёшь. «There was no path to data from robotics».

Проблема остаётся актуальной и по сегодняшний день. В посте про Tesla Optimus вы видели, что данные генерируют люди — надевают VR-гарнитуры, и начинают как бы управлять роботами от первого лица. Такое называется «телеоперация» или «телеуправление». Её интуитивность и простота имеют решающее значение для обеспечения высококачественных, разнообразных данных, а также влияют на масштабируемость процесса. Чем выше планка входа — тем больше нужно потеть. А одна из самых главных проблем — задержка между движениями оператора и робота (пинг), над уменьшением которой бьются буквально все команды в мире.

У Nvidia есть своя (наверное, даже не одна?) лаборатория, которая занимается роботами, и вот в начале июля они выпустили систему OpenTeleVision в опенсурс для того, чтобы разные команды могли ей пользоваться. Более того, они даже опубликовали чертежи для 3д-принтера, чтобы можно было распечатать «голову» робота (и указали, какие 2 камеры нужно купить и как их прикрепить). Про подобные проделки экспериментаторов из Stanford University я писал ранее тут.

Фишка в том, что как девайс предлагается использовать Apple Vision Pro — вы уже про него и забыли поди? Ну а что, камеры в нём есть, руки распознаются, даже движения отдельных пальцев, перемещение головы отслеживается около-идеально, мощный чип на борту есть.

Так что Apple теперь найдет, куда пристроить тысячи непроданных гарнитур 😃

По первой ссылке в посте куда больше видео-демонстраций.

Читать полностью…

Сиолошная

А вот сайт с демо, куда можно загрузить любое видео (или выбрать из предзагруженных).

Дальше просто делаете 1-2 клика по объектам, которые хотите выделять, и SAM 2 отслеживает их на всех кадрах — в этом и есть основная магия.

Я загрузил 2 видео — из первого ролика OpenAI Sora и из старого доброго мема. Для первого пришлось сделать два клика по сумке, ибо она пропадала из поля зрения, но это всё равно очень быстро.

Все маски, размытия и эффекты можно прямо в демо сделать, ну или заменить на зелёнку, чтобы выгрузить себе в редактор.

Легко понять, зачем такое нужно META — ждём фичей в редакторе инстраграма (и других приложений), где через пару лет каждый сможет в пару тапов и текстовых запросов делать около-профессиональный продакшен.

P.S.: модельки супер-быстрые и супер-маленькие (до 230 мегабайт!). На одной A100 авторы обещают обработку 130 кадров в секунду.

Читать полностью…

Сиолошная

Аватары, которых прямо сейчас показывает Хуанг на Сигграфе выглядят очень круто.
Их главное преимущество - они уже засетаплены в единое решение, где под капотом ТОЛЬКО решения Нвидия (от LLM до 3Д- или нейро- движка). Это продукт, а не говно и палки с гитхаба, заваренные кипятком питонга.
Их главный минус - это намертво закрытое решение. Облачное притом.

Перед этим он показал гибридную симуляцию 3Д-миров: промпт используется сначала для эмпирического поиска по базе 3Д, а потом ИИ делает композицию по промпту и приваливает нейрорендеринг сверху. Все это на базе USD и, конечно, внутри Омниверса.

Поглядите завтра тут:
https://youtu.be/H0WxJ7caZQU

@cgevent

Читать полностью…

Сиолошная

В итоге модели звезд с неба не хватают, но держатся вполне себе против куда более громоздких.

На графике изображена доля генераций модели, которые человек выбрал как более качественные ответы на определенный пул запросов (тут — в задаче суммаризции).

Читать полностью…

Сиолошная

Apple Intelligence Foundation Language Models

Сегодня Apple выпустили бета-версию iOS 18.1 и macOS 15.1, в котором появился 💫Apple Intelligence✨. Часть функций отсутствует, часть уже работает (например, ответы Siri, суммаризация текста). Вместе с этим опубликовали и статью про Apple Foundation Model, или AFM — набор моделей, доступным разработчикам. О текстовой AFM и поговорим.

Всего есть 2 версии модели: мобильная и серверная, запускаемая в супер-секретном защищенном облаке PCC (и не хранящая ваши запросы). Эти две базовые модели являются частью более крупного семейства генеративных моделей, созданных Apple для поддержки пользователей и разработчиков; сюда входит и, например, модель для программистов Xcode (доученная AFM). Интересные моменты:

1. Никаких архитектурных нововведений нет: decoder-only GQA transformer с RoPE на 26 слоёв для малой модели. Серверная версия аналогична, только больше — однако точные параметры почему-то не указываются.
2. Данные собирали сами и переиспользовали публичные, но вложили много усилий, чтобы выфильтровать оттуда весь небезопасный контент (завели таксономию на 51 категорию нарушений!). У Apple в январе была статья WRAP, где они использовали одну LLM для перефразирования, очистки и фильтрации данных при обучении другой; на эту статью не ссылаются, но может быть использовали похожие трюки (в целом, указано, что LLAMA-2 была задействована).
3. Кроме этого, из данных вычистили данные от 811 бенчмарков, чтобы замеры метрик были честными. 811 — огромное число, в статье LLAMA-3.1 было всего 150 бенчмарков в сумме, и это казалось ого-го! Ну и ещё постарались выкинуть часть данных, права на которые принадлежат издателям (или лицензировать куски, которые имеют высокое качество). Вот это ответственный подход!
4. Токенайзер на 49к токенов для мобильной версии и на 100к для серверной — оно и ясно, чтоб лишнее место не занимать. Насколько я понимаю, 💫Apple Intelligence✨ обещался работать только с английским языком (хотя в фильтрации данных про отбор ни слова), потому большой словарь не нужен — 100к это даже перебор.
5. Сначала тренировали AFM-Server на 6.3T токенов, а вот малую модель получали интересной дистилляцией из этой модели. Следите за руками: I) инициализируем модель на 6.4B параметров (в 2.5 раз больше малой) II) учим её с нуля также на 6.3T токенов (много) III) накидываем поверх маску, определяющую, какие размерности из FFN-блока брать (MHSA не трогают) IIII) учат маску на 188B токенов; в этот момент наименее важные размерности, несущие самые мелкие детали, которые так и так в мобильную модель не влезут, откидываются V) дальше убирают эти веса по маске так, чтобы осталось нужное кол-во параметров (определяют по норме весов) VI) тренируют дальше 6.3T токенов с функцией потерь на дистилляцию, которая сочетает в себе и предсказания старшей модели-учителя, и реальный текст по формуле 90% * (топ-1 предсказание учителя) + 10% (оригинальный текст)
6. Идея здесь такая, что если текст очень глупый и неоднозначный, то есть в нём много энтропии, то тогда модель-учитель не угадает слово, а модель-ученик не получит шумный сигнал. А если топ-1 предсказание учителя и оригинальный текст сходятся, то и разницы нет. Вот например 2+2= можно продолжить однозначно (4), а "Привет, " — хрен пойми как. Может Вася, может Петя, может друг — какой смысл штрафовать модель за угадайку? Схожий подход был в статье про математику (ну и вообще распространён в дистилляции), это улучшает эффективность обучения — читайте разбор тут.
7. Суммарно эти приседания дают + 0-2% в среднем на бенчмарках, и аж +5% и +3% на MMLU и GSM8k. Недурно!
8. Сверху обоим моделям (серверной и мобильной) насыпают ещё по 1 триллиону самых высококачественных токенов, чтобы выходная модель получилась умничкой. Дистилляции тут уже нет — она не помогает, согласно замерам авторов.

Читать полностью…

Сиолошная

Давайте поговорим про развитие и приобретение навыков.

Я понял, что достаточно давно не проходил какие-то курсы, а нетехнические — так вообще вечность. Уверен, в канале есть огромное количество людей, которые то и дело находят и проходят что-то интересное.

Кидайте в комментарии курсы/преподов/схожие активности, которые потенциально релевантны нижнеперечисленным топикам:
— ML/DS, уровня Advanced
— Software Engineering, уровень Middle+
— Бизнес-английский (B2+)
— письменная коммуникация на английском
— (преподы с Italki/других платформ тоже подходят, если вам прям понравилось)
— софт-скиллы, релевантные в DS (эффективная коммуникация, менеджмент проектов/команды, etc.)

(предпочитаемый язык материалов — английский)
((платные или бесплатные — без разницы))

===

Я поделюсь одной ссылкой, которую сам недавно нашел:
https://raytracing.github.io/ , Ray Tracing in One Weekend — The Book Series. С нуля шаг за шагом разбирается вопрос трассировки лучей для получения реалистичных отражений/освещения, по нарастанию уровня сложности, на С++. Самое интересное — это оптимизации, которые применяются для ускорения, потому что если считать всё по честному, то будет крайне медленно (никаких 240 кадров в секунду в играх). Написано очень дружелюбно и понятно. Если хотите понять, насколько может быть интересным — гляньте вот это видео.

Главное правило: вы должны либо сами быть знакомы с материалом, которым делитесь (то есть если это курс, то проходили его), либо знаете обратную связь из первых рук от ваших друзей или близких коллег. Например, я прочитал и закодил первую главу из трёх из своей ссылки + смотрел (дважды) прикреплённое видео — и реально могу рекомендовать.

Альтернативный пример: курс по интерпретируемости трансформеров, оч понравились домашки (я про него уже писал).

Читать полностью…

Сиолошная

На неделе CEO OpenAI Sam Altman опубликовал в The Washington Post колонку «Who will control the future of AI?», которая во многом совпадает с нарративом недавно уволенного Leopold Aschenbrenner (про безопасность, национализацию AI и гонку с авторитарными режимами). Напоминаю, что главный вопрос не «верю ли я, что AI будет развиваться и интегрироваться повсеместно?», а «верит ли в это государство, и может ли оно себе позволить риск прощёлкать потенциал?»

Полный текст (без пейволла) доступен по первой ссылке в посте, ниже — несколько цитат, о чём думает Sam:

> Если мы хотим, чтобы будущее ИИ было построено на благо как можно большего числа людей, нам нужна глобальная коалиция стран-единомышленников под руководством США и инновационная стратегия, чтобы это произошло. Государственному и технологическому секторам США необходимо правильно решить четыре важные задачи, чтобы обеспечить создание мира, основанного на демократическом видении ИИ (прим.: под демократическим подразумевается, что этот инструмент не использовался диктатурами в своих корыстных целях)

> Наше нынешнее лидерство в области ИИ <...> облегчит вовлечение большего числа стран в эту новую коалицию (прим.: совпадает с позицией Leopold: давайте сначала покажем «бомбу», а потом запретим её делать другим, и заставим сотрудничать)

> Американские политики должны работать с частным сектором для создания значительно большего количества инфраструктуры — от центров обработки данных до электростанций, — на которых будут запускаться сами ИИ-системы

> Создание этой инфраструктуры также создаст новые рабочие места по всей стране. Мы являемся свидетелями рождения и развития технологии, которую я считаю столь же важной, как и электричество или Интернет. ИИ может стать основой новой промышленной базы, которую было бы разумно принять в нашей стране

> Нам, как нации, необходимо взращивать и развивать следующее поколение новаторов, исследователей и инженеров в области ИИ. Они — наша настоящая суперсила

> Проблема того, кто возглавит развитие ИИ, заключается не только в экспорте технологий, но и в экспорте ценностей, которые вплетены в саму технологию

===

Напомню, какие книги читает CEO конкурирующей лаборатории и какие советует «так как они позволяют увидеть параллели с происходящим в ИИ»: /channel/seeallochnaya/1290

🤔 начался ли уже Новый Манхэттенский проект?

Читать полностью…

Сиолошная

Там Твиттер по умолчанию включил всем пользователям галку на согласие предоставлять твиты и инфу на обучение их Grok'у. Многие пошли отключать. Да и в целом частое явление, когда люди отключают телеметрию и отказываются отсылать фидбек о работе с софтом. Но вот вам мем на тему.

Система: сообщает, что будет отсылать телеметрию для улучшения продукта.
Умные пользователи: отключают телеметрию.
Система: получает телеметрию от глупых пользователей.
Разработчики: изменяют систему, основываясь на телеметрии от глупых пользователей.
Умные пользователи:

#мемы

Читать полностью…

Сиолошная

Первая пошла

https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/

Система решила задач на 28 баллов из 42 (4 задачи из 6), золотая медаль от 29 (людей с баллом 29+ всего 58 из 609 участников)

Статей с деталями пока нет(

Читать полностью…

Сиолошная

Новая статья от OpenAI (блог, pdf)

Предлагается метод для формирования награды во время обучения на основе правил (Rule Based Reward, RBR): формулируются функции для желаемого или нежелательного поведения (например, отказы не должны носить осуждающий характер). Награда - это некоторое число или набор чисел, которые модель старается максимизировать во время обучения (то есть что-то, что несёт положительный сигнал). Самая простая награда - "ответ не содержит оскорблений": даём +1 балл.

В отличие от предыдущих методов, использующих обратную связь (от человека или LLM), этот метод использует детализированные многоступенчатые промпты, что приводит к большему контролю, точности и простоте обновления.

Главный результат — получаемая модель становится более полезной и при этом безопасной, то есть реже отказывается от того, от чего не нужно, и чаще отвечает на запросы, которые могли показаться нарушающими правила, но таковыми не являются. На графике это изображено как попадание модели в верхний правый уголок.

И да, этот подход использовался при дообучении GPT-4o (и большой, и mini).

Детальный разбор мб позже сделаю.

Читать полностью…

Сиолошная

Вышел анализ доходов и расходов OpenAI от авторитетного издания The Information. Он основывается на ранее нераскрытых внутренних финансовых данных и информаторах, участвующих в бизнесе.

В этом году компания может потерять до 5 МИЛЛИАРДОВ долларов. Если в анализе нет крупных ошибок, то скорее всего OpenAI потребуется привлечь больше средств в ближайший +-год. Но обо всём по порядку:

— человек, непосредственно знакомый с расходами на железо, сказал, что на март 2024-го OpenAI планировали потратить на аренду серверов для ChatGPT $4B. Сюда входит только применение уже готовых обученных моделей для поддержания сервиса (включая распознавание голоса, генерацию, итд)
— суммарно кластеры для ChatGPT, со слов источника, примерно эквиваленты 350'000 видеокарточек A100, и из них ~80% идут напрямую на ChatGPT. Microsoft берёт по $1.30 в час за одну карту A100 — это большой дисконт: сейчас при заключении трёхлетнего соглашения на аренду на Azure средняя цена $1.7 (на год — вообще $2.82)
— однако плановая выручка за этот год, если помните мой прошлый пост, составляет примерно $3.5B (с учётом роста $4.5B), то есть почти окупает эту часть затрат. Но ведь это не всё...
— в дополнение, расходы на сервера для тренировки моделей оценивались ещё в $3B 😨 И это охренеть как много — сами OpenAI планировали потратить всего $800M, но по непонятной причине раздули бюджет. Может, обучение стало приносить меньше плодов, и нужны инвестиции покрупнее, а может наоборот, стало ясно, что вот если раза в 4 увеличить, то станет конфеткой. В любом случае модель следующего поколения будет куда дороже предшественников и того, что мы наблюдаем у META 😅
— плюс, есть расходы на персонал. В компании работает примерно 1'500 человек, и с учётом стремительного роста (в конце 2023-го было ~900), офисы-зарплты-кофе-то-сё, это ещё миллиард-полтора. А ведь на сайте числится больше 200 открытых вакансий...
— итого суммарно за год компания сжигает $8.5B — беспрецедентная сумма, которая кажется гигантской на фоне последнего раунда инвестиций от Microsoft в размере $10B. И тут ещё не учтено, что вообще-то планируется пустить трафик от Apple iPhone на ChatGPT, и количество запросов, а равно и траты, прыгнут вверх
— итого, ~$8.5B потратят, ~$4.5B получат, чистые потери составят $3.5-4.5B. Хорошо, что по договорённостям OpenAI платят своим инвесторам долю от прибыли (которая равна 0)
— у конкурентов не так, например, Anthropic планирует потратить $2.5B на кластера, а выручка у них $800M, да часть ещё и уходит Amazon. Так что их потери могут быть где-то $2B, что в абсолюте меньше, но как доля от выручки существенно больше. Да ещё и инвестиций не так много

И бонус:
— на данный момент не известен размер тренировочных кластеров OpenAI, которые используются для обучения модели следующего поколения (уже запущено, анонс планируется до конца года), однако на первый квартал 2024-го это было 120'000 A100 — до того, как Microsoft должна была предоставить OpenAI гораздо больше серверов для учебных целей.
GPT-4, напомню, училась на 25'000 карт, LLAMA-3-405B — на 16'000 (но более мощных).

Читать полностью…

Сиолошная

Модели META также стали доступны у множества провайдеров. Вот сводная табличка всех цен для удобства.

Зелёным выделил выгодные цены для младшей модели на 8B и самой большой на 405B. Они потенциально являются конкурентами моделей GPT-4o mini и GPT-4o.

Цены указаны за миллион токенов (~0.75 слова) и делятся на вход — сколько в промпте — и на выход, сколько нужно генерировать. Для каких-то задач важнее длинный промпт, а сама генерация буквально 1 строчка (или даже одно слово), для других наоборот, генерация куда длиннее.

Для сравнения цены OpenAI:
— $0.15/$0.6 за младшую модель
— $5/$15 за полноценную

А если вам не нужно получать ответы моментально, то OpenAI предоставляют Batch API: вы закидываете файл с запросами (можно делать цепочки сообщений), ждёте до 24 часов и платите лишь половину цены. Идеально для генерации синтетических данных / разметки малоприоритетных запросов. У других провайдеров такой сервис отсутствует.

Итого выходит, что сравнимые цены лишь у самых демпингующих игроков (не ясно, работают ли они в минус, в ноль или зарабатывают), но только если нужно получать ответ быстро.

Интересно ещё, какие провайдеры разворачивают модель в 16-битной конфигурации, а какие довольствуются FP8-квантизациями. Это важно, так как хоть немного, но влияет на качество (об этом даже сама META пишет в статье).

Так что может быть такое, что те, кто продаёт доступ к модели дешевле всех, на самом деле выдают качество чуть хуже, и лучше делать сравнение. По своему опыту знаю, например, что DeepInfra (не представлено на слайде) точно ужимают модели — стабильно на пару процентов просадка относительно других.

Выводы: GPT-4o всё ещё актуальна по цене, как малая, так и большая версии. Особенно если с запросами торопиться не нужно, или если языки отличаются от официально поддерживаемых.

Читать полностью…

Сиолошная

Поехали

https://llama.meta.com/

Метрики из вчерашнего слива оказались правдивыми

Читать полностью…

Сиолошная

Помимо демо голосового режима GPT-4o, также появляются первые примеры работы свежеанонсированной SearchGPT. Принёс вам 3 поисковых результата для запросов, на которых погорел Google. Но так как демок мало, то не ясно, работает ли это в целом лучше/более надёжно и адекватно, или же для этих глупо-очевидных виральных случаев OpenAI просто оставили заплатку.

Тем не менее, SearchGPT:
— не рекомендует принимать ванну с тостером (лучше обратиться к службе поддержки и поговорить за жизнь). Обратите внимание, что у модели есть доступ к вашей геолокации, и потому ответ получается персонализированным — номер телефона указал для Великобритании
— говорит, что камни есть нельзя. Жаль, я поверил Гуглу и начал наворачивать по 2 в день 😢

— и на второй картинке вот даже предлагает адекватные способы приклеивания начинки к пицце, а не клей. Ещё кекнул с автоподсказки в поисковой строке 😁

Источник

Читать полностью…

Сиолошная

Несмотря на дешевость и простоту конструкции, она позволяет копировать точные, плавные и ловкие движения.

Вот демо, где берутся маленькие затычки для ушей и упаковываются в защёлкиваемую коробочку, которая затем перекладывается в контейнер.

В правом верхнем углу показано то, что транслируется в VR-шлем оператору (который может сидеть хоть в другой стране).

Ждём, пока соберётся критическая масса данных, чтобы обучать роботов из демонстраций.

Читать полностью…

Сиолошная

👏 Официально начался альфа-тест нового голосового режима GPT-4o (который показывали весной) Пока его выкатили на очень маленькую группу пользователей — они должны получить письмо счастья на почту с инструкциями. А если вы обновите мобильное приложение, то увидите уведомление, так что не пропустите. Мне вот пока не упало( Но ничего — постепенно будут добавлять больше пользователей, и общий запуск без ограничений планируют на осень.

Почему вышла такая задержка? Со слов OpenAI, обезопасить голосовой режим оказалось сложнее, чем они ожидали. Джейлбрейки и просто неадекватные голосовые промпты сильно ломали модель, заставляли её сходить с рельс, а не в отказ — и она начинала отвечать всё подряд, что от пользователей пытаются спрятать (от оскорблений до рецептов изготовления бомб).

Чтоб вы понимали масштаб — OpenAI провели тестирование на 45 языках с более чем 100 внешними экспертами.

Всего будет 4 голоса — легендарную Sky (пока) не вернули. Плюс, модели запретили говорить другими голосами/мимикрировать их — чтобы не плодить фейки. С этим, как понимаю, тоже возникли проблемы, ибо теоретически GPT-4o может выдавать любой звук.

Хвастайтесь в комментах, кому повезло!

[ распознавание видео с экрана/запись с камеры включат позже, сейчас только голос начинают катить]

Читать полностью…

Сиолошная

Вчера META выпустили модельку SAM 2, развитие идей первой версии Segment Anything — только теперь быстрее, качественнее и с фокусом на видео! К сожалению, пропала возможность писать промпты текстом (хоть для первой версии её и не релизили — видимо, менее актуально).

С архитектурной точки зрения это трансформер, обрабатывающий кадры независимо и параллельно, с дальнейшим применением блока памяти (чтобы связать кадры уже последовательно). По сути, он просто хранит предсказания для последних N кадров, что помогает сформировать предсказания (и сделать их более точными, например, учитывая движение) для N+1-го.

Но, как и в первой версии модели, самая интересная часть — это движок, отвечавший за сбор данных. Тут классический пример, как мощные модели помогают порождать ещё более мощные через псевдоразметку и корректировку людьми. Сначала применяется модель первого поколения на каждый кадр, после чего каждый 6й кадр корректируются человеком. На этом этапе нет никакого трекинга объектов между кадрами — он появляется на следующем этапе.

А дальше 2 раза делается итерация обучить на разметке -> применить модель ко всем видео -> скорректировать вручную -> ... . Так как модель становится качественнее, то сокращается время на разметку — в 5 раз между первым и последним проходами. И на этих этапах уже есть блок памяти, который делает предсказания для промежуточных кадров (которые людям и приходится исправлять).

По итогу вышло разметить 196 часов видео / 51к роликов — люди проставили вручную 10 миллионов масок объектов, и ещё 25.5М сделала сама модель. Это существенно больше, чем любые другие датасеты с сегментацией объектов на видео, так что и прирост качества ощутимый — тупо из-за масштаба. Сами данные, кстати, опубликованы — как и модели.

Статья, код

Интересно, что первый автор оригинального SAM, Alexander Kirillov, ушел из META чтобы лидить команду мультимодальных моделей в OpenAI 🤓 ждём новоприбывших и из этого проекта 🤣

Читать полностью…

Сиолошная

Но что более важно — модель хорошо работает с инструментами (на девайсе это её основная задача вообще в ближайшем будущем!).

Инструменты — это когда модели дают набор функций в духе определить_погоду(город) или позвонить(контакт), а затем для набора запросов проверяют, как хорошо она выбирает, какую именно функцию нужно вызвать и с какими параметрами. По сути, модель тут и как классификатор, и как извлекатель сущностей работает.

Вот вы говорите Siri «Эй, переведи моей матери 500 рублей», она переводит это в money_transfer("Мама", 500), а затем вызывает приложение, которое отвечает за транзакцию. Именно в этом и будет обещанная магия.

Читать полностью…

Сиолошная

9. Тренировка осуществлялась на 8192 чипах TPUv4 у Google
10. Дальше начинается шаг обучения ценностям. Тут используется два новых метода, но в целом подход идентичный тому, что делают все — сначала натренировать выполнять инструкции, а затем оптимизировать качество ответов по человеческому ощущению, какой из N ответов лучше. Для математики, программирования и подключения инструментов генерировали синтетические данные (которые можно программно проверять).
11. Как и предполагалось, разные части функционала будут добавляться с помощью легковесных адаптеров (тренированные LoRA), каждый по 5-50 мегабайт. По сути это такие маленькие наборы матричек, которые лишь слегка и в определённых местах меняют значения в нейронке, и как следствие управляют её поведением. Их легко переключать на лету, грузятся они очень быстро, и для улучшения качества в простых задачах прям тема.
12. Финальные модели квантизуются меньше чем в 4 бита на параметр, и Apple даже хвастается, что это SotA подход, так как деградация качества минимальна. Восстановление качества делается..тоже через LoRA. Они как бы будут включены всегда по умолчанию, и когда разработчику потребуется натренировать что-то своё, то нужно брать модель со включенными адаптерами. Адаптеры имеют разные размеры, с рангами 8, 16 и 32 — для разных юзкейсов. Чем больше ранг, тем меньше падение качества, но и тем больше накладные расходы. Соответственно, фишка в том, что модель сжимается сильно, а адаптеры не сжимаются, и их подключение на лету позволяет восстановить большую часть оригинального качества, как будто модель не квантизовали.
13. Хвастаются, что очень эффективно используют свой чип Apple Neural Engine (ANE), чтобы была максимальная утилизация для конкретно их модели. Удобно, когда ты и чипы делаешь, и модели — и всё на сотню миллионов пользователей. Но детали тут уж очень специфичные (про раскладывание констант квантизации в палетты в памяти).

Читать полностью…

Сиолошная

Вопрос на ночь.

Как по вашему, какие способности должны продемонстрировать модели, чтобы С ВАШЕЙ ТОЧКИ ЗРЕНИЯ государство поняло значимость AI, и начало инвестировать деньги, сравнимые с Манхэттенским проектом (27 миллиардов долларов в ценах 2023-го года, за 4+ года)?

Ну то есть понятно, что нелогично запрыгивать в самом конце - уже не догнать. Нельзя проворонить момент - слишком важно иметь технологию около-AGI (в значении "может автоматизировать двузначные проценты экономики"), если она возможна, или такую, которая ускоряет передовые научные исследования.

(А перед тем как писать свой ответ, задайте себе дополнительный вопрос: а не поздно ли это? не имеет ли смысл вкинуть деньги чуть пораньше?)

Просьба, будьте максимально точны в формулировках и критериях.

Читать полностью…

Сиолошная

В тиктоке постепенно нормализуется мысль «скопируй вашу переписку в ChatGPT и спроси совета». Я специально сходил к ней в аккаунт, почитать комментарии и там обычные люди не из ИТ-бабла, из глубинки США:

Почти все в восторге и скармливают скриншоты переписок с парнями для советов о том как лучше поступить / валидировать чувства

Мне кажется, когда в iOS у каждого американца появится доступ к ChatGPT, мы еще офигеем с вами от того какие применения ей найдут «в народе»

Если честно, я сам пользовался пару раз ChatGPT для разбора ситуаций в отношениях и планирую так делать дальше: помогает, когда кажется, что я поступил не очень и можно было бы быть получше как партнер

ChatGPT настолько хорошо понимает наши социальные проблемы и сами проблемы настолько оказались простыми, что даже AGI не нужен для этого, лол

Читать полностью…

Сиолошная

Как написали во всех других пабликах вчера, OpenAI наконец-то анонсировали новый продукт — SearchGPT. Это улучшенная версия того поиска, который ChatGPT делает под капотом уже сейчас, когда считает нужным, чтобы ответить на ваш вопрос.

Пока не ясно, в чём ключевые отличия, но сделаю предположения:
— собственный поисковый индекс, а не переиспользование Bing (видел пару ликов про это, да и их парсинг-бот уже все сайты обдолбил)
— ранжирование, основанное на качестве источника и его достоверности
— в том числе, приоритетное использование партнёрских материалов: те, кто договорился с OpenAI и выдал доступ ко всем своим статьям
— полноценное использование мультимодальной GPT-4o, чтобы анализировать картинки (и мб видео) при выдаче
— потенциально отдельно дообученная GPT конкретно на задачу цитирования и перефразирования источников (то есть не модель общего назначения, а под один сценарий)
— в будущем стоит ожидать развития агентов, которые будут сёрфить куда больше страниц, анализировать сопутствующую информацию глубже, и возвращаться с ответами получше

А пока OpenAI повторили путь Google — и я не про запуск поисковика (с просадкой акций корпорации на 3%, лол), а про...ошибки в поиске. Помните был мем, что в презентации генеративного поиска в прошлом году LLM ошиблась и написала чепуху? Так и тут, 1 — первый! — из 5 мероприятий в ответ на запрос про музыкальные фестивали в августе оказался неправильными. Он заканчивается в июле, что и написано на сайте — GPT просто не туда посмотрела.

===Цитата из анонса:
Мы стремимся к процветанию экосистемы издателей и авторов. Мы надеемся помочь пользователям находить сайты и предложения издателей, одновременно предоставляя новый пользовательский опыт. На протяжении десятилетий поиск был основным способом привлечения пользователей для авторов и издателей. Теперь мы используем искусственный интеллект, чтобы улучшить этот опыт, выделяя высококачественный контент в диалоговом интерфейсе со множеством новых возможностей для взаимодействия с пользователями.
===

Пока что доступ к продукту сделан через список ожидающих, зарегистрироваться можно тут — случайно выберут 10к человек и пришлют письмо. В будущем же такой поиск может быть интегрирован в ChatGPT для всех.

Читать полностью…

Сиолошная

SGLang — еще один фреймворк для сервинга LLM

Помните vLLM? Его выпустили люди, причастные к LMSYS Arena, 20 июня 2023 (чуть больше года назад!)

Тогда vLLM пришел на замену TGI от huggingface и принес PagedAttention, механизм, который эффективно работал с памятью для KV cache, что позволило увеличить throughput в несколько раз

С тех пор произошло несколько интересных моментов:
1. TGI поменял лицензию с Apache 2.0 на платную
2. vLLM стал более-менее стандартом индустрии
3. Появился новый игрок от NVIDIA — TensorRT-LLM с поддержкой FP8 и бэкендом для тритона
4. В TRT-LLM завезли KV cache reuse, который нам ускорил инференс на несколько десятков процентов
5. TGI вернули Apache 2.0 (pathetic 🤒)

В целом, во все фреймворки быстро завозили новые модели (мистраль, mixtral, phi, qwen, etc), новые фишки (cache reuse, fp8, speculative sampling, In-flight Sequence Batching, etc).

Эвристика для выбора движка была примерно такая:
🟡 Хочешь быстро и просто — используй vLLM
🟠 Хочешь очень быстро и сложно — используй TRT

Теперь у нас новый сервинг от LMSYS:
1️⃣ user-friendly
2️⃣ easily modifiable
3️⃣ top-tier performance

ТО ЕСТЬ 👆👆👆
1. Запускать можно также просто, как и vLLM
2. Все легко можно настроить и захакать, потому что все на python и в опен-сорсе
3. По скорости также, как и TRT-LLM

Читать полностью…

Сиолошная

Будет ли что-то вечером?

1) Jimmy Apples, инсайдер OpenAI, твитнул странное «Нечто витает в воздухе..что-то...математическое...»
2) The Verge написали, а потом удалили, новость о том, что Google DeepMind выпустили AlphaProof, систему (и статью) для решения математических задач, и она решила 4 из 6 задач на международной олимпиаде по математике 2024-го года
3) OpenAI неделю назад публиковали статью по математике
4) внутри OpenAI было демо системы Strawberry, которая якобы делает прорыв в решении математических задач и рассуждениях/доказательствах

😪 ни дня без отдыха

Читать полностью…

Сиолошная

😳 какой-то урожайный сезон — новая моделька от Mistral 🇫🇷, Large 2 (на 123B параметров)

1) 128K контекст (как у LLAMA-3.1)
2) Поддержка языков: Английский, французский, немецкий, испанский, итальянский, португальский, голландский, русский, китайский, японский, корейский, арабский и хинди
3) прокачали математику и программирование — на картинке метрики для разных ЯП на бенчмарке MultiPL-E
4) также, как и в LLAMA-3.1, улучшили следование инструкциям и использование инструментов
5) лицензия не позволяет коммерческое использование, но можно свободно заниматься исследовательской деятельностью

Блог
Модель на HF 🤗

Возможно, моделька потеряется на фоне релизов LLAMA (кроме мб программирования). Она слишком большая для локального использования, а в API есть LLAMA побольше и покачественнее, и поменьше но подешевле, ну и OpenAI никуда не делись. Зато на La Platforme можно будет теперь запускать дообучение. Цена у самих французов $3 и $9 за миллион токенов на входе/выходе — СИИИИЛЬНО больше 70B LLAMA, и совсем немногим дешевле GPT-4o.

Читать полностью…

Сиолошная

А ещё! OpenAI добавили сегодня возможность дообучения GPT-4o mini. Раньше такое было доступно была лишь для серии GPT-3.5-turbo, для 4-ки функция находилась в ограниченном экспериментальном режиме.

Дообучение полезно, когда вам нужно подправить поведение модели (но не её знания). Обычно я предлагаю такую аналогию: мы как бы сжимаем инструкции в промпте в обучаемые параметры. Это позволяет не писать длинный детальный промпт каждый раз, и как следствие экономить на токенах, а возможно даже повышать качество.

В чем подвох? Запросы к такой модели стоят дороже, ведь OpenAI должны хранить копию дообученной модели отдельно специально под вас.

Цена подпрыгивает ровно в 2 раза:
— $0.15->$0.3 за миллион входных токенов
— $0.6->$1.2 за миллион генерируемых

Так что если генерация меньше промпта, а сам промпт достаточно длинный, и за счёт дообучения большую его часть можно опустить — то будет выгода. Другая опция — вам нужно делать обработку в фоне, а не в реальном времени: Batch API доступно и тут! И да, оно возвращает цену к исходной, деля её на 2.

В других случаях лучше продолжать пользоваться общедоступной моделью.

А теперь внимание — бонус! Дообучение будет БЕСПЛАТНЫМ для всех пользователей 4-5 тиров до 23-го сентября! То есть вы можете ничего не потратить на итерации тренировки, а затем за пару баксов потестировать, как оно стало, лучше или хуже? А если результат понравится — переехать. Думаю, для части задач переход с 4o на 4o mini может быть разумным — разница в цене космическая. Для верности можно прогонять дообученную модель 3 раза — это всё равно будет раз в 5 дешевле 😃

Документация к дообучению — тут, там всё просто, не нужно знать машинное обучение.

Читать полностью…

Сиолошная

Ссылка на техническую статью с описанием процесса разработки: PDF

Пост будет обновляться тезисами из неё:
— Тренировка самой большой модели потребовала 3.8 × 10^25 FLOPs — примерно в полтора раза больше, чем оригинальная GPT-4, но ниже планки регуляторов США в 1.0 x 10^26 в 3 раза
— для улучшения метрик в программировании использовали много синтетики и переводов между разными языками программирования
— проводят анализ того, насколько метрики в бенчмарках завышены из-за присутствия данных в тренировочной выборке, и как это влияет на метрики. Правда для самых расхожих бенчмарков типа MMLU оценку дать не смогли, так как повторений уж слишком много (там зачастую общие вопросы, например, про историю — ну как тут фильтровать?)
— анализируется FP8-квантизация 405B модели, рекомендуется не трогать первые слои (они самые чувствительные)
— в FP8 должно влазить на 640 гигабайт VRAM (то есть 8xH100/A100), но с маленьким батчом и контекстом

Читать полностью…

Сиолошная

Вы знаете, у меня в канале нет ни рекламы, ни упоминания чего-то, с чем я не взаимодействовал/что я не читал до этого. Продолжаю эту традицию, и хочу привлечь ваше внимание к вот такой вакансии на Senior Backend Engineer (с готовностью вкатываться в AI) в Explee.

Стартап делается силами Алекса Катаева (ex-CTO Skyeng) и Харитона Матвеева (ex co-founder Skyeng). Я с ребятами встречался пару раз, и немного общался в личке, и всё что они спрашивали было мега адекватным — такие вопросы по LLM не каждый инженер не то что спросит, а даже поймет.

Сама вакансия: https://jobs.explee.com/backend-engineer/

Explee — потенциальный конкурент Perplexity, тоже делают веб-поиск с LLM-ками, но с куда бОльшим контекстом и глубиной проработки. Примеры ответов на три вопроса вы можете найти на странице вакансии. А вот мой запрос про бенчмарки для LLM-агентов и основные проблемы. (сервисом пока не получится пользоваться, ждите запуск через N недель)

===

Compensation: $7,000/m – $10,000/m, equity 0.1% – 0.4%, удалёнка, но команда иногда встречается в EU на виллах.

Уверен, в канале есть люди, которые подходят под жёсткие (но справедливые и понятные) требования, и буду рад, если получится кому-то помочь найти клёвую команду.

Читать полностью…
Subscribe to a channel