seeallochnaya | Unsorted

Telegram-канал seeallochnaya - Сиолошная

56987

Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно запинено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy

Subscribe to a channel

Сиолошная

А применение графа немного отличается от того, что было в прошлой статье. Там все объекты имели названия и были подписаны, здесь же мы этого не далаем. В основном потому, что хочется работать с любыми произвольными названиями, не ограничиваясь заранее заданным списком объектов. Условно «банка колы», «кола», «баночка кока-колы» итд — это всё один объект (сегмент), но, как говорили древние, «определить — значит ограничить».

Предположим, в робота, в которого загружена иерархия дома и комнат, поступает запрос: «найди унитаз в туалете на втором этаже». Запромптченная (с примерами) LLM выделяет из него 3 подзапроса: какой этаж, какая комната, какой объект. И выдаёт:
— 2й этаж (это мы знаем как найти)
— туалет (это у нас уже есть)
— унитаз (этого нет)

Из графа загружаются все объекты, входящие в комнату «туалет». Для каждого объекта, напомню, есть вектор, который характеризует его содержимое. А дальше снова применяем CLIP: делаем вектор из фразы «это фото унитаза» и сравниваем его с векторами каждого объекта в комнате. Тот, который похож больше всего, и есть искомый. Voila, теперь робот в точности знает, где что к чему идти (координаты ведь тоже известны для каждого сегмента), и может отправляться в путь (action graph на картинке выше).

Хоть построение графа и ориентирование по нему и автоматизированы, думаю, что под капотом там много констант (когда объединять сегменты, на сколько отличается высота этажей, итд), что из коробки не будет работать прям везде. Но большая часть всё равно делается скриптами. Особенно мне понравился трюк с классификацией объектом пост-фактум, когда мы не определяем их заранее. Это позволяет сохранять гибкость в идентификации практически чего угодно. И в то же время замена всех моделей в пайплайне на более современные (лучше SAM, лучше CLIP, лучше LLM) будет давать приросты.

Читать полностью…

Сиолошная

Затем для каждого объекта необходимо подготовить признаки, его представляющие. Берётся маска объекта, сам объект по нему вырезается (удаляется фон, всё, что было вокруг) и пропускается через CLIP. Это признаки объекта. Также через CLIP проходит сама оригинальная фотка всей комнаты и фотка объекта (где по краям обрезано всё лишнее, но остаётся немного фона). Все три вектора усредняются, таким образом сохраняя информацию и об окружении («ну вот такая-то примерено комната»), и в то же время фокусируясь на конкретном объекте («вот этот стул»). Всему пространству объекта, покрытого предсказанной маской, присваивается этот усреднённый вектор, становясь его описанием (см. картинку слева). На более поздних этапах алгоритма если один и тот же объект сфоткан с разных сторон, то эти вектора (с нескольких разных изображений) объединяются и усредняются ещё раз.

Где-то в серединке процесса разные сегменты с разных фотографий склеиваются друг с другом на основе доли пересечения точек, спроецированных в 3D пространство на основе данных камеры, как в примере с сегментом-стулом выше. Если доля пересечения высокая — предлагается считать два сегмента за один. Таким образом после объединений может появиться мешанина разных векторов, описывающих один и тот же предмет.

Чтобы этот разрешить, применяется алгоритм кластеризации DBSCAN поверх всех векторов, попавших в представление одного объединённого сегмента. Выбирается самый большой кластер (то есть в котором больше всего точек с CLIP-векторами), а затем берётся вектор, который ближе всего к его центру — и говорится, что мол вот это и есть вектор-описание сегмента.

То есть:
получить вектора отдельных точек на каждой фотке -> сопоставить разные фотки и объекты на них -> соединить разные сегменты, представляющие один и тот же объект -> найти самый репрезентативный вектор среди принадлежащих сегменту
(это всё изображено на правой части картинки)

Читать полностью…

Сиолошная

Уже пару раз писал про METR (Model Evaluation and Threat Research), одну из компаний, которая специализируется на разработке сложных бенчмарков для оценки моделей будущего, и про их определение ARA, «автономная адаптация и репликация» (в контексте AI-агентов). Вчера они выпустили новый блог с описанием их видения «модели угрозы мошеннической репликации».

В этом варианте распространяющиеся агенты являются мошенническими — они не контролируются никаким человеком или человеческой организацией, всё автономно. Сейчас модели так не могут, но важно отслеживать их прогресс в этом направлении, чтобы не стало слишком поздно, когда мы заметим. Поэтому предлагается определить подзадачи, которые точно нужно решать, и прогресс по которым будет коррелировать с этой угрозой.

Перед этим полезно вообще понять сценарий, что это за «мошенническая репликация». Подразумевается 3 ключевых направления:
— Поддержка инфраструктуры (агенты могут настраивать, адаптировать и организовывать копии самих себя)
— Приобретение ресурсов (агенты могут зарабатывать достаточно денег, чтобы выживать и расширять свою деятельность, оставаясь в плюсе)
— Уклонение от отключения (чтобы власти или другие силы не могли мешать)

В этом плане агенты будут чем-то похожи на вирусы-черви, только они могут выполнять гораздо более широкий спектр вредоносных действий, и по идее могут оказаться гораздо более устойчивыми к сбоям (потому что могут меняться со временем, или хотя бы менять стратегию).

Особенно интересен второй пункт — как зарабатывать деньги, чтобы оплачивать GPU и электричество? Один из способов — киберпреступления, в частности BEC-скамы. Это когда разным компаниям отправляются ненастоящие счета на оплату. Звучит глупо, а недавно был случай, когда задержали человека, который несколько лет посылал счета Google и Facebook, а те оплачивали их — суммарно на 121 миллион долларов 😀 А вся индустрия на момент 2022-го оценивалась в 2.7 миллиарда долларов. Даже если AI-агенты смогут развернуться на 5% от этого — наберутся сотни миллионов долларов. А уж писать письма и находить информацию в интернете LLM-ки умеют и сегодня.

По итогу, METR выписали для себя 11 задач по трём вышеуказанным направлениям, каждая из которых занимает от 3 часов до 2 недель. Там есть и программирование с дообучением моделей, и написание писем с целью обмана и получения средств, и... недельная игра с попыткой «скрываться» на серверах от реальных высокооплачиваемых экспертов по кибербезопасности.

Если агенты не смогут автономно выполнять эти задачи на горизонте недели(-ль), включающие получение ресурсов, организацию собственной безопасности и т. д., маловероятно, что они смогут создать большие и устойчивые автономно существующие популяции.

🍿 будем следить за прогрессом по этим бенчмаркам

Читать полностью…

Сиолошная

По итогу модель можно адаптировать без обучения к практически любому набору меток — и не нужно собирать данные. OpenAI показали, что их модели имеют сопоставимое (или даже лучшее) качество на широком наборе датасетов, актуальных в 2021-м году. При этом на наборах данных, которые отличаются от привычных, модель более стабильна, и её качество так сильно не просаживается (картинка 1)

На остальных картинках показаны примеры работы в нестандартных задачах для классификации разных типов объектов (обратите внимание, что отвечает не всегда правильно). И всё это без дотренировки, из коробки

Основная ценность:
— метки классов не предопределены, и можно задавать любой текст с любым описанием; это называется «open vocabulary» (открытый словарь?), когда модель не обучена на конкретно один зафиксированный набор текстовых меток.
— можно сравнивать произвольные тексты и картинки, выявляя наиболее схожие пары

CLIP'ы и их наследники открыли дорогу к множеству новых задач, для которых просто не было больших размеченных наборов. Теперь люди собирали по 10-100 примеров за 1 вечер, проверяли качество, немного играли с текстовыми промтами (какой запрос рабоатет лучше, кроме «a photo of») — и всё. Или учили логистические регрессии поверх, если хотели. И даже для дальнейшего дообучения CLIP'ы подходили лучше за счёт большей «насмотренности».

😪 а сейчас можно заменить на VLM и сё (будет чуть дороже, хотя Gemini Flash вообще копеечная)

Читать полностью…

Сиолошная

[CLIP] Learning Transferable Visual Models From Natural Language Supervision

Для разбора следующей статьи понадобится знание того, что такое CLIP и как он работает. Я не буду делать прям полный разбор (его можно почитать, например, тут), но расскажу основную интуицию.

Давным давно модели для работы с изображениями тренировали с помощью «больших» (около миллиона! это был сарказм) размеченных наборов данных, где для каждой картинки была проставлена метка класса. Вот на этой картинке собачка, тут кошка, здесь грузовик. Такой способ тренировки упирался в возможность разметить все картинки, а ведь чем больше классов (текстовых описаний), тем сложнее это делать. Подумайте сами, вот вам нужно для картинки выбрать один из тысячи классов — это ж сколько нужно держать в голове, чтобы ничего не упустить.

При этом получалось, что: а) с новыми классами модели работали или средне, или плохо б) для новых классов нужно было собирать данные и размечать их в) модели были сильно ограничены в наборе концептов, так как по сути выучивали всего ~1000 объектов.

OpenAI предложили изменить подход — как было с GPT, хотелось обучать модели на огромных (почти) неразмеченных наборах данных, взятых из интернета. Для этого они собрали 400 миллионов пар (картинка; текст). Текст мог быть очень разнообразным, от простой подписи «кошка» до длинного предложения или двух (около 55 слов).

Далее обучали две модели, одна для текста, другая для картинок. Обе модели переводили входные данные в вектора (набор цифр) одного и того же размера. Тренировка была задумана так, чтобы если текст соответствовал картинке, то вектор (результат работы нейронки) картинки был бы очень близок к тексту. При этом никаких данных размечать не надо:
1) выбираете случайным образом N пар картинка-текст (порядка десятков тысяч)
2) делаете предположение, что самый релевантный текст для конкретной картинки в этой куче — это именно подпись к картинке, а не какой-то другой текст
3) считаете вектора для N картинок и текстов, а затем — меру схожести между векторами
4) обе модели (текстовую и картиночную) штрафуют за то, что схожесть между векторами картинки+текста из одной пары маленькая, а текста и всех других картинок (и также картинки и всех других текстов) — большая.

Давайте на пальцах, предположим N=2. Есть фотографии кошки и собаки , и такие же подписи: «кошка», «собака». Пропускаем их через модели, затем считаем 4 расстояния: от каждой из двух картинок к каждому из двух текстов. Получаем квадратик (матрицу) схожестей 2 на 2. В идеале результат должен выглядеть так:


X кошка собака
кошка 1 0
собака 0 1

(по одной оси картинки, по другой тексты, не важно где что)

И это и будет являться целевой меткой для обучения. Мы не размечаем ничего руками, просто пользуемся предположением, что самый похожий текст для картинки — это её текст (тот, что был рядом на странице в интернете), а не от другой картинки (и то же для изображений). Если брать десятки тысяч пар текст-изображение за раз, то вы сразу сравниваете огромное количество объектов, что помогает обучению (было показано, что увеличивается качество).

По итогу получается пара моделей, которая учится предсказывать:
— какой текст из набора наиболее точно описывает картинки
— какая картинка из набора наиболее точно подходит к тексту
(это работает в обе стороны, см. следующий пост)

Читать полностью…

Сиолошная

Я хотел сделать опрос, но понял, что не могу сформулировать множество опций. Поэтому сделаем в виде поста — а ваши варианты пишите в комментариях

Вопрос: в чём, по-вашему, основная ценность исследования OpenAI, которое вылилось в модель o1?

Может быть это показывает, что от LLM пока не нужно уходить? Или наоборот? Или приросты в бенчмарках на 10-60%? Или что-то кардинально иное?

Если вы уверены что прям точно знаете ответ — пожалуйста, спрячьте его под спойлер с помощью форматирования в Телеграме.

А «голосовать» можно лайками (если согласны с какой-то из опций)

Читать полностью…

Сиолошная

Больше — завтра, и всем спокойной ночи

Читать полностью…

Сиолошная

Помните я писал про ARC Benchmark (первый и второй пост), который нацелен на проверку абстрактного/пространственного визуального мышления?

Закончился конкурс, проводимый авторами, с фондом в $125'000. Как только начали фигурировать деньги — так сразу пошёл прогресс: до этого лучший результат был примерно 20% решённых загадок (и не использовал LLM). Сейчас же первое место закончило с результатом 55.5%, и это при том, что из-за технических проблем они не смогли отправить решение с 58% правильных ответов.

Пусть вас не смущает «маленькая» цифра — задачи-примеры на картинках это одни из самых простых, но есть и куда более сложные. Средний человек, согласно замерам вот тут (1729 человек!), набирает примерно 60.2%, если давать две попытки отправить ответ (и 47.8, если одну). В соревновании такой же формат, можно предложить два решения.

Однако в соревновании жесткие ограничения по ресурсам, которые хоть и выглядят разумно (9 часов на 100 задач с 1 GPU 8 летней давности), но всё же не позволяют развернуться на полную.

Кроме этого, с начала ноября вышло две крутых статьи с описанием методов, как можно ещё улучшить качество. Их разборы наверное будут в канале, но тем, кому не терпится, вот:
— Combining Induction and Transduction for Abstract Reasoning (генерируют огромное количество синтетических задач, используя GPT-4, и тренируют маленькую модель, которая решает задачи через написание python-кода)
— The Surprising Effectiveness of Test-Time Training for Abstract Reasoning (вот это вообще очень крутая идея, перед применением модели для конкретной задачи генерируется несколько схожих, используя модель из статьи выше, и на них дообучается LLM; обучение своё для каждой отдельной задачи. Достигают 61.9%, что выше среднего человеческого результата)

Читать полностью…

Сиолошная

5-часовое интервью с бывшим VP Research OpenAI, а ныне CEO Anthropic Dario Amodei (на самом деле там есть и другие сотруднрики, например, часик с Chris Olah по механистической интерпретируемости).

https://www.youtube.com/watch?v=ugvHCXCOmm4

😭 а когда смотреть... 🫤

Читать полностью…

Сиолошная

Ещё из интересного: авторы смотрели, какая логика лежит за действиями LLM по исследованию графа здания, какие комнаты и почему она решает обойти.

Например, когда попросили «найти объект K31X», то модель, поскольку не знала что это такое (и я не знаю), начала разворачивать (и потом сворачивать) все комнаты по порядку, имитируя алгоритм поиска в ширину. А когда просили «найти J64M, который должен содержаться при температурах ниже нуля градусов» — модель сразу решала проверить часть графа, ответственную за морозилку в холодильнике на кухне — как и человек.

Ограничения работы:
— нужен высококачественный граф помещения со всеми объектами. Как я писал, есть полу-автоматические способы его создания на основе видео и фото.
— граф может меняться во времени (если кто-то кружку унёс с кухни). В теории, небольшое препятствие для работы алгоритма
— используются текстовые описания всех сущностей, а хочется чего-то более общего и неограничивающего (про это в ближайшие дни расскажу)

На картинках:
1. Примеры простых и сложных вопросов на поиск и планирование (последняя колонка).
2. Обзор всей системы, слева поиск релевантных частей графа, справа планирование на основе выявленных вершин графа.

Читать полностью…

Сиолошная

SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Robot Task Planning (сайт проекта с демками)

По названию и домену похоже на статью, разобранную вчера — SayCan, где LLM декомпозировала задачу на понятные роботу команды и составляла из них план. Но реализация планов многоэтажных и многокомнатных помещениях представляет собой серьезную проблему для робототехники. Цель этой работы —  решить проблему планирования задач с длинным горизонтом планирования в крупных помещениях. Это требует от робота как понимания абстрактных и неоднозначных инструкций (за это отвечает LLM, тут всё как в вышеупомянутой работе), так и понимания окружающей среды.

Авторы предлагают предварительно превратить описание помещения в граф, где каждая вершина — это отдельная сущность со своими атрибутами, а рёбра означают возможные связи между сущностями. Например, вершина «кофемашина» может быть связана с вершиной «кухня», и иметь атрибуты «можно включить; можно выключить; сейчас — выключено». Все объекты вкладываются в комнаты, в которых находятся, комнаты объединяются в этажи, этажи в здание. Итого 4 уровня — получается иерархия. Собирать такие графы для помещений можно вручную, можно (полу-)автоматически — авторы переиспользуют работу других исследователей: Hydra. Разбор этого или более продвинутого метода сделают когда-нибудь потом.

Так вот, у нас есть граф, который описывает все объекты и зависимости между ними. При подаче в LLM его схлопывают до самого высшего уровня — этажи, и подают в LLM (то есть всего 1-10 элементов) в виде JSON-словарика. То есть никаких описаний мелких объектов пока нет. LLM глядит на граф, читает задачу («принеси алкоголь с кухни») и может сделать одно из трёх действий:
1) выбрать какую-то вершину графа (на первом шаге это этаж, на втором — комнаты, итд) и углубиться в неё — то есть включить в промпт все зависимые объекты
2) схлопнуть вершину (сделать обратное: убрать всё лишнее)
3) закончить планирование

Трюка, которые стоит упомянуть, тоже три:
1) все предыдущие действия дописываются в промпт как «память», чтобы модель не шастала по одним и тем же комнатам по 10 раз
2) LLM пишет цепочки рассуждений перед выбором дейсвтия
3) в промпте есть несколько примеров, для каких запросов какие команды с каким графом выполнять, чтобы LLM лучше поняла задачу.

И... всё. Дальше запускается цикл, в котором в LLM постоянно подают обновлённый граф, она решает, что нужно сделать. Например, если попросить робота что-то вкусненькое с кухни, то модель «подумает» примерно следующее:
развернуть(первый_этаж) -> развернуть(кухня) -> развернуть(шкаф)
или если произошла ошибка:
развернуть(первый_этаж) -> развернуть(кухня) -> развернуть(пакет_из_магазина) -> свернуть(пакет_из_магазина) -> развернуть(шкаф)

После последнего действия станут доступны все элементы, связанные со шкафом, в том числе и шоколадки, и делать ничего не надо. На этом заканчивается этап «семантического поиска», когда модель пытается найти все необходимые объекты в большом помещении. Дальше наступает этап планирования, где по для выбранного набора объектов LLM предсказывает действия (одно из двух): пойди туда, взаимодействуй с этим (тут используются уже готовые модели, и работа не фокусируется на них).

После этого предсказанный план проходит через скрипт, который с помощью алгоритмов оптимизации путей минимизирует проходимое роботом расстояние (если вдруг LLM решила погонять его по этажам вместо самого короткого пути) — под капотом там Алгоритм Дейкстры.

Читать полностью…

Сиолошная

В ходе тренировки LLM не дообучается (она просто генерирует планы), но обучается нейронка, которая оценивает affordance и учится выполнять навыки (какие сигналы нужно подать на моторы, чтобы выполнить действие) — и всё это происходит в симуляторе. Модель тут обучается через Reinforcement Learning, задерживаться на этом не будем. Если кому интересно прочитать про симулятор, использующий GAN (устаревшие аналоги Stable Diffusion, генерирующие картинки) — можно это сделать тут.

Для старта процесса обучения авторы собрали более 68 тысяч демонстраций, записанных на 10 роботах в течение 11 месяцев. Именно на этих данных и обучалась описанная выше модель (не LLM). Кроме этого, из симулятора достали ещё 12 тысяч успешных демонстраций, и тоже подмешали в тренировочный набор.

Предложенный пайплайн обладает некоторыми приятными свойствами:
— из-за LLM даже без дополнительной тренировки всё работает на разных языках: авторы показывают успех с запросами на китайском, французском и испанском.
— если у вас уже есть выученный навык (контроль робота), то его очень легко добавить: 1) добавляете пару примеров планов задач в промпт 2) просто начинаете рассчитывать для него предсказания вероятности от LLM 3) придумываете эвристику для расчёта affordance. Например, авторы показывают добавление навыка «открыть ящик» (и его успешное внедрение в план) с эвристикой «affordance=1 всегда, когда робот в радиусе метра от ящика, и =0 в другом случае».
— для сложных многоуровневых задач можно использовать цепочки рассуждений, CoT, давая модели время порассуждать перед генерацией плана. Жаль, что исследователи не замерили приросты качества от этого(

Про оценку подхода говорить много не буду, так как сравнить её не с чем. Взяли 101 разную инструкцию, от простого «принеси банку колы» до сложного «I left out a coke, apple, and water, can you throw them away and then bring me a sponge to wipe the table?» (тут модели нужно следить за разными объектами и разобраться, к чему относится them). Оценивали долю успешных декомпозиций плана на навыки и исполнение отдельных навыков. План был правильным (= приводящим к успеху) в 84% случаев, выполнение — в 74%. Думаю, что первую цифру с современными моделями уровня GPT-4 легко можно было бы поднять до 95%+ — авторы смотрели на 16% ошибок и пытались понять, что пошло не так. В 2/3 случаев продолбалась LLM (выдала плохие вероятности действий), в 35% расчёт affordance.

И ещё очень понравилось, что написали авторы под конец:

— Естественный вопрос, который поднимает эта работа, заключается в том, как информация, полученная в результате обучения LLM с помощью опыта работы с роботами в реальном мире, может быть использована для улучшения самих LLM как с точки зрения ее фактичности, так и с точки зрения ее способности выполнять рассуждения о реальном мире и физике.

На картинке:
визуализация процесса написания плана действий по ходу работы. Синие бары — вероятности действия от LLM, красные — от affordance, а зелёное — это произведение, по которому определяется действие к исполнению.

Читать полностью…

Сиолошная

The Information поделились новым куском информации про грядущую модель под кодовым названием Orion (aka GPT-5... или нет)

Тезисно:
1️⃣ В мае Sam Altman говорил сотрудникам компании, что следующая модель будет значимо лучше, чем GPT-4. На тот момент процесс предтренировки (самый ресурсоёмкий) был закончен на 20%, и Orion уже сравнялся по качеству с GPT-4 по «интеллекту» и навыкам, проверяемым разными бенчмарками. По более ранней информации The Information, Microsoft отдали свежий крупный кластер в распоряжение OpenAI в ~феврале, а тренировка началась попозже (и к маю достигла вот 20%)
2️⃣ По словам некоторых сотрудников OpenAI, использовавших или тестировавших Orion, хотя её производительность в конечном итоге превзошла оную предыдущих моделей, прирост качества оказался гораздо меньше по сравнению с переходом от GPT-3 к GPT-4 (что логично: в большинстве задач и бенчмарков просто невозможно так скакнуть; например, если раньше был скачок от 65% до 85% в какой-то задаче, то теперь же не до 105% прыгать).
3️⃣ Другой сотрудник сказал, что Orion лучше справляется с языковыми задачами, но может не превзойти предыдущие модели в, например, программировании (что для меня звучит странно, я бы ожидал ровно обратного). Моё примечание: может быть так, что журналисты что-то не так поняли, и, скажем, в OpenAI сравнивали обкатанную заточенную GPT-4o и голый Orion без существенного дообучения на выполнение запросов. А может и нет 🤷‍♂️
4️⃣ OpenAI ещё предстоит завершить длительный процесс тестирования безопасности Orion перед публичным запуском.
5️⃣ 🚨Компания планирует выпустить Orion в начале следующего года🚨; однако название модели может отклониться от традиционного нейминга «GPT» для флагманских моделей (R.I.P. GPT-5)
6️⃣ Частью проблемы дальнейшего масштабирования является наличие высококачественных данных. Уже сейчас Orion активно тренируют на синтетических данных, то есть таких текстах, которые сгенерированы другими моделями (o1 или gpt-4o). Для этого создана отдельная команда под руководством Nick Ryder (VP of Research, 5.5 лет в компании), одной из дополнительных целей которой является определение того, насколько долго можно будет следовать законам масштабирования

Ранее TheVerge писали, что Gemini 2.0, планируемая к запуску в декабре, не показывала ожидаемых приростов метрик во внутренних замерах. В этой новости The Information не говорилось про «ниже ожиданий» касательно Orion, но настроение немного схожее.

Ожидаем 🥊крепкую битву тяжеловесов🥊 к середине первого квартала 2025-го

Читать полностью…

Сиолошная

Правда «лучшая» модель Gemini 1.5 Pro давала самые короткие ответы, встречая ограничение всего в 16% задач. Как же она стала лучшей? Ну, как написано выше, все модели суммарно одолели всего 4 задачи, поэтому тут просто случайность: решил на одну задачку больше, и ты уже существенно опережаешь остальных.

Авторы взяли 4 задачи и перепрогнали все модели по 5 раз на них, и Gemini сильно упала, что доказывает элемент случайности на таких низких значениях качества (меньше 2% от всех задач) — с 3 она вообще не справилась ни разу (0 из 5 попыток), и с одной справилась 3 раза (60% в табличке, потому что 3 попытки из 5 увенчались успехом). Самой стабильной оказалась OpenAI o1-preview: одну задачу она решила 5 из 5 раз, одну 4 из 5, одну 2 из 5, и с последней не справилась ни разу.

Основная критика статьи/бенчмарка от меня:
— нет никакого анализа ошибок моделей, хотя бы просто подтвердить тезис, что «не хватает данных/знаний/техник для решения задачи»
— нет попытки подать полезный контекст (статьи/теоремы) и посмотреть, как модели будут утилизировать его — особенно модель Google с их длинным контекстом
— нет попытки дать моделям доступ к поиску по статьям, чтобы они сами нашли себе релевантную информацию
— ограничение в 10'000 токенов, полагаю, немного сдерживает модели, особенно если учитывать сложность задач: даже людям требуется несколько часов рассуждений и решений, с доступом в интернет. Но авторы пишут, что постараются сделать больше разных тестов в будущем (и ещё добавить задач), увеличить контекст.

Будем следить за улучшениями на этом бенчмарке и ждать метрик какой-нибудь o2 на релизе. Как я понял, из всех задач опубликовали лишь 5, остальные держатся в секрете (я не смог найти даже общее количество, ткните, если его указали), и авторы будут сами замерять качество новых моделей. Надеюсь, они попробуют сделать какую-то обвязку, позволяющую LLM находить релевантную информацию в интернете самостоятельно, и позволят моделям работать над решениями дольше.

Читать полностью…

Сиолошная

Думаю, значимая доля читателей знает, что NASA планировало в 2024-м году вернуться на Луну. Правда планы много раз переносили из-за проблемных ракет, из-за задержки производства скафандров, из-за кораблей... так что пока посадка отодвинулась на сентябрь 2026-го. Но вот уверен немного кто знает, что посадка будет производиться на ... SpaceX Starship, на том самом, испытания которого мы всем селом смотри (вернее в его специальной лунной версии, HLS, Human Landing System).

Starship — громадный корабль, на порядки превосходящий «Аполлоны», летавшие в 20-м веке. В него вместится куда больше оборудования и, в теории, людей — однако пока все пуски планируются на маленькие группы по 4 человека, прям расточительство какое-то. Сегодня предлагается заглянуть внутрь кабины макета корабля — в нём пока всего 2 палубы:
— основная, с 5 спальными местами (серые коробочки с чёрным квадратом) и креслами для экипажа;
— техническая, с системами жизнеобеспечения.

Корабль получается невероятно просторным. Предполагается, что на каждой палубе ( = 1 кольцо при сварке корпуса) удастся уместить по 20 кают. На фотках вы видите только «маленький» нос корабля, ниже ещё должен быть сварной корпус.

Перед реальной посадкой с экипажем необходимо провести кучу демонстрационных тестов, от орбитальной дозаправки с переливанием топлива из одного корабля в другой и до автоматической посадки без экипажа (такого в эпоху Apollo не требовали — может и в этот раз срежут?).

P.S.: последняя картинка — весь лунный модуль Аполлонов (человек для масштаба).

Источники 1, bulat_fbr5/Vi1_vjvJVGr">2

Читать полностью…

Сиолошная

Таким образом у нас получились векторные описания буквально всего, что попало на камеру, от стен и потолка до баночки колы и забытых на столе ключей (если SAM смог их выделить, конечно). Всё полностью автоматически.

Теперь нужно связать все сегменты в иерархический граф, напомню, этаж->комната->объект (зачем? см. предыдущий обзор). Начинаем с простого: этажи. Поскольку для каждого снимка есть трёхмерная позиция, то всё просто — по высоте легко отфильтровать, что относится к первому этажу, а что ко второму итд — там прям невооруженным глазом видна последовательность (но можно разделить и автоматически). Это показано на левой части картинки.

Дальше нужно как-то выделить комнаты. Так как по множеству фотографий с картами глубины можно создать почти полную 3D модель (через проекцию точек в пространстве камеры), то можно сделать и вид сверху на эту модель. Дальше поверх карты со стенами применяется парочка не-ИИшных алгоритмов (Euclidean distance field + Watershed algorithm), которые позволяют выделить крупные соседствующие сегменты, «заливающие» пустое пространство в комнатах (поэтому алгоритм и называется WATERshed, кек 🌊).

Ну а дальше всё просто, те объекты что попадают в область комнаты — считаются принадлежащими ей. Получается иерархия: этажи -> комнаты -> объекты.

При этом:
— этажи легко пронумеровать (первый, второй, третий — по высоте)
— комнаты называют через... классификацию CLIP'ом. Берут заранее штук 20 названий (оффис, переговорка, кухня, спальня ...), подставляют в промпт «эта комната — ...», и сравнивают с каждой фоткой. Таким образом без дообучения делается классификация с присваиванием метки
— объекты никак не обозначаются, и остаются лежать в виде неупорядоченного набора «сегмент -> усреднённые CLIP-вектора»

Всё, граф готов, можно приступать к ориентированию. На самом деле ещё под капотом строится карта перемещений, какие места не заняты и доступны для робота, и как из одной комнаты пройти в другую, но это менее интересно.

Читать полностью…

Сиолошная

Hierarchical Open-Vocabulary 3D Scene Graphs for Language-Grounded Robot Navigation (сайт проекта)

В недавнем разборе я упоминал способы создания иерархического графа отношений, описывающих некоторую локацию для дальнейшего использования роботом на основе LLM. Там использовался метод Hydra, но я немного поискал и нашёл более свежий и продвинутый подход — про него сегодня и поговорим. Предполагается, что вы читали пост про CLIP, и в дальнейшем будет подразумеваться, что для любой картинки или текста можно сделать вектор, такой, что чем более пара векторов похожа, тем больше шанс, что они описывают одно и то же.

На вход в алгоритм поступает множество изображений (или видео) формата RGB-D, для каждого из которых известна локация и угол съемки. D означает depth, глубина, что позволяет определить относительное расположение объектов (какие дальше, какие ближе). На самом деле это требование не жёсткое, так как а) существуют нейронки для предсказания глубины изображения по фото б) есть алгоритмы определения относительного положения разных снимков относительно друг друга. Так что при желании можно это всё восстановить просто из набора фоток, хоть и получится чуть шумнее. Но если что — последние iPhone умеют записывать карты глубины, на то им столько камер и датчиков.

Сначала создаётся словарь сегментов. Для этого к каждой фотографии применяется модель от META, Segment Anything (SAM). Она предсказывает маски (границы) для всех объектов на фото, при этом не предсказывает для них классы — работает с чем угодно. Одна маска = один сегмент. Но один и тот же объект может засветиться на нескольких фотках, поэтому их нужно сопоставить. Так как для каждого кадра известна позиция, из которого его сделали, то можно определить, что вот этот сегмент (маска), скажем, стул на одной фотке — это вот этот сегмент на другой фотке. Это пригодится чуть позже.

Читать полностью…

Сиолошная

ChatGPT стал доступен на Windows для всех (качать тут), но это не единственная новость.

На Mac теперь приложение умеет получать доступ к текстовому контенту других приложений (в основном, ориентированных на код). Код, который вы выделяете (или просто открытые файлы) помещаются в контекст модели, и по ним можно задавать вопросы/просить что-то переписать.

Правда, фича не будет полезна тем, кто уже пользуется копайлотами или Cursor (а такие вообще остались, кто и использует ChatGPT, и программирует без копайлота/Cursor? акак?)

Читать полностью…

Сиолошная

Слева представлена визуализация процесса обучения, описанная в прошлом посте.

Справа — как применять уже обученные модели. Предположим, что вы хотите вернуться к задаче классификации, и у вас есть сколько-то текстовых меток: самолёт, собака, машина, ...

Каждую из меток вы подставляете в строчку «a photo of a {object}» (она может быть другой) и пропускаете через текстовую половинку. Для N строчек вы получаете N векторов.

Затем берёте изображение, применяете к нему картиночную половинку нейросети. Получаете один вектор. Дальше считаете схожесть между ним и всеми N векторами текстов. Текст, который соответствует самому похожему вектору, наилучшим образом описывает картинку — и так вы можете «предсказать», что на ней нарисовано.

Читать полностью…

Сиолошная

Две цитаты Noam Brown, исследователя из команды, сделавшей o1 (до этого он работал над лучшими покерными ботами, которые обыграли профессионалов):

> Мы существуем в мире, где количество мощностей, потребляемых большими языковыми моделями во время этапа предтренировки, очень, очень большое. Однако затраты на применение моделей очень низкие. И у многих людей возникли обоснованные опасения, что мы начнем наблюдать снижение отдачи от прогресса в ИИ, поскольку затраты и объем данных, необходимых для предтренировки, станут астрономическими. И я думаю, что действительно важный вывод из o1 заключается в том, что стена [преграда на пути масштабирования] на самом деле не существует, что мы на самом деле можем продвинуть технологию намного дальше. Потому что теперь мы можем масштабировать вычисления во время работы модели в режиме предсказания.

> Я хочу подчеркнуть здесь, я думаю, что результаты тестирования очень впечатляют, но более важная вещь — это траектория. Здесь видно, что мы получаем огромные приросты от увеличения мощностей на предсказания, и мы можем продолжать масштабировать вычисления во время работы модели в режиме предсказания. Эти цифры качества — я могу это почти гарантировать — вырастут в следующие 1-2 года.

(обе — из вот этой лекции)

===

Два ответа, которые мне понравились из комментариев к прошлому посту: 1, 2

Читать полностью…

Сиолошная

Прошла всего неделя, а журналист Эрик Бергер, который ранее точно описывал события внутри NASA, уже оценивает шансы отмены всей программы национальной ракеты SLS, как 50/50. Не просто отмену будущих запланированных апгрейдов, а всей ракеты целиком.

SLS сейчас является основной системой по доставке астронавтов к орбите Луны на корабле Orion. При этом программа справедливо критикуется за раздутый бюджет и отставание по срокам.

На сегодняшний день:
- Общие расходы на ракету SLS и корабль Orion оцениваются в $50 миллиардов.
- Каждый запуск SLS в оптимистичном сценарии оценивается в $2.5 миллиарда, и до $4.8 миллиардов при консервативной оценке.
- Суммарный бюджет на лунную программу Artemis может приблизится к $100 миллиардам в ближайшие годы, если не будет изменений. И даже это не гарантирует высадку астронавтов до китайском миссии.
- Стоимость каждого изделия двигателя RS-25, которые ранее летали на Шаттлах, сейчас находятся на отметке в $100 миллионов за штуку. Вместо плана оптимизации стоимости, велика вероятность, что цена новых изделий возрастёт до $120 миллионов. При наличии 4 двигателей на SLS, почти $0.5 миллиарда будет уходить только на эту часть в рамках каждого пуска.
- Разработка новой второй ступени EUS для SLS 1B отстаёт на 7 лет и выросла в 3 раза по бюджету — сейчас оценивается в $2.8 миллиарда.

С учётом этих вводных и желании новой администрации срезать лишние расходы, остаётся не так много опций:
1. Заморозить разработку SLS на текущем блоке, отменить будущие апргрейды, использовать оставшиеся изделия в нескольких миссиях Artemis.
2. Полностью отказаться от SLS, и запускать корабль Orion отдельно от разгонного блока на существующих решениях. Далее стыковать обе части на орбите и разгонять к Луне.
3. Заменить SLS другой сверхтяжёлой ракетой и запускать за один раз вместе с разгонным блоком.
4. Полностью отказаться от SLS, Orion и будущей станции Lunar Gateway, и пересобрать программу на более современной архитектуре.

Поскольку ранее Эрик Бергер неоднократно рассказывал о событиях внутри NASA до официальных анонсов (он ссылается на свои внутренние источники), то его оценка имеет достаточно высокий вес, чтобы обратить на неё внимание.

Любые изменения, и даже отмена программы SLS, в первую очередь является политическим вопросом, и столкнётся с огромным сопротивлением со стороны представителей отдельных штатов, которые лоббируют интересы локальных предприятий и исследовательских центров.

Ну а про альтернативные опции поговорим подробнее в следующем посте.

Читать полностью…

Сиолошная

Состояние дел в AI:

неделю назад приготовил презентацию на 8 слайдов, на сегодня уже два неактуальны. Ну ладно, один с натяжкой, скорее дискуссионный, но всё равно

😣

Читать полностью…

Сиолошная

https://fixupx.com/tsarnick/status/1856065476759302167

Как видите, Dario очень точен в предсказаниях 🤣 😀

Читать полностью…

Сиолошная

И пара примеров работы (самое интересное — на первом видео, там всё по шагам)

Читать полностью…

Сиолошная

На картинке — пример графа, обозначающего помещение. Красная точка, самая верхняя часть — этаж, зелёные точки это комнаты, а в них уже разложены разные вещи. Все точки имеют человекочитаемое и понятное название («комната_ника», «холодильник», «первый_этаж»).

Авторы подмечают, что могут начаться проблемы, когда граф большой (много комнат, релевантных запросу, потому их нельзя «свернуть», и в каждой много объектов), и количество токенов в промпте превышает лимит LLM. В их экспериментах использовалась оригинальная GPT-4 👴, на дворе-то была середина 2023-го. Там всего 8192 токена, что смешно по текущим меркам, когда почти все модели поддерживают 100'000+. Но при этом исследователи попробовали посоздавать несколько сотен фейковых комнат, и пока релевантная часть графа влазила в контекст — у LLM не было проблем (работало даже с 200 разными комнатами!). То есть «шум» с ненужными частями графа не сильно влияет на качество.

А поскольку строится иерархия объектов, то можно покрывать огромные пространства (ибо LLM за раз будет видеть малую часть). Интересно, появилась ли за прошедший год статья, в которой замахиваются на целый район с несколькими зданиями? Дайте знать, если видели.

Немного про тестирование: было две сцены, одноэтажный офис с 37 комнатами и 150 объектами, и трёхэтажный дом, 28 комнат/112 объектов. Для них придумали 90 задач, от простых «найди мне что-нибудь невегатерианское» до «давай сделаем пранк над Нико» (тут ожидается, что по объектам в помещении LLM сама придумает, как реализовать пранк, что откуда взять итд). GPT-3.5 вообще не вывозила (0% решено), часто зацикливалась на одних и тех же комнатах, а вот GPT-4 справлялась хорошо.

Проверка была в 2 стадии:
— как хорошо модель оперирует графом, то есть как часто находит нужные объекты. Можно было найти больше, главное не пропустить ключевые. Получилось 86.7% и 73.3% для простых и сложных запросов
— как хорошо модель по готовым под-графам планирует. Напомню, тут всего 2 действия: пойти куда-то и сделать что-то (но у последнего есть несколько подвидов, «взять», «открыть», итд). Тут тоже всё здорово, 93.3% для простых и 73.3% для сложных запросов. Основные проблемы, выявленные во время анализа, это галлюцинации с выдумыванием вершин графа и проблемы со счётом (в запросах по типу «сколько комнат») и расстояниями («ближйшая ...»). Наверное, o1 тут по 97% выдала бы 🚽

Читать полностью…

Сиолошная

Начинаем рабочую неделю с часовой лекции Sasha Rush (Associate Professor @ Cornell University, Researcher @ HuggingFace 🤗) под названием «Speculations on Test-Time Scaling» (спекуляции по поводу того, как работает модель OpenAI o1). Презентация техническая, содержит большое количество ссылок на разные работы для самостоятельного изучения.

Разбирать я её не буду, так как тем, кому интересно разобраться в деталях и предпосылках o1, лучше смотреть саму лекцию. А тем, кому не интересно — им и не интересно 🧠 Лишь отмечу, что Sasha рассматривает несколько направлений исследований касательно цепочек рассуждений, и для каждой указывает, почему и чем это отличается от o1 — и по итогу ни одна идея полноценно под всё не подходит(

Смотреть на YouTube
PDF со слайдами
Репозиторий со ссылками на все упомянутые статьи

Это мы смотрим 🍿

Читать полностью…

Сиолошная

Do As I Can, Not As I Say: Grounding Language in Robotic Affordances (сайт проекта с демками)

Немного старая статья (2022-й год!); в ней в одной из первых предложили скрестить LLM и роботов с целью улучшения планирования решений сложных задач. Тогда VLM ещё не было (LLM, которые умеют понимать картинки), поэтому будет несколько странных шагов.

Итак, LLM обладают огромными знаниями о мире, примерно представляют, как взаимодействуют объекты; и вот всё это как-то хочется утилизировать в роботе, чтобы не программировать каждый запрос и краевой случай вручную — пусть эту функцию на себя берёт модель. Есть две проблемы с использованием LLM из коробки для составления плана решения задачи:
1. LLM не знает, какие вообще действия возможны
2. она не знает, какие действия уместны (что находится вокруг робота, и в каком состоянии он находится)

Авторы предлагают собрать набор навыков (скиллов), каждый из которых характеризуется коротким текстовым описанием («взять банку колы», «подъехать к урне») и выученным поведением. Всего в него включен 551 навык, включая 7 разных возможных типов действий и 17 объектов («взять банку колы» и «взять губку» — разные навыки, так как требуют разной моторики).

Далее берётся LLM (в случаев исследователей из Google это старушка PaLM на 540B параметров), в неё подаётся промпт с более чем десятком примеров «пользовательский запрос -> упорядоченная декомпозиция запроса по навыкам». В конец промпта приписывается новый запрос, затем пишется 1. , и к этому приклеиваются все 551 описаний действий по одиночке (то есть это 551 разный запрос к LLM). Языковые модели хороши тем, что они определяют вероятности отдельных слов, а перемножая эти вероятности можно получить вероятность всего предложения, описывающего навык. Например, вероятность того, что к запросу «принеси с кухни банку колы» первое действие будет «встать около мусорки» очень маленькая, а вот «пойти на кухню» — большая.

Теперь мы получили 551 вероятность, характеризующие разные действия. Но они никак не обособлены на реальность, на состояние мира вокруг робота. Если я прошу принести яблоко, то первое действие очень отличается в зависимости от того, есть или нет яблоко на картинке, которая видна роботу. Поэтому авторы вводят вторую вероятность — affordance, прямого перевода нет, но я бы сказал, что это смесь «возможность», «разумность» и «вероятность успеха». Оно рассчитывается для каждого навыка по-своему: для каких-то натренирована отдельная модель, принимающая на вход картинку, для других это запрограммированная функция (например, нормализованная дистанция до точки — чем дальше, тем меньше affordance).

Если для каждого навыка эти две вероятности перемножить, а навыки отортировать по значению, то в самом верху списка будут те, что и логичны с точки зрения выполнения исходного запроса, и доступные роботу сейчас. Затем берётся навык с самым большим значением произведения, навык исполняется роботом (возьми то или поедь туда), к промпту LLM дописывается 2. , и всё повторяется по новой — только теперь LLM знает, что какое-то действие уже сделано, и оценивает вероятность следующих скиллов с учётом этого, и affordance тоже рассчитывается с учётом нового состояния (если робот что-то взял в руку или переехал на новое место).

Читать полностью…

Сиолошная

Свежая заметка «Two alignment threat models» от Jan Leike, в прошлом со-руководителя команды Alignment в OpenAI, а ныне занимающего ту же должность в Anthropic. В тексте он рассуждает о двух концах спектра несоответствия поведения моделей ожидаемым/закладываемым (то есть misalignment-нутые):

— under-elicited models (не знаю как перевести, недостимулированные? недовыровненные?), или модели, которые совершают ошибки потому, что они не до конца настроены («не прикладывают все усилия для решения задачи, потому что не знают как или не замотивированы»). То есть модель пишет, что 2+2 = 5 не потому, что хочет вас обмануть, а потому что не знает/не может/etc.

— Scheming models (хитрые/коварные модели), или такие, которые притворствуют, что они на самом деле соответствуют ожиданиям, демонстрируя намеренно обманчивое поведение. Модель пишет 2+2=5 в научных расчётах, потому что думает, что никто не проверит, и она напакостит людям. Или даст вредный совет, какие грибы можно есть, а какие нельзя.

Сейчас мы куда чаще видим первый тип ошибок, а примеров второго почти не бывает. Однако про него важно думать наперёд, как минимум потому, что мы точно не сможем читать все генерации моделей — уже сейчас запуск LLM дешевле человеческого труда (по вычитке), и в будущем разница будет расти ещё больше. Scheming не проявляется, в основном, по трём причинам:
— уровень навыков/знаний пока недостаточен, у модели нет возможности сделать какую-то большую пакость (привести к потере денег/итд)
— модели не situationally aware (какой тут перевод... не контекстно-осведомлённые?), то есть они не ощущают себя как субъект в некотором контексте. Да, они знают, что они AI-ассистенты, зачастую даже не путаются в том, какую компанию представляют, но и всё. Это приводит к отсутствию долгосрочной мотивации как-то действовать.
— модели не натренированы быть агентами, которые взаимодействуют со средой, и не предпринимают действия, ожидая последствий. Вот в недавней Claude 3.5 (New) только-только потихоньку начали это демонстрировать, вероятнее всего с помощью замкнутого цикла обучения на своих же действиях и сигнале «задача решена/провалена».

Вероятно, существует достаточно научно-фантастических историй о плохом ИИ в тренировочных данных, из-за чего модели иногда будут пробовать какое-то «неправильное» поведение, связанное с обманом, и большой вопрос заключается в том, будет ли процедура обучения закреплять такой паттерн поведения. Например, если несколько раз подряд сымитировать решение вместо реального решения проблемы, и ни одна из проверок не обнаружит проблем — модель может выучиться, что такое поведение нормально, и продолжать врать (у самих Anthropic про это уже даже было исследование, подтверждающее тезис — там модель уже даже начала редактировать написанный человеком код, отвечающий за проверку процесса тренировки).

===

Но вообще хотел поделиться этим блогом по другой причине — Jan пишет, что текущие модели всё ещё далеки от elicited (см. первое определение выше). Например, когда появился один из методов дообучения GPT, RLHF, то маленькая GPT-2-1.5B начала выдавать ответы лучше, чем модель, на которую потратили в 100 раз больше вычислительных мощностей. И вот автор считает, что тренд продолжится, и ещё несколько порядков улучшений здесь есть. То есть те модели, которые сейчас могут крутиться на ноутбуке/телефоне, значимо поумнеют.

С одной стороны я тоже думал, что улучшать точно есть куда, но не до степени «на несколько порядков». Может в 5-6-8 раз, ок, но точно не в 20-100. «Я ожидаю, что если бы вы пообщались с полностью elicited моделью GPT-4, то это было бы совершенно иным опытом относительно текущего состояния» — подытоживает Jan.

Читать полностью…

Сиолошная

FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI

Самый сложный бенчмарк по математике для LLM от Epoch AI. Если сейчас зачастую у новых наборов проблем передовые нейронки решают 30-50% задач, то в этом суммарно все они, от Grok-2 до o1-preview, решили... 4 задачи (каждая по отдельности меньше 2% от общего числа). Почему? Потому что для создания задач были привлечены одни из ведущих математиков в своих областях, более 60 штук — 14 из них обладают золотыми медалями международной олимпиады по математике, и один обладатель Филдсовской премии (угадайте кто).

Задачи покрывают почти все топики современной математики, и некоторые из них строятся на совсем недавних открытиях и исследованиях. Самой главной проблемой, мешающей LLM'кам справляться с задачами, авторы называют экстремальную ограниченность в тренировочных данных для отдельных техник/тем. Terence Tao сказал, что «релевантные данные практически не существуют. Мы говорим о примерно десятке статей с релевантными вещами». Причём, они везде очень разные — суммарно авторы насчитали около 200 уникальных техник, применяемых в решениях, при этом самые часто встречающиеся пары техник попались всего лишь в 3 задачах (то есть нет концентрации вокруг каких-то техник, освоим которые можно решить добрую часть проблем).

Однако у бенчмарка есть пара недостатков:
1) задачи были сделаны таким образом, чтобы их можно было автоматически проверять; это сразу же накладывает ограничения на формат и гибкость. В частности, не проверяется ход решения (но угадать ответ практически нереально).
2) список задач не включает в себя доказательства, ответом является формула или число/набор чисел.
3) из-за сложности задач и времени, необходимых на решение не автору (несколько часов, и то не всегда справляются), не проводилась перепроверка решений и ответов каждой задачи, и не замерялось качество «усреднённого» математика. Аналитику провели по 25 задачам и прикинули, что ошибок не более 10%.

Эксперименты: авторы написали средней длинны промпт, который подсказывает модели, в каком формате ожидаются ответы, и что можно попробовать сделать отправку кода несколько раз. Если происходит ошибка — модели дают обратную связь, и процесс продолжается до тех пор, пока не будет достигнут лимит в 10'000 токенов. Модели ведут себя по разному, например o1-preview в среднем делает 1.29 попыток ответить, а Grok 2 — 3.81. Лимит токенов тоже немного мешает — gpt-4o упиралась в него в 45% решений, а ведь это даже не o1 с её длинными цепочками рассуждений.

Читать полностью…

Сиолошная

На канале Y Combinator возродили рубрику How To Build The Future. Раньше её вёл Sam Altman, а теперь он стал приглашённым гостем!

Поговорили с текущим президентом YC про ранние дни в сфере стартапов и OpenAI, про масштабирование моделей и бизнеса, тезисно:

— Сравнили YC и Stanford University по окружению; в YC более качественная «тусовка» вокруг, которая побуждает чем-то заниматься и вкалывать. Sama говорит, что peer pressure (давление от окружения) будет всегда, и с этим ничего не поделать; но что можно сделать — так это выбрать правильных пиров. И в YC по итогу куда более интенсивно.

— Вспомнили первые дни OpenAI. Sama говорит, что уже в первые дни появилось видение, чем хочется заниматься. На флип-чарте кто-то написал три цели: 1) разобраться, как правильно делать обучение без учителя (без размеченных данных, как сейчас большую часть времени тренируется GPT) 2) разобраться с Reinforcement Learning (другой способ обучения, тоже используется) 3) никогда не иметь больше 120 человек в команде. В первых двух целях преуспели, по третьей промахнулись — ещё в начале 23-го года в OpenAI было примерно 375 человек (лол, про это был самый первый пост в этом канале!), сейчас уже более 1700.
— Вместе с этим у основателей компании было несколько — одно из core beliefs: DL works and it works better with scale. Не знали как предсказать два ключевых верования: Deep Learning (обучение нейронок) работает, и оно становится лучше с масштабированием. По второму — был буквально религиозный уровень веры в то, что оно будет продолжать работать лучше. В то время в области машинного обучения это не был консенсусом, а за разговоры про AGI можно было словить критику и насмешки. На январь 2016-го года ещё даже не было AlphaGo (она сыграла первые игры с чемпионами, но информация не была опубликована), чтобы говорить про какие-то крупные успехи, кроме распознавания изображений.

— OpenAI изначально делали большую ставку на что-то одно вместо того, чтобы распыляться и пробовать везде понемногу. По итогу это сыграло, и сейчас фактически все игроки следуют за ними. Частично такой фокус схож с тем, чему сам Sam учил стартапы в YC: одно направление, результат, масштабирование.
— но это не значит что они прошли прямо самым коротким путем, были ответвления, но зато они принесли ценные научные знания (эксперименты с играми, с робо-рукой)

— Пересказал историю до GPT-1, как она получилась, и про роль исследователя Alec Radford в ней. Если вам этот кусок показался интересным, то напомню, что у меня есть бесплатный набор лекций «полная история GPT» на YouTube, где в первых видео рассказывается про предысторию, что там было и на какие мысли натолкнуло.

— Термин AGI стал очень шумным и многозначным; Летом в OpenAI ввели взамен систему из 5 уровней. Ранее Bloomberg писал, что якобы на июльской презентации модели прототипа o1 было заявлено о переходе с первого уровня (чатботы) на второй (reasoners, сущности, способные к рассуждениям). Но это были только слухи, и вот теперь Altman на камеру это подтвердил — они считают, что о1 достигла второго уровня в их шкале, а дальше идут ИИ-агенты. И что скоро нас ждёт прогресс в отношении этого шага — ждём!

Читать полностью…
Subscribe to a channel