gonzo_ml | Unsorted

Telegram-канал gonzo_ml - gonzo-обзоры ML статей

21999

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Subscribe to a channel

gonzo-обзоры ML статей

Интересное обновление. Выложена phi-3-mini (https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3), доступны версии с контекстом 4k и 128k.

Читать полностью…

gonzo-обзоры ML статей

Из грустных новостей сознания и не только, сегодня умер Daniel Dennett :(

https://dailynous.com/2024/04/19/daniel-dennett-death-1942-2024/

Читать полностью…

gonzo-обзоры ML статей

Из интересного про Llama 3, в процессе обучения находится 400B+ модель. Также ожидается мультимодальность и мультиязычность.

https://ai.meta.com/blog/meta-llama-3/

Читать полностью…

gonzo-обзоры ML статей

Future of Humanity Institute закрылся.

https://www.futureofhumanityinstitute.org/

Читать полностью…

gonzo-обзоры ML статей

RecurrentGemma: Moving Past Transformers for Efficient Open Language Models
DeepMind: Griffin, RLHF, Gemma Teams
Статья: https://arxiv.org/abs/2404.07839
Модель: https://ai.google.dev/gemma/docs/recurrentgemma
Репа: https://github.com/google-deepmind/recurrentgemma

И сразу вдогонку про рекуррентную Gemma, построенную на архитектуре Griffin.

DeepMind только что выпустил обновление для классической Gemma — версию 1.1 (/channel/gonzo_ML/2498), а теперь есть ещё и RecurrentGemma, пока только 2B. Выложена обычная предобученная модель и instruction tuned версия.

Основное преимуществе Griffin здесь — это внутреннее состояние фиксированного размера, нет нужды растить KV кеш с ростом длины последовательности. Отличия RecurrentGemma от Грифона минимальны -- входные эмбеддинги скейлятся на константу равную корню из ширины модели.

Обучали на последовательностях длины 8192 токенов. Те же данные, что и у Gemma-2B (то есть в основном английский, математика и код). Обучалась на 2T токенов -- это круче, чем в работе про Griffin (там было 300B), но меньше, чем у Gemma-2B (там 3T). Также был аналогичный Gemma instruction fine-tuning плюс заявлен новый RLHF.

Результат в целом сравнимый с Gemma-2B, хоть та и обучалась на 1.5x токенов. На человеческой оценке с Mistral 7B v0.2 Instruct, RecurrentGemma-2B-IT лишь чуть хуже Gemma-1.1-2B-IT.

Поскольку внутреннее состояние модели фиксированного размера и нет необходимости держать KV кеш, модель может генерить последовательности любой длины, обычная Gemma была ограничена памятью хоста. Также можно обрабатывать более крупные батчи.

Throughput чисто на авторегрессионную генерацию, без учёта обработки промпта, выше в разы, особенно на длинной генерации, типа 8к токенов. Получается порядка 6k токенов в секунду на TPUv5e и оно не падает с ростом длины.

Процессинг промпта не сильно быстрее обычной Gemma, потому что и та делает это впараллель. Но всё равно быстрее. На TPUv5e это порядка 40k токенов в секунду.

Это прям интересная альтернатива для on-device моделей.

Читать полностью…

gonzo-обзоры ML статей

Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models
Soham De, Samuel L. Smith, Anushan Fernando, Aleksandar Botev, George Cristian-Muraru, Albert Gu, Ruba Haroun, Leonard Berrada, Yutian Chen, Srivatsan Srinivasan, Guillaume Desjardins, Arnaud Doucet, David Budden, Yee Whye Teh, Razvan Pascanu, Nando De Freitas, Caglar Gulcehre
Статья: https://arxiv.org/abs/2402.19427

На днях вышла открытая RecurrentGemma (https://arxiv.org/abs/2404.07839), построенная на архитектуре Griffin. Сам Griffin был опубликован DeepMind’ом в конце февраля 2024. Разберём же его.

Работа вертится вокруг нового рекуррентного блока, RG-LRU, на котором построены архитектуры Hawk (чередование RG-LRU и MLP) и Griffin (чередование MLP со смесью RG-LRU и локального внимания). Hawk при этом бьёт Mamba (/channel/gonzo_ML/2148) аналогичного размера, а Griffin обходит Llama-2, обучаясь на вшестеро меньших данных.

Архитектура строится на повторяющихся residual blocks, похожих на используемые в pre-norm трансформерах: (RMSNorm + Temporal mixing block) и (RMSNorm + MLP block), оба с residual connection поверх.

В качестве MLP block используется gated блок аналогичный GeGLU имени Ноама Шазира (https://arxiv.org/abs/2002.05202, в текущей работе его назвали GeGeLU): с двумя ветвями размерности M*D каждая (в работе выбрано M=3, то есть эмбеддинги расширяются), в одной ветви сидит нелинейность GeLU, а в другой считаются коэффициенты для поэлементного умножения, после которого слитые ветви обрабатываются ещё одним линейным слоем.

Самая интересная и вариабельная часть -- Temporal mixing block. Их три варианта: 1) global Multi-Query Attention (MQA), 2) local (sliding-window) MQA 3) и новый рекуррентный блок.

Вариант 1 (MQA, https://arxiv.org/abs/1911.02150 тоже имени Ноама Шазира) это замена классического Multi-Head Attention (MHA), где K и V общие для всех голов. Используются позиционные эмбеддинги RoPE.

Вариант 2 с локальным вниманием (оно же sliding window attention) аналогичен локальному вниманию в Longformer (/channel/gonzo_ML/294). Окно локального внимания установлено в 1024 токена.

Наконец вариант 3 напоминает блок из Мамбы (/channel/gonzo_ML/2153), где тоже две ветви, в одном из которых всё тот же GeLU как в MLP, а в другом одномерная свёртка + RG-LRU слой.

Сам RG-LRU (Real-Gated Linear Recurrent Unit) -- это развитие LRU (/channel/gonzo_ML/1734) с двумя добавленными гейтами, не зависящими от предыдущего рекуррентного состояния, только от входа. Input gate 𝑖_t аналогичен таковому из LSTM, он фильтрует или масштабирует вход. Второй гейт, recurrence gate 𝑟_t, нов и может приближённо интерполировать между стандартным апдейтом LRU из оригинальной работы и предыдущим скрытым состоянием, тем самым отбрасывая входные данные и сохраняя информацию из прошлого. В приложении A подробнее разбирается поведение рекуррентного гейта.

Для инициализации RG-LRU _не_ используются полиномы по типу HiPPO или дискретизация по типу SSM. Также не используются комплексные числа в рекуррентности, как это было в LRU. В приложении B также рассмотрен комплекснозначный вариант под названием CG-LRU (Complex-Gated Linear Recurrent Unit). Он более выразителен, но языковому моделированию на практике не помогает.

Результаты интересные. Рассматриваются три варианта:

1) MQA-Transformer в качестве бейзлайна

2) Hawk с тем же residual и MLP как у трансформерного бейзлайна, но с рекуррентным блоком с RG-LRU в качестве temporal mixing block.

3) Griffin с тем же residual и MLP как у трансформерного бейзлайна, но с миксом рекуррентных и MQA блоков (через каждые два residual блока c RG-LRU, один блок с MQA).

Читать полностью…

gonzo-обзоры ML статей

Фото какого-то раннего экспериментального прототипа

Читать полностью…

gonzo-обзоры ML статей

Обновление Grok (/channel/gonzo_ML/2479) на подходе, Grok 1.5

https://x.ai/blog/grok-1.5

Контекст 128k, улучшенный reasoning на бенчмарках.

Grok 2 тоже когда-то обещают (https://x.com/elonmusk/status/1773655245769330757?s=20).

Читать полностью…

gonzo-обзоры ML статей

Вдруг вы хотите посмотреть сегодня лекцию про сознание

https://royalsociety.org/science-events-and-lectures/2024/03/faraday-prize-lecture/

Читать полностью…

gonzo-обзоры ML статей

Не обзора ради, а букмарков для.

Fundamental Components of Deep Learning: A category-theoretic approach
PhD Thesis, Bruno Gavranović
https://arxiv.org/abs/2403.13001
272 pages

The Elements of Differentiable Programming
Book, Mathieu Blondel, Vincent Roulet
https://arxiv.org/abs/2403.14606
383 pages

Читать полностью…

gonzo-обзоры ML статей

И конечно нельзя не запостить эту его классику

The coming technological singularity: How to survive in the post-human era

https://ntrs.nasa.gov/citations/19940022856

Читать полностью…

gonzo-обзоры ML статей

Развитие (или завершение) истории с Inflection (писали про них тут /channel/gonzo_ML/1827 и тут /channel/gonzo_ML/2071)


https://techcrunch.com/2024/03/19/after-raising-1-3b-inflection-got-eaten-alive-by-its-biggest-investor-microsoft/

Читать полностью…

gonzo-обзоры ML статей

Свежего Альтмана подвезли

https://youtu.be/jvqFAi7vkBc?si=0JDIVpINKWAwaDwC

Читать полностью…

gonzo-обзоры ML статей

А вот и Grok подоспел!

314B parameter MoE model. Apache 2.0 license.

https://x.ai/blog/grok-os
https://github.com/xai-org/grok

Читать полностью…

gonzo-обзоры ML статей

[DeepMind SIMA] Scaling Instructable Agents Across Many Simulated Worlds
Авторы: много, The SIMA Team
Статья: тут
Пост: https://deepmind.google/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments

DeepMind собрал нового агента SIMA (Scalable, Instructable, Multiworld Agent), который учится следовать произвольным языковым инструкциям и действовать в любой виртуальной 3D среде через команды клавиатурой и мышью.

В работе постарались подойти к задаче максимально широко и общо. Среды богаты, могут содержать сотни объектов и допускать множество интеракций. Они асинхронны, то есть среда не дожидается действия агента, жизнь в ней идёт самостоятельно. Никакого доступа ко внутренностям среды нет, агент воспринимает пиксели с экрана и реализует действия через клавиатуру и мышь, как человек, никаких API. Агент не пытается максимизировать скор, он должен следовать произвольным языковым инструкциям, а не заданному набору команд. Каждая игра требует GPU, поэтому запускать сотни или тысячи агентов на эксперимент нет возможности.

С такими предпосылками обучаться сложнее, но зато легче расширять агента на новые среды.

В отличие от некоторых ранних работ типа Atari или Starcraft 2, здесь сфокусированы именно на 3D physical embodiment. Это либо first-person, либо third-person с видом из-за плеча. Важно, чтобы была возможность богатых и глубоких языковых взаимодействий.

Используются коммерческие игры (Goat Simulator 3, Hydroneer, No Man’s Sky, Satisfactory, Teardown, Valheim, Wobbly Life) и искусственные исследовательские среды на Unity (Construction Lab, Playhouse, ProcTHOR, WorldLab).

В качестве подхода к обучению выбран behavioral cloning, то есть supervised learning на человеческих действиях (клавиатура и мышь) по входным наблюдениям (пиксели экрана). Также в датасет включены языковые инструкции, диалоги и различные аннотации и маркеры успеха или неудачи. В статье есть красивая картинка с иерархической кластеризацией инструкций по эмбеддингам.

Собирали датасет разными способами. Например, записывали игру человека, а потом аннотировали её текстовыми инструкциями. Или в игре с двумя игроками, один играл и всё записывалось, а другой давал ему инструкции. Во время эксперимента ни один человек не пострадал. “The full details of our data collection protocols, including compensation rates, were reviewed and approved by an independent Human Behavioral Research Committee for ethics and privacy. All participants provided informed consent prior to completing tasks and were reimbursed for their time.“

Была какая-то предобработка с фильтрацией низкокачественных данных, ресайзу всего к размеру входа агента, взвешивание и перемешивание наблюдений чтобы приоритизировать наиболее эффективные. Фокусировались на инструкциях, которые могут быть выполнены не более чем за 10 секунд.

Агент использует предобученные модели. Это текстово-картиночная SPARC (SPARse Fine-grained Contrastive Alignment, https://arxiv.org/abs/2401.09865), и предсказательная видео модель Phenaki (https://arxiv.org/abs/2210.02399). Обе дальше файнтюнятся, первая через behavioural cloning, вторая через video prediction. Не понял, что собой представляет текстовый энкодер, кажется, обучается с нуля, хотя это странно -- у Гугла много хороших языковых моделей, которые грех не задействовать.

Внутри есть мультимодальный трансформер и старый добрый Transformer-XL, который смотрит на предыдущие состояния памяти и строит state representation. Эта самая репрезентация состояния дальше отправляется в policy network, производящую действия клавиатурой и мышью для последовательности из 8 действий.

Агент обучается на behavioral cloning, но есть и дополнительная (auxiliary) objective в виде предсказания достижения цели. Используется также Classifier-Free Guidance (CFG, https://arxiv.org/abs/2207.12598) для улучшения text-conditioning. Полиси считается "с" и "без" обусловливания языком, а затем логиты полиси сдвигаются в сторону полученной разности (“с” и “без”):

𝜋𝐶𝐹𝐺 = 𝜋 (image, language) + 𝜆 (𝜋 (image, language) − 𝜋 (image, ·)) .

Читать полностью…

gonzo-обзоры ML статей

Microsoft продолжает линейку моделей Phi (Phi-2, Phi-1.5, Phi-1). Теперь вышла Phi-3.

Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone
https://arxiv.org/abs/2404.14219

Обучено три модели: phi-3-mini (3.8B, на 3.3T токенов), phi-3-small (7B) и phi-3-medium (14B, обе на 4.8T токенов). Модель mini совместима по структуре блоков и токенизатору с Llama 2 (наверное и с Llama 3). Модель small использует токенизатор tiktoken и чередование dense и blocksparse внимания.

Mini (3.8B) может быть запущена на телефоне, после квантизации в 4 бита она весит примерно 1.8GB, на iPhone 14 выдаёт 12 токенов в секунду. При этом по части академических бенчмарков она сравнима с GPT-3.5 (1106 версия), Gemma 7b, Llama-3-In 8b, Mixtral 8x7b.

Читать полностью…

gonzo-обзоры ML статей

Сегодняшние новости

https://sites.google.com/nyu.edu/nydeclaration/declaration

The New York Declaration on Animal Consciousness
April 19, 2024 | New York University

Which animals have the capacity for conscious experience? While much uncertainty remains, some points of wide agreement have emerged.

First, there is strong scientific support for attributions of conscious experience to other mammals and to birds.

Second, the empirical evidence indicates at least a realistic possibility of conscious experience in all vertebrates (including reptiles, amphibians, and fishes) and many invertebrates (including, at minimum, cephalopod mollusks, decapod crustaceans, and insects).

Third, when there is a realistic possibility of conscious experience in an animal, it is irresponsible to ignore that possibility in decisions affecting that animal. We should consider welfare risks and use the evidence to inform our responses to these risks.

Популярно по теме:
https://www.quantamagazine.org/insects-and-other-animals-have-consciousness-experts-declare-20240419/

Читать полностью…

gonzo-обзоры ML статей

Llama 3 announced.

* 8B and 70B models and instruction-tuned versions are available.
* Trained on more than 15T tokens, 7x+ larger than Llama 2's dataset!
* 8k context window
* New trust and safety tools with Llama Guard 2, Code Shield, and CyberSec Eval 2.

In the coming months, Meta plans to introduce new capabilities, longer context windows, additional model sizes, and enhanced performance.

https://llama.meta.com/llama3/

Читать полностью…

gonzo-обзоры ML статей

Новый AI Index Report 2024 опубликован!

Сайт: https://aiindex.stanford.edu/report/
PDF: https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_AI-Index-Report-2024.pdf

Читать полностью…

gonzo-обзоры ML статей

Модели отскейлили от 100M до 7B параметров, Griffin до 14B. Количество токенов в обучении скейлили по рецептам Шиншиллы (/channel/gonzo_ML/1216), для оценки на разных задачах модели обучали на 300B токенов. Все модели демонстрируют красивую степенную зависимость между лоссом и training FLOPs. Лоссы грифона стабильно чуть ниже трансформерного бейзлайна при том же бюджете. У ястреба повыше, но с тенденцией к уменьшению по мере роста бюджета.

Внешними бейзлайнами выступили Mamba-3B и Llama-2 (7B, 13B). Они обучены на больших (600B/2T) и отличающихся датасетах. Hawk и Griffin весьма хороши, бьют Мамбу, хоть и обучались на меньших датасетах.

Для обучения больших моделей на наборе устройств реализовали model parallel training через шардинг слоёв. Отдельный челлендж -- эффективная реализация рекуррентностей на устройствах, так как в отличие от классических архитектур они работают в режиме низкого FLOPs-to-byte ratio, и вычисления оказываются memory bound. Кастомные кернелы написали на Pallas (https://jax.readthedocs.io/en/latest/pallas/index.html), специальном расширении JAX. Как это выглядит, можно посмотреть в репе RecurrentGemma (https://github.com/google-deepmind/recurrentgemma/blob/main/recurrentgemma/jax/pallas.py). Использовали linear scan, получилось в три раза быстрее родной реализации. Через associative scan (использовался в S5, https://arxiv.org/abs/2208.04933) получается медленнее, а через свёртки это не получается, механизм гейтинга RG-LRU не совместим со свёрточным представлением.

С ростом длины последовательности обучение Грифона идет быстрее обучения трансформера. Особенно эта разница заметна, когда длина последовательности заметно больше размерности модели и вычисление внимания занимает значимую долю всего времени.

По latency на инференсе Hawk и Griffin быстрее MQA трансформера (который в свою очередь быстрее классического MHA). Заметная разница проявляется на больших длинах, в основном после 2048 токенов. Throughput у новых моделей тоже лучше (особенно у Hawk), частично от лучшего latency, частично от меньшего размера кешей и возможности запихнуть больший батч на тот же девайс. Griffin поэтому же медленнее Hawk, его кеш локального внимания растёт с ростом батча.

На предсказании следующего токена в длинной последовательности новые модели лучше трансформеров и экстраполируют на сильно более длинные последовательности (по крайней мере 4x), чем были в обучении. Из интересных наблюдений, модели, обученные на меньшей длине (2k против 8k), перформят на малых длинах лучше. Поэтому важно выбирать длину последовательности при обучении под будущие задачи.

Одна свежая работа “Repeat After Me: Transformers are Better than State Space Models at Copying” (https://arxiv.org/abs/2402.01032) показала, что трансформеры лучше работают на задачах типа копирования или retrieval’а, чем SSM. Проверили новые модели на задачах Selective Copying и Induction Heads (как в работе про Мамбу, /channel/gonzo_ML/2149). Все три модели могут идеально решить задачу копирования (но Hawk обучается медленнее). На induction jeads все три решают задачу до определённого предела длины, дальше трансформер фейлится, не может экстраполировать. На этих задачах и у Мамбы всё было хорошо (/channel/gonzo_ML/2154).

В упомянутой работе про “Repeat After Me” была предложена задача retrieval с синтетической телефонной книгой, где по имени надо выбрать номер телефона. В промпте содержится “книга”, затем два примера и имя для которого надо извлечь телефон. На этой задаче Hawk быстро скатывается в ноль с ростом длины книги, это похоже на поведение Мамбы. Что в общем неудивительно, размер состояния у него маленький. Трансформер держится до длин знакомых по обучению и после скатывается в ноль. Griffin идеально держится до длины контекста локального внимания, затем начинает деградировать, но зато экстраполирует дальше трансформера.

Интересное развитие!

Читать полностью…

gonzo-обзоры ML статей

Выпущены обновлённые Gemma 1.1

Качество улучшено, баги убраны.

https://twitter.com/robdadashi/status/1777317210836312233?t=YYrTafwNqXJj3ioHNbu26Q&s=19

Читать полностью…

gonzo-обзоры ML статей

Просочились слухи про новый гугловый TPUv6, который придёт на смену v5 (https://cloud.google.com/blog/products/ai-machine-learning/introducing-cloud-tpu-v5p-and-ai-hypercomputer).

Кроме банальных больше флопсов и более быстрой памяти, есть интересные вещи:

* Самое большое расширение микроархитектуры и системы команд за всё время существования TPU
* Специальные блоки в железе для вычисления трансформерных голов
* Оптимизированный дизайн для вычисления линейных RNN (/channel/gonzo_ML/1734) и state space models (SSM, /channel/gonzo_ML/2148). Gemini 2 или 3 будет не чистым трансформером?
* Поддержка wide 1D топологии (обычно сейчас используют 2D-3D торы) для очень длинных последовательностей
* Наконец самое забавное -- ртутное (!) охлаждение

Явно не для дома штука.

Читать полностью…

gonzo-обзоры ML статей

AI21 от которых давненько ничего не слышали, выпустил гибрид трансформера и мамбы (/channel/gonzo_ML/2148) под названием Jamba (https://www.ai21.com/blog/announcing-jamba).

Окно контекста 256K, MoE SSM-Transformer гибрид. Модель под лицензией Apache 2.0

HF: https://huggingface.co/ai21labs/Jamba-v0.1

Уверен, скоро будут SSM гибриды и от других игроков.

Читать полностью…

gonzo-обзоры ML статей

Пока новые интересные обзоры не готовы, пара анонсов для прикладных AI/ML специалистов, желающих приложить свой опыт и знания к чему-то глобально очень полезному.

#1.

Мои друзья по биоинформатике (с которыми мы вместе выигрывали один из DREAM Challenge) запустили крутое соревнование IBIS - Inference of Binding Specificities - по использованию методов биоинформатики и машинного обучения для предсказания ДНК-паттернов, узнаваемых регуляторными белками человека.

Регистрация уже открыта, соревнование продлится до середины лета, а итоги подведут осенью. Для участия пригодится навыки программирования, анализа данных и базовые знания биоинформатики.

Новые данные, куча экспериментов, неизученные факторы транскрипции, слава и почёт :) Победители станут соавторами публикации в престижном научном журнале, а лучшие методы определят стандарт поиска и представления новых ДНК-паттернов.

Организаторы соревнования - международный консорциум лабораторий из Канады-Швейцарии-Германии-России.

Соревнование пройдет полностью онлайн, подробности на сайте ibis.autosome.org.
Английский свиттер-тред: https://twitter.com/halfacrocodile/status/1767284083632095646


#2.

Другие мои друзья запускают стартап (https://www.conformal.group/) по созданию продуктов в области community management, moderation, and analytics с целью защитить создателей контента от токсичности и помочь им делать сообщества безопасными и эффективными. Первые потенциальные клиенты уже есть, ожидается быстрое и интересное развитие. Прямо сейчас (в идеале – выход с 1 апреля) нужен сильный AI/ML инженер, способный за ограниченный срок собрать прототипы в нескольких областях. Важно уметь работать с различными APIшками, понимать как использовать LLMки или другие модели и при необходимости их допиливать под задачу различными способами.

Сейчас всё на очень раннем этапе, можно значительно повлиять на всё и активно поучаствовать в создании продукта с огромным импактом. Будут конкурентные деньги, больше среднего стоков; при желании, ведущая роль в интересном проекте.

Писать сюда -> @sockeye

Читать полностью…

gonzo-обзоры ML статей

Для Gemini 1.5 убрали вейтлист и начинают выкатывать её в API. До этого была только через AI Studio и по особым приглашениям.

Также из интересного, по гугловым тестам на контексте размера 10M на всех модальностях (! не 1M как было раньше на всём кроме текста) выглядит достойно.

https://twitter.com/OriolVinyalsML/status/1770792443434139979?t=BHaM-ij3fqfsi0MdS9jAzQ&s=19

Читать полностью…

gonzo-обзоры ML статей

Ушла легенда. Умер Вернор Виндж

https://arstechnica.com/information-technology/2024/03/vernor-vinge-father-of-the-tech-singularity-has-died-at-age-79/

Читать полностью…

gonzo-обзоры ML статей

Быстрее, выше, сильнее

https://blogs.nvidia.com/blog/2024-gtc-keynote/

Читать полностью…

gonzo-обзоры ML статей

Между прочим первая модель со ста пиллиардами параметров!

Читать полностью…

gonzo-обзоры ML статей

Детали обучения: архитектуры, размеры датасета, гиперпараметры, время обучения -- ничего неизвестно. Вероятно какое-то развитие мультимодального трансформера из работы Imitating Interactive Intelligence (https://arxiv.org/abs/2012.05672) с заменой LSTM на Transformer-XL?.

Оценивать полученного агента непросто. Критерий успеха зачастую недоступен, особенно в коммерческих играх, и вообще они не созданы для воспроизводимых бенчмарков. Или агент может выполнить действие не благодаря текстовой инструкции, а потому что среда так устроена -- в идеале задача должна позволять множество действий. Где-то надо использовать OCR для считывания сообщений игры. И так далее, сложностей много.

Ещё есть важная тема с latency. Поскольку агент и мир асинхронные, надо это учитывать и при обучении (предсказывать действия со смещением во времени), и не создавать дополнительных тормозов при оценке.

В итоге оценивали 1) относительно ground truth (для исследовательских сред, где это можно получить), 2) через детектирование успеха средствами OCR, или 3) человеком (медленно и дорого).

Результаты интересны.

Во-первых, у SIMA получается достигать целей в различных средах. Не со 100% результатом, но вполне сносно. Какие-то среды легче других. Также кластеризовали по типам действий, здесь тоже перформанс довольно сильно разнится.

Провели абляции. В дополнение к стандартной SIMA, был также режим zero-shot с обучением на одну меньше среду и оценке на ней. Был вариант без предобученных энкодеров (ResNet вместо SPARC/Phenaki), вариант без языковых входов, и вариант с обучением только на эту конкретную среду (агент-специалист). Почти все агенты обучались 1.2М шагов.

Специалист побит везде, это круто. Другие бейзлайны тоже заметно побиты. Zero-shot отстаёт сильно, но тем не менее у него тоже достойный результат, недалеко от специалиста. Без CFG хуже, но без языка ещё сильно хуже.

Было ещё отдельное сравнение на других задачах из No Man’s Sky. У людей на этих задачах успешность примерно 60%, у SIMA 34%, что заметно выше бейзлайнов.

В общем есть ещё над чем работать, но результат интересный и многообещающий. Явно есть и перенос знаний между средами, и zero-shot вполне достойный.

SIMA -- это всё ещё work in progress, результаты пока предварительные. В будущем обещают отскейлить на большее число сред и задач, улучшить стабильность и контролируемость агентов, заюзать свежие крутые предобученные модели, и ещё поработать над evaluations. SIMA должна быть интересной моделью для исследования grounding абстрактных способностей языковых моделей в embodied environments. Ждём развития.

P.S. Поддержать проект можно тут patreon.com/GonzoML

Читать полностью…

gonzo-обзоры ML статей

Последние две ссылки в опрос не влезли

SIMA: https://deepmind.google/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments

Fruit fly: https://www.janelia.org/news/artificial-intelligence-brings-a-virtual-fly-to-life

Читать полностью…
Subscribe to a channel