gonzo_ml | Unsorted

Telegram-канал gonzo_ml - gonzo-обзоры ML статей

21999

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Subscribe to a channel

gonzo-обзоры ML статей

DeepSeek продолжает знатно всех будоражить. Спасибо китайцам, что всех расшевелили!

Дарио Амодеи написал эссе про экспортный контроль:
https://darioamodei.com/on-deepseek-and-export-controls

Но мне там не про экспортный контроль понравилось, а вот это вот:

"In 2020, my team published a paper suggesting that the shift in the curve due to algorithmic progress is ~1.68x/year. That has probably sped up significantly since; it also doesn't take efficiency and hardware into account. I'd guess the number today is maybe ~4x/year."

Оценка алгоритмического прогресса в 4x за год — это очень интересно.

И в целом раздел про динамику ИИ разработки любопытен. Там упоминаются три разные динамики:

1. Scaling laws. Вбухиваешь больше compute, получаешь лучше качество (при прочих равных).
2. Shifting the curve. Те самые алгоритмические улучшения, которые 4x за год.
3. Shifting the paradigm. Изменяем то, что скейлится. В 2020-2023 были предобученные модели, в 2024 появился RL и цепочки рассуждений, теперь скейлят их.

Прямо сейчас в 3-ю динамику вкладывают мало, единицы миллионов, это уже даёт хороший результат, но все работают над тем, чтобы отскейлить этот этап до сотен миллионов и миллиардов.

Ещё из интересных цифр есть стоимость обучения Claude 3.5 Sonnet: "Claude 3.5 Sonnet is a mid-sized model that cost a few $10M's to train (I won't give an exact number)."

А типа с трендом про 4x/год они как раз и ожидали модель уровня 3.5 Sonnet/GPT-4o и дешевле в 3-4 раза примерно сейчас. Ну, предсказывать прошлое легко.

"All of this is to say that DeepSeek-V3 is not a unique breakthrough or something that fundamentally changes the economics of LLM’s; it’s an expected point on an ongoing cost reduction curve. What’s different this time is that the company that was first to demonstrate the expected cost reductions was Chinese."

Основной месседж про DeepSeek в духе, что V3 был реально инновацией, в основном инженерной, "и мы за ними следили!", а R1 типо вообще не инновация. Просто реплицировали o1. А про то, что они сделали это в опенсорсе, молчат. По словам Амодеи, переход от V3 к R1 был простым и дешёвым (важна хорошая базовая модель, здесь это V3), и теперь можно ожидать хорошие модели с ризонингом от разных компаний.

В целом, сквозит в последних сообщениях OpenAI, Антропика и некоторых других относительно DeepSeek какое-то лёгкое обесценивание и попытка оправдаться, что мы не хуже. За Гуглом, к слову, такого пока не заметил.

Основная часть про экспортный контроль уже не очень интересная. Она о том, что DeepSeek глобально ничего не изменил, все и так туда идут, находки DeepSeek будут инкорпорированы в обучение несколько-миллиардо-долларовых моделей, которые получатся получше, чем ожидалось изначально, но всё равно потребуют миллионы GPU. AI умнее большинства людей ожидается в 2026-27 годах. И там вопрос, сумеет ли Китай собрать миллионы чипов — от этого зависит, будет мир униполярным или биполярным. И чтобы хорошие победили плохих, нужны экспортные ограничения.

Такие дела. Mixed feelings от всего эссе.

Читать полностью…

gonzo-обзоры ML статей

В итоге мы имеем универсальный швейцарский нож который работает действительно хорошо.

Можно детектить свою кошку, делать подписи и таким образом получать промпты для генерации картинки которая вам понравилась (пример для FLUX), поиск, эмбеддинги, использовать как часть inpainting пайплайна (выделить объект, перерисовать своей любимой диффузионкой), даже просто классифицировать, удалять с изображений фон, делать OCR (кстати лучше, чем тессеракт и многие OCR API). Да ещё и простое дообучение, народ уже штампует свои LoRA.

Это статья не про то, как авторы изобрели вундервафлю. Наоборот, они смогли упростить весь computer vision до одной функции ошибки, что меня очень впечатлило. Они получили крутую модель не потому, что закидали её данными, параметрами и сожжеными деньгами. Просто хорошо подумали, что хотят получить и как этого можно добиться.

Что делает Florence-2 одной из немногих статей за год, особенно в CV, в которой сделали что-то нетипичное относительно текущей парадмигы. Да ещё и получили полезную для нас, работяг, модель.

Скачивайте и играйтесь на HF.

Читать полностью…

gonzo-обзоры ML статей

В итоге они собирали такие типы обучающих примеров:
1. Captioning трех видов: brief, detailed, more detailed. Задачи связанные с описанием изображения.
2. Region-text: phrase, brief. Это, например, детекция: найди всех кошек. Phrase будет при этом вариацией когда в качестве промпта подается сложная фраза, а brief когда, условно, "кошка." Сюда относится и обратная задача: опиши объект в данном регионе, коротко или объемно. Это и сегментация, и OCR, и так далее.
3. Text-Phrase-Region: brief, detailed, more detailed. Это в основном про grounding: такая задача, где модели требуется выделить часть из длинного текста и сопоставить эту часть с чем-то на изображении. Например, это может быть параграф текста, в котором модели нужно выделить все сущности и выделить их на изображении.

По части данных CLIP когда-то изменил парадигму в CV: 400 миллионов собранных из интернета пар изображение-подпись оказались гораздо лучше чем 328к качественной разметки MS COCO. Масштаб победил: лучше куча мусора, но зато большая!

Florence-2 кладет всех на лопатки используя всего 126m изображений. Что меньше чем у CLIP (400m), Flamingo (185m) и даже обычного ViT (300m). Но есть важная деталь: в датасете Florence-2 на 128m изображений приходится 5 миллиардов аннотаций. Авторы называют эту парадигму multi-task learning. Вместо того, чтобы собирать огромное количество примеров (задача,изобрадеине), давайте заставим модель решать много разных задач для каждого изображения. Одно и то же изображение получает много лейблов: короткое описание, длинное описание, bbox для сущностей, сегментационные маски, и так далее. Если подумать, это разумно: я ведь не хочу модель, которая для каких-то изображений умеет делать подписи, а для других умеет делать детекцию. Я хочу модель, которая сможет сделать с любым изображением всё, что мне нужно.

Таким образом эффективное количество полезной разметки в этом датасете очень большое. Переобучения под изображения не наступает несмотря на то, что модель видит их много раз. Ведь задачи разные, а решать разные задачи с помощью запоминания сложнее, чем действительно выучить некий алгоритм "понимания" изображений.

В парадигме multi-task learning так же удобно собирать разметку. Как и во многих современных работах, авторы сделали data engine итеративно улучшающий разметку. Процесс простой: берем изображения, делаем для них разметку с помощью специализированных моделей. Возьмем наш любимый OCR, Segment Anything для сегментации, OWL ViT 2 для детекции, и так далее. Таким образом мы получаем шумную синтетику. Далее мы фильтруем её как можно лучше. Обучаем на этой версии датасета Florence-2. С помощью этой версии модели и специалистов генерируем шумную разметку снова, снова фильтруем, обучаем модель и так далее пока не надоест. Всё это возможно благодаря тому, что набор изображений небольшой и фиксированный.

Читать полностью…

gonzo-обзоры ML статей

Хороший разбор интересной статьи

Читать полностью…

gonzo-обзоры ML статей

В продолжение темы, Jay Alammar, у которого были прекрасные визуальные объяснения про работу трансформера, в сто раз лучшие оригинальной статьи, выпустил только что иллюстрированный DeepSeek-R1

https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1

Читать полностью…

gonzo-обзоры ML статей

И ещё у них, кстати, есть DeepSeek-VL2 (https://github.com/deepseek-ai/DeepSeek-VL2), llava-style VLM с MoE. На вход текст и картинки, выход текст. Семейство из трёх моделей: DeepSeek-VL2-Tiny, DeepSeek-VL2-Small, DeepSeek-VL2 с 1.0B, 2.8B и 4.5B активными параметрами соответственно.

Следующим, наверное, должна быть генерация видео 🙂

На всё открытая MIT лицензия.


Ажиотаж сегодня как с Pokemon Go в своё время. Котировки NVIDIA и ко быстро просели, хотя не думаю, что это радикально что-то меняет, ещё отыграют. Не знаю, что творится внутри команд OpenAI, Gemini/Gemma, Llama, но наверное не самое простое время. Economist разродился статьями про китайский ИИ (https://www.economist.com/leaders/2025/01/23/chinese-ai-is-catching-up-posing-a-dilemma-for-donald-trump и https://www.economist.com/briefing/2025/01/23/chinas-ai-industry-has-almost-caught-up-with-americas), и конечно интересно, как это всё отразится на Stargate.

В весёлое время живём.

Читать полностью…

gonzo-обзоры ML статей

Извинити, но это прекрасно.

"Central artificial intelligence agency"

https://www.economist.com/business/2025/01/22/a-500bn-investment-plan-says-a-lot-about-trumps-ai-priorities

Читать полностью…

gonzo-обзоры ML статей

Во-вторых, для реализации SVF делается небольшая модификация полученных матриц в виде вектора z размерности r (количество сингулярных чисел), который целевым образом модифицирует отдельные сингулярные числа умножая их на соответствующие компоненты вектора z. То есть финально SVF выглядит как W* = UΣ*V’, где Σ* = Σ ⊗ diag(z). Эти вектора z будут соответствовать отдельным экспертам, специализирующимся на различных задачах.

Задача обучения здесь — найти набор этих z-векторов, по одному на каждую downstream задачу. Каждый z-вектор можно представить как одного эксперта, который задаёт силу каждого конкретного сингулярного компонента, полученного после SVD. Какие-то компоненты ослабляются, какие-то усиливаются.

Набор SVF векторов z находится через RL старым-добрым алгоритмом REINFORCE с KL-регуляризацией на отклонение от оригинального поведения модели. Вроде как регуляризационные способности SVF помогают RL не попадать в типичные failure modes, не уходить к обучению на next-token prediction и обучаться на небольшом числе примеров.

У такого подхода есть несколько преимуществ:

1. Файнтюнинг упрощается, потому что на каждую задачу достаточно найти только значения вектора z (r чисел), не трогая все остальные веса. Для LoRA требуется (m+n)×r′, где m и n — размерности исходной матрицы весов, а r’ — гиперпараметр (тот самый LoRA rank), который должен быть достаточно большим для выразительности (может доходить и до 256, https://huggingface.co/blog/mlabonne/sft-llama3). SVF требует r = min(m, n). Это может выглядеть как ведущее к меньшей выразительности, но возможность влиять на матрицу весов полного ранга даёт больше информации, чем низкоранговые методы.

2. Композиционность улучшается. Веса исходной матрицы разбираются на независимые сингулярные компоненты, в итоге обучаемый вектор z также становится более компонуемым и интерпретируемым. У LoRA таких свойств нет (хотя, пожалуй, комбинируемость LoRA адаптеров вроде какая-то есть)

3. Возможность изменять магнитуду уже имеющихся сингулярных компонент даёт эффективную форму регуляризации с возможностью файнтюна на задачи по сотням точек без опасности серьёзного коллапса или оверфиттинга. Мне не до конца очевидно, откуда это прям следует, с большими коэффициентами в полиномах, например, очень даже можно переобучиться.

После обучения на набор заранее заданных задач мы в test-time можем производить адаптацию на конкретный пример и относящуюся к нему задачу. Адаптация заключается в следующем. Это двухпроходный алгоритм, который комбинирует K экспертов — обученных через SVF векторов z. В первом проходе на заданной задаче или промпте Трансформер^2 смотрит на своё поведение при инференсе и определяет оптимизированный к текущим условиям вектор z’ (выбирает лучшего эксперта). Этот z’ используется во втором проходе инференса для того, чтобы получить итоговый ответ с помощью новых адаптированных весов.

В работе предлагают три разных подхода к определению z’.

1) Prompt engineering. Создаётся специальный адаптационный промпт, который используется LLM для категоризации входного промпта. В зависимости от ответа извлекается одна из категорий, использовавшихся для предобучения экспертов в SVF, и соответствующий z’ для неё. Если никто не подходит, есть generic категория “others”, в случае которой используются базовые веса без модификаций.

2) Classification expert. Используется специальная система для классификации. В лучших традициях разработки компиляторов языков, когда в какой-то момент компилятор языка пишется на этом же языке, для решения этой задачи базовая LLM файнтюнится через SVF. На датасете с K задачами обучается специальный классификационный эксперт z^c, который загружается в первый проход инференса и тем самым делает более качественное определение, кого нужно использовать на втором проходе.

Читать полностью…

gonzo-обзоры ML статей

Дожили! Теперь можно заниматься машинным обучением в футбольном клубе!

Читать полностью…

gonzo-обзоры ML статей

OpenAI раскочегарился!

https://openai.com/index/computer-using-agent/

Читать полностью…

gonzo-обзоры ML статей

Перебрали разные значения гиперпараметра τ для ACDC и гиперпараметров других методов (SP и HISP). По ROC AUC метод на уровне. Можно это кратко записать как ACDC ROC AUC OK для тех, кто любит шифровки. Но ACDC неустойчив и фейлится в некоторых сеттингах, и в целом методы чувствительны к corrupted distribution. Некоторые задачи требуют индивидуального подхода -- специфических распределений и метрик, так что есть к чему стремиться с новыми методами.

Одна из фундаментальных проблем в том, что все эти методы оптимизируют единственную метрику и систематически пропускают внутренние компоненты модели, например, то что называется “negative” components, вредящие перформансу. Правда я не уловил логику, почему это так. В случае IOI не нашлись, например, Negative Name Mover Heads или Previous Token Heads. Если порог понизить, то находит, но находит и много другого, не найденного в оригинальной работе.

Другая проблема с оценками по TPR/FPR -- это качество референсных цепей, они наверняка включают лишнего.

Короче, на 100% автоматический метод не тянет, находит не всё и требует тюнинга на задачу. Но помочь может. Кроме IOI в приложениях есть найденные графы для задач Greater-Than, Docstring, tracr, Induction, Gendered pronoun completion, и прочее. Обсуждают проблемы не-нахождения гейтов ИЛИ -- ACDC обнаруживает только один вход.

Убьёшься с этими цепями, конечно…

Читать полностью…

gonzo-обзоры ML статей

Так вот, в рамках курса я решил покопаться поглубже во внутренних репрезентациях самой маленькой Gemma 2 2B, чтобы в идеале раскопать circuit для какой-то простой задачи типа сложения однозначных чисел, ну и заодно вообще поискать какие-то интересные паттерны. Оказалось это не так просто как я думал, модель хоть и маленькая, но происходит в ней дофига всего, и даже на супер простых задачах уровня “5+2=” все 26 слоёв декодера что-то делают и эмбеддинги даже визуально меняются. После работ про творческий подход к вычислению слоёв (типа /channel/gonzo_ML/2845 или /channel/gonzo_ML/2865) я думал, что они быстро устаканятся, а дальше по residual connections всё пройдёт, но нифига, и в целом выкинуть без потери качества слои особо не получается, ну один, может быть, последний причём (хотя надо ещё из середины повыкидывать, наверняка тоже норм). Но это отдельная песня, про неё как-нибудь потом расскажу, когда ещё будет время покопаться.

Пока вот вам одну картинку чтоб не так скучно было только с текстом, тут визуализирован эмбеддинг для позиции с <eos> токеном, где как раз надо предсказать первый токен ответа модели.

А следующим постом на днях я расскажу про одну из работ, где предложили свой метод нахождения circuits.

Читать полностью…

gonzo-обзоры ML статей

И ещё пятничного прекрасного вам.

Знаете Алана Бэккера?
alanbecker" rel="nofollow">https://www.youtube.com/@alanbecker

У него есть прекрасная серия анимации про стикмэна:

* Математика https://www.youtube.com/watch?v=B1J6Ou4q8vE
* Геометрия https://www.youtube.com/watch?v=VEJWE6cpqw0
* Физика https://www.youtube.com/watch?v=ErMSHiQRnc8

Я не знал, мне дети показали.

Читать полностью…

gonzo-обзоры ML статей

Смотрите как прикольно, курс по Jamba подвезли!

https://www.deeplearning.ai/short-courses/build-long-context-ai-apps-with-jamba/

Читать полностью…

gonzo-обзоры ML статей

Если таки влом смотреть все полтора+ часа, хотя бы краткое пятиминутное саммари в конце посмотрите (https://www.youtube.com/live/K4qQtPpSn-k?si=31y78rUWafp2BaqT&amp;t=6696). Во-первых, это просто красиво.

Читать полностью…

gonzo-обзоры ML статей

"Bloomberg has reported that Microsoft is investigating whether data belonging to OpenAI - which it is a major investor in - has been used in an unauthorised way."

https://www.bbc.co.uk/news/articles/c9vm1m8wpr9o.amp

Это даже немного смешно. Чуваки, которые спарсили весь интернет, не заплатив никому из авторов всех этих данных (кроме тех, кто их потом засудил), теперь говорят, что данные спёрли у них.

Читать полностью…

gonzo-обзоры ML статей

Когда данные готовы остается придумать как обучать модель. Нужно, чтобы модель могла и читать текст, и писать текст, и квадратики с полигонами рисовать. В 2017 Vasvani et. al подарил нам универсальный способ представить и обработать что угодно:
1. Сделаем из входа последовательность токенов.
2. Засунем в трансформер.

Изображение превращается в эмбеддинги патчей по методологии как в Visual Transformer. Текст превращается в эмбеддинги как в любой языковой модели. Здесь всё стандартно. Из необычных инноваций: давайте сделаем специальные токены для координат. Авторы покрыли изображение сеткой и для каждой точки на сетке ввели специальный токен. Например, есть токен для точки (0, 0). Это как бы служебное слово, точно так же как <pad>, <unk> и прочие. Вы можете подавать его на вход модели, можете получать на выход. Готово, ваша модель умеет оперировать координатами в явном виде, а значит может читать и создавать ббоксы и полигоны. Токенизация это одна из главных причин почему LLM на данный момент не умеют делать детекцию: у них нет нормальной репрезентации для локаций на изображении. Авторы решили вопрос максимально просто и элегантно. Теперь любой вход можно представить как последовательность и засунуть в трансформер.

Ладно, мы можем засунуть это в трансформер. Но как же лейблы? Что на выходе? Нам нужно как-то обучать модель делать классификацию, детекцию и сегментацию. Но функции ошибок для каждой из этих задач совершенно разные.

Вот это самая интересная часть статьи. Авторы просто выбрасывают всё, что мы придумали в CV, и заменяют одной функцией ошибки: cross-entropy loss. Они фиксируют, что вход должен быть json и выход должен быть json. Так что модель становится авторегрессионным генератором текста, точно так же как GPT, и просто предсказывает следующий токен. Следующий токен может быть в том числе одним из токенов зарезервированных под координаты. То есть эти ребята взяли и заменили весь наш computer vision на NLP. Одна функция ошибки, чтобы править всеми, и по наши костыли наконец-то пришел bitter lesson.

То есть в плане архитектуры Florence-2 это на самом деле VLM.

Читать полностью…

gonzo-обзоры ML статей

Админ трогал траву как не в себя, но наконец добрался рассказать вам про самую поразительную работу за 2024.

Я считаю, что про неё недостаточно говорят, а про решателей шокльной математики (o1/o3) и агентов слишком много. Ваша любимая 400b VLM плохо рисует bounding boxes, а эта 770m шутка делает их отлично хоть на CPU. При этом VLM обучалась на немыслимом количестве данных, а у этой штуки было меньше примеров, чем у CLIP. Да что далеко ходить: у меня друг делает стартап по CV, мы с ним обсуждали эту модель, он её попробовал и перестал обучать свои YOLO детекторы: потому что эта штука просто работает. Причем несмотря на необходимость обнаруживать строительные машины на фотографиях с плохих камер в родной атмосфере слякоти и грязи.

#обзор_статьи
# Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
Скачивайте и играйтесь на HF.

Что если я скажу, что есть модель, которая умеет хорошо делать Zero-Shot детекцию, сегментацию, captioning и OCR? Что при этом её можно промптить, например требуя найти на картинке всех собак или сделать сегментацию объекта внутри ббокса? Вы наверное подумаете, что это новая огромная VLM. Но нет, эта модель размером всего 770M, то есть как большой ViT. Можно запускать хоть на CPU. Более того, её можно дообучать, в том числе легко сделать из неё supervised детектор прикрутив ей свою любимую голову, скажем от DETR.

В Computer Vision у всех комплексы по поводу foundational models. Мы завидуем ребятам из NLP. Стало модно выпускать большие модели и говорить: "теперь у нас тоже фаундейшнл!" Однако что такого foundational, скажем, в Segment Anything? Это просто сегментатор обученный на большом количестве качественной синтетики. В моем понимании foundational это когда ты в свободной форме даешь модели любую задачу и она её решает, как GPT-4o, а не когда тебе нужно определенным образом зампромптить модель, чтобы получить решение задачи сегментации.

Florence-2 это первая модель в CV которую я действительно готов назвать foundational. С одной стороны из-за её широкой полезности, так как она позволяет решать все популярные задачи в CV. Но так же из-за того, каким образом она сделала. Минимум костылей, как вы сейчас увидите.

Перейдем к сути, благо статья простая и благодаря этому очень красивая. Авторы рассуждают последовательно.

Чего мы хотим от универсальной CV модели?
1. Image-level understanding: понимание высокоуровневой семантики. Например, на картинке кошка или собака? Можно так же сказать, что это способность связать изображение и текстовое описание. Эту задачу отлично решает CLIP.
2. Region/pixel-level recognition: обнаружение объектов на изображениях и понимание их расположения. С этим отлично справляются supervised классификаторы, детекторы и сегментаторы.
3. Fine-grained visual-semantic alignment: связь между областями изображения, в том числе совсем маленькими, и текстом. Обнаружение частей изображений которые относятся к фразам, объектам, атрибутам и отношениям. Это способность обнаружить и отличить "нос собаки", "нос собаки слева", "нос рыжей собаки", "коричневый нос собаки" и так далее.

Когда желания определены дело за малым: выбрать данные, функцию ошибки и архитектуру. Через эти компоненты мы по факту формируем оптимизационную задачу.

Авторы решили, что для получения трех компонент понимания изображений нужно много разных аннотаций, которые можно распределить по двум осям:
1. Spatial hierarchy: аннотации должны включать разные масштабы изображений, чтобы модели требовалось понимание и на уровне изображения, и на уровне пикселей.
2. Semantic granularity: в текстах (описаниях, промптах, лейблах) должны встречаться разные уровни абстракции, требующие от модели как понимания общих концептов, так и небольших деталей и нюансов.

Читать полностью…

gonzo-обзоры ML статей

Ирония технологической гонки

**

Кто не в курсе еще, то модель DeepSeek выкатил китайский хедж-фонд ))

Все тут - https://fastsalttimes.com/quant-fund-to-create-superintelligence/🤣

Читать полностью…

gonzo-обзоры ML статей

Статьи:
* DeepSeek-V3 (https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf)
* DeepSeek-R1 (https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf)
* Janus-Pro (https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf)
* DeepSeek-VL2 (https://github.com/deepseek-ai/DeepSeek-VL2/blob/main/DeepSeek_VL2_paper.pdf)

Читать полностью…

gonzo-обзоры ML статей

DeepSeek moment

Нельзя ничего не сказать про DeepSeek. Эти ребята просто супер молодцы — так задизраптить всё поле мало кому удавалось. Ну OpenAI со своим ChatGPT, потом Цукерберг с Llama в опенсорсе, теперь вот DeepSeek.

DeepSeek сумели обучить модели хорошего качества по ценам на порядок ниже конкурентов.

Во-первых, DeepSeek-V3 (https://github.com/deepseek-ai/DeepSeek-V3), включает две модели DeepSeek-V3-Base и чат-версию DeepSeek-V3. Обе являются MoE с 671B параметров всего и 37B активных. Не для простых смертных модели, надо иметь неслабую multi-GPU конфигурацию что-то типа 8 H200 (но есть сжатые варианты от разных товарищей). По качеству где-то уровня GPT-4o 0513 и Claude-3.5-Sonnet-1022 и выше LLaMA-3.1 405B.

Есть разные оценки, сколько стоило обучение Ламы 3.1 405B. В самой работе (https://arxiv.org/abs/2407.21783) сказано, что использовалось до 16,384 H100 и упоминается предобучение в 54 дня (но там и другие этапы обучения были). Одна из не самых высоких оценок говорит, что стоить должно было порядка $60M (https://x.com/_LouiePeters/status/1816443587053092917?lang=en).

Про DeepSeek-V3 известно чуть конкретнее. Они использовали H800, урезанный для Китая экспортный вариант H100, и они сами пишут, что для полного обучения потребовалось 2.788M H800 GPU-часов, что соответствует $5.576M при цене аренды H800 в $2 за час.

Ну типа на десятичный порядок меньше. При сравнении с OpenAI наверное разница ещё больше.

Это как с Индией, которая отправляла аппараты на Марс и Луну дешевле, чем в Голливуде фильмы про космос делаются: марсианский Mangalyaan за $74M и лунный Chandrayaan-3 за $75M против фильма “Гравитация” за $100M (https://www.business-standard.com/india-news/what-makes-india-s-space-missions-cost-less-than-hollywood-sci-fi-movies-124110400430_1.html).

Во-вторых, DeepSeek-R1 (https://github.com/deepseek-ai/DeepSeek-R1), модели с ризонингом по типу OpenAI o1 или Google Gemini Thinking. В семействе две модели: DeepSeek-R1-Zero и DeepSeek-R1, обе построены на базе DeepSeek-V3-Base и такого же большого размера.

DeepSeek-R1-Zero (по аналогии с AlphaZero) обучена чистым RL (Group Relative Policy Optimization, GRPO — вариант PPO из другой их статьи, https://arxiv.org/abs/2402.03300), без SFT. Я думаю это очень значимый результат, как в Го оказалось, что можно без человеческих партий, так и здесь постепенно оказывается. Из интересного, во время обучения у модели случился “aha moment”, когда в цепочке рассуждений модель выдала “Wait, wait. Wait. That’s an aha moment I can flag here.” и пересмотрела изначальный подход к решению задачи.

Zero хороша, но иногда уходит в повторы, смешивает языки, не очень читабельна. DeepSeek-R1 перед RL обучена на небольшом (тысячи) количестве CoT примеров, они это называют Cold start data, чтобы дать более качественную начальную точку для RL. Далее тот же Reasoning-oriented RL, что и у Zero. Далее SFT на ризонинг (600k) и не-ризонинг (200k) данных. И потом ещё дополнительный этап RL. Эта модель сравнима с OpenAI-o1-1217.

Из того, что не привело к успеху: Process Reward Model (PRM) и Monte Carlo Tree Search (MCTS).

Также выпущена куча dense дистиллятов (1.5B, 7B, 8B, 14B, 32B, 70B) из R1 на базе Qwen и Llama. Эти сопоставимы с OpenAI-o1-mini.

HuggingFace взялся за Open R1 (https://github.com/huggingface/open-r1), полностью открытое воспроизведение DeepSeek R1. В кои-то веки не Китайские исследователи догоняют западных, а наоборот!

Но и этого DeepSeek показалось мало, и сегодня они выпустили ещё и Janus-Pro, развитие предыдущего Janus (https://github.com/deepseek-ai/Janus) с улучшенным обучением, данными и большим размером. Это мультимодальная моделька на 1B и 7B, умеет принимать на вход текст и картинки и на выходе тоже выдавать текст и картинки. На генерации вроде как бьют Dalle-3, SDXL, SD3-Medium.

Читать полностью…

gonzo-обзоры ML статей

3) Few-shot adaptation. Вычисляется новый z′ как взвешенная комбинация имеющихся выученных SVF векторов. Коэффициенты α_k при этих векторах находятся через Cross-entropy method (CEM) на наборе few-shot prompts. Это надо сделать лишь единожды для каждой целевой задачи, при этом в отличие от классического few-shot в промптинге здесь нет нужды увеличивать размер рабочего промпта, добавляя в него примеры.

Какие результаты у квадратного трансформера?

Взяли три LLM из пары разных семейств: Llama3 8B Instruct, Mistral 7B Instruct v0.3 и Llama3 70B Instruct.

Для каждой модели находят три набора z-векторов под задачи GSM8K, MBPP-pro и ARC-Easy соответственно. То есть математика, program synthesis и reasoning. Для Llama3 8B также обучили вектор для TextVQA. На соответствующих тест-сетах SVF даёт стабильное улучшение, часто превосходящее LoRA с рангом 16 (эти обучались на next token prediction, через RL тоже пробовали, но с RL LoRA хуже SVF). Авторы считают, что тут дело в RL, его training objective не требует идеального решения для каждого примера, что не так в случае лоры. Также SVF более параметр-эффективно, количество обучаемых параметров менее 10% от LoRA.

После обучения SVF и получения z-векторов можно оценить качество адаптации к новым задачам. Оценивают на задачах MATH, Humaneval, ARC-Challenge, OKVQA. Результаты LoRA здесь примерно никакие (всё хуже), а Transformer^2 даёт улучшение почти везде. Метод адаптации Few-shot лучший. Интересно, что даже на VLM задаче с векторами обученными на совсем других текстовых задачах Transformer^2 демонстрирует заметное улучшение. Видимо, реально полезная параметризация.

Интересна визуализация весов отдельных векторов α_k для третьего варианта адаптации. Например, при решении задач MATH там нет доминирования весов от GSM8K, для Llama3 8B почти половину вклада дают веса от ARC. На других задачах и у других моделей тоже нетривиальные миксы. А для первого и второго варианта адаптации, основанных на классификации, confusion matrices показывают, что примеры хорошо матчатся с экспертами, обученными на соответствующих доменах.

Второй проход по времени инференса обычно существенно дольше первого, и вклад первого прохода относительно второго в зависимости от задачи (в реальности от количества генерируемых токенов) составляет от 13% до 47%.

Абляции показали, что применение SVF и к вниманию, и к MLP даёт буст — к MLP больше, но там и весов больше, а лучше сразу к обоим. RL objective даёт сильно лучший результат, чем next token. А LoRA с RL хуже, чем SVF с next token.

Интересный эксперимент с переносом векторов-экспертов между разными LLM. Перенос векторов от Ламы на Мистраль улучшает результат на двух задачах из трёх. На ARC-Challenge это даже лучше собственных результатов Мистраля. Это потенциально интересный результат, надо копать дальше.

В общем, интересная работа. Мне сама параметризация нравится, она красивая и понятная. Может даже к интерпретируемости что-то добавит. Ну и то, что оно лучше Лоры работает, это тоже, конечно, прекрасно. Хотя пока у Лоры остаётся преимущество в виде скорости, там нет двух проходов. Но, может быть, в эпоху test-time scaling (/channel/gonzo_ML/3175) это уже не так важно.

Ну и традиционно напоминаю, что у канала есть Патреон (https://patreon.com/GonzoML) и Boosty (https://boosty.to/gonzoml). Спасибо за то, что вы с нами :)

Читать полностью…

gonzo-обзоры ML статей

Transformer^2: Self-adaptive LLMs
Qi Sun, Edoardo Cetin, Yujin Tang
Статья: https://arxiv.org/abs/2501.06252
Блог: https://sakana.ai/transformer-squared/
Код: https://github.com/SakanaAI/self-adaptive-llms

“Трансформер в квадрате” (Transformer-squared) — новая работа от Sakana.ai, компании, которую я уважаю, особенно их фаундера David Ha. В частности он, вместе со Шмидхубером, написал одну из статей (https://arxiv.org/abs/1803.10122), стартовавших новую волну работ по World Models (/channel/gonzo_ML/3176). Микро-разбор этой статьи внутри другого разбора был у нас тут (/channel/gonzo_ML/186). Также Дэвид стабильно участвует в разных немейнстримовых интересных работах, некоторые из которых мы тут разбирали (/channel/gonzo_ML/233). Они же выпустили недавно нашумевшего AI Scientist (https://sakana.ai/ai-scientist/). Они же занимаются nature-inspired алгоритмами и artificial life. Если вы в Японии или только хотите туда, рассмотрите вариант с этой компанией-лабой в Токио, они подняли раунд A и набирают людей.

С момента появления статьи я сколь-нибудь внятных разборов так ни у кого и не увидел, придётся сделать.

Transformer^2 — это интересный способ адаптации LLM, альтернатива файнтюнингу и LoRA в частности. В двух словах идея в том, что мы все матрицы обученных весов LLM раскладываем через SVD, а затем файнтюн/адаптация будет заключаться в масштабировании сингулярных чисел этого разложения — какие-то сингулярные компоненты усиливаем, другие гасим. И будут разные "эксперты" с разным миксом имеющихся в модели сингулярных компонентов. Выучить коэффициенты при сингулярных числах — это сильно меньше чем полный файнтюн и даже чем LoRA. И более того, эти коэффициенты можно находить в test-time, когда в первом проходе forward pass мы анализируем задачу и выясняем тему (как нужно адаптировать эти коэффициенты = какие эксперты нужны для решения данной задачи), а во втором проходе forward pass просто применяем нужные коэффициенты (активируем нужных экспертов) и решаем задачу.

Далее к деталям.

Традиционный подход к адаптации предобученной модели — fine-tuning, он же post-training. Идейно он простой — собрали данные и дообучили — но на практике ресурсоёмкий, требует достаточно времени и компьюта. Самоадаптирующиеся (self-adaptive) модели более гибки. Вместо того чтобы сразу обучить LLM на все задачи за один шаг, можно независимо дорабатывать модули с экспертами и добавлять к модели по необходимости. В целом направление MoE (Mixture-of-Experts, про него мы писали много, можно поискать в канале, например, /channel/gonzo_ML/472) ныне очень популярно, одно из свежих решений — Self-MoE (https://arxiv.org/abs/2406.12034), но текущие MoE всё же в основном задаются до обучения и обучаются классически.

Transformer-squared заходит с чуть иной стороны. Обычный файнтюнинг занимается модификацией матриц весов, полученных в процессе обучения и содержащих достаточно богатую информацию, чтобы решать различные задачи. Вместо того чтобы пытаться добавлять новые фичи файнтюнинг должен концентрироваться на выявлении этих латентных способностей и делании их более выраженными. То есть надо найти, какие эксперты уже есть в модели (даже без MoE), и научиться применять их к релевантным задачам, модифицируя веса прямо в test-time.

Transformer^2 строится на основе Singular Value Fine-tuning (SVF), который обеспечивает эффективную параметризацию для файнтюнинга и даёт композициональность для адаптации. Во время обучения делается SVF, во время инференса само-адаптация (self-adaptation).

SVF делает это следующим образом.

Во-первых, как я понял из кода, сначала каждая матрица весов W предобученной модели раскладывается через SVD в W = UΣV’. Тут никакой экзотики, чистый U, S, V = torch.svd(v). Кто плохо знаком с SVD (Singular Value Decomposition), разберитесь, это крайне полезный алгоритм линейной алгебры (хороший текстовый ресурс: https://gregorygundersen.com/blog/2018/12/10/svd/, хорошее видео интро https://www.youtube.com/watch?v=gXbThCXjZFM и далее в его же канале).

Читать полностью…

gonzo-обзоры ML статей

Итак, более полная информация из блогпостов:
— Computer-Using Agent (CUA) объединяет возможности обработки изображений GPT-4o и рассуждения модели посредством обучения с подкреплением (Reinforcement Learning); CUA обучен взаимодействовать с графическими пользовательскими интерфейсами — кнопками, меню и текстовыми полями, которые люди видят на экране. Использование RL, как и в случае o1/o3, означает, что как только OpenAI наладят процесс сбора данных для закидывания в обучающий процесс — прогресс попрёт.
— Компания несколько раз пишет, что это research preview, который может ошибаться и не работать, он не надёжен. И в то же время они очень ждут обратной связи на то, что и где не работает, чтобы в ближайших итерациях это исправить. В настройках можно включить опцию тренировки на ваших запросах и сессиях — я это обязательно сделаю, чтобы именно мои задачи начали решаться лучше.
— Если CUA сталкивается с трудностями или совершает ошибки, то оно может выбраться из ямы за счёт рассуждений и самокоррекции. Если это не удастся — система возвращает управление пользователю с запросом на конкретные действия.
— Оператор обучен заранее просить пользователя взять на себя выполнение задач, требующих захода в систему по данным учётной записи, ввода платежных данных или решения CAPTCHA (да-да, теперь мы решаем капчу за машин).
— Пользователи могут удалить все данные о просмотренных сайтах и выйти из всех аккаунтов одним щелчком мыши в разделе «Конфиденциальность» в настройках. Прошлые запросы к Operator также можно быстро удалить. Отсюда следует, что в Operator будут храниться ваши учётные и платежные данные (ну, как в обычном браузере, то есть сессия делится между разными запросами), и что не нужно логиниться каждый раз или добавлять свою карточку.
— OpenAI делает большой упор на безопасность системы и устойчивость к атакам. Весь процесс мониторится отдельной моделью, которая может вызвать остановку выполнения, если что-то не так. Кроме этого, некоторые подозрительные ситуации будут отправляться на ручную проверку, по результатам которой атаку/проблему можно пометить и быстро добавить в мониторинг (в течение нескольких часов).
— На агентских бенчмарках, как писал выше, результаты везде лучше всех других, включая Anthropic Computer Use. Про бенчмарки напишу отдельные посты на выходных, чтобы понять, что мы оцениваем.
— Что интересно, так это примеры, выложенные в блоге. Очень рекомендую с ними ознакомиться, чтобы понять, как формировать свои запросы (там есть примеры неудачных запросов, когда одна и та же задача то решается в 10/10 раз, то 3/10 если не так попросить или что-то не уточнить). В этих примерах по 150-450 шагов (!) выполнения задач. Правда каждый шаг очень маленький — сюда входят даже скриншоты страницы и нажатия кнопки Enter для отправки запроса.
— Чем больше шагов, тем больше качество (что показывает способность модели к выходу из тупиков). OpenAI гордо пишут «We observed test-time scaling», а там где scaling, там и приросты не за горами.
— Один из примеров запросов, который мне понравился и наподобие которого я буду закидывать сам: «Help me export charts, graph or other images from docx files received in email "Lecture Document" in Notes folder and upload these png files to the figures/ folder in Google Drive for later use (use numbers to name them)»

Выходя за рамки специализированных API-интерфейсов, удобных для работы с агентами, CUA может адаптироваться к любой доступной компьютерной среде, по-настоящему охватывая длинный хвост вариантов использования, которые остаются вне досягаемости большинства ИИ-моделей на данный момент.

Читать полностью…

gonzo-обзоры ML статей

Все уже видели, конечно. Проект на $500B

https://openai.com/index/announcing-the-stargate-project/

Читать полностью…

gonzo-обзоры ML статей

Towards Automated Circuit Discovery for Mechanistic Interpretability
Arthur Conmy, Augustine N. Mavor-Parker, Aengus Lynch, Stefan Heimersheim, Adrià Garriga-Alonso
Статья: https://arxiv.org/abs/2304.14997
Код: https://github.com/ArthurConmy/Automatic-Circuit-Discovery

Статья про mech interp с NeurIPS 2023, предлагают автоматизацию нахождения цепей (circuits) и несколько алгоритмов, включая Automatic Circuit DisCovery или ACDC 🤘

Типичный воркфлоу в mech interp включает три шага.

1) Вы определяетесь с поведением модели, которое хотите изучить, собираете набор промптов, демонстрирующих это поведение, и выбираете метрику. Этот набор будет здесь называться датасетом, но важно, что это никакой не обучающий датасет, обучения тут нет. Чем чётче определите целевое поведение, тем легче будет с ним работать.

2) Выбрать нужный уровень гранулярности, на котором хочется искать ответ. Это могут быть токены, головы внимания, конкретные Q,K,V активации, отдельные нейроны и интеракции между ними. В результате получаем граф (DAG) взаимосвязанных узлов.

3) В полученном графе ищем рёбра, образующие нужную нам цепь. Рёбра проверяем через рекурсивный activation patching: портим какую-либо активацию (перезаписываем нулём, средним значением по датасету, или лучше значением от другого примера, так больше шансов не вылезти за привычный диапазон), делаем forward pass, сравниваем результат модели по выбранной метрике. Так мы убираем из графа максимум того, что не влияет. Начинаем с выходной активации и двигаемся вглубь.

После того, как мы изолировали подграф, у нас есть цепь. Можно исследовать её и выдвигать гипотезы, что именно она реализует.

Текущая работа (почти) полностью автоматизирует третий шаг.

Итак, у нас есть набор промптов, реализующих выбранную задачу и набор негативных промптов без этой задачи. Активации из негативных примеров используются для activation patching.

ACDC итерирует от выходов ко входам вычислительного графа, начиная с выходного узла (узлы топологически отсортированы в обратном порядке). В каждом узле алгоритм стремится убрать максимум входящих в узел рёбер, так чтобы не ухудшить перформанс модели на выбранной метрике. Ухудшение оцениваем по изменению KL-дивергенции и ребро удаляем, если изменение ниже заданного порога τ>0. На выходе процедуры у нас есть разреженный граф с хорошим перформансом на выбранной задаче. Можно это рассматривать как задаче-специфичный прунинг, если угодно, что по-своему может быть интересно и в других местах.

Интересно, насколько на практике удалось проредить граф. Если я правильно понимаю, для GPT-2 small (124M параметров) на задаче Indirect Object Identification (IOI, https://arxiv.org/abs/2211.00593) найденный подграф содержит 1041 ребро. При этом рёбра это всё-таки не отдельные веса, а головы внимания (разделённые на Q, K, V) и MLP. В работе упоминают, что всего в этой модели 32923 рёбер.

Вместо ACDC могут быть применены и другие методы, например, Subnetwork Probing (SP, https://aclanthology.org/2021.naacl-main.74/) или Head Importance Score for Pruning (HISP, https://arxiv.org/abs/1905.10650).

Попытались оценить, как метод отвечает на два вопроса:
Q1. Идентифицирует ли метод подграф, отвечающий алгоритму, лежащему в основе того, что реализует нейросеть?
Q2. Избегает ли метод включать компоненты, не участвующие в изучаемом поведении?

Ответам на эти вопросы соответствуют высокий true-positive rate (TPR) для Q1 и низкий false-positive rate (FPR) для Q2, что отлично сочетается в ROC-кривой. В качестве канонических ground truth цепей взяты найденные в предыдущих работах, и дальше решается задача бинарной классификации каждого их рёбер графа (принадлежит он цепи или нет).

Читать полностью…

gonzo-обзоры ML статей

On Interpretability

Я тут немного погрузился в тему interpretability пока проходил курс AI Alignment (/channel/gonzo_ML/2934). В целом в interpretability я особо не верил, потому что ситуация довольно быстро идёт к созданию систем очень большой сложности и чем дальше, тем больше надо пытаться интерпретировать сущность всё более близкую по сложности к мозгу (а в перспективе и более сложную). Глобально я не верю, что система меньшей сложности может хорошо интерпретировать работу системы большей сложности, кроме каких-то вырожденных случаев или прям очень сильных коррелятов какой-то целевой функции (что наверное будет редкостью). Так что, опять же глобально, я думаю, что жить нам дальше с системами, которые мы не сможем интерпретировать, как в общем мы и сейчас живём, не зная что там у соседа в голове.

Но тем не менее, полезно принять чужую точку зрения и посмотреть на ситуацию с неё, что я и сделал.

Одна из ценных находок для меня -- это посты Криса Олаха (Chris Olah, https://colah.github.io/), работы которого на Distill (https://distill.pub/) мне всегда нравились. Из работ после Distill у него и ко была хорошая серия про Transformer Circuits (https://transformer-circuits.pub/). Он кстати и кофаундер Антропика заодно, и в недавнем ноябрьском 5+ часовом (/channel/gonzo_ML/3036) Лексе Фридмане он тоже был.

В одном из довольно старых постов на Distill “Zoom In: An Introduction to Circuits” (https://distill.pub/2020/circuits/zoom-in/) мне понравилась метафора микроскопа и мысль про полезность для науки делать zoom in. Мол, микроскопы помогли нам увидеть клетки и открыли дорогу к клеточной биологии. Они дали не количественно новое понимание, а качественно. В этом смысле и, например, визуализации работы нейросетей могут выступить в такой же роли.

Работа про zoom-in делает три спекулятивных утверждения (хотя какие-то подтверждения этих тезисов мы видели):

1. Фичи (features, линейные комбинации конкретных нейронов) -- фундаментальные юниты нейросерей, они задают некие направления в линейных пространствах активаций нейронов слоя. Их можно подробно исследовать и осмыслять.
2. Схемы (circuits, вычислительные подграфы нейросети) -- образуются из фич, которые соединены весами. Тоже можно иследовать и изучать.
3. Универсальность (universality) -- самая спекулятивная часть -- аналогичные фичи и схемы формируются в разных сетях, решающих разные задачи.

Ну, прикольная программа. В 1 и 2 я очень даже верю, насчёт 3 сомневаюсь, вернее верю с оговорками, там конечно должно быть сильное влияние inductive biases и прочих данностей. Но прикольно, если окажется, что несильное.

Это конкретно ложится в тему mechanistic interpretability (mech interp), тут делают zoom-in, изучают выученные репрезентации, ищут circuits. Там рядом есть другие темы, которые мне в целом больше нравятся, например developmental interpretability (dev interp, https://devinterp.com/), где больше смотрят, как структура модели изменяется во время обучения, какие там есть фазы и т.п. Условный Гроккинг (/channel/gonzo_ML/831) или работы покойного Нафтали Тишби (https://www.youtube.com/watch?v=utvIaZ6wYuw) скорее сюда.

С dev interp начинать сложновато (хотя если выбрать хороший модельный объект, свою дрозофилу, то может это и не так…). Решил начать с mech interp, тут можно уже на готовых обученных моделях что-то делать, с более короткими циклами. Попутно это всё даёт возможность покопаться в основах, поближе к first principles. Ощущения почти как в старые добрые времена когда на ассемблере или в машинных кодах писал 🙂 Всегда хорошо под микроскопом посмотреть что там в трансформере на низком уровне происходит, а то все высоко в небеса нынче ушли.

Читать полностью…

gonzo-обзоры ML статей

In the meantime, если вы не смотрели нобелевские лекции Хопфилда и Хинтона, то рекомендую:

https://www.youtube.com/watch?v=lPIVl5eBPh8

У Хинтона неплохое краткое введение в BM, RBM и stacked RBM. Многие их уже не застали, но полезно знать эту часть истории.

Хинтона вообще полезно слушать, даже когда вроде бы знаешь, что он хочет сказать. Каждый раз какие-то новые интересные вещи для себя открываешь. Вот, например, читая статью про алгоритм обучения Forward-Forward, неожиданно наткнулся на тему про Mortal Computations (в том же посте), которая прикольная, хоть её некоторые и не любят.

Сейчас, наверное, от очередного упоминания Хинтона и Нобелевки у кого-то снова пригорит 😆

Читать полностью…

gonzo-обзоры ML статей

https://www.youtube.com/watch?v=okhQtoQFG5s

Читать полностью…

gonzo-обзоры ML статей

Специальные чипы вроде как становится дизайнить проще и дешевле (/channel/gonzo_ML/3147), может кто-нибудь создаст на ARM или Risc-V? И с дофига памяти.

Cerebras, кстати, мог бы выпустить Cerebras mini, например :)

World models и агенты

Увидел у Хуанга очень много мыслей, про которые думал и сам. Буквально недавно (/channel/gonzo_ML/3175) писал и про агентов, что это тот же самый test-time compute, и про важность world models. Приятно, на одной волне.

Скейлинг продолжается. Более того сейчас действуют сразу 3 scaling laws:
* pre-training scaling (as usual)
* post-training scaling (RLHF, RLAIF, …)
* test-time scaling (reasoning)

И Нвидии будет прекрасно и дальше жить в этом мире.

Про онбординг агентов и HR-истории для них мы тоже в Intento когда-то довольно много говорили, что всё это в конечном счёте приводит к гибридным командам. Сейчас мы как никогда близки к этому. Хуанг говорит, что IT-департаменты компаний станут HR-департаментами для агентов.

NVIDIA теперь пытается сделать AI libraries по аналогии с CUDA libraries. Это будет экосистема вокруг NIM, NeMo, AI Blueprints. Тема хорошая, но в доминирование Нвидии здесь я, честно говоря, верю меньше, потому что на архитектуру их чипов это уже никак не завязано, но с другой стороны NVIDIA настолько системный игрок, оперирующий на разных уровнях стека, что кроме них может никто лучше и не может системно подойти к вопросу. Посмотрим, сработает ли это, или отдельные компоненты и их интерфейсы и сами по себе (усилиями других) придут к хорошим архитектурным решениям. Я скорее верю во второе.

Анонсировали оптимизированные Ламы, семейство Llama Nemotron: Nano, Super, Ultra. Прикольно конечно Цукерберг (с ещё одной founder-led компанией) задизраптил всех. Самое интересное ещё впереди, посмотрим как экосистема сложится через год-два.

Прошёлся по Windows с желанием из Windows PC сделать AI PC на основе WSL2, второй версии Window Subsystem for Linux (система, интегрирующая Linux в винду). NVIDIA собирается ориентироваться на WSL2, так что AI PC появится отсюда. Так понимаю, это альтернативный путь тому, что предложил Microsoft со своими Copilot в винде.

Другая большая тема -- Physical AI и (сюрприз-сюрприз) world models. NVIDIA Cosmos -- это платформа для таких моделей, где среди World Foundation Models в наличии авторегрессионные и диффузионные модели, токенизаторы видео и пайплайны для обработки видео. Тоже планируется линейка Nano, Super, Ultra. Интересно, что модели Ultra позиционируются как модели-учители, для дистилляции например. Модель (не уверен какая именно) в Cosmos обучена на 20 миллионах часов видео.

Теперь есть Omniverse для рендера и Cosmos для нейро рендера. Интересно, здесь Цукерберг собирается дизраптить? Сначала они делали похожие штуки про Omniverse/Metaverse, теперь вот у одних есть LLM, а у других оптимизированная та же LLM + World Models -- чувствуется лёгкая асимметрия в такой конфигурации, пустота должна быть заполнена :)

Omniversе по сути physics-based и выступает как ground truth для Cosmos. Это прикольная конфигурация, мне она нравится. Хуанг сравнивает это с RAG для LLM. Отсюда ещё один заход на то, как могут выглядеть игровые движки ближайшего будущего (/channel/gonzo_ML/3176).

Платформа Cosmos выложена на гитхабе (https://github.com/NVIDIA/Cosmos) под Apache 2.0, а модели на Huggingface под Нвидиевской открытой лицензией (сильно в детали пока не вникал, но по крайней мере “Models are commercially usable. You are free to create and distribute Derivative Models. NVIDIA does not claim ownership to any outputs generated using the Models or Model Derivatives.”).

Хуанг много говорил про digital twins, роботов и автомобили, здесь тоже много анонсов, включая процессоры, Drive OS, Isaac GROOT. Нвидиа целится в роботов трёх типов: Agentic AI, Self-driving cars, humanoid robots.

Везде вообще упирает на токены, всюду токены. Ждём коммуналки с графой про оплату за токены. И токеноотведение.

Читать полностью…
Subscribe to a channel