gonzo_ml | Unsorted

Telegram-канал gonzo_ml - gonzo-обзоры ML статей

21999

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Subscribe to a channel

gonzo-обзоры ML статей

Сергей Марков дописал свою большую двухтомную книгу про ИИ «Охота на электроовец: большая книга искусственного интеллекта»! Поздравляем!

Я читал ранние версии и знаю, что Сергей проделал огромную работу по сбору исторического материала. Абсолютно разумно и без хайпа, с технически достоверными обзорами архитектур. Рекомендую.

Полные электронные версии книги (epub, docx, pdf) можно скачать с сайта бесплатно:

https://markoff.science

Читать полностью…

gonzo-обзоры ML статей

А вот вам ещё прекрасного про физику, но теперь на 3 страницы вместо 510.

The forest as a neutrino detector
https://arxiv.org/abs/2401.14454

The primary challenge in detecting ultrahigh energy (UHE) neutrinos with energies exceeding 10^16 eV is to instrument a large enough volume to detect the extremely low flux, which falls as ∼E^−2. We explore in this article the feasibility of using the forest as a detector. Trees have been shown to be efficient broadband antennas, and may, without damage to the tree, be instrumented with a minimum of apparatus. A large scale array of such trees may be the key to achieving the requisite target volumes for UHE neutrino astronomy.

Читать полностью…

gonzo-обзоры ML статей

Кстати, кому не интересно 150 страниц про AGI в ближайшие годы, как альтернатива есть 510 страниц про темную материю:

Dark Matter
https://arxiv.org/abs/2406.01705

We review observational, experimental and theoretical results related to Dark Matter.

Читать полностью…

gonzo-обзоры ML статей

Dedicated to Ilya Sutskever.

https://situational-awareness.ai/

Текст большой, но любопытно.

Table of Contents
Each essay is meant to stand on its own, though I’d strongly encourage reading the series as a whole. For a pdf version of the full essay series, click here.

Introduction
History is live in San Francisco.

I. From GPT-4 to AGI: Counting the OOMs
AGI by 2027 is strikingly plausible. GPT-2 to GPT-4 took us from ~preschooler to ~smart high-schooler abilities in 4 years. Tracing trendlines in compute (~0.5 orders of magnitude or OOMs/year), algorithmic efficiencies (~0.5 OOMs/year), and “unhobbling” gains (from chatbot to agent), we should expect another preschooler-to-high-schooler-sized qualitative jump by 2027.

II. From AGI to Superintelligence: the Intelligence Explosion
AI progress won’t stop at human-level. Hundreds of millions of AGIs could automate AI research, compressing a decade of algorithmic progress (5+ OOMs) into ≤1 year. We would rapidly go from human-level to vastly superhuman AI systems. The power—and the peril—of superintelligence would be dramatic.

III. The Challenges

IIIa. Racing to the Trillion-Dollar Cluster
The most extraordinary techno-capital acceleration has been set in motion. As AI revenue grows rapidly, many trillions of dollars will go into GPU, datacenter, and power buildout before the end of the decade. The industrial mobilization, including growing US electricity production by 10s of percent, will be intense.

IIIb. Lock Down the Labs: Security for AGI
The nation’s leading AI labs treat security as an afterthought. Currently, they’re basically handing the key secrets for AGI to the CCP on a silver platter. Securing the AGI secrets and weights against the state-actor threat will be an immense effort, and we’re not on track.

IIIc. Superalignment
Reliably controlling AI systems much smarter than we are is an unsolved technical problem. And while it is a solvable problem, things could easily go off the rails during a rapid intelligence explosion. Managing this will be extremely tense; failure could easily be catastrophic.

IIId. The Free World Must Prevail
Superintelligence will give a decisive economic and military advantage. China isn’t at all out of the game yet. In the race to AGI, the free world’s very survival will be at stake. Can we maintain our preeminence over the authoritarian powers? And will we manage to avoid self-destruction along the way?

IV. The Project
As the race to AGI intensifies, the national security state will get involved. The USG will wake from its slumber, and by 27/28 we’ll get some form of government AGI project. No startup can handle superintelligence. Somewhere in a SCIF, the endgame will be on.

V. Parting Thoughts
What if we’re right?

Читать полностью…

gonzo-обзоры ML статей

[Mamba-2] Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality
Tri Dao, Albert Gu
Статья: https://arxiv.org/abs/2405.21060
Код: https://github.com/state-spaces/mamba
Блог: https://goombalab.github.io/blog/2024/mamba2-part1-model/
Твиттер-тред: https://x.com/_albertgu/status/1797651223035904355

Transformers are RNNs/SSMs

Краткий формат. Авторы Mamba (/channel/gonzo_ML/2148) выпустили обновлённую версию своей модели, Mamba-2. У неё вектор состояния большего размера (16 -> 256), при этом она в два раза быстрее обучается, а её код проще (30 строк).

Старая Мамба была хороша, но авторы не были полностью удовлетворены. Во-первых, механизмы внимания оставались где-то за пределами парадигмы SSM, а было бы интересно их как-то объединить. Во-вторых, хоть Мамба и была уже достаточно быстра (с эффективной имплементацией через selective scan), всё равно она уступала по вычислительной эффективности механизму внимания и перемножению матриц.

Авторы подошли к проблеме фундаментально и предложили фреймворк под названием structured state space duality (SSD), который объединяет structured SSM и варианты внимания в новом SSD слое. Показана эквивалентность SSM и семейства структурированных матриц под названием semiseparable matrices. Основная идея работы в том, что различные методы вычисления SSM могут быть выражены как алгоритмы умножения структурированных матриц. Также авторы развили теорию линейного внимания (“Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention”, https://arxiv.org/abs/2006.16236 — название текущей работы, видимо, аллюзия на эту) и обобщили результаты про его рекуррентную форму на structured masked attention (SMA). Наконец они соединили SSM и SMA, показав, что у них есть большое пересечение где они двойственны друг другу и по сути являются моделью, выражаемой одной и той же функцией. Также доказали, что любой kernel attention method с быстрой рекуррентной формой должен быть SSM.

В этой статье на 52 страницы много математики, я пока ещё не углублялся, но авторы написали прекрасную серию постов, которую можно читать вместо статьи:

Часть 1: В целом про SSD модель (https://goombalab.github.io/blog/2024/mamba2-part1-model/)\
Часть 2: Теория с математическим разбором фреймворка SSD (https://goombalab.github.io/blog/2024/mamba2-part2-theory/)
Часть 3: Алгоритмическая часть и код (https://goombalab.github.io/blog/2024/mamba2-part3-algorithm/)
Часть 4: Оптимизации на уровне системы для large-scale training, файнтюнинга и инференса (https://goombalab.github.io/blog/2024/mamba2-part4-systems/)

Оригинальная Мамба была selective SSM (S6) с диагональной структурой. SSD идёт ещё дальше и ограничивает диагональ матрицы A, теперь все элементы должны иметь одинаковые значения (то есть это скаляр умноженный на единичную матрицу). Старая Mamba применялась к каждому входному каналу отдельно, новая обрабатывает сразу много каналов (например 64) одной общей рекуррентностью. Это повышает вычислительную эффективность и даёт более быстрое обучение. При этом теоретически у Mamba-2 меньшая выразительность, чем у Mamba-1, и первая Мамба также может быть лучше в инференсе. Это всё пока не изучалось и ждёт своих исследователей.

Фреймворк позволяет перенести устоявшиеся для внимания техники на архитектуры SSM и реализовать аналоги голов (MHA) в SSM. Также архитектура блока сети (Mamba блок, /channel/gonzo_ML/2153) слегка изменена относительно SSM. Появляется grouped-value attention в структуре голов и все data-dependent проекции (параметры A,B,C в SSM) теперь получаются параллельно со входом X, а не последовательно как раньше. Реализованы разные оптимизации, в частности модель сделана Tensor Parallelism-friendly.

Читать полностью…

gonzo-обзоры ML статей

В тестах за основу взяли StableLM-3B-4E1T и сделали сопоставимую YOCO, она даёт результаты сравнимые с другими хорошо затюненными моделями такого же размера. Лосс от размера модели скейлится также как у Llama-optimized трансформера. При этом YOCO с gRet чуть лучше, чем со sliding-window attention (SWA) и обычный трансформер.

Если расширить контекст YOCO-3B до 1M (привет, Gemini!) через продолжение обучения с length schedule 64K, 256K, 1M, то на Needle In A Haystack всё выглядит почти идеально.

В недрах приложений есть сравнение с Mamba, RetNet, Hybrid H3, gRetNet и трансформером. YOCO с трансформером рулят (по перплексии).

Самые интересные результаты в производительности. По памяти улучшение в разы и чем больше длина последовательности, тем больше улучшение. На длине 1М YOCO ест в 9.38x меньше памяти, чем трансформер с GQA, Flash-Decoding и kernel fusion. В основном за счёт KV кеша, но кажется ещё небольшое улучшение у gRet при хранении активаций. По метрике prefilling latency улучшение в десятки раз. По throughput (токены в секунду) на длинных входах ускорение почти до 10 раз (в основном по двум причинам: более быстрый prefill, а также возможность использовать больший батч из-за лучшей работы с памятью). В сочетаниях типа YOCO + BitNet + Groq может быть кумулятивный эффект и вообще бомба.

Хорошая инженерная работа, мне нравится.

Читать полностью…

gonzo-обзоры ML статей

LoGAH: Predicting 774-Million-Parameter Transformers using Graph HyperNetworks with 1/100 Parameters
Xinyu Zhou, Boris Knyazev, Alexia Jolicoeur-Martineau, Jie Fu
Статья: https://arxiv.org/abs/2405.16287
Код: https://github.com/Blackzxy/LoGAH

Сегодня малый жанр. Подробный разбор делать неохота, но и ничего не писать про работу тоже жалко.

Очередной кейс применения гиперсетей (hypernetworks, см. например /channel/gonzo_ML/1696). Напомню, что гиперсети генерируют веса для другой сети.

Текущая работа делает через гиперсеть инициализацию сетей (как и /channel/gonzo_ML/2394 кстати) для работы с языком или изображениями (ViT и GPT-2), и с этой инициализации претрейн проходит быстрее, чем с рандома. Что наверное также говорит о том, что мы используем неправильный рандом (и лучше брать вместо него котиков, /channel/gonzo_ML/2657) и тому есть много свидетельств (см. например /channel/gonzo_ML/200).

Гиперсеть является графовой (то есть Graph HyperNetwork, GHN), устроенной из стека слоёв Graphormer (https://github.com/Microsoft/Graphormer, https://arxiv.org/abs/2106.05234), куда подаётся вычислительный граф. На полученных эмбеддингах далее работает GHN Decoder, являющийся MLP. Он выдаёт уже веса сети (инициализацию точнее).

В предыдущих подходах GHN не могли генерить веса для очень широких слоёв и делали это повторяющимися блоками. Текущая работа улучшает эту часть, предлагая LOGAH (Low-rank
GrAph Hypernetworks), специальную версию GHN, у которой low-rank декодер может генерить более широкие слои без существенного увеличения числа параметров гиперчасти, получая сложность O(d^2) вместо O(d^3).

Авторы собрали два датасета VITS-1K и GPTS-1K с тысячей различных ViT-style и GPT-2-style вычислительных графов для генерации параметров ViT и GPT-2.

Сравниваются с GHN-3, гиперсетью из предыдущих работ по теме, и с рандомной инициализацией.

ViT проверяют на CIFAR-10, CIFAR-100 и ImageNet после файнтюна на 100 (CIFAR) или 30 (ImageNet) эпох. LoGAH заметно обходит (2-5 процентных пункта).

На GPT-2 сравнились только с рандомом, итоговая перпрексия у LoGAH лучше. По факту получается, что модель в 2.5M или 21.4M параметров неплохо генерит параметры (инициализацию) для моделей размером до 774M (GPT-2 Large).

Интересная тема в общем. Получится ли когда-нибудь генерить сразу финальные параметры модели, чтоб вообще без обучения?

Читать полностью…

gonzo-обзоры ML статей

Свежий Маркус Хуттер вышел!

Читать полностью…

gonzo-обзоры ML статей

Сегодня пара слов про нетрадиционные ценности.

#1. Термодинамический ИИ

Про термодинамический ИИ и стартап Normal Computing (https://normalcomputing.ai/) мы уже писали (/channel/gonzo_ML/2313), но вот вышел свежий разговор Диамандиса с основателем другого стартапа про термодинамический ИИ под названием Extropic (https://www.extropic.ai/), а также автором эффективного акселерационизма (e/acc, https://www.youtube.com/watch?v=4Oj7m3F0ifI), Guillaume Verdon (https://youtu.be/JvVft_vISMM?si=mPnCnjkJ-z8VjWmA). Лекс Фридман тоже недавно делал с ним запись (https://www.youtube.com/watch?v=8fEEbKJoNbU).

Extropic описывает свой подход здесь (https://www.extropic.ai/future). Кажется, подход Extropic по сути близок к Normal Computing, но реализован на другом железе. SPU у Normal Computing используют LC-контуры, а Extropic использует Josephson effect в сверхпроводнике. Для массового рынка Extropic хочет сделать что-то попроще на транзисторах, что будет работать при комнатной температуре. Но деталей я не понял/не увидел.

Есть хороший пост "What’s the difference between Extropic, Normal Computing, and D-Wave?" (https://www.zach.be/p/whats-the-difference-between-extropic), пытающийся разобраться во всём имеющемся зоопарке.

#2. Оптические вычисления

Ещё одна интересная тема — оптические вычисления. В Quanta как раз недавно вышел очень краткий обзор по этой теме (https://www.quantamagazine.org/ai-needs-enormous-computing-power-could-light-based-chips-help-20240520/). Здесь работает, например, стартап Lightmatter (https://lightmatter.co/). Среди их продуктов есть как программируемый фотонный interconnect Passage (https://lightmatter.co/products/passage/), так и ускоритель Envise (https://lightmatter.co/products/envise/). Есть и DL фреймворк Idiom (https://lightmatter.co/products/idiom/). Не очень понял, в какой степени готовности оно всё, мне казалось, что до масштабов современного железа и моделей, обучающихся на нём, ещё далеко, но надо наблюдать.

По ощущению, в первую очередь это всё про interconnect (https://www.youtube.com/watch?v=6Bo-T9XNTvU). У Гугла уже используются оптические свитчи (optical circuit switch, OCS) вместо Infiniband для подов с TPUv4 (https://cloud.google.com/blog/topics/systems/tpu-v4-enables-performance-energy-and-co2e-efficiency-gains, более детальная статья тут: https://arxiv.org/abs/2304.01433). В Open Compute Project тоже развивают это направление (#1 https://www.youtube.com/watch?v=0MwMNHbWJlk, #2 https://www.youtube.com/watch?v=o6gX0YbI3iQ). Interconnect в DL работает на решение проблемы недоиспользования железа, многие вычисления по факту communication- (или i/o-) bound. Давняя большая тема (https://www.computer.org/csdl/magazine/mi/2004/05/m5005/13rRUwhHcNg). См. также roofline performance model (https://moocaholic.medium.com/hardware-for-deep-learning-part-3-gpu-8906c1644664#8dd5). Здесь же и более быстрая память много чего добавляет (ну покуда в неё влезает).

Но вообще там целая экосистема, включая, конечно, матричные ускорители (https://www.nature.com/articles/s41566-024-01394-2, https://arxiv.org/abs/2309.10232, https://spie.org/news/matrix-multiplications-at-the-speed-of-light, https://www.nature.com/articles/s41377-022-00717-8).

#3. DNA Storage

Другая интересная тема — DNA Storage. Потребности в хранении данных растут быстрее, чем наши способности, и есть ожидания, что скоро мы погрузимся с головой в этот океан данных. Кроме того текущие технологии хранения не то чтобы сильно долговечны, позволяют хранить лишь на горизонте десятков лет да ещё и с периодическим обслуживанием. Вспомнилось, у Цысиня в "Вечной жизни смерти":

"Мы уведомили правительство, что при нынешнем состоянии технологии сохранить десять гигабайт изображений и один гигабайт текста — минимальные требования для Музея — в течение миллиарда лет невозможно. Нам не поверили. Пришлось представить доказательства. Тогда они согласились снизить планку до ста миллионов лет".

ДНК-хранение теоретически позволяет хранить ну не сотни миллионов лет, конечно, но и явно больше чем просто десятки лет.

Читать полностью…

gonzo-обзоры ML статей

Хорошее интервью с Хинтоном, если кто ещё не видел

https://youtu.be/tP-4njhyGvo?si=lBj-PYOJPHofunQu

Не знал, кстати, что hidden layer в нейросетях пошло от hidden Markov models.

Читать полностью…

gonzo-обзоры ML статей

Антропик опубликовал работу про интерпретируемость

https://www.anthropic.com/news/mapping-mind-language-model

Today we report a significant advance in understanding the inner workings of AI models. We have identified how millions of concepts are represented inside Claude Sonnet, one of our deployed large language models. This is the first ever detailed look inside a modern, production-grade large language model. This interpretability discovery could, in future, help us make AI models safer.

Читать полностью…

gonzo-обзоры ML статей

Свежак.

https://www.science.org/doi/10.1126/science.adn0117

Authors: YOSHUA BENGIO, GEOFFREY HINTON, ANDREW YAO, DAWN SONG, PIETER ABBEEL, TREVOR DARRELL, YUVAL NOAH HARARI, YA-QIN ZHANG, LAN XUE, SHAI SHALEV-SHWARTZ, GILLIAN HADFIELD, JEFF CLUNE, TEGAN MAHARAJ, FRANK HUTTER, ATILIM GÜNEŞ BAYDIN, SHEILA MCILRAITH, QIQI GAO, ASHWIN ACHARYA, DAVID KRUEGER, ANCA DRAGAN, PHILIP TORR, STUART RUSSELL, DANIEL KAHNEMAN, JAN BRAUNER, AND SÖREN MINDERMANN

Читать полностью…

gonzo-обзоры ML статей

Пользуясь случаем хочу перерасшарить двенадцатилетнюю статью Девида Дойча про AGI.

Комментарии и выжимки специально не буду писать, пусть каждый найдет своё.

https://aeon.co/essays/how-close-are-we-to-creating-artificial-intelligence

Читать полностью…

gonzo-обзоры ML статей

How Far Are We From AGI
Tao Feng, Chuanyang Jin, Jingyu Liu, Kunlun Zhu, Haoqin Tu, Zirui Cheng, Guanyu Lin, Jiaxuan You
Статья: https://arxiv.org/abs/2405.10313
Репа (со ссылками на мастриды, а не с AGI): https://github.com/ulab-uiuc/AGI-survey

Тут группа людей с китайскими фамилиями из университета Иллинойса по результатам свежего одноимённого воркшопа ICLR 2024 “How far are we from AGI” (https://agiworkshop.github.io/) опубликовала работу на 120 страниц (из них 45 страниц ссылок) на тему “далеко ли до Таллинна AGI”. Судя по бросающимся в глаза “delve”, GPT тоже участвовал 🙂

Если честно, я пока не осилил, только по диагонали проглядел. Но выглядит полезно. Работа в первую очередь призывает к рефлексии на тему. Разбирают, какие у AGI ожидаются внутренности (Perception, Reasoning, Memory, Metacognition), как он будет работать с внешним миром (отдельно разбираются цифровой мир, физический и другие умные сущности, мясные и не очень), различные аспекты устройства и работы AGI систем (архитектуры, обучение/инференс, косты и эффективность, вычислительные платформы), AGI Alignment, потенциальный родмэп к AGI с уровнями AGI по Кардашёву, задача evaluation всего этого дела, что нужно для переходов на следующие уровни.

Есть синтез мнений с воркшопа. Процитированы Oriol Vinyals, Yejin Choi, Andrew Gordon Wilson, Song Han, Yoshua Bengio. Отвечая на вопрос “когда?”, больше 80% за горизонт 5+, из них самая большая доля в 37% за 20+.

Есть большой раздел с case studies про применения в науке, Generative Visual Intelligence, интересный раздел про World Models for AGI, Decentralized AI, AI для кодирования, AI for Robotics, Human-AI Collaboration.

Выглядит интересно, почитать точно есть что. И как сборник релевантных материалов, кажется, тоже очень ничего.

Напишите, что вам оттуда больше всего понравилось. Или что совсем неправильно на ваш взгляд. Или что важное упущено.

Читать полностью…

gonzo-обзоры ML статей

И вот вам ещё тематический лонгрид, спасибо Мише Самину за наводку

https://www.vox.com/future-perfect/2024/5/17/24158403/openai-resignations-ai-safety-ilya-sutskever-jan-leike-artificial-intelligence

Читать полностью…

gonzo-обзоры ML статей

Ну и давненько про новые LLM не писали, а сегодня как раз вышла Qwen2 от Alibaba Cloud
https://qwenlm.github.io/blog/qwen2/

5 моделей: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B, обычные и instruction-tuned. Контекст до 128k. На бенчмарках выглядит красиво и бьёт Llama 3.

В дополнение к английскому и китайскому поддерживает ещё 27 языков.

Лицензия Apache 2.0 для всех кроме самой большой, у той прежняя Qianwen License.

В будущем обещают мультимодальность с видео и аудио.

Читать полностью…

gonzo-обзоры ML статей

Картинок вам в ленту.

https://posts.voronoiapp.com/technology/The-Training-Costs-of-AI-Models-Over-Time-1334

Странно, правда, что BERT всего 3k. Мне кажется по старым ценам должно было быть сильно больше

Читать полностью…

gonzo-обзоры ML статей

Если кто любит больше подкасты (на 4.5 часа!), то вот:

https://www.dwarkeshpatel.com/p/leopold-aschenbrenner

Читать полностью…

gonzo-обзоры ML статей

Гигантских моделей не обучали, самая большая, кажется, 2.7B. Массовых тестов Mamba-2 пока тоже не было, но авторы верят, что новая модель должны быть сравнима или лучше. На The Pile кривые лосса у новой Мамбы идут чуть ниже старой. На сложной задаче multi-query associative recall (MQAR, https://arxiv.org/abs/2312.04927) Mamba-2 существенно лучше Mamba-1.

Ждём развития и adoption.

Читать полностью…

gonzo-обзоры ML статей

Свежего Романа Ямпольского вам в ленту

https://youtu.be/NNr6gPelJ3E

Слова Лекса Фридмана:

Here's my conversation with Roman Yampolskiy, AI safety researcher who believes that the chance of AGI eventually destroying human civilization is 99.9999%.

I will continue to chat with many AI researchers & engineers, most of whom put p(doom) at <20%, but it's important to balance those technical conversations by understanding the long-term existential risks of AI. This was a terrifying and fascinating discussion.

Читать полностью…

gonzo-обзоры ML статей

You Only Cache Once: Decoder-Decoder Architectures for Language Models
Yutao Sun, Li Dong, Yi Zhu, Shaohan Huang, Wenhui Wang, Shuming Ma, Quanlu Zhang, Jianyong Wang, Furu Wei
Статья: https://arxiv.org/abs/2405.05254
Код: https://github.com/microsoft/unilm/tree/master/YOCO

Архитектурные новости. Авторы придумали архитектуру для LLM под названием decoder-decoder.

Напомним, что оригинальный трансформер (и например модели типа T5) был построен на полной архитектуре encoder-decoder, большая часть современных LLM (типа GPT) используют только decoder, и другая популярная ветка недавнего прошлого (модели семейства BERT) состоит только из encoder. Энкодер всегда был двунаправленным (bidirectional) и модели с таким двунаправленным компонентом (то есть encoder и encoder-decoder) имели проблемы с авторегрессионной генерацией — там для генерации нового токена сначала надо было заэнкодить всю последовательность из входа и уже нагенерённой части выхода. Можно конечно использовать только декодерную часть для генерации, но тогда сгенерённые токены не используют на полную мощь параметры энкодера. У decoder тут всё неплохо, при авторегрессионной генерации можно закешировать вектора KV (key и value в блоках внимания) и переиспользовать для генерации нового токена, не надо заново кодировать всю историю.

Но как говорится в сказании о Савитри, “есть один недостаток”. KV-кэш очень пухнет при росте длины генерируемой последовательности, он отжирает кучу памяти GPU и LLM-ки становятся memory-bound. Так для 65B модели (с grouped-query attention и квантизацией KV в 8 бит) для 512k токенов нужно 86Gb памяти, что перекрывает объём памяти H100-80GB. К тому же фаза prefill (см тут или хороший обзор plienhar/llm-inference-series-1-introduction-9c78e56ef49d">тут), в которой надо обработать все входные токены промпта и вычислить для них значения KV, может занимать сотни секунд для очень длинных входов типа 1М (здесь, кстати, интересно, что Гугл с Gemini 1.5 придумал).

Весь трансформер из L слоёв разделяется поровну и первые L/2 слоёв реализуют self-decoder через efficient self-attention. Размер KV-кеша этой части константен, то есть O(1). Выход последнего слоя self-decoder даёт глобальный KV-кеш, куда ходит вторая половина, cross-decoder, реализованная через оставшиеся L/2 слоёв. Каждый блок получает на вход Q и через cross-attention идёт в этот глобальный KV-кеш. Здесь уже везде стандартное (почти, с GQA, https://arxiv.org/abs/2305.13245) multi-head attention с полным окном.

Под efficient self-attention в self-decoder авторы подразумевают sliding-window attention как в старом добром sparse transformer имени Ильи Суцкевера и ко (/channel/gonzo_ML/65). Как вариант, вместо него в self-decoder может использоваться RetNet (/channel/gonzo_ML/1753) под названием gRet (aka gRetNet или RetNet-3) с data-dependent гейтингом. Вроде бы такой же мы и разбирали когда-то давно в оригинальной статье.

В остальном блоки в этих слоях в целом стандартные, чередование внимания и FFN, с использованием pre-RMSNorm, SwiGLU, GQA.

Полученная архитектура называется YOCO (You Only Cache Once, так понимаю тут речь про кеширование в L/2 слое). Это всё похоже на encoder-decoder, но снаружи выглядит как декодер и обе части используют causal masking.

YOCO эффективнее обычного трансформера за счёт меньших требований к памяти, кеш для длинных последовательностей скейлится как O(N) вместо O(NL), то есть можно делать больше инференса и/или с более крупными батчами (что повышает throughput).

Ещё из интересных свойств YOCO есть то, что во время стадии prefill можно сделать early exit и не ходить в cross-decoder, это повышает скорость данной фазы. Поскольку в self-decoder находится половина слоёв, то это уже сокращение вычислений и времени в два раза. К тому же эффективная реализация внимания в self-decoder обычно быстра. Они приводят пример запроса с размером контекста в 512K, на котором prefill latency падает со 180 секунд (трансформер с flash-decoding и kernel fusion) до менее 6 секунд. И даже на длине 32K YOCO всё равно в три раза быстрее (на этой фазе, а не в целом end-to-end).

Читать полностью…

gonzo-обзоры ML статей

Кто-то теряет, кто-то находит

https://techcrunch.com/2024/05/28/anthropic-hires-former-openai-safety-lead-to-head-up-new-team

Читать полностью…

gonzo-обзоры ML статей

В октябре 2020 Illumina, Microsoft, Twist Bioscience и Western Digital основали DNA Data Storage Alliance (https://dnastoragealliance.org/). У Альянса есть обзорная публикация "An introduction to DNA data storage" от 2021 года (https://dnastoragealliance.org/dev/wp-content/uploads/2021/06/DNA-Data-Storage-Alliance-An-Introduction-to-DNA-Data-Storage.pdf), и вот ещё есть свежий популярный обзор от IEEE Spectrum (https://spectrum.ieee.org/dna-data-storage).

Прогресс в области идёт, в частности развивается тема с использованием фермента terminal deoxynucleotidyl transferase, TdT (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2846215/), который умеет навешивать новые буквы на концы одноцепочечной ДНК.

Чтобы конкурировать с использующимися для архивирования магнитными лентами надо уметь писать со скоростью 2 гбит/с то есть 2 миллиарда баз в секунду (в схеме кодирования, когда одна база кодирует 1 бит, а не 2 как теоретически возможно). Текущий рынок синтеза ДНК автор статьи в Spectrum оценивает как эквивалент всего лишь 300 тысяч баз в секунду. Далековато, но прогресс в хранении информации экспоненциальный, в секвенировании тоже (а то и сверхэкспоненциальный). Синтез пока не настолько хорош, но всё равно улучшается. Когда дойдём до таких bandwidth (а это 20 человеческих геномов в минуту), конечно, и ландшафт угроз сменится не менее серьёзно.

Про ДНК хранение и вычисления, а также экзотическую штуку под названием Nondeterministic universal Turing machine (NUTM) я писал обзор в 2017-м (https://moocaholic.medium.com/on-universal-dna-computing-241dc1fba568).

В общем интересные темы, stay tuned!

Читать полностью…

gonzo-обзоры ML статей

Хороший пост Анатолия Левенчука на тему
https://ailev.livejournal.com/1723726.html

Читать полностью…

gonzo-обзоры ML статей

Wavelet-KANs are coming!

Wav-KAN: Wavelet Kolmogorov-Arnold Networks
Zavareh Bozorgasl, Hao Chen
https://arxiv.org/abs/2405.12832

Читать полностью…

gonzo-обзоры ML статей

Как и ожидалось (см /channel/gonzo_ML/2415), начали появляться решения, призванные сделать работу с большим контекстом более экономически осмысленной.

Гугл анонсировал Context caching (https://ai.google.dev/gemini-api/docs/caching) для Gemini. В этом режиме часть токенов можно закешировать (с почасовой оплатой) и использовать при повторных запросах (например, к большой книге, или к огромному контексту предыдущей беседы с чат-ботом). Это будет дешевле, чем заново отправлять это как входные токены.

На данный момент это актуально только для Gemini 1.5 Pro (у которой контекст 1M-2M, а в перспективе 10M и бесконечность) и цена вопроса (https://ai.google.dev/pricing) вроде как в два раза ниже, чем при отправке токенов заново. При этом ещё и отличаются цены за токены для промптов до 128k и более. Чую, скоро такими темпами целые тарифные сетки для LLM появятся, как для работников :)

Если вы запихнули в промпт 1M токенов, то стоит это $7.00 / 1 million tokens (for prompts longer than 128K), если их же закешировали, то $3.50 / 1 million tokens (for prompts longer than 128K) к которым кажется добавляется $4.50 / 1 million tokens per hour (storage). Не сказать пока, что по деньгам это прям game changer, но всё равно какая-то оптимизация.

Ну и для реальных кейсов всё равно кажется дорого. Ну забил ты весь 1M токенов промпта своим контентом, запрос твой будет стоить $7. С кешированием за первый запрос будет столько, за последующий один даже дороже (ибо плюс хранение), но если их отправлять много, то что-то сэкономишь (не более чем половину). Плюс ещё за выходные токены $21.00 / 1 million tokens (for prompts longer than 128K), но там миллион сложнее выпользовать, размер выходного контекста ограничен 8k (https://cloud.google.com/vertex-ai/generative-ai/docs/learn/models#gemini-models), так что если это саммари или ответы на вопросы, то за один вопрос/саммари добавка не очень большая будет, в худшем случае меньше 20 центов.

За какие запросы вы готовы заплатить $7 (а если вы забили у новой Gemini 2M промпта, то и $14), это отдельный сложный вопрос. В оригинальном посте я ориентировался на цены Gemini 1.0 Pro, поскольку 1.5 была ещё в экспериментальном режиме и цены объявлены не были. Похоже, цены на Gemini 1.0 Pro выросли (раньше я ориентировался на $0.125, сейчас там $0.5), а 1.5 на фоне тех оценок вообще безумно дорога. Интересно, для каких кейсов экономика здесь будет сходиться. Это какой-то очень высокий порог не для масс.

Читать полностью…

gonzo-обзоры ML статей

Быстро работают!

Kolmogorov-Arnold Networks (KANs) for Time Series Analysis
Cristian J. Vaca-Rubio, Luis Blanco, Roberto Pereira, Màrius Caus
https://arxiv.org/abs/2405.08790

This paper introduces a novel application of Kolmogorov-Arnold Networks (KANs) to time series forecasting, leveraging their adaptive activation functions for enhanced predictive modeling. Inspired by the Kolmogorov-Arnold representation theorem, KANs replace traditional linear weights with spline-parametrized univariate functions, allowing them to learn activation patterns dynamically. We demonstrate that KANs outperforms conventional Multi-Layer Perceptrons (MLPs) in a real-world satellite traffic forecasting task, providing more accurate results with considerably fewer number of learnable parameters. We also provide an ablation study of KAN-specific parameters impact on performance. The proposed approach opens new avenues for adaptive forecasting models, emphasizing the potential of KANs as a powerful tool in predictive analytics.

Читать полностью…

gonzo-обзоры ML статей

Лекун не унимается!

"I think the issue of controlling AI has become a modern “bogeyman”, with horror forecasts of machines becoming smarter than us and dominating us (Figure 5). However, in humans and thus in machines, intelligence does not equal a will to dominate the other. Another concern is aligning behavior of intelligent machines with humanity’s values. Although it is hard to “educate” machines to behave properly, we can manage it—the same way we educate our kids to behave in society, and with the same regulations to guide social functioning. We can define intrinsic objectives that machines will pursue (think of these like “core values”) that they cannot violate or modify, ensuring that the machines’ behavior stays aligned with our values and goals.

Every new technology brings with it some unexpected consequences, so we as a society must correct any unwanted side effects quickly, minimizing their damage. After online services developed, such as YouTube, Facebook, Instagram, we encountered the problem of improper content and developed means for content moderation. I am confident in our ability to deal with the problems of new technologies successfully as they arise.

What excites me the most about the future of AI is uncovering the underlying principles of intelligence. That would help us explain what human intelligence really is, and enable us to build intelligent systems, which would eventually expand human intelligence. Progressing in our understanding of the world requires more intelligence: at some point we will need other systems beyond our limited brains that we can use. For an interesting example of how AI helped us better understand the world, read this article about solving the long standing problem of protein folding.

Another, more engineering-based endeavor I want to see in the future is building intelligent systems to help us with our daily lives. For example, domestic robots that will be like intelligent human assistants, managing things we do not want to do and filtering out unimportant information. We call this an AI-complete problem [13], that requires the integration of many abilities and techniques. I work on new basic self-supervised learning algorithms that could hopefully bridge the gap between machine learning today and human learning. I hope we will be able to tackle AI-complete problems more successfully and live even more comfortable lives."


https://kids.frontiersin.org/articles/10.3389/frym.2024.1164958

Читать полностью…

gonzo-обзоры ML статей

Ну и в продолжение темы, ещё вам свежего ))

Читать полностью…

gonzo-обзоры ML статей

Поступил комментарий от Jan Leike
https://x.com/janleike/status/1791498174659715494

Читать полностью…
Subscribe to a channel