gonzo_ml | Unsorted

Telegram-канал gonzo_ml - gonzo-обзоры ML статей

21999

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Subscribe to a channel

gonzo-обзоры ML статей

А ещё выехал Claude 3 Haiku, самый маленький, шустрый и дешёвый из семейства

https://www.anthropic.com/news/claude-3-haiku

Читать полностью…

gonzo-обзоры ML статей

Cerebras выпустил новую версию своей системы с гигантским чипом-вафлей, WSE-3.

Можно обучать модели до 24T параметров :)

https://www.cerebras.net/press-release/cerebras-announces-third-generation-wafer-scale-engine/

Key Specs:
* 4 trillion transistors
* 900,000 AI cores
* 125 petaflops of peak AI performance
* 44GB on-chip SRAM
* 5nm TSMC process
* External memory: 1.5TB, 12TB, or 1.2PB
* Trains AI models up to 24 trillion parameters
* Cluster size of up to 2048 CS-3 systems

Читать полностью…

gonzo-обзоры ML статей

И для тех, кому Хинтона надо побольше, другое видео от осени прошлого года.

Оно довольно сильно перекликается с уже обсуждёнными Mortal computers (/channel/gonzo_ML/1910), но есть свежие добавки. Отдельного внимания заслуживает секция Q&A.

https://www.youtube.com/watch?v=iHCeAotHZa4

Читать полностью…

gonzo-обзоры ML статей

А пока ждём Грока, вот вам свежего прекрасного Хинтона:

https://www.youtube.com/watch?v=N1TEjTeQeg0

Читать полностью…

gonzo-обзоры ML статей

Свежего Джеффа Дина вам в ленту:

https://www.youtube.com/watch?v=oSCRZkSQ1CE

В целом откровений нет, но если вы не за всем происходящим (особенно у Гугла) следили, то хороший обзор, в том числе исторический.

Читать полностью…

gonzo-обзоры ML статей

[Allen AI] OLMo: Accelerating the Science of Language Models
Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney, Oyvind Tafjord, Ananya Harsh Jha, Hamish Ivison, Ian Magnusson, Yizhong Wang, Shane Arora, David Atkinson, Russell Authur, Khyathi Raghavi Chandu, Arman Cohan, Jennifer Dumas, Yanai Elazar, Yuling Gu, Jack Hessel, Tushar Khot, William Merrill, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Valentina Pyatkin, Abhilasha Ravichander, Dustin Schwenk, Saurabh Shah, Will Smith, Emma Strubell, Nishant Subramani, Mitchell Wortsman, Pradeep Dasigi, Nathan Lambert, Kyle Richardson, Luke Zettlemoyer, Jesse Dodge, Kyle Lo, Luca Soldaini, Noah A. Smith, Hannaneh Hajishirzi
Статья: https://arxiv.org/abs/2402.00838
Модели: https://huggingface.co/allenai/OLMo-7B
Код: https://github.com/allenai/OLMo
Датасет: https://huggingface.co/datasets/allenai/dolma
Evaluation: https://github.com/allenai/OLMo-Eval
Adaptation: https://github.com/allenai/open-instruct
W&B Logs: https://wandb.ai/ai2-llm/OLMo-7B/reports/OLMo-7B--Vmlldzo2NzQyMzk5

Allen AI (в основном) и представители четырех университетов анонсировали истинно открытую модель OLMo. Как они пишут “a state-of-the-art, truly Open Language Model”. Открыто, кажется, всё: кроме обычно опубликованных весов, иногда опубликованных кода для обучения и датасета, здесь открыт весь фреймворк, включая логи и скрипты оценки, всё под Apache 2.0 License. Есть и чекпойнты на HF. В первую очередь нацелены на исследователей языковых моделей.

До них похожую степень открытости демонстрировал консорциум BigScience с моделью BLOOM (https://bigscience.huggingface.co/blog/bloom), но их модели по размеру (176B) были не для простых смертных, да и по нынешним временам уже не в топе. Из более доступных были также Pythia (https://github.com/EleutherAI/pythia) и LLM360 (https://www.llm360.ai/blog/introducing-llm360-fully-transparent-open-source-llms.html).

OLMo это классический декодер трансформера (как GPT) с некоторыми улучшениями: no biases, non-parametric formulation of layer norm (без адаптивного линейного преобразования), SwiGLU, RoPE эмбеддинги, BPE-токенизатор (модифицированный GPT-NeoX-20B) со словарём в 50,280 с отдельными токенами для скрытия персданных (personal identifiable information, PII). Сравнение с недавней Gemma (/channel/gonzo_ML/2389) есть тут https://lightning.ai/lightning-ai/studios/understanding-using-and-finetuning-gemma.

В семействе три модели: 1B, 7B и 65B (ещё варится). Первые две обучены на 2T и 2.46T токенов. Это примерно те же числа, что у Llama 2 7B и Gemma 2B -- там 2T, больше чем у Phi-2 2.7B c 1.4T, но меньше Gemma 7B с 6T (https://huggingface.co/blog/gemma).

Датасет -- их же открытый Dolma (https://arxiv.org/abs/2402.00159) с 3T токенами и 5B документов. В той же работе, кстати, была и Olmo-1b обучена. Сейчас датасет в основном английский, но в будущем планируют расширить на другие языки. Как с этим можно жить, если надо не только английский, один из вариантов тут: https://inten.to/blog/when-genai-still-needs-mt/.

Предобученные модели файнтюнили для чата на Open Instruct (TÜLU, https://arxiv.org/abs/2311.10702). Для этого делали instruction fine-tuning + DPO на preferences.

Для оценки чекпойнтов модели использовали их же бенчмарк Paloma (Perplexity Analysis For Language Model Assessment, https://arxiv.org/abs/2312.10523) и фреймворк оценки Catwalk (https://arxiv.org/abs/2312.10253).

Обучали с PyTorch FSDP (https://pytorch.org/tutorials/intermediate/FSDP_tutorial.html) с mixed-precision training. Оптимизатор AdamW, обучалось одну эпоху на отобранных 2T токенах из 3T.

Читать полностью…

gonzo-обзоры ML статей

На случай, если кому не спится

https://youtu.be/5t1vTLU7s40?si=C1--eLfOS2c1_vRH

Читать полностью…

gonzo-обзоры ML статей

И ещё до кучи про свежего Клода

https://twitter.com/hahahahohohe/status/1765088860592394250?t=PHcRVaE6GFXLDXpBVQE-IA&s=19

Это безумно круто (если правда)

Читать полностью…

gonzo-обзоры ML статей

Anthropic только что анонсировал новое поколение своих моделей, Claude 3. В семействе три модели, от простой до топовой: Claude 3 Haiku, Claude 3 Sonnet, Claude 3 Opus.

По бенчмаркам выглядит серьёзным конкурентом GPT и Gemini. Поддерживается зрительная модальность.

https://www.anthropic.com/news/claude-3-family

Читать полностью…

gonzo-обзоры ML статей

Llama 3 обещают теперь в июле.

https://www.reuters.com/technology/meta-plans-launch-new-ai-language-model-llama-3-july-information-reports-2024-02-28

Читать полностью…

gonzo-обзоры ML статей

И да, напоминаю, что у канала есть Патреон (https://patreon.com/GonzoML), если хотите поддержать, что я делаю.

Читать полностью…

gonzo-обзоры ML статей

И это только задачи на поверхности. Если копнуть глубже, их должно быть очень много. Я практически уверен, что мы увидим тут Jevons paradox (https://en.wikipedia.org/wiki/Jevons_paradox) во всей красе, использование всех этих моделей только увеличится.

6) Очень важный и очень при этом сложный класс решений -- валидация результата модели. Здесь будут решения, за которые многие [компании] будут готовы платить. Но надёжно сделать такое решение будет непросто. Ну вы тут тоже всё поняли.

7) Реально непонятно как в ближайшем будущем изменится работа для условных джунов. И будет ли она для них вообще. А если не будет, то откуда потом возьмутся миддлы и сеньоры. Не только и не столько в программировании, но и в других областях. В создании контента во многих задачах модели их превзойдут или будут существенно более дешёвой и быстрой альтернативой. Остаётся технически сложная область валидации контента -- вероятно туда и перетекут их активности. Но это не точно. Ожидаю существенного изменения содержания работы и появления совершенно новых тулов, которых ещё пока нет (ещё один ну, и наверное этим уже занимается условный JetBrains).

Не знаю, сколько там у OpenAI времени до создания AGI, когда они типа должны пересмотреть свои отношения с Microsoft и вообще решить, как на этом правильно зарабатывать. Но даже без этого они и Гугл уже выступают продавцами интеллекта на развес. Непонятно, что там будет с миром дальше, но как в промышленную революцию одни страны ушли сильно вперёд других, так и тут будет всё то же, но ещё быстрее.

Читать полностью…

gonzo-обзоры ML статей

Большой пост про большой контекст

Размер контекста в современных моделях (то максимальное количество токенов, которое они могут переварить за один раз) неуклонно растёт. Сначала переход от двух или четырёх тысяч токенов к восьми казался большим достижением. Потом появились модели до 32k токенов, но они долго были ограниченно доступны, а когда вышли в массы, оказались уже безнадёжно устаревшими, потому что у одного из лидеров индустрии (Anthropic) были уже модели со 100k. Теперь лимиты публичных моделей в районе от 128k (GPT-4 Turbo) до 200k (Anthropic). Гугл отставал в этой гонке, его публичные модели максимум покрывали 32k (специальные версии PaLM 2 и все версии Gemini 1.0). Прорыв наметился с Gemini 1.5 (/channel/gonzo_ML/2350), у которой по дефолту те же типовые нынче 128k, но есть непубличная версия с 1M токенов, и research версия с 10M.

Отдельный интересный вопрос, как именно добились такого большого контекста, который ещё и работает. Есть разные свежие заходы с различных сторон, например, LongRoPE (https://arxiv.org/abs/2402.13753), LongNet с dilated attention (https://arxiv.org/abs/2307.02486), RingAttention (https://arxiv.org/abs/2310.01889) или там недавно упоминавшийся RMT-R (/channel/gonzo_ML/2377). Интересно, что именно сделал Гугл.

Такие новые лимиты скорее всего очень сильно поменяют практики работы с моделями. Хочется немного порассуждать про это ближайшее будущее.

1) Во-первых, старые техники RAG, отчасти призванные обойти ограничения малого окна контекста при необходимости работы с длинными документами, должны отмереть. Или по крайней мере остаться только для специальных случаев типа необходимости подтягивать свежие или какие-то другие особо релевантные материалы.

Всякие langchain’овские сплиттеры (https://python.langchain.com/docs/modules/data_connection/document_transformers/) режущие в основном по длине (ну с учётом более подходящих точек для разрезания в некоторых случаях) и раньше были УГ -- смотреть на эти порезанные абзацы без слёз было сложно, хотя как-то оно работало.

Даже при наличии способности к нормальному нарезанию на вменяемые куски, всё равно нужна эта разная обвязка, которая будет там что-то матчить и выбирать более подходящие куски, агрегировать результаты и прочее. Теперь этой хренью потенциально вообще не надо заниматься, и это хорошо.

Ну то есть в некоторых случаях оно всё равно конечно нужно и может повысить качество решения, но это надо смотреть. Я в целом верю в end-to-end решения и вытеснение со временем большинства этих костылей.

2) 1M токенов это прям реально дофига, теперь в контекст можно засунуть много статей, целые кодовые репозитории или большие книги. А с учётом мультимодальности и способности современных моделей обрабатывать ещё и картинки, видео и аудио (путём преобразования их в специальные нетекстовые токены), зугружать туда часы видео или речевых записей.

С учётом того, что модели хорошо проходят (/channel/gonzo_ML/2351) Needle In A Haystack тесты (https://github.com/gkamradt/LLMTest_NeedleInAHaystack), можно получать вполне релевантные ответы при работе с такими длинами. Реально можно найти конкретный кадр в видео (/channel/gonzo_ML/2357) или момент в книге (/channel/gonzo_ML/2356). И решать совершенно новые классы задач. Меня, например, впечатляют кейсы, когда модели скормили видео со скринкастом решения задачи (поиск жилья на Zillow) и попросили сгенерить код Selenium для решешия этой же задачи (https://www.facebook.com/DynamicWebPaige/videos/1422440318698615). Или тот же перевод на/с языка Kalamang по загруженному учебнику грамматики (/channel/gonzo_ML/2355, про то же от Джеффа Дина: https://twitter.com/JeffDean/status/1758149033473020081). Да, там в реальности есть ещё словарь и 400 параллельных предложений, но всё равно, In-context language learning -- это очень круто. Как и ответы на вопросы по длинному документу.

Читать полностью…

gonzo-обзоры ML статей

А тем временем стоимость Нвидии выше, чем ВВП РФ

https://www.marketwatch.com/story/nvidia-is-now-worth-more-than-the-gdp-of-every-country-except-these-few-d58a3508

Читать полностью…

gonzo-обзоры ML статей

Neural Network Diffusion
Kai Wang, Zhaopan Xu, Yukun Zhou, Zelin Zang, Trevor Darrell, Zhuang Liu, Yang You
Статья: https://arxiv.org/abs/2402.13144
Код: https://github.com/NUS-HPC-AI-Lab/Neural-Network-Diffusion

Диффузионные модели сейчас рулят, создавая прекрасные картинки и не только. Авторы предложили, что они могут генерить и параметры нейросетей. Вообще, мне кажется, они изобрели hypernetwork (писали про них тут /channel/gonzo_ML/1696) через диффузию.

Для тех, кто не знает как работают диффузионные модели, совсем в двух словах и на пальцах. Прямой диффузионный процесс получает на вход картинку (вместо картинки может быть любой другой сигнал) и последовательно шаг за шагом добавляет в неё шум, пока она не превратится в совсем шумный сигнал. Прямой диффузионный процесс не очень интересен, интересен обратный -- он получает на вход шум и последовательно его убирает, “открывая” (создавая) скрывающуюся за ним картинку (как бы делая denoising). Примеры диффузионных моделей мы разбирали в лице DALLE 2 (/channel/gonzo_ML/919) и Imagen (/channel/gonzo_ML/980).

Обучение нейросети через SGD идейно похоже на обратный диффузионный процесс: стартуем с рандомной инициализации и последовательно обновляем веса, пока не достигнем высокого качества на заданной задачи. Свой подход авторы назвали neural network diffusion или p-diff (от parameter diffusion).

Идея и реализация просты и по-своему красивы.

Во-первых, мы собираем датасет с параметрами нейросетей, обученных SGD и обучаем на нём автоэнкодер, из которого потом возьмём latent representation (можем это делать не на полном наборе параметров, а на подмножестве). Вторым шагом мы обучаем диффузионную модель, которая из случайного шума сгенерит latent representation, который в свою очередь через декодер обученного на первом шаге автоэнкодера мы восстановим в сами веса. Теоретически можно было бы и обучить диффузию на самих весах сразу, но это требует сильно больше памяти.

Для автоэнкодера параметры преобразуются в одномерный вектор, также используется одновременная аугментация шумом входных параметров и латентного представления. Обучение диффузионной модели -- это классический DDPM (https://arxiv.org/abs/2006.11239). Использовались 4-слойные 1D CNN энкодер и декодер.

Проверяли на картиночных датасетах MNIST, CIFAR-10, CIFAR-100, STL-10, Flowers, Pets, F-101, ImageNet-1K и на сетях ResNet-18/50, ViT-Tiny/Base, ConvNeXt-T/B.

Для каждой архитектуры накапливали 200 точек для обучения (чекпойнты последней эпохи). Я не до конца уловил, что именно они сохраняли, говорят про два последних слоя нормализации (только параметры BatchNorm’а чтоли?) и фиксированные остальные параметры. В большинстве случаев обучение автоэнкодера и диффузионки требовало 1-3 часа на одной A100 40G.

На инференсе генерят 100 новых параметров, из них оставляют один с максимальным перформансом на training set, его оценивают на validation set и этот результат и репортят.

В качестве бейзлайнов выступают 1) оригинальные модели и 2) ансамбли в виде усреднённого супа файнтюненных моделей (“Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time”, https://arxiv.org/abs/2203.05482).

Результат в большинстве случаев не хуже обоих бейзлайнов. То есть выучивается распределение high-performing параметров. Метод стабильно хорошо работает на разных датасетах.

Провели много абляций на ResNet-18 + CIFAR-100.

Чем больше моделей было в обучении, тем лучше. Метод генерит более качественные модели для слоёв на любой глубине. При этом на последних слоях результат самый высокий (предполагают, что это из-за меньшего накопления ошибок во время forward prop). Аугментация шумом в автоэнкодере очень важна, особенно для латентного состояния (а лучше одновременно и для входа тоже).

Это всё было для подмножества весов. Проверили также на генерации полного набора весов на маленьких сетях MLP-3 и ConvNet-3 и MNIST/CIFAR-10/100. Размеры сетей здесь 25-155к параметров. Также работает.

Читать полностью…

gonzo-обзоры ML статей

In case you missed it.

GPT-2 in Excel

https://spreadsheets-are-all-you-need.ai/

Читать полностью…

gonzo-обзоры ML статей

Свежий релиз

https://github.com/openai/transformer-debugger

Transformer Debugger (TDB) is a tool developed by OpenAI's Superalignment team with the goal of supporting investigations into specific behaviors of small language models. The tool combines automated interpretability techniques with sparse autoencoders.

Читать полностью…

gonzo-обзоры ML статей

Вот ещё из интересных моделей, Cohere выложили Command-R.
35B параметров, контекст 128k (!), поддерживает с десяток языков.
License: CC-BY-NC

https://huggingface.co/CohereForAI/c4ai-command-r-v01

Читать полностью…

gonzo-обзоры ML статей

Астрологи объявили весёлую неделю:

Читать полностью…

gonzo-обзоры ML статей

Что прикольно, проверили на двух разных кластерах: LUMI с AMD MI250X (до 256 нод с 4 GPU каждая с 128GB) и MosaicML с NVIDIA A100 (27 нод с 8 GPU и 40GB). С незначительными отличиями в настройках (размер батча) итоговый перформанс моделей получился почти идентичный. Было бы интересно сравнить с точки зрения эффективности самих кластеров и затрат на них. По количеству GPU вроде как LUMI почти в 4 раза больше железа задействовал, а по памяти он вообще был в 15 раз больше (131TB против 8.6TB). Непонятно, почему так.

По результатам на zero-shot, OLMo где-то чуть ниже Лам (первой и второй), Falcon и MPT. В сравнении с instruction-tuned версиями где-то на уровне Llama-2-Chat. В целом по цифрам заметно отстаёт от топовых на сейчас моделей, той же Gemma 7B, но Gemma не настолько открытая, она open, но не open source.

Как теперь принято, посчитали углеродный след. В кластере LUMI он нулевой (потому что на энергии от гидроэлектростанции работает), в кластере с NVIDIA в Австралии получилось 70 tCO2eq. Если я правильно понимаю, то полёт туда-обратно между Бостоном и Лондоном даёт тонну на человека (https://climate.mit.edu/ask-mit/how-much-ton-carbon-dioxide), и если там летят условно 300 человек, то это четыре таких обучения моделей.

Ну в общем круто, что всё выложено, research делать на этом должно быть просто. А с точки зрения коммерческих применений, наверное, лучше файнтюнить Gemma 7B.

Читать полностью…

gonzo-обзоры ML статей

Субботнее чтиво.

IEEE Spectrum сделали прикольный формат -- science fiction с комментариями на тему создания действительно большого компьютера.

https://spectrum.ieee.org/hard-science-fiction-computer

Читать полностью…

gonzo-обзоры ML статей

Openness increases the rate of improvement

Over the past week, Unsloth has been hard at work finding and fixing Gemma bugs. At first, Google showcased Gemma’s promising results however, many problems like discrepancies in loss values made us step in to help Gemma live up to its initial promise.

We've already pushed all the fixes in our free Colab notebooks but not elsewhere. Here are the bugs we found:

1. Must add <bos>
2. Paper typo? <end_of_turn>model
3. sqrt(3072)=55.4256 but bfloat16 is 55.5
4. Layernorm (w+1) should be done in float32
5. Keras mixed_bfloat16 RoPE is wrong
6. RoPE is sensitive to a*(1/x) vs a/x
7. RoPE should be float32 not bfloat16 (Fixed in Hugging Face 4.38.2)
8. GELU should be approx tanh not exact (Ongoing PR)

https://unsloth.ai/blog/gemma-bugs

Читать полностью…

gonzo-обзоры ML статей

Пока я не написал новых обзоров, вот вам прекрасное от Миши

https://twitter.com/Mihonarium/status/1764757694508945724?t=Dd9uWyGLPmG0wsP6vWQxRQ&amp;s=19

Или ещё вот:

https://www.lesswrong.com/posts/pc8uP4S9rDoNpwJDZ/claude-3-claims-its-conscious

Читать полностью…

gonzo-обзоры ML статей

Мы в прошлом году поисследовали разные вещи про LLM и MT (машинный перевод).

#1. Во-первых, как LLM работает в качестве MT.
Работает и весьма неплохо (за исключением latency). Особенно рулят цена и потенциальная гибкость настроек.
Результаты тут: https://inten.to/blog/generative-ai-for-translation-in-2024/

#2. Во-вторых, и менее ожидаемо, как MT помогает LLM.
Результаты интересные, местами очень неплохо помогает, в основном для LLM "второго эшелона", в частности опенсорсной Ламе.
Результаты тут: https://inten.to/blog/when-genai-still-needs-mt

#3. А для тех, кому некогда было следить за новостями коммерческих LLM, собрали краткую подборку важных новостей за последние месяца три
https://inten.to/blog/recent-key-highlights-in-genai/

Читать полностью…

gonzo-обзоры ML статей

The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
[Статья][Довольствуйтесь README.md]

Либо результат этой статьи невероятно крут, и ваш покорный слуга может завязывать с сжатием и идти продавать пирожки с капустой, либо бы имеем дело с обманом почище UltraFastBERT.

Утверждается ни много не мало следующее - можно обучать LLM с 1.58 (log2(3)) битами на параметр 🤯, которые сходятся так же хорошо как и fp16 модели!

Метод

В линейных слоях все веса квантуются тернарно (принимают значения -1, 0, 1).
Скейл будто бы берется один на весь тензор, даже не канал, что вдвойне удивительно, учитывая склонность LLM к оутлаерам и неравномерность распреления весов. Активации же приводятся к 8 битам, и чтобы не хранить zero-point, значения активаций симметризуются.

Ничего не сказано про процедуру обучения, был ли использован straigth-through estimator, или что-то еще более хитрое безградиентное для обучения тернарных весов. Ибо наивное обучение всего этого хозяйства должно сходиться из ряда вон плохо.

Эксперименты

За основу берут Llama архитектуру и обучают модели разного размера (от 700M до 3.9B параметров) на RedPajama. В сравнениях с бейзлайновой Llama fp16 все модели поглощают 100B токенов на этапе обучения. Модели сравнивают по перплексии на wikitext2 / c4 (непонятно, какая из них приведена в Таблице 1, или средняя) и zero-shot на lm-eval-harness. На меньших моделях BitNet1.58 (так называется семейство квантованных моделей) лишь слегка уступает бейзлайну, а на больших - будто бы чуть лучше, чем fp16.

Замена большого числа умножений на сложения и разности дает огромный потенциал для ускорения. При том же размере модель в разы быстрее, экономичнее по памяти, и жрет куда меньше драгоценной энергии.

При обучении на 2T токенах, BitNet1.58 на бенчмарках лучше StableLM-3B, обученной на том же числе данных.

Вывод

Практически полное отсутствие описания метода и протокола обучения делает результаты данной работы крайне сомнительными. Краткость - сестра таланта, только если ты OpenAI. В общем, ждем дальнейшей информации. Может, таки выложат модели и нечто большее, чем README.

Читать полностью…

gonzo-обзоры ML статей

Попросил ChatGPT (Gemini не умеет) сгенерить картинку по тексту этого поста, но полный текст поста туда не влез 🙂 И вообще туда много чего не влезло :))) Есть ещё над чем работать.

Читать полностью…

gonzo-обзоры ML статей

Текущие модели типа GPT внутри пока чисто нейросетевые, работающие в режиме стимул-реакция, без какого либо внятного места для размышлений в стиле Системы 2. Те заходы, что есть (например, /channel/gonzo_ML/2100), пока в массе своей довольно детские. Но прямо сейчас где-то там разрабатываются разные гибридные, в том числе нейро-символьные, модели или модели с элементами планирования. Привет тайному Q* (/channel/gonzo_ML/2202) или другим свежим заходам в эти палестины типа, например, https://arxiv.org/abs/2402.14083. Даже в существующем на сейчас режиме, in-context обучение новой задаче по учебнику выглядит безумно круто (если работает). В режиме с полноценными “System 2 - like“ способностями это может быть вообще бомбой. Один из фронтиров пролегает где-то тут.

3) Интересный вопрос встанет с ценой на такой интеллект. Существующий прайсинг Gemini 1.0 Pro (https://ai.google.dev/pricing) в 0.125$ за миллион символов (что в переводе на токены ну пусть будет 0.2$ за миллион) уже сильно круче, чем у OpenAI (https://openai.com/pricing) с их 10$ за миллион токенов для GPT-4 Turbo, $30 для GPT-4 и 0.5$ для существенно менее крутой GPT-3.5 Turbo. И круче, чем Anthropic Claude 2.1 c 8$ за миллион (https://www-cdn.anthropic.com/31021aea87c30ccaecbd2e966e49a03834bfd1d2/pricing.pdf). [*] Речь здесь про входные токены, для выходных цена выше в 2-3 раза, но на выходе нам обычно не нужно генерить миллионы, это важно в первую очередь для задач с большим входом.

Если у Gemini 1.5 Pro будет такой же прайсинг, готовы вы платить по 10 центов за ответ по книге? А за генерацию кода для автоматизации задачи, которую вы записали на видео?

Мой личный ответ на второй вопрос да, а на первый -- хз. Если надо задать десятки вопросов, то это уже единицы долларов. Для анализа юридического документа или для разового саммари книги ок, а если надо делать это на потоке, то вопрос. Надо считать экономику. В сервисах, предоставляющих решения на базе таких моделей, надо как-то явно учитывать usage чтоб не разориться.

4) Независимо от экономики, должны быть способы экономить и кешировать результаты. Если надо задать кучу вопросов по одному и тому же набору документов, то странно делать это каждый раз как бы с нуля. Если структура промпта выглядит как {большой текст} + {вопрос}, то логично было бы первую часть как-то закешировать, раз она постоянная. Технически внутри трансформера эти просчитанные многослойной сеткой эмбеддинги входа можно было бы где-то сохранить и при новом вопросе считать только для этой новой добавки, экономя кучу ресурсов. Но инфраструктуры для этого пока нет (или я пропустил) и даже если вы разворачиваете модель у себя, то всё равно сходу такое не сделаешь, надо попрограммировать.

Мои ожидания, что что-то такое должно появиться и на уровне API, и инфраструкрурно для кеширования результатов локальных моделей. Возможно, какая-то удобная и лёгкая связка с векторной базой данных (ну вы поняли, что надо делать).

5) При правильном использовании это всё способно сильно увеличить производительность в куче задач. Я лично не удивлюсь, если отдельные люди станут в 10 или в 100 раз более продуктивными, что безумно круто. Понятно, что это не панацея и все задачи не решит, плюс по-прежнему актуальны проблемы конфабуляций (то, что лучше употреблять вместо галлюцинаций) и перепроверки результата.

Вероятно, есть классы задач, где проверка сильно дешевле, чем решение задачи самостоятельно (можем для прикола назвать этот класс “когнитивными NP” задачами), и их точно много -- те же написания писем или постов в блог явно ложатся сюда. Я лично уже давно пишу в англоязычный блог через перевод сразу всего текста GPT с последующим редактированием, это существенно быстрее, чем писать с нуля самому. Замечу, что косяки при этом встречаются сравнительно редко, даже GPT-4 Turbo нередко выдаёт текст, где вообще можно ничего не менять. Иногда -- сделать одну-две правки. Ни разу ещё не понадобилось переписывать не то что целый текст, а хотя бы один абзац.

Читать полностью…

gonzo-обзоры ML статей

Мистраль выкатил свою большую модель Mistral Large, доступна на La Plateforme и Azure.

32k контекст, мультиязычная, умеет function calling.

Также выкатили оптимизированную Mistral Small, которая лучше Mixtral 8x7B (/channel/gonzo_ML/2162).

https://mistral.ai/news/mistral-large/

Читать полностью…

gonzo-обзоры ML статей

Дополнительно обучили ResNet-18 на трёх случайных сидах, и посмотрели есть ли паттерны в параметрах. Какие-то вроде есть (по мне так картинки вообще не наглядны, я не понял какие именно паттерны они там увидели). А если они есть, то видимо их и выучивает предложенный подход.

Поисследовали разницу между оригинальными и сгенерированными моделями чтобы понять, 1) не запоминает ли p-diff тренировочные данные, и 2) есть ли какая-то разница между параметрами, получаемыми при файнтюнинге или добавлении шума и новыми сгенерированными. Похожесть моделей оценивали по Intersection over Union (IoU) для их неправильных предсказаний. Такого способа определения похожести моделей я раньше, кажется, не встречал (но может я что-то пропустил и это давно уже общее место?)

Разница между сгенерированными моделями получилась заметно больше, чем между оригинальными. И даже максимальная похожесть между сгенерёнными и оригинальными заметно ниже, чем между оригинальными. То есть метод генерит какие-то новые параметры. Файнтюненные и зашумлённые версии моделей кучкуются в каких-то своих узких кластерах, метод с диффузионкой генерит гораздо разнообразнее (и подчас с более высоким качеством). t-SNE от латентных представлений p-diff сильно отличается от оригинальных и шумных версий моделей (про шумные, наверное логично, что они там же где оригинальные, мы же обучали на устойчивость к шуму).

В целом интересная тема. Действительно, почему бы не появиться диффузионному оптимизатору? Да и для инициализации тоже может быть тема (если тем самым, например, на пару эпох можно всё ускорить?). Ждём развития!

Читать полностью…

gonzo-обзоры ML статей

Google зарелизил опен-сорсные LLM (или скорее даже SLM) под названием Gemma!

https://blog.google/technology/developers/gemma-open-models/

Выложены модели 2B и 7B, для каждой есть обычная pretrained версия и instruction-tuned. Обучены на 2T и 6T токенов соответственно. Без фокуса на мультимодальность и мультиязычность.

Более-менее обычный декодер трансформера, контекст размером 8192 токена. Токенизатор SentencePiece, словарь 256k.

Коммерческое использование независимо от размера организации разрешено.

По бенчмаркам бьют соразмерные (и следующие) LLaMa 2.

Сразу заготовлена куча тулинга: ноутбуки, HF (https://huggingface.co/blog/gemma/) и прочее.

Репорт: https://storage.googleapis.com/deepmind-media/gemma/gemma-report.pdf

Читать полностью…
Subscribe to a channel