Telegram-канал gonzo_ml - gonzo-обзоры ML статей: Unsorted

gonzo-обзоры ML статей

12 October 2024 11:07

Лонгрид от Дарио

Machines of Loving Grace
How AI Could Transform the World for the Better

https://darioamodei.com/machines-of-loving-grace

Читать полностью…

gonzo-обзоры ML статей

10 October 2024 09:05

Nathan Benaich и Air Street Capital опубликовали новый State of AI Report 2024 (https://www.stateof.ai/)

Сама преза: https://docs.google.com/presentation/d/1GmZmoWOa2O92BPrncRcTKa15xvQGhq7g4I4hJSNlC0M/edit?usp=sharing

Key takeways from the 2024 Report include:

* Frontier lab performance begins to converge and proprietary models lose their edge, as the gap between GPT-4 and the rest closes. OpenAI o1 put the lab back at the top of the charts - but for how long?
* Planning and reasoning take priority in LLM research, as companies explore combining LLMs with reinforcement learning, evolutionary algorithms, and self-improvement to unlock future agentic applications.
* Foundation models demonstrate their ability to break out of language, supporting multimodal research across mathematics, biology, genomics, the physical sciences, and neuroscience.
* US sanctions have limited effects on Chinese labs’ ability to produce capable models, as a combination of stockpiles, approved hardware, smuggling, and cloud access allow them to build highly performant (V)LLMs. Meanwhile, China’s efforts to build a domestic semiconductor industry remain scrambled.
* The enterprise value of AI companies has hit $9T, as public companies experience a bull market for AI exposure. Investment in private AI companies also increased, but by an order of magnitude less, despite GenAI megarounds in the US.
* A handful of AI companies begin to generate serious revenue, including foundation model builders and start-ups working on video and audio generation. However, as models get cheaper as part of the corporate land-grab, questions around long-term sustainability go unanswered.
* The pseudo-acquisition emerges as an off-ramp for AI companies, as some companies struggle to find a viable business model as staying at the frontier proves costly.
* The existential risk discourse has cooled off, especially following the abortive coup at OpenAI. However, researchers have continued to deepen our knowledge of potential model vulnerabilities and misuse, proposing potential fixes and safeguards.

Блог: https://www.stateof.ai/2024-report-launch

Читать полностью…

gonzo-обзоры ML статей

09 October 2024 16:11

А вот и от Анатолия лонгрид

Читать полностью…

gonzo-обзоры ML статей

09 October 2024 12:36

Это всё прекрасно! Второй нейросетевой Нобель! За AlphaFold!

Мои поздравления команде!

https://www.nobelprize.org/prizes/chemistry/2024/press-release/

Читать полностью…

gonzo-обзоры ML статей

08 October 2024 13:00

Потрясающее количество негативных реакций на Нобелевку.

Прокомментируйте, почему?

Читать полностью…

gonzo-обзоры ML статей

08 October 2024 12:07

Нейросетевая Нобелевка!

BREAKING NEWS

The Royal Swedish Academy of Sciences has decided to award the 2024 #NobelPrize in Physics to John J. Hopfield and Geoffrey E. Hinton “for foundational discoveries and inventions that enable machine learning with artificial neural networks.”

https://x.com/NobelPrize/status/1843589140455272810?t=83ux2ru68oFVnk_CMtoqMA&s=19

Читать полностью…

gonzo-обзоры ML статей

05 October 2024 20:20

Were RNNs All We Needed?
Leo Feng, Frederick Tung, Mohamed Osama Ahmed, Yoshua Bengio, Hossein Hajimirsadegh
Статья: https://arxiv.org/abs/2410.01201

Продолжение возрождения рекуррентных сетей. На сей раз снова классика (RNN/LSTM/GRU), а не новомодные SSM (которые ещё и не эквивалентны RNN, в смысле находятся в более простом классе сложности, см. https://www.youtube.com/watch?v=4-VXe1yPDjk).

RNN обладают фундаментальными преимуществами в виде требований к памяти. Они линейны (от размера последовательности) при обучении и константны при инференсе. Чего не скажешь про ванильные трансформеры, у которых квадратичная и линейная сложности соответственно. Один только большой минус был у RNN -- обучение не параллелилось. Обучались они последовательно через backpropagate through time (BPTT), что для длинных последовательностей очень медленно. Здесь преимущества трансформеров в виде параллелизации при всех их недостатках относительно сложности оказалось достаточно, чтобы их обучение скейлилось, и вот мы там где мы есть -- трансформеры вытеснили рекуррентные сети из своих экологических ниш и доминируют почти везде.

Работы последних пары лет устраняют этот недостаток RNN, на свет появились LRU, Griffin, RWKV, Mamba и прочие. Всё это современное разнообразие эффективно параллелится с помощью одного и того же алгоритма -- parallel prefix scan, он же parallel prefix sum (https://www.cs.cmu.edu/~guyb/papers/Ble93.pdf).

Авторы текущей работы адаптируют parallel scan для старых добрых LSTM/GRU, устраняя зависимость input, forget и update гейтов от скрытого состояния (H). Заодно и tanh нелинейность тоже убирают (привет, LRU!). Обычные ванильные RNN не рассматривают, ссылаясь на проблемы с затухающими и взрывающимися градиентами (но вспомним LRU от DeepMind, он как раз был вариацией обычной RNN, /channel/gonzo_ML/1734).

У LSTM, кстати, тоже было 100500 разных вариантов, например, peephole connections с дополнительной зависимостью гейтов от содержимого ячейки памяти -- помните, у LSTM по факту две переменные состояния, внутреннее состояние ячейки памяти (C, не видно снаружи) и скрытое состояние (H, hidden state, которое снаружи видно). По LSTM, на мой взгляд, есть два фундаментальных источника информации кроме оригинальных статей. Один -- это PhD диссертация Феликса Герса (Felix Gers, http://www.felixgers.de/papers/phd.pdf), который и добавил в архитектуру forget gate (изначально было только два других гейта) + peephole connections. Второй -- PhD диссертация Алекса Грейвса (Alex Graves, https://www.cs.toronto.edu/~graves/phd.pdf), который придумал CTC loss и многомерные RNN. Сила хороших PhD. Ну да ладно.

Авторы получают минималистичные версии LSTM и GRU (minLSTM и minGRU соответственно), которые требуют меньше параметров, параллелятся при обучении и дают хорошее качество. Надо вспомнить, что было в истории много других заходов на рекуррентные сети с быстрым параллельным обучением. Например, QRNN (https://arxiv.org/abs/1611.01576, она более отличается благодаря наличию свёрток) или SRU (https://arxiv.org/abs/1709.02755).

По сути работы авторы посмотрели на оригинальные архитектуры LSTM и GRU и убрали вещи, которые мешали реализовать их обучение через parallel scan.

В GRU убралась зависимость update gate (z) и скрытого состояния (h) от предыдущего значения h. Reset gate ушёл совсем. Затем ушёл tanh при вычислении финального значения h. Теперь нужно O(2*d_h*d_x) параметров вместо O(3*d_h(d_x + d_h)) в оригинальном GRU.

В LSTM также ушла зависимость от предыдущего состяния h в forget и input гейтах, а также в содержимом ячейки памяти c. Из вычисления c также ушёл tanh, и в итоге дропнули output gate и саму ячейку c, осталось только h. minLSTM требует O(3*d_h*d_x) параметров вместо O(4*d_h(d_x + d_h)) в LSTM.

По времени вычисления новые модели minLSTM/minGRU сравнимы с Mamba и, например, на длине последовательности в 512 элементов быстрее оригиналов в LSTM/GRU в 235 и 175 раз. На больших длинах ещё солиднее.

Читать полностью…

gonzo-обзоры ML статей

28 September 2024 21:37

На всякий случай, вдруг вы пропустили, технооптимизм от Сэма Альтмана. В прошлом году был технооптимизм от Марка Андриссена.

"This may turn out to be the most consequential fact about all of history so far. It is possible that we will have superintelligence in a few thousand days (!); it may take longer, but I’m confident we’ll get there.

How did we get to the doorstep of the next leap in prosperity?

In three words: deep learning worked.

In 15 words: deep learning worked, got predictably better with scale, and we dedicated increasing resources to it.

That’s really it; humanity discovered an algorithm that could really, truly learn any distribution of data (or really, the underlying “rules” that produce any distribution of data). To a shocking degree of precision, the more compute and data available, the better it gets at helping people solve hard problems. I find that no matter how much time I spend thinking about this, I can never really internalize how consequential it is."

https://ia.samaltman.com/

"It won’t happen all at once, but we’ll soon be able to work with AI that helps us accomplish much more than we ever could without AI; eventually we can each have a personal AI team, full of virtual experts in different areas, working together to create almost anything we can imagine. Our children will have virtual tutors who can provide personalized instruction in any subject, in any language, and at whatever pace they need. We can imagine similar ideas for better healthcare, the ability to create any kind of software someone can imagine, and much more."

Читать полностью…

gonzo-обзоры ML статей

27 September 2024 09:39

Больше констатация факта, чем новый прорыв.

Гугл дал имя своей системе 2020 года для дизайна чипов на базе RL. Теперь это AlphaChip

https://deepmind.google/discover/blog/how-alphachip-transformed-computer-chip-design/

В небольшой статье-дополнении появилось чуть больше деталей, а также выложен один предобученный чекпойнт и инструкции по предобучению. Код уже был в опенсорсе.

За прошедшие годы Гугл активно использовал эту систему для дизайна собственных чипов, TPU и Axion. Также систему использовал тайваньский MediaTek.

Читать полностью…

gonzo-обзоры ML статей

21 September 2024 12:42

В развитие темы про "не только трансформеры" и SSM. На The Gradient попалась неплохая статья с полезной интуицией про Мамбу:

https://thegradient.pub/mamba-explained/

Читать полностью…

gonzo-обзоры ML статей

18 September 2024 09:43

Ура! Моя книга “Deep Learning with JAX” (в девичестве "JAX in Action") вышла в печать! Я только что получил свои бумажные копии 🙂

https://www.manning.com/books/deep-learning-with-jax

Для тех, кто не следил, JAX -- это питоновская библиотека для высокопроизводительных вычислений и large-scale ML, с отличной поддержкой ускорителей, в частности TPU.

На данный момент JAX является вполне реальной альтернативой TensorFlow и PyTorch (torch.func, в юности functorch, до сих пор пытается угнаться и всё ещё beta), и многие компании, в частности Google DeepMind, Cohere, xAI и прочие, перешли на него. На JAX созданы такие известные модели как AlphaFold, GraphCast, Gemini, Gemma, Grok, и я уже молчу сколько разного рисёча.

JAX -- это больше, чем библиотека для ML, это библиотека для очень разных высокопроизводительных, параллельных и распределённых вычислений. Не просто так его называют “NumPy на стероидах”. За пределами ML/DL, например, JAX активно используется для физических симуляций, и на GitHub есть уже огромное количество производных библиотек.

Сейчас отличное время, чтобы застолбить себе немного будущего :)

Отдельная радость должна быть для любителей функционального программирования, ибо JAX -- это первый фреймворк с большим охватом, работающий в этой парадигме. Очень прикольно использовать функции для трансформации других функций. Написали функцию для обработки одного элемента -- трансформировали в функцию для обработки батча. Написали сложную математическую функцию -- трансформировали в функцию, вычисляющую её производную. Аналогично с компиляцией и распараллеливанием. Никаких hidden state и side-effects, код чист, красив и понятен. А также БЫСТР! (см. https://x.com/fchollet/status/1735420737744507374)

Книга состоит из трёх частей на 370+ страницах.

Part 1: First steps.
Верхнеуровневое введение в JAX для менеджеров и вообще всех, рассказывающее, где и почему стоит использовать JAX. Плюс отдельная глава для тех, кто любит видеть код, где показан полный цикл реализации простой нейросети с использованием большинства фишек JAX.

Part 2: Core JAX.
Основная часть книги, где покрыты все основы JAX, шаг за шагом. От работы с массивами (тензорами), autodiff, компиляция, векторизация, параллелизация и шардирование, случайные числа (в функциональном программировании старые приёмы из NumPy не работают эффективно, зато теперь всё наглядно и воспроизводимо!) и pytrees.

Part 3: Ecosystem.
Большая глава с практическим знакомством с экосистемой высокоуровневых библиотек для DL (Flax, Optax, Orbax, CLU, …), а также примеры использования HuggingFace Transformers/Diffusers, которые давно уже добавили поддержку JAX. Также есть отдельная глава с очень верхнеуровневым и широким обзором того, что есть в JAX и вокруг за пределами нейросетевого мейнстрима.

Много крутых и умных людей читало и ревьюило мою книгу, спасибо куче GDE и не только. И отдельное спасибо Франсуа Шолле за добрые слова 🙂

“A comprehensive guide to mastering JAX, whether you’re a seasoned deep learning practitioner or just venturing into the realm of differentiable programming and large-scale numerical simulations.”
-- François Chollet, Software Engineer, Google

В общем это был прикольный опыт, я доволен результатом, надеюсь, вам тоже понравится.

Ещё отдельное спасибо всем, кто поддерживал GonzoML на Патреоне (https://www.patreon.com/GonzoML). Всем действующим платным членам нашей тесной группы я отправил коды для получения книги бесплатно (проверьте сообщения!) -- у вас будет постоянно обновляемая версия (a JAX очевидно будет меняться!) в онлайн доступе.

Читать полностью…

gonzo-обзоры ML статей

08 September 2024 09:43

Интересная статистика сбоев в распределенной системе для обучения большой LLM. Из работы про Llama 3 (https://ai.meta.com/research/publications/the-llama-3-herd-of-models/)

Читать полностью…

gonzo-обзоры ML статей

07 September 2024 18:06

И в продолжение банкета. Не могу это развидеть

https://www.facebook.com/share/v/NeWF1pCNzJb8fW3f/

Читать полностью…

gonzo-обзоры ML статей

02 September 2024 18:12

В общем, интересное развитие, ждём больше нетрансформерных SSM (и не только) моделей. У NVIDIA был тоже гибрид Mamba-2-Hybrid (https://arxiv.org/abs/2406.07887), и есть ещё StripedHyena (свёртки Hyena + attention, https://www.together.ai/blog/stripedhyena-7b), но последние две были маленькие, 7-8B.

Читать полностью…

gonzo-обзоры ML статей

15 August 2024 20:22

We're excited to introduce The AI Scientist, the first comprehensive system for fully automatic scientific discovery, enabling Foundation Models such as Large Language Models (LLMs) to perform research independently.

https://github.com/SakanaAI/AI-Scientist

Blog: https://sakana.ai/ai-scientist/
Paper: https://arxiv.org/abs/2408.06292

Читать полностью…

gonzo-обзоры ML статей

10 October 2024 14:24

Это прекрасно!

"“I was particularly fortunate to have many very clever students – much cleverer than me – who actually made things work,” said Hinton. “They’ve gone on to do great things. I’m particularly proud of the fact that one of my students fired Sam Altman.”

https://techcrunch.com/2024/10/09/after-winning-nobel-for-foundational-ai-work-geoffrey-hinton-says-hes-proud-ilya-sutskever-fired-sam-altman/

Читать полностью…

gonzo-обзоры ML статей

09 October 2024 16:11

Мои комментарии по выдаче нобелевки по физике 2024 года (хотя я там в тексте и нобелевку по химии поминаю, она тоже по нейросетям, но там обсуждать нечего). Две линии комментариев:
— да, глубокое обучение в его сегодняшней версии исторически появилось из исследований физиков, из математики физиков (и даю несколько ссылок на работы весьма давних лет, впрочем и современные работы тоже)
— интересная культурная ситуация, когда выпускники самых разных вузов, которые заведомо проходили курсы по физике, не понимают, почему физики присудили нобелевку людям из машинного обучения. То есть вообще не понимают ничего про первый пункт. Это вопрос современного образования как такового.

Неожиданно много, 14Кзнаков.

https://ailev.livejournal.com/1737734.html

Читать полностью…

gonzo-обзоры ML статей

09 October 2024 14:11

Комментарий Михаила Кацнельсона

"Меня попросили прокомментировать нобелевскую премию по физике (видимо, не столько нобелевскую премию саму по себе, сколько сопровождающий шум). Однако, почитавши ленту, я впал в полную растерянность. Как комментировать всеобщее убеждение, что воробей не птица, а Марс не планета? Читать полный курс зоологии (в первом случае) или астрономии (во втором)? Мы так не договаривались. Если «все» говорят, что машинное обучение - не физика, возникает вопрос, а что «они» понимают под физикой. Метод Монте-Карло - это физика? А ренормгруппа? Тогда почему машинное обучение не физика? Содержательно это раздел статистической физики, и проблемы машинного обучения могут изучаться теми же методами. Или есть сомнения, что это _используется_ в физике? Ну зайдите в архив, в какой-нибудь безусловно физический раздел (я проверил в cond-mat), и сделайте поиск на machine learning в названии или в абстракте. А, это используется не только в физике? Ну хорошо - а рентгеновские лучи используются в медицине, и ядерный магнитный резонанс тоже. Соответствующие явления перестают поэтому быть физикой?

В общем, не знаю, что сказать.

Важно это или не важно для физики? Ну, слушайте. Работ, за которые _можно_ дать нобелевскую премию, раз в сто больше, чем тех, за которые ее реально дают, и _всегда_ кто-то будет спрашивать, а почему дали за аттосекундную спектроскопию, а не за лазеры на свободных электронах, или почему Бете получил премию, а Пайерлс (физик примерно того же класса) нет. Это нормальные разговоры.

Возможно, и разговоры «это не физика» тоже с какой-то точки зрения нормальные, но я лично их понять не способен."

https://facebook.com/story.php?story_fbid=pfbid0mJAsERnPumJ6KjYxigYawzWms9P8xr34kHs2uRzPFDqXqas7HtzH1pWSuTXqL6K6l&id=100004887810496

Читать полностью…

gonzo-обзоры ML статей

09 October 2024 10:35

Минутка истории. Для тех, кто забыл про связь deep learning и разной интересной физики.

Пост Анатолия Левенчука 2015-го года очень в тему:

https://ailev.livejournal.com/1197148.html

Жаль, Анатолий вышел из нашего чата, он, конечно, многое может сказать по теме и по сути.

Про RBM тоже надо будет что-нибудь хорошее найти. Новое поколение их, наверное, не застало и не знает, да и какого-то прямого выхлопа в области прямо сейчас они не имеют, но в целом energy-based models это отдельная и очень большая тема, которая вполне себе живёт.

Читать полностью…

gonzo-обзоры ML статей

08 October 2024 12:10

https://www.nobelprize.org/prizes/physics/2024/press-release/

Читать полностью…

gonzo-обзоры ML статей

05 October 2024 20:20

Памяти требуется больше (на 88%), так как надо хранить большой вычислительный граф для распараллеливания. Mamba требует на 56% больше, чем minGRU.

На задачке Selective Copy из работы про мамбу модели minLSTM, minGRU и Mamba (S6) её решают. А S4, H3 и Hyena решают лишь частично (это взято из работы про мамбу).

На RL задачах с MuJoCo locomotion (HalfCheetah, Hopper, Walker) из бенчмарка D4RL сравнивали с вариантами Decision Transformer (/channel/gonzo_ML/719), включая Decision S4, Decision Mamba и (Decision) Aaren. minLSTM и minGRU лучше Decision S4 и сравнимы с Decision Transformer, Aaren и Mamba.

Языковое моделирование проверили на character-level GPT (nanoGPT) на трудах Шекспира. Лосс на тест сете у minGRU, minLSTM, Mamba, и Transformers близки. Мамба чуть хуже других, зато обучается быстрее всего (400 шагов). minGRU/minLSTM выходят на оптимум за 575/625 шагов, а трансформер за 2000.

Вообще конечно, сравнивать полученные minLSTM/minGRU с трансформерами и SSM, но не сравнить с оптимизированными RNN типа LRU, SRU или QRNN -- это очень странно. Я не удивлюсь, если они в целом не хуже. Так же было бы интересно сравнить со свежей xLSTM (/channel/gonzo_ML/2624), официальный код наконец появился (https://github.com/NX-AI/xlstm).

В целом мне кажется, что очень не хватает обзорной работы, где было бы сравнение кучи известных параллельных RNN. Никто не хочет?

Читать полностью…

gonzo-обзоры ML статей

02 October 2024 00:56

У OpenAI сегодня DevDay, вот один человек не поленился текстовый стрим сделать:

https://simonwillison.net/2024/Oct/1/openai-devday-2024-live-blog/

Из самого интересного для меня наверное Realtime API (пока для текста и аудио) через WebSocket.

Также дистилляция моделей, файнтюн vision моделей, и столь популярный нынче prompt caching. Я в начале года писал, что к этому должно прийти, вот все и пришли :)

Читать полностью…

gonzo-обзоры ML статей

28 September 2024 16:12

TWIMC

Скоро стартует курс по AI Alignment.
https://aisafetyfundamentals.com/alignment/

Дедлайн подачи заявок до 6 октября

Читать полностью…

gonzo-обзоры ML статей

25 September 2024 22:14

Что-то всё-таки происходит

https://x.com/miramurati/status/1839025700009030027?t=VID0XQCRNrLXWmGXCAkiXw&s=19

Читать полностью…

gonzo-обзоры ML статей

18 September 2024 22:33

Не забыли ещё про KAN'ы? А тут уже KAT'ы подвезли!

Kolmogorov-Arnold Transformer
Xingyi Yang, Xinchao Wang
https://arxiv.org/abs/2409.10594

Читать полностью…

gonzo-обзоры ML статей

12 September 2024 19:50

Ризонинг подвезли!

https://openai.com/index/learning-to-reason-with-llms/

Читать полностью…

gonzo-обзоры ML статей

07 September 2024 23:34

Here are my slides from today's talk at Datafest Yerevan.

The talk was about non-transformer architectures, e.g., good old MLPs, CNNs, RNNs, and brand-new SSMs. It may be too dense with too many model names, but I think it may be useful as a reference for further exploration.

https://docs.google.com/presentation/d/19jpt6sSScUb1yKnlO3a47SsMRIL7UmqQZKkuADyI7nM/edit#slide=id.g2f6fb83b821_0_15

Читать полностью…

gonzo-обзоры ML статей

05 September 2024 04:07

У кого охлаждение интереса к GenAI, а у кого и сид раунды на миллиард:

https://www.reuters.com/technology/artificial-intelligence/openai-co-founder-sutskevers-new-safety-focused-ai-startup-ssi-raises-1-billion-2024-09-04/

Читать полностью…

gonzo-обзоры ML статей

02 September 2024 18:12

[AI21] Jamba-1.5: Hybrid Transformer-Mamba Models at Scale
AI21 Labs Jamba Team
Статья: https://arxiv.org/abs/2408.12570
Пост: https://www.ai21.com/blog/announcing-jamba-model-family
Модели: https://huggingface.co/collections/ai21labs/jamba-15-66c44befa474a917fcf55251

Малозамеченным прошёл релиз моделей Jamba-1.5, отскейленных версий мартовской Jamba (/channel/gonzo_ML/2492).

Напомним, что Jamba — это гибрид SSM (/channel/gonzo_ML/1424) и трансформера, точнее Mamba (/channel/gonzo_ML/2148) + MoE (Mixture-of-Experts, про это мы писали много, можно начать отсюда /channel/gonzo_ML/472) + трансформерные слои.

В оригинале блок Jamba состоял из 8 слоёв, из них каждый второй MoE, всего четыре штуки; три слоя Mamba, и один трансформерный. Малое количество трансформерных слоёв позволяло уменьшить размер KV-кеша (получается в 8 раз меньше обычного трансформера с таким же количеством слоёв).

Оригинальная Jamba содержала 52B параметров, из которых активны в каждый момент были 12B (потому что MoE).

Благодаря более скромному memory footprint, модель позволяла использовать контекст размером 140k на одном GPU A100-80 Gb, намного больше, чем влезало у Llama-2 70B или Mixtral 8x7B. Полный размер контекста модели был 256k токенов. Это также позволяло использовать более крупные батчи, так что итоговый throughput начиная с размера батча 4 был выше упомянутых конкурентов.

По качеству оригинальная Jamba показала себя достойно в сравнении с Llama-2 13B-70B, Gemma 7B и Mixtral.

Это была базовая модель, никакого alignment или instruction tuning. Доступна под Apache 2.0

Теперь в августе вышло обновление, Jamba-1.5, включающая две модели:
* Jamba-1.5-Mini: 12B/52B active/total params (как оригинальная Jamba)
* Jamba-1.5-Large: 94B/398B active/total params

Пробовали блоки Mamba-2 (/channel/gonzo_ML/2718), но они оказались не лучше и в архитектуре оставили Mamba-1.

Для эффективного инференса разработали новую квантизацию ExpertsInt8, когда веса MoE и MLP квантуются в INT8, а перед вычислением приводятся к BF16, чтобы использовать быстрые BF16 кернелы. Это всё происходит внутри vLLM в fused_moe кернеле. На H100 latency ExpertsInt8 соответствует FP8, а на A100, где нет FP8, намного превосходит GPTQ.

В обучение добавили Activation Loss, так как некоторые активации вырастали до 4e6, что вроде ничему не мешало, но на всякий случай.

Throughput и latency у Jamba хороши по сравнению с конкурентами (Llama 3.1 8B, Mixtral-8x7B, Mistral Nemo 12B для Mini; Llama 3.1 70B, Mistral Large 2, Llama 3.1 405B для Large), особенно на большом размере контекста.

Обучалось на каком-то внутреннем датасете в три фазы. В pre-train по сравнению с предыдущей Jamba добавили мультиязычные данные с фокусом на English, Spanish, French, Portueguse, Italian, Dutch, German, Arabic, Hebrew. Затем был mid-training с фокусом на длинных документах. Затем post-training с SFT на качественных разговорных данных, скилл-специфичных и с длинным контекстом. Как я понял, отдельного preference tuning типа PPO/DPO не было, обошлись качественной синтетикой, фильтрацией и SFT.

Модель обучена с function calling. Я рад, что эта тема (/channel/gonzo_ML/2821) развивается.

Итоговые модели сравнимы с соразмерными конкурентами из линеек Llama-3.1, Gemma-2, Mistral-Large-2.

Отдельно проверили способности на задачах с большим контекстом через бенчмарк RULER (https://arxiv.org/abs/2404.06654) с 8 вариантами needle-in-a-haystack задач. Заявляют, что они единственные, кто поддерживает эффективный контекст в 256k, остальные хоть и заявляют большие длины, но лажают. На ∞BENCH тоже хороши.

Короче, выглядит хорошо. Кажется, это первая реально большая нетрансформерная (ну почти) модель. Лицензия у новой модели правда изменилась с Apache 2.0 на Jamba Open Model License, которая personal, revocable, и не разрешает коммерческое использование, если вы зарабатываете больше $50M в год (problems nice to have).

Читать полностью…

gonzo-обзоры ML статей

09 August 2024 17:45

An interesting opinion on hype/no hype.

"I don't think that "AI" models [a] (by which I mean: large language models) are over-hyped.

Yes, it's true that any new technology will attract the grifters. And it is definitely true that many companies like to say they're "Using AI" in the same way they previously said they were powered by "The Blockchain". (As we've seen again, and again, and again, and again.) It's also the case we may be in a bubble. The internet was a bubble that burst in 2000, but the Internet applications we now have are what was previously the stuff of literal science fiction.

But the reason I think that the recent advances we've made aren't just hype is that, over the past year, I have spent at least a few hours every week interacting with various large language models, and have been consistently impressed by their ability to solve increasingly difficult tasks I give them. And as a result of this, I would say I'm at least 50% faster at writing code for both my research projects and my side projects as a result of these models.

Most of the people online I find who talk about LLM utility are either wildly optimistic, and claim all jobs will be automated within three years, or wildly pessimistic, and say they have contributed nothing and never will.

So in this post, I just want to try and ground the conversation. I'm not going to make any arguments about what the future holds. I just want to provide a list of 50 conversations that I (a programmer and research scientist studying machine learning) have had with different large language models to meaningfully improve my ability to perform research and help me work on random coding side projects."

https://nicholas.carlini.com/writing/2024/how-i-use-ai.html

Читать полностью…