gonzo_ml | Unsorted

Telegram-канал gonzo_ml - gonzo-обзоры ML статей

21999

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Subscribe to a channel

gonzo-обзоры ML статей

Давно говорю, надо вместо нейронок делать глиалки!

https://www.quantamagazine.org/these-cells-spark-electricity-in-the-brain-theyre-not-neurons-20231018/

Читать полностью…

gonzo-обзоры ML статей

Just in case, вдруг вы не видели интро про LLM от Андрея Карпатого:

https://www.youtube.com/watch?v=zjkBMFhNj_g

Читать полностью…

gonzo-обзоры ML статей

Твиттер-тред от Франсуа Шолле

https://twitter.com/fchollet/status/1729512791894012011?t=-ttxTmq0vPQ91gyZ4fZr7g&s=19

Читать полностью…

gonzo-обзоры ML статей

We introduce Starling-7B, an open large language model (LLM) trained by Reinforcement Learning from AI Feedback (RLAIF). The model harnesses the power of our new GPT-4 labeled ranking dataset, Nectar, and our new reward training and policy tuning pipeline. Starling-7B-alpha scores 8.09 in MT Bench with GPT-4 as a judge, outperforming every model to date on MT-Bench except for OpenAI’s GPT-4 and GPT-4 Turbo.

https://starling.cs.berkeley.edu

Читать полностью…

gonzo-обзоры ML статей

“The Coming Wave”, Mustafa Suleyman
https://www.the-coming-wave.com/

Я прочитал наконец недавно вышедшую книгу в прошлом со-основателя DeepMind, а ныне сооснователя Inflection AI, Мустафы Сулеймана (про него мы много писали тут /channel/gonzo_ML/1827).

Если попытаться сказать в двух словах, то книга про необходимость сдерживания (containment) технологий, и что как именно это делать неясно, но делать надо.

Большая книга, я с трудом дочитал, могла бы быть раза в три меньше, не потеряв сути. Но отсылки к опыту автора в DeepMind и не только интересны -- и человека лучше видно, и на разные известные события можно с другой стороны взглянуть (типа как AlphaGo играла в Китае и что это для всех там значило, или как в Гугле пытались создать этический комитет).

Мотив уже не новый -- технологии развиваются быстро и рано или поздно приведут человечество либо к катастрофическим последствиям, либо к антиутопии. В руках bad actors или просто из-за косяков (например, из биолабораторий самого высокого уровня защиты было достаточно утечек, включая повторные -- непонятно, почему с новыми технологиями это будет не так). В книге много фактического материала, рекомендую для ликбеза, если для вас всё выглядит в розовом свете.

Вообще книга довольно сильно напоминает обновлённый вариант статьи Билла Джоя “Why the Future doesn’t need us” (/channel/gonzo_ML/1618). Там была генетика, нанотех и роботы. Здесь новая волна включает в себя ИИ и синтетическую биологию, плюс набор сопуствующих технологий типа роботов, квантовых технологий, новой энергетики.

Основные свойства технологий новой волны:
1. Крайне асимметричное влияние и перераспределение власти
2. Гипер-эволюция и ускорение развития
3. Универсальность (onmi-use)
4. Автономность.

При этом все стимулы (национальная гордость и стратегическая необходимость, гонка вооружений, стремление знания распространяться, экономические стимулы и необходимость противодействовать глобальным вызовам, эго наконец) только толкают развитие дальше.

Государства в современном мире оказываются в очень неустойчивом положении, их хрупкость тоже только повышается благодаря новой волне. Но для Сулеймана они наша главная надежда на стабильность и сдерживание, и здесь ещё надо не свалиться в диктатуру, есть много вариантов, как оно может прийти не туда.

Готового рецепта в итоге нет. Есть набор ингредиентов, которые вероятно нужны: технические меры безопасности; аудит; замедление развития и покупка времени там где требуется; критики должны быть не просто критиками, а практиками с руками из правильного места; корпорации должны быть не только про прибыль (B Corp); государство тоже должно быть практиком и активным игроком; международные альянсы; культура, признающая ошибки и учащаяся на них; и наконец общественные движения.

В общем, дилема.

Читать полностью…

gonzo-обзоры ML статей

Вот завтра проснётесь, а тут уже сингулярность!

https://www.reuters.com/technology/sam-altmans-ouster-openai-was-precipitated-by-letter-board-about-ai-breakthrough-2023-11-22/

"The maker of ChatGPT had made progress on Q* (pronounced Q-Star), which some internally believe could be a breakthrough in the startup's search for superintelligence, also known as artificial general intelligence (AGI), one of the people told Reuters. OpenAI defines AGI as AI systems that are smarter than humans.

Given vast computing resources, the new model was able to solve certain mathematical problems, the person said on condition of anonymity because they were not authorized to speak on behalf of the company. Though only performing math on the level of grade-school students, acing such tests made researchers very optimistic about Q*’s future success, the source said."

Читать полностью…

gonzo-обзоры ML статей

Для тех, кому надоело следить за Санта-Барбарой вокруг OpenAI, о добром и вечном:

https://www.space.com/should-search-for-alien-life-include-looking-for-artificial-intelligence

Читать полностью…

gonzo-обзоры ML статей

Кое-какое саммари событий на текущий момент

https://arstechnica.com/information-technology/2023/11/report-sutskever-led-board-coup-at-openai-that-ousted-altman-over-ai-safety-concerns/

Читать полностью…

gonzo-обзоры ML статей

Скандалы, интриги, расследования

https://www.forbes.com/sites/alexkonrad/2023/11/17/these-are-the-people-that-fired-openai-ceo-sam-altman/

Читать полностью…

gonzo-обзоры ML статей

Свежие слухи -- OpenAI начали работать над GPT-5

https://twitter.com/rowancheung/status/1724079608054812684?t=3Fs3ELPj6JKQH6pcYSHZuw&s=19

Читать полностью…

gonzo-обзоры ML статей

Интересная новость.

https://www.hpcwire.com/2023/11/13/training-of-1-trillion-parameter-scientific-ai-begins/

Интересно даже не тем, что 1T модель обучают (если оно MoE, то бывали и побольше), а тем, что не на Нвидии это делают. Неужели реальная конкуренция наконец?

"Argonne National Laboratory (ANL) is creating a generative AI model called AuroraGPT and is pouring a giant mass of scientific information into creating the brain.

The model is being trained on its Aurora supercomputer, which delivers more than an half an exaflop performance at ANL. The system has Intel’s Ponte Vecchio GPUs, which provide the main computing power."

...

"Brkic said its Ponte Vecchio GPUs outperformed Nvidia’s A100 GPUs in another Argonne supercomputer called Theta, which has a peak performance of 11.7 petaflops."

Читать полностью…

gonzo-обзоры ML статей

In case you didn't have time to watch the keynote (https://www.youtube.com/live/U9mJuUkhUzk?si=9_KjNVsS3x7vxCdP) or read any other summaries, here's a very brief mine.

# GPT-4 Turbo
## 1 context length 
- up to 128k, 300 pages std book

## 2 more control:
- valid JSON mode for output
- multiple function calling + better in following instructions 
- consistent output with the seed param
-logprobs in the API soon

## 3 better world knowledge
- bringing retrieval to the platform
- knowledge cutoff shifted Sep 21 to Apr 23

## 4 new modalities
- dalle 3, gpt-4-turbo with vision, TTS in API
- protect from misuse
- 6 preset voices
- oss whisper v3 in the API soon

## 5 Customization
- fine-tuning for gpt-3.5-16k
- fine-tuning for gpt-4 experimental access program
- custom models for new domain, with tools to adjust different training stages

## 6 higher rate limits
- x2 tokens per minute
- can request further increase in settings

## 7 Lower Pricing 
GPT 4 turbo 
- 3x less for input tokens (1c per 1000 tokens)
- 2x for completion tokens (3c per 1000)
- total 2.75x less for most devs
- starting today 
- speed is also a lot faster

GPT 3.5 turbo 16k
- 0.1c/0.2c (3x/2x) (cheaper than prev 4k model)

old Fine-tuning GPT 3.5 turbo 4k 
- 1.2c/1.6c
new Fine-tuning GPT 3.5 turbo 16k
- 0.3c/0.6c (4x/2.7x)

# Building on the platform 
- Copyright shield for enterprise and API 
- defend customers and pay costs incurred
- remind: don't train on API or ChatGPT enterprise

# ChatGPT news
- now uses GPT-4 turbo by default
- can browse web
- without model clicker

# Agents
- Gradual iterative deployment 
- GPTs -- tailored versions of GPT (instructions, expanded knowledge, actions)
- data is shared only on permission
- build with natural language in GPT Builder
- can upload documents 
- can publish to use, or make it private, or use by link, on create for the company in ChatGPT Enterprise
- Launching GPT Store later this month
- Revenue sharing will be there
- Bringing the same concept to API with Assistants API 

# Assistants API (beta today)
- persistent threads with long time conversation history (threads and messages, managing state)
- retrieval, can read pdf files, RAG 
- code interpreter can generate and run code (Python)
- function calling
- can navigate threads in the console and look inside

Читать полностью…

gonzo-обзоры ML статей

A lot of news today

https://www.theverge.com/2023/11/6/23948619/openai-chatgpt-devday-developer-conference-news

Читать полностью…

gonzo-обзоры ML статей

Когда сгенерил книгу через ChatGPT...

Читать полностью…

gonzo-обзоры ML статей

🪆Matryoshka Representation Learning
Aditya Kusupati, Gantavya Bhatt, Aniket Rege, Matthew Wallingford, Aditya Sinha, Vivek Ramanujan, William Howard-Snyder, Kaifeng Chen, Sham Kakade, Prateek Jain, Ali Farhadi
Статья: https://arxiv.org/abs/2205.13147
Код: https://github.com/RAIVNLab/MRL

Работа с NeurIPS 2022, которую я давно хотел разобрать. Лежала у меня среди тысячи открытых вкладок (где ещё уйма интересного, ждущего своего часа), пока я не нарвался на свежую “Matryoshka Diffusion Models” (https://arxiv.org/abs/2310.15111). Но про diffusion models не так интересно, как про репрезентации.

Идея в том, что репрезентации (эмбеддинги) фиксированного размера неоптимальны. Для одних задач могут быть слишком большими (что суммарно приводит к большим затратам при инференсе, который, вообще-то, является основным этапом жизненного цикла модели), для других слишком маленькими (тогда страдает качество, а переобучать уже поздно и/или дорого). Как правило выделить какое-то подпространство в эмбеддингах проблематично, градиентное обучение размазывает информацию по всему вектору. Надо либо обучать отдельные эмбеддинги разных размеров (опухнешь), либо делать какую-то компрессию после обучения.

Собственно вопрос, можно ли придумать какую-то гибкую репрезентацию, которая сможет адаптироваться под разные задачи с разными требованиями по вычислительным ресурсам? Ну вы уже поняли, что можно!

Авторы предлагают подход 🪆Matryoshka Representation Learning (MRL), позволяющий получать такие репрезентации. Идея проста: в эмбеддинге фиксированного размера (d) выделим вложенные друг в друга части (подпространства) размеров d/2, d/4, d/8, … каждая из которых будет хорошим эмбеддингом для своего размера.

Задача в том, чтобы модифицировать процедуру обучения так, чтобы в векторе размерности d первые m измерений содержали общие и переносимые на другие задачи репрезентации.

Работу проводят на supervised мультиклассовой классификации. Берётся ResNet50, который эмбеддит в вектор размерности d = 2048, датасет ImageNet-1K с тысячью классов, и набор вложенных размерностей M = {8, 16, . . . , 1024, 2048}.

Итоговый классификационный лосс для MRL выглядит как сумма отдельных кроссэнтропийных софтмакс лоссов по всем размерностям (с линейным классификатором поверх). Лоссы внутри суммы взвешены с неким коэффициентом важности, c_m, в работе они все были равны единице.

Линейные классификаторы тоже могут быть сделаны с общими весами, так что веса классификатора от маленького эмбеддинга являются подмножеством весов от классификатора для большего эмбеддинга. Это помогает сэкономить память в случае очень больших пространств эмбеддингов. Такой вариант подхода называется Efficient Matryoshka Representation Learning (MRL–E).

Подход проверили на разных задачах.

Для representation learning взяты задачи:
(a) Supervised learning для изображений: ResNet50 на ImageNet-1K и ViT-B/16 на JFT-300M.
(b) Contrastive learning для изображений и языка: ALIGN с ViT-B/16 vision encoder и энкодер BERT на данных ALIGN (/channel/gonzo_ML/679).
(c) Masked language modelling: BERT на English Wikipedia и BooksCorpus.

Лучшие гиперпараметры не подбирали, взяли те, что были у независимо обученных бейзлайнов.

У резнета размер эмбеддинга 2048, у ViT и BERT 768. Лестницы размерностей соответственно следующие: M = {8, 16, 32, 64, 128, 256, 512, 1024, 2048} и M = {12, 24, 48, 96, 192, 384, 768}.

Для сравнения взяты низкоразмерные репрезентации фиксированного размера (FF), уменьшенные через SVD, из slimmable networks и рандомно выбранные фичи из FF максимального размера.

Оценивают качество классификации на ImageNet через linear classification/probe (LP) и 1-nearest neighbour (1-NN). MRL рулит, при малом размере эмбеддинга качество даже чуть выше, чем для фиксированного эмбеддинга такого же размера. И намного лучше и рандомно выбранных фич, и SVD.

Читать полностью…

gonzo-обзоры ML статей

Great news for European LLMs! Silo AI extends their family of open models Poro 🦌 with checkpoints, languages & modalities.

* Published additional checkpoints of Poro 1 34B, which shows best-in-class Finnish performance of open models, without compromising performance in English.

* Launching Poro 2 training with Nordic languages which covers English, Finnish, Swedish, Norwegian, Danish, Icelandic and code. Poro 2 has an updated and more modern architecture, and comes in a variety of model sizes.

* The upcoming model generations will add vision to their capabilities. This is enabled through a partnership with LAION.

https://www.silo.ai/blog/europes-open-language-model-family-poro-extends-checkpoints-languages-and-modalities

I'd also highlight another case of using non-NVIDIA chips for large-scale training:

* Poro is trained using 512 AMD MI250X GPUs on the LUMI supercomputer in Finland.

https://www.silo.ai/blog/europes-open-language-model-family-poro-extends-checkpoints-languages-and-modalities

Читать полностью…

gonzo-обзоры ML статей

Больше LLM хороших и разных

The official repo of Qwen (通义千问) chat & pretrained large language model proposed by Alibaba Cloud.

https://github.com/QwenLM/Qwen

In brief, we have strong base language models, which have been stably pretrained for up to 3 trillion tokens of multilingual data with a wide coverage of domains, languages (with a focus on Chinese and English), etc. They are able to achieve competitive performance on benchmark datasets. Additionally, we have chat models that are aligned with human preference based on SFT and RLHF (not released yet), which are able to chat, create content, extract information, summarize, translate, code, solve math problems, and so on, and are able to use tools, play as agents, or even play as code interpreters, etc.

https://arxiv.org/abs/2309.16609

Читать полностью…

gonzo-обзоры ML статей

Тем временем вышел Keras 3.0.0.

Я бы сказал, возврат к истокам -- это снова multi-backend либа, но теперь с поддержкой JAX, PyTorch, TF и NumPy.

https://github.com/keras-team/keras/releases/tag/v3.0.0

Main highlights compared to Keras 2 are:

* Keras can now be run on top of JAX, PyTorch, TensorFlow, and even NumPy (note that the NumPy backend is inference-only).

* New low-level keras.ops API for building cross-framework components.

* New large-scale model distribution keras.distribution based on JAX.

* New stateless API for layers, models, optimizers, and metrics.

Читать полностью…

gonzo-обзоры ML статей

XTX Markets is launching the Artificial Intelligence Mathematical Olympiad Prize ('AI-MO Prize'), a new $10mn challenge fund designed to spur the creation of a publicly-shared AI model capable of winning a gold medal in the International Mathematical Olympiad (IMO).

https://www.prnewswire.com/news-releases/xtx-markets-launching-10-million-artificial-intelligence-mathematical-olympiad-prize-301997891.html

Читать полностью…

gonzo-обзоры ML статей

Ещё новости экосистемы.

Inflection (/channel/gonzo_ML/1827) заявили, что они закончили обучение своей следующей модели, Inflection-2 (https://inflection.ai/inflection-2). И она типа лучше и PaLM 2, и Claude 2, и лучшая после GPT-4.

Читать полностью…

gonzo-обзоры ML статей

А тем временем компания Anthropic (напомню, созданная в 2021 выходцами из OpenAI уровня VP of Research, недовольными излишней коммерциализацией компании и связями с Microsoft -- ничего не напомнило? :) ), по моим ощущениям ближайший по качеству конкурент GPT, выпустила новую версию своей модели, Claude 2.1.

Среди фич поддержка system message, а также внешних тулов через вызов функций, как и у гпт. Заявлена сильно пониженная частота галлюцинаций. Кокосом на торте идёт размер контекста в 200k токенов -- ребята снова ушли в отрыв от OpenAI с их GPT-4 Turbo и контекстом в 128k.

Цена тоже ниже GPT-4 Turbo, $8/$24 за миллион токенов промпта/выхода против $10/$30.

https://docs.anthropic.com/claude/docs/claude-2p1-guide

Читать полностью…

gonzo-обзоры ML статей

Ай молодца.

https://twitter.com/satyanadella/status/1726509045803336122?t=4hllB5IQxTesJ3NQgouMKw&s=19

Читать полностью…

gonzo-обзоры ML статей

https://twitter.com/gdb/status/1725736242137182594?t=WT0gYqCgUxD1wRMe_LXayg&s=19

Читать полностью…

gonzo-обзоры ML статей

Вона как!

"Mr. Altman’s departure follows a deliberative review process by the board, which concluded that he was not consistently candid in his communications with the board, hindering its ability to exercise its responsibilities. The board no longer has confidence in his ability to continue leading OpenAI."

https://openai.com/blog/openai-announces-leadership-transition

Читать полностью…

gonzo-обзоры ML статей

С генерацией картинок и текстов уже давно всё хорошо и мейнстрим, а музыка с видео пока отставали. Вот теперь Deepmind взялся за музыку:

https://deepmind.google/discover/blog/transforming-the-future-of-music-creation/

Читать полностью…

gonzo-обзоры ML статей

Bill Gates on agents

https://www.gatesnotes.com/AI-agents

Читать полностью…

gonzo-обзоры ML статей

More about updated models and new GPT capabilities

https://openai.com/blog/new-models-and-developer-products-announced-at-devday

https://openai.com/blog/introducing-gpts

Читать полностью…

gonzo-обзоры ML статей

The engine powering Grok is Grok-1, our frontier LLM, which we developed over the last four months. Grok-1 has gone through many iterations over this span of time.

After announcing xAI, we trained a prototype LLM (Grok-0) with 33 billion parameters. This early model approaches LLaMA 2 (70B) capabilities on standard LM benchmarks but uses only half of its training resources. In the last two months, we have made significant improvements in reasoning and coding capabilities leading up to Grok-1, a state-of-the-art language model that is significantly more powerful, achieving 63.2% on the HumanEval coding task and 73% on MMLU.

...

At the frontier of deep learning research, reliable infrastructure must be built with the same care as datasets and learning algorithms. To create Grok, we built a custom training and inference stack based on Kubernetes, Rust, and JAX.

https://x.ai

Читать полностью…

gonzo-обзоры ML статей

Для ViT и JFT-300M эксперименты дорогие, это web-scale датасет, здесь обучали только самую большую FF модель. И здесь MRL показывает свою работоспособность. Кроме того, полученные эмбеддинги можно интерполировать, если нужен какой-то промежуточный размер -- точность на таким образом полученных репрезентациях лежит на кривой ровно там, где и можно было бы ожидать.

На таких фичах дёшево делать адаптивную классификацию с каскадами моделей по типу Виолы-Джонса. Начинаем с самого маленького эмбеддинга, получаем предсказание, если confidence ниже порога (обученного), добавляем следующий по размеру эмбеддинг. Получается качество эмбеддинга фиксированного размера при в 14 раз меньшей репрезентации.

Отдельная тема -- retrieval. Цель -- найти картинки из того же класса, что запрос, используя эмбеддинги. Оценивают по mean Average Precision@10. Эмбеддинги нормализованы и достаются через L2 близость. MRL бьёт бейзлайны, при этом ещё и лучше отдельных FF эмбеддингов. MRL-E чуть похуже.

В сочетании с adaptive retrieval (AR) можно сэкономить кучу места, не храня полные репрезентации. В AR сначала получают шорт-лист (K=200) кандидатов через низкоразмерную репрезентацию (Ds = 16), затем список переранжируют через более высокоразмерную (Dr = 2048) -- это сильно дешевле по вычислениям, чем сразу делать поиск соседей по полному эмбеддингу. AR с указанными выше параметрами настолько же точна, что и выборка по полному эмбеддингу (d = 2048), но в 128 раз более эффективна в теории, и в 14 раз быстрее на практике.

Определить оптимальные значения Ds и Dr может быть непросто, поэтому авторы предлагают подход Funnel Retrieval, где используется каскад последовательно увеличивающихся эмбеддингов. Начинаем с самых малых, затем полученный на каждом этапе список переранжируем более широким эмбеддингом, в два раза сокращая список и в два раза увеличивая размерность каждый раз.

Интересно, какие-нибудь из векторных баз это уже поддерживают? Ash? ;)

По крайней мере есть следующая работа про adaptive approximate nearest neighbour search с использованием матрёшек -- работа побывавшая одновременно и на ICLR 2023 (https://iclr.cc/virtual/2023/13999) и на NeurIPS 2023 (AdANNS, https://arxiv.org/abs/2305.19435) — что, так можно?

На out-of-domain датасетах робастность MRL репрезентаций не хуже обычных. Для retrieval она даже немного повыше. На few-shot learning через nearest class mean тоже хорошо. На новых классах из длинного хвоста даже улучшение.

В целом с увеличением эмбеддинга качество классификации растёт. Но есть некоторое число случаев, когда на малом размере эмбеддинга классификация лучше. Если оценивать качество на супер-классе (когда в разметке есть иерархия), то там не такая сильная просадка на малом размере репрезентации. То есть какую-то иерархию эти эмбеддинги тоже ловят.

Matryoshka Representations можно получить частичным файнтюном уже обученных моделей.

Итого, почти халявный способ улучшения репрезентаций. Было бы интересно обучить эмбеддинговую модель типа text-embedding-ada или тех, что делает Cohere, в такой постановке. Ну и вообще большой простор для улучшений -- отдельные лоссы, поиск весов, специальные структуры для поиска.

Читать полностью…

gonzo-обзоры ML статей

"Applied ML", an interesting case :)

https://twitter.com/kchonyc/status/1719781112703054245

Читать полностью…
Subscribe to a channel