life = curiosity + irreducible noise Whois: https://t.me/boris_again/1652 Лс: @btseytlin
Хочу отметить ещё одну работу с ICML: PV-Tuning: Beyond Straight-Through Estimation for Extreme LLM Compression
Malinovskii et. al.
Здесь целый пакет: статья на ICML, статья на хабре, код библиотеки, сжатые модели (Llama, mistral, gemma) и туториал по дообучению сжатого Mixtral через LoRA.
Это улучшение для предыдущей итерации AQLM:
Extreme Compression of Large Language Models via Additive Quantization (Egiazarian et.al., Yandex Research, IST Austria, KAUST, Neural Magic).
Оригинальная статья про метод 2-bit сжатия (квантизации) нейросетей AQLM, позволяющий сжимать модели до 8 раз с сохранением в среднем 95% качества.
AQLM это метод post-training quantization (PTQ), когда веса сжимаются после обучения. PTQ методы основаны на том, что большая часть весов в больших нейросетях ведут себя очень похожим образом, то есть избыточны.
Последним этапом идет файнтюнинг на калибровочном датасете, который устраняет часть потерь качества.
В PV-Tuning добавили новый подход к файнтюнингу, который позволил получить качество выше предыдущей соты. Причем метод заявлен как универсальный, так что возможно он применим не только для PTQ. Может быть сделаю подробный обзор. Но там аппендикс на 36 страниц 👀
Здесь можно посмотреть презентацию авторов с объяснением деталей метода.
В общем у нас появились хорошие маленькие версии любимых моделей. Должно быть очень полезно всем GPU-poor
👁 VILA: On Pre-training for Visual Language Models 👁
📃 Paper
Очередная SotA, в этот раз от NVIDIA 🖥. Бьёт LLaVA и QWEN-VL, показывает сильные способности к ризонингу, в том числе при анализе нескольких изображений. Понимает мемасы.
Идеи:
- авторы показывают важность разморозки LLM на претрейне
- чередование данных на претрейне крайне важно, а обучение на парах text-image не оптимально
- смешивание инструкций и text-image данных на SFT снижает деградацию LLM и повышает точность VLM.
Стандартная схема: VE + Adapter + LLM = VLM. Линейный адаптер - лучший выбор (авторы рассуждают, что простой линейный адаптер позволяет LLM лучше обобщаться на изображениях).
Обучение:
Ресурсы – 16x8 A100, вход энкодера 336х336. Три стадии:
1) Предварительное обучение адаптера
2) Претрейн LLM и адаптера на 25M семплах MMC4 (interleaved сет) и 25M сэмлированных версиях LAION, COYO (text-image сеты) по CLIP similarity
3) Инструктивный тюнинг. Для SFT собственный блендинг данных в стиле FLAN на базе 18 датасетов, преимущественно для VQA.
В abl. study также указано, что никаких оптимизаций не было, но можно сократить затраты на 30%, и дополнительно на 50% за счёт снижения размера входа до 224х224.
Авторы показывают, что использование только COYO сета на стадии претрейна сильнее всего просаживает MMLU и показывает низкие визуальные метрики, поскольку кепшены слишком короткие и простые. Оптимальный вариант это COYO + MMC4.
Image tokens:
Очевидно, что чем больше размер входа, тем лучше. Вход 336х336 кодируется в 576 токенов, и их можно свернуть до 144 (в 4 раза)! При этом качество на VQA сетах будет все ещё выше, чем для энкодера с размерностью 224х224.
MoE:
Авторы рассуждают на тему сохранения качества LLM путем её заморозки с добавлением визуального эксперта и ручным роутингом между типами входных токенов. В статье показано, что этот метод хуже по всем параметрам (размер модели в 2 раза больше, качество хуже), чем предлагаемый авторами подход.
Очень много примеров в Appendix!
#paperwatch
# In-Context Reinforcement Learning for Variable Action Spaces
Sinii et. al.
T-Bank AI Research и AIRI
Астрологи объявили неделю ICML, а значит выходит много интересных статей, в том числе от наших ребят из T-Bank AI Research и AIRI.
В этой статье авторы замахнулись на генерализацию в RL.
Проблема в следующем. Раньше уже были попытки сделать алгоритм способный обобщаться на новые среды и задачи. То есть обучаемся на спектре разных задач/сред/игр, а применяем на других задачах. Однако эти подходы был и ограничены пространствами действий схожей структуры и одинакового размера.
Авторы предлагают Headless-AD (Headless Algorithm Distillation) – модель, способную обобщаться на разные пространства действий, которые она никогда не встречала при обучении.
Algorithm Distillation это модель-трансформер, которая предсказывает следующее действие в режиме авторегрессии, прямо как LLM предсказывает следующий токен. То есть в трансформер подается последовательность из наблюдений, предыдущих действий и наград за эти действия. Грубо говоря такой трансформер учится понимать правила игры из промпта в виде последовательности прошлых событий.
В конце такой модели, как и в LLM, стоит классификатор, который предсказывает следующее действие как класс. Однако классификатор имеет заранее заданную размерность, так что модель не способна предсказывать действия помимо тех, которые встречались при обучении.
Ключевое изменение в Headless-AD в том, что у действий больше нет обучаемых эмбеддингов как, скажем, эмбеддинги токенов в LLM. Вместо обучаемых эмбеддингов действий для всех действий делаются случайные эмбеддинги на каждом шаге обучения. Таким образом модель не запоминает никакой информации о самих действиях. Ей нужно получать всю информацию о возможных действиях из контекста.
Чтобы модель представляла, какие действия вообще возможны в данной среде, в промпт подаются эмбеллинги всех возможных действий.
Условно, бродя по лабиринту модель не знает, что есть действие “пойти налево.” Она видит, что есть какое-то действие и должна понять по контексту когда его нужно использовать.
Классификатор в конце убирается и модель предсказывает эмбеддинг следующего действия напрямую. Далее для предсказанного эмбеддинга находится ближайший эмбеддинг из доступных в задаче действий и именно это действите используется на выходе.
В общем подход позволяет тренировать трансформер на понимание как научиться решать заданную в промпте задачу, а не напрямую на решение конкретной задачи. Соответственно его позже можно применять на новых задачах которые модель не видела. Может быть так и получим reasoning.
Применение, которое приходит мне на ум: рекомендовать пользователю товары, которые только что были добавлены и модель не видела их в процессе обучения.
Исходный код выложили на github.
Прыжок выше датасета ⬆️
Классный пример того, как модель может превзойти качество данных, на которых она обучалась.
Статья с пафосным названием Transcendence: Generative Models Can Outperform The Experts That Train Them.
В чем суть?
Взяли LLM и дообучили на шахматных партиях в формате 1.e4 e5 2.Nf3 Nc6 3.Bb5 ... 1/2-1/2
. Было 3 датасета: партии игроков до 1000 рейтинга, до 1300, и до 1500.
И оказалось, что с температурой ближе к нулю (ближе к жадной генерации), LLM играет на рейтинг выше, чем в обучающем датасете (рисунок 1 - графики для 3 датасетов).
Но есть нюанс, что такой скачок происходит только на датасетах до 1000 и до 1300.
Можете подумать, почему такое происходит. Ниже их объяснение.
Разнообразие в датасете. Игрок на 1500 + случайные ошибки ~= игрок на 1300. Поэтому, дообучаясь на победных ходах + разнообразных ошибках, LLM научилась больший вес давать правильному ответу. И при жадной генерации мы всегда выбираем именно этот ход.
Пример. Если мы усредним игрока, который выбирает в 40% верный ход А и в 60% неверные ходы B, и игрока, который выбирает в 40% верный ход А и в 60% неверные ходы C, то получим 40% на верный ход и по 30% на неверные. Что при 0-ой температуре даст строго верный ход.
Блогпост с картинками, формулами, кодом, датасетом, моделями.
@building_singularity
1. Kali Novskaya присоединяется к команде Llama.
2. Спустя всего 14 дней выходит новая Llama 3.1 405B.
По моим подсчетам ещё через пару недель будет сингулярность
Добрался поиграться с LUMA. Надеюсь нейронную крипоту никогда не пофиксят
Вижу огромный потенциал для киноделов если не пытаться бороться с крипотой, а намеренно использовать её. Например могу представить себе фильм, где главному герою снятся кошмары в виде компиляции таких видео
Умельцы уже залили на ollama, так что можно потестить:
ollama run blackened/t-liteЧитать полностью…
Очень крутые новости для российского опенсорса.
AI-Центр Т-Банка выложил в открытый доступ собственную русскоязычную LLM размером 7-8b параметров, которая показывает себя очень сильно на русской Арене и других бенчмарках, обходя GPT-3.5 и llama8.
Выложили код и веса, которые можно скачать по этой ссылке. Выложили на дропбоксе, прям Мистраль стайл.
Утверждается, что "на обучение было потрачено всего 3% вычислительных ресурсов, которые обычно требуются для такого типа моделей". Пока не раскрывается, что именно это значит, так что я буду ждать технического доклада и напишу о нем, когда появится.
У компании так же есть семейство моделей GEN-T, я так понимаю для энтерпрайза.
🍃 Тёмная сторона бума искусственного интеллекта: экологические последствия
Вчера мы обсуждали грандиозные планы по строительству дата-центров для искусственного интеллекта. Сегодня давайте взглянем на обратную сторону медали – влияние этого технологического бума на нашу планету.
Каждые три месяца мощность, используемая для работы ИИ, удваивается. Звучит впечатляюще, не так ли? Но за этими цифрами скрывается суровая реальность. Оказывается, один запрос к ИИ-помощнику может потреблять в десять раз больше энергии, чем обычный поиск в Google. А если говорить о сложных задачах, то разница может достигать тридцатикратного размера!
Что это значит на практике? Возьмём, к примеру, гигантов индустрии. Microsoft, Meta, Google – все они отчитываются о стремительном росте выбросов углекислого газа. За последние несколько лет эти показатели выросли на 40-65%. Согласитесь, цифры впечатляющие, и не в хорошем смысле.
Но проблема не ограничивается только выбросами. Дата-центры – настоящие водохлёбы. Только представьте: на каждый мегаватт-час энергии они потребляют около семи тысяч литров воды. Для охлаждения серверов Google в США ежегодно уходит почти 13 миллиардов литров пресной воды. Это в то время, когда многие регионы страдают от засухи!
Возникает закономерный вопрос: что же делать? Технологические компании не сидят сложа руки. Они запускают "водопозитивные" инициативы, обещая к 2030 году восполнять больше воды, чем потребляют. Звучит неплохо, но достаточно ли этого?
Интересно, что сами IT-специалисты не особо обеспокоены ситуацией. Хотя больше двух третей из них признают проблему роста энергопотребления, многие просто не знают, как с этим бороться. Не хватает навыков, знаний, а порой и просто понимания масштаба проблемы.
Что же это значит для нас с вами? Во-первых, каждый раз, обращаясь к ИИ-помощнику, мы оставляем свой, пусть небольшой, но экологический след. Во-вторых, компаниям придётся серьёзно задуматься об экологичности при внедрении ИИ-технологий, и не потому что левые-зеленые подняли вой, а потому что при таких темпах роста потребления воды скоро придется выбирать между ИИ и выращиванием продуктов. Вероятно, что вскоре мы увидим новые законы, регулирующие эту сферу.
А для учёных и инженеров открывается новое поле деятельности. Как сделать ИИ более энергоэффективным? Как охлаждать серверы, не истощая водные ресурсы? Эти вопросы ждут своих решений.
Знаете, глядя на все эти цифры и факты, невольно задумываешься: сможем ли мы найти баланс между техническим прогрессом и заботой о природе? Или однажды нам придётся выбирать между умными помощниками и чистым воздухом?
📉 Статья
Недавно я провел в канале стрим про новую магистратуру ВШЭ «Прикладные модели искусственного интеллекта».
Мы с Сергеем не успели ответить на все вопросы и я обещал выложить ответы позже. Исполняю обещание.
— Можно ли ШАДовцу попасть на магистерскую программу?
Поступить на программу магистратуры может любой студент, который окончил бакалавриат. На вторую магистратуру поступить возможно только на платной основе. Для студентов других магистерских программ внутри ВШЭ также доступно обучение в мастерских ИМШ (Инженерно Математической Школы ВШЭ).
— Возможна ли стажировка в VK во время обучения?
Конечно! Мы делимся открытыми вакансиями в общем чате, обучение в ИМШ может стать одним из преимуществ при выборе кандидата. Сейчас в VK уже работают 12 студентов из ИМШ.
— А какой стэк будет на обучение если Google Colab отменят?
Помимо Collab студенты используют локальный Jupiter Notebook и ещё несколько альтернатив, замена обязательно будет найдена при необходимости.
— Как подготовиться к сдаче вступительных испытаний?
Поступление проходит по конкурсу портфолио, в него входит собеседование (60 баллов) и другие критерии (40 баллов), подробнее можно прочитать на сайте.
— Возможна ли «частичная удалёнка», если я не из Москвы?
Форма обучения — очная. Но так как большинство дисциплин идёт в гибридном или смешанном формате, то есть возможность частично удаленного формата.
Aesty: Pocket AI Stylist теперь в AppStore! 🎉😎
Релизнули аппку Aesty, которая поможет собрать образ с нуля или оценить уже готовый. Никаких абстрактных советов, только конкретные и прозрачные рекомендации 🫡
С чем поможем?
1️⃣ Как стилизовать: Оценим ваш лук и дадим советы, как его улучшить, основываясь на ваших предпочтениях.
2️⃣ Персональные рекомендации: Покажем, какие цвета, бренды и вещи из вашего гардероба лучше всего соответствуют вашим запросам.
3️⃣Цифровой гардероб: Оцифруем вещи по любым фоткам, в том числе на человеке. Определим их стили и сезон.
Го тестить и скорить аутфиты! 🏄
Промик EARLYBIRD на первые 2 недели с премиумом!
Из этого следует несколько выводов:
- Сознание не привязано к нашему мозгу. В человеческом мозге нет ничего особенного. Сознание может появиться у приматов, а может у птиц, может в коде на Pytorch, а может на компьютере из крабов.
- Нам не нужно понимать сознание, чтобы его создать. Это свойство, которое существует совершенно отдельно от нас. Мы можем создать его сами того не подозревая и не преследуя такой цели, как наше сознание появилось без чьей-либо задумки.
- Мы можем не заметить появления сознания. Конфигурация мозга собаки другая, поэтому человеку физически невозможно представить, каково быть собакой. Вдвойне невозможно представить каково быть разумной LLM.
- Сознание может принципиально отличаться от нашего. Разумный робот будет думать принципиально иначе, чем мы, так что он больше пришелец, чем железный человек.
- Могут быть другие сущности, отличные от сознания. Мы знаем про сознание, но какие ещё существуют непредставимые конфигурации, о которых мы даже помыслить не можем? На ум приходят Лавкрафтианские боги, но и это слишком человеческий взгляд.
Бонус: спор реальных философских душнил по теме.
Открыл для себя tldraw, отличная штука для диаграм.
https://www.tldraw.com/
В аппендиксе оригинальной статьи спрятали таблицу с самым интересным. Ускорение инференса в три раза как на GPU, так и на CPU.
С учетом PV-Tuning имеем ту же скорость, но с лучшим качеством.
AI не может заменить тебя, если ты и так не делаешь ничего полезного 🧠
Читать полностью…1 августа я буду выступать с AMA "Нейросети для Троечников" в Вастрик.Клубе!
Поговорим с @btseytlin о том, как работают модели искусственного интеллекта, которые менее модно называются машинным обучением.
❌ Здесь не будет ничего о том как заработать на нейросетях без вложений, как составить промпт для лечения рака и какие топ 10 нейросетей нужно использовать в маркетинге. Не будет и спекуляций на тему того, как ИИ уже завтра изменит всю планету.
👌 Вместо этого постараемся найти баланс между верхнеуровневым пониманием и деталями, чтобы действительно разобраться что и почему происходит. Разберемся где магия, где предсказание следующего слова и что о нашем мире знает SORA.
# Чародеи-математики
В добавление к посту про сознание как информацию.
Информация это нечто параллельное материи, что задает структуру вещей. Есть атомы. Но информация определяет конфигурацию атомов: составляют они бесформенное облако или человеческий глаз.
Информация это буквально астральное измерение, с которым мы не способны взаимодействовать. Кроме как с помощью математики.
Множество чисел от минус бесконечности до плюс бесконечности нельзя представить или потрогать. Это вообще за гранью нашего восприятия. Как это: набор вещей которые нельзя посчитать, и чем больше ты делишь его на куски, тем больше возникает кусков?
Однако мы можем его описать. Мы не придумали числовой ряд, что отличает его, скажем, от закона в договоре. Мы обнаружили его и описали. Он существует и мы имеем этому явные доказательства: используя его как инструмент можно строить мосты, летать в космос и что там ещё нам важно в материальном мире, а значит он влияет на наш мир. И одновременно в нём не существует.
С этой точки зрения математик это волшебник, взаимодействующий с потусторонним на языке заклинаний. Он способен призвать немыслимые ранее вещи из того мира в наш.
Неудивительно, что архетипичный праобраз ученого это чародей, который общается с духами и превращает камни в золото, то есть нарушает законы мира материального согласно законам мира иного.
Вот так чего не ожидал: мне написали из благотворительного фонда "Карельский регистр доноров костного мозга", и попросили рассказать вам про IT-пикник в Москве 17 августа, потому что это поможет им собрать средства на оборудование для доноров.
IT-пикник это семейный IT фестиваль в "Коломенском" с кучей активностей от лекций про SRE до скалолазания для детей до киберспортивного турнира до концерта Найка Борзова. В спикерах можно найти топ-менеджеров технологических компаний и других интересных людей. Я даже не знал, что бывают такие фестивали с настолько разнообразными активностями.
Я не смог пройти мимо и бесплатно рекламирую этот фестиваль потому, что вход туда не по билетам, а по благотворительному пожертвованию от 1000 рублей, которые вы можете направить в "Карельский регистр доноров костного мозга" или один из других представленных благотворительных проектов.
Регистр доноров помогает пациентам с лейкемией найти совместимого донора костного мозга, что часто бывает последней надеждой. Средства пойдут на оплату обследования доноров, что поможет спасти жизни. Регистр, кстати, делает прозрачные отчеты о своей деятельности, что лично для меня является знаком качества для некоммерческих организаций.
Фестиваль выглядит действительно круто, плюс шанс помочь людям, надо ехать на фест получается.
https://ea.rna.nl/2024/05/27/when-chatgpt-summarises-it-actually-does-nothing-of-the-kind/
tldr: LLM могут сильно искажать факты при саммаризации сложных вещей вплоть до полностью противоположных выводов
У нас есть Artificial Intelligence, но где Artificial Wisdom?
Читать полностью…Кейс успешной карьерной консультации.
Ко мне обратился человек с большим опытом анализа данных и машинного обучения, но в металлургической промышленности. Он спросил меня: насколько трудно будет с таким опытом найти работу в технологической компании? Мы разобрали его ситуацию и я помог ему придти к выводу, что у него нет никаких шансов, если он не купит мой курс за $5000.
#щитпостинг
Я зашел в продуктовый в Лиссабоне и охренел: они отказались принимать оплату красивыми строчками в резюме и именами больших компаний
Читать полностью…Теперь я не тимлид ML в Planet Farms, а Staff Machine Learning Engineer в eBay. Конкретно в команде 3PM, которая занимается поиском запрещенных товаров и не только.
Для меня это во всех отношениях новый уровень: позиция, большая компания, огромное количество моделей в проде, ML в центре внимания, жесткие требования по нагрузке систем и высокая цена ошибки. Если наш ML не будет работать, то я тоже не буду работать :)
Позже я расскажу о том, как искал работу, а пока что постов будет меньше, потому что отпуск закончился и придется работать
Один из самых ламповых авторских каналов в сфере ML, который я регулярно читаю, это MLE шатает Production. Антон работает Senior MLE в Яндексе и занимается компьютерным зрением.
Он:
- Доступно пишет про сложные вещи (например, как работает обработка картинок в LLM).
- Иногда пишет совсем хардкор, например, про статическую линковку CUDA библиотек.
- Клево пишет про всякое жизненное.
И, главное, всё это без излишней серьезности.
Я считаю, что, для такого контента, у Антона недостаточно подписчиков, поэтому искренне рекомендую.
Так же мы собрали небольшую папку авторских телеграм каналов в сфере AI/ML/DS:
Авторский ИИ
Только уникальный личный опыт. Присоединяйтесь 👀
https://comfyanonymous.github.io/ComfyUI_tutorial_vn/
Читать полностью…# Эпифено-что-то-там
Читая "Хлопок одной ладонью" (расскажу об этой книге позже) внезапно решил для себя проблему сознания и искусственного интеллекта. Конечно только до тех пор, пока не узнаю ещё что-то выносящие мозг.
Проблема:
1. Если сознание, оно же субъективность, существует отдельно от материи как некий дух (подход дуализма), то как оно влияет на наше поведение?
2. Если оно как-то влияет на материю, то у него есть какие-то связи с материей, а значит оно и само материально.
3. Но если сознание это просто материя (подход физикологизма), скажем химические связи в мозге, почему мы не можем его пронаблюдать и отделить от остальной материи?
Итак, во вселенной есть энергия и одно из её состояний это материя. Однако материя бывает в разных конфигурациях. Размазанный ко космосу суп из атомов и человеческое тело теоретически могут иметь одинаковую энергию, но всё же чем-то отличаются.
Отличие в информации. Информация это структура. Человеческое тело упорядочено строго определенным образом и это отличает его от супа. Эта упорядоченность и есть информация. Информацию нельзя потрогать, но она существует наравне с материей.
Например, гены это не ДНК. Ген это информация записанная в ДНК: то, что кодируют все буковки АТГЦ в определенной последовательности. Та же информация на раннем этапе эволюции содержалась в РНК, так что она не зависит от химического состава носителя. Именно по этой причине можно написать эволюционный алгоритм на питоне и он будет работать так же, как эволюция в природе: эволюция это не свойство живых существ, а свойство вселенной.
Нервная система человека и морской звезды принципиально отличаются по строению, но выполняют одну функцию. С точки зрения смысла это один и тот же орган. Конфигурация первична, материальная форма вторична.
Точно так же сознание это не мозг, а следствие определенной конфигурации мозга. Информация движется сквозь время используя материальный мозг как средство передвижения.
Этот подход называется эпифеноменализмом.
Если конфигурация мозга и есть сознание, то это разрешает все парадоксы. Конфигурация влияет на поведение и материю, так как неразрывно с ней связана, как гены влияют на создание белков. Её нельзя потрогать, потому что она существует в плоскости информации.