dealerai | Unsorted

Telegram-канал dealerai - Dealer.AI

8212

Жоский ИИ дядя. Твой личный поставщик AI 💊💉🤖 Канал о мире интересного AI: ML, DL, NLP/NLU, RL, Retrieval, RecSys. Для связи @dealer_ai (реклама и консультации) Habr @Andriljo Kaggle: Andrilko

Subscribe to a channel

Dealer.AI

Microsoft (не)учит нейросети пока вы тапаете хомяка макросы в Excel.

Забавная новость дня.
Пользователи Word и Excel узнали,что стали кожАнными подопытными нейросетей. У них мол воруют информацию, чтобы тренировать искусственный интеллект от Microsoft.

Юзеры заметили,что в Word и Excel по умолчанию активна функция отправки в Microsoft информации. Данная информация в дальнейшем будет использоваться для обучения нейросетей.

Ну в целом, как бэ не удивительно, зачем отказываться от такого источника данных для дообучения своих LLM и тп. Тем более для автоматизации аналитики и вычислений при помощи ИИ. Однако, если учесть,что в Excel работают с NDA информацией, становится неприятненько.

Ранее Excel держал фиансовый мир, теперь видать будет AI 🧠 (ща заделаю мем).

Читать полностью…

Dealer.AI

Distillation is all you need? Или опыт репликации знаний из O1.

Вышла статья про то,как использование знания (внезапно не новое) из синты созданной через рассуждения модели учителя бустит ученика. Тут мы передаем привет снова Orca, Alpaca и прочим животным и не очень.
При этом выводы не новы, еще со времен BERTов было известно,что ученик может превзойти учителя, причем иметь гораздо ниже ёмкость. Важнее тут,как отметили мои коллеги, инволюция исследований. Проще взять топ модель по апи, вложиться в ее обстрел, а далее обучить меньшую модель на это синте, дистильнув знания учителя. Таким образом, возможно, по мнению авторов, снижение фундаментальных исследований и перекладывание этого на плечи атлантов в виде OpenAI, Meta, Google и тп.

Однако, я хотел бы поговорить еще про инволюцию архитектур. На примере Qwen (а я напомню,что он llama like) мы можем увидеть форки известных архитектур (с небольшими доработками) + хороший pretrain. Те порой компаниям проще форкнуть код условной llama2 или mistral и на этом с 0, со своими претрейн сетом и сфт сетом сделать решение, не тратя средства на свой research архитектуры. Конечно, не всем удается, конечно, при том же форке завести достойные Mistral/Qwen уровня модели.


Является ли это проблемой? Не знаю. Решать Вам, читатели. В целом, снова поймал себя на мысли, сколько крутого Цукерберг с их public Llama арихтектурой сделали для демократизации ИИ. Да еще срезали косты на исследования своих архитектур некоторым командам, оставив только вопросы сбора/чистки сетов, и затрат на обучение. Так и живем.

Читать полностью…

Dealer.AI

Mamba, Jamba, Ху...Hymba!🤣

NVIDIA представило новую гибридную модель Hymba (Химба, а не то,что ты подумал).

Как известно, SSM модели имеют свои архитектурные преимущества по отношению к трансформерам. На самом деле одно преимущество - линейная сложность от длины входной последовательности. При этом SSM модели имеют проблемы с "запоминанием" контекста при большой длине последовательности и не смогли показать иных плюсов кроме сложности.

В новой работе авторы показывают гибридизацию внимания и SSM модели (фото архитектуры будет ниже). Однако, в отличие от предыдущих работ, мы не имеем последовательно блок SSM, далее блок внимания, а их использование происходит параллельно. В таком сетапе, мы к сожалению не уходим полностью от квадратичной сложности по длине последовательности, в отличии от последовательного гибрида.

Однако,авторы уповают на иные "сильные" стороны. Во-первых, используется аналогия с работой мозга. Для запоминания четких образов/мгновенных снимков событий в модели работает SSM блок, в то же время для контекстной связности и длинной памяти используется full attention блок. Также авторы добавили в архитектуру мета-токены, которые используются, по мнению авторов,как навигаторы какие области архитектуры активировать. Интересное замечание,что масштаб векторов вложений после SSM блока на порядки выше, векторов после блоков внимания. Для их выравнивания используется gating norm— привет, нормализация, в классик трансформере после конкатенации multi-head attention.

Кстати, тут же рождается идея у Дяди. И тебе шкет советую положить руки на стол 🔫, а не бежать делать по ней папиру.
Почему, бы вдобавок к gating norm, не использовать gating routing как в MoE. В итоге получаем умную маршрутизацию экспертов SSM блоки или full attention в зависимости от того,что нужно хранить/обработать.🫥

Ладно,помечтали и хватит, вернёмся к статье. Там есть еще пару хак. Связка ssm+mha представляет собой hymba block, такой блок чередуется с SWA блоком (аля как в longformer было). В таком блоке скользящее внимание юзает не все токены, а работает с окном внимания,которое идет "внахлёст". Так, видимо, хотят сократить сложность O(N^2) до условно O(N*logN). Далее еще также используется KV-caching,НО с обобщёнными KV-матрицами между блоками.

В статье есть блок с ablation study,советую глянуть. Ну и конечно метрики, где сравниваются small-LM, кажется, до 3b параметров (метрики ниже). Как видим, модель с таким комбо вниманием, проявляет себя лучше на задачах,где важны знания о мире,фактология и тп.

Так, вроде, всё. Читаем статью, модельки лежат тут, git. Дядя пошел папиру про MoE Hymba писать (но это не точно).😏

Читать полностью…

Dealer.AI

Подписчик @Orzhan таки собрал первый прототип.

Красивое...
Смотреть со звуком.

Читать полностью…

Dealer.AI

Новый вид мошенничества: 84-летняя пенсионерка prompt-engineer (ветеран AI труда)
из Реутова наняла двух несуществующих джунов в крупную компанию. Код пишут тоже LLM,как и резюме.

Или.... Псс, чувак, не списывай точь в точь....

Кто найдет в резюме ошибки по теме, пишем в комменты.

Ну и вопрос: сам писал или LLM?)

Читать полностью…

Dealer.AI

Наши сказки в Майами 🌟

Этим летом мы решили написать статью о пайплайне генерации и оценке качества текстов, который используем в #сочинисказку
По ходу работы ещё начали погружаться в LLM as a judge - добавили оценку не только людьми, но и языковой моделью - так что теперь продолжаем глубже уходить в эту тему.

Но, возвращаясь к статье, - работали быстро, где-то параллельно с продовыми задачами, где-то в выходные (в том числе наши разметчики - за что большое спасибо!), но всё вышло отлично ☀️ и мы прошли на воркшоп EMNLP! С первой идеи и попытки 🤩

Это ведущая конференция в области обработки естественного языка и искусственного интеллекта.

У коллеги получилось поехать и показывать постер гостям конференции лично ☀️

Такие новости к утру субботы.

Передаём большой привет в Майами 💞

Читать полностью…

Dealer.AI

Всем доброго утра. Время учиться.

Тут Евгений Разинков — автор канала по ML на razinkov">YouTube (причем Дядя следит за его ростом чуть ли не с основания), запускает второй поток AI-школы:

“AI: от основ до языковых моделей”

Старт 18 ноября!

Курсы проведут вас от основ до самых последних алгоритмов ML, а именно до больших языковых моделей.

Акцент на понимании алгоритмов и архитектур, а также на реализации всего с нуля.

Тк Дядя давно подписан на канал и знаком с материалом, рекомендую тем, кто всерьез хочет стать специалистом в этой области.

Специальный стрим о курсах

Регистрация


Доп инфо тут:
Подробности по ценам, количеству материалов и отзывы здесь:
https://razinkov.ai/school/about

А еще у Жени есть свой канал в тг @razinkov_ai

Читать полностью…

Dealer.AI

Ааааа, опять олимиадники эти чет мутят

Читать полностью…

Dealer.AI

Неделя мемов с китайскими моделями продолжается

Спасибо @walfry

Читать полностью…

Dealer.AI

Схема подготовки датки на обучение

Читать полностью…

Dealer.AI

Спокуха, пишут все работает, но мем бы был отличный

Upd. Вообще радует конкуренция двух родственников хоть и дальних

Читать полностью…

Dealer.AI

Ребята колятся уже по-крупному, на всю котлету с x4 M4 запускают LLMки в distributed с уже упоминаемой мной либой exo!

Пошла жара в массы!

За инфоповод спасибо GenerativeAnton

https://fxtwitter.com/alexocheema/status/1855238474917441972

Читать полностью…

Dealer.AI

RAS, два, три — поиск LLM утри?

Дядя тут прочитал обзорчик коллег про новый метод улучшения фактологической релевантности и обоснованности решений для LLM.

Метод зовут RAS и заключается он в том,что запрос пользователя отправляется в различные внешние системы: поиск, базы знаний и тп. Далее ответы оттуда используются для верификации качества генерации LLM— содержит ли ее ответ фрагменты текста из внешних систем. Если содержит, то модель помимо выдачи генерации, дает оценку уверенности в своем ответе от "сомнительно", до "надежно".

Тут у дяди правда возникает вопрос, зачем вам отвечать из весов модели в такой системе, когда можно просто переписать выдачу из поиска и пр.систем знаний с этой LLM (те это все еще RAG)?

Пока это патент, ждем статьи, которая прольет свет на недомолвки.

Читать полностью…

Dealer.AI

Конец рабочей недели время мемасов за карьеру.

Читать полностью…

Dealer.AI

SimPO'л Сама. Или че там за зверь такой Simple Preference Optimization.

В общем, вижу, что из каждого утюга вещают за очередную трансформацию DPO в новый метод через лось — ака SimPO. А Дядя напомнит,что за DPO уже вещал туть. К радости моей и вашей, тут будет все кратенько. Когда только появился log-sigmoid loss для этих всех ваших pair rank выравниваний текстов, мы уже пытались в него вкорячить идеи из metric learning. Тем более корнями log-sigmoid лось уходит как раз таки в pair-rank/multiple-choise лоссы, просто с отображением на сигмоиде. А далее отсюда рождался и MarginRankLoss.

Так вот, мы давно подметили,что если добавить в этот log-sigmoid лосс еще и зазор,то мы можем улучшить как сходимость так и свойства упорядочивания по рангу объектов, тк в дефолтном случае ранги могли идти чуть ли не в тысячную подряд. Зазор дает вам не менее, чем его значение отступа между порядками по рангу скоров. В методе SimPO, авторы также добавили margin под кодовым именем гамма.

Но это еще не все, также был убран штраф за отклонение от референс модели. Однако, чтобы компенсировать это, была добавлена нормализация по длине токенов обоих частей лосса. Причем, авторы показали,что такая эвристика работает, да еще и уберегает от биаса по предпочтению более длинных генераций. Просто ранее наблюдалось,что награда порой была выше для более длинных текстов, а вот норма на длину генерации дает дисконтирование и уравнивание в правах по смыслу, а не длине.

Таким образом, simPO откинул все лишнее в своем лоссе, став тем самым "простым".

В результате экспериментов, simPO показал при своей простоте, улучшение скорости обучения, а также (думаю засчет введения margin и дисконта по длине) улучшение метрик на различных бенчах в тч ArenaHard.

Да и наше комьюнити подхватило реализацию simPO для своих экспов. Те же ребята из Saiga и Vikhr.

Итого учите базу, часто комбинация кубиков из базовых концептов, а в данном случае: metric learning идеи с зазором, логсигмоида и dpo, — порождает новые простые и эффективные методы.

Читать полностью…

Dealer.AI

Псс, ребятки, не хотите погрузиться в мир audio и speech?

Тут мои знакомые из ШВМ (@shvmxyz) открывают набор на курс.

Что предлагают ребятки:
- Учим искусственный интеллект слушать (ASR) и говорить (TTS)
- Сильная команда преподавателей:
Павел Северилов (NLP Team Lead Data Scientist в ecom.tech)
Даниэль Князев (Ведущий разработчик в XLabs-AI)
- ориентируемся на практику
- Старт курса 9 декабря 2024

Записавшись до конца недели (01.12.24 включительно) можно получить скидку 50% на курс по промокоду DEALER50 (о, за это спасибо от Дяди).

Крч, шкет, скиллы сейчас работы со звуком на вес золота, спецы редкие, спрос есть. Дерзайте.

Читать полностью…

Dealer.AI

Объяснение типов "памяти".

Читать полностью…

Dealer.AI

У каждого свой путь в AGI

Нашел на пикабухе.

Читать полностью…

Dealer.AI

Крч, ребяты, покекали мы над резюме и хватит, Дядя, кстати, еще таких +2 нашел.

Выводы:
1. Проверяйте,что сделали,если с LLM.
2. Если берёте чужие шаблоны, менторов и тп. тем более проверяйте за ними.
3. Лучше вообще под себя,под реальный опыт и места работы переделать.

Читать полностью…

Dealer.AI

Всем привет! 👋

⚡️ Этой осенью мы выступили на конференции Ai Conf 2024. За два дня конференции мы представили 6 докладов, а также приняли участие в панельной дискуссии о будущем искусственного интеллекта. Записи докладов доступны на YouTube по ссылкам ниже.

Фокусом выступлений были большие языковые модели и мультимодальность:

🎤 Алёна Феногенова рассказала про то, как обратная связь от пользователей помогла улучшить бенчмарк MERA и сделать его новую версию более объективной;
🎤 Доклад Бориса Жесткова посвящён использованию LLM для задач в аудиодомене: для понимания, распознавания и генерации речи;
🎤 Эмиль Шакиров разобрал все этапы работы с визуальными языковыми моделями от выбора архитектуры и сбора данных до запуска экспериментов;
🎤 Дмитрий Антипов рассказал о процессах сбора и разметки огромных корпусов мультимодальных данных в эпоху больших языковых моделей;

Также мы представили 2 доклада в области компьютерного зрения:
🎤 Петр Суровев поделился опытом создания датасета жестового языка: как мы собирали данные, с какими трудностями столкнулись, и что у нас получилось;
🎤 Елизавета Петрова рассказала про задачу портретной гармонизации: как мы разработали архитектуру для её решения и создали дататсет для портретной гармонизации из открытых источников.

🗣️ Также на конференции Александр Абрамов, автор канала @dealerAI, вместе с коллегами из других компаний обсудили будущее искусственного интеллекта: как LLM меняют рынок труда, как работать с этикой и безопасностью моделей, и что ждёт нас всех в скором будущем в контексте развития AI. Ответы экспертов на эти и другие вопросы прозвучали на панельной дискуссии.

Будем рады вашей обратной связи! 💙
#news

Читать полностью…

Dealer.AI

Наши на EMNLP. Спасибо нашим девочкам,за интересную работу и прикладное применение.💃🦾💅

З.Ы. Рад,что такие исследователи у меня в команде.

👇👇👇👇👇👇

Читать полностью…

Dealer.AI

На днях разлетелась новость, что тут Gemini кожАному желала стать строчкой в death note.

Потом Гугл сказал, мол у них все на этик фильтрах и чики-пуки.

Ребяты, ни bert классификаторы,ни regexp, ни золотые погоны, ни галуны и лампасы не спасут вас на 100% от черных лебедей от LLM в виде хейт спича или глюков. Это все вопрос рисков, той доли % которую Вы и ваша шарага компания готовы на себя принять.

С любовью Ваш, Дядя.

Читать полностью…

Dealer.AI

А у меня ща одного тг сбойнуло?)

Читать полностью…

Dealer.AI

Из соседнего чатека: релизов на хф видимо больше не будет...(с)

В Китае, видимо, HF не будет 💳 🇨🇳

Элаймент конечно кхм у них свой)
Upd. А Винни_Пуха за что!?

Читать полностью…

Dealer.AI

Hunyuan Large,ваще Hunyuan 💳

Статья с мемным названием (олды оценят) от наших Китайских коллег про yet another MoE на 389B параметров с 52B активными.

Помимо того,что в статье снова указана важность хороших pretrain datasets с чисткой блекджеком и иным fabric токенизатором, есть интересное про генерацию своей синты.

Для получения своей Hongqi синты (прим. Дяди - хунцы, Red Flag, сила партии все такое, придумано тоже Дядей) имеют следующие шаги:

1. Генерация инструкций с LLM к их соскрапленной и набранной high quality datasets (со слов авторов). Датка состоит из webQA, webPage, Code, Book и др. Инструкции генерятся по широкому спектру стилей и сложностей в виде запросов к доменам.

2. Эволюция/улучшение при помощи LLM этих инструкций. Тут к llm пишут доп инструкции для улучшения п.1 путем перегенерации. Снова апаем точность, информативность и вариативность указаний. Такой вот double refine.

3. Комитет (чуть не написал партии) LLMок для генерации ответов. Дяде было итак известно,что в КНР мода на спецназ модельки (эт когда делают специальные модельки под узкие домены), но в статье авторы это подтверждают. Они используют эти модельки (причем с разной ёмкостью), которые обучены на специальные экспертные знания и отточены для генерации синты.

4. Фильтрация ответов. Тут юзают свою LLM-critic модельку. Думаю что-то про llm as judge и проверку согласованности ответов.


Еще из интересного это свой алгоритм роутинга экспертов. Ее авторы зовут стратегией "вторичного цикла использования". Хоть где-то у поднебесной зеленая повестка рецикла работает 🤣. Если без шуток, то суть заключается в том,что в классическом top-K MoE мощность метода зависит от пропускной способности экспертов. При обработке токенов перегруженными экспертами, такие токены отбрасываются. В алгоритме же вторичной маршрутизации от авторов, выделяется общий эксперт который используется для всех токенов и 16 спец экспертов с top-K стратегией. При этом для спец. экспертов выставляется емкость 2, для того,чтобы случайно принять отброшенные токены по перегрузке.
Таким образом, авторы сохраняют как общие так и специальные знания в модели, а также оптимизируют скорость обучения.

Еще в статье есть всякие moe scaling laws. Но эту hunyuan вы сами прочитаете.🤣

Читать полностью…

Dealer.AI

OLMo поколение открытых моделей от AMD. Но есть нюанс...

Новости одной строкой
AMD представила свою LLM размером 1B ( крч LM). Модель прошла 1.3Т токенов, во время предобучения использовали сет Dolma v1.7, далее SFT на решение разных инструктивных, далее присыпали все выравниванием с DPO. Учили все добро на 16 специализированных узлах. И отсюда в тч следует нюанс —
ОЛМо может работать только с процессорами AMD Instinct MI250 😳 а также на компьютерах с процессорами Ryzen AI, оснащенными NPU. Чтобы совсем Вас подсадить на свою продукцию AMD, предлагает использовать инфраструктуру в своем облачном сервисе AMD Developer Cloud. 🤙

Модель туть. Там же сравнение с другими tiny LM.

UpD. Ггуф там есть, над пробнуть без амд запустить)

Читать полностью…

Dealer.AI

Челики подсказывают,что так хотят забить за собой понятие RAG. А не жЫрно?? Ниче не слипнется?

Читать полностью…

Dealer.AI

Лан, Дядя переделал.

Читать полностью…

Dealer.AI

Лосс до и после, метрики

Читать полностью…

Dealer.AI

Привет всем новоприбывшим!

Раз нас стало в очередной раз ещё больше, для новеньких расскажу о чем данный канал и кто я, а также оставлю ссылки на пару интересных постов.

Тут автор говорит о всяком вокруг data science, что ему мило и любимо: анализе текстов aka NLP, поиске, соревнованиях, об RL, меньше о CV.

Немного о себе:

Руковожу ML,AI командами в RnD b2c, мы ведем исследования и разработку в областях:
- эмбеддер модели и в частности оунеры бенчмарка ruMTEB для них;
- потенциальный приклад LLM моделек в production задачи (RAG, персонализация и память);
- работа с этикой и эмпатией;
- немножко работаем в мультимодальности (clip like);
- атаки на модели и др.

Автор моделей ru_sbert_large, ru_sbert_large_multitask, ruElectra, а также первой открытой ru_ bert_reward модели. Kaggle competitions master, призёр и победитель хакатонов по Data science. Читаю лекции, веду мастер классы по NLP, ML и выступаю на конференциях.

Несколько интересных постов с канала:

1.  Instructor. Обучение мультитаск модели на инструкциях .

2. Как "заметки на полях" с LLM помогают в RAG сетапе.

3. Почему и как DPO работает для выравнивания поведения моделей.

4. Хайповое. Plan GPT. Или до Q* было слово А*.

Пару приземленных статей:
- Бизнес завтрак по ИИ для малого и среднего бизнеса от ForbesClub.

- Интервью про будущее и настоящее ИИ.

Добро пожаловать на канал! 🤖🦾

Читать полностью…
Subscribe to a channel