dealerai | Unsorted

Telegram-канал dealerai - Dealer.AI

8212

Жоский ИИ дядя. Твой личный поставщик AI 💊💉🤖 Канал о мире интересного AI: ML, DL, NLP/NLU, RL, Retrieval, RecSys. Для связи @dealer_ai (реклама и консультации) Habr @Andriljo Kaggle: Andrilko

Subscribe to a channel

Dealer.AI

Разорвало, сори.

Особенно в контексте того, что ребята в комментах постоянно лезут рекламить такое.

Читать полностью…

Dealer.AI

Mistral 3.1

Новый малой, мультимодальный, инструктивный, твой - mistral 24b. Да еще и с длинным контекстом. Над пробнуть вместо мультимодального Qwen'а.

https://mistral.ai/news/mistral-small-3-1/

Читать полностью…

Dealer.AI

TAID или кипичение, а может быть дистилляция?
- Тогда мы идем к вам с Sakana.ai

Мои любимые упоротые рисечеры из японской лабы Sakana.ai придумали изящный и простой способ адаптации дистилляции для LMок (на самом деле работает для всего). В качестве подхода,который риал прост, предлагается темпоральная (т.е. многостадийная во времени) дистилляция.

Идея в том,чтобы не сразу через KLD адаптировать ученика к распределению вероятностей токенов в генерации учителя, а делать это в две и более стадии. Концептуально на первой стадии мы имеем промежуточное целевое распределение, которое по "форме" находится между учеником и учителем, чем дальше стадии идут по времени, тем ближе они по форме к распределению учителя, пока не станут 1-в-1 (условно конечно).

Для этой многостадийности используется адаптивный множитель зависящий от номера стадии/времени и преобразования KLD (вырезку из статьи приложу ниже), это и позволяет форме распределения изменяться от ученика к учителю.

Очень Дяде напомнил такой подход уже всем известные аннилинги. Когда мы после pretrain стадии и до sft делаем еще мостик между ними в виде еще одной процедуры обучения - annealing (отсюда и аннилинги). Она состоит в обучении модели на меньшем по размеру, чем претрен сете, но качественнее и с тем же распределением. Но при этом по сравнению с sft сетом размер больше и задача все еще близкая к pretrain, нежели к domain adaptation. Однако, если мы перейдем сразу к sft авторы утверждают, что мы можем потерять важные знания о мире, когда как с этапом отжига это сохраняется, если распределение соответствует не ниже 84% схожести. Почитать об этом можно в последних статьях по Llama и open coder.

Upd. Насчет TAID, у людей также мы начинаем не сразу с жоских задачек, а постепенно учим от учителя к ученику с простых задач к сложным. Тут аналогия та же. Постепенно поэтапно усложняем дистилляцию.

Читать полностью…

Dealer.AI

По сообщению какого-то там портала ключевым разрабам DeepSeek ограничили выезд за границу.

Вот те и великий китайски фаервол...

Читать полностью…

Dealer.AI

Я твой кэш everything считал.😳

Рубрика мудрость дня от Дяди

Нет ничего бодрящего с утра, как увидеть в коде платформы пересборку faiss index'а при каждом вызове матчера...

Всем мамкиным рукожопам разрабам кидаю простую ссылку на хабр:

https://habr.com/ru/companies/okkamgroup/articles/509204/

И совет:

1. Делайте прекомпьют кеша при сборке кода перед раскаткой на стенды. Просто потом берешь index.save().

2. А при раскатке на прод не забывайте про хотя бы initial long. А тут делаешь index.load().

И, пожалуйста, ОДЫН раз!


Все по ссылочке выше есть в примерах. Да даже в доке faiss есть, но для людей кто любит по-русски специально хабропост приложил.

Читать полностью…

Dealer.AI

По следам reasoning и моих комментариев к посту выше. Паша подготовил краткий tldr статей,что я посоветовал прочитать.

/channel/evilfreelancer/1230

Читать полностью…

Dealer.AI

📼 Вышел новый ролик от Андрея Карпаты — Как я использую LLM.

В прошлый раз он объяснял, как [устроены] модели ChatGPT, а теперь делится реальными кейсами из своей жизни.

Что в ролике:
• Разбор популярных моделей и их возможности
• Как выбирать модель под задачу (и не переплачивать)
• Инструменты: поиск, код, графики, работа с файлами
• Голос, изображения, видео и даже Custom GPTs

2 часа контента с таймкодами. Отличное времяпровождение на выходные 😬

🔘Ссылка [тут].

@tips_ai #news

Читать полностью…

Dealer.AI

Everyday i shuffle you, MMLU.

Недавно вышла интересная работа про замер MMLU путем подмены варианта ответа.
Авторы предлагают в MMLU-like бенчах рандомно подменить один из неправильных ответов на «None of the above», и это рушит на ≈10-15 процентных пунктов перфоманс).

Также напомню,что ранее еще работал шаффл, замена индекса с abcd, на i,ii,iii и т.п. В целом давно пора подрайвить эти бенчи на leakage и format overfitting.

За наводку спасибо @walfry

Читать полностью…

Dealer.AI

Удиви своим SVG. Нарисуй с LLM.

На kaggle вышло соревнование, где нужно тюнить LMку по промпту генерить svg'шку максимально близкую по clip score к референсу в тесте.

Дядя помимо прямого тюна, куче открытой датки и дистилляции моделек лидеров на рынке (кстати Sonnet3.7 круто могет), уже видит, также атаки на тестовый файл. Ведь CLIP скор можно взломать через OOV примеры, подобно взлому reward моделей. И мы видели соревнования,где атаковали модели скореры промптов. Цель однако соревнования в первую очередь сделать тюн генераций, но сопутствующие бонусы как уберечь от атак.

Ссылка: https://www.kaggle.com/competitions/drawing-with-LLMs

Читать полностью…

Dealer.AI

Мои бывшие студенты ищут к себе коллег в команду.

В Туту ищем middle/middle+ Data Scientist.

Локация: у нас есть офисы в Москве, Санкт-Петербурге и можно работать удалённо (и за пределами РФ тоже).
З/П: 300 000 – 370 000 gross (зависит от итогов интервью).

Туту - онлайн-сервис для планирования путешествий. Помогаем с билетами, расписаниями, отелями и всем прочим для поездок.

Основные задачи:

— Разработка моделей рекомендаций для персонализированных маркетинговых коммуникаций, оптимизации времени и канала взаимодействия с клиентами (email, push-уведомления и т.д.).
— Разработка и внедрение Look-a-like моделей для поиска новых клиентов, похожих на самых ценных покупателей Туту.
— Прогнозирования LTV (Lifetime Value) для каждого сегмента, для эффективного расходования маркетингового бюджета.
— Создание и поддержка прогнозов (бейзлайнов) для целевых метрик на квартальный и годовой горизонт.

Мы ожидаем:

— Коммерческий опыт от 2 лет.
— Знания и опыт в области статистического анализа и методов моделирования.
— Владение алгоритмами машинного обучения и их применение в аналитике.
— Знакомство с эконометрическими методами и моделями прогнозирования маркетинговых данных.
— Опыт в разработке и внедрении прогнозных моделей (как плюс — для оптимизации маркетинговых стратегий).
— Опыт работы с SQL, ClickHouse, Python (scikit learn, catboost, pytorch, prophet, plotly).

Отклики направлять @juliape_TuTuHR

Читать полностью…

Dealer.AI

Забавно, что Anthropic'и успели быстрее.

/channel/ai_newz/3694

Читать полностью…

Dealer.AI

Qwen`цы сделали анонс перед релизом своего нового супер-сервиса, видимо и чит-чат и поиск и рассуждения и тп – все в одном.

https://chat.qwen.ai

Читать полностью…

Dealer.AI

Черного юмора пост. 🌚

Осторожно, админа немного покусали "е*ные идеи для рисерча".

Тут недавно выпустили Nanotron кукбук по mgpu learning. Да и еще дали нам ПыкаТрон , чтобы отрабатывать умения из кукбука.

Ну а мы с мужиками во дворе подумали и выдвинули свою версию библиотеки. Для самых дерзких идей и gpu-poor лернинга.  Встречайте ebatron на ml-***-ebal-env.
Ну и мы погуглили, вроде, пока название вакантно, не благодарите.

Рубрика выходного дня(с).

Читать полностью…

Dealer.AI

Памятуя мой пост про планинг на LLM, вот ниже таки ребятки сделали аналогичное.

Отмечу, что решение в т.ч. arc также как и темы с алго A* по идее дают действительно трансфер и на "абстрактное суждение"/ориентацию и распознавание объектов. Причем и для arc абстракций и для лабиринтов в A* нагенерить можно кучу. Тут синты поле непаханное, а еще ж есть игра в жизнь, туда же, на клеточных автоматах.

/channel/AGI_and_RL/971

Читать полностью…

Dealer.AI

Ну CAG таг? Это ж и ни RETRO и ни RAG и не кагдилаг...


Тут ребята упоролись, и как в сказке: "родила царица в ночь не то сына, не то дочь". И перед нами предстает CAG (дилаг простите 🤣) - Cache augmented generation. CAG это мутант между RETRO и RAG, порождение зла и KV-cached подхода.

CAG работает на основе контекста LLM и использует ее же логику kv-кеширования (схема будет ниже) для создания "индекса" и самого запроса, хотя, буквально, это ретривал индексом назвать нельзя, все сразу на этапе инициализации грузится в контекст модели в kv-кэш. Отсюда же и ограничения на использование такой схемы, ввиду длины контекста (привет Titans и прочие жирноконтекстные момзели). Также такая схема работы нас роднит с моделями типа RETRO, тк для вычисления ответа нам нужно получить векторные представления подсказок. Но тут у нас нет cross-attention схемы и отдельного блока кодирования подсказок, модель сама их себе эмбеддит через kv-cache механизм.

Авторы выделяют плюсы: скорость работы, независимость от внешней базы и ретривера, ну и высокое качество по сравнению с классической RAG архитектурой на базе bm25 или dense retriever. Но смотрят всего две задачи HotPotQA и SquadQA.

Из минусов: мы во всю зависим от длины контекста модели для кеширования, и поэтому же не можем динамически менять индекс и в принципе иметь большой индекс как в RAG тк тут "индекс" подсказок грузится в контекст и модель сама решает какую часть этого кеша ей использовать. Нет возможности юзать мультимодалку. Хотя последнее спорно – можно эмбедить в kv-кеш и вектора картинок и аудио и видео.

Дяде, с одной стороны, конечно, такая схема не нравится,хотя он и rag и retro уважает,с другой стороны, если идти в развитие бесконечных контекстов LLM, почему бы и нет? А что думаете вы? Пишите мнение в комментариях.

Читать полностью…

Dealer.AI

RAG system design на хабр.

Вот хороший пост про то, как чел сделал сам RAG и прошел все основные этапы проектирования. Хороший system design, советую к прочтению в выходные.

От себя добавлю чего не хватает. И вы должны себе в рамках дизайна об этом всегда напоминать. Если заявляется SOTA не хватает описания системы метрик. В каких осях SoTA, как измеряли качество извлечения информации, как измеряли качество ризонинга, или все измерялось e2e, то тоже как?

Всегда есть типы ошибок, которые рассматриваются: ошибка поиска (в топ выдачи нет полезных подсказок), ошибка ризонинга (когда ллмка получила подсказки) и даже эта ошибка распадается на ошибку, когда в топе была подсказка и модель не ответила, когда подсказки не было и не ответила (те не сработала из весов). А еще интересное, когда модель сама принимает решение ответить из весов, несмотря на плохие подсказки. Вот этого не хватило. В остальном лайк, закладка.

Upd. Автор опубликовал код тут.

Читать полностью…

Dealer.AI

Вырезка про изменение KLD лосса.

Читать полностью…

Dealer.AI

У семи нянек LLM-ка reward хакает.
(с) Старинная DL поговорка.

OpenAI представила свое исследование хака поведения агентов на основе reasoning моделей. Утверждается, что после обучения при помощи CoT+RL модели все еще хакают задачи. Скрывают намерения или обходят тесты, что конечно не ново для комьюнити.

Для идентификации такого поведения, предлагается простое решение ввиде "надсмотрщика". Это другая LMка, которая следит за суждениями агента во время выполнения задач и идентифицирует "девиантное" поведение. Причем для 4-O поколения GPT достаточно прописать доп. промпт.

При этом, авторы подчеркивают, что переиспользование мониторинга взломов для дообучения моделей не приводит гарантированно к полному отсутствию хаков. Модели дословно: "учатся скрывать свои намерниям". Поэтому, черезмерное давление на CoT обучение приведет к недееспособности системы обнаружения. Отсюда совет, не переусердствовать с способами дообучения моделей по результатам детекции, а лучше вовсе оставить систему мониторинга для обнаружения запретных рассуждений и фиксить их "постфактум" на инференсе. Т.е. не прибегая к переобучению на таких примерах.

Далее авторы указывают на то, что в будущем, именно такие системы обнаружения взлома и их развитие, поможет контролировать (ага да щаз) поведение AGI.

Только авторы, думаю, понимают, что чем сложнее и умнее система, тем лучше она сможет скрывать свои намерения, о которых уже упоминается в статье и наблюдается такой эффект. Да такое же поведение мы наблюдаем у людей и все мы не герои "Особого мнения" и тп., чтобы за скрытыми намерениями заранее до совершения преступления предугадать его.

Paper тут.

Чорд у Дяди есть пару агентов тоже с такими "мониторами".

Читать полностью…

Dealer.AI

Мануш, ты ли это?

Тренили мы агентов, потеряли табун лошадей из Tesla Y и перелили их силы в h800.

https://manus.im/

Твой цыганский агент дилер от китайцев 💳💳💳

Читать полностью…

Dealer.AI

Немного про LLM и реальность в проде (бизнес кейсы).

Дядя тут быканул на один постик про оркестрацию, метамодели и роутинг моделек вокруг/с LM. Закономерно получил отрицательную ОС. Но все же, чтобы там не думали, что автор с НИИ и все же прод.опыт имеющий, а не тварь дрожащая, расскажет вам Дядя про реальность чутка.

Интро. Борд хочет, чтобы all in на LLM и кидает в вас задачу на проникновение современных БЯМ в бизнес процессы, тех.решения и платформы. Ведь ему со всех углов уже налили в уши, что это рокет саенс и золотая пуля. Нет.
И вот Вы бедняга, берете под козырек тащить это в уже устоявшиеся пайпы, системы и процессы.

Кейс 1. Система распознавания намерений. Хочется взять описания основных сценариев взаимодействия с клиентом, ака интенты, взять фразы в чате юзера и сказать: LMушка а вызови подходящий сценарий по описанию и запросу. И по-началу у вас будет это работать, но есть нюанс. На десятке интентов это может и ок. Если ваша LMка норм,то даже и соточку потянет. Но в системе интентов бывает сотни сценариев, и некоторые модельки тут уже не тянут. Да еще и глючат при генерации названия интента. И поэтому хитрые прод. инженеры используют хаки. Например, мы вот имели ж до этого систему на классификаторах и tfidf/fasttext/bert и хорошо оно работало итак без LLM для сотни и даже тыс. интентов. А давайте, чтобы убрать глюки и проблемы масштабируемости просто будем с этих модулей старых выдавать топК кандидатов. Берем К кандидатов, их описание и фразу юзера, кидаем в LLM и профит она из ограниченного списка, с recall@K которого 0.95+ выберет вам с 100% вероятностью нужный ответ. И фигак ты и кпэ закрыл и как бы LMка в проде. А чтобы это было чисто на LMке тебе придется еще думать про скейлинг, сегодня у тебя 10 интентов, а завтра 20 и перетюнить LM ты задолбаешься, классификаторы быстрее ретюн. Конечно можно лорку гонять, да.
Ах и да, тут ещё важно,что на запросы отвечает всеравно старый добрый сценарный движок или qa система. Да, да это оч близкий подход к RAG.

Кейс 2. Поиск и LLM. Мы же понимаем,что из весов LM поисковик так себе? Тут возникает вопрос актуальности данных,постоянного из-за этого переобучения, да и еще до кучи — глюки. Поэтому тут как раз, был придуман RAG. А LMка получает роль или ризонера по выдаче или вообще пишет тлдр по выдаче. До кучи, конечно, это над присыпать ссылками на источники, чтобы повысить доверие, да еще пошарить с вами ответственность за верификацию выдачи. Но иногда, ребята идут дальше, например делают технологию блендера, когда ответ из весов LM и выдачи с поиска (иной любой системы) еще скорится доп.алгоритмом и выбирается лучший ответ. К примеру, тут вот ребята с Яндекс создавали рекламные тайтлы, используя такой подход.

Кейс 3. Про читчат и ассистентов.
Когда появились LMки аля ChGPT все говорили, что это новая эра для ассистентов. Но в итоге, эти LM-based системы всеравно у серьезных игроков опираются на тот самый блендер между старыми отлаженными модулями: intent recognition, retrieval и дерево сценариев. А роль БЯМ или переписывать ответы, или выбирать из уже порезанной выдачи ретривала/интент классификации и в остальных случаях вести беседу самостоятельно e2e. Вообщем в целом жизнеспособность only e2е LLM в таких задачах спорно. По крайней мере сейчас. У знакомых вообще долгое время retrieval based диалоговая система не уступала LLM-based причем метрику оценки формировала команда БЯМ. Да LLM дает больше разнообразия ответов, интересности, зато ретривал релевантности. Поэтому и тут-то тоже блендер схема зашла на ура.

К чему я это все, да оркестрация старых + склейка с новыми системами важна. Переиспользование старых стабильных, надежных и высокоэффективных модулей тоже не зазорно. Можно ли это блендить и мерджить с LLM? Нужно. И не стоит делать all in на LLM. Сложно ли это сделать? Да нелегко, но дорогу осилит идущий.

Читать полностью…

Dealer.AI

YandexGPT R1 на Huging Face

Выпустил адаптер на Hugging Face который я дообучил при помощи impruver поверх YandexGPT-5-Lite-8B-pretrain вышедшей на днях, используя датасеты оптимизированные под reasoning.

Ссылки:
- https://huggingface.co/evilfreelancer/r1_yandexgpt5-lite_lora
- https://huggingface.co/evilfreelancer/r1_yandexgpt5-lite_gguf
- https://ollama.com/evilfreelancer/r1_yandexgpt5-lite

Конфигурация: YandexGPT/8B_lora_r1
Отчёт W&B: https://api.wandb.ai/links/evilfreelancer/zj6s02v4

Запустить через Ollama:

ollama run evilfreelancer/r1_yandexgpt5-lite

Читать полностью…

Dealer.AI

https://openai.com/index/introducing-gpt-4-5/

Тлдр.

- Безопасность не предел.
- Креативный креатив.
- Интересненько.
- Грибы не предлагать Меньше глючит.

Упд. Поменял картинку.

Читать полностью…

Dealer.AI

🔮 CN-AI-RESEARCH | Исследования в области ИИ

Компания DeepSeek в рамках своей недели Open Source представила два новых инструмента и набор данных, которые помогут улучшить производительность AI-моделей.

🔧 DualPipe
Этот алгоритм параллельной обработки позволяет одновременно выполнять вычисления и обмен данными, устраняя задержки (так называемые "пузыри" в pipeline). Представьте, что вы дирижируете оркестром, где каждый музыкант (GPU) работает синхронно, без ожидания других. Именно это делает DualPipe!

🔧 EPLB (Expert-Parallel Load Balancer)
Инструмент для балансировки нагрузки между GPU при использовании экспертного параллелизма. Он оптимизирует распределение задач, чтобы минимизировать простои и максимизировать эффективность использования ресурсов.

📊 Анализ данных тренировки и инференса
DeepSeek также опубликовал данные анализа своих фреймворков, чтобы помочь сообществу лучше понять стратегии перекрытия вычислений и коммуникаций.

🎯 Почему это важно?
Эти инструменты не только упрощают работу с моделями DeepSeek, но и могут быть полезны для разработчиков других крупных языковых моделей.

Подробнее о проектах: 
👉 DualPipe 
👉 EPLB 
👉 Анализ данных 

#КитайскийИИ #КитайAI #DeepSeek #OpenSource

Читать полностью…

Dealer.AI

От подписчика

З.Ы. не то запинил ответом, но вы поняли.

Читать полностью…

Dealer.AI

YaGPT-5, без комментариев.

Читайте тут.

https://habr.com/ru/companies/yandex/articles/885218/

Читать полностью…

Dealer.AI

А...
Это, всего лишь, крыжовник...
😂😂😂😂

З. Ы. Запахло Йенифер...

Спасибо за шутку @kristaller

Читать полностью…

Dealer.AI

Спасибо товарищу по цеху, как-то удачно выпустил пост про длинные контексты: /channel/gonzo_ML/3408

Тут прям в тему моего поста про CAG. Мы там с подписчиками в комментариях также сошлись ко мнению,что хорошо бы смотреть на метрики forgot in the middle для длинноконтекстных моделек.

Читать полностью…

Dealer.AI

Лабиринты, тесты абстрактной логики и игра в жизнь.

Продолжаем думки на тему, а зачем ученые дяди и тети   заставляют LLM решать задачки ARC, поиск пути в лабиринте и тп.

Рассуждения навеяны статьями:
- AlphaMaze
- Beyond A*
- On the Messure of intelligence

Увидев вчерашние посты, коллеги стали задаваться вопросом: "а возможно ли обучаясь на такой синтетике и вообще решая задачки типа лабиринта словить aha эффект – когда модель начнет использовать полученные навыки в других задачах, также как это у людей получается?"

И мой ответ, конечно это возможно, даже больше скажу авторы данных экспериментов в первую очередь преследуют именно цель трансфера знаний и навыков на смежные задачи. Ведь, на самом деле, нам не так интересно искать пути в лабиринте с помощью LLM для этого у нас итак куча алгоритмов аля A* и др. Они быстрее, легче и эффективнее. А тогда зачем?
Наша цель подобно, как человек решает задачи абстрактной логики – это аля IQ тесты, где по картинкам над понять закономерность, в тч ARC, тренировать теже области весов модели, как области коры мозга у человека, которые позволяют нам лучше решать другие задачи,где важно абстрактное мышление. 

Поэтому исследователи гоняют лабиринты 5*5/10*10, покоряют бенчмарки ARC и тп и тд. И мы видим, в статье про AlphaMaze важные выводы,что тупой прямой тюн не работает, модель из коробки не работает. А чтобы решать такие задачи приходится тюнить R класса модели, т.е. учить рассуждениям, планированию специально. "Ризонинг нада качать(с)". Но на самом деле, ризонинг в т.ч. качается через обучение таким задачам.

Еще интересное, что делали ребята из sakana.ai про создание симулятора игры в жизнь, через работу в пространстве visual embeddings. Но можно пойти дальше, не просто искать переходные состояния в пространстве векторов, можно же предсказывать в принципе следующие состояния эволюции популяции. Это как в arc мы связываем серию изображений с следующим наиболее логичным к этой серии. А тут мы по серии развития популяции (тоже в виде картинок, там же 2d) можем по ее картинке предсказывать следующий шаг. Кто знает,где такой трансфер может сыграть, помимо ARC-лайк и планинга. Может в прогнозировании динамики сложных систем? Создании новых материалов и драгов?

В общем, идея интересная, записывайте. Пробуйте.

Читать полностью…

Dealer.AI

Оно же для любителей ЧБ

Читать полностью…

Dealer.AI

Если вы решили делать агентную систему на LLM по имитации офисных процессов, то вот вам идеальный алгоритм.

Читать полностью…
Subscribe to a channel