Жоский ИИ дядя. Твой личный поставщик AI 💊💉🤖 Канал о мире интересного AI: ML, DL, NLP/NLU, RL, Retrieval, RecSys. Для связи @dealer_ai (реклама и консультации) Habr @Andriljo Kaggle: Andrilko
Про ёмкость эмбеддингов.
Тут в комментах предыдущего поста про память мне скинули пост соседей по цеху. Про исследование сколько информации может закодировать эмбеддинг языковой модели.
Статья вот. Пост вот. А мысли Дяди вот далее.
Данное исследование дает очень интересные инсайты, которые полезны как для RAG так, и для памяти на базе него, и в т.ч. для всяких там RETRO/CAG и KV-caching, даже с лонг контекстом важное. Получается, чтобы кодировать текст для той же памяти через эмбеддинги нужно иметь ввиду размерность эмбеддинга, капасити модели кодировщика, и сложность текста. И тогда ко всему выше, мы добавляем еще метапараметры для настройки и выбора моделей кодировщиков.
А еще если посмотреть, что для прода сейчас пригодны эмбеддеры около 1-3b, а еще лучше до 1b ёмкостью, то в среднем это позволяет только 512 токенов эмбедить за один вектор эффективно. Вот и делаем выводы. Думаю исследования капасити эмбедов станет интересной вехой развития RAG, KV-caching и вещей вокруг аля CAG/RETRO.
От себя добавлю, что в наших экспериментах вокруг multitasking embedders, мы обнаружили ещё одну интересную закономерность по сжатию эмбедов или с учителя, когда с тушки еще есть пожимающий адаптер, или на ученика, когда учитель дистиллится учеником. И тут коэффициент пожатия размерности эмбеддера ~2.4-2.56. Чтобы пожать размерность эмба с 768 без потери downstream качества поиска, кластеризации или классификации, мы можем опуститься максимум до 300. А для 1024 максимум до 400. Потом качество уже будет значимо снижаться от 5% пунктов и выше.
Вот такие мутки, гульки(с).
Пишите в комментариях свои наблюдения вокруг этой темы, интересно.
Вечерний юмор.
Когда просишь спеца по GPU инфре скинуть видос на свой пет проект...
"Нуу вопросов многа, но зато она работает".(с)
Когда тема с длинным контекстом снова актуальна, как и мем здесь 👆.
Читать полностью…Нинка 2 aka Nintendo Switch 2 выходит в предзаказ.
Пост выходного дня. Юмора на неделе хватало: от дня дурака до крестовых походов.
Поэтому будет сегодня про досуг.
В общем, у Дяди есть любовь к консольным играм, и конечно же имеется Nintendo switch первого поколения и тут объявили о скором выходе второго. Причем предзаказ стартует аж 08.04.2025.
Что из интересного для меня:
- FHD разрешение в портативном режиме и апскейл до 4к с приставкой при подключении к экрану ТВ, монитора или тп. Причем обещают 60-120fps.
- Увеличили экранчик на пару дюймов, при этом толщина та же. Размер выходит между старой нинкой и непотопляемым steamdeck.
- Памяти досыпали побольше 256gb встройки, правда формат sd карт только один.
- Обратная совместимость с играми первой серии,но логично,что игры от второй на первую не пойдут.
- Запилили более "удобный" режим стримминга (правда стримить в 14 fps такое себе), новые возможности для корпоративной игры, включая даже шеринг на старые устройства серии (нинка 2 будет как основная консоль).
- Более мощное железо, экран fhd, правда IPS, а не Oled (через два года ждем).
Раз все стало быстрее, выше, мощнее,то и игр отсыпали новых подстать. Помимо эксклюзивов, появится цива 7, киберпанк, elden ring, harry potter, border lands 4 и др.🤙
Интересно? Да, если бы не цены. Цена за версию с поддержкой ру языка будет около 450$. В Японии самая дешевая разумеется (чет около 350$), для Европы и USA подороже. Но Япов версия соло на их языке. Самое больное это картриджи, для любителей коллекционировать коробушки цены от 50 бачей обещают, а где-то будет даже 70-80$. 😳 Да конечно есть подписки всякие, где будет наверняка подешевле.
Крч, тут не знаешь, то ли радоваться, то ли плакать. 😔
Конечно, серия Нинтендо не про деньги, тут своя фанатская культура, экслюзивы и желаемая портативность/мобильность. Но, сидишь и думаешь, брать сейчас за +20% стоимости как эсклюзив или подождать Oled (и к тому моменту уже хацкеры подсуетятся) или подождать спада цен. Или за эти деньги взять себе ПК. Решать каждому.
А что вы думаете про это все?
Ребятки пояснили, чего имели ввиду.
/channel/dealerAI/1177?comment=9402
А че, Дядя обещал, поговорил, и сделал апдейт.
Сама грозится новой мощной моделькой, да еще и открытые веса. Верим?
https://techcrunch.com/2025/03/31/openai-plans-to-release-a-new-open-language-model-in-the-coming-months/
Про all-in на агентов.
Продолжаем наш "крестовый поход" в этот раз в стан агентов.
Из каждого утюга нонче идет,что 2025 - это год агентов. Как в опере Фигаро агенты тут, агенты там, агенты здесь, здесь все Дюша, Стас... Простите.
Тут, кстати, пояснять будет полегче т.к. антропики запилили ИМО лучший тлдр по полочкам, что такое агенты (и не обязательно LLM-based), где их и когда применять и т.п. и т.д. И всем канальям манагерам, в т.ч. тем, кто продают борду очередную ИИ стратегию хорошо бы это почитать. Если ты tupoy и не умеешь переводить с англосакского на русский вот тебе перевод адаптация.
Прочел? И чтобы Дядя больше не слышал потом, что у тебя агентская система, ибо агентский может быть только договор. И если у тебя последовательность действий с LLM это ещё не значит, что у тебя агент, возможно это все еще LLM+workflows. Кстати, именно последнее всякие ребятки с компаний выдают за агентов. Ну а че, сверху партия спустила "пересесть везде на агентов" вот и называют любой pipeline, где есть LLM теперь агентами, и закрывают плашки КПЭ.
А у вас какие были корки на работе с агентами? Пишите в комментариях.
ARC challenges, снова.
Расчехляем свои пекарни, качаем сеты с прошлых сорев на kaggle и генерим синту. Пора сделать AGI ближе. 🤣
https://arcprize.org/blog/announcing-arc-agi-2-and-arc-prize-2025
Привет!
На платформе открылась регистрация на соревнования Avito ML Cup 2025
🚀Старт отправки решений: 31 марта
🔥Призовой фонд: 1 200 000 рублей
Задача 1: создать модель, которая предскажет интересные для пользователя товары на основе его действий на платформе.
Задача 2: разработать решение на базе технологии компьютерного зрения, которое сможет обнаруживать одинаковые товары.
Участвовать можно как индивидуально, так и в команде до 4 человек.
Не пропустите возможность проявить себя и забрать денежный приз!
Подробности ➡️ на страницах задач: Задача 1 (персональные рекомендации), Задача 2 (поиск дублей)
Pain test task.
Pain trial day.
Pain trial week.
Upd. Pain offer.
Так гораздо естественнее.
Источник
⚡️Твоя китайская Big Mom
на 700gb⚡️
Надеюсь, чуваки успели прочесть исследования выше и исправились. Нет.
"deepseek, out of nowhere, dropping a new model
~700GB, mit license." (C)
https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/tree/main
Про тюн llama-3.2-3b в зависимости от файнтюна на математике
Читать полностью…Дамы и господа, выдыхаем: RL всё таки не работает.
Те, кто со мной общаются, знают, что я достаточно скептически отношусь к GRPO и test time scaling прорыву. Когда-то, я прочитал офигенный блогпост с громким названием "There May Not be Aha Moment in R1-Zero-like Training", где авторы попытались критически посмотреть на обучение ризонеров на базе квенов и у них получился неожиданный результат: у квенов aha moment и селф рефлексия возникает на нулевой эпохе обучения — то есть в базовой модели. Сейчас вышла полная статья (правда, как я понял, выложена она в репозитории, а не на архиве или конфе), где более полно раскрываются эти файндинги.
Существующие имплементации GRPO (от HF и от Unsloth — не уверен, что они разные, но вроде разные), используют один и тот же системный промпт от R1 при обучении. Авторы задают вопрос: а точно ли для моделей, на которых хотят воспроизвести aha moment, выбираются правильные промпты? И действительно: оказывается, что если вообще не использовать чат темплейт у базовых моделей (qwen-2.5), то они уже могут работать в чат режиме. Видимо, в претрейн уже подмешивали вопросно-ответные датасеты, например, на математику и модель генерализовалась. При этом, они рисуют ещё более интересную картинку: Qwen-2.5-Math модели без системного промпта работают в полтора раза лучше, чем фью шот на датасетах с математикой. На Deepseek V3 это не воспроизвелось, там темплейт помогает гораздо сильнее.
Затем авторы развернули Deepseek V3 Base самостоятельно (мне бы столько ресурсов), и прогнали через неё вопросы из MATH-500 с использованием промпта от R1. Оказывается, что модель изначально отлично генерировала такие слова как "aha", "wait" и "verify the problem" и показывала примеры селф рефлексии без дообучения.
Потом они решили посмотреть на формулу GRPO и PPO и поняли, что в них есть лишние детали. Во-первых, есть response-level bias, то есть нормировка по длине ответа. Если advantage положительный (ответы верные), наличие нормировки увеличивает апдейты градиента, если отрицательный, то наоборот, ответы становятся длиннее. Это соотносится вот с этим постом, где тоже подтвердили такое поведение моделей. Во-вторых, при подсчёте advantage производится нормировка на std ревардов. Это приводит к тому, что вопросы с меньшим std ревардов больше влияют на веса, что ведёт к менее эффективному обучению. И действительно, если эти два bias убрать, средняя длина ответа довольно быстро выходит на плато, неверные ответы, хоть и длиннее, чем верные, но всё же становятся короче, а качество обученных моделей хуже не становится.
А потом авторы объединили все эти файндинги в единый эксперимент: они взяли qwen-2.5-1.5B с разными системными промптами и проверили, насколько при обучении с GRPO растёт качество на популярных бенчмарках. Результаты напрямую следуют из предыдущих экспериментов: неудобные для модели темплейты её сначала ломают, а потом через RL модель учится отвечать правильно. Это даёт ей офигенный буст в качестве (тот самый +40% on MATH, которым хвастаются в заголовках). Но если не использовать промпт, то модель сразу стартует с удобного начала и отвечает на вопросы очень хорошо — и буст в качестве становится значительно более скромным, в районе 5-6%.
Кроме того, авторы взяли llama-3.2-3b и сравнили, насколько влияет претрейн на высоту плато GRPO. Если не обучать модель на математике, то RL практически не помогает, а вот если сначала обучить на NuminaQA или FineMath, то буст будет достаточно сильным. Модель они учили с R1 промптом, так что предположу, что тут та же история, что и с квеном: скачок в качестве это следствие из нестабильности модели к подающимся в неё промптам, а не из волшебных свойств чисто RL обучения.
Ещё один интересный аблейшн авторы почему-то вынесли в аппендикс: селф рефлексия в R1-Zero больше коррелирует с неправильным ответом, чем с правильным. Конечно, эксперимент проводился всего на 100 примерах, так что может быть это статистически незначимые результаты, но всё равно, клейм интересный.
OpenAI и жиза про память от Дяди.
Все уже слышали про новый апдейт памяти от OpenAI? Кстати, прошел ровно год считай с анонса этой фичи, и Дядя по этому поводу писал об этом и о своих мыслях о памяти. Дядя занимается памятью тоже, ибо для ассистентов и агентов это важная фича.
Самое интересное,что по обещанным новшествам:
- помнит не только факты, но и старые контексты с чатов
- как следствие понимает стиль юзера и апает персонализацию.
Далее прокомментирую апдейт. Но начну с личного опыта – расскажу вам, как сейчас на рынке +/- устроена память:
1. Old style. 😦
На сценарном движке зашито в виде слотфиллинга. Слотфиллинг это алгоритм заполнения автоматом с учетом распознования намерения слотов (ключей в json), позволяет лучше держать контекст и не перезадавать тупых вопросов.
Сюда же относится всякий NER/ классификаторы, которые и могут делать span extraction и классификацию тематик интересов, к примеру. Они же в слотфиллинге занимают роль моделек для заполнения.
2. In long context we trust. 😏
Предлагается "бесконечная память" на основе жирного и потенциально эффективного контекста (нет), тк в вашей системе врядли найдутся юзеры с диалогами на 10М токенов. Тут все понятно, писал об этом здесь. Главное,что на практике совать память в контекст, без вырезки как это делает, к примеру DeepSeek R1 с "думающими" токенами и областью между ними, будет больно. На нашем опыте глюки обеспечены. Поэтому нужно предусмотреть механизм: "контекст-последняя реплика-память-ответ-вырезать память из контекста и по кругу".
3. Саммаризация 🥱 или когда контекст не резиновый.
Если есть пример, когда все жирно пассажирно по контексту, вот вам пример с коротким контекстом. Правда подходит больше это под один из блоков памяти и в лоб без ухищрения позволяет иметь локал память. Можно хранить саммари прошлых диалогов и передавать их к новым рядом с систем промптом. Но и контекст саммари нерезиновый поэтому лучше микстить с предыдущим подходом или следующими.
4. Готовим из памяти RAG'у.
Есть любители и такой кухни. Могут тупо хранить эмбы диалогов+сам текст по юзеру с dialogue_id. Далее, использовать в контексте или всегда по умолчанию делая ретрив или умно, к примеру, отсекая по скору ранкера или вовсе перенося на функцию памяти принятие решения. Также можно умно нарезать диалог, прося саму LLM вырезать те спаны текста,что она считает полезными для хранения,тем самым не хранить диалоги, а только их важные кусочки. Можно и не LLM просить, а те ner extractor, из пункта выше, вариантов масса. А так действительно зачем нам всякие смолтоки мусорные аля: "
-привки,
-даров,
-как дела?
-,ок,
-ну лан".
Сюда кстати применимы подходы и через саммаризацию, когда в индекс памяти кладут важное саммари диалога, с минимумом воды и уже ретривят такое.
Вызовы с RAG памятью состоят в том,чтобы думать за инфру хранения: обновления индекса по юзеру "на лету", памяти где бы столько взять (юзер-то не один) и т.п. В остальном вполне себе решение. Это помимо логики нарезки и ретрива.
4. Structured output (SO) +Function calling 🧠.
Пример глобальной памяти на SO. Необходимо создать систему, которая понимает, когда забрать инфо из контекста и положить в память, или наоборот, выдать релевантные факты из памяти в контекст для использования. Остаются вопросы, кто экстрактит данные, как писать в память и возвращать обратно. Продумать шаблон хранения памяти и форматирования контекста. Сделав это, можно жить и так, а можно все фишки сверху накрутить. Хранить при помощи саммари в ключах SO памяти, или иметь доп ретрив логику. Экстрактить можно LМкой в память инфо, а можно аля слотфиллинг, при помощи NER. Функции можно роутить LLM, можно юзать классификатор или эмбеддер аля, как в RAG. В общем этот пункт может быть наиболее зрелым, но свои вызовы тут тоже есть, особенно если микстить с предыдущими подходами и наследовать их проблемы.
Итого, что может быть у OpenAI. Дядя думает,что микст long context + RAG или + SO/function call.
А что выберите или выбрали вы? Пишите в комментариях.
В последнее время, в канале появилось несколько постов про агентов. И везде Дядя указывает на необходимость взаимодействия LLM с «окружающей средой». Именно в этом помогает протокол MCP.
Model Context Protocol – незаменимый инструмент не только для работы, но и для ML-соревнований, где нужно использовать всю мощь LLM. С помощью нового стандарта подключения AI-ассистентов к бизнес-приложениям от Anthropic ты сможешь интегрировать ИИ в свой проект – идеальное решение для хакатона, где время ограничено.
В новой статье разбираемся, как устроен протокол, как поднять собственный MCP-сервер и использовать его в IT-соревнованиях. Ты узнаешь про:
🔤 Архитектуру Model Context Protocol.
🔤 Основные возможности стандарта.
🔤 Примеры реализации: от простых к сложным.
Сосредоточься на создании уникального AI-ассистента. Как это сделать? Ответ в статье: https://cnrlink.com/mcpitonecupmldealerai
А проверить всю мощь MCP можно на IT_ONE Cup. ML Challenge. Зарегистрируйся, выбери один из трех треков и раздели призовой фонд в 1 500 000 рублей.
MCP станет одним из важных инструментов для разработки ИИ-помощников в задачах соревнования:
🔤 Динамические контекстные подсказки для системного аналитика.
🔤 AI-генератор дизайн-макетов по описанию требований.
🔤 Система визуализации BPMN-диаграмм.
MCP позволит использовать локальные модели, которые сделают решения более автономными и безопасными – их будет легче адаптировать под задачи соревнования.
Регистрация открыта до 13 апреля включительно: https://cnrlink.com/itonecupmldealer
Llama 4 про 10M контекст и будущее RAG, memory etc.
Это не будет очередным обзором о новой моделище (а ламки вышли real chubby). Об этом вы итак почитаете у соседей.
Мне вот больше интересно про длинный контекст 10М и прочие сопутствующие вопросы.
Во-первых, недостаточно просто так взять и сделать окно в 10М. Для начала надо датку найти под это с жирным контекстом, а нам указывают на синту. Во-вторых, еще надо переработать архитектуру внимания и позиционного кодирования, чтобы сигнал не тух и был эффективнее. И вот тут находится первый краеугольный камень. Мало сделать 10М контекст, надо чтобы в каждой точке он был эффективен. Т.е. если я кидаю факт в начало, потом в середину и в конец, и прошу ответить на вопрос, без этого факта на который, вы не ответите. То при замере качества оно должно быть +/- одинаково для таких примеров. А внимание должно не затухать, как обычно бывает, что на бумаге 1М, а по факту помнит и эффективно использует контекст в последние там 100 пар реплик. Кстати показали для этого метрики MTOB и там проценты чет около 40%, не впечатляет правда, мол не близко к 100 и AGI все еще не achieved. Но тут нужно посмотреть на Needle in the haystack в 100% синтетических процентов, тк расширили еще на 9М (исходно было 1М).
И цифры конечно, для профи красивые, но что будет на самом деле? Как реально будет это работать в юзкейсах аля поиска по портянке больших доков, или нескольких доков и тп. Вот где замеры интереснее. Ведь с одной стороны, жирные тексты еще найти надо для обучения, еще синта там наверняка есть и т.п., что конечно трансферит нам знания, но синту обучить и мерить на синте это одно, а в жизни как будет, поглядим.
И это следующий краеугольный камень для замены RAG, всякой там памяти и тп. Я бы пока не стал закапывать RAG и память с CoT+SO. Да, когда-нибудь, обязательно закопаем, но когда на реальных кейсах 10М из 10М у нас будет эффективный контекст. Но то, что с ростом абсолютного контекста в его рамках растет и эффективный это вполне себе. Допустим, заявлено 10М, а 1М последних токенов можно юзать эффективно для поиска и памяти, это мне хватит на 99.9% кейсов. Проверим.
А теперь, вопрос памяти, например, хочу я сделать запоминание диалогов там с юзером, для большей липкости и тп. Беру жирный контекст и просто его юзаю за всю историю общения с юзером. Вопрос. Сколько мне на каждого юзера придется хранить физической памяти на диске? Сколько gpu нужно, чтобы поддерживать rps, latency и тп.? И каждый ли игрок на рынке сможет себе это позволить, даже платя по подписке или арендуя мощности др. игроков? Тут Дядя задумался, а не оттуда ли в т.ч. цены (доля от цены) по 200$ за подписку. Ну лан, за подписку еще платить осилят.
В целом, вижу для RAG и памяти в гонке за жирным и эффективным контекстом будущее в гибридизации с ним. С одной, стороны будет проще помнить, обрабатывать и переиспользовать инфо юзая контекст, с другой стороны придется все равно затачивать модель под ответы на своем домене. Т.е. нужно будет вокруг этих моделек строить свою доп. логику, чтобы закрыть неизбежные глюки, а еще помнить, что память-то "протухает" и в таком жирном контексте могут оказаться противоречивые или неактуальные факты- это, кстати, в пику тезису "помнить в каждой точке контекста одинаково важно". Сегодня я пишу одно имя, завтра говорю хахах меня не так зовут. И т.п. upd. Кстати, по нашим экспам с памятью, противоречия в контексте оч мешают и взывают галюны.
В общем,все также сидеть придется на нескольких стульях: архитектура, данные, логика работы и выч. ресурсы. Проще не стало.
Фото в заголовке взято отсюда.
У OpenAI изменились планы 😏
GPT-5 через несколько месяцев.
@tips_ai #news
Ну вот любо дорого теперь смотреть, молодцы. За конструктивный диалог авторам статьи лайк. 😁 Обновили.💃
Рекомендую к перепрочтению. 😎
https://habr.com/ru/companies/redmadrobot/articles/892882/
Второй крестовый поход на ai-agents.
Про то, как вам продают RAG системы под соусом агентов в Х раз дороже. Ну ибо хайпово че. Но Дядю не проведешь.
Сегодня быстро разберем, вполне хорошо написанный пост от red-mad-robot, если бы это было про RAG.
Ребята рассказывают про то,как сделали AI-agents для работы с обращениями и поиском по внутренним системам.
Однако, тема не раскрыта. После первого прочтения, Дядя задался вопросом: "а где тут агенты?". Это же две RAG системы, с минимумом автономности поведения. Да, весьма сложные системы,где несколько раз вызывается LLM последовательно. Для примера, автономность, характерная для агентов – это когда LLM-оркестратор сама решает в какие системы ходить, какие шаги пайплайна выполнить, вопросы задать, даже банально нарезку может,как делать сама решить и дать команду зависимым системам, в т.ч. LLM-акторам. Т.е. у агентной системы граф взаимодействия и пайплайн не последовательный ,более того, недетерминированный. Тут четко на схемах есть пайплайн/алгоритм поведения. От нарезки до поиска и конвертации форматов. Где признаки агентной системы, Ковальски?
Даже на схеме где у нас идут запросы и мы ходим в разные доменные базы, пишут мол мультиагент, это мультипоиск, але. Вы делаете классификацию запроса, понимате в какой домен сходить, идете в эту бд-ху, можно даже асинхронно в несколько, далее делаете снова retrieve, получаете подсказки, отвечаете. Снова понятный пайплайн. И это все еще просто RAG.
Давайте так, если у вас есть LLM теперь в вашей системе поддержки, вместо или с сценарным движком, поиском по базам знаний и вертолетом на крыше – это все еще просто LLM based система может быть, или LLM workflows в нотации антропиков, но все еще не агентная система, без признаков агентности. И ктати, в статье именно пока вырисовывается LLM-workflows, который мог бы быть частью агентной системы, но конкретики не хватило.
Как можно было,например, красиво показать агента? Агент, помимо автономности, логично,что взаимодействует со "средой". Ты если идешь по новой для себя улице видишь кочку, ты ее видишь сейчас, она не описана у тебя заранее во флоу, это новое место для тебя,но для этого и есть у тебя интеллект, а ризонинг у LLM. Ты ее обойдешь. Вот и для LLM оркестратора есть информация о системах, вот ЛМушка гляди, у нас есть К штук БДех, три сценарных движка и пять конвертеров форматов данных. Они умеют вот так и так. Смотри, тебе пришло вот такое сообщение-задача,прими решение САМА куда сходить, че сделать, кого вызывать, чтобы получить ответ на запрос. И вот тут она включит свои LLM-flows под эту ситуацию, и таких обходов она может сделать много и цепочки не детерминированны, они могут иметь разную длину: состав вызываемых модулей, доп. вопросов, динамических нарезок, уточнений и тп. Но,чтобы быть справедливым, Дядя сходит в комментарии и задаст вопросы. Ибо,честно, не хватило фактуры почему это агенты в статье. Возможно, сделает апдейт.
Upd. Поговорили с ребятами, раскрыли в комментариях суть. Агенты есть, были и будут (с). Ждем новых открытий от них.
Для справки:
Неизвестный художник. Портрет камергера Императорского двора князя Ромуальда Константиновича Гедройца.
Один из "чемпионов" по количеству иностранных наград при дворе. Имел даже гавайский орден Калакауа I.
OpenAI ограничило возможности генерации изображений с новой моделью не только в стиле Ghibli, но и иных ныне живущих художников. Так компания старается не нарушать авторское право на стиль и тп?
Upd. На самом деле просто не вывозят ГПУ. Да и какое авторское право на стиль, Дядь.
Красивое.
С incontext image style transfering.
С детализацией и читаемыми буковами.
https://openai.com/index/introducing-4o-image-generation/
KBLaM от Microsoft или как перепридумать RETRO.
Майкры зачастили капитанить и выдавать их поделки за "открытия". Помимо уже их захода на RAG, который они запотентовали как RAS, теперь еще и RETRO под себя сделали.
В общем, чем у нас отличается KBLaM от RETRO – механизмом кроссвнимания, вместо классического у них там "прямоугольное". Но базово это все ещё RETRO-like архитектура. А ваше прямоугольное внимание все еще cross-attention просто на knowledge tokens. Просто челы выпендриваются и хотят называть все по-своему.
Итого ребята уповают на то,что мол RAG квадратичную сложность создает от числа токенов в подсказке. А они вот экономят время это. Так-то оно так, но почему RETRO так и не взлетел после 2022 года? Почему RAG пока на коне? Потому, что оперирует текстами перед подачей в модель. RETRO же требует лезть под капот, на уровне векторов и внимания работать с моделью. И когда у тебя появятся OOD примеры, их вектора будут тоже out of domain и тебе нужно будет e2e перетюнить этот сетап вектор+внимание+LLM в худшем случае. С RAG ты тюнишь или поисковую часть (если в топе нет нужных подсказок) или ризонинг в LLM (если LMка с подсказками не отвечает). Отдельно... И тексты итак у тебя в какой-то нормальной форме кормятся, и тюнится все быстрее и на прод инкремент идет быстрее и не надо думать,что тюня кросс внимание и LMку ты чет сломаешь в самой модели. Банально начнется катастрофическое забывание.
И тут же ребята оправдываются в статье:
"Исследователи подчеркивают, что KBLaM пока не готов к широкому использованию. Хотя он хорошо справляется с простыми вопросами и ответами, ему все еще нужно поработать над более сложными задачами рассуждения."(С)
........
Занавес.
Источник новости.
Код.
Статья.
Midjourney обзор про LM.
Пока свежа память про всякие там RL и Llama. Завезли тут Midjourney обзор про языковые модели. Конечно обзор челы из дата секретов сделали,но кое-что интересное упустили. А мои подписчики не секретами деланы и их раскрывают.
Далее дословно от подсичика, с моими вставками:
Тут немного в тему RL вот такая статья есть, в ней наверное самый забавный момент помимо прочих, что основной авто-«бенч» — это ревард-моделька, которую обучили на тех же данных, из которых и dpo-датасет сварили 🧠 (бусты существенные, duh 🚬).
Дядя: Эт че у нас уже лики пошли из трейна в тест? Логично,что модель такая будет давать сродственнным с dpo сетом предпочтения и завышать скоры. ❓ Ну и что ниже мы щас и увидим.
Продолжаем. Потом авторы ещё это все шлифанули человеческой разметкой, но размечали только эти же сами авторы (!), утверждают, что честно-честно не знали (ага щаз 😀), где какая модель 😮💨. И разумеется , в итоге их 8В победила GPT-4o с разгромным счётом 🌿, и добить решили перлом 🧖:
>> Note that all authors have years of experience in computational creative writing research. (Ты смотри святые люди, а.)
А, да, размечали ещё при этом не сами генерации, а их суммаризированные (!!!) версии, так как "doing the task with eight lengthy creative writings can be cognitively overloading" ))))) Бедняжки от кожанных могут перегреться. 🦻
В общем, читаем внимательно, может у вас сложится иное мнение и зря мы гоним тут.
За материалы спасибо @walfry
Про качество обученных ризонер моделей с разными промптами
Читать полностью…Вот это поворот 😱😱😱😱
Крч, RL и sft снова под ударом!?!?
Upd.
На самом деле грамотный pretrain и sft дают хороший фундамент и тут, а rl снова нужен, чтобы ломать тимплейты элайнить под видение авторов поведение. Но даже в уже легендарной команде deepseek видим,что предусмотрели не все. Очень интересное исследование и анализ. Чтобы было бы, если этих ошибок не сделали китайцы?!? 🤔