Канал про рекомендательные системы от ml-специалистов Яндекса. Делимся опытом, обсуждаем новые подходы и интересные статьи. Вопросы и предложения > @yandex_ml_brand
Мы с отличными новостями! Статью о датасете Yambda приняли на Oral конференции RecSys 2025. Поздравляем команду рекомендательных технологий Яндекса!
Читать полностью…InterFormer: Towards Effective Heterogeneous Interaction Learning for CTR Prediction
Сегодня разбираем статью InterFormer — новую архитектуру для CTR prediction, в которой особое внимание уделено взаимодействию между разными типами признаков.
Модель создавалась при участии соавторов Wukong, и является её идейным продолжением. В новой статье особое внимание уделяется работе с различными последовательностями, которые можно извлечь из пользовательских логов. Авторы пытаются исправить два недостатка существующих моделей:
1) последовательности уточняются контекстными признаками, но не наоборот;
2) слишком агрессивная агрегация последовательностей.
InterFormer пытается решить обе проблемы с помощью двух ветвей обработки — «глобальной» и «последовательной», — которые обмениваются информацией в каждом новом слое.
В первую ветку попадают всевозможные категориальные и dense-признаки. Эта ветка отвечает за построение взаимодействий признаков, что можно делать несколькими способами: используя факторизационные машины, DCNv2 или, например, DHEN.
Вторая ветка предназначена для работы с последовательностями. Сначала данные очищаются с помощью MaskNet’а, а затем подаются в классический attention-слой.
Ключевая особенность модели — механизм взаимодействия между этими ветками. Из первой ветки во вторую перед attention-слоем приходит обучаемая проекция на элементы последовательности. В свою очередь, из второй ветки в первую передаётся агрегация последовательности, в которую входят CLS-токен, PMA (Pooling by Multihead Attention), а также фиксированное число последних элементов последовательности. Важно, что взаимодействия между признаками в первой ветке считаются уже с учётом этой агрегации, а для сохранения размерностей используются обычные MLP. С помощью такой организации перекрёстного обмена авторы решают сразу обе указанные ими проблемы.
InterFormer тестируется на трёх публичных датасетах и одном крупном внутреннем. На всех задачах он показывает SOTA-результаты, обгоняя как non-sequential-, так и известные sequential-решения.
В отдельном эксперименте авторы показывают, что действительно важен взаимный обмен информацией между ветками. При его (частичном) отключении качество значительно проседает.
Также исследуется масштабируемость InterFormer’а по числу и размерам последовательностей и самой модели — авторы утверждают, что модель хорошо скейлится по всем направлениям.
Наконец, авторы проводят небольшое ablation study, по результатам которого делают вывод, что каждая составляющая предложенной в статье агрегации последовательностей очень важна.
@RecSysChannel
Обзор подготовил ❣ Олег Сорокин
Wukong: Towards a Scaling Law for Large-Scale Recommendation
Сегодня разбираем не новую, но важную статью на тему scaling law в RecSys. В домене NLP он сводится к идее: чем больше модель, тем выше её качество. Но в современных рекомендательных системах нет такой явной зависимости. Мотивация авторов в том, чтобы создать архитектуру, которая, прежде всего, хорошо масштабируется по параметрам.
Исследователи утверждают, что достигли своих целей:
1) создали архитектуру, которая позволяет улавливать сложные взаимодействия признаков высокого порядка;
2) добились плавного масштабирования качества в зависимости от размера датасета, объёма вычислений (GFLOP) и ограничений по параметрам.
В статье по большей части рассматривают подход sparse scaling, суть которого в том, чтобы добавить множество эмбеддингов и за счёт этого масштабироваться по числу параметров. Однако это не совсем то, к чему стремятся авторы, по двум причинам. Первая: если просто добавить много новых эмбеддингов, не будут улавливаться нетривиальные взаимодействия. Вторая: при таком подходе не используется потенциал современных GPU, а только задействуется дополнительная видеопамять.
Ключевая инновация статьи — использование серии последовательно расположенных факторизационных машин (Factorization Machines, FMB). Это как раз и позволяет учитывать нетривиальные взаимодействия высоких порядков.
Общую схему архитектуры можно описать так: сначала берутся Dense embeddings — это преобразование всех признаков в эмбеддинги. Затем следует блок Interaction Stack, состоящий из нескольких Wukong-слоёв, каждый из которых разделён на два простых блока: Factorization Machine Block и Linear Compress Block.
Interaction Modules Stack состоит из l одинаковых слоёв (interaction layers), причём каждый слой постепенно захватывает всё более высокие порядки взаимодействия признаков. Для слоя i cтека его результаты могут содержать взаимодействия признаков произвольного порядка от 1 до 2i.
Авторы указывают, что чем важнее фича, тем большая размерность эмбеддинга ей выделяется. Затем все эти эмбеддинги объединяют, конкатенируют и через MLP преобразуют в d-dimensional векторы.
На внутреннем датасете исследователей насчитывается около семисот фич, среди которых есть не только категориальные, но и Dense-фичи. Их тоже пропускают через MLP, чтобы привести к одинаковым представлениям. Получив эти эмбеддинги, авторы переходят к следующему слою.
Также авторы пишут, что используют собственную оптимизированную версию факторизационных машин. Отмечается, что в большинстве современных датасетов число фичей ощутимо больше размерности эмбеддингов. Поэтому они вводят определённые упрощения, которые нацелены на оптимизацию вычислительных затрат, а не на улучшение качества. Но в целом FMB можно считать околодефолтными.
Также в статье рассказывается, как именно можно масштабировать предложенную архитектуру. Во-первых, можно увеличить число слоёв в блоке Interaction Stack. Во-вторых, допускается повышение размерности эмбеддингов, которые генерируются каждой внутренней компонентой. Наконец, авторы отмечают, что можно настраивать гиперпараметры, чтобы сбалансировать производительность и качество модели.
В финале авторы показывают результаты на шести общедоступных датасетах: по метрике AUC модель почти везде превосходит другие решения. При этом по LogLoss на ряде датасетов (особенно там, где высокая вариативность) Wukong не всегда занимает первое место.
В целом, полученное решение действительно показывает поведение, близкое к scaling law: при увеличении числа параметров и размера датасета качество предсказаний закономерно возрастает.
@RecSysChannel
Разбор подготовил ❣ Константин Ширшов
Beyond Item Dissimilarities: Diversifying by Intent in Recommender Systems
Сегодня разбираем статью, в которой предлагается новый подход к диверсификации рекомендаций, основанный на понимании пользовательских интентов.
Авторы хотят решить проблему разнообразия контента, предлагаемого пользователям. Для этого они предлагают учитывать при формировании рекомендаций пользовательские интенты, а не ограничиваться только схожестью юзер-айтемов. Намерения пользователей могут меняться в зависимости от дня недели, времени суток и контекста — например, они могут проявлять интерес к спорту, учёбе или отдыху. Учитывая эти факторы, можно сделать выдачу более разнообразной и релевантной.
В работе предложен фреймворк, который накладывается на существующую рекомендательную систему. Авторы описывают его лишь концептуально, не уточняя, чем моделировали распределения.
Идея в том, чтобы перейти от p(item | user) к p(item | user, intent) = p(item | user) * p(intent | user, item) / p(intent | user). От неё берут матожидание по априорной p(intent | user), получают вероятность того, что айтем подходит юзеру с учётом всех возможных интентов.
Это значение возводится в степень γ (гиперпараметр) и умножается на скор ранжирующей мод ели. Таким образом учитывается как user-item-релевантность, так и intent-aware-релевантность, формируя итоговый скор рекомендации.
1) Выбираем айтем с наибольшим скором и ставим его на первую позицию. Дальше повторяем процесс.
k+1) Переходя от позиции “k” к “k+1”, считаем, что k-ый айтем не подошёл пользователю. С учётом этого обновляем распределение интентов по теореме Байеса, находя апостериорное распределение. После этого пересчитываем скоры, но теперь матожидаем не по априорному, а по апостериорному распределению.
Этот пересчёт снижает вероятность однотипных рекомендаций и добавляет разнообразие в выдачу.
@RecSysChannel
Разбор подготовил ❣ Сергей Макеев
From Features to Transformers: Redefining Ranking for Scalable Impact
Сегодня разбираем статью от Linkedin, в которой Фёдор Борисюк и команда делятся результатами внедрения HSTU-подобной модели. Публикация интересна тем, что объединяет ключевые тренды 2024 года: идею target-aware из HSTU и использование semantic IDs из TIGER.
В работе обозначено несколько целей:
1) Избавиться от большого количества hand-crafted фичей
Авторы хотят показать, что их небольшая модель с базовыми фичами может переиграть сложные подходы и дать высокие результаты в ранжировании.
2) Использовать list-wise подходы вместо point-wise
Исторически ранжирующие модели Linkedin использовали point-wise подход, то есть оценивали каждый айтем независимо от прочих. В статье утверждается, что вероятность клика на конкретный айтем зависит не только от него самого, но и от других совместно показанных айтемов. Из-за этого авторы отказываются от point-wise и переходят на list-wise ранжирование. Ещё эта мера помогла им избавиться от rule-based бизнес-логики в обработке выходов моделей.
3) Scaling law в рекомендациях
Если в NLP и CV scaling law продемонстрирован многократно, то в RecSys — лишь в единицах исследований. Авторы ссылаются на работы, которые показывают, что при правильном увеличении модели можно увидеть scaling law (HSTU, Wukong, HLLM). Им самим удалось добиться этого, используя всего семь ключевых фичей, основанных на разных ID.
Решение, предложенное в статье, — модель под названием LinkedIn Generative Recommender (LiGR), которая собирает воедино перечисленные доработки.
До LiGR LinkedIn использовали в проде для ранжирования две отдельные point-wise модели, которые предсказывали несколько типов взаимодействия: Click Tower — вероятность клика и длительного просмотра поста; Contributions Tower — лайки, комментарии и репосты. Все фичи проходили через fully-connected слои, выдавая на выходе вероятности событий.
В LiGR авторы полностью отходят от предыдущего подхода и используют sequential-архитектуру. На вход модели подаётся хронологическая история интеракций пользователя в виде последовательности токенов, где токен — агрегация представлений признаков айтема из истории пользователя. На выходе для каждого айтема модель выдаёт вектор, где каждая компонента отвечает за отдельный тип взаимодействия.
Вдохновляясь HSTU, авторы используют target-aware постановку (в истории пользователя явно представлены не только айтемы, но соответствующие им действия совершенные пользователем) и gated attention — измененный механизм внимания с использованием гейтинга.
Также авторы предлагают использовать дополнительные attention блоки, работающие только в рамках сессий. Идея, заимствованная из SNG (Session-based Neural Graphs), заключается в том, что внутри одной сессии все айтемы могут учитывать друг друга для уточнения финальных скоров.
Эксперименты и эффекты
Один из главных результатов — исследователям удалось показать, что scaling law действительно работает. Они попробовали масштабировать практически все аспекты: флопсы, размеры эмбеддингов, размеры трансформера. В сравнении с HSTU их подход показал лучшее качество.
Ещё одно наблюдение — простое увеличение длины sequence length при фиксировании других параметров дало ощутимый рост метрик.
Один из самых заметных эффектов от внедрения модели — рост Daily Active Users (DAU) на 0,27%.
В качестве итога можно сказать, что у авторов получилось полностью отказаться rule-based подхода, основанного на устаревших принципах. А наибольший прирост производительности был получен за счёт скейлинга.
@RecSysChannel
Разбор подготовил ❣ Владимир Байкалов
TWIN V2: Scaling Ultra-Long User Behavior Sequence Modeling for Enhanced CTR Prediction at Kuaishou
Сегодня разбираем статью от команды китайской платформы коротких видео Kuaishou.
За последние 3 года у 2% пользователей платформы накопилось от 100 тысяч до миллиона событий в истории. Несмотря на небольшую долю таких пользователей, они генерируют 60% трафика. В целом 95% трафика исходит от пользователей с более чем 10 тысячами событий, поэтому масштабирование моделей под длинные последовательности в Kuaishou критично.
Система обработки пользовательской истории в Kuaishou состоит из двух этапов. General Search Unit (GSU) отбирает наиболее релевантные события из всей истории. Затем Exact Search Unit (ESU) обрабатывает этот отфильтрованный список.
Первая версия TWIN могла работать только с 10 тысячами событий в истории — примерно 3–4 месяца активности пользователей. Этого оказалось недостаточно, и новая версия расширяет этот лимит.
Как происходит обработка истории
При офлайн-обработке размер истории пользователя уменьшают примерно в 10 раз. К каждому событию из истории привязан его Completion Ratio (=playing time / video duration) — на их основе события разбиваются на 5 групп, чтобы в каждой группе у видео были примерно одинаковые значения. Затем группы иерархически кластеризуются методом k-means, пока мощность кластеров не достигнет определенного значения. Кластеризацию делают на основе эмбеддингов от внутренней рексистемы Kuaishou.
При онлайн-обработке для каждого кандидата выбирают топ-100 релевантных ему кластеров из истории. Чтобы оценить релевантность, кластеры кодируют: numerical-фичи кластера — это усредненные numerical-фичи его айтемов; категориальные фичи берут от элемента, который ближе всего к центроиду.
Между кандидатом и каждым кластером считают нечто похожее на attention, но без софтмакса: просто скалярные произведения, к которым добавляют логарифм размера кластера, чтобы усилить значимость кластеров, более интересных пользователю. Дальше отбирают топ-100 кластеров по полученным скорам, после чего в ESU они проходят через трансформер с обычным attention’ом.
Исследователи проводили эксперименты на собственных логах, сравнивая разные методы отбора наиболее релевантных событий из истории. A/B-тесты показали значимый прирост метрик Watch Time и Diversity.
@RecSysChannel
Разбор подготовил ❣ Сергей Макеев
Diffusion-based Contrastive Learning for Sequential Recommendation
Сегодня разбираем статью о подходе Contrastive Learning в Sequential Recommendation (SR).
Авторы ставят под вопрос существующие методы аугментации цепочек последовательных заказов с целью генерации новых цепочек:
— Маскирование и переупорядочивание истории пользователя, представленной разреженными товарами, может исказить предпочтения.
— Подмена айтема похожим (CoSeRec) не учитывает контекст, так как использует лишь информацию о взаимной встречаемости товаров.
— Двойной forward pass c разными dropout-масками (DuoRec) тоже теряет смысловую последовательность.
Вместо перечисленного предлагается использовать guided-диффузию для оценки условного распределения айтема, обусловленного на контекст прошлых и будущих заказов. Чтобы сблизить латентное пространство диффузионки и SR-модели (в этом случае — SASRec), их обучают вместе, end-to-end, деля между ними эмбеддинги айтемов.
Кодирование последовательности и SR-модель: history += positional embeddings ➡️ transformer ➡️последний токен последовательности. Следующий айтем предсказывается через скалярное произведение векторного представления истории пользователя и эмбеддингов айтемов.
Цель обучения — минимизировать BCE со случайными негативами.
Аугментация
Из последовательности S извлекается подмножество S' с фиксированным соотношением |S'| / |S|. После чего элементы S' заменяются на семантически близкие айтемы, предложенные диффузионкой.
Контрастивное сближение аугментированных последовательностей
Берётся батч последовательностей, каждая из которых аугментируется дважды с помощью случайных подмножеств, после чего аугментации кодируются трансформером. Две аугментированные версии одной последовательности считаются позитивными и противопоставляются оставшимся 2*(batch_size — 1) аугментированным последовательностям, которые выступают как негативы. Лосс рассчитывается с помощью кросс-энтропии.
Диффузия для аугментации
Последовательность прогоняется через трансформер, после чего на полученных эмбеддингах начинается диффузионный процесс. Зашумляются эмбеддинги только тех элементов, которые будут заменены. Остальные элементы обуславливают обратный процесс, они — тот самый контекст. Обратный процесс моделируется двунаправленным трансформером.
Итоговый лосс рассчитывается в end-to-end сценарии, где суммируются три компоненты: BCE для SR-модели, контрастивное сближение и VLB для диффузионки.
@RecSysChannel
Разбор подготовил ❣ Сергей Макеев
User-Creator Feature Polarization in Recommender Systems with Dual Influence
Сегодня разбираем необычную статью, содержащую много математики.
Авторы изучают две проблемы link prediction:
Filter bubbles — сегрегация в графах, когда модель обособляет кластеры друг от друга, вместо того чтобы предсказывать что-то принципиально новое. В терминах рекомендательных систем — insufficient recommendation diversity, проблема на стороне нейросети.
Polarization — пользователи разбиваются на кластеры и взаимодействуют только внутри них, не видя альтернативных мнений. В терминах рексистем — insufficient creation diversity, проблема на стороне поставщика контента.
Для описания рекомендательных систем авторы предлагают использовать упрощённую модель из двух матриц: пользователей и создателей контента. Каждый пользователь и каждый создатель в момент времени t описываются своим вектором. В каждый момент времени вектора спроецированы на единичную сферу.
Пользователю i рекомендуют создателя j, после чего эмбеддинг пользователя i обновляется в зависимости от влияния на него j-го создателя. Обновляется и эмбеддинг создателя: на основе эмбеддингов тех, кому его рекомендовали.
Авторы сформулировали гипотезу: если каждый создатель может быть рекомендован любому пользователю с неотрицательной вероятностью, то поляризация неизбежна.
Доказывали так: эмбеддинги пользователей и создателей меняются довольно плавно. Вероятность того, что каждого создателя порекомендуют каждому пользователю, больше 0. Тогда система схлопнется либо в 1 кластер (consensus), либо в 2 (bi-polarization).
При этом, если рекомендовать только top-k создателей, зануляя для остальных вероятности или relevance-скоры (скалярные произведения user на creator), можно избежать поляризации и забустить diversity, так как появятся нулевые вероятности.
С другой стороны, если модель оптимизирует какой-то лосс не только по релевантности, но и по разнообразию выдачи, избежать биполяризации не получится.
@RecSysChannel
Разбор подготовил ❣ Сергей Макеев
Разбор тренда: графовые нейросети в индустрии
Начинаем год с взгляда в будущее! Некоторое время назад Кирилл Хрыльченко написал на Хабре пост о главных трендах в рексис. Практически все эти тренды будут актуальны и в 2025-м — в науке и индустрии ещё много чего можно сделать в этих направлениях. Сегодня разберём подробнее один из трендов, который точно не потеряет актуальности в мире рекомендательных систем, — графовые нейросети. Посмотрим, какие подходы существуют и с какими интересными статьями стоит ознакомиться, чтобы лучше разобраться в теме.
Классификация подходов:
1. End-to-end — обучаем графовую нейросеть вместе с последующей моделью.
2. Frozen — переиспользуем уже выученные графовые представления в замороженном виде:
◦ трансдуктивные — не обобщаемся на новых юзеров или айтемы;
◦ индуктивные — можем получать представления для новых юзеров или айтемов;
◦ промежуточные подходы — для юзеров получить представления можем, а для айтемов — нет.
End-to-end
Etsy — (2023) Unified Embedding Based Personalized Retrieval in Etsy Search. Особенности статьи: retrieval для поиска, графовое представление как дополнительная фича документа. SearchQuery-Product граф, семплирование соседей и усреднение в качестве агрегации.
Taobao — (2023) Graph Contrastive Learning with Multi-Objective for Personalized Product Retrieval in Taobao Search. Аналогичное предыдущей статье применение подхода, item-item граф, attention в качестве агрегации.
Amazon — (2021) Graph-based Multilingual Product Retrieval in E-Commerce Search. Идея, похожая на работу от Etsy. Авторы делают multilingual модель.
Alibaba Group — (2022) Multi-level Contrastive Learning Framework for Sequential Recommendation. На обучении графовое представление пользователя сближается с тем, что получено из sequential модели. На инференсе графовая часть откидывается.
Трансдуктивные
X/Twitter — (2022) TwHIN. Embedding the Twitter Heterogeneous Information Network for Personalized Recommendation. Обучаемые ID для каждой сущности, TransE на BCE (link-prediction).
Промежуточные
Amazon — (2023) Multi-Task Knowledge Enhancement for Zero-Shot and Multi-Domain Recommendation in an AI Assistant Application. Авторы создают кросс-доменный граф: музыка, видео, книги. Юзеры кодируются индуктивно, а айтемы = обучаемые ID.
Индуктивные
Pinterest — (2022) MultiBiSage: A Web-Scale Recommendation System Using Multiple Bipartite Graphs at Pinterest. Исследователи получают графовые представления для пинов, которые потом переиспользуют везде. Используют контент.
Spotify — (2021) Multi-Task Learning Of Graph-Based Inductive Representations Of Music Content. Мультитаск, BCE — пара вершин принадлежит одному плейлисту (link-prediction), либо пара вершин имеет один и тот же жанр, регрессия основана на близости по контенту.
Spotify — (2020) Podcast Recommendations and Search Query using GNNs at Spotify. Graph Learning Workshop 2022. Рассказ о собственных графовых сетках Spotify.
KuaiShou — (2023) A Unified Model for Video Understanding and Knowledge Embedding with Heterogeneous Knowledge Graph Dataset. Авторы получают индуктивные представления для видео и тегов к ним.
Основные выводы
1. Используя графовые нейросети, многие авторы статей наблюдают улучшение метрик на long-tail айтемах.
2. Такие сетки удобно использовать для данных из разных доменов.
3. Также графовые нейросети используются как один из источников генерации кандидатов или фич в ранжировании.
@RecSysChannel
Обзор подготовил ❣ Артем Матвеев
🏆Лучшее за год в Рекомендательной
Год был щедрым на интересные recsys-статьи, а мы не ленились разбирать их. Предлагаем освежить в памяти посты, которые вы читали чаще всего. Если что-то прошло мимо, самое время наверстать!
ICML 2024 — как это было
Даниил Лещёв и Андрей Мищенко рассказали, что запомнилось на ICML 2024. Среди интересного — новая архитектура ML-моделей в рекомендациях и методы из мира LLM для улучшения LSTM-моделей. Пожалуй, самый необычный хайлайт от ребят (хотя и не из нашего домена, просто им очень понравилось) — статья об обучении роборуки осязанию и возможности различать текстуры поверхностей. Даёшь тактильные ощущения роботам!
Законы масштабирования в больших моделях последовательных рекомендаций
Scaling law добрался до рекомендаций. Артём Матвеев разобрал статью от WeChat и Tencent, где авторы проверили, как увеличение параметров моделей улучшает качество рекомендаций. (Спойлер: выяснили, что большие модели справляются лучше на сложных задачах). Детали эксперимента — в обзоре.
Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations
Кирилл Хрыльченко разобрал HSTU — новую архитектуру для рекомендаций, которая показывает отличные результаты в онлайн-эксперименте и обрабатывает бо́льшие истории в сравнении с прошлыми подходами. Авторы предложили отдельные модели для генерации кандидатов и ранжирования, сделали последовательности событий target-aware и отказались от софтмакса в трансформере, чтобы точнее работать с пользовательской историей.
Кластерная якорная регуляризация в рекомендательных системах
Сергей Макеев объяснил, как ресёрчеры из DeepMind решали проблему popularity bias в рекомендациях. Их метод Cluster Anchor Regularization делает так, чтобы популярные айтемы «тянули» за собой непопулярные и помогали справляться с перекосами. Новый подход протестировали на YouTube Shorts — похоже, рекомендации могут стать качественнее.
LiGNN: Graph Neural Networks at LinkedIn
Владимир Байкалов рассказал, как LinkedIn использует графы для своих рекомендаций. Эти графы связывают пользователей с вакансиями, группами и компаниями. Результат — обучение стало быстрее, а метрики рекомендаций заметно выросли.
Multi-objective Learning to Rank by Model Distillation
Airbnb придумали, как объединить дистилляцию и мультитаск-обучение, чтобы алгоритмы ранжирования стали умнее. Подход учитывает важные факторы, вроде возвратов или обращений в поддержку. Как всё устроено, разбирался Сергей Макеев.
Интересное с ACM RecSys 2024, часть 3
А ещё мы сделали серию постов о лучших статьях с конференции ACM RecSys. Самым популярным стал разбор модели Text2Tracks, которая умеет подбирать музыку по текстовому запросу. Пётр Зайдель описал, как эта модель выбирает треки, и сравнил разные способы кодирования. Первая и вторая части тоже заслуживают г̶л̶у̶б̶о̶к̶о̶г̶о лайка.
@RecSysChannel
___
Meta признана экстремистской организацией, а Facebook и Instagram запрещены на территории РФ
Bridging the Gap: Unpacking the Hidden Challenges in Knowledge Distillation for Online Ranking Systems
часть 2
Далее в статье описываются нюансы реализации. Авторы рассматривают:
1. Два возможных подхода к дистилляции:
🔹 Direct distillation — дистилляционный и основной лосс применяются к одному логиту в модели-ученике.
🔹 Auxiliary distillation — в модели-ученике есть два раздельных логита: для основного и для дистилляционного лосса. Схема показана на иллюстрации.
Второй вариант хорошо себя показал для задач предсказания LTV: в офлайн-замере RMSE он на 0,4% лучше direct-подхода. Это объясняется тем, что LTV — очень шумный и плохо откалиброванный таргет: большая модель выучивает биасы в данных и остаётся плохо откалиброванной. А потом передаёт свои биасы ученикам и приводит к зашумлению таргета. Поэтому лучше использовать два отдельных логита.
2. Какие таргеты стоит использовать для дистилляции. Все таргеты можно поделить на 3 группы: Engagement (например, клики), Satisfaction (лайки или досмотры) и остальные. Авторы отмечают, что лучше использовать только Engagement и Satisfaction — это даёт прирост +1,13% Satisfaction +0,39% Engagement относительно модели без дистилляции. Добавление дополнительных таргетов влияет на общие слои и ухудшает итоговые результаты.
3. Как комбинировать ученика и учителя. Архитектуры ученика и учителя похожи, главное отличие — глубина и ширина внутренних слоёв. Авторы провели онлайн-эксперименты для комбинаций, когда учитель больше ученика в 2 и в 4 раза: в 2 раза больший учитель позволил добиться прироста +0,42% Engagement и +0,34% Satisfaction относительно модели без дистилляции, в 4 раза больший учитель — +0,85% и +0,80% соответственно. Но эффект масштабирования не будет продолжаться бесконечно, а увеличивать учителя ещё сильнее сложно: во-первых, его нужно обучать на больших объёмах данных, за несколько месяцев. Во-вторых – поддерживать онлайн.
@RecSysChannel
Разбор подготовил ❣ Петр Зайдель
KuaiFormer: Transformer-Based Retrieval at Kuaishou
Сегодня разбираем свежую работу от Kuaishou о том, как они используют в реалтайме трансформеры для кандидатогенерации.
Kuaishou — суперпопулярный в Китае аналог TikTok: 400 млн активных пользователей, 600+ тыс RPS. В среднем один пользователь просматривает сотни видео в день.
Это первое внедрение в Kuaishou трансформера для кандидатогенерации. По их словам, — самое успешное внедрение за последние полгода.
Новая модель получила название KuaiFormer. Опираясь на историю взаимодействия пользователя с продуктом, она помогает предсказывать следующие положительные взаимодействия (в случае Kuaishou — это, например, лайк, полный просмотр видео и т. д.).
PinnerFormer, SASRec, Bert4Rec и другие похожие работы плохо улавливают разнообразные интересы пользователей, поскольку представляют их в виде одного вектора. Подходы MIND и ComiRec решают эту проблему: они умеют выделять целые кластеры интересов — так рекомендации получаются более разнообразными. KuaiFormer объединяет в себе оба подхода — она умеет справляться с главными проблемами реальных рекомендательных систем:
1. За счёт применения logQ-коррекции эффективно работает с большим каталогом айтемов при обучении.
2. Порождает разнообразные рекомендации, поскольку выделяет не один вектор интересов, а несколько. Во время обучения вероятность целевого айтема моделируется через вектор интересов, наиболее близкий к нему.
3. Работает в реалтайме, но не требует большого объёма вычислительных ресурсов, несмотря на огромные RPS. Добиться этого помогает сворачивание последовательных кусков истории пользователя в один вектор с помощью bidirectional-трансформера: самые старые айтемы, которые были актуальны достаточно давно, сворачиваются в один вектор, а самые свежие — остаются нетронутыми. Схема того, как 256 токенов превращаются в 64, показана на рисунке.
@RecSysChannel
Разбор подготовил ❣ Артем Матвеев
Joint Modeling of Search and Recommendations Via an Unified Contextual Recommender (UniCoRn)
В ещё одном интересном докладе с ACM RecSys разработчики из Netflix делятся опытом объединения моделей для персонализированного поиска и рекомендаций. В статье есть несколько предпосылок. Во-первых, обслуживать одну модель в продакшене проще, чем несколько. Во-вторых, качество объединённых моделей может быть выше.
Представленная архитектура обучается на трёх задачах: персональные рекомендации, персонализированный поиск и рекомендации к текущему видео. Для этого в нейросетевой ранкер подаётся поисковой запрос, ID текущей сущности (видео), ID пользователя, страна и ID задачи, которая решается (поиск или одно из ранжирований). Также в ранкер подаётся эмбеддинг истории действий пользователя, полученный так называемой "User Foundation Model", детали которой не раскрываются ни в тезисах с конференции, ни в ответе на прямой вопрос после устного доклада.
Чтобы заполнить эмбеддинги сущностей, которые отсутствуют (например, поисковые запросы в задаче рекомендаций), авторы провели серию экспериментов, по итогам которых решили, что в задаче поиска лучше вместо контекста подставлять отдельное нулевое значение, а в задаче рекомендаций — использовать название текущего видео вместо строки запроса.
Авторы отметили, что до внедрения этого подхода на этапе, когда пользователь вводил несколько первых букв в поисковом запросе, показывались результаты, которые не соответствовали интересам пользователя, так как поиск не был полностью персонализированным. Сейчас проблему удалось решить. Также в докладе подтверждают, что логика отбора кандидатов для поиска и рекомендаций оказалась ожидаемо разной.
Результаты — рост на 7% в офлайн-качестве в поиске и на 10% — в рекомендациях. Это, по всей видимости, достигается за счёт регуляризации, возникающей при обучении на несколько задач и за счёт перехода к полной персонализации в поиске.
@RecSysChannel
Разбор подготовил ❣ Владимир Цепулин
Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations
У нейросетевых рекомендательных систем есть одна большая проблема — они плохо масштабируются, в то время как в NLP и CV скейлинг по размеру нейросетевых энкодеров очень хороший. Выделяют несколько причин этого явления: гигантский нестационарный словарь айтемов, гетерогенная природа признаков, а также очень большой объем данных.
В сегодняшней статье авторы предлагают переформулировать задачу рекомендации в генеративной постановке. Для начала, они представляют данные в виде последовательности событий. Вещественные фичи (счетчики и проч.) выкидываются, из взаимодействий с айтемами формируется единая последовательность, и затем в нее добавляются события изменения статической информации, такие как смена локации или изменение любого другого контекста.
Архитектура для генерации кандидатов выглядит довольно стандартно и похожа на SASRec или Pinnerformer: представляем пользователя в виде последовательности событий (item, action), и в тех местах, где следующим событием идет положительное взаимодействие с айтемом, предсказываем, что это за айтем.
А вот для ранжирования новизна достаточно серьезная: чтобы сделать модель target-aware (см. Deep Interest Network от Alibaba), понадобилось сделать более хитрую последовательность, в которой чередуются токены айтемов и действий: item_1, action_1, item_2, action_2, …. Из айтем-токенов предсказывается, какое с ними произойдет действие. Еще говорят, что на практике можно решать в этом месте любую многоголовую мультизадачу. Важно отметить, что авторы не учат единую модель сразу на генерацию кандидатов и ранжирование, а обучают две отдельные модели.
Другое нововведение — отказ от софтмакса и FFN в трансформере. Утверждается, что софтмакс плох для выучивания «интенсивности» чего-либо в истории пользователя. Те вещественные признаки, которые были выкинуты авторами, в основном её и касались. Например, сколько раз пользователь лайкал автора видеоролика, сколько раз скипал и т. д. Такие признаки очень важны для качества ранжирования. То, что отказ от софтмакса эту проблему решает, видно по результатам экспериментов — действительно есть значительное улучшение результатов ранжирования при такой модификации.
В итоге HSTU (Hierarchical Sequential Transduction Unit, так авторы окрестили свою архитектуру) показывает отличные результаты как на публичных, так и на внутренних датасетах. Еще и работает гораздо быстрее, чем прошлый DLRM подход за счет авторегрессивности и нового энкодера. Результаты в онлайне тоже очень хорошие — на billion-scale платформе short-form video (предполагаем, что это рилсы) получили +12.4% относительного прироста целевой метрики в A/B-тесте. Тем не менее, итоговая архитектура, которую авторы измеряют и внедряют, с точки зрения количества параметров не очень большая, где-то сотни миллионов. А вот по размеру датасета и длине истории скейлинг получился очень хороший.
@RecSysChannel
Разбор подготовил ❣ Кирилл Хрыльченко
Интересное с ACM RecSys 2024, часть 3
Конференция завершилась, ребята вернулись домой, но продолжают делиться с нами обзорами интересных и актуальных статей, а мы и рады их опубликовать! Сегодня в эфире — довольно подробный разбор статьи Text2Tracks: Generative Track Retrieval for Prompt-based Music Recommendation.
Авторы рассматривают задачу рекомендации музыки на основе текстовых запросов, например, “old school rock ballads to relax”, “songs to sing in the shower” и т. д. Исследуется эффективность модели на широких запросах, не подразумевающих конкретного артиста или трека. Рекомендовать трек по текстовому запросу можно разными путями. Например, задать вопрос языковой модели, распарсить ответ и найти треки через поиск. Это может привести к галлюцинациям или неоднозначности поиска — иногда совершенно разные треки могут иметь одно название. Кроме того, предсказание может занимать много времени и требовать больших вычислительных ресурсов.
Авторы предлагают дообучить модель типа encoder-decoder (flan-t5-base), которая по текстовому входу смогла бы генерировать идентификатор трека напрямую, вдохновившись подходом differentiable search index. Основной вопрос, на который дают ответ в статье — как лучше кодировать трек? Для этого сравнивают несколько подходов:
— Трек кодируется случайным натуральным числом, которое подаётся на вход в виде текста. Например “1001”, “111”
— Трек котируется как два числа: ID артиста и ID трека внутри артиста. То есть треки артиста 1 будут представляться как “1_1”, “1_2” … Для топ 50к артистов добавляют отдельные токены с словарь.
— Каждый трек описывается списком ID на основе иерархической кластеризации контентного (названия плейлистов с треком) или коллаборативных ембеддингов (word2vec). Для каждого кластера добавляется отдельный токен.
Эти стратегии значительно сокращают количество токенов, необходимых для представления трека по сравнению с текстовым описанием. Результат получился следующий: лучше всего себя показал второй подход (ID артиста + ID трека в нём). При этом хуже всего себя показали подходы с кластеризацией коллаборативных ембеддингов и ID трека в виде натурального числа.
В качестве основных бейзлайнов авторы используют popularity, bm25 и двухбашенный энкодер (all-mpnet-base-v2), который файнтюнят c multiple negatives ranking loss. Сравнивают модели на трёх датасетах: MPD 100k, CPCD и редакционные плейлисты Spotify. Исследователи показывают, что их модель значительно лучше бейзлайнов на всех датасетах. В будущем они планируют изучить возможности моделей с архитектурой decoder-only и использование пользовательской истории для персонализации рекомендаций.
@RecSysChannel #YaACMRecSys
Обзор подготовил ❣ Пётр Зайдель
Эти фото сделаны в городе Ессентуки Сингапуре, где завтра начнётся ICLR 2025 — одна из крупнейших конференций в области машинного обучения. ML-инженеры Яндекса уже отправились в гущу событий, и скоро канал наполнится новостями с мероприятия!
Что делают в мире: LLM & RecSys. Часть 1/2
Этой весной мы запланировали чаще делиться подборками последних статей в области Information Retrieval. Решили начать с темы влияния LLM на RecSys. В первой части — общий обзор тренда, а во второй — разбор статей по этой теме.
Постановка задач, решаемых LLM и рекомендательными моделями, очень похожа: есть исторический контекст в виде упорядоченной последовательности, по которой мы хотим подобрать наиболее подходящий следующий объект в этой последовательности — семантический токен или айтем-товар. Неудивительно, что если мы посмотрим на SOTA-подходы последних лет, то увидим концептуально схожие мотивы и методы: авторегрессии, господство трансформеров, GPT- и BERT-like архитектуры, RL-методы по типу DPO — всё это и показывает отличные результаты в задачах обработки естественного языка, и с успехом адаптируется в рекомендательных моделях. Передний край исследований «RecSys as is» как раз состоит в том, чтобы повторить успех LLM в скейлинге и качестве.
Однако сами LLM не особо хорошо справляются с рекомендациями «из коробки»: плохо учитывают исторический контекст, могут галлюцинировать. Но в силу обширного знания о мире и прокаченных способностей к рассуждениям внедрение LLM в RecSys-пайплайн кажется заманчивой перспективой. Несколько ярких направлений (но далеко не единственных), в рамках которых можно использовать сильные стороны языковых моделей:
— End-to-end LLM-based рекомендации. Концептуально всё просто — конструируем промпт, получаем рекомендацию на выходе. Самое наивное решение — запрос «Посоветуй фантастический фильм». Решение чуть более персонализированное — «Я только что посмотрел всю сагу „Звездные войны“, посоветуй мне фантастический фильм» (и прочие zero-shot- и few-shot-решения). Но если добавить контекста, внести большую историю взаимодействий, затюнить модель на нужный таргет, то уже можно получать хорошие результаты.
— LLM для извлечения знания. Большие языковые модели — носители гигантского объёма информации во всём многообразии тем и идей. Из LLM можно брать информативные латентные представления, специфически уточняя их для того или иного таргета.
— LLM для объяснения рекомендаций. RecSys-модели хранят в себе много полезного знания, но они, по большей части, — чёрные ящики. Хотелось бы иметь возможность влиять на причины и логику того, почему тот или иной товар подходит пользователю или нет, а LLM — как раз тот инструмент, который может значительно улучшить explainability сложных моделей.
В следующей части — разбираем последние статьи на тему LLM & RecSys.
@RecSysChannel
Обзор подготовил ❣ Руслан Кулиев
OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment
Сегодня разбираем хайповую статью от Kuaishou — второго по популярности сервиса коротких видео в Китае. Авторы утверждают, что создали одностадийную рекомендательную систему OneRec, где генерация кандидатов и их ранжирование объединены в одной модели.
Архитектура модели
— Используют архитектуру «энкодер-декодер»: энкодер обрабатывает историю действий (на вход принимает только позитивные поведения: лайки, подписки, шеры, просмотры), а декодер генерирует всю сессию целиком.
— Вместо предсказания следующего айтема строит всю траекторию пользователя.
— Использует технику Direct Preference Optimization (DPO), причём итеративно — модель оценивает реворд каждой сессии и постепенно его увеличивает.
Энкодер — это обычный трансформер с N слоями. Между сессиями используют специальный токен-сепаратор.
Декодер устроен сложнее: в нём есть каузальный self-attention внутри сессии и cross-attention на энкодер (стандартная схема для декодеров). FFN-слой заменили на смесь экспертов. Это важно, чтобы избежать «узкого горлышка» и дать модели запомнить больше деталей о хороших сессиях. Такой подход увеличивает число параметров, но не требует лишних вычислений: в каждом проходе активируются только 4 эксперта из 24. За счёт этого растёт ёмкость модели без большого увеличения FLOPs. Ещё в декодере есть токены начала и конца сессии, последний предсказывается моделью.
Подробнее об устройстве
Многостадийные системы всегда зависят от качества каждой стадии: если ретривал выбирает неудачных кандидатов, даже хорошее ранжирование не исправит ситуацию. Авторы предлагают заменить эту схему энкодером-декодером, который сразу генерирует сессии без деления на этапы.
Подход с прямой генерацией ID уже использовали ранее, например, в работе TIGER. Но там не удалось сделать его end-to-end: модель работала как ретривал, но не заменяла ранжирование — эту стадию пришлось оставить. Авторы Kuaishou утверждают, что решили эту проблему.
Для видео они используют собственный мультимодальный эмбеддинг QARM. Берётся мультимодальная LLM, которая обрабатывает текст, изображения и аудио, её элайнят на рекомендательный сигнал и в конце применяют квантизацию.
С квантизацией есть нюанс. Обычно, как в той же TIGER, применяют RQ-VAE для получения семантических ID и построения семантических токенов. Но авторы пишут, что этот метод работает плохо из-за эффекта «песочных часов»: большинство айтемов мапятся в одни и те же ID, а остальные остаются невостребованными. В результате код-бук используется неэффективно.
Авторы предлагают заменить RQ-VAE на residual K-Means. Сначала вектор кластеризуется на K групп, затем для каждого объекта вычисляют разницу с центроидом его кластера и повторяют кластеризацию для этих разностей. Этот процесс выполняется несколько раз, а в итоге получается код из нескольких ID. Чтобы коды использовались равномерно, делают балансировку — стараются распределять видео по кластерам примерно поровну.
Генерировать хотят не просто сессии, а сессии с высокой ценностью. По критериям Kuaishou, сессия — это последовательность из 5–10 видео. Она считается удачной, если пользователь посмотрел хотя бы 5 роликов, провёл за просмотром больше определённого времени или проявил активность: лайкнул, добавил в коллекцию, поделился. Эти правила позволяют отобрать качественные сессии и использовать их в обучении. В самих сессиях каждый айтем представлен набором семантических ID.
Что в итоге
Авторы пишут, что систему удалось не только разработать, но и внедрить в прод. Она заменила многостадийную архитектуру, упростив процесс, и при этом увеличила время просмотра на 1,6%.
Результаты могли бы быть впечатляющими, однако в статье есть несколько непонятных моментов. Например, неясно, есть ли в новой архитектуре учёт длинной истории. Кроме того, выглядит так, будто у модели нет реактивности к дизлайкам и негативному фидбеку.
@RecSysChannel
Разбор подготовил ❣ Виктор Януш
FuXi-𝛼: Scaling Recommendation Model with Feature Interaction Enhanced Transformer
Сегодня разбираем статью от Huawei Noah’s Ark Lab об их новой рекомендательной модели FuXi-𝛼.
HSTU — одно из главных достижений индустрии за прошлый год. Среди важных архитектурных решений, которые вошли в эту модель, можно выделить отказ от Feed-Forward Network (FFN) блока и модификацию attention, куда, помимо прочего, добавили дополнительную компоненту для более явного учёта позиционной информации.
Авторы FuXi-𝛼 утверждают, что без FFN-блока очень сложно качественно учитывать неявное (implicit) взаимодействие между признаками. Более того, временную и позиционную информацию они считают настолько важной, что для корректной работы с ними недостаточно простой правки attention.
Основных изменений в модели FuXi-𝛼 два:
1. Модификация HSTU-attention. Его заменили на FuXi-блоки с Adaptive Multi-channel Self-attention (AMS). Они кодируют семантическую информацию о последовательностях стандартным образом, беря за основу HSTU-модификацию attention. А вот позиционная и темпоральная информация в новом блоке обрабатываются отдельно, в специальных обучаемых матрицах. Подробнее о том, как это работает, — на центральной схеме.
2. Возвращение FFN, от которого отказались в HSTU. При этом, добавили гейтинг и residual connections почти в каждый слой архитектуры, чтобы градиенты могли течь по любому маршруту (правая схема).
Для проверки получившейся модели авторы выбрали публичные датасеты MovieLens (1M и 20M), KuaiRand и собственный индустриальный датасет. FuXi-𝛼 показывала лучшие результаты по всем метрикам и хороший скейлинг как на small, так и на large моделях. Например, на KuaiRand NDCG@50 FuXi-𝛼-Large выше HSTU-large на 9%, а HitRate@50 — на 7%. А согласно онлайн-экспериментам в Huawei Music, внедрение FuXi-𝛼 позволило вырастить среднее время прослушивания на 5,1%.
@RecSysChannel
Разбор подготовил ❣ Руслан Кулиев
Какие рексис-тренды будут развивать в Яндексе в 2025 году
Трендов, которые могут повлиять на рексис в этом году, — довольно много. Мы решили разузнать, на какие из них точно планируют сделать упор в Яндексе. Для этого поговорили с Группой исследования перспективных рекомендательных технологий. А на карточках собрали самые горячие направления, по мнению команды исследователей.
@RecSysChannel
Real-time Indexing for Large-scale Recommendation by Streaming Vector Quantization Retriever
Сегодня разберём статью об обучаемом в реалтайме индексе кандидатов от ByteDance (TikTok).
Retrieval — ключевой этап в рекомендательных системах. Он ASAP отбирает тысячи потенциально релевантных кандидатов в рекомендации из огромного пула документов. Ограничения по времени заставляют системы полагаться на индексы, но традиционные подходы имеют свои недостатки.
Один из самых популярных подходов — HNSW в связке с Two-Tower-моделью. Однако у него хватает минусов:
— Индекс нужно регулярно перестраивать, что занимает много времени.
— При построении индекса не учитывается таргет.
— Two-Tower хуже моделирует user-item взаимодействия.
Авторы статьи предлагают новый подход к построению индекса — streaming vector quantization, который обеспечивает:
— Index Immediacy — быструю адаптацию к действиям пользователей, так как индекс дообучается в реальном времени. Это особенно важно для TikTok.
— Index Reparability — устойчивость к деградации. В отличие от HNSW Two-Tower, steaming VQ не перестраивается, поэтому нужно убедиться, что качество индекса не начнёт деградировать со временем.
— Index Balancing: отсутствие bias в пользу популярного контента.
— Multi-task Learning: при обучении индекса можно одновременно учитывать разные рекомендательные таргеты.
На картинке — схема двух хронологических этапов, из которых состоит streaming VQ:
— Retrieval Indexing. С помощью VQ-VAE из всего корпуса документов отбираются несколько тысяч кандидатов, близких к эмбеддингу пользователя.
— Retrieval Ranking. Более сложная модель с кросс-аттеншном сортирует результаты предыдущего этапа, отправляя лучшие на финальное ранжирование.
По словам авторов, внедрение streaming VQ в TikTok значительно улучшило ключевые продуктовые метрики, полностью заменив другие подходы к генерации кандидатов.
@RecSysChannel
Разбор подготовил ❣ Владислав Тыцкий
Towards Understanding the Overfitting Phenomenon of Deep Click-Through Rate Prediction Models
Сегодня делимся статьёй о резком переобучении CTR-моделей в начале второй эпохи, a.k.a. one-epoch phenomenon.
Этой проблеме подвержены модели со структурой вида categorical features with large sparsity ➡️ Embedding ➡️ MLP.
Чтобы понять, можно ли справиться с феноменом, авторы всесторонне его анализируют. Так, на качество обучения CTR-моделей не влияют:
— число параметров модели;
— вид функций активации и батч сайз;
— weight decay и dropout (без dropout, кстати, лучше).
Из-за чего же тогда могут переобучаться модели? По результатам экспериментов, есть несколько причин:
— Оптимизаторы. Чем быстрее сходимость, тем сильнее отрицательное влияние на обучение. Наиболее подвержены эффекту Adam и RMSPROP.
— Высокие LR: эффект наблюдается только если они больше 10⁻⁷.
— Кардинальность фичей. Чем меньше уникальных эмбеддингов, тем слабее эффект. Авторы рассматривали FILTER (использовали m% эмбеддингов наиболее частых ID, остальные — в один эмбеддинг), Hash (создавали табличку с m% строк от общего числа ID, далее — хэшировали ID в эмбеддинги).
Обязательное условие one-epoch феномена — сдвиг между распределениями p(x_{trained}, y) и p(x_{untrained}, y), вызванный обучением на фичах высокой кардинальности, например, ID товаров. Если этот сдвиг есть, модель поверх эмбеддинг-слоёв моментально переобучается под p(x_{trained}, y).
На картинках показаны нормы изменений параметров слоёв. Легко заметить, что в начале второй эпохи резко меняются параметры слоёв поверх эмбеддингов. Это доказывает разницу в распределениях p(x_{trained}, y) и p(x_{untrained}, y).
Можно, конечно, просто не использовать эмбеддинги товаров, чтобы избежать переобучения, но это сильно просадит пиковое качество. Вывод авторов — обучать CTR-модели лучше в одну эпоху.
@RecSysChannel
Разбор подготовил ❣ Сергей Макеев
FedUD: Exploiting Unaligned Data for Cross-Platform Federated Click-Through Rate Prediction, Alibaba
Эта статья о том, как с помощью знаний о пользователе с разных доменов бустить качество CTR-модели на домене основном.
Просто собрать данные с разных доменов в одном месте и централизованно обучить модель не получится — это не конфиденциально. Для того чтобы безопасно обрабатывать чувствительные данные, существует подход Vertical Federated Learning (VFL): обучение происходит на каждом домене по отдельности, а полученные верхнеуровневые представления собираются в общую модель.
Но есть нюанс: собрать таким образом можно только выровненные представления (aligned data). Авторы статьи предлагают, как утилизировать на основном домене unaligned data — данные, к которым почему-то не получилось присоединить полезную информацию с других доменов.
Для aligned data обучение будет состоять из двух фаз (как на схеме):
1. На каждом домене своя сетка получит эмбеддинг пользователя, после чего передаст его сетке главного домена (вместо сырых данных — высокоуровневые представления). Эмбеддинг главного домена копируется на две головы.
2. Первая голова пытается выучить эмбеддинг другого домена. Происходит дистилляция: эмбеддинг главного домена проходит через MLP и через MSE сближается с эмбеддингом второстепенного домена (или доменов). Во второй голове эмбеддинг из главного и второстепенного доменов конкатятся, прогоняются через MLP и идут в BCE loss.
Когда готова голова, которая предсказывает эмбеддинг с другого домена, можно обучаться и на unaligned data: только во второй голове вместо эмбеддинга с другого домена используется эмбеддинг, предсказанный дистилляционной головой.
Результаты подтверждаются офлайн-экспериментами на открытом и приватном датасетах. Ориентируясь на AUC и LogLoss, авторы сравнивают предложенный подход:
— с другими VFL-моделями (которые используют как aligned, так и aligned + unaligned данные);
— с Wide&Deep (без кросс-домена).
@RecSysChannel
Разбор подготовил ❣ Сергей Макеев
🎄 Чтение на каникулы: бонусная подборка статей от экспертов «Рекомендательной»
Мы уже делились лучшими постами за год в канале, но интересных статей в мире рексис гораздо больше, чем мы успели разобрать в 2024-м. Планы на 2025-й — масштабные, замедляться не думаем и вам не советуем, поэтому ловите бонусную подборку интересных статей для чтения и профессионального развития на новогодних праздниках. Кстати, полные разборы этих материалов обязательно появятся здесь в будущем — не пропустите то, что заинтересует именно вас. И с наступающими!
Towards Understanding the Overfitting Phenomenon of Deep Click-Through Rate Prediction Models
В статье рассматривается проблема резкого переобучения CTR-моделей в начале второй эпохи, a.k.a. one-epoch phenomenon. Его можно преодолеть с помощью нескольких трюков: снизить количество уникальных эмбеддингов или вовсе отказаться от эмбеддингов товаров, поэкспериментировать с оптимизаторами (Adam и RMSPROP оказались более склонны к эффекту), снизить LR, — однако всё это приводит к снижению пикового качества.
Diffusion-based Contrastive Learning for Sequential Recommendation
Авторы поставили под вопрос существующие методы аугментации цепочек последовательных заказов с целью генерации новых цепочек. Вместо маскирования и переупорядочивания истории пользователя предлагают использовать guided-диффузию для оценки условного распределения айтема, обусловленного на контекст. Чтобы сблизить латентное пространство диффузионки и SR-модели (в статье это SASRec), их обучают вместе end-to-end, шаря эмбеддинги айтемов.
Beyond Item Dissimilarities: Diversifying by Intent in Recommender Systems
Авторы хотят разнообразить предлагаемый пользователю контент, так как человек может иметь разные намерения, например, в зависимости от дня недели или времени: это может быть спорт, учеба, отдых и т. д. Было бы здорово учитывать намерение (intent) пользователя при генерации выдачи, а не только user-item схожесть. Для решения проблемы авторы предлагают новый фреймворк, который используется поверх рексистемы, но описывают его на идейном уровне, не уточняя, чем моделируют распределения.
Learned Ranking Function: From Short-term Behavior Predictions to Long-term User Satisfaction
Авторы статьи формулируют ранжирование как multitask slate optimization на языке траекторий пользователя. При ранжировании на вход получают m Multitask Model Scoring предиктов для каждого кандидата. Раньше их комбинировали с весами-гиперпараметрами, которые оптимизировали через Байесовскую оптимизацию. Цель — ранжировать так, чтобы повысить long term user satisfaction, то есть каждый слейт оценивается в том числе и по тому, что происходит после того, как пользователь его покинул.
Autoregressive Generation Strategies for Top-K Sequential Recommendations
Авторегрессионные рекомендации от лабы Сбера. Хотят генерировать k следующих айтемов для пользователя. Решают эту задачу через генерацию S различных пользовательских траекторий, которые потом агрегируют вместе. Ссылаются на пиннерформер и используют у себя decoder-only архитектуру. В самой статье предлагают два решения для агрегации: Reciprocal Rank Aggregation и Relevance Aggregation. В качестве декодера используют GPT-2. В разделе о генерации траекторий упоминают разные алгоритмы (жадный, beam search и temperature sampling), но используют только последний.
Your Causal Self-Attentive Recommender Hosts a Lonely Neighborhood
Статья от Джулиана МакОли пытается ответить на вопрос: что все-таки лучше, авторегрессионные подходы или автоэнкодерные и почему. Исследователи ссылаются на множество работ и хотят разобраться, насколько результаты робастны по итогу. Сравнивают BERT4Rec и SASRec в основном с их различными модификациями. Все эксперименты проведены на открытых датасетах: Beauty, Sports, Video, Yelp, MovieLens.
@RecSysChannel
Подборку подготовили ❣ Сергей Макеев и Владимир Байкалов
Break the ID-Language Barrier: An Adaption Framework for Sequential Recommendation
Один из главных трендов RecSys 2024 — внедрение LLM в рекомендательные системы. Большинство работ по теме объединяет излишняя академичность (слишком сложные для реализации подходы), поэтому в индустрии это направление широкого признания пока не получило. Однако сегодняшняя статья вполне практическая: о способе использовать предобученные эмбеддинги рекомендательной модели в LLM.
Идея применять большие языковые модели для генерации рекомендаций популярна, но не нова: обе технологии отлично компенсируют слабые стороны друг друга. Рекомендательные модели слабы в познании мира, а LLM лишены богатого коллаборативного сигнала, который хранится в эмбеддингах и весах рекомендательных нейросетей. Чтобы объединить лучшее, что есть в каждом из подходов, можно интегрировать в LLM предобученные эмбеддинги рекомендательной модели. Адаптер, предложенный в статье, — фреймворк, который встраивает представления пользователя в attention-слои LLM.
Как это устроено, показано на схеме. Эмбеддинги пользователей берутся из рекомендательной модели, предобученной на Next Item Prediction. Hard Prompt Construction сопоставляет пользователя с его текстовым описание (промптом) и формулирует явное указание, что должна сделать модель, чтобы получить предсказание. А адаптер выравнивает размерность эмбеддингов пользователя (линейными слоями повышает её до внутренней размерности LLM) и уточняет эмбеддинги пользователей, смешивая их с промпт-токенами.
Из статьи вы узнаете, как можно решить проблему distribution shift между рекомендательной моделью и LLM, с учётом того, что у каждого слоя языковой модели — свой уровень абстракции и он нуждается в собственной предобработке внешних данных (эмбеддингов пользователей из рекомендательной модели).
@RecSysChannel
Разбор подготовил ❣ Сергей Макеев
Bridging the Gap: Unpacking the Hidden Challenges in Knowledge Distillation for Online Ranking Systems
часть 1
Сегодняшнюю статью подготовила для RecSys 2024 команда Google. В ней они рассказали, как используют дистилляцию для ранжирования видео на главной YouTube: не шортсов, а именно роликов на главной странице.
Говоря о дистилляции в CV или NLP, обычно подразумевают классический пайплайн:
🔹 обучение большой модели на некотором объёме данных;
🔹 подготовка датасета из предсказаний большой модели;
🔹 обучение маленьких моделей с использованием предсказаний большой нейросети.
Применять такой подход напрямую для рекомендаций не получится: поведение пользователей, набор рекомендуемых айтемов меняются со временем, иногда даже в течение дня. Это значит, что один раз обучить большую модель на длинном промежутке времени и использовать её как учителя не получится, она быстро устареет. Для точных рекомендаций YouTube учитывает в дистилляции distribution shift: постоянно дообучает модели нейросетевого ранжирования на свежих данных.
Как это устроено — показано на первой схеме. Большая модель-учитель непрерывно обучается на данных за период порядка месяцев. Каждая порция таких предсказаний записывается в таблицу, и маленькие модели-ученики используют их в процессе дообучения.
Для большей эффективности используется только одна большая модель-учитель, заточенная на несколько задач сразу. Маленькие же модели готовятся для более узких целей, каждая для своей. Такой подход, ко всему прочему, позволяет быстрее и дешевле запускать эксперименты, поскольку для обучения учеников требуются недели, а не месяцы.
@RecSysChannel
Разбор подготовил ❣ Петр Зайдель
Recommender Systems with Generative Retrieval
Современные модели для генерации кандидатов обычно строят так: обучают энкодеры (матричные разложения, трансформеры, модели dssm-like) для получения ембеддингов запроса (пользователя) и кандидата в одном пространстве. Далее по кандидатам строится ANN-индекс, в котором по ембеддингу запроса ищутся ближайшие по выбранной метрике кандидаты. Авторы предлагают отойти от такой схемы и научиться генерировать ID айтемов напрямую моделью, которую они обучают. Для этого предлагают использовать энкодер-декодер трансформенную модель на основе фреймворка T5X.
Остается вопрос, как закодировать айтемы для использования в трансформерной модели и как научиться напрямую предсказывать ID в декодере? Для этого предлагается использовать наработки из прошлой работы — Semantic IDs. Такие ID для описания айтемов обладают следующими свойствами:
— иерархичность — ID в начале отвечают за общие характеристики, а в конце — за более детальные;
— они позволяют описывать новые айтемы, решая проблему cold-start;
— при генерации можно использовать сэмплинг с температурой, что позволяет контролировать разнообразие.
В статье проводят эксперимент на датасете Amazon Product Reviews, состоящий из отзывов пользователей и описания товаров. Авторы используют три категории: Beauty, Sports and Outdoors и Toys and Games. Для валидации и тестирования используют схему leave-one-out, когда последний товар в истории каждого пользователя используется для тестирования, а предпоследний — для валидации. Такой подход много критиковали за возможные лики, но авторы используют его для сравнения с уже существующими результатами бейзлайнов.
Semantic IDs строили следующим образом: каждый товар описывался строкой из названия, цены, бренда и категории. Полученное предложение кодировали предобученной моделью Sentence-T5, получая эмбеддинг размерности 768. На этих ембеддингах обучали RQ-VAE с размерностями слоев 512, 256, 128, активацией ReLU и внутренним ембеддингом 32. Использовали три кодовые книги (codebooks) размером 256 ембеддингов. Для стабильности обучения их инициализировали центроидами кластеров k-means на первом батче. В результате каждый айтем описывает три ID, каждый из словаря размера 256. Для предотвращения коллизий добавляли еще один ID с порядковым номером.
Энкодер и декодер — трансформеры из четырёх слоев каждый с шестиголовым аттеншеном размерности 64, ReLU активацией, MLP на 1024 и размерностью входа 128. В словарь токенов добавили 1024 (256 × 4) токенов для кодбуков и 2000 токенов для пользователей. В итоге получилась модель на 13 миллионов параметров. Каждый пример в датасете выглядит так: hash(user_id) % 2000, <semantic_ids_1>, … <semantic_ids_n> -> <semantic_ids_n+1>. Во время инференса метод показывает значительный прирост качества (Recall@5, NDCG) по сравнению с бейзлайнами (SASRec, S3-Rec etc). При этом нужно учитывать, что у предложенной модели намного больше параметров, чем у остальных.
Авторы проводят ablation study для семантических ID — рассматривают варианты их замены на LSH и случайные ID. В обоих случаях semantic ID дает большой прирост и является важным компонентом подхода. Также проводится анализ возможности модели обобщаться на новые айтемы. Для этого из датасета выкидываются 5% товаров, а на инференсе задают отдельным гиперпараметром долю новых кандидатов в top-k (с совпадающими первыми тремя ID) и сравнивают свою модель с KNN.
Статья получилась во многом академичной, но она обращает внимание на важное направление, которое сейчас активно развивается. Похожий подход можно использовать для кодирования айтемов для LLM, чем, судя по разговорам на конференции, уже активно занимаются. Также можно отметить, что в статье не раскрывается часть важных вопросов: как добавлять новые айтемы и как переобучать RQ-VAE (в реальных сервисах часто меняется распределение контента), а также хотелось бы увидеть сравнение на более приближенных к реальным датасетах.
@RecSysChannel
Разбор подготовил ❣ Петр Зайдель
LiGNN: Graph Neural Networks at LinkedIn
Один из интуитивных подходов к представлению данных в рекомендательных системах — графы. Например, двудольный гетерогенный граф, где вершины — пользователи и айтемы, а рёбра — факты их взаимодействий.
В теории, использование графовой структуры вводит некий inductive bias и может помочь ML-модели в выучивании закономерностей, однако на практике очень сложно внедрить графы в продакшен из-за ряда проблем: distribution shift, cold start, dynamic vocabulary. В сегодняшней статье ребята из LinkedIn рассказывают, как внедряли графы в свою инфраструктуру, с какими сложностями столкнулись и что усвоили.
На первом рисунке — схема их гетерогенного графа для семплирования подграфов. Он включает в себя несколько разнородных сущностей: в качестве вершин — пользователи, сообщения, вакансии, группы, компании. А рёбра — три типа взаимодействий: вовлечённость, родство и наличие атрибута.
Архитектура ML-модели представлена на втором рисунке и состоит из трёх частей:
- Graph Engine — алгоритм для семплирования подграфов на базе открытой библиотеки DeepGNN от Microsoft. Для семплирования используют Personalized Page Rank (PPR).
- Encoder — помогает получить агрегированные представления вершин графа, опирается на GraphSage;
- Decoder — обычный MLP, вычисляет финальную релевантность между двумя вершинами (source и target).
За время работы над LiGNN команда смогла в 7 раз ускорить обучение графовых нейросетей, частично побороть cold start и запуститься в near-realtime сеттинге. Внедрение такой архитектуры как в ранжирование, так и в кандидатогенерацию повысило продуктовые метрики: +1% откликов на вакансии, +2% CTR объявлений, +0,5% еженедельно активных пользователей, +0,2% продолжительности взаимодействия с платформой и +0,1% еженедельно активных пользователей благодаря рекомендациям.
Посмотреть, как работает LiGNN, можно в приложениях LinkedIn: сейчас он развёрнут в доменах Feed, Jobs, People Recommendation и Ads.
@RecSysChannel
Разбор подготовил ❣ Владимир Байкалов
И, по традиции, слайды прилагаются 👆
#YaACMRecSys
@RecSysChannel
И постеры к посту выше 👆
#YaACMRecSys
@RecSysChannel