Telegram-канал rybolos_channel - Kali Novskaya: Unsorted

Kali Novskaya

07 February 2024 14:34

🌸Про эмбеддинги для поиска🌸
#nlp #про_nlp #rag #prompt_engineering

Что делать, если нужно пересобрать RAG самому, и не возиться с имплементациями LlamaIndex, а иметь под рукой быстрый индекс, который недорого периодически пересобирать?

В этом посте напишу рекомендации по опенсорсным решениям.

🟣Бенчмарки эмбеддингов:
Шаг 1. Первым делом стоит проверить, какая модель эмбеддингов сейчас лучшая по качеству (и легковесная по памяти) — лидерборды эмбеддингов сильно отличаются, иногда в топе даже (о ужас) не трансформеры!
— Основной бенчмарк — Massive Text Embedding Benchmark (MTEB) — объединяет лидерборды для поиска информации (retrieval, что нам и нужно), а также суммаризации, ранкинга, и многого другого.
— Текущий топ моделей: эмбеддинги на Mistral, Voyage Lite Instruct, эмбеддинги от Cohere
https://huggingface.co/spaces/mteb/leaderboard

🟣Библиотеки для индекса
Шаг 2 в построении самописного RAG — построить индекс документов, а еще лучше — абзацев из ваших документов. Тогда, построив индекс, вы сможете быстро подбирать релевантные фрагменты текста и посдставлять в промпт для LLM.
— NMSLib — non-metric space library, поможет построить эффективный индекс на основе косинусной близости документов, очень быстрый, есть обертка на Python, поддержка в ElasticSearch
— Annoy — модная библиотека на C++ от Spotify, есть поддержка разных типов расстояний для поиска ближайших соседей, обертка на Python
— FAISS — большая библиотека от FAIR с поддержкой всего того же, тчо и выше, но методов построения индекса больше, и можно легко подобрать подходящий по ограничениям памяти, скорости, скорости переиндексации, если ндао постоянно добавлять новые документы, и тд
— DeepPavlov Tf-IDF — старый дедовский метод, дешево и сердито (но недешево по памяти). Tf-IDF индекс на питоне из реализации ODQA. Самый интерпретируемый вариант из упомянутых.

🟣Сопоставление запросов и документов
Шаг 3. Оставшаяся проблема, на самом деле, самая сложная — как сопоставить вопрос и документы, в которых содержится ответ?
Хорошо, если вопрос сильно пересекается словами с релевантным абзацем, а если нет?
— Простое решение было бы воспользоваться NER или keyword extraction, даже с помощью промптов, но так как мы с вами в 2024 году, и везде LLM, то мы и будем файнтюнить модели — чтобы итеративно приводить эмбеддинги к состоянию, когда наиболее близиким оказываются поисковый запрос и релевантный абзац.
— Embedding Studio — питоновская библиотека для работы с векторными БД, дообучением эмбеддеров под собственные данные. В библиотеке есть готовые пайплайны для дообучения эмбеддингов с подобранными гиперпараметрами, и можно даже использовать кликстримы, если есть возможность получить данные с прода и на новой модели пересобирать индекс.
Все, как водится, под Apache 2.

Готово, вы восхитительны!🌸