Нейросети, искусство, мысли. Поехали! Разрабатываю LLM и веду команды chatGPT, GPT-3, GPT-4
🌸Про эмбеддинги для поиска🌸
#nlp #про_nlp #rag #prompt_engineering
Что делать, если нужно пересобрать RAG самому, и не возиться с имплементациями LlamaIndex, а иметь под рукой быстрый индекс, который недорого периодически пересобирать?
В этом посте напишу рекомендации по опенсорсным решениям.
🟣Бенчмарки эмбеддингов:
Шаг 1. Первым делом стоит проверить, какая модель эмбеддингов сейчас лучшая по качеству (и легковесная по памяти) — лидерборды эмбеддингов сильно отличаются, иногда в топе даже (о ужас) не трансформеры!
— Основной бенчмарк — Massive Text Embedding Benchmark (MTEB) — объединяет лидерборды для поиска информации (retrieval, что нам и нужно), а также суммаризации, ранкинга, и многого другого.
— Текущий топ моделей: эмбеддинги на Mistral, Voyage Lite Instruct, эмбеддинги от Cohere
https://huggingface.co/spaces/mteb/leaderboard
🟣Библиотеки для индекса
Шаг 2 в построении самописного RAG — построить индекс документов, а еще лучше — абзацев из ваших документов. Тогда, построив индекс, вы сможете быстро подбирать релевантные фрагменты текста и посдставлять в промпт для LLM.
— NMSLib — non-metric space library, поможет построить эффективный индекс на основе косинусной близости документов, очень быстрый, есть обертка на Python, поддержка в ElasticSearch
— Annoy — модная библиотека на C++ от Spotify, есть поддержка разных типов расстояний для поиска ближайших соседей, обертка на Python
— FAISS — большая библиотека от FAIR с поддержкой всего того же, тчо и выше, но методов построения индекса больше, и можно легко подобрать подходящий по ограничениям памяти, скорости, скорости переиндексации, если ндао постоянно добавлять новые документы, и тд
— DeepPavlov Tf-IDF — старый дедовский метод, дешево и сердито (но недешево по памяти). Tf-IDF индекс на питоне из реализации ODQA. Самый интерпретируемый вариант из упомянутых.
🟣Сопоставление запросов и документов
Шаг 3. Оставшаяся проблема, на самом деле, самая сложная — как сопоставить вопрос и документы, в которых содержится ответ?
Хорошо, если вопрос сильно пересекается словами с релевантным абзацем, а если нет?
— Простое решение было бы воспользоваться NER или keyword extraction, даже с помощью промптов, но так как мы с вами в 2024 году, и везде LLM, то мы и будем файнтюнить модели — чтобы итеративно приводить эмбеддинги к состоянию, когда наиболее близиким оказываются поисковый запрос и релевантный абзац.
— Embedding Studio — питоновская библиотека для работы с векторными БД, дообучением эмбеддеров под собственные данные. В библиотеке есть готовые пайплайны для дообучения эмбеддингов с подобранными гиперпараметрами, и можно даже использовать кликстримы, если есть возможность получить данные с прода и на новой модели пересобирать индекс.
Все, как водится, под Apache 2.
Готово, вы восхитительны!🌸
Давно не обновляла рубрику #female_vocals — пусть в воскресенье вечером в эфире будет небольшая музыкальная находка последнего времени, Cult of Venus
Информации в сети немного, вроде продюсер из Bon Iver
https://youtu.be/2HjpzV8iaps?si=qxQkKImqXD4zLgeD
Как хорошо, что можно сделать пятничный мемотред! #шитпост
Читать полностью…🌸Чаевые для LLM: сколько нужно пообещать?🌸
#nlp #про_nlp #prompt_engineering
Популярный прием в промпт-инжиниринге — добавить обещание денег за хорошо выполненную работу (что? да!)
"I'm going to tip $200 for a perfect solution!"
Изначальный reddit-тред показывает, что в сравнении с отсутствем чаевых можно получить примерно +5-11% итогового качества.
На стриме Сиолошной Денис пошутил, что обещает вообще 5к долларов для эффективности своих затравок. В тот же момент я подумала — а как бы сделать оптимизировать выбор суммы чаевых? Конечно, такое уже кто-то проверил в интернете.
🟣Метод очень простой:
— будем делать перебор сумм разного порядка, подставляя их в шаблон
I'll tip you {tip} for a perfect answer.
Ссылки на статьи и работы, упомянутые на стриме: https://shorturl.at/bhlK0
Читать полностью…🌸 Стрим в 20:00 на Рабкоре🌸
Через час начинаем стрим с Сергеем Марковым
Приходите!
https://youtube.com/live/sujuxYtuOO4?feature=share
🌸Бесплатные курсы по LLM🌸
#nlp #про_nlp
Небольшое обновление поста про бесплатные курсы NLP/LLM, на этот раз добавлю англоязычных материалов. Всё разбила на две группы: посложнее и поприкладнее-попроще.
🌸Для MLE:
Для курсов требуется английский, требуется Python, основы машинного обучения, базовая теория вероятности и статистика, линейная алгебра.
🟣CS224N: Natural Language Processing with Deep Learning
https://web.stanford.edu/class/cs224n/
Крутой стэнфордский курс, идет каждый год с обновлениями. В этом году впервые лекции решили не выкладывать на youtube, хотя остались в публичном доступе все лекции 2023 — их очень советую.
🟣Chris Manning — конспекты
https://web.stanford.edu/class/cs224n/readings/cs224n-self-attention-transformers-2023_draft.pdf
Преподаватель курса выше и один из самых успешных ученых, авторов исследовательских работ без большого компьюта (DPO, Backpack language models), Крис Маннинг все материалы лекций выкладывает в открытый доступ. По датам обновлений видно, что обновленные материалы -- для курса 2024 года, пользуйтесь! https://web.stanford.edu/class/cs224n/readings/
🟣Dan Jurafsky — Speech and Language Processing (3rd ed. draft)
Автор основного за последние 20 лет учебника по NLP, и тоже из Стэнфорда, Дэн Журафски продолжает выкладывать в открытый доступ новые главы учебника, постоянно обновляя старые. Это вообще практически единственная книга, которую можно прочитать целиком и уже иметь ключи к пониманию 80% происходящего в индустрии.
Последнее обновление учебника – 5 января 2024:
https://web.stanford.edu/~jurafsky/slpdraft/
🟣Transformers United
https://web.stanford.edu/class/cs25/prev_years/2023_winter/index.html
Второй по важности курс, чтобы понимать, что происходит — с общей направленностью на NLP, CV и мультимодальные модели.
🌸Курсы попроще
Требуется только английский и Python
🟣HuggingFace NLP Course
https://huggingface.co/learn/nlp-course/
Верхнеуровневый курс прикладной направленности, научит запускать инференс и тюнинг основных моделей, позволит примерно понять, что происходит внутри и какие параметры ставить для каких задач.
🟣Cohere LLM University
https://docs.cohere.com/docs/llmu
Все настроено, конечно, чтобы вас научить работать именно с продуктами Cohere, но сами по себе обзорные материалы неплохие. Из плюсов — есть Discord сообщество курса.
🟣Learn Prompting
https://learnprompting.org/docs/intro
Хороший дополняемый сборник лучших практик по промпт-инжинирингу, построению chain-of-thought, reasoning, построению ансамблей и систем проверки пайплайнов с промптами.
C помощью бенчмарка можно в справедливых условиях сравнивать между собой дообучение с offline RL составляющей: DPO, RLAIF и что угодно еще.
🟣Из 5 проверенных авторами методов, скомбинированный подход при дообучении (supervised + NLPO) дает более стабильные результаты, чем PPO.
Однако, тут нужно больше внешних экспериментов, так как "представляю в работе новый метод" и "в этой же работе представляю новый критерий оценки, по которому этот метод лучший" — это уже классика.
Как можно увидеть на картинке, все же натуральность, оцененная людьми, и автоматическая "идентичность натуральности" текста оказались не очень похожи.
Какие метрики вы бы еще заложили в качество оценки результатов генерации?
🌸Путешествие из Еревана в UK🌸
#не_про_nlp
Я достаточно мало пишу про свой личный опыт релокации, потому как он еще совсем свеж, и наверное, хочется держать канал ближе к профессиональной тематике. Напишу заметки, самые близкие к профессиональной теме.
Из общих наблюдений:
🟣И в Армении, и в Лондоне русскоязычный ODS присутствует, data-завтраки примерно одинакового размера. Наличие ODS в стране — для меня хороший признак.
🟣Университеты и там и там кажутся достаточно открытыми — при наличии общих контактов (а их сейчас очень много), можно попреподавать приглашенно практически везде, пообщаться со студентами. Это очень приятно!
🟣В UK гораздо более сложная для человека из постсоветсткой страны налоговая система. Как и многие вещи в математике, помогает просто крутить ее в голове постоянно, зациклиться и в один момент морально привыкнуть.
🟣Из-за высоких налогов, но с нюансом (налог платится только на доход, полученный в Британии), много специалистов оформлены где-то еще (ИП в той же Армении или в Дубае — 0% налогов), а живут в Лондоне из-за удобства и профессионального сообщества.
Перед переездом я где-то год собирала информацию из разных сабреддитов, групп тг и каналов. Оставлю здесь ссылки на канал Кирилла Куликова про номадизм, стартапы, визы и жизнь на новом месте:
🟣Как выбрать страну, в которой будет приятно пожить несколько лет подряд.
🟣Типичные проблемы типа отопления — это жиза, к сожалению. Скучаю по центральному отоплению. Но в Ереване было так же! Либо +18, либо огромный счет за отопление, choose wisely
🟣Степень трудности снятия жилья, здравохранение и бюрократия — как перестать волноваться и полюбить(
🟣Стоимость жизни — как прикидывать и что считать.
В релокации для меня нашелся один приятный момент — это возможность построить свою повседневную жизнь с чистого листа. Звучит не очень, когда уже все и так сделал сам под себя, но поверьте, если вы год из года сидели за компьютером в формате "статьи - зум по работе - зум по пхд" и обрастали мхом, вещами, привычками — это очень помогает все поменять за один раз.
Теперь обрастаю мхом за компьютером в Лондоне. 😈
🌸Обход цензуры в GPTStore🌸
#nlp #про_nlp #ai_alignment
Вчера наконец запустился GPTStore — конструктор и маркетплейс для обмена своими ассистентами на базе API OpenAI. Сам конструктор был доступен и раньше, а вот релиз самой платформы был ранее отложен.
Хотела сделать для вас подборку методов, как сделать промпт-инъекцию в такой конфигурации — но пока что мне вообще потребовалось 15 минут, чтобы сделать абсолютно мерзкого матного помощника, который бы писал что угодно прямо в интерфейсе OpenAI. Ссылка ниже.
🟣Вот такой рецепт примерно усредненный:
— загружаем требуемые знания (в том числе факты, любой контент — я загрузила матные анекдоты) через загрузку файлов
— минимальный промпт-инжиниринг, поощряющий использование знаний из файлов
— интернет-браузинг и dalle я отключила
Позже можно будет попробовать использовать зафайнтюненную модель, ранее несколько сотен примеров успешно ломали RLHF.
🟣Ссылка на GPT: Мерзкий Шутник
Пусть этот будет напоминанием о том, как сложно заэлайнить модели сейчас, и как для каждого нового релиза нужно проверять все заново.
Чтобы скачать и перезалить это видео сюда, потребовалось 2 обновления для Линукса и одно для плагина Хрома, вот как я вас люблю
Читать полностью…🌸Итоги 2023 года для ИИ🌸
#nlp #про_nlp
Наконец-то пишу пост с краткими итогами года в LLM.
🟣Архитектуры и модели
— разрыв качества между проприетарными моделями и опен сорсом в целом сократился: большое количество новых лидербордов (Chatbot Arena, HELM, Open LLM Leaderboard) показывает, что GPT-4 все еще на вершине, но уже с отрывом в несколько процентов.
— на 2023 пришелся расцвет новых методов: как правильно оценивать LLM (LMSys, LLM Arena, Mera, др бенчмарки, бороться с утечкой данных и проверять, есть ли на самом деле emergent capabilities
— во второй раз выстретили архитектуры Mixture of Experts
— LLM архитектуры часто являются центральным элементом мультимодальной системы (вместе с обработкой изображений
🟣Open Source
— тренд на полуоткрытые лицензии укрепился, под такими лицензиями вышли LLaMa 2, Alpaca и все ее производные
— много коммьюнити-моделей высокого качества вышли с лицензиями Apache 2.0 и MIT! Open Assistant, Mistral, Mixtral, некоторые вышли даже без цензуры!
🟣Авторские права и открытые данные
— суды, поданные к разработчикам от коллективов авторов пока оставлены без результатов: Midjourney, Stabiliti AI выиграли одну тяжбу, Meta остались без наказания за использование корпуса Books3
— все совсем не так с судами, где истцы — компании и площадки: Internet Archive проиграл суд за Open Library.
🟣Коалиции и регулирование
— Запущенный по инициативе OpenAI Frontrier Model Forum (Anthropic, Microsoft, Google и другие), ставящий своей целью "помощь регуляторам" по всему миру, теперь не одинок в своей экспертной деятельности.
— Новый альянс ИИ запущен Meta и IBM в сотрудничестве с 50 организациями и институтами по всему миру для развития open source проектов, науки и технологий.
Также, вышло сразу несколько крупных законодательных инициатив:
— США: Executive Order on Safe, Secure, and Trustworthy Artificial Intelligence
— Европа: European AI Act
— Китай: Правила для GenAI
Чего ждать от 2024?
Что нам принесут SuperAlignment? GPT-5? LLaMa 3?
🌸Есть ли emergent properties у LLM? 🌸
#nlp #про_nlp #nlp_papers #ai_alignment
Emergent properties или возникающиие свойства — новые способности нейросети к решению новых задач, возникающие без заведомо заложенных данных во время обучения.
У языковых моделей emergent properties обычно связываются с промпт инжинирингом и способностью легко подстраиваться под новые сложные задачи, например, машинный перевод или игру в шахматы, после модели на большом корпусе.
Впервые свойства были замечены в статье GPT-2, где описаны способности моделей решать совершенно новые задачи при наличии нескольких примеров в затравке (few-shot learning, in-context learning).
🟣Но существуют ли emergent properties вообще?
Вполне возможно, что нет. Может быть, в огромных веб-корпусах уже были все возможные форматы задач, и этого совершенно достаточно, чтобы никаких обобщений навыков от нейросети не требовалось вообще? С какого процента качества на задаче, размера нейросети и объема данных вообще проводить границу и считать, что новое свойство "возникло"?
🟣Аргументы против
— Разговоры во многом напоминают 17 век, когда считалось, мухи на мясе "самозарождались". Эмерджентностью в нейронауках и эволюционной психологии иногда объясняют возникновение языка и даже сознания, но фальсифицировать это, конечно, затруднительно. Чего не скажешь о нейросетях! Многое можно смоделировать и проверить.
— Работа "Searching for Needles in a Haystack" на примере задаич машинного перевода и PaLM наглядно показала, что если тщательно профильтровать корпус и удалить все примеры параллельного переовода из данных, а затем повторить обучение модели, то способность к машинному переводу значительно ухудшается.
— Насколько сильное влияние на конечный результат оказывают few-shot (примеры в затравках) и instruction tuning базовых моделей? Эксперименты с их исключением показывают, что именно few-shot примеры и in-context learning вносят основной вклад в итоговое качество на новых задачах. Instruction tuning не оказывает такого существенного влияния, а только улучшает уже имевшиеся ранее у моделей способности.
— Работа "Data Distributional Properties Drive Emergent In-Context Learning in Transformers" показывает, что обобщение у языковых моделей хорошо работает на уровне токенов, не увиденных при обучении, но способность не подтверждается для новых последовательностей, т.е. новых формулировок задач.
— Многие заявленные примеры из работы "Sparks of Artificial General Intelligence" сообществу не удалось воспрозвести от слова совсем.
🟣Аргументы за
— С момента выхода первых крупных языковых моделей было заявлено 137 emergent properties для разных архитектур: GPT-3, PaLM, Chinchilla, бенчмарк BigBench... от игры в шахматы до пословиц на суахили — языковые модели показывали способности к обобщению на новых тематиках, областях знаний, языках, задачах.
— Многие заявленные emergent properties завязаны не только на работу с затравками: это и способности к факт-чекингу (Gopher 7B), и ризонинг (PaLM, LaMDa), и построение индекса информации (T5) — чего нельзя объяснить запоминанием примеров изобучения.
— Нестабильность качества объясняется воспроизведением распределения самих людей — кто-то отвечает лучше, кто-то хуже, в зависимости от подготовки и мотивации.
...Хотя и не совсем 🍻
Привет из Лондона и с Новым годом! 🎄
С новым годом, дорогие подписчики! 🎄
Пусть в новом году нас ждёт ещё больше опен сорса, интересных статей и открытий!
Ура! ☺️
🌸Matryoshka Representation Learning 🌸
#nlp #про_nlp #nlp_papers
Интересная ситуация на днях развернулась со статьей аж 2022 года — Matryoshka Representation Learning.
(см разбор GonzoML)
Вышедшее в конце января обновление ряда моделей OpenAI представило новый тип эмбеддинг-моделей:text-embedding-3-small
и text-embedding-3-large
Эмбеддинги у OpenAI, по моим ощущениям, никогда хорошими не были, и я не знаю ни одного кейса, когда бы получать эмбеддинги по API было осмысленней, чем даже поднять bert на CPU — а то и вовсе пойти на лидерборд эмбеддингов (например, MTEB) и что-то выбрать под задачу.
Так что обновление вселяло надежду — да и метрики подросли: MTEB 61—>64.6%, MIRACL 31.4 —> 54.9% (это все еще значительно ниже sota).
Обучающая выборка у эмбеддинг-моделей все еще осталась в сентябре 2021, хотя для многих задач это не критично.
Зато удалось сделать эмбеддинги в размерностях нескольких вариантах, включая очень экономичные размерности 256 и 512.
🟣За счет чего удалось достичь прироста качества и уменьшения размерности?
Both of our new embedding models were trained with a technique[1]
[1] Matryoshka Representation Learning
Новый тип эмбеддингов построен на принципе, что эмбеддинги фиксированной размерности для каждой конкретной задачи обычно неоптимальны -- либо слишком большие (и неэкономичные, слишком дорогой инференс), либо слишком сжатые (теряют информацию, вспоминаем "what you can cram into a single **** vector")
Авторы работы стремятся построить более гибкую систему, которая бы адаптировала итоговую размерность под конкретные задачи с учетом ограничения на вычислительный бюджет.
Для этого в эмбеддинге фиксированной размерности (d) выделим вложенные друг в друга части (подпространства) размеров d/2, d/4, d/8, … каждая из которых будет качественным эмбеддингом для своего размера. Задача в том, чтобы модифицировать процедуру обучения так, чтобы в векторе размерности d первые m измерений содержали общие и переносимые на другие задачи репрезентации — это делается за счет оптимизации кросс-энтропии в каждом подпространстве, и дальнейшей агрегации лоссов с учетом веса относительной важности каждого подпространства.
Метод провалидирован для модальностей языка (на Bert), комп зрения (ResNet) и бимодальных систем (ALIGN + Bert).
На ImageNet-классификации особенно ярко видно, что на небольших размерностях метод дает знаичтельно более высокое качество, чем остальные. Возможно, стоит ждать в следующих обновлениях и эмбеддинги размерности 128, и даже 64.
Любопытно, что в первой версии поста ссылка на метод вообще отсутствовала, зато обсуждение в Твиттере и привлечение авторов статьи результировали в появление если не нормальной ссылки на статью, то хотя бы указания метода.
OpenAI заставили быть чуть более open.
🟣Arxiv
🟣OpenAI blog post
🟣Twitter thread
🌸mGPT paper — расширенная версия🌸
#nlp #про_nlp #nlp_papers
В MIT Press вышла расширенная версия нашей статьи про семейство моделей mGPT!
mGPT: Few-Shot Learners Go Multilingual
Использую это как повод наконец заставить себя делать нормальные файнтюны сверху.
Статья Open Access, модели все под открытой лицензией✅
🟣MIT Press link
🟣Она же на Arxiv
🟣mGPT 13B huggingface
1.02.2024 — день как день, а нас сегодня внезапно 10 тысяч!
Кот Лисик поздравляет вас с этой отметкой! 🥹
(на фото слева я, осознаю, как все далеко зашло)
🌸Тезисы лекции про AI Alignment и Emergent Properties 🌸
AGI Russia, 25.01.2024
#nlp #про_nlp #ai_alignment
Приведу здесь пару мыслей по следам лекции “AI Alignment, Emergent Properties, ожидания от LLM в 2024 году”
Сложность оценки LLM в различных условиях (на секундочку, это тесты с fine-tuning, zero-shot, few-shot, самыми разными промптами, отдельно замерить базовый pretrain и отдельно результат instruction-tuning, тесты для генеративных задач, тесты для классификации…и досыпать safety) привела к тому, что мы используем различные прокси-метрики, предсказания перформанса модели и моделирование коллективного субъективного. Компонент перформанса, основанный на субъективных ценностях, занимает все большую долю в построении лидербордов — и чтобы работать с этими субъективными компонентами, нам необходим прикладной AI Alignment.
Какие ценности закладываются (и надо закладывать) в тюнинг языковых моделей? Как не допустить сильных смещений? На каком этапе подложить хорошие примеры и как обеспечить на них хорошую обобщаемость? Пока общественное обсуждение в основном посвящено митигированию долгосрочных рисков, всяких пугалок про ядерный апокалипсис и про то, что ИИ сам себя осознает... Кстати об осознает. Что вообще может возникнуть у языковых моделей как новое свойство — вопрос открытый. В самом широком понимании уже установлено 100+ свойств, которые являются побочным результатом масштабирования моделей и обучения на большом корпусе.
🟣aka "ChatGPT умеет играть в шахматы"
С любым подобным появившимся явлением можно произвести валидационный эксперимент и воссоздать появление свойства, по-разному манипулируя данными, параметрами обучения и размером модели. Результаты показывают, что волшебство эмерджентности можно часто достаточно надежно объяснить тем, что
— произошла контаминация данных (тест просто утек, см пост)
— всему виной меморизация редких примеров, которые, как оказывается, и вытягивают все качество (см кейс машинного перевода)
По сути, изучение эмерджентных свойств и изучение методов AI Alignment движется ортогонально, занимаясь схожей работой с манипуляциями корпусами:
— Не добавили ли мы случайно в корпус чего-то, о чем не знали? (тест на контаминацию)
— А чего бы нам такого добавить в корпус, чтобы желаемое поведение появилось? (AI Alignment)
— Как понять, чтО мы положили в корпус, что некоторое свойство появилось? (Emergent properties)
Если этими вопросами не задаваться, то окажется, что тренировка LLM — это просто ооочень дорогой способ узнать, что в где-то интернете уже кто-то записал шахматные партии.
🟣А что делать?
В широком смысле, это все вопросы корпусной лингвистики. По методологическому недоразумению, хороших методов сравнения больших корпусов пока не существует, но они объективно очень нужны: сравнение версий корпусов, их жанрового состава, разнообразия задач и источников, — пригодное в анализе всего пайплайна обучения.
Незнание о том, что происходит в корпусе, явно не помогает!
К сожалению, часто информация о корпусах и данных, уставующих в обучении, малодоступна / намеренно описана очень поверхностно (такие статьи из-за судебных разбирательств продолжают выходить, см статью Mixtral)
Альтернатива — полная открытость — тоже уже встречается: у BLOOM есть отдельный поисковый интерфейс по корпусу Roots https://huggingface.co/spaces/bigscience-data/roots-search, а AllenAI сделали поиск по корпусу C4: https://c4-search.apps.allenai.org/
Для решения вышестоящих задач нужны
— открытость кода, моделей, данных — желательно и корпус, и все чекпоинты во время обучения
— метаисследования с анализом данных в корпусах на этапах предобучения и дообучения
Само наличие промежуточных весов моделей и открытых данных должно обеспечить материалом для экспериментов большое число людей в иследованиях и индустрии, не имеющих мощностей для полного воспроизведения обучения.
🟣Ссылка на слайды
🟣Запись на Youtube
Собрали все ссылки на литературу к стриму вчера:
Читать полностью…На этой неделе мне предстоит очень много говорить / рассказывать / болтать с вами.
Повешу здесь один пост с анонсами — приходите!
🟣Среда 24 января, 21:00 мск — день рождения канала Сиолошная — праздничный стрим с Игорем и гостями! Можно задавать вопросы про ИИ и поболтать про будни профессии
🟣Четверг 25 января, 17:00 мск — читаю лекцию в сообществе AGI Russia. AI Alignment, Emergent Properties и наши ожидания от следующего поколения LLM в 2024 году
https://aigents.timepad.ru/event/1412596/
Будет запись на Youtube
🟣Суббота 27 января, 20:00 мск — Стрим на Рабкоре! В гостях Сергей Марков, будем говорить про последствия ИИ для общества, цифровую демократию и цифровой социализм.
🌸GRUE: General Reinforced-Language Understanding Evaluation🌸
#nlp #про_nlp #nlp_papers
Достаточно поздно мне попалась на глаза статья от Allen AI, принятая на ICML 2023: "Is Reinforcement Learning (Not) for Natural Language Processing: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization"
Помимо прочих интересных мыслей, в статье приводится новый бенчмарк для языковых моделей, где в основе — сравнить в равных условиях перформанс на разных методах формализации задачи:
— zero-shot генерация pretrain-моделью
— supervised fine-tune на примерах задачи
— дообучение на примерах с PPO
— дообучение на примерах с NLPO (новый метод в статье)
— пайплайны из supervised fine-tune + RL
GRUE: General Reinforced-Language Understanding Evaluation — сравнивает пайплайны дообучения LLM т.зр. качества решения задачи, соответствия предпочтениям человека и натуралистичности текста.
В бенчмарке всего 6 задач, вполне классических для оценки качества генерации: продолжение текста, машинный перевод, суммаризация, вопросно-ответные системы, а также описание таблиц и новая задача — генерация продолжения с т зр здравого смысла (Generative Commonsense).
🟣Оценка качества генерации полностью автоматическая и состоит из 2 компонент: метрики качества к конкретной задачи + скор за натуралистичность текста.
Метрика натуралистичности текста вообще предлагается в статье как основа не только для оценки качества генерации, но и для offline RL дообучении языковой модели: "идентичность натуральности" предлагается складывать из скора ревард-модели и расстояния KL-дивергенции внешней языковой модели.
🟣Сайт бенчмарка
🟣Github с реализацией методов
🟣Статья
Привет новым читателям!
Нас сегодня 9000! 🫶
Этот блог начинался как заметки по Natural language processing, языковым моделям и лингвистике, а стал местом обсуждений, обменом идеями в комментариях.
Пост про меня и про то, что я делаю:
🟣Про что этот канал и про личный 2023
Ключевые последние посты:
🟣Проблемы AI Alignment в 2023 году
🟣Топ нецензурированных LLM
🟣Все данные для тестов LLM скомпрометированы?
🟣Альтернативы OpenAI API
🟣ИИ и скорость научного прогресса: скандал в ACL
🟣Материалы на Youtube — популярно про опенсорс, языковые модели и новые технологии
Здесь также регулярно бывает мемотред и даже рубрика #шитпост, чтобы было не очень серьезно.
Добро пожаловать!
Kali Novskaya
🌸 #не_про_nlp и немного личный пост🌸
Вот и кончились праздники!
Рефлексируя над 2023, год был совершенно ужасно как говорят на корпоративном сленге трансформационный:
🌸В 2023
— я переехала из Армении в Великобританию, сделав визу талантов (получение ВНЖ в обеих странах заслуживает отдельных постов, пишите, если вам интересно)
— я вышла на Youtube и теперь иногда говорящая голова на важные мне темы — открытое ПО, ИИ и языковые модели
— я уволилась из Сбера и AIRI, впервые найдя работу зарубежом (так как я уже менеджер у рисерчеров и MLE, в некоторых компаниях пришлось проходить 7 этапов собеседований). Прошла в Snapchat, Spotify, BCG.
— проконсультировала 35 стартапов по LLM и GenAI
— впервые увидела Сингапур и Индию! EMNLP 2023
— счетчик цитирований научных статей пробил 1000, а Хирш — 10!
— записалась на операцию Femto LASIK и исправила зрение, абсолютно рекомендую.
— научилась собирать любые бумажки, проходить любые бюрократические барьеры, и всегда знаю, где мой снилс, нотариально заверенный перевод всего и апостиль. Снять квартиру в Лондоне без банковского счета было адом, пришлось даже писать биографию кота.
Чтобы жизнь не казалась совсем уж медом:
— Мне не дали тур визу в США (по очевидным причинам). Не знаю, буду ли пытаться еще когда-то.
— Так как я в Британии и тут везде крупным шрифтом написано "NOT FOR EU", с Шенгеном теперь тоже приключения.
🌸В 2024 году
— Мне будет 30 лет. Старость не радость! Сложно было представить, что я когда-то доживу до такой отметки.
— Будет точно больше рисерча и крутых опен сорс проектов. Они уже запланированы)
— Хочу еще больше поддерживать проекты, которые мне важны. В первую очередь Рабкор, SciHub, Wikipedia — и вы тоже можете!
Хочу сказать огромное спасибо всем читателям, комментаторам, сообществу в широком смысле. Отдельно всем друзьям и коллегам, которые меня так морально поддерживают. Совершенно без стыда говорю, что я вас очень люблю! Без вас ничего бы не было! 🤍
🌸Chris Manning: EMNLP 2023 keynote 🌸
#nlp #про_nlp
🟣Academic NLP research in the Age of LLMs: Nothing but blue skies!
В декабре Кристофер Маннинг прочитал прекрасную лекцию про будущее языковых моделей и направлений исследований в этой области:
— ретроспектива подобных проблем за последние несколько десятков лет
— проблемы вычислительных мощностей для исследований
— место лингвистики в текущем LLM-ландшафте
— обзор 2 новых работ его соавторства — Direct Preference Optimization и Backpack Language Models
— много фото самого Маннинга в горах :)
Заливаю видео сюда, так как на открытых платформах его все еще нет.
Гипотезы и возможные объяснения
— Промпт инжиниринг работает на практике. Соответственно, вероятности, которые мы с вами эксплуатируем затравками ("мне осталось 10 мин до совещания", "я дам тебе денег"...) в корпусе были, и это нормально. Нам точно стоит развивать техники более детального анализа больших корпусов и сравнения их распределений.
— Изучение In-context learning и факторы, влияющие на его эффективность. Распределение редких токенов, токены, связанные с конкретными задачами, синонимичные и омонимичные формулировки для разных задач — все влияет на итоговые способности модели.
— Самые сложные задачи. Какие задачи сейчас LLM не решаетются и нам стоит приготовить их для оценки в будущем?
— Предсказание разрешимости новых задач. Почему возникают эмерджентные способности и можем ли мы их предсказать? Обучаются ли LLM способностям композиционально, будет ли работать постепенное решение более сложных задач?
— Особое внимание к меморизации данных и утечкам тестов. Развивающиеся техники позволяют проверять на "запоминание" языковые модели, если пример попадался в обучении более 10 раз. Ничего не известно о том, какое влияние оказывают на обучение примеры, увиденные менее 10 раз! К таким примерам, по сути, можно отнести все редкие задачи. Вернемся ли мы к вопросам корпусной лингвистики для прикладных нужд машинного обучения?
Источники и статьи на тему:
🟣Презентация "A Sanity Check on Emergent Properties" Анны Роджерс с воркшопа GenBench
🟣Статья "Are Emergent Abilities in Large Language Models just In-Context Learning?"
🟣Статья "Searching for Needles in a Haystack: On the Role of Incidental Bilingualism in PaLM's Translation Capability"
🟣Статья "Emergent Abilities of Large Language Models"
🟣Статья "Are Emergent Abilities of Large Language Models a Mirage?"
🟣Статья "Data Distributional Properties Drive Emergent In-Context Learning in Transformers"
🟣Статья "Sparks of Artificial General Intelligence: Early experiments with GPT-4"
Канал вырос в 4 раза за год! Объявляю #мемотред в честь 1 января! 🎄🌟🔴
Читать полностью…Хотела написать личные итоги года, но лучше приберегу и на днях напишу итоги 2023 для ИИ.
Жизнь, конечно, очень изменилась за 2 года ведения канала...
🌸Видео и стримы на Рабкоре🌸
#не_про_nlp
Сегодня пропускаю новогодний стрим Рабкора, по причине того, что опять буду в самолете.
Но! В этом году я впервые стала записывать видеоформат для вас — в виде стримов и отдельных видеоэссе. Надеюсь, вопросы, которые мы поднимали в этом году с гостями, долго останутся актуальны — а вам будет что посмотреть на новогодние праздники.
Стримы:
🟣Стрим с Сиолошной про AI Alignment и риски ИИ — набрал уже 10к просмотров! Youtube
🟣Итоги года с ИИ — основные изменения в 2023 году Youtube
🟣Ситуация с OpenAI — что произошло и что теперь делать Youtube
🟣Языковой активизм, языковая политика и опен сорс Youtube
🟣Нейросети и художники: авторское право и ИИ Youtube
🟣Стрим с Б.Ю. Кагарлицким — революция трансформеров, как корпорации воюют за технологии Youtube
Копилефт:
моя авторская рубрика про технологии и опенсорс
🟣COPYLEFT 1 — Кому принадлежит интеллект в 2023?
🟣COPYLEFT 2 — Удивительная история Блейка Лемуана
🟣COPYLEFT 3 — Неравенство в цифровом мире
🟣COPYLEFT 4 — Колониализм данных и история копирайта
(Последний делался пока больше всех и потребовал больше всего подготовки, мне кажется, он самый годный вообще)
Пишите, какие темы вам бы было интересно разобрать в 2024 году!