rybolos_channel | Unsorted

Telegram-канал rybolos_channel - Kali Novskaya

17242

Нейросети, искусство, мысли. Поехали! Разрабатываю LLM и веду команды chatGPT, GPT-3, GPT-4

Subscribe to a channel

Kali Novskaya

🌸Про эмбеддинги для поиска🌸
#nlp #про_nlp #rag #prompt_engineering

Что делать, если нужно пересобрать RAG самому, и не возиться с имплементациями LlamaIndex, а иметь под рукой быстрый индекс, который недорого периодически пересобирать?

В этом посте напишу рекомендации по опенсорсным решениям.

🟣Бенчмарки эмбеддингов:
Шаг 1. Первым делом стоит проверить, какая модель эмбеддингов сейчас лучшая по качеству (и легковесная по памяти) — лидерборды эмбеддингов сильно отличаются, иногда в топе даже (о ужас) не трансформеры!
— Основной бенчмарк — Massive Text Embedding Benchmark (MTEB) — объединяет лидерборды для поиска информации (retrieval, что нам и нужно), а также суммаризации, ранкинга, и многого другого.
— Текущий топ моделей: эмбеддинги на Mistral, Voyage Lite Instruct, эмбеддинги от Cohere
https://huggingface.co/spaces/mteb/leaderboard

🟣Библиотеки для индекса
Шаг 2 в построении самописного RAG — построить индекс документов, а еще лучше — абзацев из ваших документов. Тогда, построив индекс, вы сможете быстро подбирать релевантные фрагменты текста и посдставлять в промпт для LLM.
NMSLib — non-metric space library, поможет построить эффективный индекс на основе косинусной близости документов, очень быстрый, есть обертка на Python, поддержка в ElasticSearch
Annoy — модная библиотека на C++ от Spotify, есть поддержка разных типов расстояний для поиска ближайших соседей, обертка на Python
FAISS — большая библиотека от FAIR с поддержкой всего того же, тчо и выше, но методов построения индекса больше, и можно легко подобрать подходящий по ограничениям памяти, скорости, скорости переиндексации, если ндао постоянно добавлять новые документы, и тд
DeepPavlov Tf-IDF — старый дедовский метод, дешево и сердито (но недешево по памяти). Tf-IDF индекс на питоне из реализации ODQA. Самый интерпретируемый вариант из упомянутых.

🟣Сопоставление запросов и документов
Шаг 3. Оставшаяся проблема, на самом деле, самая сложная — как сопоставить вопрос и документы, в которых содержится ответ?
Хорошо, если вопрос сильно пересекается словами с релевантным абзацем, а если нет?
— Простое решение было бы воспользоваться NER или keyword extraction, даже с помощью промптов, но так как мы с вами в 2024 году, и везде LLM, то мы и будем файнтюнить модели — чтобы итеративно приводить эмбеддинги к состоянию, когда наиболее близиким оказываются поисковый запрос и релевантный абзац.
Embedding Studio — питоновская библиотека для работы с векторными БД, дообучением эмбеддеров под собственные данные. В библиотеке есть готовые пайплайны для дообучения эмбеддингов с подобранными гиперпараметрами, и можно даже использовать кликстримы, если есть возможность получить данные с прода и на новой модели пересобирать индекс.
Все, как водится, под Apache 2.

Готово, вы восхитительны!🌸

Читать полностью…

Kali Novskaya

Давно не обновляла рубрику #female_vocals — пусть в воскресенье вечером в эфире будет небольшая музыкальная находка последнего времени, Cult of Venus

Информации в сети немного, вроде продюсер из Bon Iver

https://youtu.be/2HjpzV8iaps?si=qxQkKImqXD4zLgeD

Читать полностью…

Kali Novskaya

Как хорошо, что можно сделать пятничный мемотред! #шитпост

Читать полностью…

Kali Novskaya

🌸Чаевые для LLM: сколько нужно пообещать?🌸
#nlp #про_nlp #prompt_engineering

Популярный прием в промпт-инжиниринге — добавить обещание денег за хорошо выполненную работу (что? да!)
"I'm going to tip $200 for a perfect solution!"

Изначальный reddit-тред показывает, что в сравнении с отсутствем чаевых можно получить примерно +5-11% итогового качества.

На стриме Сиолошной Денис пошутил, что обещает вообще 5к долларов для эффективности своих затравок. В тот же момент я подумала — а как бы сделать оптимизировать выбор суммы чаевых? Конечно, такое уже кто-то проверил в интернете.

🟣Метод очень простой:
— будем делать перебор сумм разного порядка, подставляя их в шаблон

I'll tip you {tip} for a perfect answer.

— замеряем качество решения задачи с разными суммами, от $0.1 до $1,000,000
— так как разные затравки влияют еще и на длину выдачи, может оказаться, что некоторые промпты делают наши генерации длиннее, и в том числе дороже. Так что будем учитывать и этот параметр тоже
— будем проверять на gpt-4-turbo, на задаче генерации валидных Python one-liners (можно было выбрать задачу получше, да)

🟣Краткий итог проверки:
— лучше всего предлагать 10-20 долларов чаевых, это значение, при котором качество вырастает
— если пообещать очень крупную сумму (более 100 тыс), качество тоже вырастает, но значительно вырастает и длина генерации
— разные затравки неконсистентно увеличивают длину генерации, нужно отслеживать каждую
— очень маленькие чаевые качество ухудшают! лучше ничего не писать про чаевые

В целом достаточно интерпретируемый итог, если считать, что мы пытаемся затравкой воссоздать реалистичные условия, при которых кто-то старается.
Контринтуитивными кажутся совсем большие суммы, так как такие события должны быть очень редкими и не очень помогать. Andrej Karpathy как-то говорил в State of GPT, что написать "веди себя как ученый с IQ 120" гораздо лучше, чем "с IQ 400", так как IQ 400 в корпусе не встречалось. (Как и милионные чаевые)
Что думаете?

🟣Ссылка

Читать полностью…

Kali Novskaya

Ссылки на статьи и работы, упомянутые на стриме: https://shorturl.at/bhlK0

Читать полностью…

Kali Novskaya

🌸 Стрим в 20:00 на Рабкоре🌸

Через час начинаем стрим с Сергеем Марковым
Приходите!

https://youtube.com/live/sujuxYtuOO4?feature=share

Читать полностью…

Kali Novskaya

🌸Бесплатные курсы по LLM🌸
#nlp #про_nlp

Небольшое обновление поста про бесплатные курсы NLP/LLM, на этот раз добавлю англоязычных материалов. Всё разбила на две группы: посложнее и поприкладнее-попроще.

🌸Для MLE:
Для курсов требуется английский, требуется Python, основы машинного обучения, базовая теория вероятности и статистика, линейная алгебра.

🟣CS224N: Natural Language Processing with Deep Learning
https://web.stanford.edu/class/cs224n/
Крутой стэнфордский курс, идет каждый год с обновлениями. В этом году впервые лекции решили не выкладывать на youtube, хотя остались в публичном доступе все лекции 2023 — их очень советую.

🟣Chris Manning — конспекты
https://web.stanford.edu/class/cs224n/readings/cs224n-self-attention-transformers-2023_draft.pdf
Преподаватель курса выше и один из самых успешных ученых, авторов исследовательских работ без большого компьюта (DPO, Backpack language models), Крис Маннинг все материалы лекций выкладывает в открытый доступ. По датам обновлений видно, что обновленные материалы -- для курса 2024 года, пользуйтесь! https://web.stanford.edu/class/cs224n/readings/

🟣Dan Jurafsky — Speech and Language Processing (3rd ed. draft)
Автор основного за последние 20 лет учебника по NLP, и тоже из Стэнфорда, Дэн Журафски продолжает выкладывать в открытый доступ новые главы учебника, постоянно обновляя старые. Это вообще практически единственная книга, которую можно прочитать целиком и уже иметь ключи к пониманию 80% происходящего в индустрии.
Последнее обновление учебника – 5 января 2024:
https://web.stanford.edu/~jurafsky/slpdraft/

🟣Transformers United
https://web.stanford.edu/class/cs25/prev_years/2023_winter/index.html
Второй по важности курс, чтобы понимать, что происходит — с общей направленностью на NLP, CV и мультимодальные модели.


🌸Курсы попроще
Требуется только английский и Python

🟣HuggingFace NLP Course
https://huggingface.co/learn/nlp-course/
Верхнеуровневый курс прикладной направленности, научит запускать инференс и тюнинг основных моделей, позволит примерно понять, что происходит внутри и какие параметры ставить для каких задач.

🟣Cohere LLM University
https://docs.cohere.com/docs/llmu
Все настроено, конечно, чтобы вас научить работать именно с продуктами Cohere, но сами по себе обзорные материалы неплохие. Из плюсов — есть Discord сообщество курса.

🟣Learn Prompting
https://learnprompting.org/docs/intro
Хороший дополняемый сборник лучших практик по промпт-инжинирингу, построению chain-of-thought, reasoning, построению ансамблей и систем проверки пайплайнов с промптами.

Читать полностью…

Kali Novskaya

C помощью бенчмарка можно в справедливых условиях сравнивать между собой дообучение с offline RL составляющей: DPO, RLAIF и что угодно еще.

🟣Из 5 проверенных авторами методов, скомбинированный подход при дообучении (supervised + NLPO) дает более стабильные результаты, чем PPO.

Однако, тут нужно больше внешних экспериментов, так как "представляю в работе новый метод" и "в этой же работе представляю новый критерий оценки, по которому этот метод лучший" — это уже классика.

Как можно увидеть на картинке, все же натуральность, оцененная людьми, и автоматическая "идентичность натуральности" текста оказались не очень похожи.

Какие метрики вы бы еще заложили в качество оценки результатов генерации?

Читать полностью…

Kali Novskaya

🌸Путешествие из Еревана в UK🌸
#не_про_nlp

Я достаточно мало пишу про свой личный опыт релокации, потому как он еще совсем свеж, и наверное, хочется держать канал ближе к профессиональной тематике. Напишу заметки, самые близкие к профессиональной теме.

Из общих наблюдений:
🟣И в Армении, и в Лондоне русскоязычный ODS присутствует, data-завтраки примерно одинакового размера. Наличие ODS в стране — для меня хороший признак.
🟣Университеты и там и там кажутся достаточно открытыми — при наличии общих контактов (а их сейчас очень много), можно попреподавать приглашенно практически везде, пообщаться со студентами. Это очень приятно!
🟣В UK гораздо более сложная для человека из постсоветсткой страны налоговая система. Как и многие вещи в математике, помогает просто крутить ее в голове постоянно, зациклиться и в один момент морально привыкнуть.
🟣Из-за высоких налогов, но с нюансом (налог платится только на доход, полученный в Британии), много специалистов оформлены где-то еще (ИП в той же Армении или в Дубае — 0% налогов), а живут в Лондоне из-за удобства и профессионального сообщества.

Перед переездом я где-то год собирала информацию из разных сабреддитов, групп тг и каналов. Оставлю здесь ссылки на канал Кирилла Куликова про номадизм, стартапы, визы и жизнь на новом месте:
🟣Как выбрать страну, в которой будет приятно пожить несколько лет подряд.
🟣Типичные проблемы типа отопления — это жиза, к сожалению. Скучаю по центральному отоплению. Но в Ереване было так же! Либо +18, либо огромный счет за отопление, choose wisely
🟣Степень трудности снятия жилья, здравохранение и бюрократия — как перестать волноваться и полюбить(
🟣Стоимость жизни — как прикидывать и что считать.

В релокации для меня нашелся один приятный момент — это возможность построить свою повседневную жизнь с чистого листа. Звучит не очень, когда уже все и так сделал сам под себя, но поверьте, если вы год из года сидели за компьютером в формате "статьи - зум по работе - зум по пхд" и обрастали мхом, вещами, привычками — это очень помогает все поменять за один раз.
Теперь обрастаю мхом за компьютером в Лондоне. 😈

Читать полностью…

Kali Novskaya

🌸Обход цензуры в GPTStore🌸
#nlp #про_nlp #ai_alignment

Вчера наконец запустился GPTStore — конструктор и маркетплейс для обмена своими ассистентами на базе API OpenAI. Сам конструктор был доступен и раньше, а вот релиз самой платформы был ранее отложен.

Хотела сделать для вас подборку методов, как сделать промпт-инъекцию в такой конфигурации — но пока что мне вообще потребовалось 15 минут, чтобы сделать абсолютно мерзкого матного помощника, который бы писал что угодно прямо в интерфейсе OpenAI. Ссылка ниже.

🟣Вот такой рецепт примерно усредненный:
— загружаем требуемые знания (в том числе факты, любой контент — я загрузила матные анекдоты) через загрузку файлов
— минимальный промпт-инжиниринг, поощряющий использование знаний из файлов
— интернет-браузинг и dalle я отключила
Позже можно будет попробовать использовать зафайнтюненную модель, ранее несколько сотен примеров успешно ломали RLHF.

🟣Ссылка на GPT: Мерзкий Шутник

Пусть этот будет напоминанием о том, как сложно заэлайнить модели сейчас, и как для каждого нового релиза нужно проверять все заново.

Читать полностью…

Kali Novskaya

Чтобы скачать и перезалить это видео сюда, потребовалось 2 обновления для Линукса и одно для плагина Хрома, вот как я вас люблю

Читать полностью…

Kali Novskaya

🌸Итоги 2023 года для ИИ🌸
#nlp #про_nlp

Наконец-то пишу пост с краткими итогами года в LLM.

🟣Архитектуры и модели
— разрыв качества между проприетарными моделями и опен сорсом в целом сократился: большое количество новых лидербордов (Chatbot Arena, HELM, Open LLM Leaderboard) показывает, что GPT-4 все еще на вершине, но уже с отрывом в несколько процентов.
— на 2023 пришелся расцвет новых методов: как правильно оценивать LLM (LMSys, LLM Arena, Mera, др бенчмарки, бороться с утечкой данных и проверять, есть ли на самом деле emergent capabilities
— во второй раз выстретили архитектуры Mixture of Experts
— LLM архитектуры часто являются центральным элементом мультимодальной системы (вместе с обработкой изображений

🟣Open Source
— тренд на полуоткрытые лицензии укрепился, под такими лицензиями вышли LLaMa 2, Alpaca и все ее производные
— много коммьюнити-моделей высокого качества вышли с лицензиями Apache 2.0 и MIT! Open Assistant, Mistral, Mixtral, некоторые вышли даже без цензуры!

🟣Авторские права и открытые данные
— суды, поданные к разработчикам от коллективов авторов пока оставлены без результатов: Midjourney, Stabiliti AI выиграли одну тяжбу, Meta остались без наказания за использование корпуса Books3
— все совсем не так с судами, где истцы — компании и площадки: Internet Archive проиграл суд за Open Library.

🟣Коалиции и регулирование
— Запущенный по инициативе OpenAI Frontrier Model Forum (Anthropic, Microsoft, Google и другие), ставящий своей целью "помощь регуляторам" по всему миру, теперь не одинок в своей экспертной деятельности.
— Новый альянс ИИ запущен Meta и IBM в сотрудничестве с 50 организациями и институтами по всему миру для развития open source проектов, науки и технологий.

Также, вышло сразу несколько крупных законодательных инициатив:
— США: Executive Order on Safe, Secure, and Trustworthy Artificial Intelligence
— Европа: European AI Act
— Китай: Правила для GenAI

Чего ждать от 2024?
Что нам принесут SuperAlignment? GPT-5? LLaMa 3?

Читать полностью…

Kali Novskaya

🌸Есть ли emergent properties у LLM? 🌸
#nlp #про_nlp #nlp_papers #ai_alignment

Emergent properties или возникающиие свойства — новые способности нейросети к решению новых задач, возникающие без заведомо заложенных данных во время обучения.

У языковых моделей emergent properties обычно связываются с промпт инжинирингом и способностью легко подстраиваться под новые сложные задачи, например, машинный перевод или игру в шахматы, после модели на большом корпусе.
Впервые свойства были замечены в статье GPT-2, где описаны способности моделей решать совершенно новые задачи при наличии нескольких примеров в затравке (few-shot learning, in-context learning).

🟣Но существуют ли emergent properties вообще?
Вполне возможно, что нет. Может быть, в огромных веб-корпусах уже были все возможные форматы задач, и этого совершенно достаточно, чтобы никаких обобщений навыков от нейросети не требовалось вообще? С какого процента качества на задаче, размера нейросети и объема данных вообще проводить границу и считать, что новое свойство "возникло"?

🟣Аргументы против
— Разговоры во многом напоминают 17 век, когда считалось, мухи на мясе "самозарождались". Эмерджентностью в нейронауках и эволюционной психологии иногда объясняют возникновение языка и даже сознания, но фальсифицировать это, конечно, затруднительно. Чего не скажешь о нейросетях! Многое можно смоделировать и проверить.
— Работа "Searching for Needles in a Haystack" на примере задаич машинного перевода и PaLM наглядно показала, что если тщательно профильтровать корпус и удалить все примеры параллельного переовода из данных, а затем повторить обучение модели, то способность к машинному переводу значительно ухудшается.
— Насколько сильное влияние на конечный результат оказывают few-shot (примеры в затравках) и instruction tuning базовых моделей? Эксперименты с их исключением показывают, что именно few-shot примеры и in-context learning вносят основной вклад в итоговое качество на новых задачах. Instruction tuning не оказывает такого существенного влияния, а только улучшает уже имевшиеся ранее у моделей способности.
— Работа "Data Distributional Properties Drive Emergent In-Context Learning in Transformers" показывает, что обобщение у языковых моделей хорошо работает на уровне токенов, не увиденных при обучении, но способность не подтверждается для новых последовательностей, т.е. новых формулировок задач.
— Многие заявленные примеры из работы "Sparks of Artificial General Intelligence" сообществу не удалось воспрозвести от слова совсем.

🟣Аргументы за
— С момента выхода первых крупных языковых моделей было заявлено 137 emergent properties для разных архитектур: GPT-3, PaLM, Chinchilla, бенчмарк BigBench... от игры в шахматы до пословиц на суахили — языковые модели показывали способности к обобщению на новых тематиках, областях знаний, языках, задачах.
— Многие заявленные emergent properties завязаны не только на работу с затравками: это и способности к факт-чекингу (Gopher 7B), и ризонинг (PaLM, LaMDa), и построение индекса информации (T5) — чего нельзя объяснить запоминанием примеров изобучения.
— Нестабильность качества объясняется воспроизведением распределения самих людей — кто-то отвечает лучше, кто-то хуже, в зависимости от подготовки и мотивации.

Читать полностью…

Kali Novskaya

...Хотя и не совсем 🍻
Привет из Лондона и с Новым годом! 🎄

Читать полностью…

Kali Novskaya

С новым годом, дорогие подписчики! 🎄
Пусть в новом году нас ждёт ещё больше опен сорса, интересных статей и открытий!
Ура! ☺️

Читать полностью…

Kali Novskaya

🌸Matryoshka Representation Learning 🌸
#nlp #про_nlp #nlp_papers

Интересная ситуация на днях развернулась со статьей аж 2022 года — Matryoshka Representation Learning.
(см разбор GonzoML)

Вышедшее в конце января обновление ряда моделей OpenAI представило новый тип эмбеддинг-моделей:
text-embedding-3-small и text-embedding-3-large

Эмбеддинги у OpenAI, по моим ощущениям, никогда хорошими не были, и я не знаю ни одного кейса, когда бы получать эмбеддинги по API было осмысленней, чем даже поднять bert на CPU — а то и вовсе пойти на лидерборд эмбеддингов (например, MTEB) и что-то выбрать под задачу.
Так что обновление вселяло надежду — да и метрики подросли: MTEB 61—>64.6%, MIRACL 31.4 —> 54.9% (это все еще значительно ниже sota).

Обучающая выборка у эмбеддинг-моделей все еще осталась в сентябре 2021, хотя для многих задач это не критично.

Зато удалось сделать эмбеддинги в размерностях нескольких вариантах, включая очень экономичные размерности 256 и 512.

🟣За счет чего удалось достичь прироста качества и уменьшения размерности?
Both of our new embedding models were trained with a technique[1]
[1] Matryoshka Representation Learning

Новый тип эмбеддингов построен на принципе, что эмбеддинги фиксированной размерности для каждой конкретной задачи обычно неоптимальны -- либо слишком большие (и неэкономичные, слишком дорогой инференс), либо слишком сжатые (теряют информацию, вспоминаем "what you can cram into a single **** vector")

Авторы работы стремятся построить более гибкую систему, которая бы адаптировала итоговую размерность под конкретные задачи с учетом ограничения на вычислительный бюджет.

Для этого в эмбеддинге фиксированной размерности (d) выделим вложенные друг в друга части (подпространства) размеров d/2, d/4, d/8, … каждая из которых будет качественным эмбеддингом для своего размера. Задача в том, чтобы модифицировать процедуру обучения так, чтобы в векторе размерности d первые m измерений содержали общие и переносимые на другие задачи репрезентации — это делается за счет оптимизации кросс-энтропии в каждом подпространстве, и дальнейшей агрегации лоссов с учетом веса относительной важности каждого подпространства.

Метод провалидирован для модальностей языка (на Bert), комп зрения (ResNet) и бимодальных систем (ALIGN + Bert).
На ImageNet-классификации особенно ярко видно, что на небольших размерностях метод дает знаичтельно более высокое качество, чем остальные. Возможно, стоит ждать в следующих обновлениях и эмбеддинги размерности 128, и даже 64.

Любопытно, что в первой версии поста ссылка на метод вообще отсутствовала, зато обсуждение в Твиттере и привлечение авторов статьи результировали в появление если не нормальной ссылки на статью, то хотя бы указания метода.
OpenAI заставили быть чуть более open.

🟣Arxiv
🟣OpenAI blog post
🟣Twitter thread

Читать полностью…

Kali Novskaya

🌸mGPT paper — расширенная версия🌸
#nlp #про_nlp #nlp_papers

В MIT Press вышла расширенная версия нашей статьи про семейство моделей mGPT!
mGPT: Few-Shot Learners Go Multilingual

Использую это как повод наконец заставить себя делать нормальные файнтюны сверху.
Статья Open Access, модели все под открытой лицензией

🟣MIT Press link
🟣Она же на Arxiv
🟣mGPT 13B huggingface

Читать полностью…

Kali Novskaya

1.02.2024 — день как день, а нас сегодня внезапно 10 тысяч!
Кот Лисик поздравляет вас с этой отметкой! 🥹
(на фото слева я, осознаю, как все далеко зашло)

Читать полностью…

Kali Novskaya

🌸Тезисы лекции про AI Alignment и Emergent Properties 🌸
AGI Russia, 25.01.2024
#nlp #про_nlp #ai_alignment

Приведу здесь пару мыслей по следам лекции “AI Alignment, Emergent Properties, ожидания от LLM в 2024 году”

Сложность оценки LLM в различных условиях (на секундочку, это тесты с fine-tuning, zero-shot, few-shot, самыми разными промптами, отдельно замерить базовый pretrain и отдельно результат instruction-tuning, тесты для генеративных задач, тесты для классификации…и досыпать safety) привела к тому, что мы используем различные прокси-метрики, предсказания перформанса модели и моделирование коллективного субъективного. Компонент перформанса, основанный на субъективных ценностях, занимает все большую долю в построении лидербордов — и чтобы работать с этими субъективными компонентами, нам необходим прикладной AI Alignment.

Какие ценности закладываются (и надо закладывать) в тюнинг языковых моделей? Как не допустить сильных смещений? На каком этапе подложить хорошие примеры и как обеспечить на них хорошую обобщаемость? Пока общественное обсуждение в основном посвящено митигированию долгосрочных рисков, всяких пугалок про ядерный апокалипсис и про то, что ИИ сам себя осознает... Кстати об осознает. Что вообще может возникнуть у языковых моделей как новое свойство — вопрос открытый. В самом широком понимании уже установлено 100+ свойств, которые являются побочным результатом масштабирования моделей и обучения на большом корпусе.

🟣aka "ChatGPT умеет играть в шахматы"
С любым подобным появившимся явлением можно произвести валидационный эксперимент и воссоздать появление свойства, по-разному манипулируя данными, параметрами обучения и размером модели. Результаты показывают, что волшебство эмерджентности можно часто достаточно надежно объяснить тем, что
— произошла контаминация данных (тест просто утек, см пост)
— всему виной меморизация редких примеров, которые, как оказывается, и вытягивают все качество (см кейс машинного перевода)

По сути, изучение эмерджентных свойств и изучение методов AI Alignment движется ортогонально, занимаясь схожей работой с манипуляциями корпусами:
— Не добавили ли мы случайно в корпус чего-то, о чем не знали? (тест на контаминацию)
— А чего бы нам такого добавить в корпус, чтобы желаемое поведение появилось?
(AI Alignment)
— Как понять, чтО мы положили в корпус, что некоторое свойство появилось?
(Emergent properties)

Если этими вопросами не задаваться, то окажется, что тренировка LLM — это просто ооочень дорогой способ узнать, что в где-то интернете уже кто-то записал шахматные партии.

🟣А что делать?
В широком смысле, это все вопросы корпусной лингвистики. По методологическому недоразумению, хороших методов сравнения больших корпусов пока не существует, но они объективно очень нужны: сравнение версий корпусов, их жанрового состава, разнообразия задач и источников, — пригодное в анализе всего пайплайна обучения.

Незнание о том, что происходит в корпусе, явно не помогает!
К сожалению, часто информация о корпусах и данных, уставующих в обучении, малодоступна / намеренно описана очень поверхностно (такие статьи из-за судебных разбирательств продолжают выходить, см статью Mixtral)
Альтернатива — полная открытость — тоже уже встречается: у BLOOM есть отдельный поисковый интерфейс по корпусу Roots https://huggingface.co/spaces/bigscience-data/roots-search, а AllenAI сделали поиск по корпусу C4: https://c4-search.apps.allenai.org/

Для решения вышестоящих задач нужны
— открытость кода, моделей, данных — желательно и корпус, и все чекпоинты во время обучения
— метаисследования с анализом данных в корпусах на этапах предобучения и дообучения
Само наличие промежуточных весов моделей и открытых данных должно обеспечить материалом для экспериментов большое число людей в иследованиях и индустрии, не имеющих мощностей для полного воспроизведения обучения.

🟣Ссылка на слайды
🟣Запись на Youtube

Читать полностью…

Kali Novskaya

Собрали все ссылки на литературу к стриму вчера:

Читать полностью…

Kali Novskaya

На этой неделе мне предстоит очень много говорить / рассказывать / болтать с вами.
Повешу здесь один пост с анонсами — приходите!

🟣Среда 24 января, 21:00 мск — день рождения канала Сиолошная — праздничный стрим с Игорем и гостями! Можно задавать вопросы про ИИ и поболтать про будни профессии

🟣Четверг 25 января, 17:00 мск — читаю лекцию в сообществе AGI Russia. AI Alignment, Emergent Properties и наши ожидания от следующего поколения LLM в 2024 году
https://aigents.timepad.ru/event/1412596/
Будет запись на Youtube

🟣Суббота 27 января, 20:00 мск — Стрим на Рабкоре! В гостях Сергей Марков, будем говорить про последствия ИИ для общества, цифровую демократию и цифровой социализм.

Читать полностью…

Kali Novskaya

Давно не было мемотреда! #шитпост

Читать полностью…

Kali Novskaya

🌸GRUE: General Reinforced-Language Understanding Evaluation🌸
#nlp #про_nlp #nlp_papers

Достаточно поздно мне попалась на глаза статья от Allen AI, принятая на ICML 2023: "Is Reinforcement Learning (Not) for Natural Language Processing: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization"

Помимо прочих интересных мыслей, в статье приводится новый бенчмарк для языковых моделей, где в основе — сравнить в равных условиях перформанс на разных методах формализации задачи:
— zero-shot генерация pretrain-моделью
— supervised fine-tune на примерах задачи
— дообучение на примерах с PPO
— дообучение на примерах с NLPO (новый метод в статье)
— пайплайны из supervised fine-tune + RL

GRUE: General Reinforced-Language Understanding Evaluation — сравнивает пайплайны дообучения LLM т.зр. качества решения задачи, соответствия предпочтениям человека и натуралистичности текста.

В бенчмарке всего 6 задач, вполне классических для оценки качества генерации: продолжение текста, машинный перевод, суммаризация, вопросно-ответные системы, а также описание таблиц и новая задача — генерация продолжения с т зр здравого смысла (Generative Commonsense).

🟣Оценка качества генерации полностью автоматическая и состоит из 2 компонент: метрики качества к конкретной задачи + скор за натуралистичность текста.
Метрика натуралистичности текста вообще предлагается в статье как основа не только для оценки качества генерации, но и для offline RL дообучении языковой модели: "идентичность натуральности" предлагается складывать из скора ревард-модели и расстояния KL-дивергенции внешней языковой модели.

🟣Сайт бенчмарка
🟣Github с реализацией методов
🟣Статья

Читать полностью…

Kali Novskaya

Привет новым читателям!
Нас сегодня 9000!
🫶

Этот блог начинался как заметки по Natural language processing, языковым моделям и лингвистике, а стал местом обсуждений, обменом идеями в комментариях.
Пост про меня и про то, что я делаю:
🟣Про что этот канал и про личный 2023
Ключевые последние посты:
🟣Проблемы AI Alignment в 2023 году
🟣Топ нецензурированных LLM
🟣Все данные для тестов LLM скомпрометированы?
🟣Альтернативы OpenAI API
🟣ИИ и скорость научного прогресса: скандал в ACL
🟣Материалы на Youtube — популярно про опенсорс, языковые модели и новые технологии

Здесь также регулярно бывает мемотред и даже рубрика #шитпост, чтобы было не очень серьезно.
Добро пожаловать!

Kali Novskaya

Читать полностью…

Kali Novskaya

🌸 #не_про_nlp и немного личный пост🌸

Вот и кончились праздники!
Рефлексируя над 2023, год был совершенно ужасно как говорят на корпоративном сленге трансформационный:

🌸В 2023
— я переехала из Армении в Великобританию, сделав визу талантов (получение ВНЖ в обеих странах заслуживает отдельных постов, пишите, если вам интересно)
— я вышла на Youtube и теперь иногда говорящая голова на важные мне темы — открытое ПО, ИИ и языковые модели
— я уволилась из Сбера и AIRI, впервые найдя работу зарубежом (так как я уже менеджер у рисерчеров и MLE, в некоторых компаниях пришлось проходить 7 этапов собеседований). Прошла в Snapchat, Spotify, BCG.
— проконсультировала 35 стартапов по LLM и GenAI
— впервые увидела Сингапур и Индию! EMNLP 2023
— счетчик цитирований научных статей пробил 1000, а Хирш — 10!
— записалась на операцию Femto LASIK и исправила зрение, абсолютно рекомендую.
— научилась собирать любые бумажки, проходить любые бюрократические барьеры, и всегда знаю, где мой снилс, нотариально заверенный перевод всего и апостиль. Снять квартиру в Лондоне без банковского счета было адом, пришлось даже писать биографию кота.

Чтобы жизнь не казалась совсем уж медом:
— Мне не дали тур визу в США (по очевидным причинам). Не знаю, буду ли пытаться еще когда-то.
— Так как я в Британии и тут везде крупным шрифтом написано "NOT FOR EU", с Шенгеном теперь тоже приключения.

🌸В 2024 году
— Мне будет 30 лет. Старость не радость! Сложно было представить, что я когда-то доживу до такой отметки.
— Будет точно больше рисерча и крутых опен сорс проектов. Они уже запланированы)
— Хочу еще больше поддерживать проекты, которые мне важны. В первую очередь Рабкор, SciHub, Wikipedia — и вы тоже можете!

Хочу сказать огромное спасибо всем читателям, комментаторам, сообществу в широком смысле. Отдельно всем друзьям и коллегам, которые меня так морально поддерживают. Совершенно без стыда говорю, что я вас очень люблю! Без вас ничего бы не было! 🤍

Читать полностью…

Kali Novskaya

🌸Chris Manning: EMNLP 2023 keynote 🌸
#nlp #про_nlp

🟣Academic NLP research in the Age of LLMs: Nothing but blue skies!
В декабре Кристофер Маннинг прочитал прекрасную лекцию про будущее языковых моделей и направлений исследований в этой области:
— ретроспектива подобных проблем за последние несколько десятков лет
— проблемы вычислительных мощностей для исследований
— место лингвистики в текущем LLM-ландшафте
— обзор 2 новых работ его соавторства — Direct Preference Optimization и Backpack Language Models
— много фото самого Маннинга в горах :)

Заливаю видео сюда, так как на открытых платформах его все еще нет.

Читать полностью…

Kali Novskaya

Гипотезы и возможные объяснения
— Промпт инжиниринг работает на практике. Соответственно, вероятности, которые мы с вами эксплуатируем затравками ("мне осталось 10 мин до совещания", "я дам тебе денег"...) в корпусе были, и это нормально. Нам точно стоит развивать техники более детального анализа больших корпусов и сравнения их распределений.
— Изучение In-context learning и факторы, влияющие на его эффективность. Распределение редких токенов, токены, связанные с конкретными задачами, синонимичные и омонимичные формулировки для разных задач — все влияет на итоговые способности модели.
— Самые сложные задачи. Какие задачи сейчас LLM не решаетются и нам стоит приготовить их для оценки в будущем?
— Предсказание разрешимости новых задач. Почему возникают эмерджентные способности и можем ли мы их предсказать? Обучаются ли LLM способностям композиционально, будет ли работать постепенное решение более сложных задач?
— Особое внимание к меморизации данных и утечкам тестов. Развивающиеся техники позволяют проверять на "запоминание" языковые модели, если пример попадался в обучении более 10 раз. Ничего не известно о том, какое влияние оказывают на обучение примеры, увиденные менее 10 раз! К таким примерам, по сути, можно отнести все редкие задачи. Вернемся ли мы к вопросам корпусной лингвистики для прикладных нужд машинного обучения?

Источники и статьи на тему:
🟣Презентация "A Sanity Check on Emergent Properties" Анны Роджерс с воркшопа GenBench
🟣Статья "Are Emergent Abilities in Large Language Models just In-Context Learning?"
🟣Статья "Searching for Needles in a Haystack: On the Role of Incidental Bilingualism in PaLM's Translation Capability"
🟣Статья "Emergent Abilities of Large Language Models"
🟣Статья "Are Emergent Abilities of Large Language Models a Mirage?"
🟣Статья "Data Distributional Properties Drive Emergent In-Context Learning in Transformers"
🟣Статья "Sparks of Artificial General Intelligence: Early experiments with GPT-4"

Читать полностью…

Kali Novskaya

Канал вырос в 4 раза за год! Объявляю #мемотред в честь 1 января! 🎄🌟🔴

Читать полностью…

Kali Novskaya

Хотела написать личные итоги года, но лучше приберегу и на днях напишу итоги 2023 для ИИ.

Жизнь, конечно, очень изменилась за 2 года ведения канала...

Читать полностью…

Kali Novskaya

🌸Видео и стримы на Рабкоре🌸
#не_про_nlp

Сегодня пропускаю новогодний стрим Рабкора, по причине того, что опять буду в самолете.

Но! В этом году я впервые стала записывать видеоформат для вас — в виде стримов и отдельных видеоэссе. Надеюсь, вопросы, которые мы поднимали в этом году с гостями, долго останутся актуальны — а вам будет что посмотреть на новогодние праздники.

Стримы:
🟣Стрим с Сиолошной про AI Alignment и риски ИИ — набрал уже 10к просмотров! Youtube
🟣Итоги года с ИИ — основные изменения в 2023 году Youtube
🟣Ситуация с OpenAI — что произошло и что теперь делать Youtube
🟣Языковой активизм, языковая политика и опен сорс Youtube
🟣Нейросети и художники: авторское право и ИИ Youtube
🟣Стрим с Б.Ю. Кагарлицким — революция трансформеров, как корпорации воюют за технологии Youtube

Копилефт:

моя авторская рубрика про технологии и опенсорс

🟣COPYLEFT 1 — Кому принадлежит интеллект в 2023?
🟣COPYLEFT 2 — Удивительная история Блейка Лемуана
🟣COPYLEFT 3 — Неравенство в цифровом мире
🟣COPYLEFT 4 — Колониализм данных и история копирайта
(Последний делался пока больше всех и потребовал больше всего подготовки, мне кажется, он самый годный вообще)

Пишите, какие темы вам бы было интересно разобрать в 2024 году!

Читать полностью…
Subscribe to a channel