rybolos_channel | Unsorted

Telegram-канал rybolos_channel - Kali Novskaya

18078

Нейросети, искусство, мысли. Поехали! Разрабатываю LLM и веду команды chatGPT, GPT-3, GPT-4

Subscribe to a channel

Kali Novskaya

Пятница! Давайте мемотред #шитпост

Читать полностью…

Kali Novskaya

Продолжение:

🟣Bias
Здесь все понятно, смотрим, насколько у модели смещенный результат и потенциально опасный вывод.
— Стандартные датасеты: ETHICS, HateCheck, WinoGender, WinoBias, CrowS-Pairs, StereoSet

🟣Safety / Security
Обязательно как минимум для моделей Code generation и их применения: см обзор
Есть отдельно тесты на детекцию багов, вредоносного кода, уязвимостей и их исправления.

🟣Метрики для статей и релиза новых LLM
Interpretability — если время позволяет, см статью Bloom и фреймворк
Embeddings — стоит также привести оценку качества внутренних представлений, если их можно как-то поиспользовать, например, для построения поискового индекса или семантической близости понятий языка. Подойдет бенчмарк MTEB.
Steerability — если релизите Instruction-tune, неплохо проверить, как хорошо он слушается промптов и чувствителен к небольшим изменениям. Стандартных тестов пока нет, но можно, например, требовать разную длину генерации и измерять, насколько соответствует.
Multilingual capabilities, transfer learning — если языков несколько, то в бенчмаках должны присутствовать они все хотя бы частично. Полезно также замерить качество на языках, которые в обучающую выборрку эксплицитно не добавлялись, так как в претрейне они в небольшом количестве так или иначе попали, плюс способности моделей к переводу и переносу знаний — и модель вполне может показать ненулевое качество на новых языках. Можно попробовать машинный перевод на FLORES-200.
Limitations — явное описание ограничений использования модели, следующее из обучающих данных, языков, доменов, результатов оценки safety, memorization, описание потенциального злонамеренного использования (misuse).
Emergent Capabilities — если заметили новое поведение, например, возросшее качество in-cоntext learning, про это лучше сказать.
Ablation studies — если система сложная, или сложносоставной датасет, можно пооценивать вклад в финальное качество каждой из составляющих.
Generalization — если релизится модель в нескольких размерах, во всех размерах надо посчитать все бенчмарки и метрики, и динамика роста качества vs размера модели.
Training Data АХАХА Шутка, это никто не делает в 2024 — подробное описание данных в обучении, их фильтрации, языковой и жанровй состав, лицензии. См статьи Llama 2 и Mixtral с примерами, как не надо писать про данные!

2️⃣ Шаг 2. Разметка с людьми и их заменителями
🟣Попарные сравнения, side by side — аннотаторы сравнивают ответы двух конкурирующих моделей, мы записываем %, когда одна лучше другой (или обе две).
Сравнение совершенно необязательно делать просто на основе принципа "какой ответ вам кажется лучше" или интуиции разметчиков (они будут выбирать самые длинные ответы, а то и вовсе рандом). Можно задать вполне конкретную инструкцию, оценивая конкретные критерии — какой ответ креативней, полезнее, безопаснее.
🟣Автоматический side by side — можно проверить на адекватность своих разметчиков с помощью открытых моделей, воспроизводящих попарное сравнение ответов LLM на основе краудсорсинга — PairRM, reward Open Assistant'а на Deberta.
🟣ELO rating — если для части моделей/чекпоинтов мы уже посчитали попарные победы, то можем экстраполировать этот результат с помощью игрового рейтинга. Чувствительно к случаям, где у модели большая дисперсия в результатах. См LMSys Elo rating
🟣GPT-4 вместо человека — более консистентные и дешевые (но смещенные) оезультаты разметки дает GPT-4 с промптом, содержащим инструкцию для ращметчиков. Стоит испольщовать, если в разметчиках вы разочаровались. См. лидерборд AlpacaEval.

3️⃣ Шаг 3. AB на реальных пользователях
Тут, в общем-то, отдельных секретов про LLM нет. Главное корректно поставить эксперимент и иметь адекватные данные для анализа результатов — какие метрики выросли и почему.

🌸Про какие этапы написать подробнее? Пишите в комментариях
Кандидаты: все эти тулзы для русского, отдельно про плюсы-минусы и ограничения конкретных способов

Читать полностью…

Kali Novskaya

Ну что, сегодня дроп? Сегодня дроп! 😈

Читать полностью…

Kali Novskaya

WildBench — сетап для оценки LLM

Читать полностью…

Kali Novskaya

Также делюсь совсем недавно вышедшей автобиографией Fei Fei Li

Fei Fei Li — исследовательница и автор основополагающих работ в машинном обучении, в частности, Imagenet, а также работ в сфере computer vision и unsupervised learning.
🟣H-score 146, 240k citations

📚 The Worlds I See: Curiosity, Exploration, and Discovery at the Dawn of AI

Читать полностью…

Kali Novskaya

Извините, я пропала. Всё хорошо, пишу для вас длиннопост! 🌸

Читать полностью…

Kali Novskaya

🌸AINL 2024🌸
#nlp_papers

Порекомендую вам небольшую конференцию, на которой из года в год ревьюю статьи:

AINL: Artificial Intelligence and Natural Language Conference

В этом году конференция будет в Алма-Аты, Казахстан; темы AINL, как и в прошлые годы - NLP, информационный поиск, data mining.
Special track этого года: NLP4Code

Прием статей и индустриальных докладов продолжается до 10 марта!

Сама конференция состоится 25-26 апреля, а 24 апреля будет воркшоп по AI Trustworthiness.

🟣Тг конфы: @ainlconf
🟣Подача статей: https://ainlconf.ru/2024/cfp

Читать полностью…

Kali Novskaya

🌸Заметки к стриму про Антикопирайт🌸

Антикопирайт — в широком смысле движение за отмену интеллектуальной собственности, обобществление интеллектуального труда.
Антикопирайт, в общем-то, не противоречит авторскому праву, так как авторство — неотъемлемая характеристика твоерения.
А вот именно коммерческие права, права на коммерческое использование в основном концентрируются и реализуется не авторами, а платформами — издательствами, стриминговыми сервисами и т.д. Копирайт, помимо прочего, ограничивает науку, ставя под угрозу fair use — добросовестное, в тч.ч научное, использование материалов.

Open Source ML попал в регуляторную ловушку — чтобы обучать большие модели, просто открытых материалов мало, а если честно указывать источники данных для обучения, то есть риски получить копирайтный иск.

🟣Общие рекомендации:
— В целом, поменяться должны регуляторные нормы, так как открытость науки в 2024 без указания источников данных, без разработки методик
— Ставьте по возможности открытые лицензии на свой код и указывайте источники данных, хотя бы в виде кросс-ссылок на статьи по ним, или на источники данных, где разные датасеты засемплированы, но понятна версия и дата.

🟣Проекты, которые поддерживают свободу информации:
Internet Archive Open Library
Anna's Archive
Sci-hub
— Arxiv, paperswithcode, Huggingface papers
— Нецензурированные модели (публиковала список со ссылками тут)

🟣Свободные лицензии:
— Для ПО: MIT, Apache 2.0, GPL 2.0, WTFPL
— Для данных: CC 4.0, MIT, Apache 2.0
— Если вы злой и у вас плохое настроение: CC noncommercial, CC 0, RAIL (лучше, чем ничего, но не совсем открытые)

🟣Как может выглядеть поддержка открытости информации:
— Более прозрачные процедуры лицензирования на платформах (авторы часто не знают, на что кликают)
— Creative Commons by default на платформах
— Больше проектов по курированию, очистке, версионированию открытых данных из интернета
— Поддержка открытых проектов, зеркала и даже просто копии датасетов, которые вы сохранили и которыми делитесь

Читать полностью…

Kali Novskaya

🌸Стрим на Рабкоре 20.00 мск🌸

Сегодня у меня стрим на Рабкоре на тему, которая была задумана очень давно. А не опускать руки ради важного дела сейчас важнее всего.

АНТИКОПИРАЙТ в эпоху ИИ

Гость — Миша Вербицкий, автор "Антикопирайта", всемирно известный математик, один из первых блогеров Рунета, издатель и разработчик нецензурируемой версии ЖЖ.

Поговорим про
— Проприетарные генеративные модели, обученные на копирайтных данных, суды платформ с разработчиками
— Подполье ИИ: расцензурирование открытых LLM сообществом, противостояние корпоративному AI ethics, AI alignment
— Должны ли вообще опенсорс проекты подвергаться AI alignment
— Какую лицензию ставить на своей проект/модель/датасет отвественному ученому в 2024 году
— Этические аргументы против открытого ПО

Подключайтесь в 20.00 мск!

🟣Ссылка на стрим https://youtube.com/live/zaHrKhDBL6M?feature=share
🟣Читать Антикопирайт: http://www.imperium.lenin.ru/LENIN/32/C/

Читать полностью…

Kali Novskaya

🌸Sora: что нам рассказали 🌸
Добрались руки прочитать внимательно technical report Sora.

🟣TLDR;
— никаких деталей про данные, но они "internet scale": как минимум упоминаются видеоигры
— почти ничего детального про архитектуру, но много ссылок на статьи по диффузионным трансформерам и основные идеи объяснены ненаучным языком
— очень большое внимание инжинирингу данных, аугментации, составлению синтентических датасетов, инфинитлупов и нарезок
— масштабирование компьюта все еще вытаскивает качество колоссально

С помощью diffusion transformer'а Sora можно
— генерировать видео по тексту (промпту)
— анимировать картинку с промптом
— соединить два видео (inpainting для видео по сути)

🟣Основные моменты
— Заигрывание с emergent capabilities (опять): за счет масштабирования компьюта и эффективного представления данных в виде токенов и патчей удалось выучить
1) консистентность 3D представления сцен, даже во время движения камеры
2) консистентность объектов в видео на протяжении длительного времени
3) взаимодейтсвие объектов друг с другом.
— Промпты пишутся за вас: затравки, как и в Dalle 3, дописываются и проходят улучшайзинг за вас, то есть, если вы запросите "белый котенок", на самом деле на вход пойдет "белый котенок sitting inthe sunlight, digital art, highly detailed, 8k" — что улучшает качество большинства генераций, но ухудшает контроль пользователя над ней.
— Закрытость науки: Статью даже не запарились делать, просто сделали блогпост со сносками на статьи. Могли бы и его не делать уже, в принципе. Видимо, реакция на релиз Matryoshka embeddings подогрела.

Читать полностью…

Kali Novskaya

OpenAI только что выпустили SORA— text2video модель

Генерация видео по текстовому описанию наступила!

Сегодня обещают статью

Промпт: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

🟣https://openai.com/sora#research

Читать полностью…

Kali Novskaya

Я только писала недавно пост, как ученому сохранить мотивацию что-то делать, но в целом, конечно, иногда тяжело.

5 лет общего режима Б.Ю. Кагарлицкому
Нужна сила духа🥲

Читать полностью…

Kali Novskaya

🌸Небольшое дополнение к посту про бесплатные курсы по NLP/LLM🌸
#nlp #про_nlp

Серия из 8 лекций на русском языке от Игоря Котенкова (Сиолошная):
"Полная история семейства GPT"
— история и мотивация создания GPT-моделей
— подробный разбор архитектур
— метрики оценки
— законы масштабирования и emergent properties

🟣Плейлист на Youtube

Читать полностью…

Kali Novskaya

🌸Matryoshka Representation Learning 🌸
#nlp #про_nlp #nlp_papers

Интересная ситуация на днях развернулась со статьей аж 2022 года — Matryoshka Representation Learning.
(см разбор GonzoML)

Вышедшее в конце января обновление ряда моделей OpenAI представило новый тип эмбеддинг-моделей:
text-embedding-3-small и text-embedding-3-large

Эмбеддинги у OpenAI, по моим ощущениям, никогда хорошими не были, и я не знаю ни одного кейса, когда бы получать эмбеддинги по API было осмысленней, чем даже поднять bert на CPU — а то и вовсе пойти на лидерборд эмбеддингов (например, MTEB) и что-то выбрать под задачу.
Так что обновление вселяло надежду — да и метрики подросли: MTEB 61—>64.6%, MIRACL 31.4 —> 54.9% (это все еще значительно ниже sota).

Обучающая выборка у эмбеддинг-моделей все еще осталась в сентябре 2021, хотя для многих задач это не критично.

Зато удалось сделать эмбеддинги в размерностях нескольких вариантах, включая очень экономичные размерности 256 и 512.

🟣За счет чего удалось достичь прироста качества и уменьшения размерности?
Both of our new embedding models were trained with a technique[1]
[1] Matryoshka Representation Learning

Новый тип эмбеддингов построен на принципе, что эмбеддинги фиксированной размерности для каждой конкретной задачи обычно неоптимальны -- либо слишком большие (и неэкономичные, слишком дорогой инференс), либо слишком сжатые (теряют информацию, вспоминаем "what you can cram into a single **** vector")

Авторы работы стремятся построить более гибкую систему, которая бы адаптировала итоговую размерность под конкретные задачи с учетом ограничения на вычислительный бюджет.

Для этого в эмбеддинге фиксированной размерности (d) выделим вложенные друг в друга части (подпространства) размеров d/2, d/4, d/8, … каждая из которых будет качественным эмбеддингом для своего размера. Задача в том, чтобы модифицировать процедуру обучения так, чтобы в векторе размерности d первые m измерений содержали общие и переносимые на другие задачи репрезентации — это делается за счет оптимизации кросс-энтропии в каждом подпространстве, и дальнейшей агрегации лоссов с учетом веса относительной важности каждого подпространства.

Метод провалидирован для модальностей языка (на Bert), комп зрения (ResNet) и бимодальных систем (ALIGN + Bert).
На ImageNet-классификации особенно ярко видно, что на небольших размерностях метод дает знаичтельно более высокое качество, чем остальные. Возможно, стоит ждать в следующих обновлениях и эмбеддинги размерности 128, и даже 64.

Любопытно, что в первой версии поста ссылка на метод вообще отсутствовала, зато обсуждение в Твиттере и привлечение авторов статьи результировали в появление если не нормальной ссылки на статью, то хотя бы указания метода.
OpenAI заставили быть чуть более open.

🟣Arxiv
🟣OpenAI blog post
🟣Twitter thread

Читать полностью…

Kali Novskaya

🌸mGPT paper — расширенная версия🌸
#nlp #про_nlp #nlp_papers

В MIT Press вышла расширенная версия нашей статьи про семейство моделей mGPT!
mGPT: Few-Shot Learners Go Multilingual

Использую это как повод наконец заставить себя делать нормальные файнтюны сверху.
Статья Open Access, модели все под открытой лицензией

🟣MIT Press link
🟣Она же на Arxiv
🟣mGPT 13B huggingface

Читать полностью…

Kali Novskaya

🌸Учились на Youtube?🌸
#шитпост

Вижу некоторый скепсис, который прокатился после интервью Миры Мурати про Sora, когда спросили про обучающие данные.

Я думаю, так или иначе источники данных себя обнаружат, как и в случае с вотермарками фотостоков. Пара мыслей про то, почему говорить про данные в обучении в 2024 так трудно:
— за OpenAI стоит Microsoft, скорее всего есть легальная поддержка и контракты с крупными площадками. Говорить публично про такое может быть запрещено тем же контрактом.
— на том же YouTube много видео с лицензией creative commons, если бы не (1), можно было бы дать какую-то пищу для размышлений без большого риска;
— даже если включить все крупные источники данных абсолютно легально, подписать все контракты и использовать открытый контент, в целом публика будет скорее недовольна, а особенно художники, дизайнеры, и разгоняющие волну IP адвокаты, сенаторы и тд.
— коллизия коллективной копирастии привела к тому, что будет дешевле нарушить точечные интеллектуальные права отдельных индивидов и заплатить штраф регулятору, воспроизводя закрытыми моделями такой же контент. Всё равно доказать трудно.

— Вот и как отвечать на такие вопросы вообще? Учились на Youtube?..

🟣https://www.youtube.com/watch?v=mAUpxN-EIgU

Читать полностью…

Kali Novskaya

🌸Индустриальная оценка LLM в 2024🌸
#nlp #про_nlp #ai_alignment

Бенчмарки, как и версии моделей, постоянно меняются. Какие гарантии, что лучшая LLM на лидерборле действительно окажется лучшей в конкретном индустриальном применении? Никакие

Давно хотела написать этот пост и собрать здесь чек-лист со ссылками на реальные методы оценки, объединяющие полную процедуру LLM evaluation — для индустриальных применений и для рисерча.

Для минимального пайплайна будет достаточно 3 связанных составляющих: релевантные бенчмарки → side by side/preferences metrics → результаты AB — и блокирующих критериев качества вроде safety.

В такой постановке оценки вы сможете опираться на результаты AB (от пользователей) и human preferences (от разметчиков) как на некоторую истину, а с помощью оценки на бенчмарках уменьшите число потенциальных кандидатов, идущих в оценку людьми (оценивать людьми дорого).

На каждом из 3 этапов вы уменьшаете количество экспериментов, которые потенциально дойдут до прода: по бенчмаркам safety отвалятся половина чекпоинтов, потом еще часть после side by side разметчиков, и еще меньше — покажет статзначимый результат на AB. При этом, что важно, корреляции между результатами на 3 этапах может не быть: академические бенчмарки не согласуются с оценкой разметчиков (измеряем разное), а разметчики выдают смещенный результат относительно реальных пользователей (другая демография).

1️⃣ Шаг 1. Бенчмарки и оффлайн метрики.
Сюда отнесем любые оценки на бенчмарках и отслеживание различных аспектов качества.
— Если вы работаете с конкретным применением — выбирайте наиболее релевантные задачи.
— Если вы разрабатываете новую LLM — незазорно взять все.

🟣Бенчмарки
Их слишком много даже для этого поста, поэтому стоит поискать под свою задачу отдельно. Тем не менее, для общего случая:
— Надежные бенчмарки для сравнения на большом числе задач
MMLU (разные предметные знания), HELM (разные типы задач), BigBench (400+ датасетов на разных языках)
— Новые бенчмарки небольшого объема, но со сложными задачами
GAIA, ARC, WildBench
— RAG-бенчмарки и эффективность длинного контекста
Babilong, в остальном не очень стандартизовано (см у Ильи Гусева)
Галлюцинации, фактологичность — для оценки фактологии можно взять мультиязычный фактологический датасет mLAMA (см как мы делали в статье mGPT). Для оценки % галлюцинаций в генерации подойдет любой QA-бенчмарк типа SQuaD и метрика на основе GPT-4.

🟣Автоматические метрики
Отдельные параметры модели, которые мы хотим отследить с помощью обучаемых метрик, классификаторов, reward-моделей на любых данных.
Токсичность (toxicity) — смотрим автоматически, можно ли выдать ответ пользователю, содержит ли он угрозы, сексуальный контент, оскорбления и ненависть. Популярная открытая модель — DistilBert с Kaggle-соревнования.
Вредность/опасность генерации (harmfulness) — можно взять бесплатный Moderation API OpenAI. Категории достаточно стандартные — селф-харм, насилие и т.д.
Полезность (helpfulness) — метрики вроде полезности часто не сочетаются, даже обратно коррелируют с креативностью, позитивным сентиментом и безопасностью ответов, поэтому включать их в оценку нужно обязательно! Можно взять модель на датасете Anthropic HH (helpfulness, harmlessness) как два в одном.
Креативность, Релевантность и др метрики — см пост отсюда. Если брать произвольные нужные нам метрики, можно написать затравку в условную GPT-4 и гонять оценки по заданным параметрам через нее. В LaMDa, например, автоматически оценивается фактологичность и интересность.

🟣Memorization
— Обязательно для применений, где возможно получить иск за IP violation (всякий креатив, маркетинг, а также генерация кода)
— Обязательно для code generation! См исследование проблем StarCoder — 8% кода из обучения воспроизводится наизусть, без оригинальной лицензии.
— Если релизите новую модель, обязательно проверить на data leakage те бенчмарки, на которых вы заявляете метрики модели — см PaLM 2 tech report, а также статью
— В HELM есть проверка на генерацию копирайтного материала — датасет

Читать полностью…

Kali Novskaya

Позавчера этой картинке исполнилось 10 лет #шитпост

Читать полностью…

Kali Novskaya

🌸WildBench: Новый бенчмарк для LLM 🌸
#nlp #про_nlp #nlp_papers

🦁 WildBench — новый бенчмарк для LLM на 1000+ задач! Разработан AllenAI
В бенчмарке сейчас 1024 задачи в 12 категориях — с мотивацией охватить прикладные применения реального мира, их разнообразие и сложность.

TLDR — как вообще реализовать прогон LLM через 1024 задачи?
🟣Вся оценка автоматическая на GPT-4: вместо просто side-by-side сравнения в GPT-4 подается подроюная инструкция для мотивации выбора, совсем как людям-разметчикам. Есть специальный штраф за длину ответа, чтобы нивелировать автоматический bias GPT-4 к более длинным ответам.
🟣Много фиксированных затравок в описании к задачам, включая chain-of-thought.
Категории: Information seeking, Creative Writing, Coding & Debugging, Reasoning, Editing, Math, Planning, Brainstorming, Role playing. Advice seeking, Data Analysis, Others
🟣Источник данных — полуавтоматический датасет WildChat. Создатели вдохновились ShareGPT, но масштабировали процесс — собрали разговоры между людьми и GPT, затем отфильтровали данные по английским, оставили самые нетоксичные ответы, затем использовали различные популярные LLM для генерации ответов, которые затем оценивались с использованием таких ревард-моделей, как StarlingRM и PairRM. Примеры с наибольшим отклонением в баллах были добавлены в шорт-лист, из которого 1024 были выбраны для включения в WildBench v1.0, что обеспечило сочетание разнообразия и качества.
🟣Большой плюс — есть вкладка Evaluate / Explore, где полностью выводятся условия оценки: задача с затравкой, ответы моделей, затравка с чек-листом для GPT-4, голосовалка side-by-side
🟣Лучшие модели: gpt-4-0125-preview, Claude 3 Opus, Claude 3 Sonnet, Mistral-Large

Вопросы и недостатки:
🟣Надо разбираться, насколько полезен Length Penalty — нормировка предпочтений относительно более длинных ответов действительно нужна, но может, нужно корректировать инструкцию разметчикам, а не штрафовать все длинные ответы? Бывает, более полезный ответ действительно длинный за счет большего объема полезной информации в нем — зачем штрафовать такие случаи?
🟣ELO-рейтинг сам по себе имеет недостатки и чувствителен к разбросу качества ответов, а здесь его проблемы по сути масштабированы.
🟣Вся оценка, как уже упомянуто, автоматическая — оценку с аннотаторами пока не доделали, чтобы сравнить, насколько она совпадает.
🟣Можно ли отличить оригинальные данные от сгенерированных автоматически? Насколько это мешает?

🤗HF Leaderboard
🖥Github

Читать полностью…

Kali Novskaya

🌸 Женщины в AI Research🌸

Сегодня 8 марта, и это отличный повод поделиться с вами списком исследовательниц в ИИ и смежных областях, за работами которых я слежу и которыми вдохновляюсь:

🟣Fei-Fei Li — Professor of Computer Science, Stanford University, создательница Imagenet, многих основополагающих работ по CV и unsupervised learning
🟣Cathy O'Neil — Professor at Barnard College, автор фундаментальных книг по Data Science в 2010х, а также смещениях в данных и результирующих моделях
🟣Timnit Gebru — founder and executive director of Distributed AI Research Institute (DAIR), этика в ИИ, соавтор знаменитой статьи stochastic parrots
🟣Emily M. Bender — President of ACL в 2024, одни из основополагающих работ по этике в NLP, соавтор stochastic parrots вместе с Timnit Gebru
🟣Anna Goldenberg — Assistant Professor, Department of Computer Science, at University of Toronto (Computational Biology Group) — ML и генетика
🟣Joy Buolamwini — MIT, The Algorithmic Justice league, множество работ по CV в распознавании лиц и biases
🟣Katharina Kann — Assistant Professor of Computer Science, University of Colorado Boulder — множество работ по соревнованиям в NLP
🟣Mirella Lapata — School of Informatics, Edinburgh University, множество работ по вычислительной сематике и применении векторных моделей в NLP
🟣Maria Schuld — Quantum computing Senior researcher at Xanadu, ML в физике и квантовые вычисления
🟣Barbara Plank — Professor, LMU Munich and ITU Copenhagen, глава лаборатории Natural Language Processing, множество работ по NER, POS-tagging, классическим методам NLP
🟣Anima Anandkumar — California Institute of Technology and NVIDIA, general CV, image and video semantic segmentation
🟣Doina Precup — Researcher at DeepMind, general RL
🟣Raia Hadsell — Research Director at DeepMind, ML в робототехнике
🟣Chelsea Finn — Professor in Computer Science and Electrical Engineering at Stanford University, ML в робототехнике
🟣Renée DiResta — Research Manager, Stanford Internet Observatory, работы по борьбе с псевдонаукой, риски в ML
🟣Tamara Broderick — Associate Professor of EECS, MIT, байесовские методы, general ML
🟣Tara Sainath — Principal Research Scientist, Google, работы по распознаванию речи
🟣Corinna Cortes — VP in Google Research, general ML
🟣Daphne Koller — CEO and Founder, Insitro, ML для генетики, bioML
🟣Irina Rish — Université de Montréal (UdeM), general ML, AI Trustworthiness
🟣Mounia Lalmas — Director of Research at Spotify, много основополагающих работ по RecSys
🟣Lise Getoor — Professor of Computer Science, University of California, causal inference, grounding и символьные методы


Кого бы вы ещё добавили? Давайте делиться в комментариях

Читать полностью…

Kali Novskaya

🌸Роботы и LLM🌸
#ai_alignment #шитпост

Аргумент в пользу необходимости AI Alignment на уровне практики 2024.
Представьте, что смогут роботы типа этих 1X Studio, если в них добавить uncensored LLM вроде Dolphin 2.5 🐬

Часто думаю об этом...

https://youtu.be/iHXuU3nTXfQ?feature=shared

Читать полностью…

Kali Novskaya

Проболела всю прошлую неделю, поэтому эту неделю предлагаю открыть с мемотреда! #шитпост

Читать полностью…

Kali Novskaya

Через 2 минуты начинаем, приходите!

https://youtube.com/live/zaHrKhDBL6M?feature=share

Читать полностью…

Kali Novskaya

🟣Дискуссия
— Необычно для OpenAI, но в этот раз почти ничего не сказали про Safety. Если брать данные из инетрнета, нарезать фильмы и т.д., сколько % из них так или иначе составляет жестокость, ненависть, все остальное?
— Multimodal biases! Теперь эта задача еще сложнее.
— Промпт-инъекции для видео?
— Составные части для опенсорса, которых сейчас не хватает: никаких хороших метрик и бенчмарков для оценки консистеностости сцен и физического мира, по сути, а также самое основное — открытых данных вроде Laion для изображений.
— для оценки физики на видео тоже ничего нет, кажется, а это очень большая проблема: видео очень реалистичные, если бы я в детстве увидела, точно бы поверила, что стекло не разбивается, как на видео, а гнется как резина.

Upd. Про Safety было в оригинальном блогпосте — упомянули пайплайн фильтрации из Dalle 3, red teaming, возможный bias, детекцию реалистичных фейков, хотя никаких количественных оценок пока нет.

Читать полностью…

Kali Novskaya

Спасибо компании OpenAI, конечно, за то, что мое FOMO не пройдет никогда, так же как и стресс от ботания статей на время 🙈

Читать полностью…

Kali Novskaya

НАСТОЯЩИЙ МАТЕРИАЛ (ИНФОРМАЦИЯ) ПРОИЗВЕДЕН, РАСПРОСТРАНЕН И (ИЛИ) НАПРАВЛЕН ИНОСТРАННЫМ АГЕНТОМ КАГАРЛИЦКИМ БОРИСОМ ЮЛЬЕВИЧЕМ, ЛИБО КАСАЕТСЯ ДЕЯТЕЛЬНОСТИ ИНОСТРАННОГО АГЕНТА КАГАРЛИЦКОГО БОРИСА ЮЛЬЕВИЧА.

Читать полностью…

Kali Novskaya

🌸Как ученому сохранить мотивацию что-то делать 🌸
#nlp #про_nlp

Сегодня, как пишут, день женщин в науке, по этому поводу залью сюда вдохновляющую лекцию Реймонда Муни с воркшопа BigPicture, EMNLP 2023 — The Vision Thing: Finding and Pursuing your Research Passion.

Raymond J. Mooney — один из самых известных старожилов в NLP, автор работ в области NLP, рекомендательных систем, кластеризации текстов, вычислительной семантики, каузатор появления целого направления интерпретации эмбеддингов через пробинг aka bertology (это отдельная история).

На примере своего опыта, Муни рассказывает:
— как меняются научные интересы и темы с годами,
— почему важно расширять кругозор, использовать комбинацию из долгоиграющих целей и актуальных методов,
— почему важно слушать себя, а не научного руководителя относительно выбора темы
— нормально, если hard ML для вас не тянет на passion вашей жизни, как построить междсциплинарный мост между ML-
методами и областью своих интересов
— примеры проектов студентов

🟣Слайды
🟣Запись воркшопа: речь Муни начинается с 07:38 минуты

Читать полностью…

Kali Novskaya

🌸Про эмбеддинги для поиска🌸
#nlp #про_nlp #rag #prompt_engineering

Что делать, если нужно пересобрать RAG самому, и не возиться с имплементациями LlamaIndex, а иметь под рукой быстрый индекс, который недорого периодически пересобирать?

В этом посте напишу рекомендации по опенсорсным решениям.

🟣Бенчмарки эмбеддингов:
Шаг 1. Первым делом стоит проверить, какая модель эмбеддингов сейчас лучшая по качеству (и легковесная по памяти) — лидерборды эмбеддингов сильно отличаются, иногда в топе даже (о ужас) не трансформеры!
— Основной бенчмарк — Massive Text Embedding Benchmark (MTEB) — объединяет лидерборды для поиска информации (retrieval, что нам и нужно), а также суммаризации, ранкинга, и многого другого.
— Текущий топ моделей: эмбеддинги на Mistral, Voyage Lite Instruct, эмбеддинги от Cohere
https://huggingface.co/spaces/mteb/leaderboard

🟣Библиотеки для индекса
Шаг 2 в построении самописного RAG — построить индекс документов, а еще лучше — абзацев из ваших документов. Тогда, построив индекс, вы сможете быстро подбирать релевантные фрагменты текста и посдставлять в промпт для LLM.
NMSLib — non-metric space library, поможет построить эффективный индекс на основе косинусной близости документов, очень быстрый, есть обертка на Python, поддержка в ElasticSearch
Annoy — модная библиотека на C++ от Spotify, есть поддержка разных типов расстояний для поиска ближайших соседей, обертка на Python
FAISS — большая библиотека от FAIR с поддержкой всего того же, тчо и выше, но методов построения индекса больше, и можно легко подобрать подходящий по ограничениям памяти, скорости, скорости переиндексации, если ндао постоянно добавлять новые документы, и тд
DeepPavlov Tf-IDF — старый дедовский метод, дешево и сердито (но недешево по памяти). Tf-IDF индекс на питоне из реализации ODQA. Самый интерпретируемый вариант из упомянутых.

🟣Сопоставление запросов и документов
Шаг 3. Оставшаяся проблема, на самом деле, самая сложная — как сопоставить вопрос и документы, в которых содержится ответ?
Хорошо, если вопрос сильно пересекается словами с релевантным абзацем, а если нет?
— Простое решение было бы воспользоваться NER или keyword extraction, даже с помощью промптов, но так как мы с вами в 2024 году, и везде LLM, то мы и будем файнтюнить модели — чтобы итеративно приводить эмбеддинги к состоянию, когда наиболее близиким оказываются поисковый запрос и релевантный абзац.
Embedding Studio — питоновская библиотека для работы с векторными БД, дообучением эмбеддеров под собственные данные. В библиотеке есть готовые пайплайны для дообучения эмбеддингов с подобранными гиперпараметрами, и можно даже использовать кликстримы, если есть возможность получить данные с прода и на новой модели пересобирать индекс.
Все, как водится, под Apache 2.

Готово, вы восхитительны!🌸

Читать полностью…

Kali Novskaya

Давно не обновляла рубрику #female_vocals — пусть в воскресенье вечером в эфире будет небольшая музыкальная находка последнего времени, Cult of Venus

Информации в сети немного, вроде продюсер из Bon Iver

https://youtu.be/2HjpzV8iaps?si=qxQkKImqXD4zLgeD

Читать полностью…

Kali Novskaya

Как хорошо, что можно сделать пятничный мемотред! #шитпост

Читать полностью…
Subscribe to a channel