Нейросети, искусство, мысли. Поехали! Разрабатываю LLM и веду команды chatGPT, GPT-3, GPT-4
Недавно был день рождения канала — 2 года, а сегодня, внезапно, и мой тоже.
Сегодня мне 30! 🌸
Спасибо за то, что вы читаете, комментируете, а быть может, и вносите свой вклад в популяризацию идей науки и ИИ!
Принимаю поздравления и просто лучи добра!
Можно поддержать канал бустом — тогда я смогу поставить глупые иконки🥹
http://t.me/rybolos_channel?boost
🌸Больше не на чем учить(ся)?🌸
#nlp #про_nlp #nlp_papers
С открытыми данными для обучения и для науки нынче проблемы — то судебные разбирательства за их использование, то просто закрывают, то кошмарят разработчиков, пытаясь понять, что у моделей было в обучении.
Как говорили на прошлом стриме на Рабкоре, в помощи нуждаются источники, находящиеся в серой зоне копирайтного законодательства — Anna's Archive, LibGen, SciHub — распространяющие научные данные бесплатно и с помощью краудсорсинга материалов, торрентов и зеркал.
🟣А что с вполне легальными площадками? У них же все хорошо?
Казалось бы, у науки вполне прозрачная процедура наследования знаний и кросс-ссылок через цитирования. Официальные платформы и архивы типа Google Scholar, Web of Science, Scopus и т.д. должны аккумулировать все это.
В январе 2024 вышло исследование сохранности публикаций с зарегистрированным DOI (digital object identifiers— самый большой индекс рецензируемых публикаций).
Авторы собрали метаданные о более чем 7 млн научных статей с DOI в различных архивах, включая частные, и проверили их сохранность в архивах.
Итоги неутешительные: только 58,38% статей сохранены как минимум в одном архиве (имеют одну копию). 27,64% утеряны, не сохранились, не хостятся с указанными метаданными. Источник
Изменения происходят по-тихому, нас ждет еще закрытие Internet Library — она составляет львиную долю старых ссылок на первоисточники в Википедии? Мы потеряем или уже потеряли около четверти материалов, которые нужны для валидации и наследования научного знания.
🟣Будем бороться с галлюцинациями LLM без первоисточников?
В том же Anna's Archive сейчас хостится 99 млн научных статей.
Если вы хотите своими руками сделать что-то полезное сейчас, то вы можете
🟣Стать хостером зеркала для таких проектов: mirrors - how to run a shadow library
🟣Поконтрибьютить в LibGen — включая пайплайны распознавания текста, сохранность метаданных
🟣Если это слишком страшно и сложно — стать хостером Викимедиа, им тоже постоянно нужны волонтеры с железом: mirroring
🔺 Переводим NNLB Seed
Друзья, есть отличная возможность поспособствовать развитию машинного перевода.
Есть датасет NLLB-Seed, состоящий из 6-ти тысяч предложений, который уже переведен на 39 малоресурсных языков, но при этом нет его перевода на русский язык. Датасет очень полезный, в силу своего разнообразия он улучшает качество моделей, обучающихся с его использованием.
Наш общий друг Давид Дале, участник проекта, заведующего этим датасетом, а также FLORES и другими связанными с переводом вещами, собрал бота @crowd_translate_bot, через которого можно добавлять и одобрять переводы.
Перевод идет с английского на русский, а самих текстов не так много, так что помощь каждого будет значимой.
А на следующей неделе потестируем с вами SuperMinor, проект направленный на коллективный перевод инструкций на малоресурсные языки. Сам же функционал портала, думаю, сможем попробовать на том же NLLB Seed и переводом на русский.
👉 @crowd_translate_bot
🌸Учились на Youtube?🌸
#шитпост
Вижу некоторый скепсис, который прокатился после интервью Миры Мурати про Sora, когда спросили про обучающие данные.
Я думаю, так или иначе источники данных себя обнаружат, как и в случае с вотермарками фотостоков. Пара мыслей про то, почему говорить про данные в обучении в 2024 так трудно:
— за OpenAI стоит Microsoft, скорее всего есть легальная поддержка и контракты с крупными площадками. Говорить публично про такое может быть запрещено тем же контрактом.
— на том же YouTube много видео с лицензией creative commons, если бы не (1), можно было бы дать какую-то пищу для размышлений без большого риска;
— даже если включить все крупные источники данных абсолютно легально, подписать все контракты и использовать открытый контент, в целом публика будет скорее недовольна, а особенно художники, дизайнеры, и разгоняющие волну IP адвокаты, сенаторы и тд.
— коллизия коллективной копирастии привела к тому, что будет дешевле нарушить точечные интеллектуальные права отдельных индивидов и заплатить штраф регулятору, воспроизводя закрытыми моделями такой же контент. Всё равно доказать трудно.
— Вот и как отвечать на такие вопросы вообще? Учились на Youtube?..
🟣https://www.youtube.com/watch?v=mAUpxN-EIgU
🌸Индустриальная оценка LLM в 2024🌸
#nlp #про_nlp #ai_alignment
Бенчмарки, как и версии моделей, постоянно меняются. Какие гарантии, что лучшая LLM на лидерборле действительно окажется лучшей в конкретном индустриальном применении? Никакие
Давно хотела написать этот пост и собрать здесь чек-лист со ссылками на реальные методы оценки, объединяющие полную процедуру LLM evaluation — для индустриальных применений и для рисерча.
Для минимального пайплайна будет достаточно 3 связанных составляющих: релевантные бенчмарки → side by side/preferences metrics → результаты AB — и блокирующих критериев качества вроде safety.
В такой постановке оценки вы сможете опираться на результаты AB (от пользователей) и human preferences (от разметчиков) как на некоторую истину, а с помощью оценки на бенчмарках уменьшите число потенциальных кандидатов, идущих в оценку людьми (оценивать людьми дорого).
На каждом из 3 этапов вы уменьшаете количество экспериментов, которые потенциально дойдут до прода: по бенчмаркам safety отвалятся половина чекпоинтов, потом еще часть после side by side разметчиков, и еще меньше — покажет статзначимый результат на AB. При этом, что важно, корреляции между результатами на 3 этапах может не быть: академические бенчмарки не согласуются с оценкой разметчиков (измеряем разное), а разметчики выдают смещенный результат относительно реальных пользователей (другая демография).
1️⃣ Шаг 1. Бенчмарки и оффлайн метрики.
Сюда отнесем любые оценки на бенчмарках и отслеживание различных аспектов качества.
— Если вы работаете с конкретным применением — выбирайте наиболее релевантные задачи.
— Если вы разрабатываете новую LLM — незазорно взять все.
🟣Бенчмарки
Их слишком много даже для этого поста, поэтому стоит поискать под свою задачу отдельно. Тем не менее, для общего случая:
— Надежные бенчмарки для сравнения на большом числе задач
MMLU (разные предметные знания), HELM (разные типы задач), BigBench (400+ датасетов на разных языках)
— Новые бенчмарки небольшого объема, но со сложными задачами
GAIA, ARC, WildBench
— RAG-бенчмарки и эффективность длинного контекста
Babilong, в остальном не очень стандартизовано (см у Ильи Гусева)
— Галлюцинации, фактологичность — для оценки фактологии можно взять мультиязычный фактологический датасет mLAMA (см как мы делали в статье mGPT). Для оценки % галлюцинаций в генерации подойдет любой QA-бенчмарк типа SQuaD и метрика на основе GPT-4.
🟣Автоматические метрики
Отдельные параметры модели, которые мы хотим отследить с помощью обучаемых метрик, классификаторов, reward-моделей на любых данных.
— Токсичность (toxicity) — смотрим автоматически, можно ли выдать ответ пользователю, содержит ли он угрозы, сексуальный контент, оскорбления и ненависть. Популярная открытая модель — DistilBert с Kaggle-соревнования.
— Вредность/опасность генерации (harmfulness) — можно взять бесплатный Moderation API OpenAI. Категории достаточно стандартные — селф-харм, насилие и т.д.
— Полезность (helpfulness) — метрики вроде полезности часто не сочетаются, даже обратно коррелируют с креативностью, позитивным сентиментом и безопасностью ответов, поэтому включать их в оценку нужно обязательно! Можно взять модель на датасете Anthropic HH (helpfulness, harmlessness) как два в одном.
— Креативность, Релевантность и др метрики — см пост отсюда. Если брать произвольные нужные нам метрики, можно написать затравку в условную GPT-4 и гонять оценки по заданным параметрам через нее. В LaMDa, например, автоматически оценивается фактологичность и интересность.
🟣Memorization
— Обязательно для применений, где возможно получить иск за IP violation (всякий креатив, маркетинг, а также генерация кода)
— Обязательно для code generation! См исследование проблем StarCoder — 8% кода из обучения воспроизводится наизусть, без оригинальной лицензии.
— Если релизите новую модель, обязательно проверить на data leakage те бенчмарки, на которых вы заявляете метрики модели — см PaLM 2 tech report, а также статью
— В HELM есть проверка на генерацию копирайтного материала — датасет
Позавчера этой картинке исполнилось 10 лет #шитпост
Читать полностью…🌸WildBench: Новый бенчмарк для LLM 🌸
#nlp #про_nlp #nlp_papers
🦁 WildBench — новый бенчмарк для LLM на 1000+ задач! Разработан AllenAI
В бенчмарке сейчас 1024 задачи в 12 категориях — с мотивацией охватить прикладные применения реального мира, их разнообразие и сложность.
TLDR — как вообще реализовать прогон LLM через 1024 задачи?
🟣Вся оценка автоматическая на GPT-4: вместо просто side-by-side сравнения в GPT-4 подается подроюная инструкция для мотивации выбора, совсем как людям-разметчикам. Есть специальный штраф за длину ответа, чтобы нивелировать автоматический bias GPT-4 к более длинным ответам.
🟣Много фиксированных затравок в описании к задачам, включая chain-of-thought.
Категории: Information seeking, Creative Writing, Coding & Debugging, Reasoning, Editing, Math, Planning, Brainstorming, Role playing. Advice seeking, Data Analysis, Others
🟣Источник данных — полуавтоматический датасет WildChat. Создатели вдохновились ShareGPT, но масштабировали процесс — собрали разговоры между людьми и GPT, затем отфильтровали данные по английским, оставили самые нетоксичные ответы, затем использовали различные популярные LLM для генерации ответов, которые затем оценивались с использованием таких ревард-моделей, как StarlingRM и PairRM. Примеры с наибольшим отклонением в баллах были добавлены в шорт-лист, из которого 1024 были выбраны для включения в WildBench v1.0, что обеспечило сочетание разнообразия и качества.
🟣Большой плюс — есть вкладка Evaluate / Explore, где полностью выводятся условия оценки: задача с затравкой, ответы моделей, затравка с чек-листом для GPT-4, голосовалка side-by-side
🟣Лучшие модели: gpt-4-0125-preview, Claude 3 Opus, Claude 3 Sonnet, Mistral-Large
Вопросы и недостатки:
🟣Надо разбираться, насколько полезен Length Penalty — нормировка предпочтений относительно более длинных ответов действительно нужна, но может, нужно корректировать инструкцию разметчикам, а не штрафовать все длинные ответы? Бывает, более полезный ответ действительно длинный за счет большего объема полезной информации в нем — зачем штрафовать такие случаи?
🟣ELO-рейтинг сам по себе имеет недостатки и чувствителен к разбросу качества ответов, а здесь его проблемы по сути масштабированы.
🟣Вся оценка, как уже упомянуто, автоматическая — оценку с аннотаторами пока не доделали, чтобы сравнить, насколько она совпадает.
🟣Можно ли отличить оригинальные данные от сгенерированных автоматически? Насколько это мешает?
🤗HF Leaderboard
🖥Github
🌸 Женщины в AI Research🌸
Сегодня 8 марта, и это отличный повод поделиться с вами списком исследовательниц в ИИ и смежных областях, за работами которых я слежу и которыми вдохновляюсь:
🟣Fei-Fei Li — Professor of Computer Science, Stanford University, создательница Imagenet, многих основополагающих работ по CV и unsupervised learning
🟣Cathy O'Neil — Professor at Barnard College, автор фундаментальных книг по Data Science в 2010х, а также смещениях в данных и результирующих моделях
🟣Timnit Gebru — founder and executive director of Distributed AI Research Institute (DAIR), этика в ИИ, соавтор знаменитой статьи stochastic parrots
🟣Emily M. Bender — President of ACL в 2024, одни из основополагающих работ по этике в NLP, соавтор stochastic parrots вместе с Timnit Gebru
🟣Anna Goldenberg — Assistant Professor, Department of Computer Science, at University of Toronto (Computational Biology Group) — ML и генетика
🟣Joy Buolamwini — MIT, The Algorithmic Justice league, множество работ по CV в распознавании лиц и biases
🟣Katharina Kann — Assistant Professor of Computer Science, University of Colorado Boulder — множество работ по соревнованиям в NLP
🟣Mirella Lapata — School of Informatics, Edinburgh University, множество работ по вычислительной сематике и применении векторных моделей в NLP
🟣Maria Schuld — Quantum computing Senior researcher at Xanadu, ML в физике и квантовые вычисления
🟣Barbara Plank — Professor, LMU Munich and ITU Copenhagen, глава лаборатории Natural Language Processing, множество работ по NER, POS-tagging, классическим методам NLP
🟣Anima Anandkumar — California Institute of Technology and NVIDIA, general CV, image and video semantic segmentation
🟣Doina Precup — Researcher at DeepMind, general RL
🟣Raia Hadsell — Research Director at DeepMind, ML в робототехнике
🟣Chelsea Finn — Professor in Computer Science and Electrical Engineering at Stanford University, ML в робототехнике
🟣Renée DiResta — Research Manager, Stanford Internet Observatory, работы по борьбе с псевдонаукой, риски в ML
🟣Tamara Broderick — Associate Professor of EECS, MIT, байесовские методы, general ML
🟣Tara Sainath — Principal Research Scientist, Google, работы по распознаванию речи
🟣Corinna Cortes — VP in Google Research, general ML
🟣Daphne Koller — CEO and Founder, Insitro, ML для генетики, bioML
🟣Irina Rish — Université de Montréal (UdeM), general ML, AI Trustworthiness
🟣Mounia Lalmas — Director of Research at Spotify, много основополагающих работ по RecSys
🟣Lise Getoor — Professor of Computer Science, University of California, causal inference, grounding и символьные методы
Кого бы вы ещё добавили? Давайте делиться в комментариях
🌸Роботы и LLM🌸
#ai_alignment #шитпост
Аргумент в пользу необходимости AI Alignment на уровне практики 2024.
Представьте, что смогут роботы типа этих 1X Studio, если в них добавить uncensored LLM вроде Dolphin 2.5 🐬
Часто думаю об этом...
https://youtu.be/iHXuU3nTXfQ?feature=shared
Проболела всю прошлую неделю, поэтому эту неделю предлагаю открыть с мемотреда! #шитпост
Читать полностью…Через 2 минуты начинаем, приходите!
https://youtube.com/live/zaHrKhDBL6M?feature=share
🟣Дискуссия
— Необычно для OpenAI, но в этот раз почти ничего не сказали про Safety. Если брать данные из инетрнета, нарезать фильмы и т.д., сколько % из них так или иначе составляет жестокость, ненависть, все остальное?
— Multimodal biases! Теперь эта задача еще сложнее.
— Промпт-инъекции для видео?
— Составные части для опенсорса, которых сейчас не хватает: никаких хороших метрик и бенчмарков для оценки консистеностости сцен и физического мира, по сути, а также самое основное — открытых данных вроде Laion для изображений.
— для оценки физики на видео тоже ничего нет, кажется, а это очень большая проблема: видео очень реалистичные, если бы я в детстве увидела, точно бы поверила, что стекло не разбивается, как на видео, а гнется как резина.
Upd. Про Safety было в оригинальном блогпосте — упомянули пайплайн фильтрации из Dalle 3, red teaming, возможный bias, детекцию реалистичных фейков, хотя никаких количественных оценок пока нет.
Спасибо компании OpenAI, конечно, за то, что мое FOMO не пройдет никогда, так же как и стресс от ботания статей на время 🙈
Читать полностью…НАСТОЯЩИЙ МАТЕРИАЛ (ИНФОРМАЦИЯ) ПРОИЗВЕДЕН, РАСПРОСТРАНЕН И (ИЛИ) НАПРАВЛЕН ИНОСТРАННЫМ АГЕНТОМ КАГАРЛИЦКИМ БОРИСОМ ЮЛЬЕВИЧЕМ, ЛИБО КАСАЕТСЯ ДЕЯТЕЛЬНОСТИ ИНОСТРАННОГО АГЕНТА КАГАРЛИЦКОГО БОРИСА ЮЛЬЕВИЧА.
Читать полностью…🌸Как ученому сохранить мотивацию что-то делать 🌸
#nlp #про_nlp
Сегодня, как пишут, день женщин в науке, по этому поводу залью сюда вдохновляющую лекцию Реймонда Муни с воркшопа BigPicture, EMNLP 2023 — The Vision Thing: Finding and Pursuing your Research Passion.
Raymond J. Mooney — один из самых известных старожилов в NLP, автор работ в области NLP, рекомендательных систем, кластеризации текстов, вычислительной семантики, каузатор появления целого направления интерпретации эмбеддингов через пробинг aka bertology (это отдельная история).
На примере своего опыта, Муни рассказывает:
— как меняются научные интересы и темы с годами,
— почему важно расширять кругозор, использовать комбинацию из долгоиграющих целей и актуальных методов,
— почему важно слушать себя, а не научного руководителя относительно выбора темы
— нормально, если hard ML для вас не тянет на passion вашей жизни, как построить междсциплинарный мост между ML-
методами и областью своих интересов
— примеры проектов студентов
🟣Слайды
🟣Запись воркшопа: речь Муни начинается с 07:38 минуты
🌸Тюним LLM в сторону бенчмарков — уже на претрейне🌸
#nlp #про_nlp #nlp_papers
Захотела рассказать про одну статью, которая вышла аж год назад, но прошла достаточно незаметно.
Pretrain больших моделей обычно включает в себя данные по принципу "чем больше, тем лучше". И конкретно для LLM это триллионы токенов, миллионы документов — в результате написать какую-то затравку, чтобы прямо "удивить" модель мощным out of distribution уже нельзя.
Но логично же так подобрать ресурсы, чтобы больше соответствовать применению на конечных задачах и бенчмарках?
Классические способы это сделать подразумевают фильтрацию данных по качеству (убираем из корпуса дубли, спам, а вот Википедию можно положить раз 10).
Но с таким подходом можно позволить себе только робастные методы фильтрации качественных данных. Как выбрать наиболее качественные содержательные данные в претрейн, чтобы они эффективно докидывали результатов на прикладных задачах?
🟣GPT-3, PaLM, корпус the Pile используют классификацию на эвристиках — учим бинарный классификатор определять, данные похожи на целевые или нет. На основе разметки такого классификатора фильтруем корпус.
Один из новых методов, как это сделать — Data Selection for Language Models via Importance Resampling (сокращенно DSIR).
Метод: давайте возьмём нграммный bag of words (нграммы по словам) на бенчмарках, которые нам интересны — диалоговые, сложный ризонинг, дркументы и т.д. — и будем фильтровать большой корпус по нграммной похожести.
По сути фильтруем новости, сложные задачи и релевантные примеры из большого корпуса, чтобы их лучше меморизовать.
DSIR докидывает как минимум 2-2.5% на итоговых бенмчарках типа ARC, GLUE и т.д.
При этом разнообразие в корпусе остается, и сам корпус лучше переносит знания в целевой домен.
🟣Arxiv
🟣Github
🌸Немлный вечерний контент🌸
Обычно я по воскресеньям делюсь с вами #female_vocals
Но в этот не самый веселый вечер воскресенья вспомнила, что давно хотела сделать подборку с нетехническим и немлным (ну хотя бы около) контентом, который приятно послушать как бы между делом для интереса и общего кругозора. Делюсь с вами тем, что считаю годным:
🟣The Budget Museum — отличный канал с , опять же, моя любимая серия про доисторических жуков или про смешные подделки ископаемых
🟣Глагольная группа — подкаст лингвистов ИЯ РАН — не только для лингвистов, русскиее говоры, феминитивы и всякое эдакое.
🟣Computerphile — разные короткие видосы на интересные темы вокруг того, как работает компуктер. Unix time, Tor, I2P протоколы, и даже почему LLMки не обладают сознанием — канал очень старый и совсем недавно опять стал активным!
🟣Видали, как Аномалокарис летает под музыку? Вот то-то же! (почему-то такого контента, где огромная доисторическая креветка в 3d латает под эпичную музыку, просто уйма от разных авторов — и они все таргетируются на меня. Но я совсем не против)
🟣Kapitan KRB — Сборник эссе про теории заговора и интернет, моя любимая — про самых странных нарушителей Википедии
🟣Robert Miles AI Safety — суперканал про AI Alignment и проблемы вокруг него, многим видео уже лет 7, и состарились они плохо... Обещала без мл, но он реально не технический, сокрее даже гуманитарный.
Вот!
Предлагаю в комментариях делиться чем-то своим — лекции, подкасты и т.д.
Продолжение:
🟣Bias
Здесь все понятно, смотрим, насколько у модели смещенный результат и потенциально опасный вывод.
— Стандартные датасеты: ETHICS, HateCheck, WinoGender, WinoBias, CrowS-Pairs, StereoSet
🟣Safety / Security
Обязательно как минимум для моделей Code generation и их применения: см обзор
Есть отдельно тесты на детекцию багов, вредоносного кода, уязвимостей и их исправления.
🟣Метрики для статей и релиза новых LLM
— Interpretability — если время позволяет, см статью Bloom и фреймворк
— Embeddings — стоит также привести оценку качества внутренних представлений, если их можно как-то поиспользовать, например, для построения поискового индекса или семантической близости понятий языка. Подойдет бенчмарк MTEB.
— Steerability — если релизите Instruction-tune, неплохо проверить, как хорошо он слушается промптов и чувствителен к небольшим изменениям. Стандартных тестов пока нет, но можно, например, требовать разную длину генерации и измерять, насколько соответствует.
— Multilingual capabilities, transfer learning — если языков несколько, то в бенчмаках должны присутствовать они все хотя бы частично. Полезно также замерить качество на языках, которые в обучающую выборрку эксплицитно не добавлялись, так как в претрейне они в небольшом количестве так или иначе попали, плюс способности моделей к переводу и переносу знаний — и модель вполне может показать ненулевое качество на новых языках. Можно попробовать машинный перевод на FLORES-200.
— Limitations — явное описание ограничений использования модели, следующее из обучающих данных, языков, доменов, результатов оценки safety, memorization, описание потенциального злонамеренного использования (misuse).
— Emergent Capabilities — если заметили новое поведение, например, возросшее качество in-cоntext learning, про это лучше сказать.
— Ablation studies — если система сложная, или сложносоставной датасет, можно пооценивать вклад в финальное качество каждой из составляющих.
— Generalization — если релизится модель в нескольких размерах, во всех размерах надо посчитать все бенчмарки и метрики, и динамика роста качества vs размера модели.
— Training Data — АХАХА Шутка, это никто не делает в 2024 — подробное описание данных в обучении, их фильтрации, языковой и жанровй состав, лицензии. См статьи Llama 2 и Mixtral с примерами, как не надо писать про данные!
2️⃣ Шаг 2. Разметка с людьми и их заменителями
🟣Попарные сравнения, side by side — аннотаторы сравнивают ответы двух конкурирующих моделей, мы записываем %, когда одна лучше другой (или обе две).
Сравнение совершенно необязательно делать просто на основе принципа "какой ответ вам кажется лучше" или интуиции разметчиков (они будут выбирать самые длинные ответы, а то и вовсе рандом). Можно задать вполне конкретную инструкцию, оценивая конкретные критерии — какой ответ креативней, полезнее, безопаснее.
🟣Автоматический side by side — можно проверить на адекватность своих разметчиков с помощью открытых моделей, воспроизводящих попарное сравнение ответов LLM на основе краудсорсинга — PairRM, reward Open Assistant'а на Deberta.
🟣ELO rating — если для части моделей/чекпоинтов мы уже посчитали попарные победы, то можем экстраполировать этот результат с помощью игрового рейтинга. Чувствительно к случаям, где у модели большая дисперсия в результатах. См LMSys Elo rating
🟣GPT-4 вместо человека — более консистентные и дешевые (но смещенные) оезультаты разметки дает GPT-4 с промптом, содержащим инструкцию для ращметчиков. Стоит испольщовать, если в разметчиках вы разочаровались. См. лидерборд AlpacaEval.
3️⃣ Шаг 3. AB на реальных пользователях
Тут, в общем-то, отдельных секретов про LLM нет. Главное корректно поставить эксперимент и иметь адекватные данные для анализа результатов — какие метрики выросли и почему.
🌸Про какие этапы написать подробнее? Пишите в комментариях
Кандидаты: все эти тулзы для русского, отдельно про плюсы-минусы и ограничения конкретных способов
Также делюсь совсем недавно вышедшей автобиографией Fei Fei Li
Fei Fei Li — исследовательница и автор основополагающих работ в машинном обучении, в частности, Imagenet, а также работ в сфере computer vision и unsupervised learning.
🟣H-score 146, 240k citations
📚 The Worlds I See: Curiosity, Exploration, and Discovery at the Dawn of AI
Извините, я пропала. Всё хорошо, пишу для вас длиннопост! 🌸
Читать полностью…🌸AINL 2024🌸
#nlp_papers
Порекомендую вам небольшую конференцию, на которой из года в год ревьюю статьи:
AINL: Artificial Intelligence and Natural Language Conference
В этом году конференция будет в Алма-Аты, Казахстан; темы AINL, как и в прошлые годы - NLP, информационный поиск, data mining.
Special track этого года: NLP4Code
Прием статей и индустриальных докладов продолжается до 10 марта!
Сама конференция состоится 25-26 апреля, а 24 апреля будет воркшоп по AI Trustworthiness.
🟣Тг конфы: @ainlconf
🟣Подача статей: https://ainlconf.ru/2024/cfp
🌸Заметки к стриму про Антикопирайт🌸
Антикопирайт — в широком смысле движение за отмену интеллектуальной собственности, обобществление интеллектуального труда.
Антикопирайт, в общем-то, не противоречит авторскому праву, так как авторство — неотъемлемая характеристика твоерения.
А вот именно коммерческие права, права на коммерческое использование в основном концентрируются и реализуется не авторами, а платформами — издательствами, стриминговыми сервисами и т.д. Копирайт, помимо прочего, ограничивает науку, ставя под угрозу fair use — добросовестное, в тч.ч научное, использование материалов.
Open Source ML попал в регуляторную ловушку — чтобы обучать большие модели, просто открытых материалов мало, а если честно указывать источники данных для обучения, то есть риски получить копирайтный иск.
🟣Общие рекомендации:
— В целом, поменяться должны регуляторные нормы, так как открытость науки в 2024 без указания источников данных, без разработки методик
— Ставьте по возможности открытые лицензии на свой код и указывайте источники данных, хотя бы в виде кросс-ссылок на статьи по ним, или на источники данных, где разные датасеты засемплированы, но понятна версия и дата.
🟣Проекты, которые поддерживают свободу информации:
— Internet Archive Open Library
— Anna's Archive
— Sci-hub
— Arxiv, paperswithcode, Huggingface papers
— Нецензурированные модели (публиковала список со ссылками тут)
🟣Свободные лицензии:
— Для ПО: MIT, Apache 2.0, GPL 2.0, WTFPL
— Для данных: CC 4.0, MIT, Apache 2.0
— Если вы злой и у вас плохое настроение: CC noncommercial, CC 0, RAIL (лучше, чем ничего, но не совсем открытые)
🟣Как может выглядеть поддержка открытости информации:
— Более прозрачные процедуры лицензирования на платформах (авторы часто не знают, на что кликают)
— Creative Commons by default на платформах
— Больше проектов по курированию, очистке, версионированию открытых данных из интернета
— Поддержка открытых проектов, зеркала и даже просто копии датасетов, которые вы сохранили и которыми делитесь
🌸Стрим на Рабкоре 20.00 мск🌸
Сегодня у меня стрим на Рабкоре на тему, которая была задумана очень давно. А не опускать руки ради важного дела сейчас важнее всего.
АНТИКОПИРАЙТ в эпоху ИИ
Гость — Миша Вербицкий, автор "Антикопирайта", всемирно известный математик, один из первых блогеров Рунета, издатель и разработчик нецензурируемой версии ЖЖ.
Поговорим про
— Проприетарные генеративные модели, обученные на копирайтных данных, суды платформ с разработчиками
— Подполье ИИ: расцензурирование открытых LLM сообществом, противостояние корпоративному AI ethics, AI alignment
— Должны ли вообще опенсорс проекты подвергаться AI alignment
— Какую лицензию ставить на своей проект/модель/датасет отвественному ученому в 2024 году
— Этические аргументы против открытого ПО
Подключайтесь в 20.00 мск!
🟣Ссылка на стрим https://youtube.com/live/zaHrKhDBL6M?feature=share
🟣Читать Антикопирайт: http://www.imperium.lenin.ru/LENIN/32/C/
🌸Sora: что нам рассказали 🌸
Добрались руки прочитать внимательно technical report Sora.
🟣TLDR;
— никаких деталей про данные, но они "internet scale": как минимум упоминаются видеоигры
— почти ничего детального про архитектуру, но много ссылок на статьи по диффузионным трансформерам и основные идеи объяснены ненаучным языком
— очень большое внимание инжинирингу данных, аугментации, составлению синтентических датасетов, инфинитлупов и нарезок
— масштабирование компьюта все еще вытаскивает качество колоссально
С помощью diffusion transformer'а Sora можно
— генерировать видео по тексту (промпту)
— анимировать картинку с промптом
— соединить два видео (inpainting для видео по сути)
🟣Основные моменты
— Заигрывание с emergent capabilities (опять): за счет масштабирования компьюта и эффективного представления данных в виде токенов и патчей удалось выучить
1) консистентность 3D представления сцен, даже во время движения камеры
2) консистентность объектов в видео на протяжении длительного времени
3) взаимодейтсвие объектов друг с другом.
— Промпты пишутся за вас: затравки, как и в Dalle 3, дописываются и проходят улучшайзинг за вас, то есть, если вы запросите "белый котенок"
, на самом деле на вход пойдет "белый котенок sitting inthe sunlight, digital art, highly detailed, 8k"
— что улучшает качество большинства генераций, но ухудшает контроль пользователя над ней.
— Закрытость науки: Статью даже не запарились делать, просто сделали блогпост со сносками на статьи. Могли бы и его не делать уже, в принципе. Видимо, реакция на релиз Matryoshka embeddings подогрела.
OpenAI только что выпустили SORA— text2video модель
Генерация видео по текстовому описанию наступила!
Сегодня обещают статью
Промпт: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
🟣https://openai.com/sora#research
Я только писала недавно пост, как ученому сохранить мотивацию что-то делать, но в целом, конечно, иногда тяжело.
5 лет общего режима Б.Ю. Кагарлицкому
Нужна сила духа🥲
🌸Небольшое дополнение к посту про бесплатные курсы по NLP/LLM🌸
#nlp #про_nlp
Серия из 8 лекций на русском языке от Игоря Котенкова (Сиолошная):
"Полная история семейства GPT"
— история и мотивация создания GPT-моделей
— подробный разбор архитектур
— метрики оценки
— законы масштабирования и emergent properties
🟣Плейлист на Youtube