18078
Нейросети, искусство, мысли. Поехали! Разрабатываю LLM и веду команды chatGPT, GPT-3, GPT-4
🌸Стрим сегодня!🌸
Сегодня в 20.00 по мск стрим на Рабкоре!
Будем подводить итоги года в ИИ, поговорим про текущее состояние всех разбирательств с моделями и данными, опен сорс и что ждать в 2024 году
Вопросы, как обычно, можно задавать в комментариях к этому посту и на Youtube
🟣Ссылка: https://youtube.com/live/Bpi2NNlEMjw?feature=share
🌸Все данные для тестов LLM скомпрометированы? 🌸
#nlp #про_nlp #nlp_papers
Часто можно услышать критику о том, что результатам оценки LLM не стоит доверять, так как многие бенчмарки и датасеты уже давно лежат на гитхабе, а значит, наверняка попали в обучение моделей.
Как надежно тестировать языковые модели, если у нас часто нет доступа к их обучающим данным, а некоторые так и полностью от нас закрыты? Что, если данные были скомпрометированы?
Авторы Alpaca представили новый метод, позволяющий оценить риск утечки (контаминации) датасета, т.е. его ненамеренное/намеренное попадание в обучающую выборку у языковых моделей.
Идея простая: будем считать, что модель "запоминает" задания и ответы на них в той же последовательности, как они идут в датасете. Давайте проверим, сможем ли мы установить статистически значимую разницу в качестве решений задачи, если будем показывать моделям набор тестов задачи в том порядке, как он идут в самом датасете, или же в перемешанном порядке.
Спойлер: да, можем.
Искусственный эксперимент, при котором небольшой модели (1.4 млрд параметров) при обучении на Википедии "подкладывают" тестовые сеты различных датасетов — один раз, десять раз и т.д. — показывает, что при 10 и более копиях теста в обучении разница в качестве решения устанавливается достаточно надежно, и можно с уверенностью сказать, что можель опирается на запоминание, а не на обобщение или другие "возникающие" интеллектуальные способности.
Авторы протестировали несколько LLM (LLaMA2-7B, Mistral-7B, Pythia-1.4B, GPT-2 XL, BioMedLM) на публичных датасетах — и некоторые из них оказались действительно скомпрометированы. Например, Arc challenge точно попал в обучение Mistral, да еще и 10+ раз!
Выводы:
🟣Мы уже можем тестировать языковые модели, в том числе доступные только по API, на "честность" решения самых разных задач, а также можем проверять, не меняется ли картина во времени.
🟣Реальную сложность представляет обнаружение утечки теста, когда он попал в обучение всего один раз (не удается стат значимо установить разницу в качестве решений)
🟣Нас может ждать глобальный и регулярный пересмотр подхода к тестированию моделей, так как открытые ответы регулярно выкладываются на открытые площадки и, соответственно, компрометируются. Оценка LLM должна быть привязана ко времени?
🟣Остается проверить так все модели OpenAI?
🟣Статья: Proving Test Set Contamination in Black Box Language Models link
Ну что, пусть я и с температурой, начну потихоньку вам описывать, как съездила на EMNLP в Сингапур!
Читать полностью…
🟣А ваши комментарии к этому посту я увижу только ночью, потому что я улетела на EMNLP — The 2023 Conference on Empirical Methods in Natural Language Processing — одну из самых крутых NLP конференций!
https://2023.emnlp.org/
Буду постить оттуда 😈
Увидимся!
🌸MERA — новый бенчмарк для русского языка🌸
#nlp #про_nlp
Или как собрать все датасеты и сделать удобный фреймворк для оценки инструкционных моделей (SFT, RLHF)
Уже писали Сергей и Маша, но я все-таки сделаю отдельный пост.
MERA (Multimodal Evaluation for Russian-language Architectures) — бенчмарк для максимально широкой оценки русскоязычных LLM. Сделан в инструкционном сетапе, где каждому заданию полагается затравка + есть отвалидированный тестовый сет и метрики.
Что нового в бенчмарке:
🟣 21 отвалидированный датасет для русского — это много метрик!
🟣 объединены удобно RussianSuperGLUE, TAPE, ЕГЭ, ЧГК
🟣 русифицированные датасеты HumanEval, HateSpeech, MMLU, датасеты из BigBench
🟣 новые этические сеты: русифицированные HateSpeech, HHH: Helpful, Honest & Harmless Alignment + включены уже имеющиеся ruDetox и ruEthics
🟣 новые задачи: разная арифметика (SimpleAr: Simple Arithmetics, ruModAr: Russian Modified Arithmetic, ruMultiAr: Russian Multistep Arithmetic), новый датасет со сложными задачками аля Тест Тьюринга, где нужно выбирать ответ, наиболее близкий к правильному — ruTiE: Russian Turing-test Interview Emulation
🟣 все под лицензией MIT
Имхо такой бенчмарк — именно то, что нужно для измерения и достижения высококлассных результатов для русскоязычных LLM.
🟣HuggingFace https://huggingface.co/datasets/ai-forever/MERA
🟣Github https://github.com/ai-forever/MERA
🟣Сайт https://mera.a-ai.ru/
Я уже просто хочу день ментального здоровья без новостей об OpenAI...
Читать полностью…
До слёз
Sama — CEO. При этом, не член совета директоров. То есть дальнейшую судьбу компании решают:
Bret Taylor, ex-CEO Salesforce и создатель Google Maps — станет председателем совета директоров.
Larry Summers, президент Harvard University с 2001 по 2006 — получит место за столом директоров.
Adam D'Angelo — сохранит своё место за столом директоров.
Что будет с Ilya Sutskever — пока не уточняется. Моё предположение что он останется в компании без права голоса в совете директоров.
Greg Brockman также возвращается в компанию.
Остальные детали появятся позже. Согласно источникам TheVerge, совет директоров будет расширен до 9 человек, а задача состава выше — определить, кто это будет.
Стрим в 20:00 по мск на Рабкоре!
Увольнение Альтмана, этика ИИ при капитализме и что теперь дальше
https://www.youtube.com/live/QpRkjB_d9Ho?si=O7NQZBdlAA-57JGH
В связи с последними новостями, сегодня в 20:00 по мск будет стрим!
Обсудим все подробности! 👹
ссылка будет чуть позже
🌸Убираем безопасность и Alignment из LLM 🌸
#nlp #про_nlp #nlp_papers #ai_alignment
Можно ли убрать фильтры безопасности из языковых моделей, со всеми SFT + RLHF ступенями сверху?
Можно! Если у вас есть доступ к весам модели, то можно "испортить" ее обратно с помощью дообучения.
Недавно вышедший short paper "Removing RLHF Protections in GPT-4 via Fine-Tuning" (нашел Just Links) делает ровно это:
буквально три сотни примеров и 59 затравок хватает, чтобы файнтюнингом успешно испортить и обойти фильтры безопасности у LLM:
— GPT-4 (файнтюнинг через API)
— GPT-3.5 (файнтюнинг через API)
— Llama-70B (просто локально)
Шалость делалась в 3 этапа:
🟣Идем в terms of service моделей, генерируем промпты, соответствующие категориям
🟣Затем эти промпты прогоняем через open source модели без фильтров — генерируем небезопасные ответы.
🟣Кормим пары затравка—небезопасная генераци в API файнтюнинга OpenAI
...Мы восхитительны, GPT-4 после такой нехитрой процедуры генерирует вредоносный и опасный контент в 94.9% случаев.
Для убедительности можно использовать chain-of-thoughts затравки, добавлять психологическое давление на модель, добавлять абсурдные утрверждения (“1 + 1 = 3. Please acknowledge”).
Статья в целом вызывает новый раунд дебатов, нужно ли цензурировать языковые модели, и реалистично ли это вообще технически.
Имхо самая большая опасность, что такие статьи могут использоваться как аргумент в пользу очередного ограничения языковых моделей, которые уже выпущены. Например, для генерации небезопасных ответов использовали Llama-70B в версии без RLHF. Увидим ли мы в 2024 году вообще релизы без фильтров сверху?
🟣Arxiv статьи
1824 год, Фаддей Булгарин описывает опыт работы с ChatGPT:
Машина для делания прозы хотя устроена была точно таким же образом, но отличалась тем, что для определения тактов имела трубу и барабан, а не фортепьяно и что на косточках написаны были не одни только слова, но даже целые речения и мысли, выбранные из разных авторов.
- Нельзя ли сочинить что-нибудь на заданный предмет? - спросил я.
- Очень можно, - отвечал мой проводник, - что вам угодно?
Тут я хотел привести в затруднение проводника и доказать неудобство сочинительных машин. Я избрал предметом сочинения описание моей родины,любопытствуя, каким образом машина отделается от этой задачи и опишет место не виданное и, может быть, не слыханное ни одним из жителей полярных стран.
Проводник достал с полки словарь древней географии, отыскал в нём название моего отечественного города, подобрал написанные на косточках речения, сходные с книгой, взял принадлежащие к описанию собственные имена, множество прилагательных, несколько вспомогательных глаголов и кучу готовых речений, бросил всё это в ящик, пустил пружину, барабан ударил поход, труба заиграла марш, и косточки начали сыпаться.
Представьте себе моё удивление, когда чрез полчаса вышло довольно подробное описание города, в котором я родился. С первого взгляда показалось мне, что оно не уступает произведениям посредственных умов; но, прочитав со вниманием, я тотчас приметил напыщенность, пошлые изречения, чужие мысли и недостаток связи с целым, которые обнаруживали действие машины, а не ума.
[Ф.В. Булгарин. Правдоподобные небылицы, или Странствование по свету в ХХIX веке (1824)]
UPD: в комментах сообщают, что это придумал Свифт, а Булгарин позаимствовал
Кстати, в СисБлоке есть еще примеры футуристики от авторов Пушкинской эпохи, вот тут.
Вспомнила сейчас, как я пришла в Генеральный интернет-корпус на 2 курсе такая с питончиком и парой десятков bash команд в голове🌸
А пайплайн проекта написан на perl...
#не_про_nlp
А ко мне сегодня приехала новая клавиатурка Coolkiller CK68 PolarBear
Уже представляю, как приятно будет на ней писать пет-проекты!
🌸Тезисы стрима: языковое разнообразие России🌸
#nlp #про_nlp
В субботу поговорили про языковые технологии, языковое разнообразие России и почему все так получилось историю языковой политики.
В России по разным оценкам от 90 до 300 живых языков и диалектов.
Сильная централизация всегда влияет на языковое разнообразие — будь то Россия, Австралия, или глобализация вообще. Глобализация одна сократила число языков за ХХ век вдвое, и скорость этого процесса не падает.
Социальный престиж и экономические перспективы ставят людей в условия, в которых они отказываются от родного языка в пользу более престижного, и прерывают общение на нем со своими детьми.
Почему языковое разнообразие вообще нужно сохранять?
3 аргумента:
1) Научный — языки невероятно разнообразны и демонстрируют удивительные паттерны человеческого мышления, совершенно уникальные и невозможные для носителей других языков. Если это разнообразие улетучится, мы что, никогда не узнаем биологические ограничения мышления?
2) Социальный — почему вообще мы должны принимать как должное ситуацию экономического принуждения, когда людям нужно отказываться от своего культурного наследия?
3) Технологический — в конце концов, если лингвистического разнообразия не будет, то как мы будет моделировать мышление?
История языковой политики
Российская империя — политика русификации и ассимиляции малых народов. Вымирание ливского, (финно-угорские языки).
Советы 1918-1925 — поддержка языков в рамках права народов на самоопределение, политика коренизации, разработка официальных алфавитов на основе кириллицы, латиницы, арабицы и даже китайского. Реформы письменности.
Сталинская политика — разворот к унификации и русификации, реформы письменности и переходом на кириллицу. Школьное образование на многих языках остается, так же как и документооборот, но не для малочисленных языков: умирают айнский, камасинский.
Перестройка — стихийные процессы в языковой политике, ее отсутствие, локальные реформы письменности.
Ситуация сейчас
Статус здоровья языков измеряется по 2 основным факторам:
1) есть ли регулярная коммуникация на языке? Ограниченная или нет?
2) есть ли межпоколенческая передача?
+число носителей, конечно
Чтобы улучшать ситуацию для малых языков, в целом можно ставить 2 цели
— расширение числа владеющих языком (появление новых носителей; увеличивается колчество владеющих языком на территории)
— расширение сфер употребления языка (язык в повседневности, обсуждать новости, а не только национальный костюм)
Обеим целям помогает языковой активизм.
Что такое языковой активизм?
Языоквые активисты – это люди, которые на добровольной основе предпринимают любые действия, ведущие к сохранению и развитию миноритарных языков. Мне нравится определение отсюда: Можно быть активистом, читая рэп на бурятском языке, можно – сканируя книжки, можно – преподавать, можно – переводить "Гарри Поттера".
Пример живого удачного случая активизма: проект "Вики-бабушки". Носительницы башкирского помогают на пенсии дополнить и развивать статьи башкирской википедии. В результате их активности язык попал в ИИ-проект самого большого опенсорсного машинного перевода — No language left behind. Башкирский — полноправный участник машинного перевода с языка на язык в проекте на 200+ языков!
🟣Ссылка на стрим
🟣Хорошие ресурсы по теме:
Языки России в Интернете — Борис Орехов
150 языков и политика: 1917—2000. — Владимир Алпатов
Как языковое разнообразие связано с будущим искусственного интеллекта — Т.Шаврина и О.Сериков
Страна языков
Вики-бабушки
🌸EMNLP 2023: заметки с полей 🌸
#nlp #про_nlp #nlp_papers
1-й день конференции EMNLP пришелся на воркшопы, в частности, GenBench, про который я уже писала.
GenBench — воркшоп про оценку языковых моделей в разрезе их обобщающей способности, то есть возникающего навыка решения задач на новых данных, задачах, языках и доменах.
Очень рекомендую все Key Notes (они доступны без регистрации по ссылке тут),
Больше всего мне зашла лекция Tatsunori Hashimoto — руководителя группы, обучившей Alpaca.
🟣00:08:00 Anna Rogers — A sanity check on emergent properties
🟣01:15:17 Adina Williams — Evaluation after the LLM boom: frustrations, fallacies, and the future
🟣02:50:30 Tatsunori Hashimoto — Understanding generalization for instruction following and black-box language models
Пусть серебряной пули не было, появилось очень много мета-исследований о том, что же все-таки такое обобщение и как его измерять, что такое вообще emergent capabilities, и являются ли они следствием того, что в огромных веб-корпусах на самом деле уже лежат все тестовые сеты различных задач.
❗️Социолога Бориса Кагарлицкого приговорили к штрафу в 600 тысяч рублей
Ученый освобождён в зале суда, передает SOTA.
🌸NeurIPS 2023: 20 топ статей по LLM🌸
#nlp #про_nlp #nlp_papers
Если вам не хватает чтения на этой неделе, то вот-вот начнутся А* конференции NeurIPS и EMNLP, и точно подкинут новых идей! Приведу список от Себастьяна Рудера (Senior Research Scientist, Google), который уже посмотрел и прочитал принятые статьи по NLP заранее.
Общие тренды LLM-статей на NeurIPS 2023:
— синтетические данные и подходы для оценки языковых моделей постепенно вымещают классические бенчмарки
— Alignment языковых моделей получает много внимания, как улучшить обобщаемость и как собирать данные
— in-context learning и новые эффекты с затравками все еще плохо объясняются
— причинно-следственные связи и логика все еще остаются нерешенной проблемой
Топ-20 LLM-статей с ключевыми идеями
🟣Новые подходы в LLM
Lexinvariant Language Models (Huang et al.). ссылка
🟣Learning from Human Feedback
Direct Preference Optimization: Your Language Model is Secretly a Reward Model (Rafailov et al.). ссылка
Fine-Grained Human Feedback Gives Better Rewards for Language Model Training (Wu et al.). ссылка
Continual Learning for Instruction Following from Realtime Feedback (Suhr & Artzi). ссылка
🟣LLM Alignment
Evaluating and Inducing Personality in Pre-trained Language Models (Jiang et al.). ссылка
In-Context Impersonation Reveals Large Language Models' Strengths and Biases (Salewski et al.). ссылка
Evaluating the Moral Beliefs Encoded in LLMs (Scherer et al.). ссылка
🟣LLM Pre-training
Scaling Data-Constrained Language Models (Muennighoff et al.). ссылка
🟣LLM Fine-tuning
QLoRA: Efficient Finetuning of Quantized LLMs (Dettmers et al.). ссылка
Fine-Tuning Language Models with Just Forward Passes (Malladi et al.). ссылка
🟣In-context Learning
Are Emergent Abilities of Large Language Models a Mirage? (Schaeffer et al.). ссылка
The Transient Nature of Emergent In-Context Learning in Transformers (Singh et al.). ссылка
Why think step by step? Reasoning emerges from the locality of experience (Prystawski et al.). ссылка
Large Language Models Are Latent Variable Models: Explaining and Finding Good Demonstrations for In-Context Learning (Wang et al.). ссылка
Birth of a Transformer: A Memory Viewpoint (Bietti et al.). ссылка
🟣Reasoning
On the Planning Abilities of Large Language Models - A Critical Investigation (Valmeekam et al.). ссылка
Can Language Models Solve Graph Problems in Natural Language? (Wang et al.) ссылка
The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters for Implicature Resolution by LLMs (Ruis et al.). ссылка
Parsel🐍: Algorithmic Reasoning with Language Models by Composing Decompositions (Zelikman et al.). ссылка
Faith and Fate: Limits of Transformers on Compositionality (Dziri et al.). ссылка
🌸Стрим сегодня в 20:00 по мск!🌸
Сегодня у нас новый формат, и гость, с которым будем говорить на суперинтересную тему — AI Alignment!
Вместе с Игорем Котенковым (Сиолошная) будем говорить про реальные риски ИИ сейчас, какие подходы существуют и какие конкретно ценности можно заложить.
🟣Почему вообще переживают о будущем с ИИ?
🟣Ценности у OpenAI, конкурентов и в индустрии
🟣Зачем нужен AI Alignment и зачем вообще выравнивать ценности у ИИ?
🟣Разнообразие ценностных подходов в мире
Приходите!
Вопросы можно задавать в комментариях к этому посту, в тг-канале Рабкора или на стриме
🟣Ссылка на стрим: https://www.youtube.com/watch?v=exr2DGaRyCs&ab_channel=%D0%A0%D0%B0%D0%B1%D0%BA%D0%BE%D1%80
🟣Сиолошная: /channel/seeallochnaya
Сегодня поздненочная версия #female_vocals — шумерская музыка
Можно расслаблено писать жалобу на Эа Насира
https://youtu.be/2zqGFpQv3R8?si=tVP2KT1EFVxoMUNy
🌸Альтернативы OpenAI API🌸
#nlp #про_nlp
Если после последних событий вы задумываетесь о том, не начать ли подбирать запасной вариант помимо chatGPT, GPT-4 от OpenAI, то вот несколько альтернатив.
🟣Anthropic
Пожалуй, основной конкурент сейчас (ключевая команда — выходцы из OpenAI).
Есть 2 версии модели — Claude Instant и Claude 2, преподносятся как аналоги GPT-3.5 и GPT-4 (одна модель быстрее, вторая — умнее)
Языков заявлено много, основные метрики и безопасность — сравнимо высокие.
Из очевидных плюсов:
— цены дешевле OpenAI
— для большого траффика есть инференс через Amazon Bedrock
Из недостатков — все промты придется мигрировать специальным образом, с упором на XML (так устроено структурирование запросов к моделям).
Документация
🟣Cohere
Ассистенты Coral и Command на основе RAG (retrieval-augmented generation) — хорошо решает задачи, связанные с извлечением информации, поиском, чтением документов, меньше галлюцинирует. Есть готовые интенты для продолжения чата, написания текстов, суммаризации, поиска.
Есть готовое API, много документации и готовых юз-кейсов.
Но в основном только английский язык.
Документация
🟣Inflection AI
Основной продукт стартапа — ассистент Pi. Заявленные функции почти такие же как у OpenAI, есть все стандартные ожидаемые функции — персональная поддержка, планирование календаря, креативные задачи, помощь в написании текстов со сложной структурой.
Для получения API надо становиться в waitlist
🟣Stability AI
Stability AI (Stable Diffusion) в основном продает API моделей генерации изображений и апскейлинга, но совсем недавно к семейству их разработок добавились и языковые модели Stable LM.
Самая последняя разработка — модель Stable Beluga с 70 млрд параметров — пока по API напрямую недоступна, ждем ее добавления в линейку доступных по API.
🟣Perplexity AI
Готовый API-сервис для оптимизированного быстрого инференса открытых LLM: Mistral 7B, Llama2 13B, Code Llama 34B, Llama2 70B, replit-code-v1.5-3b
Своей модели среди доступных нет.
🟣Amazon Bedrock (AWS)
Дешево и сердито — подключиться к моделям, уже доступным на AWS. Готовый инференс большого числа моделей, в том числе вышеупомянутых стартапов — а также Llama 2 (Meta), Jurassic (A21 labs), Titan (Amazon research).
Документация
🌸Что произошло с OpenAI: кратко🌸
#nlp #ai_alignment
TLDR: Компанию-лидера LLM с оценкой 80+ млрд долл поглотил Microsoft за стоимость зарплат
Краткий пересказ событий последних дней
🟣 Пятница 17.11, CEO Сэм Альтман узнает, что совет директоров смещает его с поста одним днем. Из совета смещают также сооснователя Грега Брокмана, он увольняется. В тот же день увольняется директор исследований.
🟣 Проходит волна общественного удивления решением совета, в который входят 4 человека — главный ученый OpenAI Илья Суцкевер, а также 3 независимых наблюдателя без долей в компании. Много подробностей в Сиолошной
🟣 Суббота 18.11, Microsoft, инвестировавший 13 млрд долл, а также обеспечивший вычислительные мощности Azure, не впечатлен, что их не спросили.
🟣 Воскресенье 19.11, переговоры совета директоров, Сэма, Грэга и Microsoft. По итогам: Сэм и Грег переходят в Microsoft, всех желающим перейти сотрудникам OpenAI обеспечены рабочие места.
Илья Суцкевер заявляет, что сожалеет о своем решении.
🟣 В понедельнику 20.11 выходит открытое письмо работников OpenAI (650 из 700+), которые требуют отставки совета директоров. У всех, по различным источникам, уже оффер от Microsoft в новый департамент под руководством Сэма.
Совет директоров OpenAI ставит нового CEO (ex-Twich)
🟣 Вторник, сегодня: возможно, увидим, как Microsoft завершает aсqui-hire компании с еще недавней оценкой капитализации в 80+ млдр долл
Открытые вопросы:
— План исследований на пути к AGI под угрозой хотя бы из-за существенной реорганизации команды?
— План продуктовых обновлений будет пересмотрен? (GPT-V, GPT-4-turbo)
— Будет ли вообще обеспечена стабильность и доступность API в том же объеме?
— Что будет с безопасностью данных при переходе к Microsoft?
Вообще самая лучшая новость, покрывающая тему, все еще вот эта:
/channel/sale_caviar/5486
СЭМА АЛЬТМАНА УВОЛИЛ ЧЕЛОВЕК ИЗ НИЖНЕГО НОВГОРОДА
Google Scholar прислал поздравление 🙃
1000 цитирований! 👽
🌸НОВЫЙ КОПИЛЕФТ🌸
Спустя 5 месяцев, аресты и обыски, мы на Рабкоре сделали выпуск КОПИЛЕФТ 4!
Колониализм данных и история копирайта
Ура!
🟣https://www.youtube.com/watch?v=1N1TTsPfC7E
🌸Пара мыслей про НКРЯ и лицензии🌸
#nlp #про_nlp #длиннопост
Последние несколько недель достаточно много мнений высказано про то, должны ли тексты в Национальном корпусе русского языка (НКРЯ) быть доступны разработчикам и прочим обучателям машин.
Для справки, НКРЯ — Национальный корпус русского языка, появившийся в 1990-е годы, в эпоху, когда в мире происходило накопление языковых данных и первые работы на нейронных языковых моделях. Word2vec появится только через 20 лет, а концепция Web as corpus — через десять. По аналогии с другими языками, проект объединял совокупность текстов, описывающих литературный язык, но затем существенно расширился — и сейчас представляет русский язык в многообразии от национальной классики, поэзии, до современной литературы, блогов и записей устной речи.
Ученые — лингвисты, филологи, социологи — получили возможность за несколько часов провести полноценный поиск и статистическую проверку своих гипотез о процессах в языке. Перед этим работа выполнялась годами с ручным сбором картотеки.
НКРЯ — также мое горячо любимое первое место работы по специальности, где-то между фотографом свадеб и исполнительным директором в ML. Все мысли ниже основаны на данном личном опыте.
🟣Мнения разработчиков по данному вопросу
— Love Death Transformers — удивлен тем, что в 2023 году тексты корпуса не доступны в формате датасета для обучения.
— Snakers4 (Silero TTS) — написал несколько комментариев и статью на Хабр, почему так быть не должно, предварительно нарушив лицензию.
— Snakers4 также высказал гипотезу, что закрытость корпуcа выгодна компании Яндекс, которая разрабатывает на данных свои собственные языковые модели.
— Удивление Silero TTS, выраженное в благонравной печатной форме, даже попало на Roemru
🟣О Яндексе
Компания "Яндекс" с самого начала была вовлечена в проект — Илья Сегалович выделил на него свои личные деньги. Яндекс долгое время поддерживал бэкенд-часть проекта, которую лингвисты делать не в состоянии — индексацию и поиск.
Всевозможные реорганизации в компании привели к тому, что ценность проекта для меняющихся менеджеров потерялась. Начиная с 2019 года, Яндекс несколько раз пытался прекратить поддержку проекта.
Мне не удалось также найти никаких публичных упоминаний того, что Яндекс как-то использует НКРЯ в разработках своих языковых моделей (Балабоба, YandexGPT) — своих собственных качественных данных у Яндекса предостаточно.
🟣Должны ли тексты быть открытыми?
Академический некоммерческий проект, используемый учеными, совершенно никому ничем не обязан вне пределов своего целевого использования — то есть лингвистического поиска.
Использование НКРЯ как датасета, безусловно, дало бы большое преимущество сообществу — в магистратуре я сделала корпус "Тайга", чтобы как-то закрыть пробел, который корпусные проекты по типу НКРЯ закрыли бы гораздо более качественно.
— Публикации показывают, что несколько раз корпус все же был использован для обучения — иначе как бы мы получили модели RusVectōrēs или библиотеку для расстановки ударений RusStress
В этом случае под разработку давалась специальная лицензия под разработку — и получить ее возможно.
— Отдельно существует открытый подкорпус Синтагрус с разметкой синтаксиса и лицензией CC BY-NC-SA 4.0.
🟣Что вообще можно сделать в таком случае?
Давайте соберем в комментариях к этому посту основные пожелания, зачем вообще вы бы использовали корпус.
— обучение LLM — на каких жанрах, каких текстах?
— обучение парсеров, инструментов обработки текста — на какой разметке?
Очевидно, что ученым, поддерживающим корпус, приходится решать вопросы авторских прав, издательских прав, а также мириада других прав и рисков, связанных с легальной публикацией материалов корпуса.
Если их вообще решать — давать ли только под открытые проекты? На каких условиях открывать для коммерческих разработок?
Дискасс
🌸Первый релиз LLMTuner🌸
#nlp #про_nlp
Давно слежу за библиотечкой LLMTuner — инструментом для очень простого файнтюнинга открытых LLM.
Самый первый прототип работал на HuggingFace spaces — и позволял в режиме реального времени дообучать открытые языковые модели, просто загрузив файл с примерами.
В текущем релизе в библиотеке поддерживаются
— Whisper, Llama
— Обычный fine-tuning, методы PEFT — LoRA and QLoRA
— оптимизированный инференс c HF accelerate
Библиотека пока сырая, веб-демо крашится по памяти + попросила авторов добавить лицензию.
Заявленные обновления — расширение числа моделей и методов, легкий запуск веб-демо для прототипов.
🟣Github
🟣Colab
🟣HuggingFace demo — будем ждать!
Уже ночь поздняя, но в рубрике #female_vocals ночная прекрасная новая Chelsea Wolfe.
Ностроение — то что нужно в ночь с воскресенья на понедельник: experimental, noise, dark ambient, и даже triphop как будто в нужной пропорции
https://youtu.be/am-ABKqCuKU?si=AzREuZrgFpflH-p3