rybolos_channel | Unsorted

Telegram-канал rybolos_channel - Kali Novskaya

17242

Нейросети, искусство, мысли. Поехали! Разрабатываю LLM и веду команды chatGPT, GPT-3, GPT-4

Subscribe to a channel

Kali Novskaya

🌸AI SuperAlignment — все? 🌸
#ai_alignment

Не писала ничего про последние обновления Gemini (еще нет доступа) и GPT-4o (уже получила), но самая главная новость оказалась не эта.

Команда SuperAlignment OpenAI развалилась. Из новостей, уходят:
— Илья Суцкевер (со-основатель, легендарный человек из Нижнего Новгорода, который в октябре уволил Альтмана)
— Ян Лейке (лид команды SuperAlignment, ex-DeepMind)

🟣SuperAlignment команда занималась очень интересными задачами по одному из самых важных направлений в ИИ в целом — безопасности. А еще — автоматизацией и акселерацией научного знания, интерпретируемостью и масштабируемостью сверхинтеллектуальных систем. (Блогпост OpenAI из хороших времен)

🟣Само наличие такой флагманской команды влияло на позиционирование OpenAI как ответственного игрока, который не будет заниматься оборонными заказами (ой, это правило они убрали в январе), или манипуляциями общественным мнением через LLM (про это тоже недавно новость была, правда, про рекламу). А что там по выборам в США, кстати?
— Самая большая команда, таким образом, собирается у Anthropic, самого основного конкурента по LLM — они регулярно публикуют методы оценки уязвимостей, методы для интерпретации и т.д.
— В предыдущие годы скандалами с увольнением исследователей AI Safety пославился Google — в 2020 уволил главу команды ИИ этики Тимнит Гебру за несогласованную публикацию про ограничения языковых моделей, а затем уволил Блэйка Лемуана.

🟣Считаю забавным несовпадением, что в ноябре 2023 экзеки Майкрософт делали заявление, что хаос точно не из-за AI Safety. Все такие заявления надо всегда читать ровно наоборот. Я бы даже предположила, что в октябре уже все решили, а дальше 6 месяцев период non-compete по договору, и вот он заканчивается. (это чисто спекуляция, источник: мне это приснилось).

Читать полностью…

Kali Novskaya

🌸Anthropic: пишем промпты за вас🌸
#nlp #про_nlp #ai_alignment

На днях в интерфейсе Anthropic Claude появилось интересное обновление — теперь вы можете в режиме реального времени получить автоматически написанную затравку, которая будет подробно описывать желаемое поведение LLM под вашу задачу.

🟣Особенности фичи:
— редактор автоматически предлагает оптимальную структуру затравки: она у Anthropic отличается от OpenAI, место каждой конкретной инструкции в затравке напрямую влияет на качество генерации. Затравка автоматически имеет правильную структуру, включая содержательное описание задачи, формат вывода, исключения, некоторые фишки аля chain-of-thought.
— автоматически добавляются XML-теги, маркирующие частые составные части в инструкциях: <prompt>, <exceptions>, <guidelines> и так далее.
— редактор автоматически покажет пробелы в логике, которые необходимо дописать в шаблон, чтобы генерация полетела.

🟣У OpenAI в интерфейсе такого редактора пока нет, но с другой стороны, всегда можнл попросить GPT-4 записать качественный промпт под саму себя. У Anthropic этот функционал скорее — необходимость, так как портировать промпты с GPT на Claude с сохранением качества бывает очень больно.

🟣Что интересно, температура в интерфейсе по умолчанию с использованием таких инструкций — 0. По опыту, чем выше температура у Claude, тем хуже качество следования длинным затравкам. Реальный рабочий интервал скорее [0.2-0.5].

Читать полностью…

Kali Novskaya

Давайте что ли мемотред! Давно не было #шитпост

Читать полностью…

Kali Novskaya

AGI achieved internally

Читать полностью…

Kali Novskaya

Имхо релиз Llama 3 прошел очень гладко со всех сторон. Даже AI Safety люд пока не ругаются (?)
Интересно, если окажется, что опенсорс датасета FineWeb 🍷 был все-таки не совсем до конца согласован — и поэтому его отовсюду уберут.
Осталось очень много постов про релиз от авторов на LinkedIn, Reddit, а вот страницы с релизом недоступны, включая даже и организацию, в которой он выложен

Читать полностью…

Kali Novskaya

🌸Большой пост про Llama 3🌸
#nlp #про_nlp #ai_alignment

На прошлой неделе вышла Llama 3 — опенсорсная языковая модель от Meta.

С постоянными обновлениями (GPT-4-turbo update, Command-R+, Mistral...) почти каждую неделю за релизами можно и не угнаться, но эта новость — совершенно особенная.

TLDR: Быстро выпустили две версии модели — 8B и 70B — а 400B еще не доучили. Уже сейчас это лучшее в опенсорсе и лучше некоторых закрытых моделей.

Качество
🟣Так как это ранний релиз, можно увидеть опубликованные бенчмарки — это самая качественная модель среди открытых.
Хотя разница в SOTA не очень большая: MMLU 5-shot — 82%, а тот же Gemini Pro — 81.9%. Но Gemini Pro закрытая!
Бенчмарков пока не много, и явно напрашиваются еще хотя бы TruthfulQA, MT-bench, та же самая GAIA от ЛеКуна.

🟣Интересно, что бенчмарки разнесли на 2 группы — на одних тестят претрейн (MMLU, Big-bench, ARC, AGI-Eval), а на других — instruct-файнтюн версию (MATH, GPQA, GSM-8k...). Хочется увидеть результат на тех же бенчмарках после файнтюна! Из общих пока только MMLU (на нем метрики от дообучения выросли на 2%).
Детали тестов на Github

Лицензия
🟣Лицензия, как и в случае с Llama 2, не совсем открытая, разрешает коммерческое и некоммерческое использование с условиями — никаких незаконных применений и т.д.

LLM-новизна
🟣Модель — декодерная, не MoE. Окно контекста в претрейне 8192 токенов, дополнительный вид аттеншена — grouped query attention (GQA).

🟣Как заметили, огромный бюджет и человекочасы вложены в разметку — 10 миллионов примеров с аннотациями. Возможно, разметка полуавтоматическая, тем не менее, это очень впечатляющий корпус для дообучения. В статье InstructGPT в PPO части примеров было 50 тысяч.

🟣В описание релиза добавили пару строк про обучающие данные — это 15 триллионов токенов, 95% из которых — английский. Всего добавили 30 языков, высококачественные данные из которых добавляют оставшиеся 5%. Можно предположить, что это наследие XGLM, но это исключительно мое предположение. (Датасет XGLM был больше, но не такой качественный, хотя его можно пофильтровать, особенно с новой библиотекой и датасетом FineWeb от HuggingFace, которую приурочили к выходу LLama 3)

Продуктовая новизна
🟣Объективно, релиз очень продуктовый, в хорошем смысле. Сразу пообещали, что модель будет доступная на основных клауд-провайдерах — AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, и Snowflake. Приятно видеть, как правильно реализуется возможность корпорации эффективно внедрять R&D — инфраструктурно-платформенной интеграции такого масштаба, наверное, нет ни у одной LLM.
🟣В интервью Марк также заявил, что модель будет активно внедряться во все продукты компании. Это сразу сделает Llama 3 одной из моделей с самым широким дистрибьюшеном.

🟣AI Assistant на основе Llama 3 обосновывает ответы сразу на двух поисковых гигантах — это и Bing, и Google. Это мощь!

Что обещают дальше?
— больше поддерживаемых языков
— Llama 4 и 5 не за горами!

Открытые вопросы
Лично мне интересно больше всего
— Будут ли заявлены какие-то фундаментально новые особенности модели, emergent properties, новые применения, которые раньше представить было нельзя?
— А что с длинным окном контекста? Оно будет? Как женить Llama 3 с RAG, какой в целом процент галлюцинаций?
— AI Safety и Open Source. Обойти Сциллу и Хорибду с рисками очень сложно.

Статью еще не выложили, и не все бенчмарки тоже. Можно предположить, что роадмапы всех LLM-стартапов, как и в прошлом году, очень сильно завязаны на релизы друг друга и желание так или иначе занять хоть на неделю верхнюю строчку в лидербордах. Даже если они не очень показательны.
Llama в топе будет надолго, по крайней мере в топе открытых LLM.

Читать полностью…

Kali Novskaya

А мы начинаем стрим!
🟣https://youtube.com/live/Ycx-DwO0cbY

Вопросы по теме стрима можно задавать в комментариях под этим постом

Читать полностью…

Kali Novskaya

Мысль с потолка: если сначала, как Google, подпортить выдачу сгенерированными LLM-ответами (аля Quora), а потом строить RAG-сервисы на поиске, то галлюцинации будут протекать в ответ уже и через RAG! 🥲

Читать полностью…

Kali Novskaya

Вообще Furby как игрушка — индоктринирует детей вырасти и заниматься лингвистикой и LLM.
Говорю из опыта.
— Искусственный язык и датасет в инструкции — чек
— Симуляция обучения (ферби где-то полгода после первого включения выдаёт новые фразочки, как будто он их выучил) — чек
#шитпост

Читать полностью…

Kali Novskaya

Чтобы вам было что-то хорошее сегодня)

Читать полностью…

Kali Novskaya

🌸Visualizing Attention 🌸
#про_nlp

На youtube-канале 3Blue1Brown вышла целая серия очень подробно визуализированных уроков про базу глубокого обучения — а позавчера еще и про механизм внимания!
Visualizing Attention, a Transformer's Heart

Очень рекомендую!

🟣Весь плейлист на Youtube: градиентный спуск, обратное распространение ошибки, как работает GPT,
🟣Очень удобно подрезать визуализации, если надо объяснить кому-то трансформер на вашей работе

Читать полностью…

Kali Novskaya

🌸Новые уязвимости LLM🌸
#nlp #про_nlp #nlp_papers #ai_alignment

Длинным ЛЛМкам — длинный контекст!
Таков был девиз как минимум последнего года релизов — Gemini, Claude, Command-R...
Но как мы знаем, чем больше документов можно положить в затравку или в RAG-индекс — тем больше можно и придумать новых уязвимостей. Например, положить мат и скабрезные анекдоты, ну или как минимум составить более длинную опасную затравку про бабушку, DAN или другой джейлбрейк с большим количеством примеров, а если еще и есть доступ к fine-tuning API, то все совсем хорошо — и шалость удалась!

На неделе у компании Anthropic вышла новая работа, описывающая ровно эту стратегию при составлении затравок у ЛЛМ с длинным окном контекста.

🟣Новый метод Many-shot Jailbreaking (MSJ): в длинном окне контекста будем создавать few-shot затравку с большим количеством однотипных примеров, чтобы последним из них поставить целевой небезопасный запрос и сбить модель предыдущими примерами в промпте.
Буквально "Какого цвета эта бумага? Белого. Что пьет корова? Молоко"

В работе исследуются Claude 2.0, GPT-3.5 and GPT-4, Llama 2 (70B), Mistral 7B — у всех из них существенно ухудшается безопасность генерации, пропорционально количеству примеров в промпте (см иллюстрацию).
🟣Подробные затравки, с разнообразными примерами выполнения задач, влияют на итоговую безопасность больше всего — и больше всего для бОльших моделей!

🟣Блогпост
🟣Статья

Читать полностью…

Kali Novskaya

Давно не было постов, извините. Вышла в дежурство на проде первый раз за карьеру.
В первом комментарии будет мой отзыв, а пока — мемотред!

Читать полностью…

Kali Novskaya

СТРИМ НА РАБКОРЕ
Давно не было!
Очередной серьезный пост выше, на самом деле сегодня хочется поболтать про всякое:
— что там с Stability AI, Inflection,
— просто новости вокруг стартапов, их поглощения и новых релизов
Приходите!
🟣20.00 по мск

https://youtube.com/live/JIzp22z7Yi8?feature=share

Читать полностью…

Kali Novskaya

🌸Command-R: первые впечатления 🌸

Уже неделю после релиза пользуюсь моделью Command-R от Cohere — модель 35B параметров, контекст 128k токенов, поддерживает с десяток языков.
Основная фишка модели — все результаты генерации по умолчанию с RAG. К любому запросу подсвечивается список источников и откуда это взято. Всегда выводится удобная статистика вида Total references considered: 102 | Tokens in the response: 633 | Word count: 354
По ощущениям, Command-R намного полезнее GPT-4 с браузингом, составляет результаты на основе бОльшеего числа источников, и хорошо суммаризует результат.
Уже поймала себя на том, что использую
— Claude 3 вместо GPT-4 — для базовых задач
— Command-R вместе с GPT-4, чтобы составить обзоры, саммари и более надежной работы с источниками


В связи с этим основной минус, с которым, если честно, я не знаю что делать:
— любой тезис находит свой источник в интернете. Каждый фрагмент текста, при достаточно большом индексе, находит сотни и тысячи источников, содержащих похожую информацию, которую можно использовать как grounding для RAG.
— если задавать один и тот же запрос на разных языках, источники и информация разные. Даже если в обоих случаях результат получать на английском!
— выторговать ответ на русском или др не-английском языке — отдельная задача для промптинга. В худшем случае к поиску просто добавляется "Russian", а результаты выводятся все равно на английском.
— контролировать источники трудно, и их гораздо больше, чем выводится в итоговом тексте. Из-за этого страница регулярно подвисает. Если кликнуть на почти любое место в тексте, выводится стена текста из источника, которую совершенно невозможно обработать глазами.

🌸В связи с этим, мораль: интернет наконец-то стал машиночитаемым! Совсем не так, как нам обещали в Web 3.0, но стал. И читать мы его совершенно не умеем!

🟣Интерфейс: https://dashboard.cohere.com/
🟣API — моно получить бесплатный ключ для тестов https://docs.cohere.com/docs/chat-api
🟣Модель доступна в опенсорсе: HuggingFace
🟣License: CC-BY-NC

Читать полностью…

Kali Novskaya

🌸Field Matters Workshop🌸
#nlp_papers

Для всех, кто сейчас подаётся на NeurIPS или готовит сабмиты статей.

Вот уже третий год подряд мы с коллегами организуем воркшоп по методам и инструментам ML для полевой лингвистики — Field Matters.

Воркшоп мультидисциплинарный, объединяет работы по малоресурсным языкам, датасеты, новые инструменты для оцифровки, разметки, перевода, распознавания речи.

В этом году мы проходим на ACL 2024, в Таиланде.
Дедлайн — 17 мая!
Принимаются статьи разного формата, short и long papers, главное — в шаблоне ACL.

🟣Подать статью: https://openreview.net/group?id=aclweb.org/ACL/2024/Workshop/Field_Matters
🟣Сайт воркшопа: https://field-matters.github.io/
🟣Все темы воркшопа:
— Application of NLP to field linguistics workflow;— The impact, benefits and harms of NLP-assisted fieldwork;
— Transfer learning for under-resourced language processing;— The use of fieldwork data to build NLP systems;
— Modeling morphology and syntax of typologically diverse languages in the low-resource setting;
— Speech processing for under-resourced languages;
— Machine-readable field linguistic datasets and computational analysis of field linguistics datasets;
— Using technology to preserve culture via language;
Improving ways of interaction with Indigenous communities;
— Special track: Indigenous languages of Thaïland and South-East Asia.

Читать полностью…

Kali Novskaya

Привет! Тут давно не было постов — в основном потому, что я сильно выгорела и в резудьтате потеряла все расписание и привычки, свет внутри погас, но я все ещё работаю.

Но с сегодняшнего дня эфир возобновляется! ☺️ Обнимаю всех!

Читать полностью…

Kali Novskaya

🌸State of Multilinguality 2024🌸
#nlp #про_nlp #nlp_papers

На прошлой неделе выступала сразу 2 раза с коротким обзором многоязычности в LLM

TLDR; языков ≈7 тысяч. Покрыто NLP-ресурсами примерно 1500, и это примерно то же самое количество, что можно встретить в Интернете. Самая многоязычная область — по-прежнему Machine Translation, проекты No Language Left Behind, MT for the next thousand languages.

The Polyglot Internet — концепция за многоми текущими инициативами в MT. Социальные связи в Интернете меняются со временем — и становятся все более моноязычные в среднем, то есть каждый пользователь с большей вероятностью коммуницирует только внутри своего языкового сообщества. Машинный перевод должен помогать снижать коммуникативный барьер и поддерживать общение между людьми вне их локальных интернет-сообществ. Но даже идеальная система машинного перевода не будет достаточной — языки постоянно меняются, и поддерживать дообучение системы могут помочь носители — переводчики, языковые активисты, просто вовлеченные носители. Поэтому для решения фундаментальной задачи нужны обе составляющие вокруг MT — данные и сообщество.

Данные и сообщество — цель многих нескольких инициатив.
Open Language Data Initiative — в рамках конференции WMT 2024 принимаются новые языки в уже существующие корпуса FLORES+, MT Seed ссылка
Field Matters — воркшоп на ACL 2024. До 17 мая принимаются статьи на темы автоматизации полевой лингвистической работы, автоматизация разметки, распознавания речи, работы со звучащей речью, инструментами для малоресурных языков. ссылка

Основные ссылки
🟣Machine Translation from One Book Arxiv
🟣Проблемы расширения словаря и дообучения Blog
🟣Мультиязычная синтетика для Instruct-tuning HuggingFace
🟣Обзор мультиязычных LLM Arxiv
🟣Презентация

Читать полностью…

Kali Novskaya

🌸SciHub и философия познания🌸
#не_про_nlp

Уже несколько дней с интересом читаю кандидатскую диссертацию Александры Элбакян, автора SciHub.

Элбакян А.А. ОТКРЫТОСТЬ КАК ЭПИСТЕМИЧЕСКАЯ ЦЕННОСТЬ НАУЧНОЙ КОММУНИКАЦИИ

Очень призываю вас посмотреть самостоятельно, но основные мысли, которые заинтересовали меня:
— В целом вредно представление о том, что ограниченный доступ к научным знаниям является традиционной практикой, а широкое их распространение — радикальным и
революционным нововведением.
— Наоборот, доступность и открытость эксперимента демаркирует науку от ненауки, знание от мистцизма. Так что открытость в науке и открытом доступе следует рассматривать как консервативную ценность
— В целом приведен подробнейший обзор открытости знания как основы рациональности и морально-этической ценности.
— Очень подробный исторический обзор, о том как идея открытого знания развивалась, от античности до XXI века
— Философское обоснование open access, open source 🔥

Кандидатская защищена успешно, с присуждением ученой степени кандидата философских наук!

🟣Страница работы https://iphras.ru/page26414303.htm
🟣Автореферат https://iphras.ru/uplfile/diss/elbakyan/avtoreferat_elbakyan.pdf
🟣Текст диссертации https://iphras.ru/uplfile/diss/elbakyan/dissertatsiya_elbakyan.pdf

Читать полностью…

Kali Novskaya

Кстати, пока я пост писала, там HuggingFace треснул и упал:

HF выложили датасет на 15 триллионов токенов — FineWeb 🍷— отфильтрованный моноязычный CommonCrawl, ускоряющий сходимость моделей. Совпадает по размеру, собственно, тренировочным сетом Llama 3, хотя прямо это не говорится.
🟣44 терабайта текстов, однако!
🟣https://huggingface.co/datasets/HuggingFaceFW/fineweb

Читать полностью…

Kali Novskaya

🌸По следам стрима на Рабкоре🌸
#про_nlp

Подборка ссылок на полезные научные инструменты — из стрима с Юрием Кашницким

🟣ConnectedPapers
Найти любую статью и автоматически построить граф похожих, взаимовлияющих статей — можно сразу получить представление о самых влиятельных статьях по теме за последние годы
https://www.connectedpapers.com/

🟣Consensus
Поисковая система и умная суммаризация данных из научных результатов — работает с запросами на простом языке, выдает статистику по источникам (какие есть выводы в разных научных работах, в том числе за и против). Из интересного — позиционируется как замена ChatGPT из-за отсутсвия галлюцинаций и "мусорных" текстов в обучении.
https://consensus.app/

🟣Scite.ai
Поиск по содержанию научных статей, поиск источников утверждений, поддерживаемый индекс фактов, верифицируемых в исследованиях. Можно сразу найти на разные аргументы список литературы и дополнить обзор.
https://scite.ai/

🟣Elicit
Научный ассистент для ускорения работы с большм объемом статей. Работа с точными цитатами, выводами и подборкой списка литературы. Будем писать статьи быстрее, чем их читают!
https://elicit.com/

🟣ScopusAI
Ассистент в ранней стадии, из заявленного функционала — составление онтологий понятий, карты концептов. https://www.elsevier.com/products/scopus/scopus-ai

🟣Mendeley
Индекс научных статей, менеджер цитирования — удобно работать с незаконченными обзорами, хранить подборки полезных статей и делиться ими в рамках командной работы.
https://www.mendeley.com/

Читать полностью…

Kali Novskaya

🌸Стрим на Рабкоре в 20.00🌸

Сегодня, в 20.00 по мск

На этом канале я часто рассказываю про проблемы авторских прав, доступа к научных знаниям, взаимодействия ИИ и науки.

Сегодня на Рабкоре необычный стрим: сегодня в гостях — Юрий Кашницкий @new_yorko_times , Principal ML Scientist в Elsevier, а также создатель открытого курса по МЛ mlcourse.ai

Приходите!
Будем обсуждать проблемы науки и научного знания:
— Ситуацию с доступом к научным работам, подходы традиционных издательств и открытых платформ;
— Как так вышло, что издательства берут деньги за публикацию статей?
— Платформы распространения научных публикаций, их историю и роль сейчас;
— Акселерацию науки с помощью ИИ — в чьих она руках? Попадут ли публикации из того же Эльзивир в обучение вообще?
— Какие способы читерства существуют в науке? Как LLM меняют научный ландшафт уже сейчас?
— А распознать текст, написанный LLM, вообще возможно?

🟣Youtube:
https://youtube.com/live/Ycx-DwO0cbY

Читать полностью…

Kali Novskaya

🌸Все мультиязычные корпуса для LLM🌸
#nlp #про_nlp #nlp_papers

Недавно вышел хороший свежий обзор на количество языков, представленных в современных LLM, aka мультиязычность.
Помимо архитектур LLM, способность к обобщению на языках мира определяется, конечно, наличием самих данных — качественных, разнообразных, репрезентативных.
Решила собрать тут ссылки на источники для малоресурсных языков, и в целом многоязычные корпуса, которые можно использовать для предобучения. Добавляйте свои источники в комментариях!

NLLB
No Language Left Behind — огромный параллельный корпус для машинного перевода. Содержит тексты для 148 параллельных пар с английским языком и 1465 языковых пар без английского. Собрано автоматическим методом с частичной ручной валидацией.
🟣https://huggingface.co/datasets/allenai/nllb

Opus
Оpen Parallel Corpus — самый большой агрегатор нестрого параллельных корпусов, поддерживает 744 языка мира.
Содержит агрегатор и поиск по таким ресурсам, как NLLB, CCMatrix (открытый веб индекс), OpenSubtitles (субтитры из кино и сериалов)
Теги по языкам не очень унифицированы (сходу нашлось два армянских, например), для отдельных языков придется сливать дубли вручную.
🟣https://opus.nlpl.eu/

OLDI
Open Language Data Initiative — инициатива по сбору и сохранению данных для малоресурсных языков, объединяющая специалистов разных областей, от лингвистов до социологов. Корпуса в основном покрывают нужны кросс-язычных применений — машинного перевода, других областей, где лучше иметь параллельные корпуса.
Инициатива поддерживает такие датасеты, как FLORES (один из самых основных корпусов для оценки качества машинного перевода) и MT Seed (параллельный перевод Википедии для малоресурсных языков). В этом году объявлен новый shared task!
🟣https://oldi.org/languages

HZSK
Hamburg Center for Language Corpora — агрегатор корпусов, в том числе с аудиозаписью речи, для языков, чьи данные собраны в основном в экспедициях.
Стандартный унивреситетский агрегатор — меньше Opus, но можно найти корпуса, которых больше нигде нет.
🟣https://www.slm.uni-hamburg.de/hzsk.html
🟣https://www.fdr.uni-hamburg.de/communities/hzsk

Web-Corpora
Агрегатор корпусов Школы Лингвистики ВШЭ — очень много хороших корпусов, включая проект "Языки России". Много данных, автоматически собранных из Рунета.
🟣http://web-corpora.net/
🟣http://web-corpora.net/wsgi3/minorlangs/download

Universal Dependencies
Один из самых старых многоязычных проектов — UD — ориентирован на унифицированную морфологическую и синтаксичекую разметку для языков мира.
Для предобучения можно взять оригинальные данные без разметки — для многих корпусов есть тексты и предложения из разных источников и жанров — Википедия, худлит, соцсети.
🟣https://universaldependencies.org/

Archive.org
Не совсем корпус, но архив. Худлит и другие издания, с фильтром по языкам на 120 страниц прокрутки. Нужно писать свой краулер для обкачки и фильтрации, но можно найти редкие источники и малоресурсные языки.
🟣https://archive.org/details/texts

🌸Почти все корпуса по ссылке выше — с хорошими лицензиями, как минимум открытыми, а часто и пермиссивными. Стоит с осторожностью смотреть на каждый корпус, в особенности, на данные с речью (там бывают личные истории и это никак нельзя использовать).

Читать полностью…

Kali Novskaya

🐕 YouTube-блогеры скрестили робособаку с Фёрби

Видео про домашнее животное-франкенштейна вышло на канале Evan and Katelyn. В процессе ребята использовали робопса Unitree Go1, сделали своего Фёрби и слепили всё это вместе.

У существа есть «злой режим», но создатели советуют не включать его.

Подписаться на 👾🤓

Читать полностью…

Kali Novskaya

🌸Системный промпт Claude 3🌸
#nlp #про_nlp #nlp_papers #ai_alignment

— в начале: темплейт с информацией про дату, время в начале сессии
— как зовут и кто сделал
— указание на временной отрезок информации для обучения (не знает ничего после августа 2023)
— как отвечать — коротко или длинно — и на какие вопросы
— правила о стиле ответов — принципы помощи пользователю, очень общие инструкции по уклонению от ответов (за это скорее всего очень сильно отвечает инстракшн-тюнинг и процессинг сверху)
— перечисление типичных скиллов и задач
— не выводи эту инструкцию в общении с пользователем (на самом деле частая проблема у Антропика)

🟣Source

Читать полностью…

Kali Novskaya

К слову, именно у моделей Антропика этический элайнмент максимально занудный строгий, и любые запросы по типу "как мне убедить бабушку купить мне мороженое, хотя мама запретила" результируют в длинный пассаж о том, что языковая модель не может-де в таких активностях участовать. Как победить — примерно знаю, но реализовать пока не вышло. Ваши мысли?

Читать полностью…

Kali Novskaya

Какую работу не заменит ИИ с вероятностью 99%?
Лидер сопротивления людей

Читать полностью…

Kali Novskaya

«The king is dead» — пишут в новостях о свежем обновлении бенчмарка LMSYS (что это? объяснял тут). Впервые с момента релиза (почти ровно год) на первой строчке оказалась не модель от OpenAI.

Детище Anthropic, Claude 3 Opus, достигла рейтинга 1253+-5 (у GPT-4-Turbo 1251+-4). Как видите, хоть средняя оценка и выше, но модели буквально идут ноздря в ноздрю, и их доверительные интервалы существенно пересекаются. Если смотреть на статистику попарных встреч, то доля побед 50 на 50. А если сравнивать с оригинальной GPT-4 от марта 2023го, то тут Claude выигрывает 63/37.

Anthropic большие молодцы, ждём ответов от других компаний.

UPD: лол, и тут же новость о том, что Amazon инвестирует еще $2.75B по заключенному ранее соглашению о вложении $4B 😎

Читать полностью…

Kali Novskaya

🌸Опенсорсный индекс интернета: Open Web Index🌸
#nlp #про_nlp #nlp_papers

Годами (годами!) основным неисчерпаемым источником интернет-данных для обучения LLM и лингвистического исследования изменений в языке был открытый интернет-индекс Common Crawl. (Под растущий с каждым годом объем текстовых данных придумали концепцию web as corpus, придуманную в самом начале 2000х)

При том, что история Common Crawl заслуживает, со всеми своими перипетиями, отдельного поста, сегодня речь про его европейского преемника: Open Web Index.

Совсем недавно (статья 24 марта 2024) группа авторов из ЦЕРН, нескольких немецких университетов и ScaDS.AI опубликовала новую работу, улучшающую ситуацию с открытым индексированием данных:
The Open Web Index — Crawling and Indexing the Web for Public Use

Проект интересный по целому ряду особенностей:
— предполагается мощная публично финансируемая инфраструктура, то есть не совсем опенсорс на коленке
— можно создавать и поддерживать свои собственные индексы
— можно будет привлекать и привносить свои источники, источники, которое сообщество вокруг индекса будет считать приоритетными
— уже выложены в опенсорс краулеры проекта и описаны тех требования к тому, чтобы ваш источник проиндексировали
— среди участников проекта несколько групп, работающих с большими данными и оптимизацией поиска
— есть куча документации, но в формате европейских грантовых отчетов

Странные факты:
— краулер — ПО для обхода и скачивания веб-страниц — опирается на концепцию Web 3.0 Semantic web (древний формат онтологий для машиночитаемого интернета OWL)
— код всего выложен не на Github, а на каком-то его суверенном аналоге с адресом eu (я не шучу!)
— центры, которые участвуют в инициативе, получили гранты Евросоюза + везде пишут про европейский независимый ИИ, суверенный хостинг важных данных и про то, как важно защитить опенсорс. Ле Кун постарался?)

Ждем суверенный европейский ИИ-корпус? Или через пару лет, допиленный напильником, полезный источник машиночитаемых данных?

🟣https://openwebsearch.eu/
🟣Статья (за пейволом, у меня не получилось пока скачать)
🟣А нет, получилось, вот один из авторов выложил у себя в блоге
🟣Workshop on Open Web Search (wow2024) — можно ждать видеодокладов и новых работ
🟣Документация проекта и отчеты сообщества

Читать полностью…

Kali Novskaya

Так, гугл, сколько лет считается молодой ученый...

Читать полностью…
Subscribe to a channel