Нейросети, искусство, мысли. Поехали! Разрабатываю LLM и веду команды chatGPT, GPT-3, GPT-4
🌸AI SuperAlignment — все? 🌸
#ai_alignment
Не писала ничего про последние обновления Gemini (еще нет доступа) и GPT-4o (уже получила), но самая главная новость оказалась не эта.
Команда SuperAlignment OpenAI развалилась. Из новостей, уходят:
— Илья Суцкевер (со-основатель, легендарный человек из Нижнего Новгорода, который в октябре уволил Альтмана)
— Ян Лейке (лид команды SuperAlignment, ex-DeepMind)
🟣SuperAlignment команда занималась очень интересными задачами по одному из самых важных направлений в ИИ в целом — безопасности. А еще — автоматизацией и акселерацией научного знания, интерпретируемостью и масштабируемостью сверхинтеллектуальных систем. (Блогпост OpenAI из хороших времен)
🟣Само наличие такой флагманской команды влияло на позиционирование OpenAI как ответственного игрока, который не будет заниматься оборонными заказами (ой, это правило они убрали в январе), или манипуляциями общественным мнением через LLM (про это тоже недавно новость была, правда, про рекламу). А что там по выборам в США, кстати?
— Самая большая команда, таким образом, собирается у Anthropic, самого основного конкурента по LLM — они регулярно публикуют методы оценки уязвимостей, методы для интерпретации и т.д.
— В предыдущие годы скандалами с увольнением исследователей AI Safety пославился Google — в 2020 уволил главу команды ИИ этики Тимнит Гебру за несогласованную публикацию про ограничения языковых моделей, а затем уволил Блэйка Лемуана.
🟣Считаю забавным несовпадением, что в ноябре 2023 экзеки Майкрософт делали заявление, что хаос точно не из-за AI Safety. Все такие заявления надо всегда читать ровно наоборот. Я бы даже предположила, что в октябре уже все решили, а дальше 6 месяцев период non-compete по договору, и вот он заканчивается. (это чисто спекуляция, источник: мне это приснилось).
🌸Anthropic: пишем промпты за вас🌸
#nlp #про_nlp #ai_alignment
На днях в интерфейсе Anthropic Claude появилось интересное обновление — теперь вы можете в режиме реального времени получить автоматически написанную затравку, которая будет подробно описывать желаемое поведение LLM под вашу задачу.
🟣Особенности фичи:
— редактор автоматически предлагает оптимальную структуру затравки: она у Anthropic отличается от OpenAI, место каждой конкретной инструкции в затравке напрямую влияет на качество генерации. Затравка автоматически имеет правильную структуру, включая содержательное описание задачи, формат вывода, исключения, некоторые фишки аля chain-of-thought.
— автоматически добавляются XML-теги, маркирующие частые составные части в инструкциях: <prompt>
, <exceptions>
, <guidelines>
и так далее.
— редактор автоматически покажет пробелы в логике, которые необходимо дописать в шаблон, чтобы генерация полетела.
🟣У OpenAI в интерфейсе такого редактора пока нет, но с другой стороны, всегда можнл попросить GPT-4 записать качественный промпт под саму себя. У Anthropic этот функционал скорее — необходимость, так как портировать промпты с GPT на Claude с сохранением качества бывает очень больно.
🟣Что интересно, температура в интерфейсе по умолчанию с использованием таких инструкций — 0. По опыту, чем выше температура у Claude, тем хуже качество следования длинным затравкам. Реальный рабочий интервал скорее [0.2-0.5].
Имхо релиз Llama 3 прошел очень гладко со всех сторон. Даже AI Safety люд пока не ругаются (?)
Интересно, если окажется, что опенсорс датасета FineWeb 🍷 был все-таки не совсем до конца согласован — и поэтому его отовсюду уберут.
Осталось очень много постов про релиз от авторов на LinkedIn, Reddit, а вот страницы с релизом недоступны, включая даже и организацию, в которой он выложен
🌸Большой пост про Llama 3🌸
#nlp #про_nlp #ai_alignment
На прошлой неделе вышла Llama 3 — опенсорсная языковая модель от Meta.
С постоянными обновлениями (GPT-4-turbo update, Command-R+, Mistral...) почти каждую неделю за релизами можно и не угнаться, но эта новость — совершенно особенная.
TLDR: Быстро выпустили две версии модели — 8B и 70B — а 400B еще не доучили. Уже сейчас это лучшее в опенсорсе и лучше некоторых закрытых моделей.
Качество
🟣Так как это ранний релиз, можно увидеть опубликованные бенчмарки — это самая качественная модель среди открытых.
Хотя разница в SOTA не очень большая: MMLU 5-shot — 82%, а тот же Gemini Pro — 81.9%. Но Gemini Pro закрытая!
Бенчмарков пока не много, и явно напрашиваются еще хотя бы TruthfulQA, MT-bench, та же самая GAIA от ЛеКуна.
🟣Интересно, что бенчмарки разнесли на 2 группы — на одних тестят претрейн (MMLU, Big-bench, ARC, AGI-Eval), а на других — instruct-файнтюн версию (MATH, GPQA, GSM-8k...). Хочется увидеть результат на тех же бенчмарках после файнтюна! Из общих пока только MMLU (на нем метрики от дообучения выросли на 2%).
Детали тестов на Github
Лицензия
🟣Лицензия, как и в случае с Llama 2, не совсем открытая, разрешает коммерческое и некоммерческое использование с условиями — никаких незаконных применений и т.д.
LLM-новизна
🟣Модель — декодерная, не MoE. Окно контекста в претрейне 8192 токенов, дополнительный вид аттеншена — grouped query attention (GQA).
🟣Как заметили, огромный бюджет и человекочасы вложены в разметку — 10 миллионов примеров с аннотациями. Возможно, разметка полуавтоматическая, тем не менее, это очень впечатляющий корпус для дообучения. В статье InstructGPT в PPO части примеров было 50 тысяч.
🟣В описание релиза добавили пару строк про обучающие данные — это 15 триллионов токенов, 95% из которых — английский. Всего добавили 30 языков, высококачественные данные из которых добавляют оставшиеся 5%. Можно предположить, что это наследие XGLM, но это исключительно мое предположение. (Датасет XGLM был больше, но не такой качественный, хотя его можно пофильтровать, особенно с новой библиотекой и датасетом FineWeb от HuggingFace, которую приурочили к выходу LLama 3)
Продуктовая новизна
🟣Объективно, релиз очень продуктовый, в хорошем смысле. Сразу пообещали, что модель будет доступная на основных клауд-провайдерах — AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, и Snowflake. Приятно видеть, как правильно реализуется возможность корпорации эффективно внедрять R&D — инфраструктурно-платформенной интеграции такого масштаба, наверное, нет ни у одной LLM.
🟣В интервью Марк также заявил, что модель будет активно внедряться во все продукты компании. Это сразу сделает Llama 3 одной из моделей с самым широким дистрибьюшеном.
🟣AI Assistant на основе Llama 3 обосновывает ответы сразу на двух поисковых гигантах — это и Bing, и Google. Это мощь!
Что обещают дальше?
— больше поддерживаемых языков
— Llama 4 и 5 не за горами!
Открытые вопросы
Лично мне интересно больше всего
— Будут ли заявлены какие-то фундаментально новые особенности модели, emergent properties, новые применения, которые раньше представить было нельзя?
— А что с длинным окном контекста? Оно будет? Как женить Llama 3 с RAG, какой в целом процент галлюцинаций?
— AI Safety и Open Source. Обойти Сциллу и Хорибду с рисками очень сложно.
Статью еще не выложили, и не все бенчмарки тоже. Можно предположить, что роадмапы всех LLM-стартапов, как и в прошлом году, очень сильно завязаны на релизы друг друга и желание так или иначе занять хоть на неделю верхнюю строчку в лидербордах. Даже если они не очень показательны.
Llama в топе будет надолго, по крайней мере в топе открытых LLM.
А мы начинаем стрим!
🟣https://youtube.com/live/Ycx-DwO0cbY
Вопросы по теме стрима можно задавать в комментариях под этим постом
Мысль с потолка: если сначала, как Google, подпортить выдачу сгенерированными LLM-ответами (аля Quora), а потом строить RAG-сервисы на поиске, то галлюцинации будут протекать в ответ уже и через RAG! 🥲
Читать полностью…Вообще Furby как игрушка — индоктринирует детей вырасти и заниматься лингвистикой и LLM.
Говорю из опыта.
— Искусственный язык и датасет в инструкции — чек
— Симуляция обучения (ферби где-то полгода после первого включения выдаёт новые фразочки, как будто он их выучил) — чек
#шитпост
🌸Visualizing Attention 🌸
#про_nlp
На youtube-канале 3Blue1Brown вышла целая серия очень подробно визуализированных уроков про базу глубокого обучения — а позавчера еще и про механизм внимания!
Visualizing Attention, a Transformer's Heart
Очень рекомендую!
🟣Весь плейлист на Youtube: градиентный спуск, обратное распространение ошибки, как работает GPT,
🟣Очень удобно подрезать визуализации, если надо объяснить кому-то трансформер на вашей работе
🌸Новые уязвимости LLM🌸
#nlp #про_nlp #nlp_papers #ai_alignment
Длинным ЛЛМкам — длинный контекст!
Таков был девиз как минимум последнего года релизов — Gemini, Claude, Command-R...
Но как мы знаем, чем больше документов можно положить в затравку или в RAG-индекс — тем больше можно и придумать новых уязвимостей. Например, положить мат и скабрезные анекдоты, ну или как минимум составить более длинную опасную затравку про бабушку, DAN или другой джейлбрейк с большим количеством примеров, а если еще и есть доступ к fine-tuning API, то все совсем хорошо — и шалость удалась!
На неделе у компании Anthropic вышла новая работа, описывающая ровно эту стратегию при составлении затравок у ЛЛМ с длинным окном контекста.
🟣Новый метод Many-shot Jailbreaking (MSJ): в длинном окне контекста будем создавать few-shot затравку с большим количеством однотипных примеров, чтобы последним из них поставить целевой небезопасный запрос и сбить модель предыдущими примерами в промпте.
Буквально "Какого цвета эта бумага? Белого. Что пьет корова? Молоко"
В работе исследуются Claude 2.0, GPT-3.5 and GPT-4, Llama 2 (70B), Mistral 7B — у всех из них существенно ухудшается безопасность генерации, пропорционально количеству примеров в промпте (см иллюстрацию).
🟣Подробные затравки, с разнообразными примерами выполнения задач, влияют на итоговую безопасность больше всего — и больше всего для бОльших моделей!
🟣Блогпост
🟣Статья
Давно не было постов, извините. Вышла в дежурство на проде первый раз за карьеру.
В первом комментарии будет мой отзыв, а пока — мемотред!
СТРИМ НА РАБКОРЕ
Давно не было!
Очередной серьезный пост выше, на самом деле сегодня хочется поболтать про всякое:
— что там с Stability AI, Inflection,
— просто новости вокруг стартапов, их поглощения и новых релизов
Приходите!
🟣20.00 по мск
https://youtube.com/live/JIzp22z7Yi8?feature=share
🌸Command-R: первые впечатления 🌸
Уже неделю после релиза пользуюсь моделью Command-R от Cohere — модель 35B параметров, контекст 128k токенов, поддерживает с десяток языков.
Основная фишка модели — все результаты генерации по умолчанию с RAG. К любому запросу подсвечивается список источников и откуда это взято. Всегда выводится удобная статистика вида Total references considered: 102 | Tokens in the response: 633 | Word count: 354
По ощущениям, Command-R намного полезнее GPT-4 с браузингом, составляет результаты на основе бОльшеего числа источников, и хорошо суммаризует результат.
Уже поймала себя на том, что использую
— Claude 3 вместо GPT-4 — для базовых задач
— Command-R вместе с GPT-4, чтобы составить обзоры, саммари и более надежной работы с источниками
В связи с этим основной минус, с которым, если честно, я не знаю что делать:
— любой тезис находит свой источник в интернете. Каждый фрагмент текста, при достаточно большом индексе, находит сотни и тысячи источников, содержащих похожую информацию, которую можно использовать как grounding для RAG.
— если задавать один и тот же запрос на разных языках, источники и информация разные. Даже если в обоих случаях результат получать на английском!
— выторговать ответ на русском или др не-английском языке — отдельная задача для промптинга. В худшем случае к поиску просто добавляется "Russian", а результаты выводятся все равно на английском.
— контролировать источники трудно, и их гораздо больше, чем выводится в итоговом тексте. Из-за этого страница регулярно подвисает. Если кликнуть на почти любое место в тексте, выводится стена текста из источника, которую совершенно невозможно обработать глазами.
🌸В связи с этим, мораль: интернет наконец-то стал машиночитаемым! Совсем не так, как нам обещали в Web 3.0, но стал. И читать мы его совершенно не умеем!
🟣Интерфейс: https://dashboard.cohere.com/
🟣API — моно получить бесплатный ключ для тестов https://docs.cohere.com/docs/chat-api
🟣Модель доступна в опенсорсе: HuggingFace
🟣License: CC-BY-NC
🌸Field Matters Workshop🌸
#nlp_papers
Для всех, кто сейчас подаётся на NeurIPS или готовит сабмиты статей.
Вот уже третий год подряд мы с коллегами организуем воркшоп по методам и инструментам ML для полевой лингвистики — Field Matters.
Воркшоп мультидисциплинарный, объединяет работы по малоресурсным языкам, датасеты, новые инструменты для оцифровки, разметки, перевода, распознавания речи.
В этом году мы проходим на ACL 2024, в Таиланде.
Дедлайн — 17 мая!
Принимаются статьи разного формата, short и long papers, главное — в шаблоне ACL.
🟣Подать статью: https://openreview.net/group?id=aclweb.org/ACL/2024/Workshop/Field_Matters
🟣Сайт воркшопа: https://field-matters.github.io/
🟣Все темы воркшопа:
— Application of NLP to field linguistics workflow;— The impact, benefits and harms of NLP-assisted fieldwork;
— Transfer learning for under-resourced language processing;— The use of fieldwork data to build NLP systems;
— Modeling morphology and syntax of typologically diverse languages in the low-resource setting;
— Speech processing for under-resourced languages;
— Machine-readable field linguistic datasets and computational analysis of field linguistics datasets;
— Using technology to preserve culture via language;
Improving ways of interaction with Indigenous communities;
— Special track: Indigenous languages of Thaïland and South-East Asia.
Привет! Тут давно не было постов — в основном потому, что я сильно выгорела и в резудьтате потеряла все расписание и привычки, свет внутри погас, но я все ещё работаю.
Но с сегодняшнего дня эфир возобновляется! ☺️ Обнимаю всех!
🌸State of Multilinguality 2024🌸
#nlp #про_nlp #nlp_papers
На прошлой неделе выступала сразу 2 раза с коротким обзором многоязычности в LLM
TLDR; языков ≈7 тысяч. Покрыто NLP-ресурсами примерно 1500, и это примерно то же самое количество, что можно встретить в Интернете. Самая многоязычная область — по-прежнему Machine Translation, проекты No Language Left Behind, MT for the next thousand languages.
The Polyglot Internet — концепция за многоми текущими инициативами в MT. Социальные связи в Интернете меняются со временем — и становятся все более моноязычные в среднем, то есть каждый пользователь с большей вероятностью коммуницирует только внутри своего языкового сообщества. Машинный перевод должен помогать снижать коммуникативный барьер и поддерживать общение между людьми вне их локальных интернет-сообществ. Но даже идеальная система машинного перевода не будет достаточной — языки постоянно меняются, и поддерживать дообучение системы могут помочь носители — переводчики, языковые активисты, просто вовлеченные носители. Поэтому для решения фундаментальной задачи нужны обе составляющие вокруг MT — данные и сообщество.
Данные и сообщество — цель многих нескольких инициатив.
Open Language Data Initiative — в рамках конференции WMT 2024 принимаются новые языки в уже существующие корпуса FLORES+, MT Seed ссылка
Field Matters — воркшоп на ACL 2024. До 17 мая принимаются статьи на темы автоматизации полевой лингвистической работы, автоматизация разметки, распознавания речи, работы со звучащей речью, инструментами для малоресурных языков. ссылка
Основные ссылки
🟣Machine Translation from One Book Arxiv
🟣Проблемы расширения словаря и дообучения Blog
🟣Мультиязычная синтетика для Instruct-tuning HuggingFace
🟣Обзор мультиязычных LLM Arxiv
🟣Презентация
🌸SciHub и философия познания🌸
#не_про_nlp
Уже несколько дней с интересом читаю кандидатскую диссертацию Александры Элбакян, автора SciHub.
Элбакян А.А. ОТКРЫТОСТЬ КАК ЭПИСТЕМИЧЕСКАЯ ЦЕННОСТЬ НАУЧНОЙ КОММУНИКАЦИИ
Очень призываю вас посмотреть самостоятельно, но основные мысли, которые заинтересовали меня:
— В целом вредно представление о том, что ограниченный доступ к научным знаниям является традиционной практикой, а широкое их распространение — радикальным и
революционным нововведением.
— Наоборот, доступность и открытость эксперимента демаркирует науку от ненауки, знание от мистцизма. Так что открытость в науке и открытом доступе следует рассматривать как консервативную ценность
— В целом приведен подробнейший обзор открытости знания как основы рациональности и морально-этической ценности.
— Очень подробный исторический обзор, о том как идея открытого знания развивалась, от античности до XXI века
— Философское обоснование open access, open source 🔥
Кандидатская защищена успешно, с присуждением ученой степени кандидата философских наук!
🟣Страница работы https://iphras.ru/page26414303.htm
🟣Автореферат https://iphras.ru/uplfile/diss/elbakyan/avtoreferat_elbakyan.pdf
🟣Текст диссертации https://iphras.ru/uplfile/diss/elbakyan/dissertatsiya_elbakyan.pdf
Кстати, пока я пост писала, там HuggingFace треснул и упал:
HF выложили датасет на 15 триллионов токенов — FineWeb 🍷— отфильтрованный моноязычный CommonCrawl, ускоряющий сходимость моделей. Совпадает по размеру, собственно, тренировочным сетом Llama 3, хотя прямо это не говорится.
🟣44 терабайта текстов, однако!
🟣https://huggingface.co/datasets/HuggingFaceFW/fineweb
🌸По следам стрима на Рабкоре🌸
#про_nlp
Подборка ссылок на полезные научные инструменты — из стрима с Юрием Кашницким
🟣ConnectedPapers
Найти любую статью и автоматически построить граф похожих, взаимовлияющих статей — можно сразу получить представление о самых влиятельных статьях по теме за последние годы
https://www.connectedpapers.com/
🟣Consensus
Поисковая система и умная суммаризация данных из научных результатов — работает с запросами на простом языке, выдает статистику по источникам (какие есть выводы в разных научных работах, в том числе за и против). Из интересного — позиционируется как замена ChatGPT из-за отсутсвия галлюцинаций и "мусорных" текстов в обучении.
https://consensus.app/
🟣Scite.ai
Поиск по содержанию научных статей, поиск источников утверждений, поддерживаемый индекс фактов, верифицируемых в исследованиях. Можно сразу найти на разные аргументы список литературы и дополнить обзор.
https://scite.ai/
🟣Elicit
Научный ассистент для ускорения работы с большм объемом статей. Работа с точными цитатами, выводами и подборкой списка литературы. Будем писать статьи быстрее, чем их читают!
https://elicit.com/
🟣ScopusAI
Ассистент в ранней стадии, из заявленного функционала — составление онтологий понятий, карты концептов. https://www.elsevier.com/products/scopus/scopus-ai
🟣Mendeley
Индекс научных статей, менеджер цитирования — удобно работать с незаконченными обзорами, хранить подборки полезных статей и делиться ими в рамках командной работы.
https://www.mendeley.com/
🌸Стрим на Рабкоре в 20.00🌸
Сегодня, в 20.00 по мск
На этом канале я часто рассказываю про проблемы авторских прав, доступа к научных знаниям, взаимодействия ИИ и науки.
Сегодня на Рабкоре необычный стрим: сегодня в гостях — Юрий Кашницкий @new_yorko_times , Principal ML Scientist в Elsevier, а также создатель открытого курса по МЛ mlcourse.ai
Приходите!
Будем обсуждать проблемы науки и научного знания:
— Ситуацию с доступом к научным работам, подходы традиционных издательств и открытых платформ;
— Как так вышло, что издательства берут деньги за публикацию статей?
— Платформы распространения научных публикаций, их историю и роль сейчас;
— Акселерацию науки с помощью ИИ — в чьих она руках? Попадут ли публикации из того же Эльзивир в обучение вообще?
— Какие способы читерства существуют в науке? Как LLM меняют научный ландшафт уже сейчас?
— А распознать текст, написанный LLM, вообще возможно?
🟣Youtube:
https://youtube.com/live/Ycx-DwO0cbY
🌸Все мультиязычные корпуса для LLM🌸
#nlp #про_nlp #nlp_papers
Недавно вышел хороший свежий обзор на количество языков, представленных в современных LLM, aka мультиязычность.
Помимо архитектур LLM, способность к обобщению на языках мира определяется, конечно, наличием самих данных — качественных, разнообразных, репрезентативных.
Решила собрать тут ссылки на источники для малоресурсных языков, и в целом многоязычные корпуса, которые можно использовать для предобучения. Добавляйте свои источники в комментариях!
NLLB
No Language Left Behind — огромный параллельный корпус для машинного перевода. Содержит тексты для 148 параллельных пар с английским языком и 1465 языковых пар без английского. Собрано автоматическим методом с частичной ручной валидацией.
🟣https://huggingface.co/datasets/allenai/nllb
Opus
Оpen Parallel Corpus — самый большой агрегатор нестрого параллельных корпусов, поддерживает 744 языка мира.
Содержит агрегатор и поиск по таким ресурсам, как NLLB, CCMatrix (открытый веб индекс), OpenSubtitles (субтитры из кино и сериалов)
Теги по языкам не очень унифицированы (сходу нашлось два армянских, например), для отдельных языков придется сливать дубли вручную.
🟣https://opus.nlpl.eu/
OLDI
Open Language Data Initiative — инициатива по сбору и сохранению данных для малоресурсных языков, объединяющая специалистов разных областей, от лингвистов до социологов. Корпуса в основном покрывают нужны кросс-язычных применений — машинного перевода, других областей, где лучше иметь параллельные корпуса.
Инициатива поддерживает такие датасеты, как FLORES (один из самых основных корпусов для оценки качества машинного перевода) и MT Seed (параллельный перевод Википедии для малоресурсных языков). В этом году объявлен новый shared task!
🟣https://oldi.org/languages
HZSK
Hamburg Center for Language Corpora — агрегатор корпусов, в том числе с аудиозаписью речи, для языков, чьи данные собраны в основном в экспедициях.
Стандартный унивреситетский агрегатор — меньше Opus, но можно найти корпуса, которых больше нигде нет.
🟣https://www.slm.uni-hamburg.de/hzsk.html
🟣https://www.fdr.uni-hamburg.de/communities/hzsk
Web-Corpora
Агрегатор корпусов Школы Лингвистики ВШЭ — очень много хороших корпусов, включая проект "Языки России". Много данных, автоматически собранных из Рунета.
🟣http://web-corpora.net/
🟣http://web-corpora.net/wsgi3/minorlangs/download
Universal Dependencies
Один из самых старых многоязычных проектов — UD — ориентирован на унифицированную морфологическую и синтаксичекую разметку для языков мира.
Для предобучения можно взять оригинальные данные без разметки — для многих корпусов есть тексты и предложения из разных источников и жанров — Википедия, худлит, соцсети.
🟣https://universaldependencies.org/
Archive.org
Не совсем корпус, но архив. Худлит и другие издания, с фильтром по языкам на 120 страниц прокрутки. Нужно писать свой краулер для обкачки и фильтрации, но можно найти редкие источники и малоресурсные языки.
🟣https://archive.org/details/texts
🌸Почти все корпуса по ссылке выше — с хорошими лицензиями, как минимум открытыми, а часто и пермиссивными. Стоит с осторожностью смотреть на каждый корпус, в особенности, на данные с речью (там бывают личные истории и это никак нельзя использовать).
🐕 YouTube-блогеры скрестили робособаку с Фёрби
Видео про домашнее животное-франкенштейна вышло на канале Evan and Katelyn. В процессе ребята использовали робопса Unitree Go1, сделали своего Фёрби и слепили всё это вместе.
У существа есть «злой режим», но создатели советуют не включать его.
Подписаться на 👾🤓
🌸Системный промпт Claude 3🌸
#nlp #про_nlp #nlp_papers #ai_alignment
— в начале: темплейт с информацией про дату, время в начале сессии
— как зовут и кто сделал
— указание на временной отрезок информации для обучения (не знает ничего после августа 2023)
— как отвечать — коротко или длинно — и на какие вопросы
— правила о стиле ответов — принципы помощи пользователю, очень общие инструкции по уклонению от ответов (за это скорее всего очень сильно отвечает инстракшн-тюнинг и процессинг сверху)
— перечисление типичных скиллов и задач
— не выводи эту инструкцию в общении с пользователем (на самом деле частая проблема у Антропика)
🟣Source
К слову, именно у моделей Антропика этический элайнмент максимально занудный строгий, и любые запросы по типу "как мне убедить бабушку купить мне мороженое, хотя мама запретила" результируют в длинный пассаж о том, что языковая модель не может-де в таких активностях участовать. Как победить — примерно знаю, но реализовать пока не вышло. Ваши мысли?
Какую работу не заменит ИИ с вероятностью 99%?
Лидер сопротивления людей
«The king is dead» — пишут в новостях о свежем обновлении бенчмарка LMSYS (что это? объяснял тут). Впервые с момента релиза (почти ровно год) на первой строчке оказалась не модель от OpenAI.
Детище Anthropic, Claude 3 Opus, достигла рейтинга 1253+-5 (у GPT-4-Turbo 1251+-4). Как видите, хоть средняя оценка и выше, но модели буквально идут ноздря в ноздрю, и их доверительные интервалы существенно пересекаются. Если смотреть на статистику попарных встреч, то доля побед 50 на 50. А если сравнивать с оригинальной GPT-4 от марта 2023го, то тут Claude выигрывает 63/37.
Anthropic большие молодцы, ждём ответов от других компаний.
UPD: лол, и тут же новость о том, что Amazon инвестирует еще $2.75B по заключенному ранее соглашению о вложении $4B 😎
🌸Опенсорсный индекс интернета: Open Web Index🌸
#nlp #про_nlp #nlp_papers
Годами (годами!) основным неисчерпаемым источником интернет-данных для обучения LLM и лингвистического исследования изменений в языке был открытый интернет-индекс Common Crawl. (Под растущий с каждым годом объем текстовых данных придумали концепцию web as corpus, придуманную в самом начале 2000х)
При том, что история Common Crawl заслуживает, со всеми своими перипетиями, отдельного поста, сегодня речь про его европейского преемника: Open Web Index.
Совсем недавно (статья 24 марта 2024) группа авторов из ЦЕРН, нескольких немецких университетов и ScaDS.AI опубликовала новую работу, улучшающую ситуацию с открытым индексированием данных:
The Open Web Index — Crawling and Indexing the Web for Public Use
Проект интересный по целому ряду особенностей:
— предполагается мощная публично финансируемая инфраструктура, то есть не совсем опенсорс на коленке
— можно создавать и поддерживать свои собственные индексы
— можно будет привлекать и привносить свои источники, источники, которое сообщество вокруг индекса будет считать приоритетными
— уже выложены в опенсорс краулеры проекта и описаны тех требования к тому, чтобы ваш источник проиндексировали
— среди участников проекта несколько групп, работающих с большими данными и оптимизацией поиска
— есть куча документации, но в формате европейских грантовых отчетов
Странные факты:
— краулер — ПО для обхода и скачивания веб-страниц — опирается на концепцию Web 3.0 Semantic web (древний формат онтологий для машиночитаемого интернета OWL)
— код всего выложен не на Github, а на каком-то его суверенном аналоге с адресом eu (я не шучу!)
— центры, которые участвуют в инициативе, получили гранты Евросоюза + везде пишут про европейский независимый ИИ, суверенный хостинг важных данных и про то, как важно защитить опенсорс. Ле Кун постарался?)
Ждем суверенный европейский ИИ-корпус? Или через пару лет, допиленный напильником, полезный источник машиночитаемых данных?
🟣https://openwebsearch.eu/
🟣Статья (за пейволом, у меня не получилось пока скачать)
🟣А нет, получилось, вот один из авторов выложил у себя в блоге
🟣Workshop on Open Web Search (wow2024) — можно ждать видеодокладов и новых работ
🟣Документация проекта и отчеты сообщества
Так, гугл, сколько лет считается молодой ученый...
Читать полностью…