Нейросети, искусство, мысли. Поехали! Разрабатываю LLM и веду команды chatGPT, GPT-3, GPT-4
🌸Неделя Научных агентов🌸
#nlp #про_nlp #nlp_papers
Последние две недели выдались особо интересными для агентов для ИИ и науки.
Как обычно, публикую небольшую подборку.
🌸Ассистент AlphaXiv
Совершенно незаменимая вещь для организации статей, теперь ещё и с Deep Research: любую статью с архива можно добавить в свою подборку, поставит лайк, начать обсуждение, а так же сделать блог пост из статьи. Можно экспортировать все свои статьи и сразу сделать краткую выжимку. Если ещё и комментарии оставлять внятные, можно приблизить Arxiv к Openreview.
🟣https://www.alphaxiv.org/explore
🌸Больше агентов для моделирующих наук
CURIE, a multitask benchmark for scientific reasoning
DeepMind представил CURIE — банчмарк для научных проблем в шести дисциплинах: материаловедении, физике конденсированного состояния, квантовых вычислениях, геопространственном анализе, биоразнообразии и моделировании протеиновых структур. Все задачи требуют экспертных знаний в предметной области, длнного контекста и multi-step reasoning.
Бенчмарк CURIE охватывает 10 задач на основе 429 статей по шести различным научным дисциплинам, и охватывают как экспериментальные, так и теоретические аспекты научных исследований. Оценено много моделей: Mixtral, Command R, LongLlama, все топовые проприетарные модели.
🟣https://arxiv.org/abs/2503.13517
🟣https://research.google/blog/evaluating-progress-of-llms-on-scientific-problem-solving/
🌸Законы масштабирования агентов для науки
Scaling Laws in Scientific Discovery with AI and Robot Scientists
Достаточно неплохой обзор степеней автономности агентов для науки, с онтологией способностей, оценкой текущего состояния и следующих степеней автономности. Экспериментов по масштабированию, правда, никаких не ставится, просто рисуют красивые картинки с экспонентами.
🟣https://arxiv.org/abs/2503.22444
🌸Меморизация и научная новизна
All That Glitters is Not Novel: Plagiarism in AI Generated Research
Могут ли агенты генерировать новые идеи? В целом что-то могут, но за ними трудно проверять.
Статья анализирует недетектируемый плагиат в идеях Sakana AI и некоторых других, и оказывается, что 24% новых идей полностью сплагиачены без указания источника (и при этом плагиат не детектируется стандартными методами, так как все перефразировано), 36.0% работ содержали факты, которые никакой научной литературой не подтверждаются.
Странно, что не больше.
🟣https://arxiv.org/abs/2502.16487
Предыдущие части:
🟣LLM хакают научную новизну
🟣AI Scientist от Sakana AI
🟣MLGym — фреймворк для ML агентов
Коллектив Llama, когда выпустили в опенсорс модели на 100 и 400 млрд параметров и почти ничего не сгорело
Читать полностью…Выложили также версии в FP8
https://huggingface.co/collections/meta-llama/llama-4-67f0c30d9fe03840bc9d0164
🌸Релизим Llama 4🌸
OSS на уровне Gemini и Deepseek
Сегодня мы релизим модели из семейства Llama 4 — Llama 4 17Bx16 experts (Scout) и 128 experts (Maverick)
🌸Что интересного:
— 10 миллионов токенов контекстного окна с отличным качеством у модели Scout
— полный размер модели 16 экспертов — 108 млрд параметров, 128 экспертов — 400 млрд
— модель мультимодальная, инпут — текст, изображения, видео. Картинок в контексте может быть до 5 штук, чтобы сохранялся контекст
— 12 основных языков (английский, французский, немецкий, арабский ,хинди, индонезийский, итальянский, португальский, испанский, тагальский, тайский и вьетнамский), но более 200 в претрейне (из No Language Left Behind)
Где посмотреть:
🟣Чекпоинты HF
🟣Блогпост
🌸Field Matters 2025: Call for papers🌸
#nlp #про_nlp #nlp_papers
Друзья, стартовал прием статей на наш ежегодный воркшоп по автоматическим методам и инструментам для полевой лингвистики Field Matters.
🟣Собираете корпус, бенчмарк или парсер для малоресурсного языка?
🟣Занимаетесь созданием инструментов для работы с аудио, транскрипцией, глиссированием, в целом работы в поле?
🟣Делаете машинный перевод и transfer learning для малоресурсных языков?
Приходите к нам!
В этом году воркшоп пройдет в рамках конференции ACL 2025 в Вене.
Прием статей — до 11 мая!
Пожалуйста, распространите CFP коллегам
🟣Подать статью
🟣Call for papers
🌸Стрим на Рабкоре в 20.00 🌸
Сегодня в 20.00 по мск стрим на Рабкоре. В гостях в рубрике Копилефт писатель, автор известной книги "Код Дурова" и журналист Николай Кононов, с которым мы будем обсуждать то, насколько критично важными стали для нас определённые IT-продукты и как они влияют на нашу жизнь.
🟣Что должен делать бизнес условиях блокировок?
🟣Где проходит грань между “частным бизнесом” и жизненно важной инфраструктурой?
🟣“А может, взять все – и поделить!” Если рассмотреть ситуацию, когда у крупнейших цифровых платформ есть инструменты их институционального контроля, то каким этот контроль должен быть?
Приходите!
Запись будет
Вопросы можно задавать в комментариях к этому посту и на стриме!
🟣YouTube https://youtube.com/live/0P7LN7CMBsQ?feature=share
🌸METRики хайпа: найти экспонентциальный рост любой ценой🌸
#nlp #про_nlp #nlp_papers
На прошлой неделе вышел анализ от METR (Model Evaluation & Threat Research) — независимой организации оценки способностей и рисков ИИ систем.
🌸TLDR: предлагается измерять производительность ИИ с точки зрения продолжительности задач, которые могут выполнить агенты.
При этом вводится новый бенчмарк и показывается, что продолжительность решаемых задач постоянно экспоненциально растет в течение последних 6 лет, и удваивается примерно раз в 7 месяцев. Экстраполяция этой тенденции предсказывает, что менее чем через пять лет мы увидим агентов, которые смогут самостоятельно выполнять большую часть программных задач, на которые в настоящее время у людей уходят дни или недели.
Для точности вводится новая метрика: учитывается время, которое обычно требуется людям для выполнения задач, которые модели ИИ могут выполнить с 50%-ным успехом.
У Claude 3.7 Sonnet, например, этот временной горизонт около 50 минут.
Красивая экспонента и оценки будущих горизонтов агентов уже ушли в заголовки.
🌸А теперь самое интересное: на чем меряем?
На немотивированно странном подмножестве бенчмарков.
— 97 задач из HCAST: инженерные задачи от 30 сек до 30 минут
— 7 сложных ML задач из RE-Bench по 8 часов каждая
— 66 очень простых софтверных задач от 1 до 30 секунд (новый бенчмарк, Software atomic actions, SWAA)
— 1 (одна, Карл!) задача из GAIA
🌸Что не так с такими оценками?
— если бы это было так просто, новую метрику бы вводить в целом не потребовалось, можно было бы взять 100+, а то и 1000+ задач предыдущих лет (у нас что, дефицит бенчмарков??) и спокойно построить результат. К сожалению, так не получилось, поэтому пришлось черри-пикать задачи и даже придумывать новые, которые бы дали нужную картину.
— сложность и время выполнения задачи — не одно и то же, можно придумать много долгих тупых задач;
— даже если считать, что в целом это правда, что мы постепенно научились автоматизировать более сложные задачи (конечно), то давайте прямо скажем, что улучшение качества происходит за счет разных компонент прогресса: доступности обучающих данных, бюджета на разметку, вычислительного бюджета на масштабирование модели, и самое интересное — за счет алгоритмической новизны. Все эти факторы имеют совершенно разный вес в каждой из приведенных задач. Соотношение этих факторов во многом для closed source моделей нам совершенно не известно. Смысла искать в них общую экспоненциальную тенденцию немного.
— компьют и данные не скейлятся по экспоненте, при этом только их вклад является наиболее предсказуемым; а алгоритмические улучшения отдельно без скейлинга трудно прогнозировать.
В общем и целом, перебор результатов, чтобы найти экспоненту — это уже самостоятельная бизнес-модель и вообще, залог будущих инвестиций.
Ну и напоследок, результаты опроса AAAI 2025 :"Большинство респондентов (76%) утверждают, что «масштабирование текущих подходов к ИИ» для создания AGI «маловероятно» или «крайне маловероятно» приведет к успеху, что вызывает сомнения относительно того, достаточны ли текущие парадигмы машинного обучения для достижения AGI."
🟣Пост METR
🟣Arxiv
Как ощущается день рождения после 30 на самом деле:
https://youtu.be/zyfHMFJAyA0?si=qIBIx_L0qM-S_cIb
🌸Автоматическая фальсифицируемость
Оценку качества научной новизны и гипотез, как боттлнек, эксплуатируемый Sakana AI, в общем-то, тоже можно постепенно аккуратно побороть, если подключить автоматическую фальсифицируемость гипотез.
Недавно вышедшая статья Popper пытается решить эту проблему в 6 моделирующих науках из DiscoveryBench и нескольких других: социологию, биологию, гумнауки, экономику, мета-исследования и инженерию.
Суть предлагаемого подхода: 2 ReAct-агента с LLM генерируют новые гипотезы и план экспериментов, но включает в план экспериментов критику и методологические вопросы, способные определить измеримые следствия (подгипотезы) основной гипотезы и предложить эксперименты их по фальсификации. В частности, каждая подгипотеза должна быть фальсифицируемой с четкими нулевыми и альтернативными определениями. После разработки агент по выполнению эксперимента реализует эксперименты, которые могут включать сбор данных, моделирование, статистический анализ. Этот агент в конечном итоге выдает p-value, которое суммирует результат эксперимента по фальсификации.
Работа фокусируется только на обнаружении ошибок первого рода (false negative). Автоматическая и экспертная оценка результатов показали, что в работе такой системы есть как минимум 10 очевидных паттернов ошибок, которые препятствуют надежной автоматической оценке свободно сгенерированных гипотез (включая, по классике, неправильную интерпретацию p-value).
Тем не менее, относительно других бейзлайнов (vanilla ReAct, self-refine...), такой подход демонстрирует статически более надежный результат оценки качества гипотез. Удивительно, но Llama 3.3 70B оказалась в числе лучших моделей с точки зрения контроля качества гипотез, а Claude-Haiku 3.5 наоборот, имеет тенденцию к повышенному проценку false negative ошибок. Это не может быт.
Думаю, улучшение качества reasoning, постепенное углубление предметных знаний LLM и уменьшение галлюцинаций в целом должны постепенно улучшить качество такого подхода.
Если мы получим вместе автоматическую верифицируемость результатов и фальсифицируемость автоматически сгенерированных идей, то дальше акселерация науки будет развиваться с совершенно другой скоростью.
🌸Ссылки:
🟣Интересное: на Github AI scientist можно посмотреть и сравнить человеческие рецензии и скоры, полученные статьями, и рецензи, сгенерированные сами себе AI Scientist
🟣MLGym
🟣Popper
🟣DiscoveryBench
Я сегодня встала с хорошим настроением, поэтому сейчас будет длиннопост серьезный. Забустите канал, пожалуйста! http://t.me/rybolos_channel?boost
Читать полностью…🌸AMA с Peter Norvig🌸
#nlp #про_nlp
Внезапно, в четверг 25 марта — целых 3 часа сессии вопросов и ответов с Питером Норвигом.
🟣Питер Норвиг — директор исследовательской группы в Google, но знаем мы его не за это:
— написал основной университетский учебник по ИИ ещё в 1995 году: Artificial Intelligence: A Modern Approach в соавторстве со Стюартом Расселом (вот pdf, 1116 стр)
— автор огромного количества изящных решений и туториалов, например, мое любимое — спеллчекер в 21 строку
— автор коротких критических заметок, методологически правильно объединяющих инженерию и науку: про Хомского и статистическое моделирование языка, The Unreasonable
Effectiveness of Data.
🟣Ссылка на AMA: 25 марта 5:00 PM - 8:00 PM PDT
https://lu.ma/98gt9h73?tk=PKNU0b
Всем подписчицам этого канала Клара и Роза желают: аккумулируйте побольше капитала, интернационально посещайте конференции!
Всем подписчикам: (вы и так айтишники, у вас все хорошо) — гендерного баланса в коллективе! 🌸
На днях ещё вышла (совершенно идиотская в своей очевидности) статья Fully Autonomous AI Agents Should Not be Developed.
Достаточно бесполезная с точки зрения выводов — должны или не должны, но обязательно будут, прогресс неостановим. Но в обзоре есть некоторое перечисление рисков агентов, на которые можно ссылаться.
Я считаю, что кто-то должен написать ответную статью с названием Fully Automated Luxury Gay Space Communism must be developed. Все предпосылки уже есть. #шитпост
🟣Arxiv https://arxiv.org/abs/2502.02649
🌸Доступы к LLama 4🌸Your request to access this repo has been rejected by the repo's authors.
Несколько человек в комментах (спасибо им!) отметили, что доступ к Llama на HuggingFace им не дали.
Я попробовала сама...и мне тоже не дали.
Потребуется некоторое время, чтобы процесс пофиксили на нашей стороне и стороне HuggingFace (чему мы научились? Не релизить в выходные?), но успех тут во многом зависит от того, как аккуратно вы заполнили поле Organization.
Общий совет:
— не оставляйте его пустым
— лучше пишите максимально длинно название своей организации, реально существующей.
Что можно сделать сейчас, пока у вас нет доступа:
1) переподайте заявку на сайте — там можно подавать ее много раз. Тогда вы сможете скачать чекпоинты
2) Заведите issue на HF странице модели — их читают и потихоньку разгребают. Вам могут ревертнуть процедуру подачи заявки вручную, переподайте ее
3) Можно использовать перезаливы сообщества и уже выложенные квантизованные веса:
🟣Unsloth:
https://huggingface.co/unsloth/Llama-4-Scout-17B-16E-Instruct
https://huggingface.co/unsloth/Llama-4-Maverick-17B-128E-Instruct
🟣MLX community:
https://huggingface.co/mlx-community/Llama-4-Scout-17B-16E-Instruct-4bit
https://huggingface.co/mlx-community/Llama-4-Scout-17B-16E-Instruct-8bit
(там очень много разных уже)
Спасибо этому коммьюнити, что вы делитесь обратной связью, особенно тем, что непосредственно подсвечивает, что поправить.
В конечном итоге мне важно, чтобы модели адоптили и использовали, поэтому мне бы хотелось, чтобы вся эта обратная связь постепенно улучшала ваш опыт.
🌸Llama 4 с 10М токенов контекстного окна 🌸
#nlp #про_nlp
Выпущенная сегодня Llama 4 Scout протестирована на способности при <10 млн токенов в контекстном окне.
Для чего нужен контекст в 10 млн токенов вообще, когда есть RAG?
10 миллионов токенов — это примерно:
🟣большой репозиторий со множеством файлов и всей историей коммитов
🟣небольшая Вики с документацией
🟣файловая система с большими документами, книгами
🟣10+ часов видео
И главное
🟣это ризонинг на всем этом объеме, а не только на отдельных фактах.
🟣 это извлечение нужной информации сразу из многих документов и генерация в один шаг с опорой на нее
🟣это очень длинные подробные инструкции, промты и персонализация под любую историю сообщений или пользовательского поведения.
Собственно, это самый большой официально выпущенный контекст пока что (были отдельные работы по файнтюнингу до 50 млн под конкретные задачи (arxiv)). Все это делается с помощью частичного отказа от позиционных эмбеддингов в некоторых слоях, Rotary embeddings в большинстве слоев и подбору коэффициентов софтмакса в attention, лучше соответствующих длине контекста (arxiv).
Метрики бенчмарков MTOB (zero-shot machine translation с языка Kamalang, очень сложный ризонинг и in-context learning) и Needle in the Haystack прекрасно показывают текущий результат:
🟣MTOB: новая SOTA, 39.7%, +4.6% относительно Gemini 2.0 Flash Lite (35.1%)
🟣Needle in the Haystack: 100% на 10 млн контексте (бенчмарк мы автоматически расширили синтетически до 10 млн, оригинально там 1 млн)
Контекст такого объема еще надо на чем-то тестить - бенчмарков мало. Тем не менее, это очень большой вклад в преодоление проблем
1) агентов (у них обычно очень длинные логи)
2) персонализации под пользователя, без какого-либо обучения модели
3) кодинга у LLM
4) работы с большими документами, вики, архивами, научными статьями.
🌸Все это с открытой лицензией Llama 4. Ура!
В комментариях спрашивают про дистиллированные версии — я думаю, в ближайшие дни они так или иначе появятся на HF
Из того, что готовится, это ещё не самые большие: внутри мы тестим модель на 2 триллиона параметров (288B активных параметров на 16 экспертов MoE)
🌸Релизим Llama 4🌸
OSS на уровне Gemini и Deepseek
Сегодня мы релизим модели из семейства Llama 4 — Llama 4 17Bx16 experts (Scout) и 128 experts (Maverick)
🌸Что интересного:
— 10 миллионов токенов контекстного окна с отличным качеством у модели Scout
— полный размер модели 16 экспертов — 108 млрд параметров, 128 экспертов — 400 млрд
— модель мультимодальная, инпут — текст, изображения, видео
Где посмотреть:
🟣Чекпоинты HF
🟣Блогпост
🌸LLM-агенты для науки: теперь и от OpenAI🌸
#nlp #про_nlp #nlp_papers
Вчера OpenAI зарелизили PaperBench — новый бенчмарк для оценки агентов по их способности понять и полностью воспроизвести основной технический вклад научной статьи, с кодом и результатами.
🌸TLDR Claude 3.5 оказался на нем лучше всех на задачах длиной 12 часов.
Бенчмарк состоит из 20 статей ICML 2024 года, принятых к представлению в Spotlight и устных докладов. Полное воспроизведение включает в себя понимание статьи, разработку кодовой базы с нуля для реализации всех экспериментов, а также запуск, мониторинг и устранение неполадок этих экспериментов по мере необходимости. Каждая задача репликации является крайне сложной и требует от экспертов-людей как минимум нескольких дней работы.
Все отобранные статьи
— представляют темы reinforcement learning, robustness, probabilistic methods.
— сделаны лабораториями без прямого индустриального финансирования (что интересно! см пост про независимость науки)
— отвечают критериям воспроизводимости и машиночитаемости из authors checklist — имеют четкое описание вычислительного бюджета, конкретных датасетов, бенчмарков, версий моделей.
Агентам можно ходить в интернет, но нельзя пользоваться непосредственным списком ресурсов из статей (защита от списывания слабоватая, конечно, обычно статью подробно разбирают в каком-нибудь блоге с кусочками кода). Для оценки используются LLM-судьи и автоматические метрики. На выполнение каждой задачи дается 12 часов, на одну статью — 3 попытки.
На основе текста и кода статей составляются 8,316 отдельных подзадач для агентов, и ряд LLM (O1, O3, Claude 3.5, Gemini) тестируются в нескольких агентских фреймворках:
— Basic Agent — по сути ReACT
— Iterative Agent — openai-ишное поделие, которое использует всю ту же логику, но убирает возможность закончить эксперимент раньше срока, пытаться надо как бы до конца, и это все будет одной попыткой.
У бенчмарка два подмножества: основное на 20 задачах, и мини на 3х статьях.
🌸Из интересного:
— в отличие от результатов MLE-bench, где лучшим вполне осмысленно оказался AIDE + O1— самым лучшим в базовой постановке задачи оказался обычный ReACT + Anthropic Claude 3.5
— Не совсем ясно, пробовали ли еще какие-то агентские фреймворки вообще, и не опробованными оказались более новые модели — Claude 3.7, Deepseek R1 новый, Gemini 2.5
— в целом работа производит впечатление очень сырой, что авторы и сами отмечают: работа с развитием агентных методов может существенно улучшить текущие результаты моделей.
— Лидерборд меняется, если ограничить решение задачи 36 часами, а не 12: тогда комбинация итеративного агента с О1 побеждает Claude + ReAct.
— В статье достаточно интересные результаты относительно сравнения с настоящими исследователями: агенты могут опережать их в течение первого часа автоматической работы, но затем выходят на плато, и после 12-24 часов работы человеческий результат стабильно обгоняет текущие решения ML-агентов. Учитывая наметившийся тренд и внимание к долгим задачам, постепенное улучшение в этом направлении очень ожидаемо.
🟣Paper
🟣Github (спросила про лицензию, у всего репозитория вроде MIT)
🟣Blogpost
Из комментариев:
"Наш AI Data Scientist гарантированно находит бенчмарк с экспоненциальным приростом за константное время"
"ЭКСПОНЕНТА! Любой ценой, но бесплатно"
В общем, на позитивной ноте:
— надо было использовать открытые давно существующие бенчмарки
— надо было мерить на опен сорс моделях и проверить, что тенденция сохраняется
— нужно существенно более подробное исследование и аблейшны, чтобы замерить основные факторы, влияющие на тенденцию
Без этого это просто не значит ничего, кроме очевидного, что модели в целом стали получше.
Совершенно нет времени довести до приличного состояния все заметки и статьи, поэтому сегодня — пятничный мемотред #шитпост
Читать полностью…🌸Колесо сансары дало оборот🌸
#не_про_nlp
Сегодня у меня, в очередной раз, день рождения.
Удивительно, как много всего изменилось за год: я поплавала с китами, вкалываю на работе мечты, и вообще совершенно счастлива.
Не хочется сильно много рефлексировать, но отпраздновать небольшой момент этого равновесия.
Если хотите что-то сделать, чтобы меня поздравить, как обычно, можно задонатить:
🟣Интернет-Архиву
🟣Архиву Анны
🟣Рабкору на работу и в Фонд поддержки левых политзеков
И спасибо, что вы здесь!
🌸Нам нужен новый ИИ-Поппер и новый ИИ-Диссернет🌸
#nlp #про_nlp
На днях вышло замечательное дополнение к нашему циклу о LLM в науке:
Статья от AI Scientist (от Sakana AI) была принята на воркшоп. (Сиол очень подробно написал, почитайте)
Сама новость скорее не удивительна, так как AI Scientist вышел в октябре (пост) с готовыми примерами наукообразных статей, и очевидно, что с октября уже прошли дедлайны и рецензии нескольких крупнейших ИИ-конференций, и если бы смогли пройти на ACL, ICML или ICRL, то это была бы новость гораздо более серьезная. Но даже с кризисом рецензирования смогли пройти только на воркшоп.
🌸Это первый раз?
Вообще говоря, нет. Сгенерированная статья Rooter впервые была опубликована в 2005 году (вот она) и ее корявый машинный перевод (Корчеватель) был также принят в рецензируемом российском журнале ВАК в 2008 -- журнал был со скандалом исключен из списка ВАК. Можно сказать, что так начинался замечательный проект Диссернет.
Оригинальная программа SciGen (опенсорс! GPL 2.0) в результате породила не одну принятую к публикации статью: по оценкам Nature в 2021 году SciGen привела к как минимум 243 статей, принятых в академические журналы. Авторы утверждают, что сгенерированные статьи составляют 75 статей на миллион статей (<0,01%) по информатике.
И вот мы подошли к моменту, когда на воркшоп "просочилась" chatGPT-агентная статья.
Это катастрофа?
🌸Автоматическая верифицируемость
Опять же, нет. Действительно спорная и вредная часть проекта AI Scientist — это генерация новых квазинаучных идей и невалидируемый план экспериментов к ним. А исполняемая часть — валидация экспериментов — нормальная, ее можно использовать.
Не могу не упомянуть, что наш проект MLGym развивает именно вот такую часть: итерации экспериментов в указанных и валидируемых условиях.
Но что, если сделать шаг дальше для решения самой проблемы peer review: подключить такую систему к рецензированию. Тогда оценка новизны останется на рецензентах, а валидация результатов статьи и верификация результатов будут автоматическими.
Рассуждая шире, мы можем ретроспективно запустить автоматическую валидацию для очень большого числа статей по компьютерным наукам — и выявить те из них, которые не воспроизводятся.
Генерация статей автоматически безусловно привела к понижению качества статей в среднем и усложнению рецензирования. Но в противовес этому нужно вводить также массовое маркирование и массовый отзыв некачественных статей. Массовый цифровой "диссернет" для статей на arxiv и openreview (для openreview проблема даже критичнее, потому что там тратятся человекочасы сообщества).
Завысили метрики для нового метода — на выход. Неправильно описали процедуру тестирования и опять же, завысили бенчмарки — получите метку "не воспроизводится".
Ограничение — исключительно в бюджете на вычислительные ресурсы и в вопросе стандартизации некоторых обязательных частей статьи, но с последним authors checklist уже вполне справляется.
Давно не было мемотреда — зачем так жить! Давайте исправлять #шитпост
Читать полностью…С 8 марта, дорогие подписчики и подписчицы!
Не день "весны, любви и нежности", а день борьбы за равные права, эмансипацию и справедливость!
В честь сего ссылка на большой прошлогодний пост:
Женщины в AI Research:
/channel/rybolos_channel/1067
🌸Кризис Peer-Review, или рецензенты NeurIPS ненавидят этот простой трюк (2)🌸
#nlp #про_nlp #nlp_papers
Мы уже смотрели с вами, как благодаря достижениям научного прогресса в 2024 стало можно замусорить А* конференции сгенерированными статьями. Что же может быть интереснее? А вот что: рецензировать и не пропускать статьи автоматически — решили организаторы NeurIPS 2024. Сегодня поговорим про интересный эксперимент -- статью "Usefulness of LLMs as an Author Checklist Assistant for Scientific Papers".
При сабмите статьи NeurIPS 2024 можно было поучаствовать любопытном в эксперименте: разрешить агенту дать вам обратную связь сразу на основании того, как хорошо вы выполнили authors checklist (это такая система формальных требований к публикации, навроде указания всех параметров экспериментов для воспроизводимости, лицензий, ссылок на датасеты). Несоответствие статьи требованиям в authors checklist приводит к автоматическому реджекту сабмита, и обычно эта оценка проводится вручную. Текущий authors checklist — это примерно 40 пунктов, на которые авторам нужно ответить да/нет и указать место в статье, где выполнено требование.
Что же в результате? LLM-агент на GPT-4 поработал с 234 статьями, и последовательно указывал на пробелы в статье по тем или иным требованиям, чтобы авторы отредактировали статью и переотправили ее. Авторы статей затем проголосовали за полезность полученных замечаний.
Итог немного предсказуем: GPT-4 не в состоянии консистентно сопоставлять научные тексты и чеклисты. Основные замечания по качеству работы выявили, что систематически проблемно оцениваются теоретические основания работ, ограничения экспериментов, риски и оценка воспроизводимости. В ближайшее время автоматического рецензирования на NeurIPS не будет. Также авторы отметили, что в целом у них упал дух после работы с таким ассистентом. Что в целом, цинично говоря, может быть и положительным эффектом — каждый год подается статей все больше, их качество при этом понижается.
А что же человеческое рецензирование?
Организаторы NeurIPS уже не первый раз проводят подобный эксперимент:
— в 2014 году часть поданных статей была отправлена сразу двум коллективам рецензентов, и затем на парах полученных решений по статьям (приняты, постер, отказ) провели статистические тесты. Результат показал, что в целом согласие рецензентов оставляет желать лучшего, хотя и лучше случайного.
— Эксперимент был также воспроизведен в 2021 году, и результаты в целом остались теми же: примерно 3% лучших статей получают accept от обоих комитетов с вероятностью выше 88%, а для 70% статей похуже результат вообще случайный.
Так что предлагаемый Эмили Бендер подход slow science (а давайте вдохновлять авторов подавать поменьше статей) вообще в целом остается рабочим.
Правда, может оказаться, что все меньше работ вообще таким образом будут проходить хоть какое-то реценирование, и все это в конечном счете пойдет в обучение LLM безо всякой валидации.
🟣Arxiv
🟣GitHub