rybolos_channel | Unsorted

Telegram-канал rybolos_channel - Kali Novskaya

17209

Нейросети, искусство, мысли. Поехали! Разрабатываю LLM и веду команды chatGPT, GPT-3, GPT-4

Subscribe to a channel

Kali Novskaya

🌸Автоматическая фальсифицируемость

Оценку качества научной новизны и гипотез, как боттлнек, эксплуатируемый Sakana AI, в общем-то, тоже можно постепенно аккуратно побороть, если подключить автоматическую фальсифицируемость гипотез.

Недавно вышедшая статья Popper пытается решить эту проблему в 6 моделирующих науках из DiscoveryBench и нескольких других: социологию, биологию, гумнауки, экономику, мета-исследования и инженерию.

Суть предлагаемого подхода: 2 ReAct-агента с LLM генерируют новые гипотезы и план экспериментов, но включает в план экспериментов критику и методологические вопросы, способные определить измеримые следствия (подгипотезы) основной гипотезы и предложить эксперименты их по фальсификации. В частности, каждая подгипотеза должна быть фальсифицируемой с четкими нулевыми и альтернативными определениями. После разработки агент по выполнению эксперимента реализует эксперименты, которые могут включать сбор данных, моделирование, статистический анализ. Этот агент в конечном итоге выдает p-value, которое суммирует результат эксперимента по фальсификации.

Работа фокусируется только на обнаружении ошибок первого рода (false negative). Автоматическая и экспертная оценка результатов показали, что в работе такой системы есть как минимум 10 очевидных паттернов ошибок, которые препятствуют надежной автоматической оценке свободно сгенерированных гипотез (включая, по классике, неправильную интерпретацию p-value).

Тем не менее, относительно других бейзлайнов (vanilla ReAct, self-refine...), такой подход демонстрирует статически более надежный результат оценки качества гипотез. Удивительно, но Llama 3.3 70B оказалась в числе лучших моделей с точки зрения контроля качества гипотез, а Claude-Haiku 3.5 наоборот, имеет тенденцию к повышенному проценку false negative ошибок. Это не может быт.

Думаю, улучшение качества reasoning, постепенное углубление предметных знаний LLM и уменьшение галлюцинаций в целом должны постепенно улучшить качество такого подхода.
Если мы получим вместе автоматическую верифицируемость результатов и фальсифицируемость  автоматически сгенерированных идей, то дальше акселерация науки будет развиваться с совершенно другой скоростью.

🌸Ссылки:

🟣Интересное: на Github AI scientist можно посмотреть и сравнить человеческие рецензии и скоры, полученные статьями, и рецензи, сгенерированные сами себе AI Scientist
🟣MLGym
🟣Popper
🟣DiscoveryBench

Читать полностью…

Kali Novskaya

Я сегодня встала с хорошим настроением, поэтому сейчас будет длиннопост серьезный. Забустите канал, пожалуйста! http://t.me/rybolos_channel?boost

Читать полностью…

Kali Novskaya

🌸AMA с Peter Norvig🌸
#nlp #про_nlp

Внезапно, в четверг 25 марта — целых 3 часа сессии вопросов и ответов с Питером Норвигом.

🟣Питер Норвиг — директор исследовательской группы в Google, но знаем мы его не за это:
— написал основной университетский учебник по ИИ ещё в 1995 году: Artificial Intelligence: A Modern Approach в соавторстве со Стюартом Расселом (вот pdf, 1116 стр)
— автор огромного количества изящных решений и туториалов, например, мое любимое — спеллчекер в 21 строку
— автор коротких критических заметок, методологически правильно объединяющих инженерию и науку: про Хомского и статистическое моделирование языка, The Unreasonable
Effectiveness of Data
.

🟣Ссылка на AMA: 25 марта 5:00 PM - 8:00 PM PDT
https://lu.ma/98gt9h73?tk=PKNU0b

Читать полностью…

Kali Novskaya

Всем подписчицам этого канала Клара и Роза желают: аккумулируйте побольше капитала, интернационально посещайте конференции!
Всем подписчикам: (вы и так айтишники, у вас все хорошо) — гендерного баланса в коллективе! 🌸

Читать полностью…

Kali Novskaya

Итоги работы ассистента:

Читать полностью…

Kali Novskaya

Нерегулярная музыкальная рубрика по воскресеньям — #female_vocals
Но сегодня я устала и поэтому будет просто блэк метал на санскрите. Добрый вечер!

https://youtu.be/zJTmi9cgpKQ?si=zie_JAhglJpKPv3d

Читать полностью…

Kali Novskaya

🌸Минидемо агентов в MLGym🌸

Используем trace visualizer UI для дебага и демо логов агента: на демо видно, как агент за 19 итераций проходит по файлам в директории, запускает бейзлайн (GPT-2 архитектура на датасете FineWeb), затем постепенно итерируется, доводя ее до аля-GPT-3. 
🟣https://www.youtube.com/watch?v=yiinpI7Vmzg 

Что там происходит:

Каждая итерация у агента начинается с генерации идей и этапов планирования → затем выполнение действия (запуск команды bash, написание кода python, запуск обучения и т. д.), а затем выполнение кода и проверка результата.

На первом этапе агент открывает бейзлайн обучения GPT2 и проверяет его, запускает базовый скрипт обучения.
Агент понимает, что главная цель — сократить loss на валидации
Затем решает изменить базовую архитектуру: увеличить dimension size модели (фактическое изменение, которое используется в статье GPT3)

Это работает, и на следующей итерации агент решает внести больше изменений:
изменить learning rate
больше итераций обучения

— Чтобы все это запустить, агент не только изменяет параметры скрипта обучения, но также проверяет даталоадер и вносит в него изменения, только затем запускает обучение.

— В результате мы получили loss 3,5, на 24% лучше бейзлайна
— Также агент выяснил, что во время последней итерации стабильность обучения улучшилась.



Больше демок для RL, CV задач здесь:
🟣https://sites.google.com/view/mlgym

🟣Сами логи агентов в репозитории https://github.com/facebookresearch/MLGym

Читать полностью…

Kali Novskaya

Как же хочется простого человеческого чтобы Ян Лекун репостнул...

Читать полностью…

Kali Novskaya

🌸MLGym – открытый фреймворк и бенчмарк для Агентов в автоматизации ML-задач🌸
#nlp #про_nlp #nlp_papers

Сегодня, под конец этой насыщенной недели, мы с коллегами выпускаем новую работу "MLGym: A New Framework and Benchmark for Advancing AI Research Agents".

🟣TL;DR
MLGym – это фреймворк для оценки и развития LLM-агентов.
В нем пока 15 различных ML задач, включая хорошо и не очень определенные: задачи на NLP, CV, RL, теорию игр.
Агенты должны продемонстрировать свою способность понять задачу, запустить бейзлайн, оцени его, и начать итерировать эксперименты и улучшать результат, находясь при этом в заданной среде. В среде есть набор инструментов, которые можно использовать: поиск по файловой системе, поиск по файлам, модуль памяти, просмотр и изменение файлов, и собственно действия запуска скрипта оценки и сабмита решения.
Каждая задача содержит датасет, метрику, бейзлайн, а также свою собственную среду, где есть контролируемые ограничения на вычислительный бюджет и таймауты.

Мы предлагаем иерархическую структуру из 6 уровней для оценки степени автономии и научного вклада агентов:
Уровень 0: воспроизведение – аккуратно повторить чужие эксперименты без ошибок
Уровень 1: Итеративное улучшение бейзлайна – применение лучших практик, перебор гипертапаметров
Уровень 2: Достижение SOTA через итерации от бейзлайна – решение лучше тех, что смогли найти люди
Уровень 3: Новый научный вклад – можно быть принятым на условный NeurIPS
Уровень 4: Научное новаторство, фундаментальный научный вклад – можно получить "лучшую статью" на том же NeurIPS
Уровень 5: Долгосрочная исследовательская программа – test of time awards, научная революция, премия Тьюринга.

🟣Что мы выяснили?
Текущие ИИ системы находятся почти поголовно на уровне 1.

Удобно оценивать все системы относительно дельты, которую они смогли достичь, опираясь на бейзлайн, за заданное количество итераций (за первые 5 шагов у системы Х получили +15% точности, а у системы Y +20%). Если оценивать LLM-агенты так, то увидим, что O1-preview вырывается вперед практически на всех задачах. GPT-4o и LLama 3.1 405B примерно на одном уровне, Claude и Gemini делят обычно 2 и 3 место. Ну а если помимо дельты оценивать еще и стоимость инференса модели, но картина меняется, и лучше по соотношению оказывается Gemini с большим отрывом.  

Достаточно интересно посмотреть распределение действий агентов и их ошибок:
— большинство LLM-агентов делают ошибки и из-за этого не доходят до сабмита, тогда как O1 и Gemini гораздо чаще просто не доделывают сабмит до конца.
— все агенты большую часть действий тратят на изменение файлов: редактирование скриптов обучения, а также чтение файлов, запуск обучения и валидацию — соотношение действий примерно у всех одинаковое, хотя некоторым система действий требуется меньше.
— почти все агенты очень мало используют поиск, хотя могли бы.
— минимальное число итераций до первого сабмита — примерно 5. Все системы начинают с чтения файлов, затем запускают валидацию, и дальше планомерно итерируются, изменяя скрипты и запуская обучение.

🟣Что еще есть полезного?
— Классный Web UI визуализатор агентных логов на streamlit
— Есть набор полезных функций и tools, полностью совместимый с SWE-Agent.
— Есть модуль памяти, модуль поиска научной литературы, и еще много разных ништяков, которые можно использовать отдельно от бенчмарка, просто развивая своего агента (свой агент? Это же неодушевленное...)
— Есть большой обзор литературы, охватывающий почти все последние работы в области агентов для SWE, ML, науки, который угадайте кто писал.

Линейку задач можно легко расширять — поэтому мы будем рады идеям и контрибьюшенам, а также любой активности в репозитории.

🟣Arxiv: https://arxiv.org/abs/2502.14499
🟣Github: https://github.com/facebookresearch/MLGym
🟣Лицензия: CC-BY-NC 4.0

Читать полностью…

Kali Novskaya

🌸Акселерация науки — вперед!🌸
#nlp #про_nlp #nlp_papers

Молчать про это невозможно — про автоматизацию и акселерацию науки с помощью ИИ-моделей. На этой неделе происходит сразу несколько интересных релизов:

🟣OpenAI выпустил SWElancer: новый бенчмарк для агентов в привязке к реальным заданиям с биржи фриланса (100 млрд сами себя не заработают). OpenAI продолжает работу по привязыванию оценки работы ИИ к монетарной ценности — в задачах вроде как и сложных, но все-таки не научных, а скорее экономически выгодных.

🟣Google выпустил Co-Scientist: ассистента для ученых на основе последней модели Gemini в применении к 3 биомедицинским задачам: поиск новых применений уже известных препаратов, предложение новых терапевтических подходов к лечению и выяснение механизмов, лежащих в основе устойчивости к противомикробным препаратам.

Как говорится, две большие разницы. Подход Google больше похож на мои тезисы из "как делать AGI аккуратно": методы машинного обучения уже давно проникли в различные научные области, автоматизируя отдельные части процесса. Уже нашлись приложения в таких науках, как физика, биология, химия, лингвистика, экономика, геологическое моделирование, эпидемиологическое моделирование, нейронауки.
ИИ легко применим в любой области науки, где имеется 2 необходимых условия для автоматизации: формальные модели и симуляции.

Вполне логично, что агенты могут успешно автоматизировать генерацию тем, и даже эксперименты, но не могут пока что полноценно генерировать научную новизну.
И если добавить в эту цепочку самого исследователя — то проблему автоматической валидации новизны можно и вовсе обойти!

Но это еще даже не все:
🟣Stanford/Harvard выпустили Popper — агента для автоматического фальсифицирования гипотез в биологии, экономике, социологии. Составные части научной акселерации скоро будут собраны почти все.

Судя по скорости, до конца этой недели.

Читать полностью…

Kali Novskaya

Давно не было мемотреда! #шитпост

Читать полностью…

Kali Novskaya

🌸Вакансия в Llama Team🌸

Со вчерашнего дня у меня есть новая вакансия в мою команду: L4 Research Scientist в Лондон

Будем делать LLM posttraining, агентов и акселерацию науки — и все а опен сорсе.

🟣Нужно обязательно:
— хорошие знания в языковых моделях, reinforcement learning, системное научное мышление
— PhD вокруг LLM или около,
— трек ML публикаций, где вы в первых авторах
— хорошо пройти все разные секции: ML System design, AI Coding, Behavioral.
(Про некоторые из них я уже сама раньше рассказывала, считай, подготовила вас немножко)

🟣Что желательно:
— рабочая/talent виза в UK
— желание выйти поскорее
— не только научный, но и инженерный опыт, способность не только дотюнить модель, но и поконтрибьютить во фреймворк вокруг.


🟣Податься можно здесь: https://www.metacareers.com/jobs/1763573274592729/

Читать полностью…

Kali Novskaya

Начинаю свой рабочий день с того, что отдаю американское ИИ-преимущество Китаю 🏭🍷

Читать полностью…

Kali Novskaya

🟣Через час начинаем!

Вопросы можно задавать под этим постом или через донат

Все донаты идут в фонд поддержки левых политзаключённых и на Работу рабкора.

https://youtube.com/live/NzZ1wbQiRPQ?feature=share

Читать полностью…

Kali Novskaya

🟣Если вы рецензент – требуйте воспроизводимости и полного описания методов в статьях; поощряйте статьи с новыми методами, поощряйте статьи с методами, не требующими много вычислительных ресурсов.
🟣Если вы автор – включайте максимально все техническое описание, код и модели
🟣Если вы разработчик – выкладывайте в опенсорс, чтобы не приходилось в рамках воспроизводимости учить все в нуля.

Не важно, в общем-то, сколько будет GPU на мертвой планете.


Ссылки:
[1] Arxiv On Tables with Numbers, with Numbers.
[2] Reject if not SOTA
[3] Статья про академ мобильность

Читать полностью…

Kali Novskaya

🌸Нам нужен новый ИИ-Поппер и новый ИИ-Диссернет🌸
#nlp #про_nlp

На днях вышло замечательное дополнение к нашему циклу о LLM в науке:

Статья от AI Scientist (от Sakana AI) была принята на воркшоп. (Сиол очень подробно написал, почитайте)

Сама новость скорее не удивительна, так как AI Scientist вышел в октябре (пост) с готовыми примерами наукообразных статей, и очевидно, что с октября уже прошли дедлайны и рецензии нескольких крупнейших ИИ-конференций, и если бы смогли пройти на ACL, ICML или ICRL, то это была бы новость гораздо более серьезная. Но даже с кризисом рецензирования смогли пройти только на воркшоп.  

🌸Это первый раз?

Вообще говоря, нет. Сгенерированная статья Rooter впервые была опубликована в 2005 году (вот она) и ее корявый машинный перевод (Корчеватель) был также принят в рецензируемом российском журнале ВАК в 2008 -- журнал был со скандалом исключен из списка ВАК. Можно сказать, что так начинался замечательный проект Диссернет.
Оригинальная программа SciGen (опенсорс! GPL 2.0) в результате породила не одну принятую к публикации статью: по оценкам Nature в 2021 году SciGen привела к как минимум 243 статей, принятых в академические журналы. Авторы утверждают, что сгенерированные статьи составляют 75 статей на миллион статей (<0,01%) по информатике.
И вот мы подошли к моменту, когда на воркшоп "просочилась" chatGPT-агентная статья.
Это катастрофа?

🌸Автоматическая верифицируемость

Опять же, нет. Действительно спорная и вредная часть проекта  AI Scientist — это генерация новых квазинаучных идей и невалидируемый план экспериментов к ним. А исполняемая часть — валидация экспериментов — нормальная, ее можно использовать.

Не могу не упомянуть, что наш проект MLGym  развивает именно вот такую часть: итерации экспериментов в указанных и валидируемых условиях.

Но что, если сделать шаг дальше для решения самой проблемы peer review: подключить такую систему к рецензированию. Тогда оценка новизны останется на рецензентах, а валидация результатов статьи и верификация результатов будут автоматическими.

Рассуждая шире, мы можем ретроспективно запустить автоматическую валидацию для очень большого числа статей по компьютерным наукам — и выявить те из них, которые не воспроизводятся.

Генерация статей автоматически безусловно привела к понижению качества статей в среднем и усложнению рецензирования. Но в противовес этому нужно вводить также массовое маркирование и массовый отзыв некачественных статей. Массовый цифровой "диссернет" для статей на arxiv и openreview (для openreview проблема даже критичнее, потому что там тратятся человекочасы сообщества).

Завысили метрики для нового метода — на выход. Неправильно описали процедуру тестирования и опять же, завысили бенчмарки — получите метку "не воспроизводится".

Ограничение — исключительно в бюджете на вычислительные ресурсы и в вопросе стандартизации некоторых обязательных частей статьи, но с последним authors checklist уже вполне справляется.

Читать полностью…

Kali Novskaya

Давно не было мемотреда — зачем так жить! Давайте исправлять #шитпост

Читать полностью…

Kali Novskaya

ИИ-специалисты, что же мы наделали 🙈😅

Читать полностью…

Kali Novskaya

С 8 марта, дорогие подписчики и подписчицы!

Не день "весны, любви и нежности", а день борьбы за равные права, эмансипацию и справедливость!
В честь сего ссылка на большой прошлогодний пост:

Женщины в AI Research:
/channel/rybolos_channel/1067

Читать полностью…

Kali Novskaya

🌸Кризис Peer-Review, или рецензенты NeurIPS ненавидят этот простой трюк (2)🌸
#nlp #про_nlp #nlp_papers

Мы уже смотрели с вами, как благодаря достижениям научного прогресса в 2024 стало можно замусорить А* конференции сгенерированными статьями. Что же может быть интереснее? А вот что: рецензировать и не пропускать статьи автоматически — решили организаторы NeurIPS 2024. Сегодня поговорим про интересный эксперимент -- статью "Usefulness of LLMs as an Author Checklist Assistant for Scientific Papers".

При сабмите статьи NeurIPS 2024 можно было поучаствовать любопытном в эксперименте: разрешить агенту дать вам обратную связь сразу на основании того, как хорошо вы выполнили authors checklist (это такая система формальных требований к публикации, навроде указания всех параметров экспериментов для воспроизводимости, лицензий, ссылок на датасеты). Несоответствие статьи требованиям в authors checklist приводит к автоматическому реджекту сабмита, и  обычно эта оценка проводится вручную. Текущий authors checklist — это примерно 40 пунктов, на которые авторам нужно ответить да/нет и указать место в статье, где выполнено требование.

Что же в результате? LLM-агент на GPT-4 поработал с 234 статьями, и последовательно указывал на пробелы в статье по тем или иным требованиям, чтобы авторы отредактировали статью и переотправили ее. Авторы статей затем проголосовали за полезность полученных замечаний.

Итог немного предсказуем: GPT-4 не в состоянии консистентно сопоставлять научные тексты и чеклисты. Основные замечания по качеству работы выявили, что систематически проблемно оцениваются теоретические основания работ, ограничения экспериментов, риски и оценка воспроизводимости. В ближайшее время автоматического рецензирования на NeurIPS  не будет. Также авторы отметили, что в целом у них упал дух после работы с таким ассистентом. Что в целом, цинично говоря, может быть и положительным эффектом — каждый год подается статей все больше, их качество при этом понижается.

А что же человеческое рецензирование?
Организаторы NeurIPS  уже не первый раз проводят подобный эксперимент:
в 2014 году часть поданных статей была отправлена сразу двум коллективам рецензентов, и затем на парах полученных решений по статьям (приняты, постер, отказ) провели статистические тесты. Результат показал, что в целом согласие рецензентов оставляет желать лучшего, хотя и лучше случайного.
— Эксперимент был также воспроизведен в 2021 году, и результаты в целом остались теми же: примерно 3% лучших статей получают accept от обоих комитетов с вероятностью выше 88%, а для 70% статей похуже результат вообще случайный.

Так что предлагаемый Эмили Бендер подход slow science (а давайте вдохновлять авторов подавать поменьше статей) вообще в целом остается рабочим.

Правда, может оказаться, что все меньше работ вообще таким образом будут проходить хоть какое-то реценирование, и все это в конечном счете пойдет в обучение LLM безо всякой валидации.

🟣Arxiv
🟣GitHub

Читать полностью…

Kali Novskaya

🌸Курс AI Safety от DeepMind🌸
#nlp #про_nlp #ai_alignment

DeepMind выпустил серию коротких видео с мини-лекциями про безопасность в ИИ
— Введение в AI Safety
— Глава 2: 5 частей про проблему AI Alignment
— Глава 3, Технические решения: обучение моделей и мониторинг качества, интерпретируемость, более безопасные дизайн-паттерны, стресс-тестирование
— Глава 4, Подходы к управлению рисками: институциональный подход к ИИ-безопасности, лучшие практики, оценка экзистенциальных рисков

🟣План курса: https://deepmindsafetyresearch.medium.com/introducing-our-short-course-on-agi-safety
(В конце есть две вакансии, в Лондоне и Нью-Йорке)
🟣Youtube-плейлист: https://youtube.com/playlist?list=PLw9kjlF6lD5UqaZvMTbhJB8sV-yuXu5eW&amp;si=mSHlo4s7u6Q_aXSy

Читать полностью…

Kali Novskaya

Заодно — поставьте ⬆ статье на HuggingFace paper, пожалуйста!
🟣https://huggingface.co/papers/2502.14499

Читать полностью…

Kali Novskaya

В тексте статьи есть пара пасхалок от меня, особенно одна в Limitations, там есть кусочек, который подписчикам точно будет очень знаком!🤓

Читать полностью…

Kali Novskaya

Так, ну вообще-то я не даром так много рассказываю вам об акселерации науки — настало время немножко показать и непосредственно мою небольшую часть в этой сфере 😌
Сегодня вышла моя первая статья в Meta!

Читать полностью…

Kali Novskaya

🌸Опенсорс от HuggingFace: рекап за год🌸
#nlp #про_nlp  #nlp_papers

HuggingFace подвели итоги всех открытых проектов, которые научная команда стартапа нициировала за прошедший год. Давайте вместе посмотрим, как много на самом деле значит сила открытого сообщества и организованного труда!

Январь 2025
🐳Open-R1  – открытая инициатива по воспроизведению результатов DeepSeek R1, включая методы пост-тренинга и датасеты. Результаты воспроизводятся! Apache 2.0
🛠️SmolAgents  – фреймворк с полезным абстракциями для построения LLM-агентов, с типичной логикой и классами. Из коробки предлагается использовать поиск DuckDuckGo
и открытые LLM. Apache 2.0

Декабрь 2024
📈Scaling Test Time Compute – подробный разбор стратегий test-time compute методов на примере моделей Llama
📐FineMath – подкорпус на 54 млрд токенов из FineWeb, содержащий математический контент, в том числе пошаговые решения. Есть еще его корпус-побратим FineWeb-edu с образовательными текстами. Лицензия ODC-by

Ноябрь 2024
🤓SmolVLM  – visual-версия SmolLM, принимает на вход картинки и текст. Apache 2.0
Октябрь 2024
🔎LLM Evaluation Guidebook  – подробный материал с лучшими практиками по оценке языковых моделей, включая составление тестов, инструкции аннотаторам, использование LLM-as-a-judge
🗺️FineTasks – бечнмарк для оценки качества претрейна LLM на множестве языков. Лицензия ODC-by

Сентябрь 2024
🎥FineVideo  – датасет на 43 тысячи видео для обучения SORA-like моделей видео-генерации, своя лицензия License CC-By

Лето 2024
📣Speech-to-Speech, Speech-to-Speech Multilingual  – попытка создания модульной GPT4-o. Модули вклают в себя открытые LLM, а также модели STT и TTS, и даже voice activity detection от Silero
🥇Win AIMO – AI Mathemathical Olympiad соревнование выиграно на основе открытых моделей
🤗SmolLM – семейство открытых моделей мини-размера:  135M, 360M, and 1.7B параметров. Пригодно для on-device и real-time задач, при этом сами модели получены не путем дистиллирования, а просто обучены на очень качественных данных: курируемых датасетах с кодом, образовательным контентом и фактологией.  Apache 2.0
🤖LeRobot,LeRobot Tutorial  – курируемый набор моделей, фреймворков, датасетов и туториалов для робототехнического прототипирования. Apache 2.0

Весна 2024
🍷FineWeb – огромный очищенный интернет-корпус для предобучения больших языковых моделей на 15 триллионов токенов. Есть мультиязычная версия, я теперь еще и бенчмарк, доказывающий, что корпус лучше остальных для сходимости моделей. Лицензия ODC-by
🏆Zephyr Mixtral , Zephyr Gemma  – быстрые повторения моделей Gemma и Mixtral на основе синтетических датасетов, обе под своими собственными лицензиями.
Lighteval Release – открытый фреймворк для эффективной и полной оценки LLM (теперь еще и многоязычный). MIT License
⭐️The Stack v2 – очищенный (и лицензионно чистый) датасет для обучения кодовых LLM. Своя собственная лицензия
⭐️StarCoder2 – улучшенная версия модели для генерации кода StarCoder. OpenRAIL license
🌌Cosmopedia – синтетически сгенерированный корпус с фактологически верной информацией, основанной на лицензионно чистых источниках. Apache 2.0

В целом, исключительно постоянная организационная работа  с сообществом и позволяет нагнать закрытые модели, потому что постоянно создаются строящиеся кирпичики, на которых создается дальнейшая воспроизводимость – инфраструктура, модели, датасеты, подходы. 

🟣Блог-пост с проектами
https://huggingface.co/science

Читать полностью…

Kali Novskaya

🌸Deepdive into LLMs🌸
#nlp #про_nlp

Андрей Карпаты выпустил новое видео!
Хорошая обзорная лекция для начинающих свой путь в языковых моделях:
— основы претренинга, токенизации
— пост-тренинг и RLHF стадия
— примеры GPT2, Llama 3.1, DeepSeek R1
Все коротенечко за 3.5 часа!

🟣Видео: https://youtu.be/7xTGNNLPyMI?si=zSa6jMXJV38wRQ9J

Читать полностью…

Kali Novskaya

🌸Ежегодный спич AGI Russia 🌸
#nlp #про_nlp #nlp_papers

В четверг буду делать ежегодный (уже традиционный) обзор работ и тенденций, которые прокладываюь наш путь к AGI

На пути к AGI: Обзор работ 2024-2025 года

6 февраля 2025, 18:00 (время московское)

Регистрация:
🟣https://aigents.timepad.ru/event/1412596/

Читать полностью…

Kali Novskaya

Помните Гэри Маркуса, который активно рассуждал о проблеме композициональности: дескать, вот астронавта на лошади современные модельки могут нарисовать, а вот лошадь на астронавте нет (спойлер: лучше модельки это сейчас уже могут). Потом выступал в Сенате США по поводу ИИ-рисков?

Теперь вот требует покарать Цукерберга и Лекуна за опенсорс. Дескать, они продали США и из-за их опенсорса США потеряла лидерские позиции в области генеративного ИИ

Читать полностью…

Kali Novskaya

🌸Стрим на Рабкоре, 20.00мск🌸

Друзья, на неделе произошло много больших событий:
— Китайский DeepSeek выпустил открытую нейросеть R1, догнавшую но метрикам OpenAI
— OpenAI выпустили агента Operator
— В США натуральный техноолигархат делит ресурсы
— 500 млрд инвестиций на ИИ
— и все заберёт OpenAI?
— Что нас ожидает в 2025 году, будет ли технологическая независимость в опенсорсе?

Обо всем этом сегодня поговорим на Рабкоре в 20.00
Приходите!

🟣Youtube-ссылка будет тут!

Читать полностью…

Kali Novskaya

Независима ли Наука и ИИ в 2025?
#nlp  #nlp_papers

Я уже много постов посвящала статьям, занимающимся автоматизацией наука при помощи LLM и агентов на них.
🟣Бесполезный AI scientist
🟣LLM и научная новизна
🟣Бенчмарки для научных агентов

И если мы нацелились на акселерацию науки с ИИ в 2025 году, самое время поговорить и про то, какие подлежащие проблемы предстоит решить перед этим.

Хочу поделиться с вами моим несколько вольным конспектом критической статьи про ситуацию в компьютерной лингвистике (которая на самом деле совершенно переносима на все остальное) On Tables with Numbers, with Numbers.

🌸Зависимость науки 

Откуда идет финансирование науки? Частные фонды, научные гранты, государственные программы. Тем не менее, за последние годы, частный капитал захватил существенную часть: финансирование крупнейших конференций по теме LLM, компьютерной лингвистики, на 50% спонсируется топ-8 индустриальными компаниями.

Необходимость иметь доступ к большим вычислительным мощностям, большим данным и в целом мотивация “алгоритмическое превосходство хоть на +1% любой ценой” пораждает совершенно неравномерную ситуацию, в которой 90%+ исследований сделаны не независимо, а с помощью финансирования тех-компаний. Проблему пизнают даже сами огранизаторы конференций и издатели журналов [2].

Обучение SOTA-моделей по стоимости стало сравнимо и часто превосходит годовой R&D бюджет самых богатых профильных институтов, что делает академию напрямую зависимой.

На практике, пока исследования в области компьютерной лингвистики остаются ориентированными на результаты, зависимость от технологий и инфраструктуры, предоставляемых технологическими гигантами, вообще не имеет никакой альтернативы. В результате, страдают и цитирования, и в целом научный импакт публикаций: читают и цитируют больше всего статьи авторов из тех гигантов.

🌸Коммодификация науки

Достаточно быстро мы приняли, что в лингвистике, биологии, нейронауках, и т.д. – в любой науке, где есть модели и симуляции – есть возможность применять большие нейросетевые модели для более эффективного моделирования. А значит, появились и бенчмарки – наборы классических тестов для моделей, с наличием метрик и золотых ответов от людей-экспертов.
Как выбираются бенчмарки, всегда ли они мотивированы поиском истины, или скорее поиском наиболее экономически выгодного решения индустриальной задачи?

Просто взять и “зарешать” бенчмарки агентами недостаточно:  текущее состояние дел даже в лингвистике показывает огромное количество пробелов, и бОльшую ориентированность на коммерческие задачи, нежели чем на поиск научной истины.
Предстоит создать множество задач, ориентированных на обобщение, пограничные случаи, применимость на различных областях знаний.

Зато есть, конечно, всякие бизнес-метрики и оценки от успехов автоматизации.
Новое определение сильного ИИ от OpenAI Microsoft – сюда же: AGI – это система, которая способна принесли 100 млрд долларов прибыли.

🌸Коммодификация таланта

Студенты и ученые едут за возможностями: куда они едут?
Никакого секрета: направление научной мобильности совпадает с градиентом экономического неравенства в мире [3]. Экономическое неравенство усиливает научно-географическое, когда лаборатории с доступом к технологиям и моделям распеделены совершенно неравномерно.

В рамках сохранения статуса кво корпорациями проводится множество мер лоббирования, инициативы по “этичному ИИ”, “инклюзивности в ИИ”, но почти все они не стремятся реально демократизировать доступ к технологиям или понизить порог входа для инстутов по всему миру. Скорее, они стремятся сделать ровно обратное – закрепить текущее неравенство в доступе, регулировании, принятии решений о приоритетах направлений науки вообще, но с пиаром получше.

Читать полностью…
Subscribe to a channel