rybolos_channel | Unsorted

Telegram-канал rybolos_channel - Kali Novskaya

17242

Нейросети, искусство, мысли. Поехали! Разрабатываю LLM и веду команды chatGPT, GPT-3, GPT-4

Subscribe to a channel

Kali Novskaya

🌸Про агенты на AGI 2025 🌸
#nlp #про_nlp

В этом году у меня keynote на AGI conf: буду рассказывать про последние важные работы в LLM-агентах, новые возможности и боттлнеки, которые нам ждут на пути к этому самому Artificial General Intelligence.

Frontiers in LLM-Agents for Science Acceleration: can we tackle the scientific progress automation?

We will cover the latest advances in AI Agents and major works of the last year, their limitations and new opportunities on the intersection of foundational model advancement, agency and methodology of science.



В этом году конференция в Исландии, мой доклад 10 августа по плану, так что увидимся в Рейкьявике!

🟣Сайт конфы: https://agi-conf.org/2025/
🟣Регистрация на AGI-25 — онлайн можно все посмотреть бесплатно
🟣Еще в рамках конференции проходят воркшопы, в том числе Interpretable NLP: программу уже выложили

Читать полностью…

Kali Novskaya

OpenAI наконец-то выпускают ChatGPT-агента, совмещающего функционал Deep Research и Operator.
Есть терминал и коннекторы к различным источникам данных, как в Llama Index что лет назад.

🟣Анонс https://openai.com/index/introducing-chatgpt-agent/
🟣System card с бенчмарками https://openai.com/index/chatgpt-agent-system-card/

Читать полностью…

Kali Novskaya

Все в комментариях хотят мемотред, но что-то мало мемов накопилось, помогайте! #шитпост

Читать полностью…

Kali Novskaya

🟣Через час начинаем! Приходите
/channel/rabkor/18594

Читать полностью…

Kali Novskaya

🌸SOTA на MLE-bench и новый скаффолд для ML агентов🌸
#nlp #про_nlp #nlp_papers

Выпустили статью, как мы с коллегами исследуем различные факторы у агентов в решении ML-задач: AI Research Agents for Machine Learning: Search, Exploration, and Generalization in MLE-bench

🌸TL;DR
У агентов столько вариаций, доступных тулзов, даже базовых LLM — как выбрать?
Выбирать комбинацию под задачу, в данном случае — решение ML соревнований.
Рецепт: DeepSeek, улучшенный нами AIDE с различными стратегиями поиска, оптимизированным набором операторов и тулзов — AIRA dojo (код в опенсорсе).

🌸Эксперименты

Базовая модель, скаффолд агента, набор доступных действий и тулзов и методы оценки — влияют на результат в разных комбинациях.
Оптимизировать метод поиска решения и набор действий агента под задачу — выигрышнее, чем просто тратить больше времени на поиск или тратить больше вычислительных мощностей.

Попутно сделали SOTA на MLE bench — бенчмарке OpenAI для агентов на основе Kaggle-задач. MLE bench состоит из 75 задач различной сложности, каждая в контейнере и с бейзлайном, и агентам необходимо, итерируя эксперименты, получить золото Kaggle.

Наше лучшее сочетание базовой модели, стратегии поиска и набора операторов достигает передового результата на MLE-bench lite, увеличивая вероятность получения медали на Kaggle с 39,6% до 47,7%.

Протестировали
🟣DeepSeek R1, O1, O3
🟣AIDE, несколько типов поиска по дереву — Greedy, MCTS, Evolutionary

🌸Краткие выводы

— мы сделали SOTA на ML-задачах без какого-либо изменения моделей, просто аккуратно написав фреймворк, который позволил проанализировать вклад в итоговое качество разных частей пайплайна, и тем самым вылечить некоторые явные боттлнеки в действиях агента и в поиске решений.
— у всех агентов все ещё наблюдается систематический оверфит: во время поиска решения агентами используется результат на валидации, а тестсет не доступен. При проверке оказывается, что лучшие, более общие решения в графе решений были, но на валидации показали себя хуже и выбраны не были.
— оптимизация операторов и поиска под задачу помогает гораздо сильнее, чем просто давать агенту бесконечное количество попыток / компьюта — качество базовых моделей все ещё неидеальное, поэтому в случае неограниченного количества попыток ваш субоптимальный агент все равно выйдет на плато.

🟣Arxiv статья
🟣GitHub скаффолд для ML агентов

Читать полностью…

Kali Novskaya

Чтобы все оставшиеся сотрудники успели пройти интервью к нам 😈
#шитпост

https://futurism.com/openai-shutting-down-week

Читать полностью…

Kali Novskaya

🌸Deep Research Agents: обзор 🌸
#nlp #про_nlp #nlp_papers

Вышла неплохая обзорная статья про пересечение Deep Research и агентов — Deep Research Agents: A Systematic Examination And Roadmap.

Авторы определяют Deep Research агентов как AI-агенты на базе LLM, объединяющие динамически адаптивные рассуждения, способность к планированию, многошаговый внешний поиск и извлечение знаний и использование инструментов (tools, function calling), а также генерацию комплексных аналитических отчетов для информационно-исследовательских задач.

Приводится подробный анализ работ по теме
— Chain-of-thought, Reasoning
— Tool use, MCP
— Планирование в LLM
— GPRO, PPO, Reinforce++ и как их готовить

Отдельно способность к Deep Research сравнивают на примере бенчмарка GAIA (на нем оцениваются практически все работы).

Открытые вопросы и задачи, которые стоят перед исследователями в 2025:
— Расширение источников информации — когда информации хватит для отчета? Когда и где искать, когда ее недостаточно?
— Fact Checking и информация, меняющаяся во времени
— Асинхронность в выполнении задач и этапов плана у агентов
— Адекватная интеграция reasoning и вывода из внешних тулзов
— Мультиагентные архитектуры и автономное развитие систем с онлайн-RL


Нашу статью MLGym процитировали, опять же! 🥹

🟣Статья
🟣GitHub

Читать полностью…

Kali Novskaya

🌸Антикопирайт и LLM победили (пока)🌸
#nlp #про_nlp

Эта неделя довольно важная для прецедентных судебных разбирательств по ИИ и копирайту. Я уже писала раньше про продолжающиеся судебные разбирательства Интернет-архива, проблемы теневых библиотек, суды над Midjourney и Stability AI.

🌸 Для LLM и агентов наиболее важными являлись 2 разбирательства: копирайтные иски к Anthropic и к Meta.

Суды вынесли оба решения на этой неделе:

🟣 Anthropic: Fair use. Обучение LLM на копирайтном материале без согласия авторов — это официально FAIR use. Так, Калифорнийский суд посчитал, что получаемый в результате обучения артефакт (LLM) — новое произведение, а значит, это подходит под определение Fair Use.

🟣 Meta: Ллама не виноватая! 13 авторов, подавших копирайтный иск против обучения опенсорса на их книгах, иск проиграли. Они не смогли доказать в суде, что обучение опенсорсной модели на их материале как-то уменьшило продажи их книг и повредило им.  

Эти прецеденты проводят очень важную новую границу в делах об интеллектуальной собственности и ИИ.

Конечно, это не значит, что использование скоммунизженнего подкопирайтного материала стало законным. Да и другие авторы могут все равно подать в суд и выбрать другую стратегию. А в Российском правовом поле понятия Fair use нет совсем.

Но если очень хочется обучать модели — то можно.😈

🟣Посмотрите наш старый стрим КОПИЛЕФТ с Мишей Вербицким про Антикопирайт

Читать полностью…

Kali Novskaya

AgentRxiv: Towards Collaborative Autonomous Research
Статья: ссылка
Лендинг: https://agentrxiv.github.io/

Очень смешная идея от создателя AgentLaboratory. AgentRxiv — специальный сервер, на который агенты могут складывать написанные статьи и переиспользовать их между запусками.

Замечу, что это не для того, чтобы их читали люди. Для этого есть уже есть viXra, то есть arXiv для статей, написанных с помощью языковых моделей.

А эта идея про то, что можно совместно запускать несколько автоматических исследователей, которые могли бы переиспользовать результаты друг друга. Один из описанных экспериментов как раз про запуск 3 параллельных "лабораторий".

В качестве тестовой задачи авторы используют разработку техник промптинга для решения MATH-500 (сомнительно, ну и ладно). Итоговые найденные техники якобы обобщаются на другие датасеты и задачи: GPQA, MMLU-Pro, MedQA.

С точки зрения реализации всё как в обычном ArXiv'е: сервер, API для поиска, чтения и загрузки статей, сайт для просмотра кожаными мешками. Поиск нормальный, то есть семантический.

Эксперименты:
1) Запуск по умолчанию с доступом к AgentRxiv (78.2% на MATH-500)
2) Обязательное учитывание 5 статей с AgentRxiv против отсутствия доступа к AgentRxiv (78.2% vs 73.8%)
3) Запуск 3 параллельных "лабораторий" (79.8%)

Что по цене? Модели: o1-mini и o1-preview. 280$ за 120 статей в 3 эксперименте (по 40 на каждую "лабораторию"). И примерно 3 дня реального времени 🤔

Из кеков:
- Модуль про написание кода часто генерировал питоновский exit(), что убивало весь пайплайн.
- Значительная часть экспериментов содержала критичные баги, из-за которых точность была примерно 0% 😂
- Ну и с latex'ом моделям было очень сложно (понимаемо).

Очень крутая механика, но по-моему всё ещё не хватает нормального интерфейса взаимодействия с людьми. Первый автор недавно был на стриме AI4Science сообщества alphaXiv, как раз рассказывал про AgentLaboratory и эту статью, я там был, мёд, пиво пил. Следующая статья от него будет про генерацию идей для исследований.

Читать полностью…

Kali Novskaya

🌸Ловушка Chain-of-thought 🌸
#nlp #про_nlp #nlp_papers

На днях коллегиат из Apple выпустил статью с говорящим названием: "The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity".
Поскольку из названия можно сразу сделать далеко идущий вывод, скажу сразу, что статья гораздо менее кликбейтная, и заслуживает внимания.
Краткий вывод: Reasoning LLM скорее эксплуатируют паттерны, чем реально демонстрируют способности к логике, особенно если их поместить в среду с задачами, где язык совсем не нужен.

🌸Суть экспериментов

Авторы специально создают набор задач, где язык как таковой не нужен, а нужны логические операции и ограниченный состав предикатов. Авторы берут задачки навроде Ханойской башни, Волка-козла-капусты и тд, и искусственно контролируют их сложность, увеличивая количество элементов.

По результатам авторы выделяют 3 группы задач: 1) задачи низкой сложности, где обычные инструкт-модели показывают такой же или лучший результат, чем ризонинг-модели 2) задачи средней сложности, где у ризонинга выходит преимущество 3) задачи высокой сложности, где у всех LLM результат падает в ноль.

Итог: при фиксированном бюджете на вывод (60 тыс токенов), у инструкционных и ризонинг моделей разные траектории. На простых и средних задачах ризонинг модели явно лидируют, но на задачах повышенной сложности результат не воспроизводится и качество у всех падает в ноль.

Тестируются  o3-mini, DeepSeek-R1, Claude-3.7-Sonnet-Thinking — на всех результаты схожие.


🌸Chain-of-thought и не должен работать

Почему вообще Chain-of-thought должен лучше работать?
Chain of thought изначально очень ограниченный инструмент. Эксплуатация промпт-инжиниринга,  которая опирается на совершенно искусственные данные. В веб-корпусе со всего интернета таких примеров будет совсем мало, и источника данных, по которым можно было бы проверить естественное распределение явлений в логах хода мыслей человека у нас нет. Датасеты, на которых ризонинг-модели учатся, достаточно искусственные и не то чтобы разнообразные. Да, на некоторых задачах потратить больше времени на генерацию помогает. Но есть и другие методы — разный декодинг, многошаговая генерация и т.д. Поэтому не стоит думать, что ризнинг-модели прямо хорошо думают, и что это из коробки масштабируется.

Один из самых известных (и уже сатурированных) бенчмарков, который проверяет по сути это же — способность моделей демонстировать интеллект без языка — является ARC AGI. Он тоже построен на масштабируемых паттернах, и в ноябре 2024 его уже зарешали. Несколько аналогичных работ (вот и вот) проводило такие же тесты на способнсти LLM к планированию — и для ризонинг-моделей, и для инструкционных.


🌸Мечта о символьном ИИ

Требовать от вероятностной модели хорошо работать в условиях, где нужны строгие правила, вообще странновато, на мой взгляд. Но можно, если мы признаем, что логика предикатов и другие правиловые системы являются подмножеством в вероятностном пространстве языка. 😈

Гипотеза, вообще говоря, имеет право на существование: попытки соединить фундаментальные модели и символьные методы уже были, например, есть трансформеры логики предикатов и даже на алголе. Ждем, когда это все протечет в тюнинг ризонинг-моделей!

🌸А что делать?

Может быть, комбинация с символьными методами и правда принесет нам что-то полезное.
Но пока до этого ещё далеко, можно было бы сделать как минимум три вещи:
— получше разобраться с механистической интерпретацией в применении к таким задачам, посмотреть, что вообще происходит с цепочками активаций и можно ли это улучшить тюнингом на данных;
— попробовать перетюнить модели с разными методиками inference time training — и сравнить результаты;
— попробовать разные методы декодинга, чтобы проверить, что результат сохраняется, либо существующий декодинг просто не оптимален для подобных задач.

Все эти гипотезы по сути заблокированы, так как веса у моделей закрытые, но как минимум можно было бы взять DeepSeek.

В общем, экспоненту найти в очередной раз не получилось, разве что отрицательный рост.

🟣Статья

Читать полностью…

Kali Novskaya

🌸Большая Книга ИИ теперь на Вики🌸
#nlp #про_nlp

На днях Сергей Марков выложил свою книгу "Охота на электроовец: Большая Книга Искусственного Интеллекта" в формате Вики.

Теперь каждую главу можно прочитать (и даже прокомментировать) отдельно, что очень удобно для 1200+ страничного двухтомника.
Это самая полная история всего, что происходило, включая весь 20 век и сильно раньше, а так же всеми любимый генИИ и его предпосылки.

🟣Заглавная страница
🟣Оглавление


Двухтомник можно скачать в pdf, epub и других форматах:
https://markoff.science/

Читать полностью…

Kali Novskaya

🌸Стрим на Рабкоре, 20.00 мск🌸

Давно не было стримов! Возвращаемся, да ещё как — сегодня стрим с Алексеем Сафроновым (Простые числа), будем обсуждать
– Как человечеству эффективно делать долгосрочные инвестиции?
– Новые возможности для аккумуляции информации и расчета плана;
– Можно ли цифровой плановой экономике почерпнуть что-то полезное из американского корпоративного управления – и наоборот?
– Роль государства в аккумуляции информации и управление планом.

🟣 YouTube, начнем в 20.00 по мск:  https://youtube.com/live/YviV4TLqghI?feature=share

Приходите!
Как обычно, можно будет задать вопросы

Читать полностью…

Kali Novskaya

Нам всем нужен пятничный мемотред! #шитпост

Читать полностью…

Kali Novskaya

Отличная статья, а главное, прикладная.
🟣SIGBOVIK 2025 стр 322
https://www.sigbovik.org/2025/proceedings.pdf

#шитпост

Читать полностью…

Kali Novskaya

🌸Летняя школа LxMLS 2025🌸
#nlp #про_nlp

Небольшое объявление для тех, что ещё только начинает свой путь в машинном обучении и NLP: заканчивается подача заявок на обучение в 15-й Лиссабонской школе машинного обучения — LxMLS 2025.

Школа фокусируется на широком спектре тем по ML, от теории до практики, с уклоном в обработку естественного языка.

🟣Кому это подойдёт:
— студенты и аспиранты в области NLP и компьютерной лингвистики;
— начинающие индустриальные специалисты в ML, LLM
(Я сама ездила, будучи студентом, и было очень хорошо!)

• Срок подачи заявок: 28 апреля (осталось 2 дня)
• Уведомление о зачислении: 13 мая
• Летняя школа: с 19 по 25 июля

🟣Особенности LxMLS:

• Глубокие предварительные знания в области ML или NLP не требуются, но предполагается, что участники имеют базовые знания математики и программирования;

• Дни разделены на утренние лекции и послеобеденные лабораторные занятия и не практические доклады;

• Будут и классические методы, и эти ваши трансформеры.

• Лекторы — ведущие исследователи в области машинного обучения и обработки естественного языка.

🟣Список лекторов:

  ADÈLE H. RIBEIRO Philipps-Universität Marburg | Germany
ANDRÉ MARTINS University of Lisbon & Unbabel | Portugal
BEIDI CHEN Carnegie Mellon University | USA
BHIKSHA RAJ Carnegie Mellon University | USA
DESMOND ELLIOTT University Of Copenhagen | Denmark
KYUNGHYUN CHO New York University | USA
LUCAS DIXON Google DeepMind
MÁRIO FIGUEIREDO University of Lisbon | Portugal
MAXIME PEYRARD Computer Science Laboratory of Grenoble | France
NOAH SMITH University of Washington & Allen Institute for Artificial Intelligence | USA
SARA HOOKER Cohere for AI | Canada
SWETA AGRAWAL Google

🟣Сайт летней школы: http://lxmls.it.pt/2025/ 
🟣Заявку подавать здесь: http://tiny.cc/apply-lxmls2025

Читать полностью…

Kali Novskaya

В системной карточке на этот раз только метрики safety, даже ничего нет про capabilities более детально.
Новая экспоненциальная высота взята😉

Читать полностью…

Kali Novskaya

🌸Вкатываемся в FAANG: реальные советы🌸

На прошлой неделе исполнился год, как я менеджер команды в Llama. За этот год мне удалось поработать с удивительно талантливыми людьми, и меня не сократили и не уволили, так что будем считать это успехом. Можете считать меня авторитетом в карьерном вопросе (или нет).

Я уже писала несколько постов про собеседования в FAANG (вот и вот), и хочется продолжить серию постами, а что собственно делать потом.

Сейчас будут софт-скилл советы о том, как вам быстро въехать на коне в новую роль — особенно если вы мидл+.

🌸1:1 и новый нетворк

Постарайтесь вытянуть на кофе и занетворкать с максимальным количеством человек. Сюда входят люди внутри вашей организации на такой же позиции, как у вас, а также техлиды, ключевые люди в принятии решений, которым в организации доверяют, и просто некоторый процент случайной выборки, чтобы лучше познакомиться. С некоторыми из них сделайте встречи регулярными (раз в месяц, раз в 2 недели), чтобы абсорбировать побольше релевантной информации о проектах. Нужно также знать меру в "деловом общении", лучше подходить к 1:1 с некоторым списком подготовленных к обсуждению вопросов, но при этом быть собой, подружиться с теми, с кем получится. Не надо сплетничать или обсуждать других людей на таких встречах.

🌸Побольше старайтесь

Очевидный совет? Напротив, вижу очень много вредных советов по типу "не старайтесь много сразу, а то начальство привыкнет и будет ожидать такого все время". Вы вполне реально соревнуетесь с коллегами в такой же роли как у вас. В компании, где есть калибровки/ stack ranking, всегда лучше, чтобы люди видели, что вы на шаг впереди. Что вам можно поручить что-то ответственное — и вы не проебете, что вы приходите, когда вас приглашают. Что вы подготовились к встрече и пришли с повесткой. Что вы заранее обсудили ключевые вопросы с участниками перед встречей и способны "договорить" между собой команды, техлидов. Все эти вещи не требуют онбординга, вы и так должны их уметь, когда приходите в новую компанию, поэтому их сразу можно начать делать хорошо.

🌸Первые победы

Попробуйте придумать небольшую победу, которую вы одержите на новом месте быстро. В течение первых недель. Победа может быть пофикшенным багом, оптимизацией, удачным экспериментом по наболевшей теме — и в идеале должна соответствовать вашему левелу, дать позитивный сигнал о вашем найме. (Описания левелов/грейдов можно найти в этом блоге).
Если ничего сразу не придумывается, то хотя бы просто проявите инициативу и возьмите на себя таску, проект, который остальные не хотят брать. И обязательно сделайте ее канонично хорошо!

🌸План на 6 месяцев

Желательно вести и заверить с руководством письменный план ожидаемых от вас результатов и как они будут измеряться, а также примерный бейзлайн. Ваша работа, как напрямую, так и косвенно, должна делать работу вашего руководителя проще. Обязательно через первые 3 месяца устройте сессию с разбором предварительных результатов и запросите обратную связь. Вы удивитесь, как много вам расскажут!

🌸Радость быть замеченным

Вы несёте ответственность за вашу visibility, проще говоря, что ваш проект получает достаточно регулярного внимания руководства и смежных команд — имейлами, постами, документами, встречами. Если вы сеньор, то раз полгода у вас может быть 1-1 с руководителем вашего руководителя. Приносите с собой хорошие новости и предложения (согласованные с вашим менеджером).

🌸Уменьшение энтропии

Чем вы сеньорнее, тем больше явных ожиданий, что вы будете уменьшать энтропию на проектах. Это может быть
— инженерная энтропия (как делать), когда вам нужно будет привести к согласию представителей разных команд (команды платформ, инфры, инфосек, тестировщики, продуктовый комитет и тд) — и обеспечивать прозрачность технических решений
— проектная энтропия (что делать), при которой вам нужно будет непосредственно сделать ставку и предложить направление работы, с которым согласятся и дадут ресурсы.
Сделать это сразу сложно, тут лучше первое время в компании наблюдать, как это делают другие.

🟣Все! Остальное — дело техники
Теперь вы сеньор на 100 млн/год

Читать полностью…

Kali Novskaya

🌸Andrej Karpathy репостнул нашу статью про Nanogpt speedrun!

Обожаю этот проект: nanoGPT -> рекурсивный бенчмарк для самосовершенствования. Старый добрый nanoGPT продолжает радовать и удивлять :)

- Сначала я написал его как небольшой репозиторий, чтобы научить людей основам обучения GPT-шек.
- Затем он стал целью и базой для реимплементации C/CUDA в llm.c.
- Затем он был модифицирован (
@kellerjordan0 и др.) в (небольшую) исследовательскую систему для LLM. Люди итеративно оптимизировали обучение, так что, например, воспроизведение производительности GPT-2 (124 МБ) занимает не 45 минут (как было изначально), а всего 3 минуты!
- Теперь идея заключается в том, чтобы использовать этот процесс оптимизации кода в качестве бенчмарка для агентов кодирования LLM. Если люди могут ускорить обучение LLM с 45 до 3 минут, насколько хорошо справятся с этим агенты LLM в различных условиях (например, с подсказками или без них и т. д.)?


И вам отличной пятницы!🥹

🟣https://x.com/karpathy/status/1939709449956126910

Читать полностью…

Kali Novskaya

🌸Стрим на Рабкоре: 20:00 мск🌸

Давно не выходила в эфир -- сегодня небольшой стрим про данные и что с ними происходит.

— ИИ-компании выиграли два очень крупных суда и по текущему решению использование данных из интернета это вполне себе fair use, разбираемся, почему
— Но есть нюанс: как это применять дальше? Разбираем DMCA, правильно первой покупки и добросовестное использование
— Антропик и Александрийская библиотека: в ходе суда над Антропиком выяснилось, что чтобы обойти копирайт, дешевле уничтожать печатные книги
— Вспоминаем Google books: новая роль архивов, библиотек и баз данных книг для открытых технологий
— заморозка регулирования ИИ на десять лет — происходит в США?
— что с делом Internet Archive?

Подключайтесь, как обычно, вопросы можно будет задавать на стриме или в комментариях под этим постом

🟣Youtube: https://youtube.com/live/N-NOJ8NjDBs?feature=share

Читать полностью…

Kali Novskaya

🌸Спидраним NanoGPT агентами: новый бенчмарк🌸
#nlp #про_nlp #nlp_papers

На днях мы с коллегами опубликовали новую статью и бенчмарк для агентов, сделанный на основе NanoGPT speedrun от Карпаты:
The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements

NanoGPT speedrun — это открытый репозиторий, где сообщество соревнуется в оптимизации обучения мини-GPT2 модели. Бейзлайн — llm.c от Карпаты, написанный в рамках туториала на чистой C/CUDA.

У спидрана Карпаты есть публичный лидерборд с историей рекордов, кратким описанием изменений и кодом (сейчас их 21).

Все это делает его идеальным исходником для оценки агентов: смогут ли они воспроизвести и улучшить результаты?

🌸Дизайн бенчмарка:

В бенчмарке две основные группы задач:
🟣воспроизводимость — агенту нужно воспроизвести рекорд R+1, когда рекорд R дается в качестве бейзлайна для итерирования, со всей информацией об основных нововведениях.
🟣оптимизация — агенту нужно улучшить бейзлайн R, но безо всяких подсказок. Основная метрика — нормализованное улучшение рантайма обучения в среднем по всем попыткам.

Scaffold агента ученого реализует цикл экспериментирования, состоящий из нескольких этапов:

Можно использовать агентов с любыми скаффолдами, но в рамках работы мы продемонстрировали результаты на нескольких SOTA-бейзлайнах, включая AIDE и multi-AIDE. У каждого скаффолда есть циклы решений, состояние из
1) Идеации: генерации новых идей для проверки гипотез (в нашем случае идеи предоставляются непосредственно из задачи).
2) Реализация эксперимента: кодирование экспериментов, которые проверяют идеи, полученные на этапе формирования идей.
3) Выполнение эксперимента: запуск кода
4) Анализ результатов: извлечение идей из результатов

🌸Основные итоги:

Мы провели большое количество аблейшенов с разными моделями, чтобы сравнить, как scaffold и разные типы подсказок могут повлиять на качество агента.

Лучше всего показывают себя скаффолд Multi-AIDE, полный набор подсказок из псевдокода и текстового саммари.  В редких случаях, агент достигает 100% или даже 120% от существующего решения, но в большинстве случаев результат сильно ниже.

Все модели, включая топовые, со state-of-the-art scaffold, все равно испытывают трудности при воспроизведении результатов.

И даже больше, пока что существенная разница сохраняется, когда агентам дается максимально полная информация о том, что надо сделать, и псевдокод.  Хорошее качество воспроизводимости — из статей, репозиториев, инструкций — должно быть пререквизитом на пути к надежной и воспроизводимой автоматизации науки агентами.

🟣Статья https://arxiv.org/abs/2506.22419
🟣Бенчмарк https://github.com/facebookresearch/llm-speedrunner

Читать полностью…

Kali Novskaya

🌸Вакансия: PhD по креативности LLM 🌸
#nlp #про_nlp

TL;DR
Открыта позиция PhD-студента в UMass Lowell у Анны Румшиски (Anna Rumshisky) в Text Machine Lab.

Детали:
Позиция PhD-студента с широким спектром тем в LLM: можно будет заниматься разными методами работы с языковыми моделями, от interpretability и prompt-инжиниринга до методов alignment'а, мультимодального тюнинга, low-rank training и PEFT. Основное направление — усиление креативности у LLM.

Глава лаборатории (Text Machine Lab): Prof. Anna Rumshisky, professor of computer science в UMass Lowell, MIT и Amazon AGI; в частности, один из соавторов Amazon Nova и первой статьи по бертологии.

Требования: релевантный бакалавриат + магистратура/специалитет, хорошее понимание линейной алгебры, мат анализа и теории вероятности, базовые знания deep learning и NLP. Публикации (включая воркшопы) приветствуются, но не являются обязательным требованием.

Позиция fully funded: обучение полностью покрывается, также выплачивается стипендия, достаточная для проживания в Массачусетсе.

🟣Для подписчиков этого канала: для подачи отправьте CV и короткое cover letter сюда: https://forms.gle/YYUhLcPtUNdjvJsY7
Дедлайн — 15 июля!

(От себя: чем раньше вы напишете, тем лучше. Я сама когда-то подавалась к Анне, но потом решила в США не ехать и осталась работать в Сбере. Для кавера можно сразу написать свои идеи, но лучше хорошо показать свой релевантный бэкграунд, опыт экспериментов, статьи)

🟣Сайт лаборатории https://text-machine.cs.uml.edu/lab2/
🟣Форма для подачи https://forms.gle/YYUhLcPtUNdjvJsY7

Читать полностью…

Kali Novskaya

Мемотред в честь пятницы и в честь того, что у меня появился Shrurby! (Первое фото) #шитпост

Читать полностью…

Kali Novskaya

Отличный шаг вперед к машиночитаемой науке и автоматизации экспериментов.

Я про это уже писала, в целом https://ai.vixra.org/ супер инициатива, чтобы отделить ИИ-статьи от человеческих пока что.
Если далее их качество будет выше, то отделять статьи, написанные агентами, и не понадобится, зато архиву понадобится API, потому что основными читателями будут уже не люди.

ИИ-статей по теории чисел уже 38, а то лингвистике только одна, хаха! Кого теперь сократят первым?

🟣https://agentrxiv.github.io/
🟣Github -- все под MIT License

Читать полностью…

Kali Novskaya

Нам всем нужен пятничный мемотред #шитпост

Читать полностью…

Kali Novskaya

🌸Лучшая лекция ICLR 2025 🌸
#nlp #про_nlp #nlp_papers

Одной из главных лекций на ICLR в этом году можно смело назвать доклад Тима Роктешела (Tim Rocktaeschel, DeepMind) — Open Endedness, World Models, and the Automation of Innovation. Доклад наконец выложили на ютуб (мне даже не пришлось ее пиратить для вас)

Это очень хороший и своевременный обзорный доклад про новые приоритеты в исследовании ИИ: reinforcement learning, фундаментальные модели, проблемы бенчмарков, агентов и акселерации науки.

🟣Abstract
Погоня за AGI требует перехода от узконаправленной оптимизации целей к принятию концепции Открытой Эволюции (Open-Endedness) — исследовательской парадигмы, внедрённой в области ИИ Стэнли, Леманом и Клуном. Она фокусируется на системах, способных бесконечно генерировать последовательности новых, но обучаемых артефактов. В этом докладе я представлю нашу работу по созданию крупномасштабных фундаментальных моделей мира (foundation world models), которые способны генерировать разнообразные и многогранные среды. Эти среды, в свою очередь, могут использоваться для обучения более универсальных и устойчивых агентов. Кроме того, я утверждаю, что связь между Открытой Эволюцией и Фундаментальными Моделями указывает на возможность автоматизации самого процесса инноваций. Это слияние уже даёт практические результаты: оно позволяет открывать способности моделей к самоулучшению (sef-improvement), автоматизировать prompt engineering и red-teaming, и проведение дискуссий между ИИ-моделями. Всё это предвосхищает будущее, в котором ИИ будет сам двигать свои открытия вперёд.

🟣Лекция со слайдами тут:
https://www.youtube.com/watch?v=ZZC_xqRgcHo&ab_channel=MatijaGrcic

🟣Некоторые упомянутые статьи:
Prompt Breeder
Rainbow teaming
MLE bench
Awesome Open-endedness
METR и поиск экспоненты
Sakana AI AI Scientist

Читать полностью…

Kali Novskaya

Через полчаса начинаем, приходите!

Вопросы можно задать на Ютубе, и в комментариях к этому посту

Читать полностью…

Kali Novskaya

🌸Распутываем клубок нейросетей: подарок от Anthropic🌸

Прекрасная новость — опенсорс от Anthropic!

Авторы работ по интерпретируемости LLM выложили в опенсорс инструменты, чтобы работать со всеми открытыми весами и отслеживать "мыслительный процесс" вовремя генерации.
Теперь сообщество может применять метод для всех открытых систем.
Подход заключается в создании графов атрибуции, которые показывают, какие внутренние шаги предприняла модель для принятия конкретного решения. Библиотека позволяет
🟣найти "логическую цепочку" принятия решения. То есть показывает, какие части модели влияют друг на друга и на итоговый ответ. Например, как конкретное слово, фраза или кусочек кода на входе влияет на результат через внутренние признаки модели.
🟣нарисовать наглядную схему (граф) этой цепочки. Её можно смотреть, исследовать и подписывать важные элементы.
🟣вмешиваться в работу модели. Вы можете вручную изменить внутренние признаки модели и посмотреть, как это повлияет на её ответ.
🟣менять данные, переучивать модель и сравнивать результаты — улучшать стабильность, фактологичность, непредвзятость ответов.

🌸К чему это можно применить?

К очень многому:
— к лучшему отслеживанию логики модели в цепочке рассуждений и ризонинге
— контролю inference time training, улучшенному планированию и дообучению моделей, в том числе и для агентов
— повышению безопасности работы моделей с джейлбрейками и опасными примерами
— логике работы LLM с разными языками, логикой машинного перевода и мультиязычного ризонинга
— повышению качества в сложных out of domain областях: медицине, юриспруденции, поэзии.

Можно посмотреть, как это работает, на примере Gemma-2-2b и Llama-3.2-1b
Ноутбук
Лицензия на все — MIT!

🟣Веб-интерфейс
🟣Блогпост 
🟣Github
🟣Статья про интерпретируемость - On the Biology of a Large Language Model

Читать полностью…

Kali Novskaya

С момента последнего поста тут я успела поездить в 3 страны и 4 города, отправить 3 статьи, отрецензировать ещё дюжину, поругаться насчёт британских виз, и даже поиграть в новый oblivion. С этой недели начнется постинг как обычно.

Вот вам я в Кембридже, выступала на women in computer science.
Привет!

Читать полностью…

Kali Novskaya

🌸LLamaCon: API, голосовой режим и другие новости 🌸

Сегодня LLamacon — конференция для сообщества разработчиков LLama и индустриальных партнеров. Было много маленьких новостей, как B2B, так и B2C:

🟣API: теперь у моделей семейства LLama будет свое официальное API! Бесплатный бета-режим стартует сегодня, можно подавать заявку на тестирование (вот тут). Из основных фишек — по API можно будет не только вызывать большой ряд моделей, но и файнтюнить их — и затем скачать себе локально веса. Также есть специальные удобные пайплайны для генерации данных и оценки чекпоинтов.

🟣Meta AI App: помимо API, теперь с Лламой можно поговорить в отдельном приложении, где есть голосовой режим — и большой выбор голосов. Поддерживает пока английский, но синтез речи на уровне, и вы можете выбрать из большого списка голосов, как вам будет отвечать Llama.  iOS и Android.

🟣Гранты LLama Impact: дали 10 лабораториям и стартапам гранты по $1.5M на развитие. Программа ежегодная, можно подавать заявку для своего стартапа или лаборатории.

🟣AI Safety: анонсировали несколько новых тулзов, в частности, для работы с аудио — детектция ИИ-голосов и детектор вотермарок в аудио.

Читать полностью…

Kali Novskaya

🌸Диалог 2025🌸
#nlp #про_nlp #nlp_papers

Небольшой пинг для подписчиков: сегодня началась конференция "Диалог", где ежегодно лингвистика и компьютерные методы объединяются, чтобы создать кросс-дисциплинарное пространство для русского языка, обсуждений и коллаборации в компьютерной лингвистике, NLP, корпусной лингвистике, психолингвистике, стилометрии и многих других дисциплинах.

Доклады идут сегодня, завтра и послезавтра.

🟣Послушать доклады можно тут: zoom (прямо сейчас начнется корпусная секция)
🟣Расписание:  https://dialogue-conf.org/program-2025/

Читать полностью…
Subscribe to a channel