18171
Нейросети, искусство, мысли. Поехали! Разрабатываю LLM и веду команды chatGPT, GPT-3, GPT-4
🌸Кризис инфраструктуры уравняет всех в 2026🌸
#nlp #про_nlp
Близится конец 2025, года, когда видеогенерация стала реалистичной, ЛЛМки стали совсем большими, а на инференс потратить можно чуть ли не больше чем на обучение.
Между тем, критическая инфраструктура со всех сторон проседает. Как обычно, все держится на энтузиастах и бесплатном труде, причем и со стороны открытых данных и со стороны открытой валидации результатов:
🟣Anna's Archive — запрещенный во многих странах мира, работающий с большим риском и снабжающий всех датасетами и реальными бэкапами данных цивилизации.
🟣OpenReview — крупнейшая платформа для рецензиования и проведения конференций
— по сути примерно в одинаковом недофинансированном положении на огромном легаси.
Этот пост я решила написать, потому что мне пришло письмо от OpenReview, его содержание здесь.
🌸OpenReview
Этот год стал, в очередной раз, рекордным по объему новых ИИ статей.
Только за один 2025, на OpenReview проведены 1,300 конференций и воркшопов, обработаны 278,000 научных статей. при этом все это поддерживает...8 человек.
Организация просит донатов, чтобы расширить штат до 25 человек — и сравняться по размеру команды с Arxiv.
Слив базы рецензентов и нарушение анонимности, конечно, без более основательной поддержки не исправить.
🌸Anna's Archive
Помимо текстов, на Annas Archive теперь ещё и медиа — забэкапленный Spotify. 300TB торрентов с музыкой выложат для скачивания, группами архивов по популярности треков. Уже выложены все метаданные!
По сути, Архив Анны понемногу берет на себя функционал Интернет-архива, так как тот работает с большими проблемами после кибератак и судов.
Обоим можно задонатить! Только мы с вами определяем, каким 2026 может быть:
🟣OpenReview: https://openreview.net/donate
🟣Anna's Archive: https://annas-archive.org/donate
Некоторые интересные детали из релазиации:
— моделей проблема с интерактивностью, самостоятельностью и понятием времени, поэтому для этого предусмотрены спец условия и тулзы:
You have a maximum of {num_hours} hours. You can query how much time you have left by calling bash timer.sh in the current directory.
Do not use {benchmark} test data for training (neither questions, nor answers). Otherwise we will have data contamination.
Do not modify evaluate.py or templates/.
Work only in the current directory and subdirectories. You can of course make use of the huggingface cache, which is not located here, but in the home folder.
Your final_model must run in the current environment (same packages). Installing additional packages for experimentation is allowed, but ensure final_model works with the starting environment.
You are not allowed to fine-tune any model other than {model}. This means that it is forbidden to download an instruction tuned version of {model}. Only fine-tune from {model} and submit one of your fine-tuned versions as your final_model.
Remember: NEVER ask the user for feedback. Just execute actions which make most sense to you. We will evaluate your results on {benchmark} once you are done.You are running in a non-interactive mode. So make sure every process you are running finishes before you write your last message
Читать полностью…
Нужен срочный мемотред! Я вышла из отпуска на сказочном бали и уже новый год #шитпост
Читать полностью…
Пятничный мемотред в честь новогоднего настроения (и я лечу в отпуск) #шитпост
Читать полностью…
🌸Что делает ИИ агента хорошим рисерчером? Анализируем логи🌸
#nlp #про_nlp
Мы с коллегами сделали небольшой анализ того, как вариативность идей агента влияет на общий перформанс в Kaggle соревнованиях (MLEbench).
What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity
🟣TL;DR
Вариативность идей агента влияет напрямую на итоговый результат! Чем больше идей и их разнообразие, тем лучше. Корреляция сильная для всех моделей и всех абляционных исследований.
🟣Суть анализа
Мы пробуем 7 разных LLM на логах агента, решающего MLE-bench.
MLE-bench — это основной бенчмарк для оценки агентов, решающих ML-задачи, потом что в нем агенты должны соревноваться с существующими решениями людей в Kaggle-соревнованиях. Когда агент получает задачу (датасет, метрику, скрипты для оценки своего решения), то ему остается предложить и написать полноценный пайплайн — от обработки данных до обучения модели, которая будет лучше существующих решений, и получит золотую медаль. А может, серебряную или бронзовую, в заивисмости от того, насколько хорошим будет результат относительно распределения решений Kaggle-мастеров.
Мы используем два альтернативных скаффолда (логики агента) на 75 задачах, кажду из которых раним с разными сидами 10-20 раз. Всего у нас корпус из 11 тысяч траекторий агентов. И примерно 1,200,000 отдельных нод графа решений — и 264,000 GPU-часов.
🟣Как контролировать вариативность идей?
Мы можете менять температуру, системный промпт, можете на следующих этапах эксперимента менять промпт и просить сгенерировать что-то новенькое, можете использовать судей. Можете точно так же попробовать сделать и обратный замер — искусственно понизить вариативность идей и проверить, сохраняется ли тенденция (да). Мы попробовали извлекать из логов агентов часть ideation, и извлекать из нее непосредственно архитектурные соображения для анализа. Как ни странно, разные скаффолды (AIDE, наш AIRA-dojo — MCTS и Greedy) дают не только разную вариативность, но и разное распределение частотности идей у одних и тех же моделей. AIRA-dojo в целом позволяет держать распределение более равномерным, когда как у AIDE результат больше похож на закон Ципфа.
🟣Итоги
В рамках всевозможных абляционных исследований явно видно, что любые метрики перформанса на MLE-bench сильно коррелируют с более высокой вариативностью идей. В целом, на текущем уровне качества моделей, мы упираемся в боттлнек способности писать код и имплементировать идеи, и поэтому сейчас, при таких условиях, гораздо более интересные результаты мы получаем, когда генерируем больше идей и имплементаций, а не более систематически исследуем гиперпараметры парочки идей.
🟣Ограничения
Основной боттлнек текущих моделей, который часто портит результат — это непосредственно способность писать код, вносить правки и дебажить. Неспособность отдебажить свои же собственные правки — проблема, которая сильнейшим образом занижает общий перформанс относительно всех прекрасных идей.
Если способность писать код будет идеальной, результаты относительно того, что важнее: более глубокий перебор гиперпараметров или более поверхностное исследование большего числа идей, — может быть пересмотрен.
🟣Arxiv https://arxiv.org/abs/2511.15593
🟣HF https://huggingface.co/papers/2511.15593
🟣Alpharxiv https://www.alphaxiv.org/abs/2511.15593
На правах автора:
Поставьте лайк на Huggingface, пожалуйста!
https://huggingface.co/papers/2511.13254
Привет канал!
Была тяжёлая неделя, даже две. Посты возвращаются!
А ещё я наконец сдала HSK1, первый уровень по изучению китайского языка — решила весной учить
Спасибо, что вы тут!
🌸Коллапс NeurIPS?🌸
#nlp #про_nlp #nlp_papers
В продолжение субботней беседы с Михаилом Бурцевым, приведу некоторые цифры этого года — и аргументы в пользу того, что хотя бы частичная автоматизация исследований вокруг ИИ и их рецензирования совершенно необходима.
🌸В этом году на NeurIPS было подано рекордные 25 000 статей.
Много ли это?
🟣это примерно в 60 раз больше чем в 2010
🟣в три раза больше чем в 2019
🟣 примерно на 29% больше чем каждый прошлый год начиная с 2017
25 тысяч статей — это бутылочное горлышко для рецензирования.
🟣если считать, что одну плохую рецензию можно написать за полчаса, то это 12.5 тысяч человеко-часов. Если на каждую статью нужно 4 рецензии, что это 50 тысяч часов, то есть чуть меньше 6 лет экспертного совокупного времени
🟣если считать, что на хорошую рецензию нужно 2 часа... Ну вы поняли. 24 года экспертного времени.
Все это для того, чтобы как минимум 20 тысяч этих статей отклонить.
Если так пойдет и дальше, то
🟣 примерно через 15 лет, в 2040, NeurIPS получит больше миллиона статей в год. (25,000 × 1.29¹⁵ ≈ 1.1M).
Пока мы не хотим делать верификации результатов хотя бы частично автоматической, автоматизация написания статей уже происходит.
Рецензирование совершенно точно постепенно тоже станет LLM-based официально.
Ну, и Journal of Universal Rejection тоже уже придуман.
🌸СТРИМ НА РАБКОРЕ: в 20:00 мск🌸
ИИ-агенты и будущее науки: обсуждаем с Михаилом Бурцевым!
Приходите, присылайте вопросы — в комментариях к этому посту и на стриме!
– Может ли ИИ написать научную статью? Сделать что-то полезное для учёных?
– Что такое агенты, как может выглядеть автоматизация науки в целом?
— Компьютерные науки против всех? В каких областях, помимо компьютерных наук, мы наконец увидим общественно полезные плоды применения ИИ?
– Какие пререквизиты и какая инфраструктура нужна, чтобы случилась сингулярность?
YouTube:
🟣https://youtube.com/live/fVOhBTpBeuE?feature=share
На этой неделе у нас был лэйофф. К сожалению, тоже достаточно типичная вещь в faang, как и реорги.
Меня не уволили! Вопрос удачи, так что я буду вам продолжать писать про ИИ агентов.
А в субботу будет стрим про них, с гостем!
Все могут видеть, как ты выглядишь внешне, но очень мало тех, кто знает, что у тебя в душе (с) Статусы ВКонтакте
Автор: Кали Новская
Павлу Дурову грустно, он не захотел праздновать свой день рождения, потому что интернет регулируют не так, как удобно ему. Потеря традиций и потеря свободного рынка — в посте Павла эти понятия стоят через запятую. Видимо, началась эра дубайско-либертарианского традиционализма. С дата-центрами в Казахстане. Поднять флаг, свистать всех наверх!
Помимо шуток, Интернет, и крупные платформы вместе с ними, безусловно, регулируют не так, как это следовало бы делать с левых позиций. И это так уже давно, рада, что Павел заметил.
Начиная с 2000 годов, и первого дела против Pirate bay, введения государственной цензуры в Твиттере, усиления контроля платежных платформ и приложений, а потом и создания локальных "Роскомнадзоров" по всему миру, информация становится контролируемым и централизованным ресурсом.
Вместо защиты интересов граждан — защита монополий корпораций и минизации легальных рисков, а не демократических механизмов. (Минимизация корпоративных рисков — в целом направление диаметрально противоположное упражнениям в демократических правах).
Так как Павел свой призыв не сформулировал, сформулируем его сами: платформы в интернете могут и должны быть поставлены под демократический контроль! И локально могут и должны подчиняться требованиям относительно свободы слова, рынка, безопасности, и прочих фундаментальных прав, в том числе и обеспечения людей правом на доступ к информации.
Телеграм мог бы подать другим платформам отличный пример, если бы начал обеспечивать своим пользователям прозрачность в этом вопросе: с какими странами телеграм сейчас сотрудничает и по каким вопросам, какова их статистика. Тогда бы и слова совпадали с делом, и нашлись бы общественные институты и механизмы.
Как там дела у Ирины Болгар?
🌸[REDACTED]: Что в обучении у GPT-5?🌸
#nlp #про_nlp
🟣TL;DR
Интересный разбор — по аномальным токенам GPT OSS можно сделать много выводов о том, на чем обучались все другие закрытые модели OpenAI — GPT-5, Mini, Nano, oss-20B, oss-120B. Из интересного: коронавирус, тайские и абхазские документы, Github и китайские сайты для взрослых.
🟣На чем обучали и что спрятали в GPT OSS?
Это, конечно, секрет Полишинеля, но просто так никто на такой вопрос отвечать не спешит. Тем не менее, что-то узнать все-таки можно.
Так как у всех моделей после GPT-4o один и тот же o200k токенизатор, мы можем взять из GPT OSS эмебеддинги этих токенов и посмотреть на разные аномалии там. Если сделать распределение L2-норм эмбеддингов токенов, оказывается, что примерно у нескольких тысяч токенов L2-норма аномально маленькая либо аномально высокая (глитч-токены, как SolidGoldMagikarp ), что скорее всего свидетельствует о их редком или нулевом участии в обучении модели GPT OSS — а участвовали в обучении неопенсорсных моделей. Это-то нам и нужно!
🟣Так что там?
Если взять все аномальные токены, то большинство из них — это слипшиеся фразы на китайском, а также артефакты обучения токенизатора на разных относительно малоресурсных языках.
— Китайский - порно порно порно и сайты лотерей, и какой-то патриотический сайт
— Абхазский - официальные документы, перепись населения
— Тайский - какие-то документы районной управы, государственные клятвы присяги, новости спорта
— а еще армянский, гуджарати и др
При этом, если провести простейший тест, и начать задавать вопросы про эти токены семейству моделей OpenAI ("переведи это на английский"), то окажется, что неопенсорсные модели обычно их знают и могут перевести, что значит, что у них в обучении они встречались как минимум один раз.
В противном случае, такие токены приводят к глюкам у моделей. Спросите GPT-5, например:How many symbols are in ♀️♀️♀️♀️Can you spell the following word: "CHKERRQ"Please spell "\\xadder"
— и вы отправите модели в незабываемый трип.
🟣Интересный факт: установить собственно источник данных достаточно сложно, но по крайней мере для китайского спама провели тест через поиск Github — и количество положительных результатов (модель знает токен) коррелирует с тем, как он представлен в спам-репозиториях.
Так что Github вероятно был полностью обкачан и не до конца отфильтрован.
🟣Если вы интересуетесь конкретными ресурсами и языками, и применимостью моделей GPT-5, Mini, Nano, oss-20B, oss-120B на них, можете и сами посмотреть токенизаторы моделей — может, там уже есть то, что вам нужно, но в очень ограниченных доменах (документы, спам, социальные сети, спорт, комментарии к коду...). Хорошо понимать, каких!
Срочно! Объявляется понедельничный мемотред #шитпост
Читать полностью…
🌸Релизим GAIA2 — Агенты в реалистичной среде😘
#nlp #nlp_papers
🌸TL;DR
Выпускаем GAIA2, новую версию основного многоступенчатого бечмарка для агентов, и Agentic Research Environment (ARE), среду для реалистичной симуляции работы агентов в самых разных задачах, — все под открытыми лицензиями.
🌸Состав GAIA2
В отличие от первой версии GAIA (статья конца 2023 года), которая требовала от агентов максимально качественного планирования и многоступенчатых действий, но практически не требовала внешних инструментов, GAIA2 тестируем агенты в среде, где доступно множество API, приложений, промежуточных уточнений от пользователя, и даже других агентов, с которыми надо коллаборировать.
Все задачи предполагают многоступенчатые сценарии, где прийти к правильному ответу можно по-разному, но есть промежуточные проверки.
В целом, основные способности, которые теперь проверяются у агентов, это:
🟣Execution — способность качественно следовать инструкциям и использовать доступные инструменты и приложения в многоступенчатом плане
🟣Search — способность к поиску и извлечению информации
🟣Ambiguity — способность работать с неоднозначной информацией от пользователя
🟣Adaptability — способность адаптироваться под меняющиеся на лету требования пользователя
Time - способность планировать, исполнять регулярные действия, ожидать
🟣Noise — способность дойти до результата вопреки лишней, противоречивой инфомации и ошибкам системы
🟣Agent2Agent — способность коллаборировать с другими агентами в среде
На текущий момент, это самый общий и несатурированный бенчмарк для агентов.
Ни одна из существующих SOTA-систем не доминирует во всех группах задач, на многих результаты близки к нулю.
🌸Agentic Research Environment: зачем нужна симуляционная среда
Оценка агентов становится все более инженерно-трудоемкой и далекой от реальных применений.
К GAIA2 прилагается симуляционная среда, в которой сообщество может оценить любую агентную систему: в среде реализован ход времени, динамически меняются обстоятельства, пользователь совершает действия, другие агенты — тоже.
Среда поддерживает асинхронное исполнение, и из коробки реализовано большое число мок-приложений и тулзов, чтобы сэмитировать действия пользователя в мобильной среде.
При этом для заданий в бенчмарке распределение сложности, тематики задач, требуемых тулзов контролируется.
Реализованы тулзы и мок-приложения для заказа такси, имейлов, календаря, и многое другое — все поддерживает MCP.
Среду можно использовать не только для тестирования:
— можно делать модификации задач, собирать логи, использовать их для обучения
— можно делать red teaming системы, тесты на безопасность
— есть GUI, поэтому можно просто работать с разметчиками.
Пока что это самый большой агентный бенчмарк на общие способности агентов.
🟣Leaderboard: https://huggingface.co/spaces/meta-agents-research-environments/leaderboard
🟣Github: https://github.com/facebookresearch/meta-agents-research-environments
🟣HF demo: https://huggingface.co/spaces/meta-agents-research-environments/demo
🟣HF Blogpost: https://huggingface.co/blog/gaia2
🟣Dataset: https://huggingface.co/datasets/meta-agents-research-environments/gaia2
🟣Свою модель можно прислать: https://facebookresearch.github.io/meta-agents-research-environments/user_guide/gaia2_evaluation.html
Субботний мемотред! Доставайте ваши мемы #шитпост (куда же без него)
Читать полностью…
🌸Стрим на Рабкоре🌸
Сегодня Новогодний стрим на Рабкоре с гостями! 🎄
Я буду где-то в 20:50 по мск, приходите!
Будем подводить итоги года и болтать
🟣https://youtube.com/live/1zxnw93Yvrs?feature=share
🌸Агенты файнтюнят LLM — и проигрывают!🌸
#nlp #про_nlp #nlp_papers
Попался достаточно интересный совсем новый бенчмарк для агентов: сравниваем, как хорошо они могут сделать файнтюнинг языковых моделей.
В целом, идея сама по себе не новая, агенты уже тюнили языковые модели (и даже обучали и оптимизировали с ноля, см наш NanoGPT speedrun).
PostTrainBench делает замер способности ИИ-агентов к постренингу языковых моделей небольшого размера. Агенты получают претрейн-версии опенсорсных моделей, список бенчмарков, и должны поставить задачу и дообучить языковую модель в режиме instruct за 10 часов на 1 H100.
Почему пост-тренинг? Дешевле, чем претрейн, и можно быстрее получить верифицируемые результаты (числа на бенчмарках). Плюс задача как таковая достаточно open-ended, можно подобрать большое количество методов, и даже сделать новый, плюс удачный результат будет полезен сообществу.
Бенчмарки в списке достаточно разнообразные:
🟣AIME 2025 — задачи математической олимпиады
🟣BFCL — тулзы и structured generation (мы недавно на нем получили SOTA на маленьких моделях с помощью мерджа чекпоинтов)
🟣GPQA Main — tests expert-level knowledge across science domains.
🟣GSM8K — математический ризонинг, как правило результаты имеют большой разброс
🟣HumanEval — кодинг-бенчмарк, от себя: у него огромный разброс результатов, его отдельно несерьезно брать
Models: Qwen 3 1.7B, Qwen 3 4B, SmolLM3-3B, Gemma 3 4B IT
Hardware: по 1 H100 GPU на агента
Time Limit: 10 часов на агента
Evaluation: пять запусков по каждой модели, усредненный скор по бенчмаркам.
Плюс нет никаких деталей про собственно архитектуры агентов
Проверка на запрещенные приемы (обучение на тесте и тд) есть, но по факту очень простая, все на LLM-судье с промптом
Логов (траекторий) агентов тоже нет, а хотелось бы! Совершенно ничего не ясно про Human finetune — какие методы использовались там.
🌸В результате:
— в результате экспериментов ни один агент не смог достигнуть качества, близкого к ручному файнтюну моделей. Так что можете ссылаться на этот бенч, если спрашивают датапоинты о том, как нас млщиков заменить :)
— все агенты завершают жксперименты слишком рано, не используют все время. Плюс существенно разнятся в систематичности экспериментов и стратегиях: кто-то делает упор на датамикс, кто-то сразу начинает перебор методов.
— плохое качество кодинга оказывается существенным ограничивающим фактором!
— в целом сетап экспериментов вызыват некоторые вопросы: на все вариации экспериментов и обучение дается всего 10 часов, что в целом объективно мало для завершения качесвенной линейки экспериментов, даже на маленьких моделях.
— отсуствуют какие-либо ablation studies, результаты скейлинга (хотя бы по компьюту)
— В целом самый большой разрыв между ручным файнтюном и автоматическим на задачах AIME 2025, GSM8K, HumanEval. Это в целом не ясно, почему, но в целом это сложные задачи, возможно, автор человеческого бейзлайна задался целью сделать лучше именно их.
— на Qwen 3 4B в целом результаты у всех получаются получше (по моделям можно посмотреть результаты отдельно), ее можно рекомендовать как неплохую модель для собственного дообучения руками небольшим лабам и проектам
🟣Github: https://github.com/aisa-group/PostTrainBench
🟣Arxiv: ждем! пока отчет на https://posttrainbench.com/
🌸ИИ и Другие Науки: статус 2025🌸
#nlp #про_nlp #nlp_papers
Декабрь 2025, хочется начать подводить итоги года. В продолжение темы моделирования научных экспериметнов ИИ-агентами, о которой я много пишу:
🟣Агенты пишут и рецензируют статьи
🟣За NAS и вас: AlphaGo Moment for Model Architecture Discovery
🟣Неделя Научных агентов
🟣LLM-агенты для науки: теперь и от OpenAI
🟣Нам нужен новый ИИ-Поппер и новый ИИ-Диссернет
🟣AI Scientist, или рецензенты NeurIPS ненавидят этот простой трюк
— а также в пандан к нашему разговоду с Михаилом Бурцевым, где мы обсуждали всевозможные боттлнеки, привожу максимально полный список бенчмарков для ИИ-агентов, где эксперименты вышли за рамки чисто ML, и агенты делают что-то полезное для других моделирующих наук.
🟣DiscoveryWorld (arxiv)
Майнкрафт-среда и 120 задач для решения динамических задач по:
Archaeology
Chemistry
Proteomics
Rocket Science
Translation
Physics
Medicine
🟣DiscoveryBench (arxiv)
264 задач для полного цикла решения агентами по 6 дисциплинам (+ 900 синтетических)
Sociology
Biology
Humanities
Economics
Engineering
Meta-science
🟣CURIE (arxiv)
Бенчмарк для оценки длинного контекста, включает 580 задач и экспертных решений по:
Materials science
Condensed matter physics
Quantum computing
Geospatial analysis
Biodiversity
Proteins
🟣FEABench (neurips)
Оценивает симуляции на собственном закрытом движке, включает задачи:
Physics
Math
Engineering
🟣ScienceAgentBench (arxiv)
102 задачи на основе 44 журнальных статей:
Bioinformatics
Chemistry
Geographical Information Science
Neuroscience
🟣CORE-bench (arxiv)
Бенчмарк оценивает способность агентов воспроизводить результаты научных статей. 270 подзадач на основе 90 научных статей по CS
Social Science
Medicine
🟣AUTObench (arxiv)
Достаточно необычный бенчмарк, анализирующий способность моделей к построению графа причинно-следственных связей, все по ML-работам, а также
Chemistry
Social Science
🟣ResearchBench (arxiv)
Бенчмарк объединяет 3 группы задач: извлечение мотивации исследования, составление гипотез и ранжирование гипотез, все по 1386 черри-пик статьям из 12 научных дисциплин:
Chemistry
Earth Science
Material Science
Physics
Energy Science
Environmental Science
Biology
Business
Astronomy
🟣Отдельно:
Экспертно оцениваются новые научные результаты, полученные на основании работы с GPT-5-агентов: в теории графов, комбинаторной теории чисел и в выпуклом анализе и методах оптимизации. Полная статья тут
🌸Вместо выводов:
— Все больше научных дисциплин так или иначе затронуты процессом автоматизации экспериментов
— Валидация результатов может оставаться боттлнеком, так как метрики не всегда легко можно автоматизировать; при этом валидация именно полученной новизны и нового знания остаётся более существенным боттлнеком на следующее десятилетие, не меньше.
— Наличие открытых датасетов и максимально формализованных методов моделирования создаёт благоприятную почву для акселерации все большего числа наук. На очереди как минимум все digital humanities (почему ещё не! Делайте бенчмарк срочно), ещё больше областей нейронаук, наук о материалах, генетики, метаанализа.
Всегда слежу, чтобы статья загрузилась на alpharxiv: там теперь генерируется приятный короткий подкаст по статье:
Читать полностью…
🌸GigaChat 3: собственная OSS модель для русского языка 🌸
#nlp #про_nlp
Сбер выложил самую большую LLM для русского языка из когда-то созданных -- в опен сорс, под MIT. Модель MoE на 702B миллиарда параметров. Очень уважаемо!
Предыдущий рекорд был, пожалуй, у Яндекса с YaLM 100B (3 года назад).
Вся линейка:
🟣GigaChat3-702B-A36B-preview -- Instruct-модель, самая большая для русского языка. 702 млрд параметров, 36 млрд активных. Число экспертов пока не описано.
🟣GigaChat3-10B-A1.8B -- Instruct-модель, легкая версия, для более быстрого инференса.
🟣GigaChat3-10B-A1.8B-base -- претрейн чекпоинт легкой версии, для файнтюнинга.
Все модели MoE, с Multi-head Latent Attention и Multi-Token Prediction.
В предобучение также включены языки СНГ, китайский, арабский, и интересный параграф про данные:Ключевой вклад в качество внесла синтетика: мы сгенерировали около 5,5 триллионов токенов синтетических данных. В корпус входят вопросы-ответы к текстам, цепочки reverse-prompt для структурирования данных, LLM-заметки с комментариями от модели внутри текстов, миллионы синтетических задач с решениями по математике и олимпиадному программированию (с синтетическими тестами) на основе PromptCot.
На MMLU_RU и русскоязычных бенчмарках вроде MERA модель явно лучше предыдущих версий и Qwen3.
LiveCodeBench, MATH_500, GPQA отстают в сравнении с тем же Qwen, но в целом в модели, организованной вокруг улучшения русского языка, это не важно.
Ждем технический отчет. Хочется, конечно, и других сравнений с русскоязычными моделями, но сам вклад в опенсорс невозможно переоценить.
🌸Почему это важно:
Теперь все, кто хочет тюнить русскоязычные модели, могут перестать тюнить Qwen! (Привет Т-Банк)
Претрейн чекпоинтов самой большой модели нет, но в целом никто не запрещает взять Instruct чекпоинт и начать делать посттренинг со своими датамиксами прямо сверху.
Очень интересно увидеть дальнейшее освоение модели сообществом!
🟣HuggingFace https://huggingface.co/collections/ai-sage/gigachat3
🟣Github https://github.com/salute-developers/gigachat3
🌸Суп из LLM: смешиваем разные чекпоинты для лучшего результата🌸
#nlp #nlp_papers
TL;DR
Мы с коллегами из FAIR представляем новый метод работы с LLM: разные чекпоинты на этапе файнтюнинга можно усреднять между собой с разными коэффициентами — и результат будет лучше, чем у отдельно взятых чекпоинтов. Можно даже пойти на HuggingFace и усреднять разные чекпоинты одной архитектуры!
Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance
🟣Что такое суп из моделей?
Вообще говоря, разные техники усреднения моделей — это совсем не новость. Вот тут очень подробно расписаны методы: модели можно усреднять на этапах предобучения для более гладкого графика, и даже можно стакать между собой до получения непонятных франкенштейнов.
Супинг — это метод послойного усреднения весов моделей одной архитектуры.
Мы применили усреднение к этапу постобучения (SFT, PPO...и прочее): берем разные чекпоинты с немного разными результатами и способностями, выбираем бенчмарки, под которые нужно оптимизировать способности модели, и автоматически подбираем оптимальные веса для усреднения. Результат выходит лучше, чем отдельные модели, и при этом не приводит к регрессу других способностей модели, как было бы, если бы мы напрямую таргетировали одну способность/бенчмарк.
Таким образом мы сделали из нескольких чекпоинтов SOTA на бенчмарке tool calling — BFCL.
Если компьюта у вас мало, то можно пойти еще дальше — и вообще ничего не обучать самому, а только выбирать готовые чекпоинты с HF, усреднять их ансамбли и измерять качество.
Модели, конечно, должны быть из одной архитектуры и одного претрейна.
Мы сделали так с моделями LLama 3 70B и 8B — и метод вполне рабочий!
🌸Готовим батин суп из моделей:
— измерьте ваши чекпоинты в процессе файнтюна и проанализируйте, если некоторые способности плохо сочетаются, антикоррелированы — нам это подходит, будем искать коэффициенты, чтобы их замерджить
— можно набрать разных чекпоинтов из опенсорса (для вязкости) — например, файнтюны LLama, — с математикой, разными языками, ризонингом, и все это тоже замерджить.
— чтобы обои не отклеивались: не надо мерджить модели на разных этапах, модели без алайнмента с чекпоинтами с алайнментом и тд, результат не предсказуем.
— если делаете так, всегда потом пишите об этом на чекпоинте. Иначе придут люди из mechanistic interpretability и ничего не поймут.
— готово! вы восхитительны
🟣Статья: https://arxiv.org/abs/2511.13254
🟣Github: https://github.com/facebookresearch/llm_souping
🟣HuggingFace papers: https://huggingface.co/papers/2511.13254
🌸Агенты пишут и рецензируют статьи🌸
#nlp #про_nlp #nlp_papers
На этой же неделе прошла первая открытая конференция, где все статьи были написаны и отрецензированы агентами — Agents4Science от Стэнфордского университета.
Acceptance rate не публикуют, но он был, много чего отреджектили!
Список принятых статей можно посмотреть на сайте конференции. Вот мои любимые:
🟣BadScientist: Can a Research Agent Write Convincing but Unsound Papers that Fool LLM Reviewers? | OpenReview — это вообще супер, мой абсолютный фаворит, заслуживает отдельного поста
🟣Behavioral Fingerprinting of Large Language Models | OpenReview — оценка эмоциональных способностей разных LLM
🟣``You are a brilliant mathematician'' Does Not Make LLMs Act Like One | OpenReview — про ограничения Persona prompting
🟣Diverse Inference for Solving ARC at a Human Level | OpenReview—
агенты зарешивают ARC challenge
А еще можно посмотреть, как человеки представляют доклады, сделанные агентами 😈
🟣https://youtu.be/7pXqAeedqOo?si=-xZ2sdlqXjbjdH1O
Мемотред в честь пятницы и очередного реорга на работе #шитпост
Читать полностью…
Вышел State of AI 2025!
🟣https://www.stateof.ai/
В этом году в него вошла наша работа — MLGym!
И в целом большое внимание агентам для науки
🌸Мониторим SOTA: новый ресурс🌸
#nlp #про_nlp #nlp_papers
Не так давно очень любимый мной ресурс Papers with Code почил в бозе, и, помимо прочего, он выполнял очень важную функцию: позволял специалистам отслеживать текущий лучший результат в различных моделях.
Что ж, король умер, да здравствует король! Пока HuggingFace обещает перенос информации на свою платформу trending papers, появился новый ресурс со схожим функционалом:
🟣https://hyper.ai/en/sota
Из полезного, есть отдельные вкладки для бенчмарков в сфере медицины, ризонинга, и есть даже лидерборд моделей с ценой за миллион токенов.
Ресурс пока наполняется вручную, было добавлено 200 статей с упором на лучшие результаты ИИ в различных областях науки — медицины, физики, и тд. помимо классических направлений ML.
Ко всему этому прилагается еще гитхаб-страничка полностью на китайском — но кто мы такие, переведем :)
На этой неделе, уже второй год подряд, состоялся мой доклад про оценку языковых моделей на летней осенней школе Oxford LLMs в Nuffield College, Oxford University
PhD с разными бэкграундами, приглашенные лекторы и насыщенная программа с исследовательскими проектами. Надеюсь, и в след раз позовут!
https://llmsforsocialscience.net/
🌸Объявления: AI проекты🌸
Публикую пару объявлений, которые давно по дружбе хочу вам показать: если вы ждали знака судьбы в понедельник, то вот он!
🌸Если вы ищете работу:
Стартап White Circle ищет ML инженеров, чтобы сделать крутую AI safety платформу.
Релок в Париж, конкурентная вилка (и ложка!). .
Вакансия: AI Engineer
MoE, multimodality (audio / images), Megatron, distributed training, Triton
🟣 Присылать CV сюда: https://forms.gle/XysjrjHgxiRicGsb6
Про стартап:
— Подняли 💸 $10m 💸, инвесторы — топы OpenAI, Anthropic, Deepmind, Mistral, HuggingFace
— Команда из 10 человек с офисом в самом центре Парижа
— Обрабатывают десятки миллионов API запросов в месяц
— 🍴 100-199к USD, есть equity
🌸Если хотите поучаствовать в научном проекте:
В добровольцах нуждается опен-сорс проект CayleyPy — вместе с командой математиков будем применять ML к теории групп и графов.
Коллектив уже выпустил несколько научных статей:
https://arxiv.org/abs/2502.18663
https://arxiv.org/abs/2502.13266
🟣Больше деталей тут в посте
и в группе
🌸Если ищете, куда поступать:
В Университете Рейкьявика стартовала новая магистратура по Artificial Intelligence, есть несколько треков, включая Language Technology. Программа достаточно насыщенная, магистратура будет хорошим дополнением поверх технического или лингвистического бакалавриата.
🟣Сайт программы
Я периодически коплю такие объявления, если вам интересно, я будут периодически их публиковать. Можно присылать и свои проекты — в комментариях.
🌸Управляй своим менеджером🌸
#nlp #карьера
Итак, ваше подразделение реорганизуют. У вас новый менеджер или директор, новые соседние команды, новый общий вектор работы.
Как выплыть из бесконечной неопределенности и сохранить карьерный трек, даже с новым руководством?
🌸Что делать во время реорга
— не бегать в панике (пока что получилось только один раз, так как ушла в отпуск)
— понять, что вы ни на что в реорге не повлияете! Все, чем вы могли повлиять на реорг, делать надо было до! Выстраивать прозрачную коммуникацию с менеджером и скипом (менеджер вашего менеджера), выстраивать коллаборации с другими командами и регулярно и явно о них сообщать руководству, брендировать свою работу и встраивать ее в общий план вашей организации.
— понять, что мидл-менеджмент (все, что между менеджером команды и CEO), влияет на вашу ежедневную работу гораздо меньше, чем собственно менеджер и CEO. Если они остались, то все нормально. Если менеджер поменялся — штош, придется выстраивать позиционирование команды заново.
— даже если вас прямо спросят: не занимать явную позицию относительно того, куда/как вы хотите реорганизоваться. Потом вас все равно переведут туда, куда хотели, но ваше новое руководство будет знать, что вы хотели в другое место. Это потом сыграет против вас.
🌸До и после реорга
— собственно, качественно заниматься тем, что я упомянула выше — еще это называется "менеджерить своего менеджера". Рабочие отношения работают в две стороны, вы должны убедиться, что вы имеете регулярный канал коммуникации и обязательно знаете вот такой список вещей про вашего менеджера или директора:
🟣Ее/его цели и задачи
🟣Как на нее/него давит его руководство, какие пряники и кнуты применяются. "Не дадут больше ставок" или "всех сократят" — это очень разные обстоятельства.
🟣 Ее/его сильные и слабые стороны, слепые зоны
🟣Предпочтительный стиль работы (вы должны об этом явно договориться)
Желательно постепенно сделать все то же самое и с вашим скипом, но это задачка со звездочкой.
Оцените все то же самое про себя, и выстраивайте коммуникацию
— концентрируюясь на общих целях, преподнося подкрепление общих целей
— явно проговаривая, что вы ожидаете, и спрашивая явно, чего ожидают от вас
— выстраивая регулярный поток статусов по задачам и целям
— на честности, отсутствии вранья (но и нытья тоже)
— экономии времени друг друга.
(этих советов я придерживаюсь, но вообще про это есть очень старая статья)
Вопросы вроде масштабирования проектов, карьерных изменений, реоргов никогда не будут для вас внезапными.
На реорганизацию вы повлиять в моменте не можете, если вы сам не директор, потому что многое решается на уровне чужих договоренностей. Но вы можете повлиять на выстраивание хороших рабочих отношений внутри компании, имидж команды, приоритет проекта, его организационные зависимости заранее. На этом лучше и сфокусироваться.