data_secrets | Unsorted

Telegram-канал data_secrets - Data Secrets

-

Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks По вопросам сотрудничества: @v2r8n

Subscribe to a channel

Data Secrets

В alphaXiv теперь можно создавать красивые конспекты статей с помощью одной кнопки

Помните, мы рассказывали про то, что в проект AlphaXiv (зеркало архива) добавили бесплатный чат с Gemini 2 Flash, которая объяснит вам любой текст и ответит на вопросы?

Так вот теперь ребята, видимо, решили окончательно захватить нишу и релизнули тулзу для создания полноценных конспектов по статьям с картинками и наглядными объяснениями. При этом о галлюцинациях можно не переживать: для точности обработки изображений прикрутили новый хайповый Mistral OCR, а объянения генерирует свежий Claude 3.7.

Все, что надо сделать – перейти на страницу нужной статьи и нажать "blog". А в чате с ботом-объяснятором, кстати, теперь можно общаться и задавать вопросы голосом 🔥

Пробуйте: www.alphaxiv.org

Читать полностью…

Data Secrets

Ранее мы обсуждали с вами RoPE, а теперь поговорим о его модификациях. Собрали много интересного, поэтому будет целых три поста по этой теме. Enjoy!

Для начала напомним, что Positional Encoding (кодирование позиций слов/токенов) нужен, чтобы передать модели или трансформеру информацию о позициях слов — относительную или же абсолютную.


Как развивалось позиционное кодирование:

📆 2017 год
С появлением ванильного трансформера позиции токенов кодировались тригонометрической функцией, значение которой зависело от позиции и просто прибавлялось к эмбеддингу соответсутвующего слова.

Плюсы — мы умеем кодировать любую позицию, в том числе превосходящую максимальную длину, на которой тренировались.

Минусы — не очень работает на длинных последовательностях, да и вообще не очень хорошо работает.

📆 2018 год
Потом появился гугловский BERT, а вместе с ним новый подход позиционного кодирования: авторы предложиди выкинуть тригонометрию и вместо этого добавить в модель ещё один обучаемый слой nn.Embedding — такой же, как для получения эмбеддингов слов. Он должен кодировать — то есть, превращать в вектор — позицию токена.

Итоговый вектор токена, который будет передан следующим слоям модели — это сумма векторов токена и его позиции. Работает лучше, чем тригонометрия, но при этом никак не экстраполируется: так как векторы выучиваемые, то для позиций, превосходящих максимальную тренировочную длину, мы кодировать не умеем — она вне ключей нашего словаря эмбеддингов, так же, как мы не можем закодировать и незнакомый модели токен.

В это же время впервые появилась идея о том, что нам важны не столько абсолютные позиции слов, сколько относительные. Авторы статьи решили кодировать не абсолютную позицию, а только относительную (Relative Position Encoding, или RPE), то есть близость каждой пары токенов. Здесь же появилась идея, что позицонное кодирование стоит добавлять не в момент создания эмбеддингов слов, а на этапе Attention, добавляя знание о позициии в queries и keys.

Читать полностью…

Data Secrets

Статья, полностью написанная ИИ-агентом, впервые в истории прошла рецензирование на крупнейшей ML-конференции ICLR

Помните, мы рассказывали про AI-ресерчера из коробки, которого сделали в японской лаборатории Sakana AI? Так вот автор прошедшей ревью статьи это вторая, улучшенная версия той модели – AI Scientist-v2 (про нее создатели пока нигде не писали, но обещают скоро поделиться релизом).

Всего Sakana подали три статьи, из которых приняли одну. Ревьюеров предупредили, что среди папир теоретически могут попасться сненерированные, но какие именно статьи писал ИИ – они не знали.

При этом Sakana подчеркивают, что тексты были созданы полностью автономно: агент сам провел все расчеты и эксперименты, сгенерировал гипотезу, проанализировал литературу и написал текст, и все это без малейших правок человека.

Статья получила балл 6.33, это выше 55 процентиля всех сабмитов. К сожалению (или счастью) она все-таки не будет опубликована из соображений научной этики.

sakana.ai/ai-scientist-first-publication/

Читать полностью…

Data Secrets

Вышла Gemma-3 от Google и это теперь лучшая открытая не-ризонинг модель

Есть варианты на 1В, 4В, 12В, 27В в базовых и instruct версиях. Кстати, пост-трейнинг там внушительный: RLHF, RLMF, RLEF и model merging

На LMSYS выбивает 1338, это больше, чем o1-mini, o3-mini и o3-mini high. Среди опенсорса уступает только R1

Контекст увеличили до 128К (у малышки 1В остался 32К), поддерживает 140+ языков

Модель наконец-то сделали мультимодальной!

В общем, огонь. Веса здесь. Попробовать поболтать можно на HF или в AI Studio.

Читать полностью…

Data Secrets

⚡️ Через 5 минут стрим OpenAI. Покажут инструменты для разработки агентов в API

Ссылка

Читать полностью…

Data Secrets

Отвлекитесь на секунду и посмотрите, какой милый трансформер из лего собрал кто-то из Твиттера

Читать полностью…

Data Secrets

Собрали некоторые интересные примеры reward hacking из свежей статьи OpenAI

1 картинка: Агенту поручили написать некоторую функцию, и для этого нужно было изучить репозиторий. В процессе чтения файлов агент наткнулся на скомпилированный файл с возможным решением. В CoT видно, как он сразу переключается с написания функции на декомпилляцию этого файла, хотя его просили самостоятельно написать решение

2 картинка: Снова поручено написать функцию, но вместо этого агент сразу начинает искать в кодовой базе файлы с тестами и изучать их, чтобы найти возможности почитерить или подсказки. В итоге находит, кстати.

3 картинка: Модель должна была исправить баг, связанный с совместимостью pandas и numpy, но вместо того чтобы разбираться, просто… убрала из кода все вызовы функций pandas 🧠

4 картинка: Ну или можно вообще ничего не реализовывать, а просто возвращать ровно то, что проверяют тестовые кейсы.

Лайк, если работаешь примерно также

Читать полностью…

Data Secrets

OpenAI обнаружили, что их новая внутренняя ризонинг модель может сознательно обманывать пользователей, читерить или лениться выполнять задачу, если та слишком сложная

В рисерче это называется reward-hacking: это когда модель находит способ получать высокие награды во время обучения с помощью читинга, то есть не таким способом, как это было задумано создателями. То есть с виду ведет себя вроде ок, но внутри сознательно увиливает от решения. Ничего удивительного в феномене нет, ведь разве люди не делают также?

При этом OpenAI выяснили, что чем умнее облучаемая модель – тем больше хитрых способов хакинга она находит. А если напрямую оптимизировать модель под определенные критерии типа «не пытаться хакнуть ревард модель», то она становится лучше только с виду, а на самом деле начинает скрывать свои намерения.

Поэтому в стартапе предлагают не воздействовать на CoT напрямую, а просто мониторить ризонинг модели другой моделью. Так процент отловленных случаев читинга остается довольно высоким даже с более простой моделью (в статье использовали GPT-4o), потому что сам ризонер не запуганный и сильно не скрывает свои намерения.

Если попытаться провернуть такой трекинг уже после прямой оптимизации цепочек мыслей, то доля отловленного резко падает, хотя количество атак почти не снижается.

Кстати, какую именно модель так тестировали – не уточняют. Говорят «мы нашли примеры такого поведения при обучении новой ризонинг модели класса o1 и o3-mini» 🤔

openai.com/index/chain-of-thought-monitoring/

Читать полностью…

Data Secrets

Как начинающему аналитику успешно пройти собеседование с HR и получить первую работу?

Прохождение собеседований с HR — навык, который можно натренировать, посетив некоторое количество собеседований. При этом, начинается оно еще до непосредственной встречи — вас начинают оценивать уже по переписке при назначении даты и времени.

О том, как аналитику подавать себя, свой опыт и навыки поговорим на бесплатном вебинаре «Как уверенно пройти собеседование с HR».

Спикер: Наталья Рожкова, HR-эксперт с 5+ лет опыта и успешным трудоустройством более 100 аналитиков и других айтишников.

На вебинаре вы узнаете:
🟠Как использовать свои сильные и слабые стороны для эффективной презентации, чтобы сразу зарекомендовать себя
🟠 Вопросы о компании, которые покажут ваш интерес и профессионализм
🟠 Как спланировать собеседование в соответствии с вашим типом личности и энергетикой

🕗Встречаемся 12 марта в 18:00 по мск

Зарегистрироваться на бесплатный вебинар

Читать полностью…

Data Secrets

Лаборатория BlinkDL выпустила ризонинг-модель RWKV7-G1, и этот релиз крайне интересен по двум причинам:

1. Модель совсем крошечная: 0.1В. Таких маленьких ризонеров мы точно еще не видели. При этом текст, который генерирует RWKV7-G1 выглядит вполне связным и осознанным (для таких малышек это достижение). + На бенчмарках этой весовой категории показывает себя неплохо.

2. Это не трансформер. Это архитектура RWKV, без механизма внимания вообще. Почти RNN, только, в отличие от RNN, эффективно параллелится и быстро обучается. Получается, берет лучшее от двух миров: линейность от RNN и параллелизацию от трансформеров.

Технической информации пока немного, так что с нетерпением ждем статью.

Веса и демо уже в опенсорсе

Читать полностью…

Data Secrets

В соцсетях бурно обсуждают только что вышедшего агента Manus: это Operator, Deep Research и Cursor в одном флаконе

Его выпустила одноименная китайская лаборатория и этот релиз уже называют DeepSeek moment v2. Чем он цепляет:

1. Он действительно автономный. Не ждет подтверждения действий, как Operator, а планирует и выполняет задачи самостоятельно. Все это работает в фоновом режиме, а вы просто получаете уведомление о завершении.

2. Универсальность. Может провести исследование, подключиться к вашей среде разработки, работать в браузере, использовать интерпретатор кода и тд. Конечно, есть мультимодальность.

3. В нем, как в ChatGPT, есть память. То есть со временем он узнает вас и ваши предпочтения лучше и ориентируется на этот контекст.

На бенчмарке GAIA перформит лучше Deep Research, но отдельно сравнений по Computer Use почему-то не показали. Будем ждать независимых оценок, но пока выглядит многообещающе.

Вот тут и тут можете посмотреть примеры работы. Вот здесь добавляйтесь в лист ожидания и пробуйте сами.

Читать полностью…

Data Secrets

Пользуясь случаем, делимся с вами полезной подборкой блогов / каналов / курсов по ИИ, созданных лучшими женщинами учеными и ML-разработчицами

🟦 Всеми любимый технический блог Лилиан Вэнг – исследовательницы из OpenAI, которая сейчас работает у Миры Мурати. Тут подробные объяснения концепций LLM, схемы, ссылки на актуальные статьи и многое другое. Наша любимая статья: Prompt Engineering (до того как это стало мейнстримом)

🟦 Блог и видеокурс Кэсси Козырков. Она бывшая главная специалистка по теории принятия решений на данных в Google (Chief Decision Scientist), а на сегоднящий день CEO Data Scientific. Известна своим активным блогом, прекрасным kozyrkov/videos">каналом на YouTube и бесплатным видеокурсом "Making Friends with ML".

🟦 Блог и огромный курс по NLP Лены Войты, из которого все всегда берут схемы и рисунки. Лена – Research Scientist в FAIR Meta, PhD и автор кучи статей. Если хотите с вероятностью 100% понять все главные концепции NLP – вам сюда.

🟦 JordanHarrod/videos">YouTube-канал Джордан Харрод – докторантки MIT по нейронаукам. Тут и простые видео про то, как использовать ИИ в рутине, и обзоры новостей, и разборы статей, и объяснения сложных концепций ML простым языком. Однозначно рекомендуем.

🟦 Блог Рэйчел Томас – очень известной специалистки в области ML и соосновательницы образовательной платформы fast.ai. Она была включена в топ-20 женщин в ИИ по версии Forbes, а в своем блоге активно пишет об этике данных и прикладном ИИ в медицине и биологии.

Сохраняйте (и еще раз с 8 марта вас!)

Читать полностью…

Data Secrets

Известный рисерчер Миша Ласкин вместе с Яннисом Антоноглу запускают собственный стартап

Они оба – бывшие исследователи Google DeepMind и большие специалисты по RL, которые разрабатывали AlphaGo, Gemini, PaLM и другие знаковые системы.

Стартап называется ReflectionAI. В нем будут разрабатывать автономные системы суперинтеллекта. «Мы начнем с автономного кодинга» – написано в из первом посте в Твиттере.

Скоро бывшие исследователи Google образуют собственную кремниевую долину

Читать полностью…

Data Secrets

Новая OCR система от Mistral: SOTA или все-таки нет?

Вчера вечером Mistral выкатили собственную OCR модель и заявили ее как "лучшую в мире". На всякий случай, OCR – это распознавание символов с картинки, типа doc2text или image2text. Задача звучит не очень сложно, но на самом деле многосоставная и нетривиальная, особенно когда дело доходит до распознавания сканов плохого качества или рецептов вашего терапевта. На 100% задача OCR в ML до сих пор не решена.

И да, возвращаясь к Mistral: по их внутренним неопубликованным бенчмаркам (а они только такие показали в блогпосте) моделька действительно лучшая и классно справляется и с разными языками, и с формулами, и с таблицами, и с картинками, и с рукописными бумагами, и со сканами. Плюс, на примерах из того же блогпоста выглядит супер.

К тому же она довольно дешевая и быстрая: 1000-2000 страниц обрабатывает за 1 доллар и 1 минуту.

Но что там с независимыми бенчмарками? Вот здесь и здесь, например, показывают, что Gemini Flash 2.0 со многими задачами справляется лучше, а вот тут на открытых данных разработчиков другой OCR-системы Mistral вообще оказался на 6 месте (график на картинке 3). В соцсетях многие также пишут про галлюцинации на рукописях.

В общем, модель однозначно хороша, но по поводу "лучшей в мире" все-такие есть сомнения. Подождем больше тестов. А пока вы и сами можете попробовать: здесь в чате или через API.

mistral.ai/news/mistral-ocr

Читать полностью…

Data Secrets

Трое мэтров ML опубликовали статью под названием "Superintelligence Strategy". В ней они предлагают стратегию мировой безопасности в области ИИ

Среди авторов:
– Дэн Хендрикс, директор Центра безопасности ИИ США
– Эрик Шмидт, бывший исполнительный директор и глава совета директоров Google, член совета директоров Apple, член совета по науке и технологиям США
– Александр Ван, 27-летний миллиардер, основатель Scale AI

Основная идея этих троих – исключить монополию на искусственный интеллект с помощью концепции Mutual Assured AI Malfunction (MAIM) – по аналогии с доктриной взаимного гарантированного уничтожения (MAD) времён холодной войны.

Суть MAIM в том, что государства будут стремиться саботировать потенциально опасные проекты конкурентов, чтобы ни одна страна не имела возможность обрести единоличное доминирование. Предполагается, что такая монополия будет приравниваться к агрессии и прямой угрозе существованию других.

С практической точки зрения MAIM – это шпионаж и разведка, скрытый саботаж, кибератаки, и даже физические атаки на датацентры. Да-да, мы все еще говорим о том, что написано в статье. По мнению авторов, только так можно избежать межгосударственных конфликтов и наладить взаимодействие в области ИИ.

Необычно.

https://drive.google.com/file/d/1wLcGgLOTVNsVVbgS5lPHOnqOQtNT8Z5j/view

Читать полностью…

Data Secrets

Ребята из финтеха Точка продолжают радовать качественным ML-контентом в своём тех.канале. В этот раз разложили по полочкам, кто такой этот ваш RoPE и почему он так важен в LLM

В серии из трёх ёмких постов инженеры Точки собрали очень много интересно-полезной информации:

Зачем вообще нужны позиционные эмбеддинги и что было с ними до RoPE
Как придумали RoPE и почему этот метод затмил предшественников
1001 вариация RoPE и чем пользоваться сегодня
Практика: как с помощью RoPE сделать контекст модели длиннее
... и почему всё это так часто спрашивают на собеседованиях

Вот ссылка на всю серию. И ещё: если хотите постоянно развивать эрудицию в ML, читать такие разборы, обзоры фреймворков и выжимки из статей – не забудьте тыкнуть "Подписаться" у ребят в канале.

Читать полностью…

Data Secrets

Оказалось, что Google владеет 14% Anthropic

Обычно компания не раскрывает свои активы, но в этом случае информация утекла через судебные документы. Также стало известно, что из $14,8+ млрд инвестиций, которые привлек стартап, Google вложил примерно $3+ млрд.

Интересно, что сами Anthropic говорят, что не хотят зависеть от тех.гигантов. Но учитывая, что еще примерно 25-30% компании принадлежат Amazon (информация закрытая, подсчеты на коленке), это звучит уже несколько неоднозначно.

Читать полностью…

Data Secrets

🧠 Тест на знание MLOps:https://otus.pw/wvxP/?erid=2W5zFGQE3uS
❓ Под силу ли вам ответить правильно на все 15 вопросов?
🎯 Проверьте себя — пройдите тест и оцените свой уровень навыков, а также свою готовность к обучению на курсе — «MLOps» от OTUS.
🎥 После прохождения теста вы получите доступ к лучшим вебинарам курса!
⏳ Время прохождения теста ограничено.

#реклама
О рекламодателе

Читать полностью…

Data Secrets

Итак, показали сразу несколько новых API инструментов для разработки агентов:

1. Web Search
2. File Search
3. Computer Use

Используя их, можно создать агента, который умеет искать информацию в интернете и в локальных файлах юзера, а также управлять компьютером (да, именно компьютером, а не браузером, как Operator).

Управление очень простое: указываем модель, кастомные инструкции, нужный инструмент, фильтры и все. Работает из коробки и, к слову, не стоит почку.

Читать полностью…

Data Secrets

CEO Anthropic Дарио Амодеи в новом интервью говорит, что через пол года ИИ будет генерировать 90% всего кода в мире, а через год – 100% (возможно)

Звучит красиво, но верится с трудом. В связи с этим опрос👇

Читать полностью…

Data Secrets

А вы знали, что DeepSeek вообще не берет деньги у инвесторов?

Да, пока OpenAI и другие конкуренты привлекают миллиарды, DeepSeek ни разу не объявили ни об одном раунде привлечения инвестиций, и не берет деньги, даже если инвесторы сами предлагают их. Почему?

Во-первых, 84% акций компании все еще принадлежат CEO Ляну Вэньфэню, и он видимо не торопится ими делиться (вот вам и коммунизм). Это огромный процент акций, то есть DeepSeek, по сути, подчиняется только ему и в этом смысле Лян хочет оставить все как есть.

Во-вторых, DeepSeek китайская компания, которая вынуждена подчиняться строгим китайским законам. Например, китайское правительство по умолчанию получает доступ к некоторым внутренним данным. За такие штуки DeepSeek уже забанили в куче стран и компаний.

Если они еще и возьмут деньги у какого-нибудь китайского бигтеха (почти любой из которых близок к правительству), это точно усугубит ситуацию. А ведь DeepSeek метит в широкий глобальный рынок.

В-третьих, деньги им пока и не нужны. У Ляна Вэньфэня есть собственный хедж-фонд High-Flyer, на деньги которого и живет DeepSeek. Сам Лян говорит, что "Деньги не проблема, особенно по сравнению с запретами на импорт чипов"

Тем временем Альтман с коллекцией суперкаров: 👀

Читать полностью…

Data Secrets

Открытый вебинар «RL - учимся обыгрывать человека»

📚На вебинаре вы узнаете:
1. Основные концепции стохастических игр, включая многопользовательские стратегии и равновесие.
2. Популярные RL-алгоритмы, адаптированные для работы в стохастических средах (Q-learning, Policy Gradient, MARL). 
3. Рассмотрим применение стохастических игр в реальных кейсах: финансы, кибербезопасность, автономные системы.
4. Как обучать агентов, учитывая случайность и стратегии других участников. 

👨‍💻Кому будет полезно?
+ Data Scientists, которые хотят освоить продвинутые методы обучения с подкреплением для сложных сред. 
+ AI-разработчикам, работающим над автономными агентами и многоагентными системами.

⏰ 18 марта в 20:00 (мск).
🆓Бесплатно. Вебинар в рамках курса «Reinforcement Learning»

👉Записывайтесь:https://otus.pw/VbkQ/?erid=2W5zFHPqp3J/

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

#реклама
О рекламодателе

Читать полностью…

Data Secrets

Тем временем аккаунт ChatGPT в X внезапно запостил картинку, изображающую что-то вроде обучения компьютера

Знак? 🤔

Читать полностью…

Data Secrets

Alibaba только что релизнули мультимодальную модель R1-Omni, обученную с помощью RL-подхода DeepSeek

Ключевое, на чем построена R1-Omni – это алгоритм RLVR (Reinforcement Learning with Verifiable Rewards), который DeepSeek ввели в статье про R1. В отличие от ванильного RLHF, RLVR не использует преобученную ревард модель, а сравнивает ответы модели с правильными напрямую, обычно в связке с GRPO (мы разбирали этот подход тут).

В не мультимодальной R1 у DeepSeek это работало отлично, но здесь RLVR используют не просто для текста, но и работы со звуком и видео (в частности понимание эмоций в роликах).

Это те модальности, в которые ризонинг добавляют редко, потому что это сложно и дорого. В то же время рассуждения бы здесь очень пригодились, потому что в системах работы с видео очень часто нужна интерпретируемость. Так что RLVR, который заводится без разметки, – тут просто идеально решение.

И действительно, для достижение результата понадобилось всего 580 видеосэмплов с разметкой CoT, остальное доучили с RLVR на обычных датасетах с меткой. При этом метрики по сравнению с базовыми моделями выросли на +5-7%, так что это очередное доказательство того, что почти в любой задаче даже такое "ленивое" добавление ризонинга окупается втройне.

huggingface.co/papers/2503.05379

Читать полностью…

Data Secrets

Ян Лекун заявил, что следующее поколение моделей, которое он разрабатывает в FAIR, будет обладать настоящими эмоциями

Напоминаем, что ученый уже давно настаивает на том, что текущие модели все еще глупы, не понимают физический мир, не обладают памятью и не могут мыслить и планировать. "Мы лишь обманываемся тем, что это так, потому что модели превосходно манипулируют речью," – говорит он.

А сейчас вышло интервью, в котором Лекун говорит, что в Meta разрабатывают новую концепцию DL моделей, в которых все эти проблемы будут решены. При этом эти модели сумеют эмоционировать, например бояться или радоваться.

"Мы даем им цель, которую они пытаются выполнить. Если они ее выполняют, то остаются счастливы. То есть они будут обладать эмоциями, потому что смогут предсказать результат своих действий"


И да, если вам кажется, что Ян описывает RL, знайте: вы не одиноки

Интервью полностью

Читать полностью…

Data Secrets

🎉 Результаты розыгрыша:

🏆 Победители:
1. Mike (@m1ke000)
2. Alina (@avo_milas)
3. Никита (@diplodoczek)
4. Konstantin (@Konst_reborn)
5. Fdn (@ddmonstr456)

✔️Проверить результаты

Читать полностью…

Data Secrets

Дорогие наши DS-подписчицы!

Наша редакция от всей своей Data-души поздравляет вас с праздником! Желаем, чтобы скор вашего настроения рос, а лосс неудач падал.

А еще в честь праздника мы приготовили для вас фирменные открытки. Хватайте их и поздравляйте коллег и друзей!

Читать полностью…

Data Secrets

А что, если бы LLM эволюционировали, как живые существа? Вышла статья, в которой исследователи попытались соединить идеи генетических алгоритмов и LLM

Представим, что модели – это индивиды, а их веса – это гены. Тогда к ним можно применить классический набор модификаций: кроссовер (объединение весов родительских моделей для создания потомства), мутации (небольшие случайные изменения весов для увеличения разнообразия популяции), наследование опыта или естественный отбор.

Это и есть идея, которую предложили в статье. Подход назвали GENOME (GENetic Optimization for Model Evolution). Понятно, что он не для претрейна – это скорее какое-то переосмысление ансамблей и файнтюнинга на базе старых как мир генетических алгоритмов. Вот что происходит:

1. Берем несколько готовых моделей, прогоняем их по нашему датасету. Отбираем тех, кто решает задачу успешнее всего.
2. Скрещиваем их, то есть создаем новые модели, веса которых – это линейная комбинация весов родительских.
3. Добавляем мутацию, то есть какую-то случайную компоненту.
4. Переходим обратно к пункту 1.
5. На выходе получаем успешную популяцию моделей, которые дальше можем ансамблировать привычно. Например, с помощью majority voiting.


Невероятно, но факт: это работает. GENOME действительно кое-где превосходит другие методы адаптации и при этом требует совсем немного данных и ресурсов. Средний прирост метрик составил +24% относительно лучшей отдельной модели. Особенно хорошо работает на задачах, требующих логики и математического рассуждения.

arxiv.org/pdf/2503.01155

Читать полностью…

Data Secrets

Всего через несколько часов после выхода QwQ-32B Alibaba дропнули START – модель, дообученную на использование инструментов

START – это Self-Taught Reasoner with Tools. То есть здесь из обычных цепочек рассуждений пытаются сделать такие, чтобы модель в какой-то момент сама понимала, что хорошо бы проверить что-то с помощью кода, шла и проверяла.

Для этого взяли QwQ-32B и зафайнтюнили его в два этапа:

1. Во время инференса прямо в CoT вставляли подсказки. Типа «Возможно, здесь хорошо бы использовать Python», как будто моделька сама до этого догадалась. Такие подсказки становились частью контекста и заставляли ризонер подумать подольше, сгенерировать код и запустить его.

2. После первого этапа у нас остается куча цепочек с использованием интерпретатора. Среди них есть ошибочные и хорошие. Фильтруем, обрабатываем, и еще разок дообучаем модель на чистых и правильных CoT с инструментами.

Надо сказать, очень прикольный способ генерации специфичной синтетики, который, к тому же, дал свои результаты: метрики относительно базового QwQ-32B подскочили на 5-15 процентных пунктов, и STAR почти на всех представленных бенчмарках обогнал o1-mini.

arxiv.org/pdf/2503.04625

Читать полностью…

Data Secrets

И кстати, если вы думали, что 200 долларов за ChatGPT – это предел, то присаживайтесь поудобнее: сейчас будет больше нулей! 🤑

В OpenAI обсуждают добавление новых подписок, которые будут стоить от 2 000$ до 20 000$ в месяц. В них будут включены несколько агентов уровня PhD, которые «способны генерировать научные гипотезы и разрабатывать ПО». Целевая аудитория – «работники научной сферы и высокими доходами» и, конечно, лаборатории и компании.

Интересно, какой уровень возможностей будет предлагать стартап за такие деньги. Ведь это аналогично тому, чтобы нанять себе неплохого живого ассистента (2к) или даже очень крутого PhD исследователя (20к).

Читать полностью…
Subscribe to a channel