Telegram-канал data_secrets - Data Secrets: Unsorted - каталог телеграмм

data_secrets | Unsorted

Subscribe to a channel

Telegram-канал data_secrets - Data Secrets

55444

Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks По вопросам сотрудничества: @v2r8n

Subscribe to a channel

Data Secrets

12 May 2025 09:37

Пу-пу-пу, тот самый понедельник после майских. Чтобы немного поднять всем настроение, несем с утра приятную новость

Пока все отдыхали на шашлыках, мы с командой торопились поскорее закончить для вас кое-что особенное. И это – большой конспект по большим языковым моделям.

Внутри – все, что нужно, чтобы от А до Я понять, как работают современные LLM:

– необходимая математика
– механизм внимания и трансформеры со схемами и интуитивными примерами
– все про предобучение
– основы и алгоритмы RL + ризонинг
– ... и даже полноценный гайд по тому, как самостоятельно зафайнтюнить модель.

По секрету: работа над конспектом заняла у нас больше месяца.

500 🔥 и завтра мы выложим сюда полную pdf-версию

Читать полностью…

Data Secrets

11 May 2025 10:21

Fun fact: ИИ сыграл немалую роль в выборе имени нового Папы Римского

Как вы знаете, на днях в Ватикане выбрали нового Папу. Им стал 69-летний американец Роберт Фрэнсис Превост. В качестве папского псевдонима он выбрал имя Лео XIV, и неспроста.

В обращении к Коллегии Кардиналов Папа объяснил, что имя Лео отсылает к Папе Льву XIII, который управлял церковью во время начала промышленной революции. Сейчас, по его мнению, нас ждет еще одна революция, и поэтому есть некоторая аналогия между ним и Львом XIII.

«В наши дни Церковь должна предлагать свое учение в ответ на еще одну промышленную революцию – появление искусственного интеллекта. Последние разработки в этой области ставят перед Церковью новые задачи по защите человеческого достоинства, справедливости и труда»

Кстати, новый Папа – математик. У него степень бакалавра по математике университета Вилланова и даже несколько опубликованных статей по статистике.

Читать полностью…

Data Secrets

10 May 2025 09:55

«Сложно сказать, насколько мы еще опережаем Китай. Я думаю, ненамного»

В сенате США вчера проводили слушание по вопросу укрепления позиций Америки в ИИ-гонке. В качестве свидетелей приглашали несколько представителей индустрии, в том числе Альтмана. Собрали интересные цитаты:

➖Мы убеждены, что OpenAI обладает лучшими моделями в мире. Тем не менее, очень сложно сказать, насколько мы опережаем Китай, но я бы сказал… ненамного.

➖ DeepSeek добился двух впечатляющих результатов: сильная опенсорс модель и приложение, которое в какой-то момент стало более скачиваемым, чем ChatGPT. Пока что DeepSeek не обогнал ChatGPT в качестве потребительского ИИ по умолчанию, но если бы это случилось, это было бы… плохо.

➖ В конечном итоге стоимость ИИ сравняется со стоимостью энергии. Роботы могут создавать чипы, оптимизировать сети, но электрон есть электрон. В конечном итоге интеллект будет масштабироваться настолько, насколько это позволит сеть.

➖ Скоро в истории человечества произойдут большие перемены. Эти системы способны на вещи, которые мы даже не можем себе представить. (Да, куда же без высказываний в стиле «да не маркетинг это»)

Если вдруг захотите посмотреть все 3 часа слушания, вот запись 😶

Читать полностью…

Data Secrets

08 May 2025 15:27

Разбираем новую громкую статью «Absolute Zero Reasoner» про то, как дообучить модель вообще без данных

Сейчас в рисерче наблюдается яркий тренд на максимальное сокращение количества данных для дообучения. Совсем недавно хайповала работа, в которой проводили RL для ризонинга всего на одном примере.

А сейчас ученые вообще предложили способ полностью перейти на самогенерируемое обучение. То есть модель сама разрабатывает для себя учебную программу и задачи, решает их, проверяет и учится. Подробнее:

➖ У нас есть LLM, которую мы хотим дообучить. Но теперь она будет играть сразу две роли: Proposer и Solver. Proposer генерирует новые задачи, а Solver их решает.

➖ Так как роли две, обучается модель тоже "с двух сторон", то есть мы даем ревард как за решения, так и за сами задачи. r_solve – обычная бинарная награда за правильный ответ (решил - 1, не решил - 0). А вот r_propose – обучаемая награда, то есть она динамически зависит от того, насколько у солвера хорошо или плохо получается решать сгенерированные задачи. Цель тут – генерировать задачи средней сложности, не сильно простые, и не слишком хардовые.

➖ Обучается все с помощью Task-Relative REINFORCE++. Это авторская модификация PPO для учёта разных «задача + роль» конфигураций. Схемы обучения обеих ролей остаются полностью симметричными, но зато можно отдельно контролировать лернинг рейты или бейзлайны.

В статье подход реализовывали только на задачах по программированию, чтобы ответы можно было проверять просто в интерпретаторе, без человеческой разметки. За основу брали Qwen2.5, и полученный AZR-Coder-7B показывает относительно базовой модели и других подходов очень неплохие приросты.

От ванильного RL почти не отстает, а участие человека сведено к минимуму. При этом и другие приятные плюшки RL сохраняются. Например, видны кросс-доменные приросты метрик по математике (хотя, повторимся, обучали все только на кодинге).

Почитать полностью советуем здесь

Читать полностью…

Data Secrets

07 May 2025 19:56

Вышла новая модель от Mistral – Mistral Medium 3. Что надо знать:

➖ Не опенсорс 😞
➖ Зато отличное соотношение цена/качество. Цены: $0,4/M и $2/М. Это в разы дешевле многих передовых моделей. Например, в 8 раз дешевле Sonnet.
➖ По бенчмаркам соответствует Sonnet 3.7 и GPT-4o. На математике даже круче.
➖ Мультимодальность есть
➖ Контекст 128к токенов

В целом, отличный уровень. Кстати, одновременно стартап показал новую версию своего чат-бота Le Chat для бизнеса. Туда добавили больше фичей с инструментами, веб-поиск, агента программиста и возможность интеграции любых источников данных компании.

Читать полностью…

Data Secrets

07 May 2025 13:37

Cognition Lab (разработчики Devin) выпустили модель для написания эффективных ядер CUDA

Модель называется Kevin 32В, буквально K(ernel D)evin. Релиз, на самом деле, был бы не самый примечательный, если бы не техника: для дообучения инженеры завели RL с мультиступенчатым фидбэком от среды.

Разбираемся:

⚪️ В качестве базовой LM взяли QwQ-32B, это ризонинг модель. Ее дообучали всего на 180 задачах из датасета KernelBench. Это задачи на PyTorch, в которых надо заменить базовые операции (например, матричные операции или свертки) оптимизированными CUDA-ядрами.

⚪️ Для дообучения использовали только RL с GRPO (наш разбор метода). Но GRPO не обычный, а многоэтапный. Модель получает фидбэк не один раз за всю генерацию, а генерирует ядро -> получает ревард -> исправляет -> получает ревард -> ….

⚪️ Чтобы не было проблем с перегрузкой контекста, вместо полного CoT на следующие итерации передают только резюме. Плюс для стабилизации всего этого каждый шаг получает не обычное вознаграждение, а дисконтирование, то есть равное дисконтированной сумме скорингов всех последующих ядер.

По метрикам видно, что относительно привычного однопроходного RL такой подход сильно бустит обучение. Интересно было бы посмотреть, сработает ли такое с обычным кодингом.

Блогпост | Модель на HF

Читать полностью…

Data Secrets

07 May 2025 11:04

Hugging Face запустили бесплатный аналог Operator

Их новый Computer Use агент работает на основе Qwen-2-VL-72B и разработан с помощью уже очень популярной библиотеки smolagents (тоже производства Hugging Face).

По аналогии с Operator, агент HF работает не на вашей машине, а на виртуалке с предустановленными программами. По способностям не SOTA, конечно, но с простыми задачами справляется отлично.

Все полностью бесплатно (но придется немного постоять в очереди).

демо здесь

Читать полностью…

Data Secrets

07 May 2025 08:31

Gemini 2.5 Pro обновили и теперь она еще круче в кодинге

На WebArena у нового чекпоинта прибавилось +147 баллов ELO (это прямо очень много, учитывая, что между соседними моделями в рейтинге разница иногда в десятки или даже единицы баллов). В общем, теперь моделька лучшая в веб-кодинге, а Sonnet 3.7 опустился на второе место.

Ну и в целом чекпоинт укрепился на первом месте по всем рейтингам арены (математика, веб, креатив, вижн и прочее). o3 теперь отстает еще сильнее. Цена на API у новой модели при этом остается такой же.

Интересно, если Google релизят такое сейчас, то что будет на их ежегодном I/O через две недели?

blog.google/products/gemini/gemini-2-5-pro-updates/

Читать полностью…

Data Secrets

06 May 2025 13:52

Открытая модель от OpenAI будет отставать от передовых моделей стартапа на целое поколение

Об этом прямо заявил CPO OpenAI Кевин Вейл. Виной всему как всегда Китай:

«Мы выпускаем эту модель, потому что хотим, чтобы лучший в мире открытый ИИ был производства США, а не Китая, и отвечал именно демократическим ценностям.

По этим же соображениям эта модель будет отставать примерно на поколение от наших лучших моделей. Выпустить открытую модель лучше – значит тоже помочь Китаю»

Читать полностью…

Data Secrets

06 May 2025 09:27

OpenAI сломалась под общественным давлением и отказалась от полного перехода в статус некоммерческой организации

Некоммерческий совет директоров сохранит акции и контроль над коммерческим крылом, которое переходит в статус Public Benefit Corporation (PBC).

Это тип коммерческой организации, цели которой включают оказание положительного влияния на общество. То есть буквально смесь for-profit и non-profit. Для ИИ-стартапов PBC – классика жанра.

Говорят, что такое решение в OpenAI приняли после общения с «гражданскими лидерами» и генпрокурорами Делавэра и Калифорнии.

openai.com/index/evolving-our-structure/

Читать полностью…

Data Secrets

05 May 2025 17:20

Полезная новость для всех, кто практикует data-driven: Arenadata релизнули новую мощную платформу для хранения и обработки данных

Arenadata One потянет любую архитектуру бигдаты, включая Lakehouse + вероятно будет дешевле имеющихся СУБД. Быстро пройдемся по фишкам:

➖ В отличие от классических bare-metal-СУБД, Arenadata One не требует резервации оборудования и работает в эластичной среде. Данные можно держать и в своём дата-центре, и в облаке – и перемещать между ними.
➖ Система умеет переиспользовать ресурсы и автоматически масштабирует нагрузки. За счет этого вы получите минимальный Total Cost of Ownership.
➖ Вычисления и хранение работают отдельно: это позволит быстро добавлять мощности, не прикасаясь к данным.
➖ Все совместимо с S3 и абсолютно не привязано к форматам данных, грузим что хотим.
➖ Реализовано multi-tiering: горячие данные лежат быстро и близко, холодные – экономно и глубже.
➖ Есть готовые панели и функции для мониторинга, управления доступами, отслеживания изменений и аудита.
➖ Аналитика и транзакции работают под одной крышей, больше не надо держать отдельную базу под отчёты и отдельную под приложение.

Ну и на десерт: Хранение AI-векторов и feautures. По факту, AI/ML-ready инфраструктура из коробки.

За подробностями сюда

Читать полностью…

Data Secrets

05 May 2025 14:22

Шах и мат, ИИ-грубияны: старший научный сотрудник Google Deepmind и профессор когнитивной робототехники в Имперском колледже Лондона Мюррей Шанахан подтвердил, что слова "спасибо" и "пожалуйста" могут улучшить качество ответов модели

"Конечно, это зависит от обстоятельтсв: модели ведь постоянно меняются. Однако в общем случае есть веская научная причина, почему четкие дружелюбные формулировки и использование таких слов, как «пожалуйста» и «спасибо», могут улучшить качество ответов.

Все дело в том, что это похоже на ролевую игру. ИИ, скажем, исполняет роль очень умного стажера. Стажер может быть менее эффективным, если его не хвалить и постоянно ругать. Модель имитирует поведение человека, поэтому может вести себя точно также"

https://youtu.be/v1Py_hWcmkU?t=2327

Читать полностью…

Data Secrets

05 May 2025 09:23

Новый эпизод черного зеркала: Альтман официально запустил в США подтверждение вашей личности через сканирование сетчатки глаза

Помните, мы рассказывали про второй стартап Сэма World (пост, пост)? Так вот они наконец прошли все юридические проверки, и теперь понемного раскатывают свои центры сканирования по США. Цель компании – избежать исполнения теории мертвого интернета и сделать так, чтобы каждый человек в сети имел подтвержденный человеческий ID.

Сканирование выполняется небольшим устройством под названием Orb, каждый прошедший получает тот самый айдишник + можно приобрести криптовалюту WorldCoin.

К концу года устройства планируют разместить по всей Америке. Самое интересное, что уже сейчас в партнерах у стартапа Visa и Tinder («чтобы вы встречались с живыми людьми»).

Посмотрим, что из этого выйдет

Читать полностью…

Data Secrets

03 May 2025 17:13

База: в открытом репозитории инженера xAI несколько месяцев лежали API ключи доступа к внутренним моделям стартапа

Пару дней назад первым уязвимость заметил chief hacking officer из компании Seralys (они занимаются консалтингом в сфере кибербеза). Он опубликовал об этом пост на линкедине, и публикацию заметили исследователи из GitGuardian.

Для контекста: GitGuardian занимаются постоянным авто-сканированием GitHub на предмет раскрытых ключей API и отправляют оповещения владельцам. Они провели мини-расследование и выяснили, что токен из репы xAI вел к нескольким невыпущенным моделям Grok. В общей сложности обнаружился доступ как минимум к 60 моделям.

xAI фейл никак не прокомментировал, но ключ уже удалили

Читать полностью…

Data Secrets

02 May 2025 12:44

Chatbot Arena больше не работает? Вышло исследование "The Leaderboard Illusion", в котором ученые доказали предвзятость всеми любимого рейтинга

Среди авторов – ученые из Cohere, Стэнфорда, Принстона, Ватерлоо, MIT и других вузов с именем. Вот что им удалось выяснить:

➖ Во-первых, у крупных провайдеров появляется нечестное преимущество за счет количества "попыток". На арене есть такая штука, как приватное тестирование. В ходе него можно "анонимно" запустить N версий своей модели (разные гиперпараметры, системные промпты, чекпоинты). При этом результаты этих N версий не появляются на лидерборде: туда отгружается только результат лучшей из них.

На первый взгляд все честно. Но на самом деле тут есть статистическая ошибка. Если из N моделей мы выбираем ту, у которой максимальный Arena Score и публикуем его, то он получается завышенным.

Дело в том, что при "истинном" умении X результаты модели колеблются на X+-Δ. Если мы тестируем одну модель (как это обычно делают мелкие провайдеры), то результат получается средним и отражает истинный X. Но в случае выбора из N моделей мы автоматически выбираем ту, которая больше раз случайно "стрельнула" в сторону завышения способностей, а значит отражаем результат выше, чем X (картинка 2).

В статье ученые даже показали это на реальном эксперименте (картинка 3). Взяли модель и дважды отправили ее на арену по разным путям тестирования. Разница получилась в 17 очков, а это довольно серьезно. При этом чем больше N, тем больше будет этот несправедливый разрыв. А у кого есть ресурсы на кучу тестов? Правильно, только у больших игроков.

➖ Во-вторых, большие игроки получают преимущество за счет ассиметрии количества баттлов (картинка 4). Посмотрите: проприетарные модели получают 54–70% всех диалогов, а значит им и данных достается гораздо больше. А значит, разработчики могут лучше файн-тюниться под арену. И дальше все превращается в снежный ком.

При этом в статье показано, что это переобучение в чистом виде. То есть чем больше мы файнтюним модель под арену, тем она хуже показывает себя на реальных бенчмарках (в статье брали MMLU).

И это уже не говоря о том, что на арене вендоры могут по-тихому удалять свои модели, что тоже портит статистику и влияет на рейтинги.

Значит ли все это, что арена совершенно бесполезная и непрезентативная? Нет, просто нужно переосмыслять концепцию и вводить больше правил и ограничений. В статье, кстати, даже предложили парочку.

Почитать работу полностью можно здесь (а вот тут, кстати, сами разрабы арены написали на нее свою рецензию-ревью)

Читать полностью…

Data Secrets

11 May 2025 19:50

Наткнулись тут на YouTube на речь Дженсена Хуанга в честь получения премии Эдисона

Оказывается, предприниматель выиграл ее еще в апреле, но вручение произошло только на днях. Премия Эдисона – это очень престижная награда за самые важные и влиятельные коммерческие изобретения и проекты в мире.

Ранее премию получали Стив Джобс, Илон Маск, Тед Тернер (основатель канала CNN) и другие.

Кстати, в этом году Nvidia исполняется 32 года. Но Хуанг говорит, что ключевым моментом для компании стала «ставка на ИИ, сделанная 15 лет назад».

youtu.be/j5jL5OM1hyk

Читать полностью…

Data Secrets

10 May 2025 17:10

ByteDance выпустили Seed-Coder-8B – мини-модель для кодинга, по качеству превосходящую Sonnet 3.7 и o1-mini

Модель вышла в трех версиях: Base, Instruct и Reasoning. Инстракт обходит почти все опенсорс аналоги в своем весе, а ризонинг бьет R1, o1-mini и Claude Sonnet 3.7 на IOI 2024. Контекст – 32к токенов.

В реализации хочется отметить сбор данных. Пайплайн похож на подход DeepSeek на максималках. Для чистки сырых данных (репозитории, коммиты, код из общедоступного веба) почти все ручные фильтры заменили на единый LLM-фильтр.

Для этого специально обучали небольшую модель оценивать читабельность, модульность, ясность, переиспользуемость и тд кода, а затем ее пропускали по датасету и она отбрасывала все самые "плохие" файлы. Так получилось выбросить примерно 10% датасета, то есть буквально кучу мусора.

Датасет, к сожалению, не выложили. Зато все модели в опенсорсе.

Тех.отчет | Репозиторий | Блогпост | Веса

Читать полностью…

Data Secrets

09 May 2025 09:37

В Deep Research в ChatGPT добавили возможность интеграции GitHub

То есть теперь можно присоединить к боту определенный репозиторий и задать по нему любой вопрос. Модель уйдет на несколько минут искать ответ, а после вернется с большим отчетом.

Репорт, который будет отдавать модель, выглядит примерно так, то есть развернутое объяснение со ссылками на конкретные места в коде. Здорово, кстати, что ссылки – это значит именно переадрессация на определенные строки кода на гитхабе, а не просто скопированный в чат кусок файла. Так намного удобнее ориентироваться.

Фичу раскатят на всех платных пользователей в ближайшие дни 🍯

Читать полностью…

Data Secrets

08 May 2025 09:37

Сэм Альтман и Грег Брокман поделились первыми фото с масштабной стройки одного из датацентров проекта Stargate (того самого, в который Америка вкладывает 500 миллиардов долларов)

Альтман пишет, что это будет самый мощный вычислительный ИИ-кластер в мире 🔵

Читать полностью…

Data Secrets

07 May 2025 16:17

Так-так: кажется, OpenAI больше не хочет делиться деньгами с Microsoft 💸

The Information пишет , что после реструктуризации OpenAI планирует сократить долю выручки, которую делит с Microsoft.

Сейчас это 20%, и договор действителен до 2030 года. Но уже сейчас OpenAI говорит потенциальным инвесторам о том, что дальше они планируют делиться не более чем 10 процентами.

Microsoft пока ситуацию не комментируют (ну еще бы)

Читать полностью…

Data Secrets

07 May 2025 12:19

О, там прямо сейчас на Kaggle идет отбор подмосковных школьников на международную олимпиаду по AI IOAI

Соревнование будет идти сегодня, завтра и послезавтра, и фишка в том, что поучаствовать может каждый желающий.

Сегодня и завтра будут три задачи: CV, NLP, табличные данные. Девятого дадут только CV и NLP. Задачки неочевидные, воткнуть градиентный бустинг и уйти не выйдет, нужно думать.

Вот вам и занятие на праздники 👓

www.kaggle.com/competitions/neoai-2025/overview

Читать полностью…

Data Secrets

07 May 2025 10:02

⚡️ Data&ML2Business — конференция с концентратом реального опыта

В этом году 28 мая на в программе:

– практики от ЦИАН, target ai, Яндекса, Петровакс, H&N
– телематика и BI в разработке электромобилей
– аналитика спорта, голосовые сценарии, автоматизация клиентского сервиса
– создание гибридных data-платформ и работа с генеративными моделями в бизнесе

Актуально для C-level и тех, кто отвечает за рост через данные и технологии.

Встречаемся 28 мая в Москве и онлайн. Успейте зарегистрироваться!

Читать полностью…

Data Secrets

06 May 2025 18:20

Nvidia поссорились с Anthropic – причина опять Китай. Обо всем по порядку:

➖ В прошлую среду Anthropic выложили блогпост, в котором выступили за более жесткий контроль экпорта США и введение новых запретов на продажу чипов Nvidia. По мнению компании это ключевой момент в гонке ИИ, и поэтому нужно еще больше снизить экспортный порог для стран Tier 2

➖ В числе прочего в блоге написано, что сейчас чипы ввозятся в Китай контрабандой, в том числе в «протезных детских животах» и «упакованные вместе с живыми лобстерами»

➖ Nvidia официально ответили на этот пост и сильно раскритиковали любое использование политики для ограничения конкурентоспособности. Тут лучше всего просто прочитать дословную цитату:

"В Китае работает половина мировых ИИ-исследователей. Америка не должна манипулировать санкциями, чтобы одержать победу в этой AI гонке. Американские компании должны сосредоточиться на инновациях и принять вызов Китая, а не рассказывать небылицы о том, что большая, тяжелая и чувствительная электроника каким-то образом контрабандой ввозится в детских животах или с живыми лобстерами"

Игра престолов, не иначе 😐

Читать полностью…

Data Secrets

06 May 2025 12:06

Ничего необычного, просто сооснователь OpenAI Грег Брокман на красной дорожке вчерашнего Met Gala

Звезда Голливуда получается 💅

Читать полностью…

Data Secrets

05 May 2025 18:27

Стартап Anysphere (это разработчики Cursor) оценили в 9 миллиардов долларов

По слухам, скоро они получат инвестиции в размере 900 миллионов долларов от крупнейших капиталистов США, в том числе от a16z.

Напоминаем, что еще в декабре стартап стоил 2.5 миллиарда.

Читать полностью…

Data Secrets

05 May 2025 16:08

Твиттерский ML-инженер поделился историей о том, как пошел к травматологу, а получил консультацию от ChatGPT

Когда тот самый мем уже не мем

Читать полностью…

Data Secrets

05 May 2025 12:09

Журналисты нашли на спутниковых снимках три секретных китайских завода Huawei по производству чипов

По сети распространяется все больше слухов об AI Ascend 910D – новых чипах компании Huawei, которые по производительности якобы превзойдут H100 от Nvidia. Есть даже информация, что на этих картах обучают DeepSeek-R2.

А сегодня Financial Times написали, что на спутниковых снимках они нашли три "построенных в одном стиле" завода, расположенных прямо около базы Huawei. Ранее о них никогда не сообщалось, но по словам инсайдеров на этих линиях производят как раз AI Ascend.

Интересно, что судя по снимкам, строить заводы начали сразу после введения Америкой первых технологических санкций. Инсайдеры также говорят, что объекты получают субсидии от государства.

Напоминаем, что сейчас импорт линейки Blackwell в Китае запрещен, поэтому компании и стартапы страдают от нехватки железа. Получается, что если AI Ascend действительно заменит стандарт H100, это может стать переломным моментом в ИИ-гонке.

Читать полностью…

Data Secrets

04 May 2025 11:00

Исследователи из Университета Карнеги-Меллон создали IT-компанию, полностью состоящую из ИИ-агентов. Вот что из этого вышло

Команда исследователей из CMU запустила необычный эксперимент: они создали автономную виртуальную среду, имитирующую небольшую software компанию, и поместили на "реальные" рабочие места современных LLM-агентов. Все оформили в виде бенчмарка и назвали TheAgentCompany.

По сути агенту необходимо делать все то же, что делает типичный работчик IT (картинка 1): писать код, использовать терминал, рыться в браузере и Google Drive, взамодействовать с коллегами в мессенджере, пользоваться GitLab и Jira. Выполнение всех задач, кстати, оценивалось по чекпоинтам, а не просто "выполнил/не выполнил" (картинка 2) + учитывали итоговую стоимость по токенам.

В компании успели поработать Claude 3.5 Sonnet, Gemini-2.0 Flash, GPT-4o, Gemini-1.5-Pro, Llama-3.3 и 3.1, Qwen-2.5 и другие. Задачи покрывали SWE, PM, HR и еще несколько классических сфер. Всего 175 тасок, рассчитанных на 3000 часов труда 20 живых людей.

Результаты в таблицах на картинке 3. Как видите, даже лучший Claude 3.5 Sonnet справляется только с четвертью базовых обязанностей. Следующум идет Gemini 2.0 Flash, но уже с большим отрывом: 11.4%. Все остальные – меньше 9%.

Забавно, что GitLab и кодинг давались агентам довольно легко, а вот самым сложным оказались банальные заполнения форм, браузинг, планирование встреч и общение в мессенджере (им просто не объяснили, что надо мемы отправлять).

Хороший бенч, побольше бы таких

Статья | Код | Сайт (лидерборд внутри) | Результаты экспериментов

Читать полностью…

Data Secrets

03 May 2025 11:59

Сегодня ночью Gemini 2.5 Pro впервые полностью прошла Pokémon Blue

Это первый случай полного прохождения моделью культовой франшизы. До этого в покемонов играл Claude Sonnet 3.7, но до конца он дойти так и не смог: застрял в карте.

Gemini 2.5 Pro на все прохождение понадобилось всего нескольких сотен часов. Правда, с небольшой помощью.

Например, для улучшения навигации на кадры в эмуляторе накладывается сетка (+ есть текстовая карта), а для решения головоломок и планирования маршрутов используются дополнительные агенты (тоже экземляры Gemini). Память тоже обновляется не абы как, а по специальной подходящей под игру логике.

Проект независимый, его запускали не в Google. Разработчики говорят, что сейчас готовятся запускать прохождения с o3 и Сlaude.

Лайвстрим можно смотреть здесь

Читать полностью…

Data Secrets

02 May 2025 10:16

Anthropic анонсировали Интеграции: теперь к Claude можно присоединить любой источник ваших данных

Это работает так: вы присоединяете какое-то свое приложение (ну, например, базу знаний Confluence), и с этого момента во время поиска бот будет искать не только в Интернете, но и по вашей интеграции.

При этом, конечно, можно попросить поискать только в базе знаний, задать по ней любой вопрос, выгрузить оттуда код и поработать с ним и прочее и прочее и прочее, любые действия с этим контекстом.

По сути это верифицированные MCP внутри чат-бота. Сейчас в партнерах уже Atlassian, GitLab, Asana, PayPal, CloudFlare и еще с десяток сервисов. Их можно подсоединить в пару кликов. Если нужного вам сервиса среди них нет, то можно и свой добавить, но потребуется чуть больше времени и сил.

www.anthropic.com/news/integrations

Читать полностью…

Subscribe to a channel