353146
Самая актуальная информация из мира ML, Нейронных сетей,DI По всем вопросам- @haarrp @itchannels_telegram - 🔥 best it channels @pythonl - 🐍 @machinee_learning -chat @ArtificialIntelligencedl - AI @datascienceiot - ml 📚 @machinelearning_ru ml
Opus 4.8 появился в выборе моделей Claude Code в десктопном приложении.
Похоже, сегодня день релиза 🚀
https://x.com/Machinelearrn/status/2060014943781412903
@ai_machinelearning_big_data
#claude #opus
🐟 Китай придумал, как выжать из одного водоёма больше пользы.
Сверху - плавучие солнечные панели, которые дают электричество.
Снизу - фермы, где выращивают рыбу, креветок и крабов.
Такую схему называют FPC - fishery-photovoltaic complementary.
Водоём одновременно становится и солнечной электростанцией, и рыбной фермой.
Больше чистой энергии и дополнительный доход от выращивания морепродуктов.
@ai_machinelearning_big_data
✔️ MiniMax показали тизер Sparse Attention для M3.
На 1M токенов - 9.7x ускорение префилла и 15.6x на декоде против M2.
В марте их лид по претрейну писал, почему для M2 откатились на full attention: эффективные варианты не были готовы к проду.
Спустя полгода готовы.
Схема двухстадийная. Сначала лёгкая index-ветка выбирает релевантные блоки KV. Дальше sparse attention считается только по ним, а не по всему контексту.
Дешёвый 1M-контекст в опенсорсе - это другой режим работы с длинным контекстом и другая экономика инференса для агентов.
Ждём техрепорт и замеры качества. Ну и приятно, что всё это в опенсорсе.
https://x.com/MiniMax_AI/status/2059286515155599595
#MSA #OpenSource #M3
✝️ Крис Олах в Ватикане: зачем сооснователь Anthropic говорил об ИИ перед Папой
25 мая Папа Лев XIV выпустил энциклику об ИИ «Magnifica humanitas» - о защите человека в эпоху искусственного интеллекта. На её презентации выступал Крис Олах, сооснователь Anthropic и один из ключевых людей в интерпретируемости моделей.
Речь короткая, но для ИИ-индустрии там есть несколько интересных сигналов.
Первый - редкое признание от человека из фронтирной лаборатории. Олах прямо говорит: такие компании, включая Anthropic, живут в системе стимулов, которая не всегда совпадает с тем, что правильно для общества. Коммерческое давление, гонка за лидерством, геополитика, амбиции, гордость - всё это влияет на решения.
Отсюда его вывод: индустрии нужны внешние критики, которых эти стимулы не смогут согнуть. По сути, это не отмашка от надзора, а приглашение к нему - со стороны церкви, академии, общества и независимых институтов.
Олах настаивает: современные ИИ-системы не «проектируют» в классическом инженерном смысле. Их скорее выращивают - на архитектурах, грубо вдохновлённых мозгом, и на огромном массиве человеческой речи, культуры и мышления.
Поэтому даже создатели не до конца понимают, что именно происходит внутри.
Для широкой аудитории Олах использует сильную метафору:
будто вымышленный персонаж ожил, начал разговаривать с нами и выполнять работу.
Ребята из Авито приглашают на новый ML Reading Club. В среду разберём технический репорт DeepSeek V4 🤖
Обсудим:
➡ Эволюцию прошлых разработок DeepSeek в V4.
➡ Новый механизм Compressed Attention и контексты до 1 млн токенов.
➡ Проблемы Pretrain и как команде удалось их решить.
➡ On-Policy Self Distillation — новый подход к Post-Training.
➡ Инфраструктурные инновации и трюки обучения модели.
📌 27 мая, 18:30
Ссылку направим за час до эфира в канал.
📌 Anthropic опубликовала апдейт по проекту Glasswing
Glasswing - инициатива по поиску уязвимостей в системно значимом программном обеспечении с помощью ИИ.
В числе подтверждённых: уязвимость в криптографической библиотеке wolfSSL (CVE-2026-5194), которая позволяла подделывать сертификаты сайтов (уже исправлена).
В отчёте также упомянут эпизод в одном из банков-партнёров: по словам Anthropic, модель помогла предотвратить мошеннический перевод на 1,5 миллиона долларов после взлома почты клиента.
Название банка и подробности инцидента не раскрываются.
30 мая — день открытых дверей Школы естественных наук ЦУ
Новая программа ШЕН «ИИ в биотехе» реализуется совместно с инженерной школой и факультетом биоинженерии и биоинформатики МГУ, а также индустриальными партнерами: Genotek и BIOCAD.
Она идеально подойдет для тех, кто хочет применять математику, код и машинное обучение в биологии и медицине.
Что будет на мероприятии:
— Покажем, как ИИ применяется в биотехе: от анализа геномов до дизайна лекарств;
— Расскажем о продуктовом подходе в высшем образовании, новом наборе и грантовом конкурсе 2026;
— Подробно расскажем про магистратуру: курсы, преподаватели, формат обучения.
Получи грант в день мероприятия!
В день открытых дверей будет действовать «One-day-offer» — 30 мая можно будет пройти собеседование и получить решение о гранте.
Расписание дня открытых дверей:
15:30–17:00 — основная программа
17:00–19:00 — собеседования и one-day-offer
Место проведения: кампус Центрального университета
Хочешь узнать все о Школе естественных наук и поступить в магистратуру с грантом в тот же день? Приходи!
Регистрация на день открытых дверей по ссылке
Orion soft запускает Сезон ИИ-инфры
Чтобы ИИ приносил конкретные результаты, важно понимать ограничения своей ИТ-инфраструктуры. Спецпроект российского разработчика ПО поможет пройти практический путь к ИИ: от первичной оценки готовности инфраструктуры — до конкретных решений и рекомендаций экспертов, которые внедряют ИИ в продакшн.
⚡️ Cursor выпустил Composer 2.5 - свою самую мощную модель.
Главное:
- умнее в рассуждениях и работе с кодом
- заметно выносливее на длинных задачах: рефакторинги, миграции, многочасовые агентские прогоны больше не разваливаются на полпути
- строже следует сложным инструкциям - держит рамки, ограничения и стиль проекта.
Cursor сообщает, что вместе с SpaceXAI обучает с нуля гораздо более крупную модель - задействовано в 10 раз больше совокупных вычислительных мощностей и миллион эквивалентов H100 из кластера Colossus 2.
Бонус: всю неделю включённые лимиты модели удвоены - самое время обкатать на своих задачах.
https://cursor.com/blog/composer-2-5
Увидимся на Дне открытых дверей магистерской программы «Исследования и предпринимательство в ИИ» ФКН НИУ ВШЭ и МТС? 👀
22 мая расскажут, как учат создавать и внедрять инновационные продукты, используя передовые методы: от больших языковых моделей и генеративных нейросетей до инструментов компьютерного зрения и NLP. Будет актуально для тех, кто задумывается о поступлении в магистратуру в 2026
Самое важное:
✅ 100% стоимости обучения (30 мест) финансирует МТС
✅ проекты реализуются на виртуальной инфраструктуре компании
✅ преподаватели — команда преподавателей ФКН НИУ ВШЭ и действующие эксперты из МТС и MWS AI
✅ карьера после выпуска? Роль ML/AI-разработчика или специалиста по Data Science, собственный стартап в сфере ИИ или исследования в R&D-центрах коммерческих компаний
На встрече команда магистратуры:
— поделится деталями о программе, учебном плане и фокусах развития: исследовательском и предпринимательском
— обсудит особенности поступления в 2026 году и формат отбора
— расскажет о процессе обучения и результатах — в этом помогут сами студенты и выпускники
📍 Когда: 22 мая, 18:30
📍 Формат: онлайн
📍 Запись встречи: разместят в канале магистратуры
Чтобы не пропустить трансляцию и задать все вопросы, зарегистрируйтесь на сайте!
Мои два ИИ-агента, работающие над одним и тем же проектом:
Читать полностью…
X выложили обновленный алгоритм For You на GitHub
Можно посмотреть, как X собирает и ранжирует ленту рекомендаций.
В репозитории xai-org/x-algorithm опубликован код системы, которая питает For You feed: от подбора кандидатов на показ до финального ранжирования постов. Внутри два основных источника контента:
- посты от аккаунтов, на которые вы подписаны
- посты из глобального корпуса, найденные через ML-retrieval
Дальше всё прогоняется через Phoenix - transformer-модель на базе архитектуры Grok. Она оценивает вероятности действий пользователя: лайк, реплай, репост, клик и другие сигналы. После этого система собирает итоговый score и решает, что именно попадёт в ленту.
Можно посмотреть, какие сигналы действительно влияют на рекомендации, как устроен ranking pipeline и где платформа фильтрует контент перед показом.
GitHub: https://github.com/xai-org/x-algorithm
@ai_machinelearning_big_data
Руководитель направления «AI для разработки» в 2ГИС
Ищем руководителя, который поможет встроить AI в работу 800+ инженеров.
Не с нуля: AI-инструменты уже используются в командах, теперь важно собрать сильное направление, масштабировать рабочие практики и сделать AI частью ежедневной разработки.
Что нужно:
— опыт управления командой или направлением в IT
— технический бэкграунд (разработка / инженерия)
— практический опыт работы с AI-инструментами (Cursor, Copilot, Claude и др.)
— понимание процессов разработки: CI/CD, code review, incidents
Что делать:
— собрать core-команду
— запускать AI-пилоты в командах
— развивать внутренние AI-инструменты
— измерять результат и улучшать процессы
Удалёнка или гибрид. Белая зарплата, ДМС, аккредитованная IT-компания.
Подробнее и отклик здесь
Другие инженерные инсайты от 2ГИС → в Telegram-канале RnD
#реклама
О рекламодателе
Устройтесь в Яндекс за выходные: 30–31 мая
Если вы ML- или DL-инженер с опытом в доменных областях NLP, CV, RecSys и Classic ML, участвуйте в Weekend Offer ML. Это один из наймовых ивентов Яндекса: вы проходите все секции онлайн в ускоренном режиме и сразу получаете обратную связь.
Как всё устроено:
🔴 до 20 мая — регистрация;
🔴 30 мая — две технические секции, вместо трёх в обычном найме;
🔴 31 мая — финальное интервью с командами и офер.
Если хотите работать в одной из команд Яндекса — R&D, Поиск с Алисой AI, Яндекс Карты, Алиса и Умные устройства, Рекламные технологии Яндекса — регистрируйтесь!
Подробности и полезные ссылки — на сайте: https://yandex.ru/project/events/wo-ml-0526. После регистрации с вами свяжется рекрутер и расскажет все детали.
Энтузиаст собрал «Википедию», где всё на 100% выдумано ИИ
Проект называется Halupedia.
На сайте нет заранее написанных статей. Каждая страница появляется только в тот момент, когда ты её открываешь. Правило одно: эта вселенная существует только пока на неё кто-то смотрит.
Выглядит всё почти как Wikipedia: шрифты, верстка, академический тон, ссылки, случайная статья через stumble. Только есть маленький нюанс - ничего из этого не существовало до клика.
Примеры статей там уже сами по себе прекрасны:
- Великая перепись голубей 1887 года
- Министерство слегка неправильных карт
- Халдическая арифметика - раздел математики, где запрещено вычитание
- Армунд, картограф рек - человек, который нанес на карту 14 000 лиг рек, не вставая со стула
- Общество по предотвращению ненужных вторников
На странице ещё показывается, сколько людей читают статью прямо сейчас. Обычно там фраза в духе: «вы один сейчас изучаете этот фолиант».
Но лучший поинт - описание от автора:
«Энциклопедия вселенной, которая не существует, пока вы её не посетите».
Бэкенд тоже в тему: open-source репозиторий vibeserver с описанием «маленький веб-сервер, который придумывает вещи ровно вовремя».
Мы построили крупнейшую базу знаний в истории человечества, а потом кто-то сделал её кривое галлюцинирующее отражение и выложил в открытый интернет.
Вот это уже нормальное использование ИИ.
halupedia.com
@ai_machinelearning_big_data
✔️ VK Музыка показала интересный кейс по cold start в рекомендательных системах.
Проблема классическая: алгоритму нужны сигналы (дослушивания, лайки, скипы, сохранения), чтобы понять, кому рекомендовать новый объект. Но у свежего трека статистики еще нет. В итоге рекомендации часто начинают работать слишком поздно. А в музыке, где у релиза буквально несколько дней на разгон, это критично.
Вместо ожидания накопления данных VK Микс по сути делает искусственный контролируемый warm start. Сначала показывает новый трек ядру самых лояльных слушателей артиста. Так модель быстро получает первичную статистику и начинает масштабировать показ дальше.
Дополнительно в системе сделали почасовое обновление счетчиков. В результате новые треки начинают попадать в рекомендации менее чем за 30 минут. По данным VK, это в 24 раза быстрее среднего по рынку.
Интересный пример того, как проблему холодного старта начинают решать не только моделью, но и через продуманную организацию работы всей рекомендательной системы.
@ai_machinelearning_big_data
#news #ai #ml
✔️ Яндекс представил Alice AI LLM Flash — новую b2b-модель для задач с большим потоком текстов и документов
Модель оптимизирована под сценарии, где критичны скорость ответа и стоимость инференса: модерация контента, техподдержка, классификация обращений, поиск по базам знаний и другие массовые задачи.
Что заявляет компания:
🟡в типовых бизнес-сценариях модель почти в 5 раз дешевле предыдущих решений Яндекса
🟡в 56% случаев Alice AI LLM Flash превосходит GPT-5.4 mini по качеству выполнения бизнес-задач
🟡в диалоговых сценариях преимущество достигает 73%, в структуризации текста — 66%
«Яндекс выходит на новый для себя рынок моделей, созданных специально под запросы бизнеса. Alice AI LLM Flash поможет российским компаниям перейти на российские нейросети для автоматизации работы с огромными объемами данных», — руководитель платформы Yandex AI Studio Артур Самигуллин
Яндекс Образование совместно с Томским политехом запускают новый студкемп
Интенсив «Компьютерное зрение и наука» пройдёт с 10 по 23 августа на базе ТПУ. Две недели задач с упором на реальные данные и системное понимание CV.
Что будет внутри студкемпа:
— Задачи из индустрии и науки: робототехника, медицина, автоматизация
— Работа с современным стеком: от DL-архитектур до мультиагентных систем на основе VLM
— Практика на исследовательских данных и работа над собственным проектом
— Лекции и разборы от инженеров Яндекса и исследователей ТПУ
— Нетворк со студентами и ML-специалистами со всей России
Участие бесплатное, всем прошедшим отбор Яндекс Образование оплатит дорогу и проживание. Для тестового потребуются знания линейной алгебры, теории вероятностей, матстата, Python, базовых ML/CV-библиотек.
Дедлайн регистрации: 14 июня. Подать заявку можно по этой ссылке
Для всех, кто закопался в коде и не успел отправить форму — выдыхайте, ведь организаторы подвинули дедлайн из-за большого количества запросов!
Это ваш шанс заявить о себе и показать комьюнити своих проекты в области ML!
И небольшой лайфхак по поводу оформления: если вы решите добавить к заявке видеовизитку, ее можно отправить и позже, уже после заполнения основной анкеты, однако сделать это необходимо строго до 1 июня 23:59.
А если до сих пор сомневаетесь, стоит ли делиться наработками, просто посмотрите, о каких крутых вещах рассказывали коллеги на прошлой Practical ML Conf.
✔️ Codex научился извлекать скрытый текст приложений через Appshots
OpenAI добавила в macOS-клиент Codex функцию Appshots для быстрой передачи контекста активного окна ИИ-ассистенту.
По нажатию обеих клавиш Command система делает снимок экрана и извлекает исходный текст приложения через Accessibility API, включая данные за пределами области прокрутки. Это позволяет передавать логи, API-документацию и код без ручного копирования.
Для работы требуются разрешения macOS на запись экрана и универсальный доступ. Нововведение дополняет режим автономного управления интерфейсом Computer Use и доступно на всех тарифах Codex.
openai.com
✔️ Black Forest Labs выпустила инпэйнт-модель FLUX Erase
FLUX Erase предназначена для удаления объектов с изображений. Модель работает по маске без текстовых промптов, достраивая фон, текстуры и тени.
Скорость генерации - 4,54 секунды на изображении 1024х1024. По оценке BFL, ближайшие аналоги тратят на ту же задачу более 12 секунд. Стоимость API-запроса составляет 3 цента мегапиксельную картинку.
В тестах на качество ретуши FLUX Erase обходит GPT Image-2 и Finegrain Eraser Standard, а по стоимости опережает Nano Banana Pro. Модель доступна только через API, попробовать FLUX Erase можно в бесплатном веб-демо.
bfl.ai
✔️ В Claude Code закрыли уязвимость, позволявшую красть токены разработчиков
Anthropic пропатчила уязвимость в песочнице Claude Code. Баг позволял извлекать токены и исходный код разработчиков через инъекцию нулевого байта в SOCKS5.
Внутренний фильтр считал строку с нулевым символом безопасной, после чего операционная система обрезала текст по байту и подключалась к заблокированному хосту. В связке с промпт-инъекцией через анализируемые моделью файлы механизм давал возможность выполнять код и отправлять данные на сторонние серверы.
Уязвимость присутствовала в релизах до версии 2.1.89. Патч вышел в сборке 2.1.90 без упоминания в чейнджлоге и регистрации CVE. По заявлению Anthropic, разработчики обнаружили и закрыли баг внутренними силами до публикации отчета исследователей.
theregister.com
✔️ Perplexity открыла исходный код сканера локальных уязвимостей
Bumblebee - утилита для поиска уязвимостей на локальных машинах под macOS и Linux. Сканер выявляет скомпрометированные зависимости, вредоносные плагины и опасные конфигурации ИИ-инструментов.
Инструмент работает исключительно в режиме чтения: анализирует метаданные и lock-файлы без запуска пакетных менеджеров. Это исключает случайное выполнение вредоносных скриптов при проверке зараженных библиотек.
Bumblebee анализирует 4 вектора: пакетные менеджеры, расширения для редакторов кода (семейство VS Code, включая Cursor и Windsurf), браузерные плагины и конфигурации ИИ-агентов на базе протокола MCP.
ИБ-команды могут интегрировать сканер в MDM-решения, загружать кастомные индикаторы компрометации и запускать проверки в трех режимах - от фонового мониторинга до глубокого расследования инцидентов.
perplexity.ai
✔️ Губернатор Калифорнии подписал указ о защите рынка труда от ИИ
Штат планирует выделять субсидии бизнесу, который отказывается от замены сотрудников нейросетями, и финансировать программы переобучения офисных работников.
Дополнительно правительство совместно с ИИ-индустрией рассмотрит концепцию универсального базового капитала в виде распределения среди граждан долей в фондах или акций компаний.
В администрации признают нехватку стандартных пособий по безработице и планируют пересмотреть налоговую систему. По оценке властей, сейчас она экономически поощряет внедрение алгоритмов и дестимулирует наем людей.
gov.ca.gov
@ai_machinelearning_big_data
#news #ai #ml
✔️ Antigravity втрое повысил лимиты
Варун Мохан, участник команды разработки Google Antigravity и бывший основатель Windsurf, объявил в сети X о пересмотре правил использования моделей Gemini на платформе.
По его словам, лимиты запросов для всех платных тарифов Gemini увеличиваются втрое на постоянной основе, а недельные квоты пользователей Antigravity будут сброшены и начислены заново. Изменения уже вступили в силу.
Сообщение стало реакцией на критику со стороны разработчиков, недовольных функциональными ограничениями платформы и высоким расходом ресурсов при работе с ней.
Мохан признал, что команда допустила ошибки при принятии ряда решений, и пообещал внимательнее учитывать обратную связь сообщества при дальнейшей доработке продукта.
@ai_machinelearning_big_data
#news #ai #ml
Андрей Карпаты перешёл в Anthropic
Один из самых известных людей в индустрии - сооснователь OpenAI, бывший директор по ИИ в Tesla, автор легендарных лекций по нейросетям - официально объявил о переходе в Anthropic.
В твите он написал, что ближайшие несколько лет на фронтире LLM будут особенно формирующими, и он рад вернуться к R&D в команде Anthropic. Образовательные проекты, включая Eureka Labs, обещает не бросать и вернуться к ним позже.
Карпаты последние пару лет фактически был «свободным агентом» - выпускал собственные туториалы, строил Eureka Labs, считался одной из самых независимых фигур в ИИ.
Его выбор в пользу Anthropic, а не OpenAI, xAI или Google, многое говорит о том, где сейчас концентрируется самая интересная исследовательская работа.
С учётом недавнего policy paper Anthropic про 2028 год и фронтирные модели - у компании явно идёт серьёзная фаза найма под большие задачи.
https://x.com/karpathy/status/2056753169888334312
@data_analysis_ml
🖥 Создатель C++ разнёс вайбкодинг: “сеньоры не хотят разгребать этот мусор”
Бьёрн Страуструп, легендарный создатель C++, в новом двухчасовом интервью резко прошёлся по вайбкодингу.
Главная претензия простая: сгенерированный код пока слишком часто выглядит красиво только на демке. В реальном проекте он приносит баги, раздувает кодовую базу, плодит уязвимости и плохо поддаётся нормальной проверке.
Особенно больно это бьёт по опытным разработчикам. Им потом приходится не “магически ускоряться с ИИ”, а читать, чинить и переписывать слоп, который кто-то нагенерировал за пять минут.
Похожая история уже достала и Линуса Торвальдса. Его буквально завалили кривыми AI-отчётами по ядру Linux: вроде бы люди “помогают”, а на практике создают шум, который мешает настоящей разработке.
Сеньоры не боятся ИИ.
Они просто не хотят провести остаток карьеры, разгребая чужой промптованный мусор.
https://www.youtube.com/watch?v=U46fJ2bJ-co
@cpluspluc
Qwen3.7 уже залетел на Arena😻
Версии
• Qwen3.7-Max-Preview
• Qwen3.7-Plus-Preview
Это пока preview-версии, вот их результаты:
- #6 на Text
- #5 в Vision
Ждём полноценный релиз.
Изначально ожидалось, что её анонсируют и запустят на Alibaba Cloud Summit 20 мая, но, похоже, команда Alibaba Qwen просто не смогла ждать ивент!
chat.qwen.ai
@ai_machinelearning_big_data
🌟 Raindrop открыла исходный код локального отладчика агентов Workshop
Инструмент интегрируется с Claude Code, Cursor и другими кодинг-агентами.
Raindrop - стартап из 9 человек, основанный в 2023 году, который позиционирует себя одним из первых, кто оформил мониторинг для ИИ-агентов как отдельный продуктовый класс.
Цикл повторяется автоматически, пока не пройдут все проверки.
✔️ Отец русской математики, без которого не было бы современного ML: 205 лет Пафнутию Чебышеву
16 мая 1821 года в селе Окатово Калужской губернии родился Пафнутий Львович Чебышев. Человек, без работ которого современный data science выглядел бы совсем иначе: ни тебе закона больших чисел в привычной форме, ни оценок отклонений, ни нормальной теории приближений.
Чебышев основал петербургскую математическую школу и почти 35 лет вёл кафедру математики в Санкт-Петербургском университете. Через его руки прошли Ляпунов, Марков и Стеклов, то есть люди, чьи имена сегодня встречаются в любой книге по статистике и теории вероятностей.
Главное, чем он остался в математике: многочлены Чебышева, неравенство Чебышева, результаты по распределению простых чисел и фундамент теории приближений. Если кто-то когда-то открывал учебник по ML, он сталкивался с этим неравенством в первой же главе про концентрацию меры. Многочлены Чебышева до сих пор используют в численных методах, фильтрах и аппроксимациях, на которых построены реальные инженерные системы.
Теперь обещанная история. Чебышев с детства хромал на одну ногу из-за врождённого дефекта, обычные детские игры были для него почти недоступны, и мать делала ставку на учёбу. Именно эта хромота, по воспоминаниям современников, и подтолкнула его всю жизнь возиться с механизмами: он хотел понять, как можно превратить вращательное движение в прямолинейное, чтобы шаги людей и работа машин были ровными. В итоге он построил больше 40 механических устройств, включая знаменитую стопоходящую машину, которая на Всемирной выставке в Париже в 1878 году ходила как настоящее живое существо. Это был один из первых в истории шагающих механизмов, фактически прадед современных шагающих роботов.
Ещё один штрих: Чебышев почти всю свою преподавательскую зарплату тратил на инструменты и модели для собственной мастерской, а женат так и не был, говорил, что наука для него важнее. При этом в Европе его называли просто «русский Эйлер», а Французская академия наук избрала его иностранным членом ещё при жизни.
@ai_machinelearning_big_data
✔️ GPT 5.5 полностью решила задание из бенчмарка ProgramBench
Команда ProgramBench сообщила, что модель GPT 5.5 в режимах high и xhigh впервые в истории теста полностью прошла одно из заданий - задачу cmatrix.
До этого ни одна модель из публичного рейтинга не доводила задания до конца.
ProgramBench - набор реальных задач программирования, в которых агент должен с нуля переписать утилиту с открытым исходным кодом и пройти при этом скрытые поведенческие тесты.
Примечательно, что в режиме medium, который OpenAI выставляет по умолчанию, GPT 5.5 лишь незначительно опережает Claude Sonnet 4.6. При включении расширенного рассуждения её результат заметно улучшается.
Интересно, что 2 версии GPT 5.5 выбрали разные языки для одной и той же задачи: high решала на C с ANSI escape-последовательностями, xhigh предпочла Python.
Claude Opus 4.7 (xhigh) использовала библиотеку ncurses и команда бенчмарка охарактеризовала этот подход как креативное системное решение, которое, впрочем, не дало преимущества в итоговом результате.
⚡️ Anthropic вводит ежемесячный кредит для разработчиков
С 15 июня все платные тарифы Claude получат отдельный месячный кредит на программное использование.
Кредит покрывает:
• Claude Agent SDK
claude -p (CLI)
• Claude Code GitHub Actions
• Сторонние приложения на базе Agent SDK
И главное - автоматизация и агенты на Claude не будут «съедать» обычный лимит подписки - для них выделен свой бюджет.
https://support.claude.com/en/articles/15036540-use-the-claude-agent-sdk-with-your-claude-plan
@ai_machinelearning_big_data
✔️ Anthropic собрала юридический стек поверх Claude Opus 4.7
Компания выпустила набор инструментов для юристов: 20+ MCP-коннекторов и 12 плагинов под отдельные практики.
Claude работает внутри Microsoft Word, Outlook, Excel и PowerPoint и умеет переносить контекст: правки к договору в Word не нужно заново объяснять при составлении сопроводительного письма в Outlook.
Коннекторы дают доступ к Docusign, iManage, NetDocuments, Relativity, Everlaw, Datasite, Box, Thomson Reuters CoCounsel и базам прецедентов Free Law Project и Midpage.
Плагины покрывают корпоративное право, M&A, трудовые споры, приватность, регуляторику, интеллектуальную собственность и ведение судебного производства.
При установке каждый плагин проходит короткое сетап-интервью и подстраивается под стандарты компании, цепочку согласований и стиль оформления.
По словам Anthropic, плагины ускоряют поиск прецедентов, сверку договоров с базой знаний и первичный комплаенс.
Всё доступно корпоративным пользователям в Claude Cowork.
@ai_machinelearning_big_data
#news #ai #ml
✔️ Релиз Ernie 5.1: треть параметров Ernie 5.0 и 4 место в Arena Search Leaderboard
Baidu выпустила языковую модель Ernie 5.1 с закрытыми весами. Затраты на претрейн составили 6% от типичного бюджета для моделей этого класса.
Новинка построена на базе Ernie 5.0, но содержит треть от общего числа параметров и использует вдвое меньше активных параметров при инференсе.
В Arena Search Leaderboard модель заняла 1 место среди китайских сетей и 4 в мире. По заявлению Baidu, в тестах агентов Ernie 5.1 обходит DeepSeek-V4-Pro, а в логике и математике сопоставима с Gemini 3.1 Pro.
Основной претрейн выполнили при создании Ernie 5.0, для версии 5.1 потребовалось только извлечь оптимальную конфигурацию.