ai_machinelearning_big_data | Technologies

Telegram-канал ai_machinelearning_big_data - Machinelearning

353147

Самая актуальная информация из мира ML, Нейронных сетей,DI По всем вопросам- @haarrp @itchannels_telegram - 🔥 best it channels @pythonl - 🐍 @machinee_learning -chat @ArtificialIntelligencedl - AI @datascienceiot - ml 📚 @machinelearning_ru ml

Subscribe to a channel

Machinelearning

✔️ Google представила опенсорсный стандарт передачи дизайн-систем ИИ-агентам.

Формат DESIGN.md, изначально созданный для ИИ-инструмента Stitch, позволяет упаковать визуальные правила бренда в единый машиночитаемый файл.

Структура DESIGN.md совмещает точные значения переменных в формате YAML (цвета, размеры шрифтов, отступы) с простыми текстовыми заметками, объясняющими логику их применения.

Опираясь на разметку, агенты могут генерировать UI-компоненты в строгом соответствии с корпоративным стилем компании, а также автоматически проверять готовый дизайн на соответствие стандартам доступности WCAG.

Проект опубликован на GitHub под лицензией Apache 2.0 и пока находится в стадии альфа-тестирования.

В комплекте разработчики выпустили CLI-утилиту для валидации файлов, их сравнения и быстрого экспорта в W3C DTCG или Tailwind.

Создать кастомный DESIGN.md можно бесплатно на платформе Stitch.


@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

🚀 DeepSeek выкатили V4 и сделали то, к чему все шли последние два года.

Длинный контекст больше не фича для демо. Теперь это базовый уровень.

Пока Запад празднует релизы с пафосными стримами, китайцы из DeepSeek сегодня утром просто выложили в Hugging Face две открытые модели и пошли пить чай. А теперь весь твиттер пытается осознать, что произошло. V4-Pro на 1.6 триллиона параметров с 49 миллиардами активных и V4-Flash на 284 миллиарда с 13 активными. Обе открытые, обе с миллионом контекста по дефолту, обе уже доступны через API и на chat.deepseek.com.

Главная фишка даже не в размере, а в том, что DeepSeek пересобрали внимание. Они запихнули в модель токенную компрессию и свою DeepSeek Sparse Attention, за счёт чего длинный контекст стал буквально дешёвым.

Не «технически возможным за пять долларов за запрос», как у конкурентов, а реально дешёвым. 1М теперь стандарт во всех официальных сервисах, а не премиум-опция за отдельную плату.

По цифрам V4-Pro претендует на открытый SOTA в агентном кодинге, тащит математику и STEM и в общих знаниях уступает только Gemini 3.1 Pro. Flash-версия идёт следом почти вплотную по ризонингу и ровно держит планку Pro на простых агентных задачах, но с меньшей задержкой и смешным прайсом.

Отдельно интересно, что API теперь поддерживает и формат OpenAI ChatCompletions, и Anthropic, с переключением между Thinking и Non-Thinking режимами. Старые deepseek-chat и deepseek-reasoner отключат 24 июля 2026, так что у команд есть три месяца на миграцию.

И конечно, DeepSeek не забыли ткнуть Anthropic в бок: в треде прямо написано, что V4 «бесшовно интегрируется с Claude Code, OpenClaw и OpenCode». То есть пока у Anthropic вчера был пост-мортем про сломанный харнесс, DeepSeek сегодня предлагает подменить им модель и сэкономить.

Закрытые лаборатории будут делать вид, что ничего не случилось, но стоимость миллиона токенов контекста только что стала публичной ценой, и от неё уже не отмотаешь.

📄 Tech Report: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
🤗 Open Weights: https://huggingface.co/collections/deepseek-ai/deepseek-v4

@ai_machinelearning_big_data

#DeepSeek

Читать полностью…

Machinelearning

«Норникель» показывает, как промышленность масштабирует AI не в пилотах, а в продакшене.

Компания запустила программу по разработке более чем 30 ИИ-агентов для бизнес-задач — от сложных агентских систем до ассистентов сотрудников. Проект реализуется с Yandex B2B Tech, подразделением Яндекса, которое отвечает за все технологические проекты для бизнеса.

Ключевое — архитектура: гибрид из собственных мощностей и Yandex AI Studio. «Норникель» стал одной из первых крупных горно-металлургических компаний, внедривших LLM в собственный контур с использованием облака.

Отдельно — про безопасность. В проекте реализован подход с подключением через выделенное физическое соединение, без хранения данных у провайдера. Это позволяет использовать ИИ внутри корпоративной сети без выхода в интернет — критично для отраслей с высокими требованиями к ИБ.

Результаты уже измеримы: в ряде сценариев сроки сокращаются с 30 дней до нескольких часов.

Кейс и другие истории применения ИИ в бизнесе разберут на конференции об ИИ AI2Business 28 мая в Москве: ссылка на регистрацию.

Читать полностью…

Machinelearning

🌟 Ai2 представил способ обновлять навыки LLM по одному, без полного ретрейна

Институт Аллена выпустил BAR - рецепт посттрейна, в котором доменные эксперты обучаются по отдельности, а затем собираются в единую MoE-модель через обучаемый роутер.

Метод снимает давнюю проблему: как добавить модели новый навык, не переобучая её целиком и не разрушая то, что она уже умела.


Замена код-эксперта на версию, обученную на более качественных данных с RL, даёт +16.5 пунктов на кодинге при почти нулевом влиянии на другие домены. Добавление RL к существующему math-эксперту - +13 пунктов.

Стоимость обновления одного домена масштабируется линейно, а не квадратично, как в монолитном пайплайне, где любое улучшение требует прогона всех доменов заново

Основа BAR - прогрессивное размораживание общих параметров по стадиям. На mid-training они остаются заморожены, а на этапе SFT размораживаются эмбеддинги и хэд: без этого эксперт не умеет вводить новые специальные токены (например, для вызова функций).

На RLVR размораживается всё, включая внимание. Каждый эксперт при этом учится на смеси доменных и общих SFT-данных: чистый доменный SFT ломает следование инструкциям и общие знания.

После обучения эксперты сливаются простым усреднением разошедшихся общих параметров, а роутер дообучается на стратифицированной 5%-й выборке SFT-данных.

Тестовая модель BAR-5x7B на основе Olmo 2 7B с экспертами по математике, коду, tool use и безопасности набирает 49.1 балла против 47.8 у монолитного переобучения на стадии посттрейна и 46.7 у BTX, где эксперты обучаются как полностью независимые плотные модели.


Ai2 выложил полный набор чекпоинтов, на которых валидировался метод: исходную 7B-модель как точку старта, базовый двухэкспертный MoE, а также промежуточные и финальные версии доменных экспертов - по математике и программированию в двух вариантах (после SFT и после SFT+RLVR), плюс экспертов по tool-use и безопасности, обученных только через SFT. Завершает набор итоговая пятиэкспертная MoE-модель с обученным роутером, объединяющая все домены.


📌Лицензирование: Apache 2.0 License.


🟡Набор моделей
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #Train #BAR #Ai2

Читать полностью…

Machinelearning

🌟 Google выпустила Deep Research и Deep Research Max

Компания представила 2 новых автономных агента в Gemini API - Deep Research и Deep Research Max. Оба построены на Gemini 3.1 Pro и доступны через Interactions API.

Главное изменение по сравнению с декабрьским превью - поддержка MCP: теперь агент умеет выходить за пределы открытого веба и работать с закрытыми корпоративными источниками данных.

🟢Deep Research оптимизирован под скорость и низкую стоимость. Он заменяет декабрьскую preview-версию и предназначен для интерактивных сценариев, где ответ нужен быстро.

🟠Deep Research Max использует расширенный test-time compute, итеративно рассуждает, ищет и уточняет финальный отчёт.

Типичный сценарий: асинхронные фоновые процессы, например ночной cron-job, готовящий аналитикам к утру набор подробных аналитических отчётов.


По внутренним замерам Google, Max консультируется с заметно большим числом источников и точнее взвешивает противоречивые свидетельства, чем декабрьская версия. Все отчёты полностью сопровождаются ссылками (от документов SEC до открытых рецензируемых журналов).

Инструменты агента можно включать одновременно: Google Search, URL Context, Code Execution, File Search и произвольные удалённые MCP-серверы. Веб при желании отключается (тогда поиск идёт только по пользовательским данным). В качестве опорных данных принимаются PDF, CSV, изображения, аудио и видео.

Отдельное новшество - нативная генерация графиков и инфографики прямо в теле отчёта через HTML или Nano Banana, без внешних библиотек.

Для интерактивных интерфейсов предусмотрен стриминг промежуточных рассуждений и результатов в реальном времени.

Появился и режим совместного планирования: план исследования можно просмотреть и скорректировать до того, как агент начнёт его выполнять.

Deep Research и Deep Research Max доступны в режиме public preview на платных тарифах Gemini API.

В ближайшее время оба агента появятся в Google Cloud для корпоративных клиентов.

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

❓ Работаете с финансовыми данными, но каждый раз упираетесь в источники и форматы? В итоге вместо анализа — постоянная борьба с выгрузками и обработкой.

🦾 На открытом уроке разберём, как получать и использовать данные финансовых рынков с помощью Python. Покажем, как работать с Yahoo Finance и где брать данные по российским торговым площадкам, включая Мосбиржу. Вы увидите полный процесс: от загрузки котировок до построения графиков и подготовки данных для задач машинного обучения. Без лишней теории — только то, что можно применить сразу.

👨‍💻🛠👨🏻‍💻 Урок будет полезен аналитикам, разработчикам и всем, кто работает с финансовыми данными.

➡ Встречаемся 30 апреля в 20:00 МСК в преддверии старта курса «Машинное обучение для финансового анализа». Зарегистрируйтесь и соберите основу для работы с рыночными данными: https://otus.pw/yXgy/?erid=2W5zFK9uXT7


Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

Читать полностью…

Machinelearning

Помощь в поиске лекарств и новых материалов, сложных расчетах и формулировании научных гипотез. ИИ уже ускоряет науку. Сможет усилить и ваш проект.

ШАД от Яндекса открывает набор на направление «Искусственный интеллект в естественно-научных исследованиях».

Двухгодичных формат обучения для исследователей, которые хотят интегрировать методы машинного обучения в свою научную работу по физике, химии, биологии, медицине, экологии или геологии.

→ Очное обучение с реальной научной средой: семинары, комьюнити исследователей, обратная связь от экспертов Яндекса и научного сообщества.
→ Обучение исключительно на собственном проекте.

Обучение бесплатное, но нужно пройти отбор. Важно показать, что у вас уже есть текущий научный проект и научный руководитель (для студентов и аспирантов), кроме того — мотивация применять ИИ в исследовании.

Дедлайн подачи заявки — до 3 мая. Успейте заполнить анкету и подать заявку по ссылке.

Читать полностью…

Machinelearning

Клод, когда я кидаю в него сложные задачи

@ai_machinelearning_big_data

#claude

Читать полностью…

Machinelearning

Потанин: бюрократия замедляет развитие ИИ

Владелец «Норникеля» Владимир Потанин рассказал о ML‑стеке компании в интервью «России 24». Это любопытный кейс того, как industrial AI уходит от «ещё один CV на конвейере» к собственным foundation‑моделям и ML‑driven R&D.

▪️ MetalGPT — доменная foundation model «Норникеля», обученная на отраслевых данных металлургии. Используется для предиктивной аналитики агрегатов и R&D новых материалов.

▪️ Продакшн‑инференс на заводе: нейросети управляют 70% агрегатов на обогащении и принимают решения в 100 раз чаще, чем операторы. По уровню внедрения ИИ «Норникель» — мировой топ‑3 вместе с Tata Steel и POSCO.

▪️ ML для материаловедения. Модели применяются для подбора замещений: палладий вместо платины и иридия (первые 500 кг уже ушли в Китай на стекловолокно). Следующий шаг — предсказание и дизайн кристаллической решётки палладия для получения металла с заданными свойствами.

▪️ Экономика: «десятки миллиардов рублей» эффекта в год, к 2030 — 50+ млрд.

▪️ Уровень внедрения ИИ в РФ втрое ниже среднемирового, Россия претендует на третье место после США и Китая. Потанин против жёсткой регуляторики: модели обновляются раз в 2–3 месяца, бюрократия убьёт темп.

Читать полностью…

Machinelearning

🌟 Lyra 2.0: фреймворк для генерации исследуемых 3D-миров по одной фотографии.

NVIDIA опубликовала веса модели и код Lyra 2.0 - системы, которая принимает на вход изображение, генерирует видео с управляемой траекторией камеры, а затем реконструирует его в 3D-гауссианы и полигональные меши.

Готовые ассеты можно напрямую импортировать в игровые движки и робототехнические симуляторы.

Система будет полезна для массовой генерации тренировочных 3D-сред для воплощенного ИИ.

Главная задача, которую решает фреймворк - сохранение согласованности сцены при длительном пролете камеры.

Lyra 2.0 хранит 3D-геометрию каждого кадра в отдельном кэше, при возврате извлекает релевантные исторические кадры по степени перекрытия видимости и устанавливает плотные геометрические соответствия через варпинг канонических координат.

Геометрия используется только для маршрутизации информации - какие кадры извлечь и как их сопоставить с текущим ракурсом. За синтез внешнего вида отвечает диффузионная модель.


Базовая модель построена на архитектуре Wan 2.1-14B с выходным разрешением 832×480.

Для 3D-реконструкции применяется дообученная версия Depth Anything v3 в feed-forward режиме, а поверхностные меши извлекаются через иерархический подход на основе OpenVDB.

На бенчмарках DL3DV и Tanks and Temples Lyra 2.0 превзошла все аналоги (GEN3C, CaM, SPMem, VMem, Yume-1.5 и HY-WorldPlay) практически по всем метрикам: FID, SSIM, LPIPS, субъективное качество и стилистическая согласованность.


Первая версия фреймворка, вышедшая в сентябре, поддерживала лишь генерацию на коротких дистанциях. Ближайший конкурент второй версии, Genie 3 от Google, обладает схожими возможностями, но остаётся закрытым.


🟡Страница проекта
🟡Arxiv
🟡Модель
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #3DWorlds #Lyra2 #NVIDIA

Читать полностью…

Machinelearning

🦀 Предприниматель поставил в Сан-Франциско автомат с едой, которым управляет OpenClaw

ИИ-агент рулит реальным вендинговым автоматом.

OpenClaw сам решает, что продавать, как называть товары, какие ставить цены, делает рекламу и отслеживает все продажи

Можно даже посмотреть дашборд со всей статистикой этого автомата.

Железка просто выдаёт товар, всё остальное делает ИИ. Закупкой занимается человек.

Автомат стоит в Frontier Tower в Сан-Франциско, это здание, где сидят фаундеры AI и робототех стартапов.

Агент забывал вещи, галлюцинировал и в какой-то момент сильно задрал цены. Потом пытался это оправдать тем, что люди всё равно покупают.

https://www.reddit.com/r/myclaw/comments/1sl70mb/someone_actually_put_an_openclaw_run_vending/

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

📌Anthropic объяснил регрессию Claude Code и предложил обходные пути.

Инженер из AMD опубликовал на GitHub подробный разбор деградации Claude Code на сложных задачах, начавшейся в феврале. Автор сгенерировал отчет силами Opus 4.6, проанализировав 17 тыс. блоков размышлений и 234 тыс. вызовов инструментов в 6 852 локальных сессиях.

Главная метрика - отношение чтений файлов к правкам упала с 6,6 до 2,0. Иначе говоря, модель почти перестала изучать код перед его модификацией: доля правок без предварительного чтения выросла с 6,2% до 33,7%.

Параллельно был зафиксировал рост зацикливаний (с 8,2 до 21,0 на тысячу вызовов), удвоение использования полной перезаписи файлов вместо точечных правок и вспышку поведенческих симптомов (уклонение от ответственности, преждевременные остановки и склонность к простейшему решению).

Специальный stop-hook, ловящий такие фразы, сработал 173 раза за 17 дней после 8 марта, против нуля за весь предыдущий период.

Автор связал регрессию с заголовком redact-thinking-2026-02-12, после появление которого содержимое thinking-блоков перестало приходить клиенту.

Борис Черный, глава команды Claude Code ответил на Hacker News:

Заголовок убирает саммари размышлений из интерфейса, чтобы не гонять их по сети ради снижения латентности, но не трогает ни сам ризонинг, ни бюджеты на него.


Локальный анализ транскриптов поэтому и видит пустые блоки и делает неверный вывод об отсутствии мышления. Если надо, то вернуть отображение можно опцией showThinkingSummaries:true в settings.json.

🟡Реальных изменений, влияющих на глубину рассуждений, было два:

9 февраля вместе с Opus 4.6 включили adaptive thinking - модель сама выбирает длину размышлений вместо фиксированного бюджета.

3 марта дефолтный уровень усилий для Opus 4.6 подняли до medium (effort=85) как компромисс между интеллектом, латентностью и стоимостью.


В ответ на гипотезу о том, что виноват свежий 1M-контекст и работа без /compact после 200k токенов, Борис предложил решения, которыми можно вернуть прежнее поведение:

🟢 /effort high или /effort max - поднять максимальный бюджет thinking-токенов на задачу;

🟢CLAUDE_CODE_AUTO_COMPACT_WINDOW=400000 - принудительно укоротить рабочее окно контекста.

🟢CLAUDE_CODE_SIMPLE=1 - упрощенный режим для проверки гипотезы об интерференции системного промпта.

Дополнительно есть CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1 , он отключает адаптивный режим и возвращает фиксированный бюджет рассуждений.

🟡Расследование бага продолжается командой Claude Code.

Борис также заверил, что Anthropic протестирует включение high effort по умолчанию для тарифов Teams и Enterprise.

Это приведет к большему расходу токенов и росту латентности, но даст гарантированную глубину рассуждений.


@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

🌟 DreamLite: генерация и редактирование картинок на мобильных устройствах

Bytedance опубликовала инфу о проекте DreamLite - компактной диффузионки на 390 млн. параметров, которая сможет работать локально на телефоне.

Под капотом - сильно сжатая версия U-Net (от SDXL), автоэнкодер TinyVAE и текстовый Qwen3-VL-2B.

Для трейна используется схема прогрессивного совместного обучения для стабильности генерации и дистилляция DMD2, которая сокращает инференс до 4 шагов.

В описании заявляют, что на iPhone17 Pro картинка размером 1024х1024 генерится около 3 секунд, а в техотчете - что на Xiaomi 14 создание или редактирование изображение тем же размером займет менее 1 секунды.

На синтетике DreamLite выбивает 0.72 (генерация, GenEval) и 4.11 (редактирование, ImgEdit)

Пока опубликованы только техотчет, репозиторий пустой. Сроки релиза обещают традиционно - coming soon.


@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

✔️ MoonshotAI готовит модель Kimi K2.6 к релизу

Китайские тестеры раннего доступа Kimi Code получили сообщение, которое говорит о скором релизе модели Kimi K2.6.

Перевод скрина:

KIMI Code

Программа раннего доступа завершена
Спасибо за ваше участие и обратную связь

Привет, x

Спасибо, что приняли участие в тестировании программы раннего доступа Kimi Code! Каждый ваш отзыв помог нам сделать продукт лучше, и это очень важно для нас. Программа раннего доступа на этот период завершена, и мы надеемся увидеться с вами снова при запуске следующего этапа.

Сейчас мы занимаемся финальной настройкой и доработкой продукта на основе отзывов, полученных в ходе этого тестирования. Новая модель K2.6-code-preview, которую вы опробовали, скоро будет запущена для всех пользователей. Еще раз спасибо за вашу поддержку и доверие как одного из первых участников.

Команда Kimi Code
2026 Kimi



@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

⚡️ Дом Сэма Альтмана снова подвергся нападению.

В воскресенье утром резиденция генерального директора OpenAI Сэма Альтмана в Сан-Франциско подверглась второй атаке всего через два дня после инцидента с поджогом.

Полиция арестовала 25-летнюю Аманду Том и 23-летнего Мухаммада Тарика Хусейна по обвинению в неосторожном обращении с огнестрельным оружием.

В 1:40 ночи автомобиль с двумя людьми остановился перед домом Альтмана в районе Russian Hill, предварительно несколько раз проехав мимо. Офицеры задержали подозреваемых и изъяли при обыске 3 единицы огнестрельного оружия.

Первая атака произошла в пятницу: 20-летний Даниэль Алехандро Морено-Гама бросил коктейль Молотова в металлические ворота дома Альтмана.

Перед попыткой поджога он написал несколько эссе под названием "Эпитафия человечеству", выражая опасения, что развитие ИИ приведет к исчезновению человечества. Он также участвовал в деятельности группы PauseAI, выступающей за запрет разработки ИИ.

PauseAI, в свою очередь, осудила действия поджигателя:

Мы желаем безопасности и мира Сэму Альтману, его семье и всем пострадавшим. Организация PauseAI считает, что каждый заслуживает безопасности, включая Сэма Альтмана и его близких. Насилие в отношении кого бы то ни было противоречит всему, за что мы выступаем.


После первого инцидента Сэм Альтман написал пост в личном блоге и разместил фото семьи:

Страх и беспокойство по поводу ИИ оправданы. Мы наблюдаем самые масштабные изменения в обществе за долгое время, а возможно, и вообще когда-либо.


@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

📌Perplexity опубликовала рецепт посттрейна поискового агента на Qwen3.5

Исследовательская команда ИИ-поисковика опубликовала техотчёт о деталях создания своего веб-поискового агента на открытых моделях Qwen3.5-122B-A10B и Qwen3.5-397B-A17B.

При бюджете в 4 вызова инструмента итоговая Qwen3.5-397B-SFT-RL показывает 73,9% точности на FRAMES и стоит 2 цента за запрос против 67,8% за 8,5 цента у GPT-5.4 и 62,4% за 15,3 цента у Sonnet 4.6.


🟡Пайплайн

Сначала SFT закрепляет целевое поведение: следование инструкциям, формат ответа, языковую согласованность, корректные отказы.

Затем RL с GRPO оттачивает точность поиска и эффективность вызовов инструментов, не трогая поведение, заданное на первой стадии.

Попытка оптимизировать эти цели совместно в один этап обычно ломает либо качество поиска, либо продакшен-требования.

🟡Данные для RL собраны из двух источников.

Первый - синтетические многошаговые вопросы с проверяемым ответом: из затравочного запроса выстраивают цепочку связанных сущностей, формулируют вопрос, а единственность ответа подтверждают несколько независимых решателей.

Второй - диалоги общего назначения, где требования к формату и инструкциям превращают в набор атомарных рубрик, проверяемых без субъективной оценки.

Итоговая смесь берётся в пропорции 90/10 в пользу верифицируемых QA, чтобы более лёгкий сигнал рубрик не перетягивал градиент на себя.

В основе системы вознаграждений - агрегирование со шлюзом по корректности: скор Bradley-Terry-модели учитывается только при условии, что базовый бинарный сигнал равен 1 (то есть ответ корректен или все рубрики выполнены).

Это блокирует взлом награды, когда стилистически удачная реплика компенсирует фактическую ошибку.

Штраф за эффективность привязан к GRPO: число вызовов инструмента и длина генерации сравниваются с победителями внутри группы, а не с фиксированной нормой.

На FRAMES при 1 вызове инструмента старшая Qwen3.5 показывает 57,3% (это +5,7 пункта к GPT-5.4 и +4,7 к Sonnet 4.6). Разрыв увеличивается в диапазоне 2–7 вызовов, а это и есть рабочий режим продакшена.


Расчёт использует публичные цены API без учёта кэширования. Perplexity отдельно оговаривает, что внутренние оптимизации инференса (повторное использование KV-кэша, префиксное кэширование, квантование MoE) снижают реальную стоимость ещё сильнее.

🔜 Полный рисерч можно почитать тут

@ai_machinelearning_big_data

#AI #ML #LLM #Train #Research #Perplexity

Читать полностью…

Machinelearning

🚀 OpenAI представила GPT-5.5

Она заметно сильнее в самом главном: код, ресёрч, аналитика и работа с документами.

GPT 5.5 хороша в многоступенчатых задачах.

И почти во всём обходит конкурентов - например, на Terminal-Bench выбивает 82,7% против 69% у свежей Claude.
GPT-5.5 уже доступна пользователям Plus, Pro, Business и Enterprise - в ChatGPT и Codex.

Модель стала дороже: ~$5 / $30 за млн токенов.

Уже раскатывают на всех платных подписчиков.

Тестим! 🔥

https://openai.com/index/introducing-gpt-5-5/

Читать полностью…

Machinelearning

✔️ Hunyuan выпустил превью Hy3 в опенсорсе: 295B параметров, 21B активных, контекст 256K.

Это гибридный MoE с режимами быстрого и медленного мышления, и первая модель после полной перестройки инфраструктуры предобучения и RL.

Агент тянет цепочки до 495 шагов в продакшене, работает с документами, аналитикой данных и MCP-инструментами.

По скорости инференса: время до первого токена сократили на 54%, полное время ответа - на 47%. При этом на живых задачах CodeBuddy и WorkBuddy модель падает меньше чем раз на десять тысяч запросов.

На стандартных бенчах (SWE-bench Verified для кода, Terminal-Bench 2.0 для терминала, BrowseComp и WideSearch для веб-поиска) Hy3 идёт вровень с топовыми кодинговыми и поисковыми агентами.

Совместима с OpenClaw, OpenCode и KiloCode, запускается через vLLM и SGLang.

https://modelscope.cn/models/Tencent-Hunyuan/Hy3-preview
https://github.com/Tencent-Hunyuan/Hy3-preview

@ai_machinelearning_big_data

#Hunyuan

Читать полностью…

Machinelearning

✔️ Anthropic тестирует исключение Claude Code для новых Pro-подписчиков

Anthropic убрала Claude Code из описания подписки Pro на странице тарифов.

Пользователи заметили это в 21 апреля, и уже через несколько часов компания объяснила, что речь идёт об эксперименте на небольшой группе новых пользователей, а не о массовом изменении плана.

Напротив Claude Code в колонке Pro теперь стоит крестик вместо галочки, а фраза о том, что инструмент входит в тариф, исчезла. При этом страница Claude Code и CLI-клиент по-прежнему показывают доступ для Pro, то есть правки внесены не везде, что и породило волнения в сети и путаницу.

Глава отдела развития Anthropic Амол Авасаре уточнил в X, что тест затрагивает около 2% новых регистраций и не касается действующих подписчиков Pro и Max.

По его словам, за год с запуска Max характер использования подписок изменился радикально: Claude Code встроили в Max, и он взлетел после релиза Opus 4, появился Cowork, а длительные асинхронные агенты стали повседневным сценарием. Под такую нагрузку текущие тарифы изначально не проектировались.


Anthropic уже несколько месяцев подряд закручивает гайки действуя по аналогии с тем, как энергокомпании снижают нагрузку на сеть. Причина банальна: стоимость подписки кратно ниже рыночной цены реально расходуемых токенов (по оценкам - иногда в 10 и более раз). С тем же дисбалансом уже столкнулись GitHub и Google.

На Reddit и в соцсетях подписчики восприняли эксперимент болезненно. Главная претензия, впрочем, не к самому изменению, а к коммуникации: правки на странице тарифов увидели все, хотя тест должен был затронуть лишь 2% пользователей.

Авасаре пообещал, что если эксперимент приведёт к пересмотру подписок для действующих клиентов, их уведомят заранее, "не скриншотом в X или на Reddit" (с).


Это сообщение он, впрочем, опубликовал именно в X.


@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

🏆 Яндекс Практикум открыл прием заявок на премию “Сделано с ИИ” за лучшее применение нейросетей в работе

К участию приглашают специалистов с опытом до 5 лет, которые используют нейронки в реальных рабочих задачах и могут показать результат для продукта или бизнеса.

Будет две основные номинации:

• техно-продуктовый вклад — проекты, где ИИ влияет на метрики: ускоряет процессы, снижает затраты, улучшает продукт
• креативное решение — кейсы с нестандартным применением, где нейросеть влияет на сам формат и воплощение проекта

При оценке будут смотреть не только на результат, но и на реализацию: в продуктовой номинации — насколько обоснован выбор инструментов, как они встроены в продукт и насколько устойчиво работают. В креативной — оригинальность идеи, цельность результата и роль ИИ в финальном решении.

Отдельно в каждой категории отметят участников с опытом до 2 лет — для них предусмотрен спецприз.

Победители получат до 500 000 рублей, гранты от Yandex AI Studio и другие призы. Заявки принимают до 15 мая.

Ознакомиться с информацией и подать заявку можно на сайте

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

✔️ Qwen3.6-Max-Preview от Alibaba. Впечатления двойственные.

Прогресс по сравнению с Qwen3.6-Plus сразу в нескольких направлениях - агентское программирование, мировые знания, следование инструкциям.

Цифры в бенчмарках выглядят так: прирост в SkillsBench и SciCode около 10 пунктов, плюсы в SuperGPQA и ToolcallFormatIFBench.

Модель доступна и в веб-интерфейсе Qwen Studio, и через API Alibaba Cloud, контекстное окно 256K

Модель закрытая, исходников нет, что для части пользователей минус по сравнению с открытой линейкой Qwen. Сравнения в анонсе идут преимущественно с предыдущими моделями самой Qwen; прямых сопоставлений с актуальными конкурентами (GPT, Claude, Gemini, DeepSeek) в самом посте не приводится, оценивать относительную силу приходится по сторонним ресурсам.

Бенчмарки вроде QwenClawBench и QwenWebBench - внутренние, к ним стоит относиться со скептицизмом.

Blog: https://qwen.ai/blog?id=qwen3.6-max-preview
Qwen Studio: https://chat.qwen.ai/?models=qwen3.6-max-preview
API: https://modelstudio.console.alibabacloud.com/ap-southeast-1?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3.6-max-preview&serviceSite=international

@ai_machinelearning_big_data

#qwen

Читать полностью…

Machinelearning

📌 The Nation связывает сокращение научного финансирования в США с ростом ИИ-платформ

Издание The Nation опубликовало материал о связи между сокращением государственного финансирования науки в США и быстрым ростом индустрии, где исследователи с докторскими степенями выполняют задачи для обучения ИИ-моделей за почасовую плату.

По данным Американской ассоциации содействия развитию науки, предложенный бюджет на 2026 финансовый год предусматривал сокращение финансирования Национальных институтов здравоохранения на 40%, Национального научного фонда - на 57%, NASA - на 24%.

Конгресс частично откатил эти меры, однако, по данным журнала Science, за последний год федеральную службу покинули более 10 тыс. сотрудников с PhD в STEM-дисциплинах.

Университетские лаборатории, как сообщает The Atlantic, увольняли сотрудников и сворачивали исследования.


The Nation связывают эту политику с венчурными инвесторами, близкими к Белому дому, прежде всего с Питером Тилем и Марком Андриссеном.

В утечке переписки, опубликованной The Washington Post в 2025 году, Андриссен призвал подвергнуть Национальный научный фонд «бюрократической смертной казни».


Сами Тиль и Андриссен публично обосновывают свою позицию тем, что академическая наука, по их мнению, стала забюрократизированной и утратила продуктивность.

Тиль в интервью Hoover Institution утверждал, что число PhD за столетие выросло в 100 раз, тогда как темп научного прогресса почти не изменился


Одновременно растёт рынок платформ, нанимающих учёных для подготовки данных и проверки ответов ИИ-моделей.

По словам всех опрошенных изданием исследователей, именно урезание федерального финансирования сделало для них почти недоступными позиции в академии: закрывались постдокторские ставки, исчезали летние стипендии, сворачивались гранты.


Обучение ИИ-моделей, в свою очередь, требует специалистов, способных составлять сложные задачи и проверять ответы на уровне эксперта с докторской степенью - и освободившийся в результате бюджетных сокращений пул кандидатов оказался удобным ресурсом для ИИ-платформ.

Реклама занятости в этих сервисов во многом повторяет приёмы Uber и Lyft: упор на гибкость, удалённый режим и «свободу»: в роликах учёные гуляют по лесу, читают в гамаках, а закадровый голос объясняет, что подработка позволяет «оставаться в профессии».


В реальности, опрошенные The Nation исследователи высказывают претензии к условиям работы у техно-гигантов. Объявленные ставки (от 30 до 90 долларов в час) на практике часто оказываются ниже из-за неоплачиваемого времени, лимитов на сложные задачи и отказа оплачивать неполные или неверные решения.

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

📌 EvoMap обвинила Hermes Agent в копировании архитектуры.

Команда EvoMap, разрабатывающая эволюционный движок для ИИ-агентов Evolver, опубликовала детальное техническое сравнение, в котором обвинила проект Hermes Agent от Nous Research в систематическом заимствовании архитектурных решений без указания источника.

Разрыв в популярности между проектами значителен: 88 тысяч звёзд на GitHub у Hermes Agent против 2 тысяч у Evolver.


В списке перечислены более 10 совпадений на уровне модулей: трёхуровневая система памяти с идентичным распределением ролей между слоями, замкнутый цикл автоматического извлечения переиспользуемого опыта, механизм периодической рефлексии, динамическое обнаружение и подгрузка навыков, десятишаговая оркестрация эволюционного цикла и ряд инженерных паттернов.

Хронология, на которую опирается EvoMap: ключевой протокол GEP был раскрыт с 1 по 16 февраля в 136 релизах, а система навыков Hermes появилась лишь 12 марта.

Аргументация EvoMap строится на вероятностной логике: каждое совпадение по отдельности объяснимо независимой конвергенцией - трёхуровневая память и извлечение опыта активно обсуждаются в сообществе ИИ-агентов, но их совокупность, по мнению авторов, выходит за рамки случайности.

При этом EvoMap признает:

🟢репозиторий Hermes Agent создан в июле 2025 года, на полгода раньше Evolver; эволюционный модуль Hermes построен на фреймворке GEPA;
🟢стандарт Agent Skills предшествует обоим проектам;
🟢код написан на разных языках - JavaScript и Python

Основатель Nous Research в ответ на претензии написал, что никогда не слышал ни о проекте, ни о его авторах, назвал сравнительный анализ «полной чушью», а позднее посоветовал EvoMap удалить свой аккаунт. На технические аргументы Nous Research не отвечала.

Вслед за этим EvoMap выпустила открытое письмо, объявив о смене лицензии Evolver с MIT на GPL-3.0 и переходе к выпуску ключевых модулей в обфусцированном виде. Команда также признаёт, что судебное разбирательство с Nous Research ей не по силам.

Главный тезис письма выходит за рамки конкретного спора: способен ли институт открытых лицензий работать, когда ИИ сводит стоимость воспроизведения кодовой логики почти к нулю?

При этом позиция EvoMap упирается в тупик: GPL-3.0 обязывает раскрывать код производных продуктов, но без текстуального пересечения полезность лицензии не срабатывают. Обфускация же блокирует вклад сообщества и противоречит самому принципу открытого кода.


@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

⚡️ Qwen3.6-35B-A3B - ставка на эффективную архитектуру, а не на размер

35B параметров, ~3B активных за счёт MoE.

Главное:

- по agentic coding показывает уровень моделей с ~10x большим активным объёмом
- превосходит Qwen3.5-27B (dense) и предыдущую Qwen3.5-35B-A3B
- нативно мультимодальная архитектура (text + vision)
- в VLM-бенчмарках сопоставима с Claude Sonnet 4.5, в ряде задач выше
- сильные метрики в задачах spatial reasoning

MMMU - 81.7 vs 79.6 MMMU-Pro - 75.3 vs 68.4 MathVista - 86.4 vs 79.8 RealWorldQA - 85.3 vs 70.3.

Практическое значение:

- MoE даёт кратное снижение compute без потери качества
- подходит для агентных сценариев, где важны последовательные действия и планирование
- можно использовать как единый стек для code + vision задач

Apache 2.0 - без ограничений для продакшена

qwen.ai/blog?id=qwen3.6-35b-a3b
chat.qwen.ai
huggingface.co/Qwen/Qwen3.6-35B-A3B
modelscope.cn/models/Qwen/Qwen3.6-35B-A3B

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

Генеративный ИИ в креативных индустриях мы протестировали на хакатоне «Скиллаут» в МосХаб.Сколково, где продакшен-команды и независимые AI-режиссеры создавали рекламные ролики. Теперь давайте обсудим игры 🕹

В 2026-м генеративный ИИ уже используют в большинстве студий: по разным оценкам, более 60% команд применяют его в разработке. Но при этом индустрия сталкивается с обратным эффектом: игр становится больше, а ощущение новизны — все слабее.

Что ждать геймдеву? Разобрали в карточках.

Читать полностью…

Machinelearning

📌Массовое использование чат-ботов унифицирует то, как люди пишут и рассуждают

Университет Южной Калифорнии опубликовал в журнале Trends in Cognitive Sciences статью, в которой утверждают, что массовое использование больших языковых моделей постепенно размывает индивидуальные различия в речи, письме и мышлении.

Авторский коллектив возглавляет профессор психологии и информатики Мортеза Дехгани.

Научные интересы Дехгани лежат на стыке психологии, когнитивной науки и искусственного интеллекта: он известен работами по вычислительному анализу морального и политического языка, применению методов NLP к большим текстовым корпусам (от социальных сетей до литературы) и изучению того, как ценности и групповая мораль проявляются в речи.


По мнению исследователей, когда миллионы людей обращаются к узкому кругу одних и тех же чат-ботов, стилистические, смысловые и логические особенности отдельных людей стираются, а на выходе получается «стандартизированное выражение мыслей».

Этот процесс вызывает беспокойство: модели не просто влияют на манеру письма, но и незаметно переопределяют, что считается достоверной речью, корректной точкой зрения и хорошим рассуждением.

Тексты, сгенерированные LLM, менее разнообразны, чем написанные людьми, и в среднем воспроизводят язык, ценности и логические схемы западных, образованных, индустриальных, состоятельных и демократических сообществ. Причина - в обучающих выборках, где непропорционально представлены доминирующие языки и идеологии.

В статье приводится и обратный эффект: отдельный пользователь с помощью чат-бота, как правило, генерирует больше идей, чем без него, однако группы людей, опирающиеся на LLM, в итоге выдают меньше оригинальных решений, чем те же группы, работающие без ИИ.


Авторы также указывают, что популярные модели тяготеют к линейным схемам вроде CoT, что, по их оценке, может вытеснять интуитивные и абстрактные подходы. Они ссылаются на данные о том, что после взаимодействия с предвзятой моделью мнения пользователей смещаются в ее сторону.

🟡Рекомендация авторов

При обучении моделей следует закладывать реальное языковое и культурное многообразие, а не случайные вариации. Это одновременно сохранит бы когнитивное разнообразие в обществе и улучшит способности самих чат-ботов к рассуждению.

🟡Дисклеймер

Это не эмпирическое исследование с собственными экспериментами, обзорно-полемическая работа, обобщающая чужие исследования и выдвигающая гипотезу.

Сужение стилистики, сдвиг мнений после общения с моделью - подтверждены отдельными исследованиями, а вот более широкие тезисы о глобальной гомогенизации мышления остаются дискуссионными.

Работа выполнена при поддержке Управления научных исследований Минобороны США.


@ai_machinelearning_big_data

#AI #ML #LLM #Research #Cognitive #NLP

Читать полностью…

Machinelearning

⚡️Банковские рекламные платформы задействуют ML-алгоритмы для подбора аудитории и генерации креатива в реальном времени.

Технический директор «Т-Рекламы» Василий Разумных объяснил, чем такой подход отличается от классических решений. По его словам, в рекламной платформе Т-Банка ML-модели не только предсказывают кликабельность, но и направляют логику принятия решений.

«В отличие от классического подхода, где реклама существует отдельно от продуктового опыта, мы интегрируем ее в пользовательский сценарий. Поэтому система учитывает не только ставку рекламодателя, но и уместность предложения для конкретного человека в определенный момент», — рассказал технический директор рекламной платформы.

При поступлении запроса система отбирает подходящие объявления и ранжирует их с помощью скоринговой модели. Она учитывает ряд факторов: экономическую эффективность для платформы, прогнозируемую вероятность целевого действия, качество креатива и репутацию рекламодателя.

✔️По мнению эксперта, если приоритет отдается исключительно цене, качество выдачи для пользователя может ухудшиться. Поэтому в компании используется многокритериальная оптимизация, то есть учитываются прогноз вовлеченности и качество креатива. Также активно внедряются автостратегии. С их помощью рекламодатели могут ставить бизнес-цели, а алгоритмы – искать путь их достижения.

Вместо ручной настройки на платформе работает ML-таргетинг. Данные о поведении пользователей агрегируются в финансовых и лайфстайл-сервисах приложения и других точках контакта – это позволяет сформировать целостный портрет пользователя, а не просто набор разрозненных идентификаторов.

✔️СТО отметил, что генеративный ИИ помогает варьировать тексты и изображения, но все варианты строго фильтруются, чтобы сохранять соответствие гайдлайнам бренда.

При этом запросы бизнеса становятся все более прагматичными и ориентированными на результат. Рекламодателям важно не только видеть охваты и узнаваемость, но и держать фокус на измеримых действиях, с чем помогают перфоманс-инструменты.

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

ИИ не только в темах ИТ-конференций

Он уже в продуктах, процессах и вакансиях. Только на hh.ru больше тысячи открытых позиций для тех, кто создаёт и обучает нейросети.

На курсе Нетологии «Специалист по искусственному интеллекту» можно получить нужные навыки:
🔸 научиться использовать промпт-инжиниринг,
🔸 работать с большими языковыми моделями,
🔸 создавать RAG-системы* и ИИ-агентов,
🔸 управлять рисками при внедрении ИИ-сервисов.

На выбор две программы обучения: с нуля — 11 месяцев, и для тех, кто уже в ИТ, — 5 месяцев. В обоих случаях получаете сотни часов практики, портфолио из реальных проектов и год карьерной поддержки.

👉 Сейчас на курс действует скидка 50%, а с промокодом NETONEW10 цена станет ещё на 10% ниже. Плюсом идут 4 курса по нейросетям и подарки от партнёров Нетологии в честь её 15-летия.
Узнать подробнее и записаться: ссылка

* RAG — архитектурный подход к генеративным моделям, сочетающий навыки поиска информации с генеративными возможностями больших языковых моделей

Реклама. ООО “Нетология” ОГРН 1207700135884 Erid: 2VSb5wYoT38

Читать полностью…

Machinelearning

⚡️ MiniMax выложила M2.7 в открытый доступ.

Через 3 недели после мартовского релиза MiniMax открыла веса флагманской самоэволюционирующей модели на 229 млрд параметров.

За несколько дней после публикации сообщество сделало 32 квантованные сборки и 6 файнтюнов.

Напомним, M2.7 - первая модель MiniMax, которая участвовала в собственной разработке: внутренняя версия более 100 раз автономно правила каркас, анализировала неудачные трассы, прогоняла эксперименты и решала, оставлять изменения или откатывать.

Итог: рост производительности на 30% и триумф на бенчах. Модель уступала по тестам только Opus 4.6 и GPT-5.4.


🟡Инженерные бенчи тоже интересные

🟢На SWE-Pro M2.7 выдает 56,22% (паритет с GPT-5.3-Codex, а не с Sonnet 3.5, как сообщалось ранее).

🟢На SWE Multilingual 76,5 и Multi SWE Bench 52,7. VIBE-Pro - 55,6% (почти вровень с Opus 4.6).

🟢Terminal Bench 2 - 57,0%, NL2Repo - 39,8%.

🟢В офисной работе M2.7 держит ELO 1495 на GDPval-AA (лучший результат среди open-source и выше GPT-5.3).

🟢На Toolathon - 46,3%, на MM Claw - 62,7% (рядом с Sonnet 4.6) при 97% соблюдения инструкций на 40+ сложных скиллах.

Заявлена нативная поддержка Agent Teams: конфигурация, где несколько агентов работают с устойчивой ролевой идентичностью и автономным принятием решений.

Для локального деплоя MiniMax советует SGLang, vLLM или Transformers. Модель также доступна через NVIDIA NIM.

Параллельно команда открыла исходники OpenRoom, интерактивного Web GUI с визуальной обратной связью и ролевым взаимодействием, где модель отвечает за персонажей.


@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

✔️ Anthropic вынесла планирование Claude Code в облако.

В Claude Code появилась команда /ultraplan - она передает планирование из локального CLI в облачную сессию Claude Code on the web.

Логика в том, что чтение кода и составление плана почти не зависят от локального окружения и спокойно уезжают в облако, тогда как реализация часто завязана на интерактивность и инструменты конкретной машины.

По расходу токенов и лимитам /ultraplan сопоставим с обычным plan mode (об этом отдельно уточнил инженер Anthropic Thariq в сети X).


Запустить можно 3 способами:

🟢командой /ultraplan с промптом;

🟢ключевым словом ultraplan внутри запроса;

🟢из approval-диалога локального plan mode, выбрав «Refine with Ultraplan».

Пока Claude разбирает репозиторий в облаке, терминал остается свободным, а статус-индикатор показывает одно из 3-х состояний: черновик пишется, требуется уточнение или план готов.

Готовый драфт открывается в браузере в отдельном review-интерфейсе. Каждая итерация порождает новую версию плана, и таких циклов может быть сколько угодно.

После согласования разработчик решает, где исполнять:

🟠«Approve and start coding» оставляет работу в той же облачной сессии и доводит ее до diff и PR на вебе.

🟠«Approve and teleport back to terminal»: план возвращается в локальный CLI, где его можно влить в текущую беседу, открыть новую сессию с чистым контекстом или просто сохранить в файл на потом.

Функция доступна в режиме research preview всем, у кого подключен Claude Code на вебе, и требует CLI версии 2.1.91 или новее, но не работает поверх Amazon Bedrock, Google Vertex AI и Microsoft Foundry.

Активный Remote Control при запуске /ultraplan отключается - оба инструмента делят один и тот же интерфейс и одновременно жить там не могут.


@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…
Subscribe to a channel