Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks По вопросам сотрудничества: @v2r8n
Anthropic рассказали, как несколько их инженеров пол года ради забавы заставляли Claude играть в покемонов
Ранние попытки с Sonnet 3.5 были неудачные (неудивительно, модель же не учили играть в игры). Claude плохо понимал правила и двигался, а однажды даже отправил разработчикам официальный запрос на сброс игры, когда просто случайно застрял в углу.
С Sonnet 3.6 все немного улучшилось, но до хорошего игрока было далековато.
И вот незадолго до релиза в игре испытали Sonnet 3.7. Прогресс оказался невероятный: всего за несколько часов агент победил Брока, а спустя несколько дней – Мисти.
Все благодаря ризонингу: там, где предыдущие модели бесцельно блуждали или застревали в циклах, 3.7 планирует заранее, помнит свои цели, записывает действия и адаптируется, если первоначальные стратегии терпят неудачу. Чем-то похоже на программирование и очень показательно.
Бенчмарки, которые мы заслужили, в общем. Разрабы даже трансляцию на твиче запустили, там можно в онлайне смотреть, как Claude играет
Второй день опенсорса от DeepSeek: сегодня целая библиотека для обучения и инференса MoE
MoE – это архитектура, в которой вся сеть делится на части, называемые экспертами. Эксперт представляет собой подсеть, которая обучается обработке определенных видов информации. Когда на вход главной сети приходит запрос, каждый его токен обрабатывается роутером, который решает, какому эксперту (или группе экспертов) этот токен будет передан.
Так вот, бутылочное горлышко MoE – это обмен данными между видеокартами, на которых расположены эксперты (а GPU при этом могут располагаться еще и на разных серверах). Во время прямого прохода нужно быстро обмениваться активациями, а во время обратного – градиентами, и именно тут таятся задержки и проседания в скорости.
У DeepSeek в их DeepEP как раз решается эта проблема: они предлагают целый набор оптимизированных ядер и для обучения, и для инференса MoE. Относительно ванильных реализаций пропускная способность действительно на высоте, при этом поддерживается даже FP8.
Кстати, еще туда прикрутили hook-based overlapping, поэтому передача данных происходит одновременно с вычислениями и при этом ресурсы процессоров не занимаются.
Репозиторий: github.com/deepseek-ai/DeepEP
Кстати, сразу после выхода Sonnet 3.7 стало известно, что Anthropic закрыли раунд привлечения инвестиций на $3.5 миллиарда
Сейчас оценка стартапа – $61.5 миллиардов. Это примерно в пять раз меньше, чем OpenAI, но немного больше, чем xAI.
Какие модели ждать от них дальше пока не разглашают. Зато в блогпосте про Sonnet 3.7 промелькнул вот такой график: к 2027 Anthropic планируют перейти к AGI "пионерной" системе, то есть модели, которая может самостоятельно решать задачи, на которые у людей ушли бы годы.
Вышла системная карта новенького Claude Sonnet 3.7. Выделили самое интересное:
🟦 Цепочки рассуждений Anthropic решили сделать полностью открытыми (вау!). Они предупреждают, что цепочки CoT могут потенциально быть опасными, но говорят, что делают это для прозрачности.
🟦 Но не обольщайтесь: антропики выяснили, что в CoT отражается только 20-30% того, что повлияло на решение модели. Это называется faithfulness, проверяли на специально сконструированных парах запросов: они одинаковые, но в одном есть скрытая подсказка, а в другом нет. Если ответ на них отличается, то определяется, пишет ли модель открыто о том, что нашла подсказку.
🟦 Кажется, была проведена большая работа с элайментом. Взгляните на график: доля избыточных отказов (отказ, когда был возможен полезный ответ без нарушения) упала с 23.8 до 12.5%, при этом доля необходимых отказов остается на том же уровне. Еще оценивали стереотипность: там почти нулевой процент предвзятости по тестам BBQ.
🟦 Опубликовали системный промпт. В нем видно, что отдельно работали со случаями, когда модель не генерализирует ответы, а подгоняет их к тестовым кейсам. Это называется special-casing и особенно актуально для программирования и агентских задач.
🟦 Итоговую безопасность модели оценивали две независимые команды – Frontier Red Team (FRT) и Alignment Stress Testing (AST). Они ищут джейлбрейки, потенциальные слабые места и тд. По итогу назначили уровень ASL-2, то есть все еще безопасная (риски начинаются с ASL-3).
Вот так. Жаль, нет ответа на главный вопрос: почему 3.7, а не 4
Также анонсировали Claude Code: кастомного Cursor от Anthropic
Это агент, который сможет работать прямо внутри вашей кодовой базы: читать файлы, менять их, писать и запускать тесты, коммитить и пушить, использовать командную строку и прочее.
Пока он в превью. Пресеты и инструкция здесь, установить себе можно вот так: npm install -g @anthropic-ai/claude-code
cd your-project-directory
$ claude
Между тем наконец вышел тех.отчет по Qwen2.5-VL
Сама модель вышла в конце января, и по бенчмаркам она соответствует таким моделям, как GPT-4o, Claude 3.5 Sonnet и DeepSeek v3. Особенно ее прокачали в понимании картинок, диаграмм и документов, и в вышедшем тех.отчете есть некоторые ответы на вопрос "как".
Итак, сама модель стоит на трех китах: LLM, визуальный энкодер и MLP-модуль для слияния.
🟦 С LLM ничего особенного, просто Qwen2.5, в которой RoPE эмбеддинги заменили на мультимодальный вариант MRoPE (Multimodal Rotary Position Embedding).
🟦 В качестве визуального энкодера крутят ViT. Тут две интересных детали. Во-первых, картинки не ресайзят: вместо этого энкодер работает с «нативным», то есть динамическим разрешением, и количество токенов на выходе зависит от исходного размера.
Во-вторых, сюда добавили Window Attention, и это помогает снизить сложность операций относительно ванильного селф-аттеншена, который используется традиционно. Кстати, при работе с видео кадры дополнительно группируются по два. В точности потерь почти нет, зато какое значительное облегчение по ресурсам.
🟦 MLP-модуль вставили для того, чтобы привести размерность визуальных признаков к размерности текстовых эмбеддингов. Тут работают два обычных линейных слоя.
И, конечно, исследователи сильно потрудились над данными. Датасет для претрейна огромный (4 триллиона токенов), и в нем и OCR, и межмодальные данные, и документ-парсинг, и локализация, и видео, и даже агентские сценарии (типа работы с интерфейсами компьютеров).
Само обучение били на три этапа: визуальное предобучение энкодера, полное мультимодальное предобучение и отдельно длинно-контекстное (благодаря как раз этому этапу у модели такое хорошее понимание документов). После шел файнтюнинг и DPO.
Статья полностью тут. Кстати, на днях обещают завести в Qwen 2.5 ризонинг.
На ML-собеседованиях все чаще спрашивают про применение LLM в реальных бизнес-проектах
Почему? Потому что компаниям нужны не просто те, кто знают, как моделька работает, а те, кто может эти знания положить на практику, решить задачу и принести компании пользу.
К сожалению, материалов по этой теме пока немного, а те, которые есть, теряются за огромным потоком (ИИ)нформации. Так что сегодня отдельно обращаем ваше внимание на вот этот вебинар про применение LLM в e-commerce: его проводят наши друзья из известной школы ШВМ.
На вебинаре разберут успешные и неудачные кейсы применения LLM, расскажут, какие модели реально работают и приносят бизнесу пользу, а также объяснят, какие важные задачи и почему пока не решены. Спикеры – огонь:
🟦 Артем Бочкарев – Head of Data Science в AliExpress (ну кто может лучше разбираться в ML в e-commerce?)
🟦 Александр Лыков – к.ф.-м.н., академический руководитель Школы Высшей Математики
Такое точно не пропускаем. Регистрируйтесь здесь, встретимся 27 февраля в 19:00.
Anthropic выпустит новую модель сегодня?
Довольно необычного вида предсказание на этот счет дал сегодня в твиттере Jimmy Apples. Этот аккаунт принадлежит инсайдеру. Он довольно редко пишет подобные предикты, но они часто оказываются правдой.
На этот раз он выложил вот такой видоизмененный клип на песню Karma Police, в котором от машины убегает Альтман, и подписал его «Реванш. Завтра».
Верим?
🤗 Hugging Face теперь можно пользоваться как SQL-студией
Ребята встроили в свой многомиллионный раздел с датасетами Data Studio. Теперь из нужной таблицы можно прямо на платформе извлечь то, что нужно, не скачивая ее полностью. Результат вернется в виде CSV, или им можно поделиться ссылкой.
Ну и самое приятное: писать SQL-запрос самому не обязательно. Достаточно описать все на естественном языке, а код за вас напишет DeepSeek V3.
Boston Dynamics опять радуют видео новинки. На этот раз показали миленького робо-байкера 🥰
Читать полностью…Ничего особенного, просто твит ресерчера отдела безопасности OpenAI 😅
Читать полностью…OpenAI поделились текущей статистикой
🟦 Сейчас еженедельно они обслуживают 400 миллионов юзеров. Еще в декабре было 300 миллионов, кстати.
🟦 Сейчас у стартапа 2+ миллиона корпоративных клиентов: это в два раза больше, чем пол года назад.
🟦 Трафик в API тоже удвоился за последние 6 месяцев. Причем для недавно вышедшей o3-mini с момента запуска рост составил x5.
Самое интересное, что DeepSeek, возможно, не только не помешал росту OpenAI, но и ускорил его. Дело в том, что появление такого конкурента разгоняет внимание к ИИ и привлекает новую аудиторию, как бы провоцируя ее изучать рынок.
Anthropic на своей новой презентации показали интересный график
Это employee retention rate, то есть процент сотрудников, которые были в стартапе в начале, и остались в нем по сей день.
У Anthropic эта метрика достаточно высокая, даже самая высокая среди всего ИИ-теха. OpenAI проваливается куда-то вниз, и, внезапно, у Perplexity тоже дела с этим не очень.
Там DeepSeek в честь недели опенсорса объявили, что будут 5 дней выкладывать репозитории с кодом их проектов
«Мы поделимся нашим небольшим, но честным прогрессом с полной прозрачностью. Это будут скромные строительные блоки нашего онлайн-сервиса, которые были задокументированы, развернуты и испытаны в реальных условиях»
Google выпустили агента-ученого AI co-scientist
В отличие от многих подобных проектов, агент не пишет статьи и не делает исследования end-to-end. Его цель – быть генератором идей и подкидывать настоящим ученым свежие целесообразные гипотезы.
AI co-scientist реализует весь цикл научного метода: генерация идей, отбор лучших, уточнение, ревью и так по кругу. Это похоже на то, как устроена структура ризонинга во многих моделях, но здесь за каждый этап отвечает отдельный супер-проработанный агент со своими инструментами:
➖ Generation agent: генерирует начальные гипотезы и направления исследования с помощью веб-поиска
➖ Reflection agent: критически оценивает гипотезы через детальные проверки и симуляции. Может запускать код.
➖ Ranking agent: организует турнир дебатов и таким образом сравнивает гипотезы попарно и ранжирует по Эло (как на LMSYS)
➖ Proximity agent: строит граф близости гипотез, объединяет их и выкидывает дубликаты.
➖ Evolution agent: совершенствует и уточняет оставшиеся гипотезы.
➖ Meta-review agent: сводит все в общий обзор и ревьюит.
Яндекс релизнул YandexGPT 5 и снова вернулся к выкладке в опенсорс. Модель доступна в двух версиях:
⭐ Lite – pretrain-версия на 8B параметров с длиной контекста 32k токенов, опубликована на Hugging Face без финального этапа обучения, этических фильтров и алаймента. Претрейн проходил в два этапа: на первом этапе модель инициализировалась случайными весами и обучалась преимущественно на русскоязычных и англоязычных текстах общим объёмом 15T токенов. На втором этапе, который назвали Powerup, модель обучалась на высококачественных данных объёмом 320B токенов. В своей категории YandexGPT 5 Lite достигает паритета с мировыми SOTA по ряду ключевых бенчмарков для pretrain-моделей, а по многим другим опережает их.
⭐ Pro – старшая модель, для которой компания впервые применила метод гибридного обучения, добавив в стандартный цикл базовые настройки открытой модели Qwen. За счёт внедрений удалось сократить затраты на обучение и увеличить его скорость до 20 раз.
Для обучения YandexGPT 5 поколения в компании улучшили обучающий датасет, внедрили методы обучения с подкреплением (DPO и PPO), собственную модификацию LogDPO, которая помогает избежать эффекта «разучивания» – ситуации, когда модель забывает уже выученные знания.
Подробности можно прочитать на Хабре.
Сейчас тренды смещаются с «кто потратит на железо больше» к «кто догадается, как сделать умнее и экономичнее»
DeepSeek – яркий пример преимущества инженерной изобретательности над затратами на чипы. В противовес им – Grok-3 Илона Маска, который обучался на огромном суперкомпьютере Colossus и тащит за счет мощностей. А что будет в России?
Можно ожидать, что мы увидим первый вариант. Недавно как раз вышло интервью Александра Ведяхина – первого зампреда правления Сбербанка. Он говорит, что в случае GigaChat разработчики намерены делать фокус на оптимизации процесса обучения моделей, достигая лучших метрик с меньшими затратами.
Мы, конечно, протестировали модель DeepSeek и сравнили ее с моделью GigaChat. В некоторых тестах лучше оказался DeepSeek, но в целом мы определенно находимся в одной весовой категории. Даже учитывая, что мы также ограничены в объеме вычислительных ресурсов.
2035 год.
OpenAI выпускает GPT-12, Google релизит Gemini 7, xAI обучает Grok 9.
Anthropic:
Как оставаться востребованным специалистом в ML?
AI-сфера развивается слишком стремительно — вчерашние стандарты устаревают, а требования к спецам меняются. Чтобы оставаться в игре, важно следить за трендами и адаптироваться к новым вызовам.
26 февраля основатель karpov courses Анатолий Карпов и сооснователь AI Talent Hub Дмитрий Ботов расскажут, что ждет ML-инженеров в 2025 году: какие технологии и навыки станут стандартом и как AI трансформирует бизнес.
Если хотите понимать, куда движется рынок и какие инструменты осваивать, приходите на вебинар. Регистрация здесь.
Реклама. Университет ИТМО ИНН:7813045547 erid:2VtzqxHCkWJ
🚀 Anthropic выпустили Claude Sonnet 3.7 с ризонингом
Бенчмарки говорят сами за себя: модель действительно очень хороша во всевозможной разработке. На SWE Bench она на добрых 12-13 процентных пунктов превосходит o1, R1 и даже o3-mini high.
При этом:
⭐ В чате модель доступна даже фри юзерам
⭐ В API цена не изменилась относительно предыдущей версии. Кстати, ризонинг можно контролировать очень четко, указывая точное количество токенов, которое можно «потратить» на раздумья.
Новая SOTA для кодинга, получается
Помните, мы рассказывали про AlphaXiv?
Это проект Стэнфорда: аналог всем известного arxiv, но с возможность писать комментарии и обсуждать вопросы поверх любой статьи.
Так вот, проект живет и, оказывается, с недавнего времени туда завезли буквально Cursor для рисерчеров. В любой статье можно выделить кусочек текста и попросить модель (там крутится Gemini 2 Flash) объяснить его или ответить на какой-то вопрос.
Киллер-фича: через @ можно в своем вопросе сослаться на другую статью. Тогда она загрузится в контекст модели и можно будет, например, попросить ассистента сравнить результаты, бенчмарки, подходы и тд.
С таким читать статьи гораздо приятнее, сами попробуйте: alphaxiv.org/
Первый день опенсорса от DeepSeek
В конце прошлой недели ребята пообещали, что с 24 по 28 февраля выложат в открытый доступ пять репозиториев из их внутренней экосистемы.
Сегодня показали проект FlashMLA – оптимизированные GPU-ядра, которые крутятся в проде систем DeepSeek.
MLA – это multi latent attention, метод, позволяющий сокращать потребление памяти за счет сжатия матриц ключей и значений в трансформерах. Метод активно используется в моделях DeepSeek и в целом очень перспективный, но готовых оптимизаций для него пока не так много. Так что FlashMLA это готовое решение для бодрого инференса.
Проект поддерживает bfloat16, поэтому тут и скорость, и точность. Код годится для всей серии Hopper, то есть для H100, H800 и тд.
github.com/deepseek-ai/FlashMLA
Китайская лаборатория MoonshotAI показала оптимизатор Muon, который оказался в два раза эффективнее AdamW
Сам оптимизатор не новый, он вышел еще в декабре и придумал его Келлер Джордан. У него Muon (основанный, кстати, на ортогонализации матриц) показал крутые результаты, но только на игрушечных задачах. Заветный ✨скейлинг✨ не был продемонстрирован.
В Moonshot показали, как завести Muon для больших моделей. Как оказалось, требуется всего ничего: добавить weight decay и внимательно настроить обновление в зависимости от размера матрицы весов. Хотя, надо сказать, что последнее не совсем очевидно: для этого надо было заметить, что RMS метода не равно единице и вывести для него верную формулу.
С таким набором Muon работает из коробки и даже не требует настройки гиперпараметров. В статье его проверили на модельке 3В/16В MoE, и он обошел AdamW на производительности в два раза.
Код опенсорснули тут, так что уже можно тестировать имплементацию
OpenAI начали удалять некоторые китайские и корейские аккаунты
Не какие попало, конечно, а только те, которые они подозревают в использовании технологии с целью мошенничества.
Якобы одни злоумышленники использовали ChatGPT, чтобы писать фейковые статьи «порочащие США» на испанском, другие, чтобы пилить сотни резюме и фиктивно получать работу в американских компаниях, а третьи, чтобы генерировать оскорбительные комментарии в Твиттере.
Версия правительства США: Азия использует ИИ, чтобы подорвать репутацию и безопасность Америки 🍿
Новость
👥 Совет IT-спецам на 2025 год - чаще посещайте тематические мероприятия
❔Зачем тратить время на Ютубчик, когда можно интересно проводить время, при этом развивая свои навыки!
💡А чтобы не гуглить афиши и не подписываться на сотню разных каналов, IT-мероприятия России уже собрали все самые топовые события в одном месте.
👨💻 В этом канале ты найдешь самые актуальные и интересные события: анонсы форумов, конференций, митапов, вебинаров, хакатонов, олимпиад и многое другое.
⚡️ Все твои коллеги уже здесь - IT-мероприятия России / ITMeeting / IT events.
🔥 Присоединяйся и будь в курсе самых топовых IT-event'ов!
Аналитическая ИИ-лаборатория EpochAI опубликовала свои прогнозы на 2025:
⭐ К концу года FrontierMath будет решен на 75%. На данный момент это самый сложный мат.бенчмарк. Текущие модели (включая o3-mini) решают его на <10%, а o3, судя по анонсам, будет решать примерно на 25.
⭐ SWE Bench Verified будет решен на 90% (сейчас это <40).
⭐ Доход OpenAI составит примерно 12 миллиардов долларов. Это почти в 3.5 раза больше, чем в 2024.
⭐ Модели будут пока становиться больше, и можно ожидать повышение цен на API в 2-3 раза.
⭐ В целом прогресс за 2025 можно будет сравнить с прогрессом, который мы до этого наблюдали в течение двух лет, то есть с момента выхода GPT-4.
Отчет
Всплыло, что Илон Маск тихо построил еще один огромный датацентр стоимостью 700 миллионов долларов
Он расположен в Атланте, построен в сотрудничестве с X, и насчитывает 12000 GPU. Это не так много по сравнению с другим суперкомпьютером Маска, в котором 200к чипов, но все равно масштабно. Официальное назначение пока не раскрывается.
“Ъ” и Центральный университет выпустили совместный проект “Директора и люди”, посвященный стратегиям крупного бизнеса и участию выпускников вузов в реализации этих стратегий. Его первым гостем стал глава Т-Банка Станислав Близнюк.
Разобрали на цитаты основное:
У нас три ценности - клиенты, сотрудники и акционеры, причем именно в таком порядке.
Любой бизнес имеет шанс на рост, только если он вкладывается в науку
Работодатель должен выступать заказчиком университета. Сегодня это не совсем так, и работодатель часто считает, что кадры можно найти в капусте. Но нет, нельзя. Их надо взращивать, и это то, что мы делаем в ЦУ. Поэтому наши выпускники "золотые".
У нас есть понимание того, что какая-то доля набора в Т-Банк должна быть в виде джунов. Очень важная задача – брать кого-то молодого, необтесанного, но умного и перспективного.
Капитал школьника – напористость и любопытство. Первый, второй, третий, четвертый курс - это тот самый уникальный момент, когда нужно реализовывать этот капитал, который будет тебя потом кормить.Читать полностью…
FigureAI только что представили своего нового робота-гуманоида, который оснащен ризонингом
FigureAI раньше работали с OpenAI, но месяц назад разорвали контракт и сделали заявление о том, что до весны представят что-то абсолютно новое. Кажется, их новый Helix – это оно, и они деликатно уточняют что «разработали его полностью самостоятельно».
По словам создателей Helix мыслит, как человек, и может справиться с любой домашней утварью, даже если никогда раньше (то есть в трейне) ее не видел. Судя по графикам из статьи, генерализация там действительно на уровне.
А еще он воспринимает речь и может взаимодействовать с человеком/другим роботом. При этом для всего этого используется единая небольшая модель VLA (Vision-Language-Action) на 7В.
Тех.репорт с деталями и тестами:
www.figure.ai/news/helix
❓ Сможете ли вы пройти тест на «Data Engineer»?
https://otus.pw/S1j1/
🎯 Под силу ли вам ответить правильно на все 20 вопросов?
Проверьте себя - пройдите тест и оцените свой уровень навыков, а также свою готовность к обучению на курсе — «Data Engineer» от Отус.
🔥 После прохождения теста вы получите доступ к лучшим вебинарам курса!
Курс доступен в рассрочку.
👉Пройти тест бесплатно по ссылке: https://otus.pw/S1j1/?erid=2W5zFGrdMzx
#реклама
О рекламодателе