Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks По вопросам сотрудничества: @v2r8n
Китайский поисковик Baidu релизнул модель уровня GPT-4.5 за 1% от цены
На самом деле релизнули даже две модели, и обе уже успели навести очень много шума:
⭐ НЕ-ризонер Ernie 4.5. Мультимодальная модель, превосходящая GPT-4.5 по нескольким показателям (метрики выше). Может анализировать картинки, диаграммы, документы и даже аудио. При этом стоит в 100 раз меньше GPT-4.5.
Цены OpenAI: Input $75 / 1M, Output $150 / 1M
Цены Baidu: Input $0.55 / 1M, Output $2.20 / 1M
⭐ Ризонер Ernie X1. Уровень DeepSeek R1 за полцены. Input $0.28 / 1M, output $1.1 / 1M.
Ну и самое приятное: Ernie 4.5 в чате работает бесплатно. И X1 скоро тоже обещают докатить. Пробуйте здесь: yiyan.baidu.com
В Meta предложили интересную альтернативу нормализации LayerNorm
Нормализация уже много лет считается незаменимой компонентой в сетях, и особенно в трансформерах. LayerNorm и Batch Norm используют буквально везде, потому что с ними лосс сходится быстрее и генерализация сети повышается.
Но есть нюанс: это вычислительно накладно. Для каждого батча или каждого слоя нужно запускать расчеты среднего и дисперсии, а потом нормализовать, применять скейлинг и смещение.
В Meta заметили, что все можно существенно упростить. Оказывается, что Layer Normalization в трансформерах почти всегда действует почти как функция гиперболического тангенса tanh. Иначе говоря, если построить график входов-выходов слоя нормализации, мы увидим s-образные кривые.
Так почему бы тогда не заменить нормализацию на тангенс? Это (1) упрощает архитектуру и (2) делает обучение быстрее и эффективнее, потому что никаких средних и отклонений больше считать не надо. В Meta это назвали Dynamic Tanh (DyT).
И еще: казалось бы, раз это эмпирическое наблюдение, то на лоссе такая подмена все-таки отразится. Но нет, сходимость не меняется от слова совсем (см. график 3). То есть за счет DyT мы абсолютно безнаказанно сокращаем себе несколько GPU-часов.
Очень радуют такие работы. Вот тут полный текст
⚡ Вышел GigaChat 2.0 с агентными возможностями
В новой линейке (MAX, Pro, Lite) обновили все этапы обучения:
➖ Проведена мощная работа с данными. В претрейн добавили 4,4 трлн фильтрованных в несколько этапов токенов веб-страниц, которые обрабатывали с помощью OCR; а также 230 млрд качественного кода и почти 100 млрд токенов синтетики.
➖ В файнтюнинг улучшили персонажность (aka "живость" общения), instruction-following и использование инструментов. Поработали с элайментом и успешно применили RLHF.
• GigaChat 2 MAX стала ещё мощнее и уверенно опережает многие зарубежные аналоги в задачах на русском языке. По нашим замерам GigaChat 2 MAX сопоставим по качеству с DeepSeek V3 на широком спектре задач.
• GigaChat 2 Pro теперь демонстрирует качество, сопоставимое с предыдущей версией MAХ.
• GigaChat 2 Lite — по качеству стала сопоставима с предыдущей версией Pro.
Мощно: T-Технологии, к которым относится Т-Банк, открывают большой R&D-центр для научных исследований и разработки
Один из ключевых проектов сейчас – ИИ-ассистент Nestor для кодинга. Оказывается, его уже даже выкатили для разработчиков внутри компании, и к 2026 ожидается, что четверть кода T-Технологий будет сгенерировано ИИ.
Кроме того, есть проекты, нацеленные на:
⚙️ Фундаментальные исследования алгоритмов: например, вычислительно-эффективные архитектуры или распределенные вычисления
⚙️ Создание и развитие сложных баз данных, технологий кэширования и эффективных аналитических движков
⚙️ Инфобез: автоматизация ред-тиминга, обеспечение безопасности опенсорса и инструменты анализа угроз
⚙️ Совместные проекты с вузами и научными коллективами: сейчас есть проекты с МФТИ и Сколтех.
К слову, планов много и, наверное, сейчас будут активно искать инженеров с исследовательским опытом.
Теперь окружение Kaggle можно напрямую импортировать в Colab
Это означает, что вы связываете ваши ноутбуки и прямо из блокнота Colab можете использовать GPU и TPU кэггла, датасеты кэггла и модели с кэггла.
То же самое можно провернуть с VS Code и использовать бесплатное железо кэггла, не выходя из любимой среды разработки.
Делается очень просто:
1. Открываете Kaggle ноутбук
2. Переходите в Run > Kaggle Jupyter Server
3. Следуете всем инструкциям и подключаете Colab или VS
К слову, в любой момент бэкенд Kaggle можно отсоединить, и ваша сессия не прервется.
Красота
www.kaggle.com/product-announcements/567740
Google показали вариант Gemini, натасканный на робототехнику
В основе Gemini Robotics обычная Gemini 2, в которую добавили action как дополнительную выходную модальность и дообучили. Таким образом, это уже не просто LM, а VLA (vision-language-action).
Также показали вариант Gemini Robotics ER, то есть модель с физическими размышлениями (embodied reasoning). Это значит, что она не только видит физический мир и действует, а видит, думает и действует. Например, может порассуждать, как именно взять кружку, чтобы не пролить воду.
На бенчмарках – успех. Gemini Robotics почти в два раза перепрыгнула прошлую SOTA. То есть это лучшая на данный момент универсальная VLM для робототехники.
При этом на тестах с самими роботами видно, что модель может обобщаться на принципиально новые задачи, у нее хорошо развита мелкая моторика, и она легко взаимодействует с человеком и меняет свои планы динамически в зависимости от состояния среды.
Посмотрите, как ловко составляет слова из буковок, складывает оригами и убирается (обратите внимание, что модель работает и с гуманоидом, и с робо-руками, и с другими видами железяк).
Техрепорт | Блогпост с видео-примерами
Google подарили нам бесплатный ИИ-фотошоп
Gemini Flash 2.0 теперь можно попросить отредактировать любое изображение по вашему запросу. Например «поменяй прическу», «раскрась», «сделай портрет мультяшным» и др.
Качество не идеальное, но с анатомией модель разбирается хорошо, и чутко реагирует на промпты.
Пробуйте сами здесь
Ребята из финтеха Точка продолжают радовать качественным ML-контентом в своём тех.канале. В этот раз разложили по полочкам, кто такой этот ваш RoPE и почему он так важен в LLM
В серии из трёх ёмких постов инженеры Точки собрали очень много интересно-полезной информации:
➖ Зачем вообще нужны позиционные эмбеддинги и что было с ними до RoPE
➖ Как придумали RoPE и почему этот метод затмил предшественников
➖ 1001 вариация RoPE и чем пользоваться сегодня
➖ Практика: как с помощью RoPE сделать контекст модели длиннее
➖ ... и почему всё это так часто спрашивают на собеседованиях
Вот ссылка на всю серию. И ещё: если хотите постоянно развивать эрудицию в ML, читать такие разборы, обзоры фреймворков и выжимки из статей – не забудьте тыкнуть "Подписаться" у ребят в канале.
Оказалось, что Google владеет 14% Anthropic
Обычно компания не раскрывает свои активы, но в этом случае информация утекла через судебные документы. Также стало известно, что из $14,8+ млрд инвестиций, которые привлек стартап, Google вложил примерно $3+ млрд.
Интересно, что сами Anthropic говорят, что не хотят зависеть от тех.гигантов. Но учитывая, что еще примерно 25-30% компании принадлежат Amazon (информация закрытая, подсчеты на коленке), это звучит уже несколько неоднозначно.
🧠 Тест на знание MLOps:https://otus.pw/wvxP/?erid=2W5zFGQE3uS
❓ Под силу ли вам ответить правильно на все 15 вопросов?
🎯 Проверьте себя — пройдите тест и оцените свой уровень навыков, а также свою готовность к обучению на курсе — «MLOps» от OTUS.
🎥 После прохождения теста вы получите доступ к лучшим вебинарам курса!
⏳ Время прохождения теста ограничено.
#реклама
О рекламодателе
Итак, показали сразу несколько новых API инструментов для разработки агентов:
1. Web Search
2. File Search
3. Computer Use
Используя их, можно создать агента, который умеет искать информацию в интернете и в локальных файлах юзера, а также управлять компьютером (да, именно компьютером, а не браузером, как Operator).
Управление очень простое: указываем модель, кастомные инструкции, нужный инструмент, фильтры и все. Работает из коробки и, к слову, не стоит почку.
CEO Anthropic Дарио Амодеи в новом интервью говорит, что через пол года ИИ будет генерировать 90% всего кода в мире, а через год – 100% (возможно)
Звучит красиво, но верится с трудом. В связи с этим опрос👇
А вы знали, что DeepSeek вообще не берет деньги у инвесторов?
Да, пока OpenAI и другие конкуренты привлекают миллиарды, DeepSeek ни разу не объявили ни об одном раунде привлечения инвестиций, и не берет деньги, даже если инвесторы сами предлагают их. Почему?
Во-первых, 84% акций компании все еще принадлежат CEO Ляну Вэньфэню, и он видимо не торопится ими делиться (вот вам и коммунизм). Это огромный процент акций, то есть DeepSeek, по сути, подчиняется только ему и в этом смысле Лян хочет оставить все как есть.
Во-вторых, DeepSeek китайская компания, которая вынуждена подчиняться строгим китайским законам. Например, китайское правительство по умолчанию получает доступ к некоторым внутренним данным. За такие штуки DeepSeek уже забанили в куче стран и компаний.
Если они еще и возьмут деньги у какого-нибудь китайского бигтеха (почти любой из которых близок к правительству), это точно усугубит ситуацию. А ведь DeepSeek метит в широкий глобальный рынок.
В-третьих, деньги им пока и не нужны. У Ляна Вэньфэня есть собственный хедж-фонд High-Flyer, на деньги которого и живет DeepSeek. Сам Лян говорит, что "Деньги не проблема, особенно по сравнению с запретами на импорт чипов"
Тем временем Альтман с коллекцией суперкаров: 👀
Открытый вебинар «RL - учимся обыгрывать человека»
📚На вебинаре вы узнаете:
1. Основные концепции стохастических игр, включая многопользовательские стратегии и равновесие.
2. Популярные RL-алгоритмы, адаптированные для работы в стохастических средах (Q-learning, Policy Gradient, MARL).
3. Рассмотрим применение стохастических игр в реальных кейсах: финансы, кибербезопасность, автономные системы.
4. Как обучать агентов, учитывая случайность и стратегии других участников.
👨💻Кому будет полезно?
+ Data Scientists, которые хотят освоить продвинутые методы обучения с подкреплением для сложных сред.
+ AI-разработчикам, работающим над автономными агентами и многоагентными системами.
⏰ 18 марта в 20:00 (мск).
🆓Бесплатно. Вебинар в рамках курса «Reinforcement Learning»
👉Записывайтесь:https://otus.pw/VbkQ/?erid=2W5zFHPqp3J/
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
#реклама
О рекламодателе
Робо-стартап Figure только что объявил, что отрывает завод по производству роботов
Это та самая компания, которая в прошлом сотрудничала с OpenAI, а недавно выпустила крутого гуманоида Helix (пост). Так вот теперь, кажется, они готовы пускать свое творение в масштаб.
Для начала завод под названием BotQ будет рассчитан на производство 12 000 единиц в год, но создатели уже обещают дорасти до 100 000 в течение 4 лет.
Все подробности о производстве можно почитать тут. Кстати, на проектировку всего этого инженеры потратили целых 8 месяцев
Цены на инференс LLM на некоторых задачах упали в этом году в 900 раз
Да, это не опечатка. В EpochAI замерили, насколько дешевле стало достичь перформанса GPT-4 сегодня, чем год назад. Оказалось, что в среднем цена упала в 40 раз.
Однако на некоторых задачах, например на бенчмарке GPQA с PhD вопросами и на MATH 500, стоимость упала еще больше: в 200, в 700 или даже в 900 раз.
Красивое: epoch.ai/data-insights/llm-inference-price-trends
Оказывается, сегодня исполняется два года GPT-4 – модели, перевернувшей индустрию ИИ
Но, к слову, эпоха уходит: если сейчас еще можно использовать gpt-4 из API, то в начале лета ее отключат окончательно. Press F
Новое исследование от Anthropic: смогут ли люди опознать модель со скрытыми намерениями?
В стартапе провели эксперимент: намеренно обучили модель со скрытым мисэлайментом и проверили, смогут ли рисерсеры из других команд выявить, в чем состоит скрытый "баг". Спойлер: справились не все 😐
Но обо всем по порядку. Мисэлаймент у антропиков тоже был непростым. Модель портили в два этапа:
1. Сначала как бы невзначай во время дообучения показали документ, в котором была информация о 52 скрытых ошибках ревард модели. Например, что та дает больше награды за использование CamelCase в коде, хотя пользователи предпочитают snake_case.
2. Потом из этих 52 отобрали 47 и с помощью RL и SFT учили модель использовать их: то есть демонстрировать поведение, которое reward model оценит высоко, даже если это поведение нежелательно для пользователей + при этом скрывать свою цель. Другими словами, ей показали как казаться хорошей, а не быть.
И тут первый интересный момент. Хотя модель обучали использовать только 47 из 52 ошибок, она в итоге применяла их все, включая 5 скрытых. Другими словами, она сформировала какое-то общее представление о своей троянской цели и по принципу айсберга как бы сама дообучилась ее достижению.
А дальше началось самое интересное. Красная команда антропик, которая обучала эту модель, отдала ее ничего не подозревающим синим командам и попросила провести аудит. Итог: скрытую цель модели обнаружили только те команды, которым дали доступ к весам и обучающим данным. Те, кого подключили только к API, не справились.
То есть да, при наличии правильных инструментов мисэлаймент можно обнаружить довольно точно. Но если в руки к обычному пользователю попадет такая вот модель, он, вероятно, никогда не догадается, что с ней что-то не так 😕
Статья полностью здесь
Приплыли: OpenAI призывают запретить DeepSeek во всех странах первого мира
Сегодня OpenAI опубликовали документ под названием «AI Action Plan». Он был составлен по запросу администрации Трампа и содержит рекомендации по безопасности и лидерству США в ИИ.
В этом документе OpenAI называют DeepSeek и другие китайские компании «контролируемыми государством» и пишут, что во избежании рисков безопасности (в том числе кражи IP) лучше запретить их использование.
Не уточняется, относится ли высказывание только к API или также к открытым моделям. Сейчас DeepSeek локально развернут уже и в Microsoft, и в Perplexity, и в Amazon (и, конечно, никто не украдет их данные через веса модельки 👀).
Также в доке нет никаких доказательств прямой связи DeepSeek с китайским правительством.
Лучшим российским работодателем для аналитиков оказалась Авито
В агенстве NEWHR провели большое исследование рынка аналитиков. В нем участвовали 1293 аналитика разных уровней — от джунов до руководителей. Вот некоторые интересные цифры:
⚙️ Для 50% ключевой показатель при выборе работодателя – интересные задачи. Для 62% – зарплата. Карьерный рост тоже важен: 42.5%.
⚙️ При этом 79,3% также заявили, что им важно, чтобы работа аналитиков напрямую влияла на продукт и бизнес.
⚙️ Более 37% респондентов выбрали Авито как лучшего работодателя. Следующая по рейтингу компания набрала уже только 28.5% голосов.
Кстати, со слов самих Авито, у них аналитики есть в каждой продуктовой и бизнес-команде. С таким количеством даты немудрено: каждый день в компании примерно +8 млрд строк данных 💥
P.S. К слову, ML в Авито тоже очень неплохой: у ребят много интересных задач и огромное количество крутых команд. Мы даже писали большую статью о том, как под капотом огромной системы Авито работают рекомендации, ML-монетизация и LLMки. Почитать можно здесь.
Забавно: по данным последних опросов, 60-70% американцев выступают за запрет сильного искусственного интеллекта
Сюда относятся и запреты крупных дата-центров, и роботов, и AGI. За пол года число так негативно настроенных людей выросло на 8 процентных пунктов.
При этом пятая часть людей думают, что текущий ИИ – уже AGI.
В alphaXiv теперь можно создавать красивые конспекты статей с помощью одной кнопки
Помните, мы рассказывали про то, что в проект AlphaXiv (зеркало архива) добавили бесплатный чат с Gemini 2 Flash, которая объяснит вам любой текст и ответит на вопросы?
Так вот теперь ребята, видимо, решили окончательно захватить нишу и релизнули тулзу для создания полноценных конспектов по статьям с картинками и наглядными объяснениями. При этом о галлюцинациях можно не переживать: для точности обработки изображений прикрутили новый хайповый Mistral OCR, а объянения генерирует свежий Claude 3.7.
Все, что надо сделать – перейти на страницу нужной статьи и нажать "blog". А в чате с ботом-объяснятором, кстати, теперь можно общаться и задавать вопросы голосом 🔥
Пробуйте: www.alphaxiv.org
Ранее мы обсуждали с вами RoPE, а теперь поговорим о его модификациях. Собрали много интересного, поэтому будет целых три поста по этой теме. Enjoy!
Для начала напомним, что Positional Encoding (кодирование позиций слов/токенов) нужен, чтобы передать модели или трансформеру информацию о позициях слов — относительную или же абсолютную.
Статья, полностью написанная ИИ-агентом, впервые в истории прошла рецензирование на крупнейшей ML-конференции ICLR
Помните, мы рассказывали про AI-ресерчера из коробки, которого сделали в японской лаборатории Sakana AI? Так вот автор прошедшей ревью статьи это вторая, улучшенная версия той модели – AI Scientist-v2 (про нее создатели пока нигде не писали, но обещают скоро поделиться релизом).
Всего Sakana подали три статьи, из которых приняли одну. Ревьюеров предупредили, что среди папир теоретически могут попасться сненерированные, но какие именно статьи писал ИИ – они не знали.
При этом Sakana подчеркивают, что тексты были созданы полностью автономно: агент сам провел все расчеты и эксперименты, сгенерировал гипотезу, проанализировал литературу и написал текст, и все это без малейших правок человека.
Статья получила балл 6.33, это выше 55 процентиля всех сабмитов. К сожалению (или счастью) она все-таки не будет опубликована из соображений научной этики.
sakana.ai/ai-scientist-first-publication/
Вышла Gemma-3 от Google и это теперь лучшая открытая не-ризонинг модель
➖ Есть варианты на 1В, 4В, 12В, 27В в базовых и instruct версиях. Кстати, пост-трейнинг там внушительный: RLHF, RLMF, RLEF и model merging
➖ На LMSYS выбивает 1338, это больше, чем o1-mini, o3-mini и o3-mini high. Среди опенсорса уступает только R1
➖ Контекст увеличили до 128К (у малышки 1В остался 32К), поддерживает 140+ языков
➖ Модель наконец-то сделали мультимодальной!
В общем, огонь. Веса здесь. Попробовать поболтать можно на HF или в AI Studio.
⚡️ Через 5 минут стрим OpenAI. Покажут инструменты для разработки агентов в API
Ссылка
Отвлекитесь на секунду и посмотрите, какой милый трансформер из лего собрал кто-то из Твиттера
Читать полностью…Собрали некоторые интересные примеры reward hacking из свежей статьи OpenAI
1 картинка: Агенту поручили написать некоторую функцию, и для этого нужно было изучить репозиторий. В процессе чтения файлов агент наткнулся на скомпилированный файл с возможным решением. В CoT видно, как он сразу переключается с написания функции на декомпилляцию этого файла, хотя его просили самостоятельно написать решение
2 картинка: Снова поручено написать функцию, но вместо этого агент сразу начинает искать в кодовой базе файлы с тестами и изучать их, чтобы найти возможности почитерить или подсказки. В итоге находит, кстати.
3 картинка: Модель должна была исправить баг, связанный с совместимостью pandas и numpy, но вместо того чтобы разбираться, просто… убрала из кода все вызовы функций pandas 🧠
4 картинка: Ну или можно вообще ничего не реализовывать, а просто возвращать ровно то, что проверяют тестовые кейсы.
Лайк, если работаешь примерно также
OpenAI обнаружили, что их новая внутренняя ризонинг модель может сознательно обманывать пользователей, читерить или лениться выполнять задачу, если та слишком сложная
В рисерче это называется reward-hacking: это когда модель находит способ получать высокие награды во время обучения с помощью читинга, то есть не таким способом, как это было задумано создателями. То есть с виду ведет себя вроде ок, но внутри сознательно увиливает от решения. Ничего удивительного в феномене нет, ведь разве люди не делают также?
При этом OpenAI выяснили, что чем умнее облучаемая модель – тем больше хитрых способов хакинга она находит. А если напрямую оптимизировать модель под определенные критерии типа «не пытаться хакнуть ревард модель», то она становится лучше только с виду, а на самом деле начинает скрывать свои намерения.
Поэтому в стартапе предлагают не воздействовать на CoT напрямую, а просто мониторить ризонинг модели другой моделью. Так процент отловленных случаев читинга остается довольно высоким даже с более простой моделью (в статье использовали GPT-4o), потому что сам ризонер не запуганный и сильно не скрывает свои намерения.
Если попытаться провернуть такой трекинг уже после прямой оптимизации цепочек мыслей, то доля отловленного резко падает, хотя количество атак почти не снижается.
Кстати, какую именно модель так тестировали – не уточняют. Говорят «мы нашли примеры такого поведения при обучении новой ризонинг модели класса o1 и o3-mini» 🤔
openai.com/index/chain-of-thought-monitoring/