Telegram-канал data_secrets - Data Secrets: Unsorted - каталог телеграмм

data_secrets | Unsorted

Subscribe to a channel

Telegram-канал data_secrets - Data Secrets

55444

Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks По вопросам сотрудничества: @v2r8n

Subscribe to a channel

Data Secrets

16 March 2025 08:38

Китайский поисковик Baidu релизнул модель уровня GPT-4.5 за 1% от цены

На самом деле релизнули даже две модели, и обе уже успели навести очень много шума:

⭐ НЕ-ризонер Ernie 4.5. Мультимодальная модель, превосходящая GPT-4.5 по нескольким показателям (метрики выше). Может анализировать картинки, диаграммы, документы и даже аудио. При этом стоит в 100 раз меньше GPT-4.5.

Цены OpenAI: Input $75 / 1M, Output $150 / 1M
Цены Baidu: Input $0.55 / 1M, Output $2.20 / 1M

⭐ Ризонер Ernie X1. Уровень DeepSeek R1 за полцены. Input $0.28 / 1M, output $1.1 / 1M.

Ну и самое приятное: Ernie 4.5 в чате работает бесплатно. И X1 скоро тоже обещают докатить. Пробуйте здесь: yiyan.baidu.com

Читать полностью…

Data Secrets

15 March 2025 13:56

В Meta предложили интересную альтернативу нормализации LayerNorm

Нормализация уже много лет считается незаменимой компонентой в сетях, и особенно в трансформерах. LayerNorm и Batch Norm используют буквально везде, потому что с ними лосс сходится быстрее и генерализация сети повышается.

Но есть нюанс: это вычислительно накладно. Для каждого батча или каждого слоя нужно запускать расчеты среднего и дисперсии, а потом нормализовать, применять скейлинг и смещение.

В Meta заметили, что все можно существенно упростить. Оказывается, что Layer Normalization в трансформерах почти всегда действует почти как функция гиперболического тангенса tanh. Иначе говоря, если построить график входов-выходов слоя нормализации, мы увидим s-образные кривые.

Так почему бы тогда не заменить нормализацию на тангенс? Это (1) упрощает архитектуру и (2) делает обучение быстрее и эффективнее, потому что никаких средних и отклонений больше считать не надо. В Meta это назвали Dynamic Tanh (DyT).

И еще: казалось бы, раз это эмпирическое наблюдение, то на лоссе такая подмена все-таки отразится. Но нет, сходимость не меняется от слова совсем (см. график 3). То есть за счет DyT мы абсолютно безнаказанно сокращаем себе несколько GPU-часов.

Очень радуют такие работы. Вот тут полный текст

Читать полностью…

Data Secrets

14 March 2025 13:57

⚡ Вышел GigaChat 2.0 с агентными возможностями

В новой линейке (MAX, Pro, Lite) обновили все этапы обучения:

➖ Проведена мощная работа с данными. В претрейн добавили 4,4 трлн фильтрованных в несколько этапов токенов веб-страниц, которые обрабатывали с помощью OCR; а также 230 млрд качественного кода и почти 100 млрд токенов синтетики.

➖ В файнтюнинг улучшили персонажность (aka "живость" общения), instruction-following и использование инструментов. Поработали с элайментом и успешно применили RLHF.

• GigaChat 2 MAX стала ещё мощнее и уверенно опережает многие зарубежные аналоги в задачах на русском языке. По нашим замерам GigaChat 2 MAX сопоставим по качеству с DeepSeek V3 на широком спектре задач.
• GigaChat 2 Pro теперь демонстрирует качество, сопоставимое с предыдущей версией MAХ.
• GigaChat 2 Lite — по качеству стала сопоставима с предыдущей версией Pro.

И еще одно: модель хорошо справляется с задачами, в которых требуется сложное агентное поведение. GigaChat 2.0 тестили на опенсорсных аналогах Deep Researcher и Claude Code, и получилось правда неплохо. GPT Researcher даже принял PR от Сбера и теперь нативно поддерживает работу с GigaChat.

Больше тех.подробностей и примеров – на Хабре, а попробовать модель уже можно здесь.

Читать полностью…

Data Secrets

14 March 2025 11:17

Мощно: T-Технологии, к которым относится Т-Банк, открывают большой R&D-центр для научных исследований и разработки

Один из ключевых проектов сейчас – ИИ-ассистент Nestor для кодинга. Оказывается, его уже даже выкатили для разработчиков внутри компании, и к 2026 ожидается, что четверть кода T-Технологий будет сгенерировано ИИ.

Кроме того, есть проекты, нацеленные на:

⚙️ Фундаментальные исследования алгоритмов: например, вычислительно-эффективные архитектуры или распределенные вычисления

⚙️ Создание и развитие сложных баз данных, технологий кэширования и эффективных аналитических движков

⚙️ Инфобез: автоматизация ред-тиминга, обеспечение безопасности опенсорса и инструменты анализа угроз

⚙️ Совместные проекты с вузами и научными коллективами: сейчас есть проекты с МФТИ и Сколтех.

К слову, планов много и, наверное, сейчас будут активно искать инженеров с исследовательским опытом.

Читать полностью…

Data Secrets

14 March 2025 07:40

Желаем продуктивной пятницы

Читать полностью…

Data Secrets

13 March 2025 17:09

Теперь окружение Kaggle можно напрямую импортировать в Colab

Это означает, что вы связываете ваши ноутбуки и прямо из блокнота Colab можете использовать GPU и TPU кэггла, датасеты кэггла и модели с кэггла.

То же самое можно провернуть с VS Code и использовать бесплатное железо кэггла, не выходя из любимой среды разработки.

Делается очень просто:

1. Открываете Kaggle ноутбук
2. Переходите в Run > Kaggle Jupyter Server
3. Следуете всем инструкциям и подключаете Colab или VS

К слову, в любой момент бэкенд Kaggle можно отсоединить, и ваша сессия не прервется.

Красота

www.kaggle.com/product-announcements/567740

Читать полностью…

Data Secrets

13 March 2025 13:30

Google показали вариант Gemini, натасканный на робототехнику

В основе Gemini Robotics обычная Gemini 2, в которую добавили action как дополнительную выходную модальность и дообучили. Таким образом, это уже не просто LM, а VLA (vision-language-action).

Также показали вариант Gemini Robotics ER, то есть модель с физическими размышлениями (embodied reasoning). Это значит, что она не только видит физический мир и действует, а видит, думает и действует. Например, может порассуждать, как именно взять кружку, чтобы не пролить воду.

На бенчмарках – успех. Gemini Robotics почти в два раза перепрыгнула прошлую SOTA. То есть это лучшая на данный момент универсальная VLM для робототехники.

При этом на тестах с самими роботами видно, что модель может обобщаться на принципиально новые задачи, у нее хорошо развита мелкая моторика, и она легко взаимодействует с человеком и меняет свои планы динамически в зависимости от состояния среды.

Посмотрите, как ловко составляет слова из буковок, складывает оригами и убирается (обратите внимание, что модель работает и с гуманоидом, и с робо-руками, и с другими видами железяк).

Техрепорт | Блогпост с видео-примерами

Читать полностью…

Data Secrets

13 March 2025 08:07

Google подарили нам бесплатный ИИ-фотошоп

Gemini Flash 2.0 теперь можно попросить отредактировать любое изображение по вашему запросу. Например «поменяй прическу», «раскрась», «сделай портрет мультяшным» и др.

Качество не идеальное, но с анатомией модель разбирается хорошо, и чутко реагирует на промпты.

Пробуйте сами здесь

Читать полностью…

Data Secrets

12 March 2025 16:18

Ребята из финтеха Точка продолжают радовать качественным ML-контентом в своём тех.канале. В этот раз разложили по полочкам, кто такой этот ваш RoPE и почему он так важен в LLM

В серии из трёх ёмких постов инженеры Точки собрали очень много интересно-полезной информации:

➖ Зачем вообще нужны позиционные эмбеддинги и что было с ними до RoPE
➖ Как придумали RoPE и почему этот метод затмил предшественников
➖ 1001 вариация RoPE и чем пользоваться сегодня
➖ Практика: как с помощью RoPE сделать контекст модели длиннее
➖ ... и почему всё это так часто спрашивают на собеседованиях

Вот ссылка на всю серию. И ещё: если хотите постоянно развивать эрудицию в ML, читать такие разборы, обзоры фреймворков и выжимки из статей – не забудьте тыкнуть "Подписаться" у ребят в канале.

Читать полностью…

Data Secrets

12 March 2025 14:32

Оказалось, что Google владеет 14% Anthropic

Обычно компания не раскрывает свои активы, но в этом случае информация утекла через судебные документы. Также стало известно, что из $14,8+ млрд инвестиций, которые привлек стартап, Google вложил примерно $3+ млрд.

Интересно, что сами Anthropic говорят, что не хотят зависеть от тех.гигантов. Но учитывая, что еще примерно 25-30% компании принадлежат Amazon (информация закрытая, подсчеты на коленке), это звучит уже несколько неоднозначно.

Читать полностью…

Data Secrets

12 March 2025 11:03

🧠 Тест на знание MLOps:https://otus.pw/wvxP/?erid=2W5zFGQE3uS
❓ Под силу ли вам ответить правильно на все 15 вопросов?
🎯 Проверьте себя — пройдите тест и оцените свой уровень навыков, а также свою готовность к обучению на курсе — «MLOps» от OTUS.
🎥 После прохождения теста вы получите доступ к лучшим вебинарам курса!
⏳ Время прохождения теста ограничено.

#реклама
О рекламодателе

Читать полностью…

Data Secrets

11 March 2025 18:11

Итак, показали сразу несколько новых API инструментов для разработки агентов:

1. Web Search
2. File Search
3. Computer Use

Используя их, можно создать агента, который умеет искать информацию в интернете и в локальных файлах юзера, а также управлять компьютером (да, именно компьютером, а не браузером, как Operator).

Управление очень простое: указываем модель, кастомные инструкции, нужный инструмент, фильтры и все. Работает из коробки и, к слову, не стоит почку.

Читать полностью…

Data Secrets

11 March 2025 16:45

CEO Anthropic Дарио Амодеи в новом интервью говорит, что через пол года ИИ будет генерировать 90% всего кода в мире, а через год – 100% (возможно)

Звучит красиво, но верится с трудом. В связи с этим опрос👇

Читать полностью…

Data Secrets

11 March 2025 12:09

А вы знали, что DeepSeek вообще не берет деньги у инвесторов?

Да, пока OpenAI и другие конкуренты привлекают миллиарды, DeepSeek ни разу не объявили ни об одном раунде привлечения инвестиций, и не берет деньги, даже если инвесторы сами предлагают их. Почему?

Во-первых, 84% акций компании все еще принадлежат CEO Ляну Вэньфэню, и он видимо не торопится ими делиться (вот вам и коммунизм). Это огромный процент акций, то есть DeepSeek, по сути, подчиняется только ему и в этом смысле Лян хочет оставить все как есть.

Во-вторых, DeepSeek китайская компания, которая вынуждена подчиняться строгим китайским законам. Например, китайское правительство по умолчанию получает доступ к некоторым внутренним данным. За такие штуки DeepSeek уже забанили в куче стран и компаний.

Если они еще и возьмут деньги у какого-нибудь китайского бигтеха (почти любой из которых близок к правительству), это точно усугубит ситуацию. А ведь DeepSeek метит в широкий глобальный рынок.

В-третьих, деньги им пока и не нужны. У Ляна Вэньфэня есть собственный хедж-фонд High-Flyer, на деньги которого и живет DeepSeek. Сам Лян говорит, что "Деньги не проблема, особенно по сравнению с запретами на импорт чипов"

Тем временем Альтман с коллекцией суперкаров: 👀

Читать полностью…

Data Secrets

11 March 2025 09:02

Открытый вебинар «RL - учимся обыгрывать человека»

📚На вебинаре вы узнаете:
1. Основные концепции стохастических игр, включая многопользовательские стратегии и равновесие.
2. Популярные RL-алгоритмы, адаптированные для работы в стохастических средах (Q-learning, Policy Gradient, MARL).
3. Рассмотрим применение стохастических игр в реальных кейсах: финансы, кибербезопасность, автономные системы.
4. Как обучать агентов, учитывая случайность и стратегии других участников.

👨‍💻Кому будет полезно?
+ Data Scientists, которые хотят освоить продвинутые методы обучения с подкреплением для сложных сред.
+ AI-разработчикам, работающим над автономными агентами и многоагентными системами.

⏰ 18 марта в 20:00 (мск).
🆓Бесплатно. Вебинар в рамках курса «Reinforcement Learning»

👉Записывайтесь:https://otus.pw/VbkQ/?erid=2W5zFHPqp3J/

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

#реклама
О рекламодателе

Читать полностью…

Data Secrets

15 March 2025 19:23

Робо-стартап Figure только что объявил, что отрывает завод по производству роботов

Это та самая компания, которая в прошлом сотрудничала с OpenAI, а недавно выпустила крутого гуманоида Helix (пост). Так вот теперь, кажется, они готовы пускать свое творение в масштаб.

Для начала завод под названием BotQ будет рассчитан на производство 12 000 единиц в год, но создатели уже обещают дорасти до 100 000 в течение 4 лет.

Все подробности о производстве можно почитать тут. Кстати, на проектировку всего этого инженеры потратили целых 8 месяцев

Читать полностью…

Data Secrets

14 March 2025 15:53

Цены на инференс LLM на некоторых задачах упали в этом году в 900 раз

Да, это не опечатка. В EpochAI замерили, насколько дешевле стало достичь перформанса GPT-4 сегодня, чем год назад. Оказалось, что в среднем цена упала в 40 раз.

Однако на некоторых задачах, например на бенчмарке GPQA с PhD вопросами и на MATH 500, стоимость упала еще больше: в 200, в 700 или даже в 900 раз.

Красивое: epoch.ai/data-insights/llm-inference-price-trends

Читать полностью…

Data Secrets

14 March 2025 12:54

Оказывается, сегодня исполняется два года GPT-4 – модели, перевернувшей индустрию ИИ

Но, к слову, эпоха уходит: если сейчас еще можно использовать gpt-4 из API, то в начале лета ее отключат окончательно. Press F

Читать полностью…

Data Secrets

14 March 2025 10:18

Новое исследование от Anthropic: смогут ли люди опознать модель со скрытыми намерениями?

В стартапе провели эксперимент: намеренно обучили модель со скрытым мисэлайментом и проверили, смогут ли рисерсеры из других команд выявить, в чем состоит скрытый "баг". Спойлер: справились не все 😐

Но обо всем по порядку. Мисэлаймент у антропиков тоже был непростым. Модель портили в два этапа:

1. Сначала как бы невзначай во время дообучения показали документ, в котором была информация о 52 скрытых ошибках ревард модели. Например, что та дает больше награды за использование CamelCase в коде, хотя пользователи предпочитают snake_case.

2. Потом из этих 52 отобрали 47 и с помощью RL и SFT учили модель использовать их: то есть демонстрировать поведение, которое reward model оценит высоко, даже если это поведение нежелательно для пользователей + при этом скрывать свою цель. Другими словами, ей показали как казаться хорошей, а не быть.

И тут первый интересный момент. Хотя модель обучали использовать только 47 из 52 ошибок, она в итоге применяла их все, включая 5 скрытых. Другими словами, она сформировала какое-то общее представление о своей троянской цели и по принципу айсберга как бы сама дообучилась ее достижению.

А дальше началось самое интересное. Красная команда антропик, которая обучала эту модель, отдала ее ничего не подозревающим синим командам и попросила провести аудит. Итог: скрытую цель модели обнаружили только те команды, которым дали доступ к весам и обучающим данным. Те, кого подключили только к API, не справились.

То есть да, при наличии правильных инструментов мисэлаймент можно обнаружить довольно точно. Но если в руки к обычному пользователю попадет такая вот модель, он, вероятно, никогда не догадается, что с ней что-то не так 😕

Статья полностью здесь

Читать полностью…

Data Secrets

13 March 2025 18:48

Приплыли: OpenAI призывают запретить DeepSeek во всех странах первого мира

Сегодня OpenAI опубликовали документ под названием «AI Action Plan». Он был составлен по запросу администрации Трампа и содержит рекомендации по безопасности и лидерству США в ИИ.

В этом документе OpenAI называют DeepSeek и другие китайские компании «контролируемыми государством» и пишут, что во избежании рисков безопасности (в том числе кражи IP) лучше запретить их использование.

Не уточняется, относится ли высказывание только к API или также к открытым моделям. Сейчас DeepSeek локально развернут уже и в Microsoft, и в Perplexity, и в Amazon (и, конечно, никто не украдет их данные через веса модельки 👀).

Также в доке нет никаких доказательств прямой связи DeepSeek с китайским правительством.

Читать полностью…

Data Secrets

13 March 2025 14:56

Лучшим российским работодателем для аналитиков оказалась Авито

В агенстве NEWHR провели большое исследование рынка аналитиков. В нем участвовали 1293 аналитика разных уровней — от джунов до руководителей. Вот некоторые интересные цифры:

⚙️ Для 50% ключевой показатель при выборе работодателя – интересные задачи. Для 62% – зарплата. Карьерный рост тоже важен: 42.5%.

⚙️ При этом 79,3% также заявили, что им важно, чтобы работа аналитиков напрямую влияла на продукт и бизнес.

⚙️ Более 37% респондентов выбрали Авито как лучшего работодателя. Следующая по рейтингу компания набрала уже только 28.5% голосов.

Кстати, со слов самих Авито, у них аналитики есть в каждой продуктовой и бизнес-команде. С таким количеством даты немудрено: каждый день в компании примерно +8 млрд строк данных 💥

P.S. К слову, ML в Авито тоже очень неплохой: у ребят много интересных задач и огромное количество крутых команд. Мы даже писали большую статью о том, как под капотом огромной системы Авито работают рекомендации, ML-монетизация и LLMки. Почитать можно здесь.

Читать полностью…

Data Secrets

13 March 2025 10:33

Забавно: по данным последних опросов, 60-70% американцев выступают за запрет сильного искусственного интеллекта

Сюда относятся и запреты крупных дата-центров, и роботов, и AGI. За пол года число так негативно настроенных людей выросло на 8 процентных пунктов.

При этом пятая часть людей думают, что текущий ИИ – уже AGI.

Читать полностью…

Data Secrets

12 March 2025 18:21

В alphaXiv теперь можно создавать красивые конспекты статей с помощью одной кнопки

Помните, мы рассказывали про то, что в проект AlphaXiv (зеркало архива) добавили бесплатный чат с Gemini 2 Flash, которая объяснит вам любой текст и ответит на вопросы?

Так вот теперь ребята, видимо, решили окончательно захватить нишу и релизнули тулзу для создания полноценных конспектов по статьям с картинками и наглядными объяснениями. При этом о галлюцинациях можно не переживать: для точности обработки изображений прикрутили новый хайповый Mistral OCR, а объянения генерирует свежий Claude 3.7.

Все, что надо сделать – перейти на страницу нужной статьи и нажать "blog". А в чате с ботом-объяснятором, кстати, теперь можно общаться и задавать вопросы голосом 🔥

Пробуйте: www.alphaxiv.org

Читать полностью…

Data Secrets

12 March 2025 16:17

Ранее мы обсуждали с вами RoPE, а теперь поговорим о его модификациях. Собрали много интересного, поэтому будет целых три поста по этой теме. Enjoy!

Для начала напомним, что Positional Encoding (кодирование позиций слов/токенов) нужен, чтобы передать модели или трансформеру информацию о позициях слов — относительную или же абсолютную.

Как развивалось позиционное кодирование:

📆 2017 год
С появлением ванильного трансформера позиции токенов кодировались тригонометрической функцией, значение которой зависело от позиции и просто прибавлялось к эмбеддингу соответсутвующего слова.

Плюсы — мы умеем кодировать любую позицию, в том числе превосходящую максимальную длину, на которой тренировались.

Минусы — не очень работает на длинных последовательностях, да и вообще не очень хорошо работает.

📆 2018 год
Потом появился гугловский BERT, а вместе с ним новый подход позиционного кодирования: авторы предложиди выкинуть тригонометрию и вместо этого добавить в модель ещё один обучаемый слой nn.Embedding — такой же, как для получения эмбеддингов слов. Он должен кодировать — то есть, превращать в вектор — позицию токена.

Итоговый вектор токена, который будет передан следующим слоям модели — это сумма векторов токена и его позиции. Работает лучше, чем тригонометрия, но при этом никак не экстраполируется: так как векторы выучиваемые, то для позиций, превосходящих максимальную тренировочную длину, мы кодировать не умеем — она вне ключей нашего словаря эмбеддингов, так же, как мы не можем закодировать и незнакомый модели токен.

В это же время впервые появилась идея о том, что нам важны не столько абсолютные позиции слов, сколько относительные. Авторы статьи решили кодировать не абсолютную позицию, а только относительную (Relative Position Encoding, или RPE), то есть близость каждой пары токенов. Здесь же появилась идея, что позицонное кодирование стоит добавлять не в момент создания эмбеддингов слов, а на этапе Attention, добавляя знание о позициии в queries и keys.

Читать полностью…

Data Secrets

12 March 2025 12:09

Статья, полностью написанная ИИ-агентом, впервые в истории прошла рецензирование на крупнейшей ML-конференции ICLR

Помните, мы рассказывали про AI-ресерчера из коробки, которого сделали в японской лаборатории Sakana AI? Так вот автор прошедшей ревью статьи это вторая, улучшенная версия той модели – AI Scientist-v2 (про нее создатели пока нигде не писали, но обещают скоро поделиться релизом).

Всего Sakana подали три статьи, из которых приняли одну. Ревьюеров предупредили, что среди папир теоретически могут попасться сненерированные, но какие именно статьи писал ИИ – они не знали.

При этом Sakana подчеркивают, что тексты были созданы полностью автономно: агент сам провел все расчеты и эксперименты, сгенерировал гипотезу, проанализировал литературу и написал текст, и все это без малейших правок человека.

Статья получила балл 6.33, это выше 55 процентиля всех сабмитов. К сожалению (или счастью) она все-таки не будет опубликована из соображений научной этики.

sakana.ai/ai-scientist-first-publication/

Читать полностью…

Data Secrets

12 March 2025 09:21

Вышла Gemma-3 от Google и это теперь лучшая открытая не-ризонинг модель

➖ Есть варианты на 1В, 4В, 12В, 27В в базовых и instruct версиях. Кстати, пост-трейнинг там внушительный: RLHF, RLMF, RLEF и model merging

➖ На LMSYS выбивает 1338, это больше, чем o1-mini, o3-mini и o3-mini high. Среди опенсорса уступает только R1

➖ Контекст увеличили до 128К (у малышки 1В остался 32К), поддерживает 140+ языков

➖ Модель наконец-то сделали мультимодальной!

В общем, огонь. Веса здесь. Попробовать поболтать можно на HF или в AI Studio.

Читать полностью…

Data Secrets

11 March 2025 17:56

⚡️ Через 5 минут стрим OpenAI. Покажут инструменты для разработки агентов в API

Ссылка

Читать полностью…

Data Secrets

11 March 2025 15:06

Отвлекитесь на секунду и посмотрите, какой милый трансформер из лего собрал кто-то из Твиттера

Читать полностью…

Data Secrets

11 March 2025 10:05

Собрали некоторые интересные примеры reward hacking из свежей статьи OpenAI

1 картинка: Агенту поручили написать некоторую функцию, и для этого нужно было изучить репозиторий. В процессе чтения файлов агент наткнулся на скомпилированный файл с возможным решением. В CoT видно, как он сразу переключается с написания функции на декомпилляцию этого файла, хотя его просили самостоятельно написать решение

2 картинка: Снова поручено написать функцию, но вместо этого агент сразу начинает искать в кодовой базе файлы с тестами и изучать их, чтобы найти возможности почитерить или подсказки. В итоге находит, кстати.

3 картинка: Модель должна была исправить баг, связанный с совместимостью pandas и numpy, но вместо того чтобы разбираться, просто… убрала из кода все вызовы функций pandas 🧠

4 картинка: Ну или можно вообще ничего не реализовывать, а просто возвращать ровно то, что проверяют тестовые кейсы.

Лайк, если работаешь примерно также

Читать полностью…

Data Secrets

11 March 2025 08:58

OpenAI обнаружили, что их новая внутренняя ризонинг модель может сознательно обманывать пользователей, читерить или лениться выполнять задачу, если та слишком сложная

В рисерче это называется reward-hacking: это когда модель находит способ получать высокие награды во время обучения с помощью читинга, то есть не таким способом, как это было задумано создателями. То есть с виду ведет себя вроде ок, но внутри сознательно увиливает от решения. Ничего удивительного в феномене нет, ведь разве люди не делают также?

При этом OpenAI выяснили, что чем умнее облучаемая модель – тем больше хитрых способов хакинга она находит. А если напрямую оптимизировать модель под определенные критерии типа «не пытаться хакнуть ревард модель», то она становится лучше только с виду, а на самом деле начинает скрывать свои намерения.

Поэтому в стартапе предлагают не воздействовать на CoT напрямую, а просто мониторить ризонинг модели другой моделью. Так процент отловленных случаев читинга остается довольно высоким даже с более простой моделью (в статье использовали GPT-4o), потому что сам ризонер не запуганный и сильно не скрывает свои намерения.

Если попытаться провернуть такой трекинг уже после прямой оптимизации цепочек мыслей, то доля отловленного резко падает, хотя количество атак почти не снижается.

Кстати, какую именно модель так тестировали – не уточняют. Говорят «мы нашли примеры такого поведения при обучении новой ризонинг модели класса o1 и o3-mini» 🤔

openai.com/index/chain-of-thought-monitoring/

Читать полностью…

Subscribe to a channel