Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks По вопросам сотрудничества: @v2r8n
OpenAI выкатили гайд по тому, как правильно обращаться с ризонинг-моделями
Ризонинг-модели отличаются от серии GPT и не всегда могут оказаться полезнее обычных для всех типов задач. Их скорее стоит использовать для неоднозначных, многошаговых тасок по математике, инженерии или финансам. И промптить их стоит более осознанно.
Итак, записываем рекомендации от OpenAI:
🟦 Будьте проще и прямо выражайте, что вам нужно. Не используйте уловки типа «думай шаг за шагом» или «сделай глубокий вдох и хорошо подумай». Это все не только не работает с ризонерами, но и может подпортить качество ответа.
🟦 Обязательно используйте разделители, заголовки, абзацы и маркдаун (или даже теги xml). Не кормите ризонерам полотно текста, лучше разделять промпт на понятные части.
🟦 Не обязательно париться с примерами, это может сбить модель. Сначала пробуйте zero-shot без примеров вообще, а потом добавляйте их, если будет необходимо.
🟦 Если что-то не получилось с первого раза, часто модели достаточно ответить просто «подумай еще».
🟦 Сразу убедитесь, что в самом первом промпте предоставили всю нужную информацию и ограничения. Если будете добавлять ограничения по ходу диалога, это может ухудшить ответы.
Вышел новый бенчмарк EnigmaEval, на котором все модели выбивают ровно 0
Его выпустили рисерчеры из ScaleAI (те самые, которые составляли знаменитый Humanity’s Last Exam) и он состоит из длинных и сложных головоломок, на решение которых людям требуются дни. Несколько примеров мы оставили наверху (сможете решить?)
На нормальном уровне сложности большинство моделей выбивают 0.5-1.3%, а o1 – 7%. Но если переключится на задачи высокой сложности, некоторые из которых разрабатывали для студентов MIT, все дают одинаковый результат: 0.
(DeepSeek в тесте нет, потому что для прохождения требуется мультимодальность)
Интересно, что покажет o3-mini. В нее как раз вчера добавили возможность грузить файлы и картинки.
Статья | Блогпост + лидерборд
А вы знали, что существует организация Stop AI?
Это общественное объединение, и они борются за то, чтобы навсегда запретить разработку AGI и ASI во избежании вымирания человечества.
А еще они проводят митинги в Сан-Франциско и расследуют гибель ресерчера Сухири Баладжи из OpenAI, который рассказал журналистам о том, как OpenAI нарушает авторские права, а затем внезапно совершил самоубийство.
Рабочий слоган StopAI «AI will kill us all» и их логотип вообще не нуждается в комментариях 👆
Теперь вы в курсе
Маск заявил, что отзовет свою заявку на покупку OpenAI, если некоммерческий совет директоров остановит преобразование организации в коммерческую
Собственно, ничего удивительного. Сразу было понятно, что цель Илона была именно в том, чтобы отнять у Альтмана некий финансовый контроль совета директоров и надавить на них.
Адвокаты OpenAI тем временем говорят, что Маск делает все для того, чтобы подорвать позиции конкурента и утверждают, что все его действия неправомерны.
В Nvidia попробовали генерировать оптимизированные GPU-ядра с помощью DeepSeek R1 и получили решения, превосходящие скорость PyTorch
Так как атеншн в языковых моделях очень прожорливый, инженеры оптимизируют вычисления на уровне ядер GPU. И это непростая задача, потому что видов внимания много, и их нужно комбинировать, а еще там куча заморочек с мультимодалками.
Вот в Nvidia и попробовали с помощью простого пайплайна генерировать CUDA код автоматически с R1.
В итоге решения, которые она написала, превосходят по производительности стандартные решения PyTorch API в 1.1—2.1 раза. К тому же модель почти никогда не ошибается, особенно на высоком уровне бюджета на рассуждения.
Получается, страдать и учить CUDA теперь необязательно 🥳
Блогпост
Deep Research будет доступен бесплатным пользователям
Альтман сказал, что в плюсе будет доступно 10 запросов в месяц, а во фри плане – 2, и со временем это будут масштабировать. Он также написал следующее:
«В долгосрочной перспективе нам все еще предстоит найти способ позволить людям платить за вычислительные ресурсы, которые они хотят использовать более динамично»
Тем времен Альтман: что? 500 миллиардов? Маловато 🤑
«500 миллиардов сейчас звучит невероятно, но через несколько лет, когда мы привлечем 5 триллионов, уже не будет так казаться»
Вы не поверите: у OpenAI вышла статья!
Правда, она никаких новых идей не раскрывает (разбежались), а скорее похожа на тех.отчет и называется Competitive Programming with Large Reasoning Models.
Это текст об успехах их ризонинг моделей в кодинге. Оказывается, OpenAI в реальном времени тестили модельки на IOI (Международная Олимпиада по Информатике). В соревновании участвовала o1, специально зафайнтюненная с помощью RL и эвристик – о1-ioi, а также o3.
Результаты такие:
➡️o1 достигла рейтинга 1673 на CodeForces (Альтман уже об этом говорил, кстати). Ее зафайнтюненная версия на олимпиаде вошла в 49-й процентиль среди участников. НО если бы не ограничение на количество сабмитов, взяла бы золото
➡️ o3 же без всякого дообучения уверенно набрала 395.64 балла (золото). На CodeForces ее рейтинг 2724 (99.8-й процентиль). Это на уровне топ-200 участников мира.
Еще тестили на более привычных HackerRank Astra и SWE-Bench. Результаты на графиках, у o3 значительный прогресс (при этом говорят, что строго отслеживали чтобы в тесте не было того, на чем модель обучалась).
Из технических деталей почти ничего. Есть намеки на то, что o3 обучена с гораздо большим количеством RL-компьюта.
За счет этого по словам авторов ей даже не пришлось «объяснять» предопределенные тест-тайм стратегии, o3 сама научилась
генерировать, проверять и корректировать решения во время инференса, а еще внезапно догадалась использовать брутфорс для проверки некоторых собственных алгоритмов.
https://arxiv.org/abs/2502.06807
Anthropic анонсировали собственный экономический индекс и в числах показали, как ИИ влияет на экономику труда
Anthropic Economic Index показывает, как люди на самом деле используют ИИ, и основан он на диалогах пользователей. Но не осуждайте: они очень бережно подходят к персональным данным, у них даже было огромное исследование на этот счет (наш разбор).
Если кратко, в том ресерче они релизовали очень умную систему анализа диалогов Clio, которая полностью автономно в несколько этапов чистит чаты от персональных данных и извлекает из них фичи. То есть люди вообще не имеют никакого доступа к текстам: только к финальным статистикам.
И вот теперь Clio используют для глубокой экономической аналитики. Вот что накопали в антропик:
➖ Уже в 36% профессий AI используется как минимум в четверти рабочих задач.
➖ В 57% случаев AI помогает пользователям (аугментация), а в 43% — заменяет их в выполнении задач (автоматизация).
➖ Больше всего AI используют разработчики, аналитики и технические писатели. Меньше всего — самые низкооплачиваемые и самые высокооплачиваемые профессии.
Прикольные нелинейные наблюдения (и графики красивые!). Для аналитики, кстати, даже привлекали экспертов социологов и экономистов.
Такую статистику, да еще и от такого крупного вендора, вообще нигде больше не увидишь. Кроме того, данные выложили в свободный доступ и они открыты для исследований (датасет на HuggingFace)
assets.anthropic.com/m/2e23255f1e84ca97/original/Economic_Tasks_AI_Paper.pdf
⚡️ Тем временем DeepSeek выкупили домен ai.com
В 2023 его за 11 миллионов долларов купили OpenAI. До этого он принадлежал Google. Сколько за него заплатили в Китае, неизвестно.
Топ-10 полезных приемов в SQL от тимлида аналитиков
Как аналитику стать лучшей версией себя?.. Научиться лайфхакам, которые ускоряют и облегчают работу с данными
Можно выработать их самому в решении рабочих задач, набивая шишки на ходу. А можно сэкономить время и силы и обратиться к более опытным коллегам, которые готовы делиться своим опытом.
Совсем скоро это можно будет сделать на бесплатном мастер-классе от Павла Беляева, тимлида аналитиков в сервисе eLama, где Павел покажет 10 приёмов в работе с SQL, которые использует его команда в реальной практике📊.
Что будет на мастер-классе:
🟠 Проведем проверку на повторяющиеся комбинации в таблице с данными
🟠 Найдем последний элемент в исторических данных
🟠 Сравним разные версии таблиц
🟠 Заполним пропущенные даты во входящих данных
На этом закончим спойлеры, остальное узнаем на мастер-классе!
🕘Встречаемся 12 февраля в 19:00 по мск
Зарегистрироваться на бесплатный мастер-класс
Реклама OpenAI на Суперкубке, которую они купили за 14 миллионов долларов
А теперь представьте, что вы не в теме и вообще ничего не знаете про ИИ. Поймете, что рекламируется?
По сети разлетелась новость о том, что ученые "обучили" модель уровня o1 за 50 долларов
"Скоро ИИ будет дешевле пары носков" – пишут в соцсетях. Почему это не совсем так?
Суть исследования, как написано в самой статье, была в поиске наиболее простого способа повторить результаты сложных моделей с точки зрения test-time скейлинга.
Так что фраза "обучили модель" тут сразу вводит в заслуждение. Да, модель действительно обучали, но важно не за сколько, а как. Многие пишут, что использовалась дистилляция, но и это не совсем корректно. Вот какой подход использовался на самом деле:
1. Авторы собрали 59 029 вопросов из 16 источников, включая соревнования по математике, олимпиады и тесты SAT/LSAT.
2. Из этого множества отобрали 1 000 примеров по трем критериям: сложность, разнообразие и качество.
3. Для разметки решений использовались reasoning traces, сгенерированные Gemini Flash Thinking.
4. На этих 1000 примеров зафайнтюнили готовую (даже не базовую, а уже зафайнтюненную предварительно) модель Qwen2.5-32B-Instruct. Для этого понадобилось всего 26 минут на 16 GPU H100 (5 эпох, batch size = 16, AdamW, bfloat16), что в пересчете на аренду железа действительно составляет около 50 долларов. Не мудрено, это всего 32B и 1000 (!) сэмплов.
Альтман говорит, что у OpenAI есть внутренние модели, которые «входят» в топ-50 лучших программистов мира
«Наша первая ризонинг модель была где-то на уровне топ-миллион лучших программистов мира. Затем мы добились топ-10000. o3 находится в топ-175. Наши внутренние бенчмарки сейчас в районе топ-50, и к концу года это будет топ-1»
«К 2035 году один датацентр ИИ будет обладать такой же интеллектуальной мощностью, как все люди и ИИ, которые сейчас существуют на Земле, вместе взятые»
«Я не могу переоценить, какого прогресса мы добьемся в ближайшие 2 года. Мы знаем, как улучшить эти модели настолько, настолько... прогресс, которого я ожидаю с февраля 2025 года по февраль 2027 года, точно будет еще более впечатляющим, чем с февраля 2023 года по февраль 2025 года»
«GPT-5 будет умнее чем я и превзойдет уровень интеллекта человека. Это будет инструмент с невероятно высоким IQ»
Современное 14 февраля требует современных валентинок 😎
Читать полностью…Вышло двухчасовое интервью с легендами Google Джеффом Дином и Ноамом Шазиром
Джефф сейчас старший научный сотрудник Google Brain. Он разрабатывал MapReduce, BigTable, Tensorflow, AlphaChip и Gemini.
А Ноам – это фаундер Character AI, которому Google недавно заплатили 2.7 миллиарда долларов за то, чтобы он вернулся в компанию со своей технологией.
Поговорили про MoE, новые архитектуры, 25-летнее становление Google и AI в нем, AlphaChip, AGI и экономику ИИ.
Нарезали для вас немного интересных цитат:
ИИ уже генерирует 25% кода Google. Мы обучили Gemini на своей внутренней кодовой базе, и это помогает разработчикам.
К 2030 году агенты будут повсюду, мировой ВВП вырастет на несколько порядков и мы решим проблему неограниченной энергии.
AGI будет одним гигантским MoE, который не обучается весь сразу, а выращивается частями
В Apple изучили законы масштабирования дистилляции и написали об этом интересную работу
Дистилляция в последнее время уж очень всем полюбилась. С помощью нее можно как бы "перекачивать" знания из большой модели-учителя в маленькую модель-ученика, заставляя ученика предсказывать генерации и иногда промежуточные состояния учителя. Таким образом было получено ну очень много моделей, которыми мы пользуемся и особенно которые запускаем локально.
С другой стороны дистилляция непредсказуема. Например, насколько глупее учителя получается ученик в зависимости от разницы в количестве параметров? Насколько это эффективнее обучения с нуля? Или насколько быстро обучение выходит на плато?
Apple изучали как раз такие вопросы и вот к каким выводам эмпирически пришли:
➖ Кажется, что чем мощнее учитель, тем лучше получится дистилляция. Оказалось, это миф. Слишком мощный учитель может ухудшить обучение ученика из-за capacity gap, при котором ученик не может эффективно усваивать "уроки".
➖ На дистилляцию распространяется общий закон масштабирования моделей. Это значит, что добавление данных и увеличение модели снижает ошибку, но с убывающей отдачей. Работает и для учителя, и для ученика.
➖ Есть способ оптимизировать дистилляцию и описывается он вполне конкретным уравнением, которое зависит от размера ученика и доступного бюджета вычислений.
➖ От выбора учителя тоже много чего зависит. Чем больше ученик, тем мощнее должен быть учитель, но эта зависимость следует степенному закону, так что нужно очень внимательно подбирать соотношение параметров.
➖ И да, дистилляция эффективнее ванильного обучения, но только в пределах определённого бюджета вычислений. Если данных и вычислений достаточно, супервизионное обучение всегда будет лучше.
Курсы AI: от основ до языковых моделей от кандидата физико-математических наук
Евгений Разинков – преподаватель ML в Казанском университете с многолетним стажем, руководитель собственной команды ML-инженеров и автор популярного razinkov?si=oiu2nLbO-gEP9I9n">канала по машинному обучению на YouTube
основал свою AI-школу и приглашает вас принять участие в ее курсах:
- AI: от основ до языковых моделей
- MLOps
- Decision Making in AI
- Math for AI
Они проведут вас от основ глубокого обучения и сверточных нейронных сетей до самых современных архитектур – трансформеров и больших языковых моделей. Параллельно вы ознакомитесь, как такие алгоритмы внедряются в продакшен, и как принимаются правильные решения в AI-проектах.
Особый акцент делается на понимании алгоритмов на практике! А на все ваши вопросы вы получите ответы на живых QA-сессиях и в Telegram-чате.
Старт уже 17 февраля, скорее регистрируйтесь здесь!
P.S. Еще больше подробностей о курсе ищите в видео и на странице с отзывами участников
ООО «Лаборатория Евгения Разинкова», ИНН: 5043088023, erid: 2VtzqvWetSy
⚡️ o3 не будет. Зато будет GPT-4.5 и GPT-5
Сэм Альтман внезапно запостил в X планы OpenAI. GPT-4.5 (aka тот самый Orion, для которого из o3 генерировали синтетику) станет последней не-ризонинг моделью и выйдет уже в течение нескольких недель.
После этого компания надеется создать единую модель, которая будет воплощать в себе все технологии OpenAI, включая o3: GPT-5. По словам Сэма, она сама будет знать, когда думать дольше, а когда нет. Также в нее интегрируют голосовой режим, агентов, поиск и canvas.
При этом GPT-5 будет доступна бесплатно! А Plus и Pro юзеры смогут запускать ее на более высоком уровне компьюта.
Мы хотим, чтобы ИИ «просто работал» для вас, и мечтаем вернуться к единому волшебному интеллекту вместо множества моделей, из которых приходится выбиратьЧитать полностью…
Бесплатно приехать в топовый вуз, поучиться у IT-экспертов и познакомиться с единомышленниками — звучит как мечта? Тогда вам стоит подать заявку на весенний студкемп Яндекс Образования в ФПМИ МФТИ. Он пройдёт с 14 по 26 апреля и будет посвящён робототехнике и генеративному ИИ.
В программе — лекции от экспертов, воркшопы, работа над проектами и вдохновляющая атмосфера. Студенты выпускного курса смогут поступить в магистратуру ФПМИ МФТИ, сдав на студкемпе вступительный экзамен. Участие, как и всегда, бесплатное. Каждому, кто пройдёт отбор, оплатят проезд и проживание. Успейте зарегистрироваться до 23 февраля.
Евросоюз проснулся и решил вложить 200 миллиардов евро в AI
Об этом сообщили на AI Action Summit в Париже. Из этой суммы 20 миллиардов евро будут направлены на создание так называемых «гигафабрик» ИИ aka датацентов для обучения.
Есть нюанс: из этих 200 миллиардов государственных (а это от всего Евросоюза) только 50. Остальное пока только планируют привлечь от частных инвесторов и бизнеса.
«Илон Маск делает это, потому что он неуверен в себе»
Так прокомментировал Альтман попытку Маска купить его компанию.
– Вся его жизнь продиктована неуверенностью. Я сочувствую ему, думаю он несчастный человек.Читать полностью…
– Переживаете ли вы о том, что он может влиять на принятие решений в США?
– Может мне и стоит, но не очень. Я просто стараюсь просыпаться и думать о том, как сделать технологии лучше 👼
Рисерчер из OpenAI поделился графиком прогресса по бенчмаркам
«Я сделал этот график для предстоящего выступления. Безумие, как быстро в наше время перенасыщаются бенчмарки»
Илон Маск пытается купить OpenAI и настроен серьезно
Начальная ставка от его группы инвесторов за контрольный пакет акций – $97.4 млрд (1/5 Stargate). В документе также написано, что они готовы перебить любые другие ставки, если OpenAI собирается их рассматривать.
Маск не просто так проснулся сейчас. OpenAI, как мы знаем, пытается из некоммерческой организации стать коммерческой. Для этого нужно «убрать» некоммерческий совет директоров, который должен был получить компенсацию по справедливой рыночной стоимости за отказ от контроля.
Сколько им планировали заплатить OpenAI – неизвестно, но точно меньше 100 млрд. Вероятно около 30-40.
Поэтому Маск все усложнил, и поэтому то в документе и написано «перебьем любую ставку».
Альтман отказался от предложения (Маск в ответ на это назвал его мошенником), но решение будет принимать тот самый некоммерческий совет директоров. И даже если они откажутся, Альтману теперь придется платить им более чем щедро.
Ведь если переход в коммерческую организацию не завершится через 2 года, инвесторы 2024 года (которые вкладывались именно в идею ком. проекта) могут потребовать инвестиции обратно.
Сам Маск говорит, что его цель «сделать OpenAI снова Open» и опенсорснуть все их разработки.
Игра престолов в 21 веке выглядит так
Microsoft выпустили статью про визуальный ризонинг
Люди используют как текстовое, так и визуальное мышление. Если мы чего-то не понимаем, мы можем нарисовать схему/таблицу/макет и станет проще. LLM так не умеют, поэтому все еще довольно плохи в пространственных рассуждениях: ведь думают они на уровне текста.
А Microsoft предложили добавить в ризонинг картинки. Это называется MVoT и по сути это генерация "визуальных" мыслей. Выглядит все примерно так:
Дано: мультимодальная авторегрессионная (это вот так) модель, мультимодальный промпт
Процесс: для каждого шага ризонинга модель помимо текста генерирует к нему логические иллюстрации. При переходе на следующую итерацию размышления картинка обновляется с учетом предыдущей схемы и контекста.
Выхлоп: текстовый вывод + итоговая схема мысленного "маршрута"
Результаты неоднозначные. MVoT тестировали на прохождении лабиринта, игре-раннере и построении алгоритма действий для робота. CoT (текст онли) иногда все еще оказывается лучше, но но жестко завязанных на обновлении действий в пространстве тасках валится, и вот тут MVoT впереди.
То есть прогресс наблюдается, но с учетом затрат на инференс с MVoT ну... В общем, для определенных задач однозначно кайф, а в целом требует оптимизаций. Тема перспективная кстати, Microsoft не одни смотрят в эту сторону, Google вот тоже писали про визуальный CoT
Прямо день крутых статей сегодня arxiv.org/pdf/2501.07542
У Meta вышла примечательная работа про Brain-to-Text Decoding (да, это чтение мыслей)
Уже давно существуют инвазивные методы, которые могут восстановить коммуникацию людей потерявших способность говорить или двигаться. Но "инвазивный" – это значит с хирургическим вмешательством, то есть надо что-то вживлять, а это всегда риск. Что насчет неинвазивных подходов?
В Meta предложили как раз такой. Они показывали испытуемым некоторое предложение, те его запоминали, а затем набирали на клавиатуре. При этом двумя способами – EEG и MEG – фиксировалась их мозговая активность. EEG – это с помощью электродов на коже головы, а MEG – с помощью магнитных полей.
Эти записи подавали в систему Brain2Qwerty, которая пыталась восстановить текст. В Meta перепробовали много вариантов, и в итоге под капотом у Brain2Qwerty остались три составляющих:
1. сверточный модуль для извлечения вектора признаков из окон сигналов
2. трансформер (куда же без него), на выходе у которого логиты вероятности символов
3. LM для исправления ошибок трансформера на основе общих правил языка. Ее, кстати, обучали с нуля на вики
Сэм Альтман выложил ночью свежий блогпост про будущее с AGI. Разобрали для вас на самые интересные цитаты:
Системы, указывающие на появление AGI, уже начинают проявляться
AGI — это просто еще один инструмент в этом непрерывно растущем строительном лесу человеческого прогресса. Но с другой стороны, трудно не сказать ‘на этот раз все иначе’. Представьте мир, где все болезни излечимы, у нас намного больше времени для семьи, а творческий потенциал полностью раскрыт.
Стоимость использования AI падает в 10 раз каждые 12 месяцев. За год цена на токен от GPT-4 до GPT-4o снизилась в 150 раз.
Закон Мура менял мир в 2 раза каждые 18 месяцев; ИИ — штука невероятно более мощная
.
Интеллект AI-модели приблизительно равен логарифму используемых ресурсов.
Можно потратить любые деньги и получить предсказуемый прирост интеллекта
; законы масштабирования подтверждаются на многих порядках величины.
В новой экономической модели мира цена на многие товары резко упадет (сейчас их сдерживают стоимость труда и энергии), но цена ограниченных ресурсов — например, земли — может вырасти ещё сильнее. Баланс сил между капиталом и трудом может легко измениться.
Мы рассматриваем идею предоставления каждому жителю Земли “бюджета вычислений” для свободного использования AI.
В 2035 году любой человек должен иметь доступ к интеллектуальному потенциалу, эквивалентному всему человечеству 2025 года.
Там обновилась главная математическая арена для LLM, но есть нюанс
MathArena – это платформа для оценки моделек на задачах последних математических олимпиад. Она позиционируется как «оценка LLM на незагрезненных данных», то есть на этой арене модельки гоняют только на тех новейших тестах, которые были составлены после их выхода и которые, таким образом, они точно не видели при обучении.
И вот сегодня арена обновилась но данных первого тура AIME 2025 (American Invitational Mathematics Examination, отборочный тур для американских школьников перед международной олимпиадой). Там всего 15 довольно сложных задач и они доступны здесь.
И… результаты моделей на этом тесте оказались высокими, даже очень высокими для эвала на абсолютно новых задачах. o3-mini решила 78%, а R1 65%.
Это многих удивило, поэтому кто-то из сообщества полез в Deep Research и за 10 минут из трех наугад выбранных задач нашел на просторах интернета… три. Все датируются 2024 или ранее, а это вероятность 99.9%, что в трейне они были. «Дальше я проверять не стал, потому что p-value и так слишком низкий».
Вот тебе и незагрезненные математически испытания. Конечно, организаторы ни в чем не виноваты, но кейс интересный и еще раз показывает, насколько мы далеки от непредвзятых и полностью репрезентативных эвалов LLM.
Илья Суцкевер возвращается
… чтобы попросить денег. Reuters сообщает о том, что его компания Safe Superintelligence снова участвует в переговорах о финансировании.
При этом стартап (который, напоминаем, еще вообще ничего не выпустил) оценивается уже в минимум 20 миллиардов долларов. Для сравнения, OpenAI, которые работают уже 10 лет, оцениваются в 300 миллиардов, а основной европейский Mistral всего в 7 миллиардов.
Пока неясно, какую сумму хочет Илья, но она может быть значительной. Осенью стартап уже привлек 1 миллиард долларов, и с тех пор их оценка увеличилась в 4 раза.