70257
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
«Да лан, чё мелочиться?» — подумали в Epoch.AI и вместо FrontierMath Tier 5 выпустили FrontierMath OpenProblems. Как следует из названия, моделям здесь предстоит решить открытые задачи из области исследовательской математики, которые профессиональные математики пытались решить, но не смогли.
Для облегчения оценки включили только те задачи, для которых предложенные решения могут быть проверены автоматически (что заведомо ограничивает набор). Всего сейчас 14 задач, но открыта форма для заявок на добавление, и, надеюсь, она не пройдет мимо математиков.
Задачи охватывают широкий спектр математических дисциплин. Пилотный набор задач имеет уклон в сторону комбинаторики и теории чисел, где больше всего задач, поддающихся автоматической проверке.
Математиков, предоставивших задачи, опросили оценить, сколько математиков работали над проблемой и сколько времени, по их прикидкам, потребуется для решения людьми. Эти данные вы можете найти на картинке — есть задачи, которые оценили в 3-10 лет 😅
Удачи OpenAI, Google и другим компаниям. Ждём прорывов — сейчас модели не решают ни одну из задач.
Вчера Alex Honnold залезть на Taipei 101 (500+ метровое здание) БЕЗ СТРАХОВКИ не смог — была непогода, дождь, поэтому перенесли на сегодня.
И полчаса назад восхождение закончилось успехом — на всё про всё ушло чуть больше 91 минуты. Выгрузил для вас три видео (из начала, ближе к концу и самый финал).
Во втором видео присмотритесь, чем он держится 🥺
🍿 Санта-Барбара в стартапе Миры Мураты: подробности про уход сооснователей Thinking Machines
В стартапе Thinking Machines бывшей CTO OpenAI Миры Мурати (слева на фото) на днях случился скандал. Ушли два сооснователя и еще несколько сотрудников. Причем версии причин ухода разные. Сейчас появляются подробности истории, и там, конечно, полная Санта-Барбара.
Немного предыстории. В конце 2024-го года Мира Мурати прихватила из OpenAI пару десятков людей и пошла делать свой стартап Thinking Machines. Проект уже успел поднять $2 млрд по оценке $12 млрд. Но продукт пока один — Tinker. Это штука, упрощающая настройку AI-моделей с открытым исходным кодом.
В октябре Марк Цукерберг перекупил одного из сооснователей Эндрю Таллока. Он хотел еще купить и весь Thinking Machines, но не получилось. А на днях обратно в OpenAI ушли Баррет Зоф (справа на фото) и Люк Метц. А за ними еще пара человек. Теперь в Thinking Machines осталось трое сооснователей, включая Мурати.
Wired со ссылкой на источник пишет, что Баррет Зоф вроде как был уволен за неэтичное поведение. И в Thinking Machines были подозрения, что он мог раскрыть конфиденциальную информацию конкурентам. Wall Street Journal пишет, что сотрудникам Мурати сказала, что у Зофа было много проблем с работой, доверием и поведением.
Но там не все так просто. Зоф заявил WSJ, что компания не предъявляла ему ни по поводу работу, ни по поводу неэтичного поведения. А уволили его потому, что он выразил желание уйти из компании. Вопрос в том, почему он решил уйти.
Как пишет WSJ, в прошлом году Зоф схантил с OpenAI знакомую. Причем, как утверждает Зоф, ее схантить хотели многие сотрудники Thinking Machines, включая Мурати. То есть это не только его прихоть.
Но летом 2025-го Мурати начала подозревать, что она не просто знакомая Зофа — что у них отношения. Зоф был CTO. И хотя знакомая напрямую ему не подчинялась, но все равно была формально подчиненной. Мурати спросила у них, но оба пошли в отказ.
А потом все-таки сознались, отношения у них были еще со времен OpenAI. Но почти сразу девушка уволилась из Thinking Machines и вернулась в OpenAI. Но у Зофа с ней что-то не заладилось. Он сказал Мурати, что девушка манипулировала им, чтобы завязать отношения. И после этого Зоф ушел в отпуск на месяц.
А когда Зоф вернулся, то его обязанности подсократили. Но он вроде был с этим ок — мол, надо въехать в дела. Но в Thinking Machines стали замечать, что его эффективность снижается, в Slack от него стало меньше активности. Зоф объясняет это тем, что работал по индивидуальной программе, а в ноябре и декабре отсутствовал из-за болезни и смерти в семье.
На той неделе Мурати хотела поговорить тет-а-тет с Зофом в том числе про его продуктивность. А ее саму позвали на встречу Зоф, Люк Метц и еще один сотрудник.
Они сказали Мурати, что недовольны тем, куда двигается компания. Причем уже несколько месяцев недовольны. И рассматривают возможность уйти из компании — в последние недели они вели переговоры с Meta и OpenAI. И, говорят, давай окончательный голос по техническим вопросам будет не у тебя, Мира, а у Зофа. В ответ Мурати выразила недовольство продуктивностью Зофа в последние месяцы.
Через день Мурати уволила Зофа. А он, Метц и еще один товарищ за несколько часов окончательно договорились с OpenAI.
В этой истории есть еще нюанс. Последние месяцы Мурати пытается поднять инвестиции по оценке $50 млрд. И журналист Алекс Хит в своем блоге Sources пишет, что с привлечением раунда у Мурати трудности. У компании вроде как нет четкой продуктовой или бизнес-стратегии.
А теперь на это все накладывается уход еще двоих сооснователей, причем довольно скандальный. И вряд ли это облегчит Мурати поиск денег.
@TheEdinorogBlog — тот самый канал про стартапы🦄
Помню где-то услышал шутку:
— Так у меня доступ ко всему интернету есть, все сайты.
— В смысле ты имеешь в виду все сайты до которых дотянулся Google?
Мораль была в том, что нет какого-то единого списка сайтов (а раньше были! когда интернет крохотный был), нельзя посмотреть всё в сети. Вы получаете доступ в интернет по большей части через поисковик (даже если какой-то сайт вам посоветовали знакомые — откуда они узнали? а их друзья?) и сохранённые ссылки и сайты.
В ноябре '25 CEO Cloudflare (это которые постоянно ложатся, а у вас потом интернет не открывается) загадал загадку: насколько больше веб-страниц видит Googlebot по сравнению с GPTBot (OpenAI), Bingbot (Microsoft) и Claudebot (Anthropic)?
Мне было очень интересно, и вот я наткнулся на ответ:
На каждую страницу, которую видит бот OpenAI, Google видит 3.2 страницы. Этот коэффициент равен 4.8 для Microsoft и Anthropic, а остальные идут в списке ещё ниже.
То есть даже несмотря на невероятную работу, проделанную инженерами OpenAI, они всё равно имеют доступ к примерно в 3 раза меньшему количеству веб-страниц.
Сложно сказать, насколько это критично — в хвосте этого распределения данные могут быть не самые качественные или вообще ненужные; плюс на этих страницах может быть банально меньше информации, и меньше её плотносить.
OpenAI в целом и Sama в частности инвестировали в только что созданную Merge Labs — компанию, сфокусированную на создании интерфейса для подключения мозга к компьютеру (BCI). Вместе с ними, кстати, денег вкинул и Габен 💪
Компания будет являться прямым конкурентом Neuralink от Elon Musk, но ставка делается на кардинально другой подход, который потребует существенно меньше инвазивных процедур. Сейчас Neuralink сверлят в черепе дырку и устанавливают маленький имплант с электродами, погружённными в мозг на несколько миллиметров.
Такой чип охватывает лишь одну зону мозга, но в идеале сигнал нужно считывать из разных. Что же будут делать Merge Labs?
Основатели сообщили, что на первом этапе их исследования будут сосредоточены на использовании ультразвуковой технологии для отслеживания активности нейронов в сочетании с белками, способными усиливать нейронные сигналы.
Цель — доставить специальные белки в мозг и интегрировать их с нейронами. Использование свойств этих белков заставит нейроны генерировать более четкий сигнал для считывания ультразвуком.
Такие белки называются молекулярные репортеры, они "сообщают" о действиях клетки таким образом, что ультразвук может зафиксировать сигнал с гораздо более высокой точностью.
При этом в лаборатории пока отказываются говорить о том, как именно эти белки будут попадать в мозг. Можно предположить, что для доставки генетических элементов к нейронам будет использоваться метод генной терапии 😳
Желаем ребятам удачи, будем следить за ними раз в год.
Если вам интересно узнать чуть больше — вот тут есть свежее интервью с одним из ко-фаундеров.
23-го января один из самых известных скалолазов Alex Honnold предпримет попытку забраться на некогда самое высокое здание в мире, Taipei 101. Без страховки. Без натянутых снизу сеток или батутов. Мероприятие будет стримиться в прямом эфире на Netflix.
Насколько мне удалось нагуглить, на данный момент рекорд удерживает французский Человек-Паук Alain Robert, который облазил почти всё, что можно (но не везде без страховки). В 2009-м году он залез на одну из башен Петронас в Куала-Лумпур (сейчас 21-ое место в мире по высоте) на самый шпиль — 452 метра. На Дубайскую Бурж-Халифу он тоже лазил.
Taipei 101 (11-ое место в мире) выше, чем малайзийские башни — 508 метров.
Погуглив ещё узнал, что Alex Honnold в 2017-м залез на El Capitan — гору в Калифорнии и излюбленное место скалолазов. Заняло это 4 часа, высота — 884 метра. Почти любая ошибка привела бы к смерти. По истории подготовки и самому событию сняли документальный фильм Free Solo, выигравший несколько наград на разных фестивалях и у разных академий — включая Оскар.
Восхождение на El Capitan было описано как «одно из величайших спортивных достижений всех времен», с чем трудно не согласиться, согласитесь?
Немного удивлён самому себе, что пропустил это — прыжок Baumgartner'а из стратосферы я смотрел в школе на телефоне, а тут ничего не видел-не слышал. Но хоть вот восхождение на Taipei 101 не пропущу.
===
Ну и получается на смену RedBull пришли... Netflix 😳
14й урок из 21 в блогпосте «21 Lessons From 14 Years at Google», попавшем в топ на HackerNews:
Если вы выигрываете в каждом споре, вы, вероятно, копите скрытое сопротивление.
Я научился с подозрением относиться к собственной уверенности. Когда я «побеждаю» слишком легко, обычно что-то не так. Люди перестают спорить не потому, что согласились с вами, а потому что просто махнули рукой. И это несогласие проявится позже — уже в работе, а не на встречах.
Для реальной синхронизации нужно больше времени. Нужно действительно вникать в чужие точки зрения, учитывать обратную связь и иногда публично менять свое мнение.
Мимолетное удовольствие от того, что ты прав, не идет ни в какое сравнение с долгосрочным успехом от работы с вовлеченной командой.
Там бостон динамикс выкатили нового Атласа.
Теперь это не просто экспериментальный прототип для видосов с сальтухами, а железка, призванная для того, чтобы заменить кожаных на заводе.
Из интересного:
— Робот сам топает к зарядке, сам вытаскивает севшую батарею и вставляет свежую. Никаких простоев, перекуров и походов в туалет. Работает 24/7.
— Мозги от Google: Boston Dynamics запартнерились с Google DeepMind, чтобы впихнуть в Атласа годных нейронок. То есть робот будет не просто следовать скриптам, а реально "соображать" и быстро учиться новым задачам на ходу.
Немножко характеристик: поднимает до 50 кг груза, вытягивается на 2.3 метра в высоту, 56 степеней свободы (суставы крутятся как угодно, посмотрите, что эта скотина делает на видео), не боится воды и мороза.
Собирать серийные модели начинают прямо сейчас в Бостоне. Все поставки на 2026 год уже расписаны: первые партии уедут на заводы Hyundai и в Google DeepMind. Остальным придется ждать до 2027-го. Сейчас планируют строить завод, который будет штамповать 30000 таких юнитов в год.
Чо, заводчане, готовимся идти на рынок торговать луком. Ахахахах, конечно нет, потому что робот умный и за 30 тысяч рублей в месяц работать на заводе не будет даже он
тут подробнее
Но сама работа очень детальна и рассматривает множество связей и эффектов от ускорения той или иной части исследований.
Читать тут: https://www.aifuturesmodel.com/#section-howdoesourmodelbehaveafterfullairdautomation
Claude выращивает томат. 🍅
Интересный эксперимент, где Claude вот уже 37 дней выращивает томат в контролируемой среде.
У него есть датчики температуры, влажности воздуха и почвы, давления, уровня СО2, температуры листьев.
И он может управлять светом, подогревом почвы (через подогрев коврика), вентиляцией, подачей воды.
Посмотреть, что там сейчас и почитать лог можно тут: https://autoncorp.com/biodome/
Автономные теплицы все ближе!
Автор
На ночь глядя под конец года Epoch.AI посчитали оценку GPT-5.2 Pro на FrontierMath Tier 4. Система решила 14 задач из 48.
Напомню, что Tier 4 появился полгода назад потому, что авторы поняли, что в первых трёх (выпущенных за полгода до этого 😳) тирах модели уже делают хороший прогресс. Tier 4 включает в себя задачи исследовательского уровня, с которыми сталкиваются профессиональные математики в ходе работы, в частности тех, которые ещё не опубликованы (поэтому модели не могли ни найти, ни обучиться на этом).
Всего за год модели сделали колоссальный прорыв в математике, и уже находятся на границе meaningful contribution в задачах исследовательского уровня. 🤩 каким же будет 2026-й, компании наперегонки будут заявлять о прорывах тут и там.
Почему в большей части демонстраций робо-компаний их творения занимаются тем, что складывают футболки? Потому, что эта задача находится в «оптимальной зоне» возможностей доступной технологии — можно достичь высокой доли успеха в выглядящей сложной для роботов задаче.
Может показаться, что раз эти методы позволяют складывать белье, то они способны вообще на всё, но это не так. Benjie Holson, проработавший в Google X 8 лет и занимающий позицию VP of Engineering какого-то робо-стартаппа, пишет, что «может показаться, что раз наши методы позволяют обучить модели складывать белье, то они способны вообще на всё, но это не так. Нам придется изобрести новые подходы, чтобы системы стали по-настоящему универсальными и полезными».
В сентябре он предложил идею Олимпиады для гуманоидных роботов (после того, как посмотрел и не впечатлился World Humanoid Robot Games). Всего есть 5 «дисциплин», в каждой 3 разных задачи нарастающей сложности — на бронзу, серебро и золото. Benjie думал, что для того, чтобы с ними справиться, текущих технологий не хватит.
Physical Intelligence показали, что это не так — в 3 из 5 направлений они смогли взять золото, то есть выполнить самую сложную задачу из секции. Причём в оставшихся двух они не смогли их выполнить в силу того, что фокусируются на простых роботах с очень широкими и простыми грипперами.
Например, не смогли расправить и повесить вывернутую наизнанку рубашку на вешалку. Почему? Потому что гриппер не пролазит в рукав. Или не смогли очистить апельсин (когда в гриппер добавили ковырялку — задача поддалась).
То есть это ограничение конкретного оснащения, с которым они работают, нежели технологии в целом — не удивлюсь, если условные Figure.ai выпустят видео и покажут, как гуманоид с пальцами наяривает мандаринки.
Да, это не работает идеально — в среднем их показатель успешности выполнения по всем задачам составляет 52%, а прогресс выполнения задачи — 72%.
Для почти всех задач собирали не больше 9 часов данных. По мере того как модели становятся мощнее, обучаться даже самым сложным задачам будет всё проще. Для новых задач может потребоваться не только меньше данных, но и более простые источники данных (прощающие больше шума).
Из остальных задач мне показались интересными:
— открыть замок/дверь ключом
— намазать масло на хлеб и сделать сендвич
— очистить жирную сковороду водой и губкой
Роботикс набирает обороты, в 2026-м, думаю, увидим очень много прогресса — так как компании уже имеют хорошее железо и цикл сбора данных и тренировки моделей, позволяющий в короткие сроки добавлять новые навыки. Плюс, RL поверх VLA тоже начал работать (я так понял по посту Physical Intelligence RL они не использовали, потому доля успеха не за 90%).
Посмотреть видео, включая сбор отходов жизнедеятельности животных в мешочек 😏 можно тут: https://www.pi.website/blog/olympics
На этой неделе Sama обещал новогодние подарки. Одним из них, видимо, станет новая модель генерации изображений. Интересно, сделают ли её частью приложения+ленты Sora?
Но это не интересно — хочется увидеть аналог o3 preview, как в прошлом году, и систему, которая летом выиграла золото на олимпиаде по математике — в идеале, не в рамках подписки за $2000 😭
История из чата канала, в которой преподаватель неназванного заведения дал неопубликованную исследовательскую задачу, а модель, подумав час, решила её. По своему опыту скажу, что есть что-то магическое, когда отправляешь модель работать на столь долгий срок, закрываешь вкладку, приходишь потом и видишь ответ. А ведь время автономной работы будет только расти!
Вместе с релизом GPT-5.2 OpenAI выпустили блог + статью по статистической теории обучения, в которой «люди не предлагали никаких стратегий доказательства или промежуточных аргументов, а лишь побуждали модель к дальнейшему развитию дополнительных результатов, а также проверяли её доказательства».
Уверен, что Gemini DeepThink справилась бы не хуже, но для реального использования у неё маловаты лимиты по сравнению с OpenAI, 50 запросов в день не сделаешь.
📈 эпоха вайб науки начинается
Часто в комментариях обсуждают, что вот попробовали какую-то модель (часто — китайскую, GLM/Kimi/DeepSeek) для программирования, и она в целом даже не так плоха, может быть чуть похуже фронтир-моделей, зато стоит копейки и они будут её пробовать.
В профессиональном контексте, если речь идёт про использование в работе или личных необразовательных проектах, мне всегда это казалось странным. Зачем использовать модель на 3-4-5% хуже 🤔это же выливается в моё время, которое на горизонте месяца уж точно покрывает стоимость подписки.
Понятно, что есть те программисты, у которых $200 — существенная часть ЗП, и они не могут себе позволить (например, стажёры). Иногда хочется просто попробовать, и это важно, чтобы понимать возможности моделей.
В контексте этих размышлений вспомнил момент из лекции Gabe Newell, ко-фаундера Valve, разработчика и издателя игр. Valve — непубличная компания, где разработчики получали бешенные деньги (хотя по меркам AI бума это уже крохи, кек).
Перевод речи из ролика:
— Мы пришли к убеждению, что все движутся в неправильном направлении. Существовала своего рода тенденция к аутсорсингу. Аутсорсинг — это, по сути, вопрос: где бы нам найти в мире англоговорящего работника с самыми низкими запросами? Мы дадим ему работу, и он выполнит ее так же хорошо, но за гораздо меньшие деньги.
— Нам это казалось полной противоположностью того, что следовало бы делать. И мы решили, что будем нанимать самых дорогих специалистов, которые только есть в мире. [Мы решили], что возможность заключалась в том, что... именно эти люди были оценены рынком наиболее некорректно.
В ближайший месяц нас ждёт много обновлений Codex — серьёзного конкурента Claude Code. Пока никакой конкретики нет, так что будем гадать сами.
Сегодня должен состояться стрим с вопросами-ответами от команды (в полночь по Лондону и 3 ночи по Мск), где, возможно, состоятся какие-то анонсы.
Codex на выходных получил режим планирования — это когда он исследует код, но ничего не дописывает, и выдаёт один из способов решения вам на обсуждение. Такая фича уже давно есть в Claude Code.
Sama пишет про «новое поколение инструментов» — видимо, к Codex добавятся другие крупные фичи, как было /review или Aardvark, система анализа кода на уязвимости — кстати, появился у некоторых подписчиков ChatGPT Pro.
Sama как раз в твите говорит про кибербезопасность, так что логично предположить soft launch этого продукта.
Один из лидов Codex пишет, что «Команда работает с мощью тысячи агентов» — что может быть намёком на систему, аналогичную описанной командой Cursor, где агенты работали неделю над созданием браузера.
Не думаю, что OpenAI будет продавать эту фичу именно на масштабе недели, но вот сутки или «за выходные» — вполне. Мултьиагенты с ролями как раз недавно засветились в Codex — так что ждём.
Если накидывать из головы, то какие ещё фичи/продукты могут быть:
— детальнейшая проработка PRD (Product requirements document), чтобы вести разработку по ней
— проработка архитектуры перед имплементацией, от абстракций и раскладывания кода по модулям до определение фреймворков для работы
— ?
Вдогонку к заданию Anthropic выпустили и блогпост, написанный автором домашки и лидом команды оптимизации — Tristan Hume.
Я всегда ценил творческие собеседования (а не банальные задания с LeetCode) и особенно домашние задания. Они действительно показывают, насколько команда заинтересована в работе.
Я рекомендую прочитать весь блогпост в оригинале, но вот несколько тезисов, которые мне понравились:
— Вся секция «Цели дизайна тестового задания»: и про реалистичность задания, и разработку сопроводительных инструментов для отладки, и про то, что, в идеале, можно привлекать AI-ассистента в помощь
— «Некоторые коллеги предлагали запретить использование ИИ при выполнении ДЗ. Я не хотел этого делать. Помимо сложностей с контролем, у меня было чувство: раз люди продолжают играть жизненно важную роль в нашей работе, я должен найти способ, чтобы они могли проявить себя вместе с ИИ — так же, как им придется делать это на работе. Я не хотел сдаваться и признавать, что люди имеют преимущество только в задачах длиннее нескольких часов».
— «Сегодня у инженеров по производительности в Anthropic всё ещё много работы, но она больше напоминает сложную отладку, системный дизайн, анализ производительности, поиск способов верификации корректности систем и того, как сделать код, написанный Claude, проще и элегантнее. К сожалению, эти вещи трудно объективно оценить без большого количества времени или общего контекста. Всегда было сложно делать собеседования, отражающие реальную работу, но теперь это сложнее, чем когда-либо».
— «Мне нужна была задача, где человеческое рассуждение могло бы превзойти огромную базу опыта модели: что-то, что находится достаточно далеко "вне распределения" (out of distribution). К сожалению, это противоречило моей цели сделать задачу похожей на реальную работу. Я вспомнил о самых необычных задачах по оптимизации, которые мне нравились, и остановился на играх Zachtronics. Эти игры-головоломки используют необычные, сильно ограниченные наборы инструкций, которые заставляют программировать нестандартными способами» (ждём ZachtronicsBench кстати)
— «В отличие от игр Zachtronics, я намеренно не предоставил никаких инструментов визуализации или отладки. Стартовый код проверяет только валидность решения. Создание инструментов отладки — это часть теста: вы можете либо вставить грамотные print-ы, либо попросить модель сгенерировать интерактивный отладчик за пару минут. Суждение о том, как инвестировать время в инструменты — это часть сигнала, который мы оцениваем»
— «Я вполне доволен новым тестовым заданием. Возможно, у него меньшая дисперсия результатов, чем у оригинала, потому что оно состоит из большего количества независимых подзадач [головоломок]. Ранние результаты многообещающие: оценки хорошо коррелируют с уровнем прошлых работ кандидатов, а один из моих самых способных коллег набрал больше баллов, чем любой кандидат до сих пор»
— «Мне всё ещё грустно, что пришлось отказаться от реализма и глубины оригинального задания. Но реализм может стать роскошью, которую мы больше не можем себе позволить. Оригинальное задание работало, потому что оно напоминало реальную работу. Замена работает, потому что она симулирует новую (невиданную ранее) работу»
Решил не откладывать, получились вот такие прогнозы. Если интересно, могу скинуть ссылки на рассуждения ChatGPT, почему так вышло.
Для некоторых вопросов мнение совпадает с медианным, но несколько предсказаний выделяются. В частности, по прогнозу выручки — $75B вместо $95B. При этом ответ GPT-5.2 Pro мне кажется разумным, все цифры там основаны на прогнозах самих компаний: OpenAI $50B, Anthropic $22B. Звучит правдоподобно.
Помните я буквально два дня назад писал про результаты конкурса предсказаний по АИ на 2025-й? Авторы запустили опрос на 2026й (несмотря на то, что в твиттере две недели назад автор сказал, что не будут этого делать, так как мало времени 👨🦳)
Заполняйте ваши предсказания тут: https://forecast2026.ai/ (до 25-го января)
(для 2025-го подвели результаты тут. Ajeya, iykyk, заняла третье место — она кстати недавно присоединилась к METR 👀👀)
В этом году ставим на (выборочно):
— FrontierMath Tier 4 (бенчмарк сложных исследовательских задач)
— Remote Labor Index (бенчмарк задач с Upwork, среднее время выполнения человеком 29 часов)
— OpenAI-Proof QA (баги, которые замедлили работу OpenAI на сутки и более)
— сумму выручек OpenAI, Anthropic и xAI на конец 2026-го (в этом декабре было ~30.8B, за год до этого $6.6B. Будет ли $100B+ в этом???)
Отдельно напишу, что недавно обновили лидерборд Remote Labor Index — одного из самых интересных для меня бенчмарков — первое место там занимает теперь Opus 4.5 с 3.75% 💪 (прошлый топ-1 это Manus 1.5, взявший 2.5%).
Попросил GPT-5.2 Pro оценить, сколько потенциальной выручки может приносить каждый процент на этом бечмарке в среднем на основе рынка США. Вышло, что:
— $13B (если брать только фрилансеров)
— $30B (если просто брать зарплатный фонд удалёнщиков
— $54B (если брать все задачи, которые могли бы делаться удалённо, но пока не делаются — тогда 100% это ~46% от всех зарплат в США)
Уж очень интересно, сколько % на RLI будет к концу 2026-го.
Так как посты два раза никто не читает, то напишу отдельно:
UPD 2: вот тут меня натолкнули на идею, что это для аудио-моделей, которые... нужны для девайсов, которые OpenAI будет запускать до 2028-го года.
От Epoch.AI как всегда интересная инфографика — на этот раз оценка количества проданных GPU разных поколений и производителей по кварталам.
1) Общий график роста количества мощностей, выраженных в эквивалентах H100 (FP8). Это график продаж, то есть установка в датацентры и тем более использование в продакшене идёт с некоторой задержкой. И даже так на январь 2025-го суммарно было примерно 6.7M H100-эквивалентов, а на сентябрь — 15.7M, в 2.35 раз больше. За неполный год количество мощностей во всём мире более чем удвоилось.
Суммарно все закупки оцениваются в $287B — в 3 раза меньше, чем OpenAI планирует купить в ближайшие 8 лет. С одной стороны не так много — спрос на ИИ пожалуй вырастет в 3 раза; другое дело, что это всё пойдет ОДНОМУ игроку.
2) Распределение в процентах по кварталам между игроками; Nvidia доминирует, и уступает больше рынка... другим американским компаниям, нежели Китаю. Дракон пока не проснулся, или вернее проснулся, но не разогнался.
Ночью на выставке CES Nvidia официально представила новые видеокарты для ИИ-датацентров в линейке Vera Rubin. Как и всегда, всё мощнее, быстрее, главное накидывают больше памяти, так что производительность больших моделей вырастает (картинка 1), а цены снижаются.
Интересно, что прирост в пропускной способности 10x показали не на уровне 50 токенов-в-секунду, как обычно нам предоставляют сервисы вроде ChatGPT, а около 225 — именно там наибольший прирост для моделей размера в 1 триллион параметров. В теории, может быть для платных пользователей сервисов будет увеличенная скорость генерации — я вот мечтаю, что GPT-5.2 Pro будет работать не за 20 минут, а за 5.
И отдельно представили специальный вид железа под названием Context Memory Storage Platform (картинка номер 2). Это очень быстрый SSD, подключающийся напрямую к GPU так, что загрузка данных игнорирует CPU и оперативную память.
Этот SSD, судя по предыдущим новостям, будет иметь скорость в 100 миллионов операций чтения и записи случайных данных в секунду. Это очень много — ChatGPT говорит, что хорошие SSD в игровых компьютерах выдают 1-3 миллиона. Это всё равно существенно медленнее оперативной памяти, но зато объёмы выше.
Сходу смог придумать три применения для этих дисков, все три предполагают дальнейший рост длины чатов/цепочек рассуждений:
1) выгружать ваш чат из памяти, пока вы читаете и печатаете ответ (расширение функциональности кэширования)
2) выгружать состояние GPU для того, чтобы быстро загружать его обратно в будущем (это позволяет ускорить запуск виртуальных машин, чтобы не инициализировать что-то с нуля; альтернативно, можно загружать персонализированные LoRA-адаптеры, которые немного дообучены под вас или один из сотен доменов)
3) самое интересное — позволить моделям во время обучения писать гораздо более длинные цепочки рассуждений, в миллионы-десятки миллионов токенов. Сейчас модели так просто не могут, но если бы могли, то быстро упёрлись в количество памяти на GPU. Я могу представить, как условный DSA от DeepSeek ложится на это решение — быстрые индексы для поиска релевантных токенов живут в GPU, и по ним определяется, какие части предыдущей истории загружать с SSD.
Акции Nvidia после презентации не выросли.... (non 🔼)
Продолжаю ковырять интернет на наличие любопытных штук которые можно купить онлайн (просто так), и наткнулся на сайт по продаже небольших бизнесов в США:
за ~200$ тысяч можно купить бар в Техасе, за ~1М$ прачечную в Нью-Йорк, заправку за ~300к$ и тп., бизнесы реальны и работают прямо сейчас.
И пришла идея, на случай если я стану возмутительно богатым:
> Берем GPT5 которая через годик-два выйдет
> Прописываем ей роли агентов нужные для управления бизнесом (допустим, тратим на автоматизацию этого всего много времени и весь бек-офис забираем на автоматизацию)
> Начинаем скупать бизнесы какие только можно, желательно так, чтобы там уже был персонал и лично ничего смотреть не нужно было бы
> …
> Профит
Идея в том, что GPT5 модель сможет управлять бизнесом эффективнее человека, если научиться ей передавать ключевые метрики (в чем главная проблема).
Персонал и менеджеры коммуницируют с «заморским» владельцем через почту, и не в курсе что он нейронка 🌚 нейронка же присылает инструкции по следующим шагам для ключевых менеджеров.
Забавно, что мы достаточно близки к такому в реальности – я иногда скармливаю экспорты данных нашего стартапа по продуктовым метрикам, или финансовым показателям, и модель выдает разумные рекомендации (вторая картинка) или советы по улучшению бизнеса, которые я уже исполняю (если они уместны). То есть технически, это все очень реализуемо даже сейчас, если сильно заморочиться.
Я уверен идея не нова и понравится всем ИИ-алярмистам 😃
Ну и еще выглядит так, что капитализм правда уязвим к таким моделям ИИ, это еще не общий искусственный интеллект, но уже можно представить как такой тул захватывал бы рынки где угодно.
Интересно, запретят ли государства такую авто-монополию в целом ☕️
Авторы AI 2027 обновили свою работу и скорректировали прогнозы времени развития AI — и представили AI Futures Model (пересказ в блоге, основная страница, модель предсказания и 100-страничный аппендикс). Эта модель модель учитывает больше факторов, чем предыдущая, и вводит несколько ключевых точек развития, достижимость которых оценивается через эти факторы.
Спойлер: модель предсказывает, что сроки достижения полной автоматизации программирования будут примерно на 3 года больше, чем в предыдущей модели (AI 2027). В основном это связано с менее оптимистичным взглядом на ускорение исследований в области ИИ на этапе до полной автоматизации.
Одним из важных новых факторов является research taste (исследовательское чутьё?), насколько хорошо ИИ умеет выбирать направления исследований и интерпретировать эксперименты. У людей в ведущих лабораториях этот навык очень прокачан — они могут по нескольким экспериментам понять, что работает лучше, что хуже.
Саму модель я не успел изучить досконально, и пока ознакомился лишь с кратким пересказом. Развитие делится на 3 этапа, первый из которых прогнозирует появление «Автоматизированного программиста» (AC). Если перенести его в сегодняшний день, он был бы так же производителен сам по себе, как люди-программисты без помощи ИИ. То есть, можно было бы убрать всех людей-программистов из проекта по созданию AGI, и работа шла бы так же быстро, как если бы там были только люди.
Для прогнозирования этого авторы опираются на все те же данные METR по длине задач, которые могут решаться автономными агентами, но с некоторыми поправками:
— Ресурсы для прогресса ИИ — прежде всего вычислительные мощности, труд по разметке, данные и т.д. — не будут расти такими же темпами вечно, поэтому прогноз нужно слегка занизить.
— В то же время сам ИИ будет ускорять развитие за счёт увеличения эффективности труда исследователей
— и достаточно спорный тезис: авторы предвидят сверхэкспоненциальный рост длины автономности агентов в силу некоторых причин, однако это не очень влияет на первый этап, пока мы не достигли AC.
К сожалению, в кратком пересказе ничего не говорят про корректировку данных METR на зашумлённость текущих оценок, вероятность переобучения на конкретный бенчмарк (хотя я оцениваю её как достаточно низкую), и самое главное, как заметил Сергея Николенко в комментариях пару недель назад — как выглядит разница между горизонтом выполнения задачи 5 и 10 лет? Какие задачи, требующие 10 лет труда людей, не может сделать агент, решающий 5-летки? То есть возможно интуиция оценки горизонтов автономности не будет иметь смысла после какого-то порога.
Этап 2 предсказывает, как быстро мы перейдем от AC к Сверхчеловеческому ИИ-исследователю (SAR) — ИИ, чье исследовательское чутье соответствует уровню лучшего исследователя-человека. Этап 3 — это саморазвитие ИИ с нулевым вкладом человека, оно совсем за облаками пока.
Пара цитат от Daniel Kokotajlo, соавтора работы:
— Меня совершенно не впечатляют разговоры об ограничениях текущей парадигмы. Последние десять лет были, по сути, чередой преодолений одного «хваленого» ограничения за другим; глубокое обучение «уперлось в стену» лишь в том смысле, в каком Годзилла упирался (и пробивал насквозь) во множество стен.
— Способность учиться у целого парка развернутых агентов может компенсировать неэффективность использования данных, а способность управлять файловыми системами в огромных контекстных окнах и регулярно обновлять веса модели может компенсировать отсутствие непрерывного обучения.
— [думаю, что будет] в общем, та же последовательность событий, что описана в AI 2027, только, может быть, она займет на год или два больше времени, и с различными другими мелкими отличиями (например, я не ожидаю, что у какой-то одной компании будет такой большой отрыв, как у OpenBrain)
— беспокоюсь, что к 2027 году METR, по сути, перестанет измерять длину горизонтов планирования, и это пугает, потому что тогда мы, возможно, не сможем сказать: ускоряется ли развитие до супер-экспоненциального или продолжает расти устойчивым экспоненциальными темпами.
Пора бы начать думать, какую LLM мы отправим в первую автономную миссию на Марс для локального управления развертыванием базы.
Читать полностью…
Наконец-то доехал новогодний подарок от OpenAI — свитшот к десятилетию компании. Был доступен очень маленькое количество времени в официально запущенном магазине мерча.
Here's to 10 more 🫡
Близится конец года, а это значит что помимо его итогов многие подводят результаты ставок и споров 😊
Вот например на Polymarket есть рынок «какая компания будет иметь лучшую кодинг-модель по окончанию 2025-го?», и там, возможно, внезапно для некоторых, безоговорочным лидером является OpenAI (95%).
Уверен, в канале найдется много комментаторов, которые уже давно похоронили компанию, надели майки «Гугл вперед», и которые сейчас удивились 🙂
Как и в случае моего августовского поста, причина — в критерии, который используется для разрешения. В этом случае используется подраздел coding бенчмарка LiveBench, который как раз недавно (в ноябре) обновляли.
GPT-5.1 Codex Max выбивает там 81.38, а Claude 4.5 Opus Thinking High Effort — 79.65%. Скорее всего тут разница даже не стат. значима, но на рынке это не учитывается.
Однако даже если брать другой бенчмарк, то я бы смотрел в сторону SWE-ReBench, где модели гоняют на самых свежих задачах, гарантированно не присутствовавших с тренировочных данных. gpt-5.2-2025-12-11-medium там слегка лидирует над моделями Anthropic (хоть на первом месте и Opus, но запущенный через Claude Code). Эх, ещё бы ребята на xhigh расщедрились бы...
Но что куда интереснее — это ретроспективная оценка GPT-5, вышедшей в августе. Помните перед релизом были новости, что по внутренним бенчмаркам компании она сопоставима с Opus/Sonnet, и что OpenAI «догонят» конкурентов? Получается, это было правдой — сейчас, с набором статистики и большего количества задач модель всё равно держится в топе, и обгоняет Gemini 3 Pro, и Sonnet 4 (а вот от 4.5, вышедшего на полтора месяца позже, слегка отстаёт).
Помните, несколько лет назад Amazon хотел купить iRobot и европейские регуляторы заблокировали сделку? Ну вот, компания, положившая начало продуктовой категории роботов-пылесосов, подала заявление о банкротстве по главе 11. Контроль переходит к китайскому Shenzhen PICEA Robotics — основному поставщику iRobot.
Компания достаётся китайскому производителю фактически через механизм выкупа долга в 191 млн.
Будет очень иронично, если в итоге Еврокомиссия будет обсуждать, как защитить европейский рынок от очень дешевых китайских роботов-пылесосов.
https://www.bloomberg.com/news/articles/2025-12-15/robot-vacuum-roomba-maker-files-for-bankruptcy-after-35-years
Ещё из этого интервью услышал идиому hands down, попросил ChatGPT объяснить этимологию. Теперь как дурак весь день буквально на каждую фразу по делу и без повторяю «hands down» (с интонацией Dario, кек 😀)
А какие у вас любимые идиомы в английском с неочевидным возникновением? Кидайте в комментарии, посмотрим!