73508
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
Параллельно наблюдаем за одной из задач, аналогичной ProgramBench и MirrorCode, в прямом эфире. В декабре Anthropic купили авторов Bun — набор инструментов «всё в одном» для JavaScript, замена npm/npx/node и тд, только очень быстрая.
Изначально Bun был написан на языке программирования Zig, и это стреляло авторам в колено, некоторые вещи, связанные с утечками памяти и неэффективностями, было очень долго и сложно отлаживать.
Сегодня в основную версию Bun вмерджили полную реимплементацию на Rust, другом очень быстром языке, но с большим фокусом на безопасность памяти (как раз чтобы не было утечек).
PR с добавлением Rust — на миллион строк кода. И как вы догадываетесь переписывали эти строки не руками, а Claude Code в цикле.
«Он проходит существующий набор тестов Bun на всех платформах (и исправляет несколько утечек памяти и нестабильных тестов), размер бинарного файла уменьшается на 3–8 МБ, результаты бенчмарков находятся в диапазоне от нейтральных до более позитивных — и, что наиболее важно, теперь у нас есть инструменты, поддерживаемые компилятором, для обнаружения и предотвращения ошибок, связанных с памятью».
3 дня назад основной разработчик писал, что агентов запустили в цикл 6 дней назад, и с тех пор они непрерывно работали. Так что всё переписывание уложилось в 10 дней.
Ждём блогпост с деталями и объяснениями, сколько это стоило, как работало — там точно было не просто: «Claude, перепиши Bun на Rust. Не допускай ошибок».
Ещё сегодня вышла свежая статистика от Ramp, компании для менеджмента корпоративных трат и выпуска карт и (например, для сотрудников в командировке).
По их данным, 50% компаний в США платят за AI подписки, и впервые доля Anthropic превысила долю OpenAI (которые не росли почти год).
Самая частая критика этой аналитики в том, что очень многие крупные компании не пользуются Ramp, так что статистика не самая точная.
Но имеем что имеем, и в ответ на это Дядя Сэм объявил, что компании могут попробовать Codex бесплатно на два месяца. Попробовать заполнить форму можно тут — ограничений по странам не вижу, так что мб работает не только в Штатах.
🥊 битва за рыночек
Надеюсь, многие из вас помнят бенчмарк FrontierMath по оценке моделей на очень сложных математических задачах около-исследовательского уровня (то есть встречающихся в работе людей, старающихся двигать фронтир науки).
Новость 1: на Tier 4, самой сложной группе задач, DeepMind заняли топ-1 со своей новой агентской системой Co-Mathematician, решив 48% задач. Это солидный отрыв от предыдущего первого места GPT-5.5 Pro и 40%. Каждая из решённых задач очень сложна и занимала существенное время у исследователя, который добавил её в бенчмарк.
Новость 2: Epoch.AI, авторы этого бенчмарка, отчитались о том, что делают внимательную вычитку ответов и решений, и выяснили, что около ... трети всех задач имеют неправильные ответы в их системе проверки 👨🦳. Для проверки используют GPT-5.5, пока не уточнили как — просят ли искать ошибки в оригинальных решениях или как-то ещё. Ждём исправленной версии, может быть оценки моделей чуть подскочат.
Новость 3: почему именно GPT-5.5? На бенчмарке от других авторов BrokenArxiv модель разносит конкурентов просто в щепки, отрываясь от топ-2 почти в 3 раза. BrokenArxiv — это бенчмарк на основе формул и доказательств из статей/препринтов, в которых авторы намеренно поменяли какие-то части, чтобы выражения выглядели правдоподобными, но гарантированно ложными. И просят модели их доказать. Большинство моделей пишет разные доказательства, очевидно, неправильные, и лишь модель OpenAI часто говорит, что доказательства нет, так как выражение ложное.
Поэтому модель хорошо использовать для проверок/вычитки мат. задач и решений.
На картинке вы можете видеть результаты на самом свежем наборе задач, составленном на основе статей, вышедших в апреле (так что модели почти наверняка на них не тренировались):
МАСК — ВСЁ!
Anthropic объявили о том, что они удвоят 5-часовые лимиты на Pro Max Team и других тарифах.
Как? Они заключили партнёрство со SpaceX на предоставление мощностей датацентра Colossus.
Как вы понимаете, это означается, что Elon расписался в некомпетентности своей команды.
Бенчмарк вышел огненным, будет очень интересно следить за прогрессом, но есть вопросы к тому, как авторы замерили бейзлайн. Они использовали своего минималистичного агента из одной из прошлых работ, mini-SWE-agent. Почти наверняка если замерять модели компаний в нативных для них Codex и Claude Code, или хотя бы в просто более умных скаффолдах, минимально поддерживающих хотя бы сжатие контекста (задача-то тут немаленькая, агенту работать долго) — модели оторвались бы от 0%, и в целом доля решенных тестов была бы выше.
Например, вот на первой картинке статистика воспроизведения супер-популярной SQLite. На втором месте Haiku, обходящая Opus 4.6. На третьем — GPT-5 mini, закрывшая на 18% больше тестов, чем Sonnet 4.6.
Можно сказать, что это всего лишь одна задача, да, но ведь в этой задаче сотни тестов. Вероятность того, что Opus ожидаемо получает настолько экстремально низкий бал крайне мала. Или авторы где-то налажали в инфраструктуре/параметрах, или что-то ещё.
Я ожидаю, что в ближайшую неделю какая-то компания сделает прогон Codex / Claude Code / Pi и отчитается о ненулевом результате. Конечно, 80% бенчмарка это не решит, но в результат 10-15% я могу поверить (и куда больше — в almost soled, где порог пройденных тестов 95%, а не 100%).
На второй картинке твиттерянин прогнал одну из задач на разных настройках Codex и на GPT-5.4/5.5, и видно, что результат авторов это буквально самый худший с большим запасом.
На третьей картинке он же прогнал 5 раз другую задачу в Pi (аналог Codex/Claude Code), и все 5 раз оценка была выше 90%, и 2 раза — 100%.
Ждем, пока кто-то расчехлит тысяч десять долларов на нормальные прогоны. Ну и будем рады видеть в релизных блогпостах будущих моделей (от Anthropic новую модель ожидаем прямо сегодня кстати 👀)
Увидел интересный сайт hnup.date/hn-sota — кто-то регулярно ежедневно гоняет автоматический анализ комментариев на Hackernews, чтобы подсчитать сентимент в отношении разных моделей.
Сейчас Claude по-прежнему обсуждают/упоминают больше всех, но явно наблюдается смешанная реакция: одни хвалят, другие критикуют; GPT, хотя и немного меньше обсуждается, получает гораздо меньше негатива.
Каждый день пайплайн:
1. получает 200 самых популярных постов за 24 часа на Hacker News
2. через LLM выбирает посты, заголовки которых посвящены LLM или программированию в целом (максимум 50)
3. Для каждого поста отправляет заголовок и комментарии в Gemini и просит его определить модели из списка и оценить сентимент.
На HN выборка достаточно маленькая, поэтому делать далекоидущие выводы не получится. Хотелось бы увидеть такое для Reddit или даже Twitter, но там за API дерут много $.
У Dwarkesh новое видео, на этот раз не интервью, а вопросно-ответная лекция с одним из создателей TPU, делающим сейчас свой стартап.
https://youtu.be/xmkSf5IS-zw
Анки-карточки к лекции: https://reiner-flashcards.vercel.app/
В лекции поговорят про то, как прикидывать цену токенов моделей, как и почему возникает трейдофф скорости и цены (вот эти Fast-моды в Codex/Claude Code) и многое другое. Мне интересно, пока смотреть не буду — готовлю всем сюрприз про дипсик 😮
В очередной раз увидел, как одна модель смогла исправить баг, который друге не могли. Такое происходит постоянно, и часто истории продаются как «блин вот из-за такого видимо придётся переходить с модели X на Y».
При этом я во многом не считаю такие примеры показательными. Давайте подумаем почему.
Во-первых, навыки модели во многом обусловлены данными и задачами, на которых их тренируют. Из-за этого даже модель, которая лучше в среднем по широкому набору задач может проигрывать в отдельных подзадачах каки-то доменов. Вот одна компания обучала модель искать баги одним пайплайном с такой-то инструкцией, и LLM научилась, а у другой было гораздо более обширно, но конкретно такой аспект не выучился.
Во-вторых, модели недетерминированы, и что не решается 1 запуском может решаться 3, 5 или 10 попытками. Может просто так получиться, что в запросе к другой модели чуть больше повезло.
В-третьих, все такие тесты подвержены проблеме восприятия. Когда новая модель решает что-то, что не решила старая, то мы автоматически предполагаем, что она решила бы всё, что у меня решала предыдущая. С такой точки зрения кажется, что нужно переходить на вот эту новую модель — она ведь ничем не хуже, а только лучше. Но это не так: все задачи, которые у нас сразу сработали на первой, не обязательно работают на второй. И сменив модель можно быстро попасть в ситуацию, где уже привычные вещи не работают (кстати, поэтому менять модели сложно — вроде привык, а вот какая-то достаточно простая штука не работает, и всё, кажется, что супер-тупая; хотя надо просто по другому промптить).
Такая картина бывает даже с опенсурсом, когда условный DeepSeek решает проблему, которую не смог решить Opus. Является ли один-два таких примера показательными? Конечно, нет.
Что может быть каким-никаким прокси сигналом — это сколько таких заявлений в целом появляется при релизе по отношению к предыдущим (и важно делать поправку на аудитории моделей). Но поскольку такую аналитику делать никто не будет, то и говорить нечего 🤷♂️
А для конкретного пользователя действительно может оказаться, что под его стак (язык + библиотеки + LLM-клиент + как он промптит + что угодно) одна модель лучше другой, если подобные ситуации повторяются часто.
Excel — один из камней, на которых стоит Microsoft, а Satya Nadella, CEO компании, очень тесно с ним связан — рекламировал его ещё в 1993 году!
На днях в Excel добавили функцию агента (может читать письма, заметки с встреч, искать в интернете, итд), и Microsoft решили переделать культовую рекламу в лифте из 1990-го.
Мне переделка не понравилась — оригинал идёт 4 минуты (из них по делу где-то 2.5), и в нём отлично понятно, что происходит, каков результат работы, а в 1990 это вообще производило впечатление.
Новая реклама идёт минуту, нам показывают 3 запроса в агента, и по 1 секунде чтобы понять, что он там наделал 👨🦳
Сама реклама:
Новостей много, сделаю краткую выжимку:
— Недавно Anthropic ограничили компании, пользующиеся Claude Enterprise, в доступе к Claude Code: теперь за все токены придётся платить по API-ценам (может быть в 10 раз дороже, чем подписка за $200). Таким образом, часть клиентов решит, что им дорого, и уйдёт к конкурентам, часть значимо повысит выручку.
— Вчера люди заметили, что документация Anthropic и лендинг подписок Claude обновились, и из всего написанного выходило, что в 20-долларовый план теперь не входит Claude Code! То есть вы не можете попробовать поиграться с моделью перед тем, как выкладывать как минимум сотню баксов.
— Однако в твиттере сотрудник компании сказал, что это тест, и его пока раскатили на 2% пользователей. Звучит странно — во-первых, документация обновляется для всех, во-вторых, люди попробовали пооткрывать в 10 браузерах и с разных устройств, и везде видели изменения в составе подписки на основном лендинге. Не похоже на 2% 🤷♂️
— Как я понял, за ночь изменения откатили. Но судя по динамике продуктовых изменений Anthropic, скоро или ещё сильнее порежут лимиты, или всё равно отключат CC за $20.
— Codex тем временем достиг 4 миллионов пользователей в неделю (он доступен и за $20, и за $0). Пару недель назад я пытался сравнить это с цифрами Claude Code, но оценить оказалось сложно, так как мы не знаем пропорции между $20 и $100-200 подписками. Обычно можно предположить, что большинство сидит на самом дешевом тире, но не уверен, что эта логика применима тут. Разница в цене в 10 раз может дать оценку как в 3-4 миллиона юзеров, так и в 20 😪. Думаю, что цифра скорее всего где-то около 10-12 миллионов, но неопределённость высокая.
— но Codex растёт очень быстро: 3 миллиона пользователей в неделю они достигли всего лишь 2 недели назад. По этому поводу снова сбросили лимиты (3й раз за неделю?). Пользователи Claude Code в ярости.
И вот часть комментария самого Terrence Tao:
В любом случае, я бы действительно сказал, что это та ситуация, когда сгенерированная ИИ статья непреднамеренно выявила более тесную связь между двумя областями математики (в данном случае — анатомией целых чисел и теорией марковских процессов), чем это ранее было явно отражено в литературе (хотя в ней были разбросаны намеки и предпосылки, которые можно разглядеть в ретроспективе). Это стало бы значимым вкладом в анатомию целых чисел, далеко выходящим за рамки решения этой конкретной проблемы Эрдёша.
— Я спрашивал об этом [у автора комментария выше], но, думаю, мы оба согласны, что это не столько ход 37, сколько просто хороший ход. Думаю, нам всё ещё нужно увидеть модель, которая построит какую-нибудь исключительно глубокую теорию на уровне, позволяющем доказать Гипотезу Римана или что-то подобное, чтобы классифицировать этот ход как ход 37.
Я несколько раз, начиная с декабря, писал, что Anthropic закупает мало мощностей:
То есть CEO говорит, что их ставка настолько неамбициозна, что даже если будет самый плохой сценарий роста их выручки — они смогут расплатиться за сервера. Но это не то, чем быстрорастущие компании, вообще-то, должны козырять.
Свежий материал от TheInforamtion: DeepSeek будут предоставлять свою модель DeepSeek V4 эксклюзивно на чипах Huawei, показывая самодостатчноссть Китая.
Главное:
— первоначально релиз был намечен на февраль, однако адаптация модели под чипы Huawei оказалась непростой задачей. Инженеры DeepSeek долгое время создавали и запускали свои модели, используя аппаратное и программное обеспечение от Nvidia, и многие инженерные оптимизации для уменьшения цены заточены именно под зелёных.
— Китайские технологические гиганты, в том числе Alibaba Group, ByteDance и Tencent Holdings, уже разместили крупные заказы на готовящиеся к выпуску чипы Huawei общим объемом в сотни тысяч штук.
— DeepSeek также разрабатывает два дополнительных варианта V4: каждый из них оптимизирован под разные задачи, и при этом оба созданы для работы на китайских чипах.
— Будут использоваться чипы Ascend 950PR, вычислительная мощность которых в 2,8 раза превосходит показатели Nvidia H20. Но чипы уступает H200. По данным компании Bernstein, Huawei сможет полностью преодолеть это отставание не раньше 2027 года, когда выйдет чип следующего поколения Ascend 960, чьи вычислительные возможности будут сопоставимы с чипами H200 (выпущенными...во втором квартале 2024-го).
— 950PR заточены на инференс, а в четвертом квартале Huawei планирует выпустить Ascend 950DT — чип, предназначенный для обучения.
Федеральный судья в Сан-Франциско вынесла предварительный судебный запрет в пользу Anthropic, приостановив действие решений администрации Трампа о включении компании в чёрный список Пентагона и запрете на использование моделей Claude федеральными агентствами. Судья Рита Лин квалифицировала действия правительства как «классическое незаконное преследование по Первой поправке» — формулировка, которая задаёт тон всему дальнейшему разбирательству.
Судья Лин прямо назвала происходящее «оруэлловским» — и это не риторическая фигура, а сигнал о том, как суд оценивает правовую обоснованность позиции правительства. Это не окончательное решение — но обычно суды очень детально разбирают иск по сути, прежде чем выносить обеспечительное решение.
https://www.cnbc.com/2026/03/26/anthropic-pentagon-dod-claude-court-ruling.html
Апдейт: сегодня закончились слушания свидетелей и экспертов, завтра будет выступление адвокатов перед присяжными (каждое не менее 2 часов). Адвокаты постараются исходя из всего обсуждённого нарисовать картину и описать, почему они правы.
Ну а после присяжные удалятся для вынесения приговора. Параллельно с ними будет думать и судья, так как приговор присяжных не является финальным, и судья может пересмотреть вердикт. А пока можно пересмотреть 12 Angry Men 🌚
Маленькое обновление по свежему бенчмарку ProgramBench (писал о нем неделю назад тут). Авторы соизволили прогнать GPT 5.5 на high/xhigh (максимальная длина рассуждений и время работы). И Opus 4.7 до кучи тоже. Процитирую авторов: «GPT 5.5 xhigh значительно превосходит Claude Opus 4.7 xhigh по всем параметрам» 😏
Во-первых, появилась первая полностью решённая задача (из 200). Оба запуска GPT-5.5 решили её, при этом на двух разных языках, Python и C.
Во-вторых, если брать не полностью решённые задачи, а те, где проходит 95% тестов (то есть выполнена почти вся функциональность), то разрыв ещё больше: GPT-5.5 xhigh может написать с нуля 13.5% программ, GPT 5.5 high 5%, Opus 4.7 xhigh 4.5%. Я не ожидал такой разницы.
На второй картинке график доли задач, в которых проходит заданный процент тестов. Видно, как фронтир GPT-5.5 xhigh гораздо правее и выше, чем других моделей — то есть в целом модель закрывает сильно больше фичей в задачах.
Читая статью DeepSeek v4, я выписал себе больше 90 вопросов. Большинство обзоров упускают детали, хотя именно разбираясь в них можно по-настоящему чему-то научиться.
Поэтому вместо лонга с фокусом на 5-7-10 аспектов я решил опробовать новый формат: Annotated Paper Walkthrough. Суть в том, что вы всё так же читаете оригинальную статью как исходник, но как только материал становится сложным или запутанным, я буквально провожу вас за руку. Вы получаете подробные сноски с визуализациями, кусками кода, ссылками и — самое главное — необходимым контекстом, чтобы не чувствовать себя потерянным.
Сегодня я выпускаю v1 с первыми 50 заметками. Кое-что из того, что я разбираю:
• Почему Softmax и Sigmoid в MoE-роутере заменили на Sqrt-Softplus?
• Что вообще такое этот Birkhoff polytope?
• Правда ли, что attention обрабатывает некоторые токены по 3 раза?
• Что такое split-KV и split-K, и почему DeepSeek от них отказались?
• Зачем используется Reverse KL, и откуда она вообще берется?
...и многое другое. Даже самые требовательные читатели найдут здесь для себя что-то новое.
Опенсорс-модели всё ещё активно заимствуют идеи из DeepSeek v3, и нет сомнений, что детали из v4 скоро станут стандартной темой в обсуждениях и на ML-собеседованиях. Надеюсь, этот гайд поможет вам быть на шаг впереди.
Как пошутил мой приятель, прочтение этого материала сделает вас не только лучше как инженера, но и как человека 😏 Верить этому или нет — не знаю, но вы попробуйте:
https://dsv4.interactive.ikot.blog
В предстоящем полете (оптимистично — на следующей неделе) нас ждёт всё новое:
— новый корабль версии v3
— новый ускоритель версии v3
— новая башня, вторая на космодроме в Техасе
— новый пусковой стол другого дизайна
Полет будет повторять тот же профиль, что и предыдущий, и корабль немного не долетит до орбиты. Обе части системы будут садиться на воду. Если корабль сядет очень хорошо — в следующем полете могут попытаться впервые посадить его на башню.
Один из интересных графиков в статье с анализом поведениям моделей авторами статей.
GPT думает гораздо больше перед тем, как начать писать какой-либо код.
(Однако это может быть артефактом и обосновано тем, что модель заканчивает раньше из-за плохой обёртки, поэтому процент по оси OX посчитан по гораздо меньшему количеству шагов)
Вчера вышел бенчмарк для кодинг-агентов ProgramBench от авторов SWE-Bench, на который мы будем смотреть ближайший год+.
Задача агента — воспроизвести код уже готовой программы, имея доступ к скомпилированному бинарному файлу и пользовательской документации. То есть агенту условно дают SQLite и говорят «вот сделай так же, те же интерфейсы, те же фичи». В первичном релизе — 200 программ из открытых репозиториев, от тех, про которые никто не слышал (<500 звезд на гитхабе) до того же SQLite, запущенного на каждом смартфоне.
Одна из самых интересных частей бенчмарка — это описание того, как его собирали и как проверяют выполнение задачи. Репозитории GitHub, подходящие под некоторые критерии, отдают LLM-агенту и промптят а) запустить инструкции по сборке (чтобы получить программу в точности соответствующую коду) б) сгенерировать возможные сценарии использования на основе кода + документации. Для этого агента запускают в цикле и не останавливают, пока процент покрытия кода тестами не будет высоким. Тесты также фильтруются (если их проходит и пустое приложение) и переписываются (например, если их не проходит сама оригинальная программа).
Получается авторазметка кодинг-агентами.
Мединный проект из этих 200 содержит 8700 строк кода в 50 файлах, 770 тестов, 2100 звезд и был впервые опубликован 8 лет назад.
Основная метрика — доля проектов, которые агент может воспроизвести так, что проходит 100% тестов. Дополнительная метрика — то же самое, но с порогом в 95% тестов.
У агента есть 6 часов, 1000 шагов и неограниченное количество запросов к скомпилированной программе.
У авторов получилось, что на данный момент все модели набирают 0% по основной метрике, а Opus 4.7 лидирует по дополнительной с результатом в 3%.
«...учитывая контекст, я почти уверен, что адвокаты Илона Маска, возможно, сильно облажались» — не то, что я ожидаю прочитать в новостном материале по делу, В КОТОРОМ СУДИТСЯ САМЫЙ БОГАТЫЙ ЧЕЛОВЕК МИРА, КОТОРЫЙ МОЖЕТ НАНЯТЬ ЛЮБЫХ ЮРИСТОВ.
Самого Elon уже опросили как свидетеля (он признался, что xAI дистиллировала модели OpenAI 😂), а за ним вызвали Jared Birchall, финансового управляющего состоянием миллиардера.
TLDR:
— в феврале 2025-го Elon сделал ставку в $97.4 миллиарда долларов за НКО OpenAI. С его слов, он хотел задать рыночную цену, чтобы в ходе раздела акций с коммерческой OpenAI некоммерческая не была усечена. На эти цифры должны были смотреть главные прокуроры, одобрявшие процесс конвертации.
— один из юристов команды Elon Musk задал несколько вопросов по этому поводу
— ...что позволило юристам OpenAI начать спрашивать по этой же теме и выяснить: а как получили оценку? а кто готов был давать деньги? а почему так? а какое вообще вам дело до того что происходит? И так далее. Дело в том, что никаких документов в рамках дискавери не было предоставлено, так как считалось, что это вне рамок дела. Jared Birchall отвечал не очень — многое не помнит, многое не знает, что-то слышал от кого-то где-то там-то.
— тут уже в опрос вмешалась судья, которая выгнала жюри присяжных из зала (а почему не выгнали журналистов? это как?) и сама начала задавать вопросы, пытаясь разобраться, как же без всяких оценок пришли к цифре около ста миллиардов, а главное на основе чего собирали инвесторов, чтобы сделать ставку. Сто миллиардов сложно без какого-то обоснования собрать.
Новость кончается так:
«К сожалению, задав вопрос о сделке с xAI в самом конце прямого допроса, команда Маска, возможно, открыла дверь для дальнейшего расследования. Вы можете спросить: «открыла дверь для чего?», и ваше предположение будет таким же верным, как и мое. Дальнейшие дискавери документов? Возможно, что-то о антиконкурентном поведении? Могу сказать вам, что для Elon Musk это не сулит ничего хорошего»
Суд идёт дальше, но следующий раз жюри и допрос вернутся в понедельник.
Хорошо, что новый метод не даёт погрешность в 2 раза 😨
Читать полностью…
Через неделю начинается судебный процесс Musk v Altman, в ходе которого их обоих, а также многих директоров OpenAI и Microsoft, вызовут на трибуну для ответов под присягой.
Судебный процесс обещает стать одним из самых масштабных зрелищ противостояния двух сил, которые когда-либо порождала Кремниевая долина. Обе стороны — компании на триллион долларов, Elon вообще самый богатый человек в мире.
Это не первый и даже не второй иск от него в сторону OpenAI, но первый, который дошёл до слушания в зале суда. В понедельник компании будут выбирать присяжных (ChatGPT говорит, что этот процесс не затягивается, и заканчивают в тот же день или в худшем случае за 2-3), а потом пойдет замес.
Elon утверждает, что стартап нарушил данные ему обещания и по ряду пунктов нарушил свою благотворительную миссию. Он добивается возврата активов. Экономист с его стороны оценил долю в 109 миллиардов долларов 😂, в то время как OpenAI оценивалась в 500 миллиардов долларов. При последней оценке OpenAI эта доля может составить 187 миллиардов долларов (судья уже сказала, что экономист «взял цифры из воздуха»).
Напомню TLDR: OpenAI уже предлагали акции Elon'у ранее, и он отказался, а до этого, ещё до ухода, он предлагал сделать компанию коммерческой и объединить её с Tesla.
Юристы OpenAI наверняка будут ссылаться на это. Они также будут утверждать, что Маск слишком долго тянул с подачей иска, и срок давности истек.
Если жюри признает OpenAI виновной, Elon также просит судью отменить октябрьскую реструктуризацию OpenAI, в результате которой коммерческая часть некоммерческой организации была преобразована в корпорацию. Юристы, следящие за делом, заявили, что суд вряд ли вынесет подобное деструктивное постановление, так как сделка была одобрена двумя генеральными прокурорами.
Лично я думаю, что Elon иск проиграет — но в моё «проиграет» входит и исход, где OpenAI выплачивают какую-то очень маленькую сумму (условно те же 38 миллионов, которые Elon вложил) и больше ничего не меняется. То есть иск не будет удовлетворён в хоть сколь нибудь значимом объеме.
Elon уже сказал, что ему-то деньги не нужны, поэтому всю сумму должна будет получить некоммерческая часть новой OpenAI 👀
Будем следить за ситуацией, запасаемся попкорном 🍿
Второй блок новостей:
— недавно выяснилось, что MFU (утилизация мощностей GPU) во время тренировки моделей xAI составляет всего 11%. Это очень низко— обычно во время претрейна показать может быть около 30-35%, и xAI не то чтобы какой-то новый класс моделей изобретает. Сейчас компания взяла курс на повышение до 50% (скорее всего, как всегда в компаниях Илона, цель намеренно задрана и амбициозна).
— то есть чтобы обучить модель определённого размера, компании нужно ждать в 3 раза дольше (или выделять в 3 раза больше видеокарт). Так что хвастовство размером кластера Colossus вышло боком 🤷♂️
— дела были так плохи, что SpaceX (они поглотили xAI) начала сдавать GPU в аренду стартапу Cursor, там ребята видимо показали, что знают как использовать мощности, и хотят поскорее двигаться к Composer 2.5 - 3. «Не можешь сам — продавай тем, кто может».
— Но на этом история не заканчивается. Помимо того, что за последние полгода из команды xAI ушли ВСЕ основатели, кроме одного (Elon Musk), уже больше полугода нет никаких заметных LLM-релизов, которые хоть как нибудь были бы близки к фронтиру. Дела у компании объективно плохо, выручка растёт еле-еле, в то время как у конкурентов взрывной рост. Причём даже хорошая модель компанию маловероятно, что спасёт — они могут попасть в ситуацию, как Anthropic, что мощностей для предоставления услуг просто нет. Начнут откусывать от мощностей под тренировку — и тогда следующее поколение провалится/отстанет.
— Elon делает ход конём: SpaceX, пытаясь догнать конкурентов, заключила сделку о праве приобретения Cursor за 60 миллиардов долларов. Сейчас как такового поглощения нет, будет совместная работа «над созданием лучшего в мире искусственного интеллекта для программирования и работы с интеллектуальными ресурсами». Если компании устроит результат — тогда можно реализовать опцию покупки до конца этого года. Если нет — SpaceX может выйти из сделки.... заплатив 10 миллиардов долларов 👨🦳
— Я глубоко над этим не думал, но сходу кажется, что это может быть последней конвульсией xAI (как части SpaceX). Если выгорит, получат хорошую модель, то ещё смогут нарастить выручку и запрыгнуть в поезд ведущих игроков. Если нет — то сделка с Cursor, каким бы боком она не вышла, очень сильно ударит по финансам xAI. Есть надежда на супер-успешное IPO, и если компания подвырастет раза в 2 в кратчайшие сроки, то деньги продолжать будут.
Сегодня пару часов назад прошёл третий пуск ракеты New Glenn — флагмана Blue Origin (компания Jeff Bezos, ex-CEO Amazon и некогда самый богатый человек в мире).
Компания во второй раз смогла посадить первую ступень на баржу — при этом летала та же ступень, что использовалась в прошлом пуске! Таким образом, New Glenn стала третей ракетой (а Blue Origin — второй компанией), которая смогла переиспользовать ускоритель ракеты.
Это выдающееся достижение (ни одно государственное агентство всё ещё не расчехлилось...) 👏, но стоит помнить, что у SpaceX есть бустер, который летал ... 34 раза 😳 а когда-то и 10 казались фантастикой!
Достаточно давно я писал про «Move 37» — ход 37 в одной из партий, сыгранных AlphaGo против чемпиона. Цитирую свой пост:
Мы не знаем, что такое креативность, и скорее всего это придуманный нами концепт, которого в реальности не существует. То что мы можем воспринимать за креатив — это на самом деле просто неоптимальность нашего восприятия, мы что-то упустили, что-то не знали, и поэтому какая-то информация кажется прям ВАУ. Но так как машины «думают» не как мы — они могут быть этому не подвержены (или подвержены в другой мере).
[про ход 37] Я в канале уже упоминал документальный фильм, снятый DeepMind, и там есть этот момент — смотрите с этого таймкода. Послушайте реакцию профессиональных комментаторов и игроков, которые просто не поняли, почему AlphaGo решила сходить так. Они думали, что это или ошибка, или модель тупая и не понимает что-то. Люди так не сходили бы, в этом не видно смысла.
Lee Sedol говорит про это в интервью:
— Я думал AlphaGo оперирует вероятностями и является просто машиной. Но когда я увидел этот ход — я изменил своё мнение. Абсолютно точно AlphaGo креативна. Этот ход был очень креативным и просто прекрасным. Этот ход заставил меня думать о Го в новом свете. Что значит креативность в Го? Этот ход был действительно продуманным, он был полон смысла.
— В своей докторской диссертации я доказал гипотезу Эрдёша о примитивных множествах. Эта проблема всегда будет в моем сердце: я работал над ней 4 года (даже когда мои наставники отговаривали меня от этого!)Читать полностью…
— Эрдёш#1196 — это асимптотическая версия гипотезы Эрдёша для примитивных множеств «больших» чисел. Я работал над ней много лет, консультировался со многими экспертами / донимал их по этому поводу, включая моих менторов [более именитых профессоров].
— Доказательство, выданное GPT-5.4 Pro, оказалось весьма удивительным, поскольку оно отвергло идею, которая неявно подразумевалась во всех работах на эту тему, начиная с оригинальной статьи Эрдёша 1935 года. Идея перейти от анализа к теории вероятностей была настолько естественной и соблазнительной, что она затмила собой техническую возможность сохранить аналитическую терминологию на всём протяжении доказательства.
— Ближайшая аналогия, которую я мог бы привести: основные шахматные дебюты хорошо изучены, но ИИ обнаруживает новую дебютную линию, которая была упущена из виду в силу человеческой эстетики и условностей.
— Более того, Terrence Tao давно подозревал, что применения теории вероятностей к теории чисел излишне усложнены, и этот «трюк», возможно, на самом деле прояснит общую теорию, что будет иметь более широкие последствия, чем решение одной отдельной гипотезы.
Meta запускает LLAMA-5 Muse Spark — первую модель от звёздной команды MSL, инженеры и исследователи которой привлекались миллиардными офферами. Бенчмарки вы можете видеть на картинке (bro thinks he's with big boys).
На второй картинке — мультиагентский режим Contemplating (как Deep Think или GPT Pro).
На третьей картинке — эффективность претрейна, выраженная через способность модели предсказывать текст по ходу обучения (увеличения количества пропущенных через модель мощностей).
На четвертой картинке — качество в HLE в зависимости от количества агентов и задержке для пользователя.
Про релиз модели не написано ничего, весов я бы пока не ждал (но когда-то их обещают выпустить). Статьи тоже нет. Будет закрытое API для выбранных компаний + модель уже появилась в AI-сервисах компании, и пообщаться с ней можно на https://meta.ai/
Alexandr Wang, chief ai officer, написал, что бОльшие модели уже тренируются и их стоит ждать скоро.
В комментариях попросили запустить ChatGPT Pro с просьбой сделать аналитику того, каким мог бы быть показатель OpenAI, если бы они считали так же, как Anthropic. Мне тоже стало интересно.
Чат: ссылка
TLDR: ARR OpenAI на конец февраля была $25B, с корректировкой скорее $33-34B (я ожидал, что ниже — не думал, что Microsoft столько продаёт).
Как GPT сделала оценку — нашла пост TechCrunch с разбором утёкших финансовых документов Microsoft, где упоминались размеры выплат OpenAI (те самые 20% по договору). Потом сопоставила это с выручкой на даты в утечках, посчитала долю, и экстраполировала. Так что цифра может быть завышена, если выручка OpenAI росла быстрее (например, из-за роста популярности Codex, в то время как Microsoft, например, могли продавать просто API).
С другой стороны GPT говорит, что в утечках были только данные Azure, а не по всем возможным Microsoft-продуктам с OpenAI внутри, поэтому цифра может быть больше.
Почему я об этом вообще пишу? Мне кажется это важно для того, чтобы понимать, какой спрос на модели, сколько люди суммарно реально платят за ИИ-продукты. Получается, что у всего лишь двух игроков, OpenAI и Anthropic (вместе с их провайдерами) суммарный ARR уже перевалил за $55B. Но рост супер стремительный, и к концу года мы можем достаточно легко увидеть взятие планки в $100B.
Представляете вот вы открываете последнюю статью Terence Tao, «Моцарта от мира математики», а там написано «Первое из этих предположений было доказано с помощью ChatGPT».
А представлять теперь и не надо 😭
В своём блоге автор даёт пояснение:
— Я так и не понял, как доказать это неравенство, но решил попытать счастья и дать его ChatGPT Pro <и он решил его>
Сомнений что без модели математик смог бы разобраться у меня нет; но теперь и решать самому не нужно, достаточно проверить и/или развить идеи, предложенные моделью. Terence последний год+ очень топит за верифицируемую математику — это когда все условия и доказательства записаны на специальном языке программирования, и компьютер проверяет решение, компилируя его. Если ошибок нет, то почти наверняка решение правильное.
И тогда остаётся лишь проверять, что исходные условия + вердикт формализованы правильно — и всё. Звучит чудесно? Да, но к сожалению ручная формализция на этом языке очень времязатратна, на сложные доказательства могут уходить месяцы. И тут тоже помогает AI — см. Gauss.