seeallochnaya | Unsorted

Telegram-канал seeallochnaya - Сиолошная

73509

Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy

Subscribe to a channel

Сиолошная

В очередной раз увидел, как одна модель смогла исправить баг, который друге не могли. Такое происходит постоянно, и часто истории продаются как «блин вот из-за такого видимо придётся переходить с модели X на Y».

При этом я во многом не считаю такие примеры показательными. Давайте подумаем почему.

Во-первых, навыки модели во многом обусловлены данными и задачами, на которых их тренируют. Из-за этого даже модель, которая лучше в среднем по широкому набору задач может проигрывать в отдельных подзадачах каки-то доменов. Вот одна компания обучала модель искать баги одним пайплайном с такой-то инструкцией, и LLM научилась, а у другой было гораздо более обширно, но конкретно такой аспект не выучился.

Во-вторых, модели недетерминированы, и что не решается 1 запуском может решаться 3, 5 или 10 попытками. Может просто так получиться, что в запросе к другой модели чуть больше повезло.

В-третьих, все такие тесты подвержены проблеме восприятия. Когда новая модель решает что-то, что не решила старая, то мы автоматически предполагаем, что она решила бы всё, что у меня решала предыдущая. С такой точки зрения кажется, что нужно переходить на вот эту новую модель — она ведь ничем не хуже, а только лучше. Но это не так: все задачи, которые у нас сразу сработали на первой, не обязательно работают на второй. И сменив модель можно быстро попасть в ситуацию, где уже привычные вещи не работают (кстати, поэтому менять модели сложно — вроде привык, а вот какая-то достаточно простая штука не работает, и всё, кажется, что супер-тупая; хотя надо просто по другому промптить).

Такая картина бывает даже с опенсурсом, когда условный DeepSeek решает проблему, которую не смог решить Opus. Является ли один-два таких примера показательными? Конечно, нет.

Что может быть каким-никаким прокси сигналом — это сколько таких заявлений в целом появляется при релизе по отношению к предыдущим (и важно делать поправку на аудитории моделей). Но поскольку такую аналитику делать никто не будет, то и говорить нечего 🤷‍♂️

А для конкретного пользователя действительно может оказаться, что под его стак (язык + библиотеки + LLM-клиент + как он промптит + что угодно) одна модель лучше другой, если подобные ситуации повторяются часто.

Читать полностью…

Сиолошная

Excel — один из камней, на которых стоит Microsoft, а Satya Nadella, CEO компании, очень тесно с ним связан — рекламировал его ещё в 1993 году!

На днях в Excel добавили функцию агента (может читать письма, заметки с встреч, искать в интернете, итд), и Microsoft решили переделать культовую рекламу в лифте из 1990-го.

Мне переделка не понравилась — оригинал идёт 4 минуты (из них по делу где-то 2.5), и в нём отлично понятно, что происходит, каков результат работы, а в 1990 это вообще производило впечатление.

Новая реклама идёт минуту, нам показывают 3 запроса в агента, и по 1 секунде чтобы понять, что он там наделал 👨‍🦳

Сама реклама:

Читать полностью…

Сиолошная

Новостей много, сделаю краткую выжимку:

— Недавно Anthropic ограничили компании, пользующиеся Claude Enterprise, в доступе к Claude Code: теперь за все токены придётся платить по API-ценам (может быть в 10 раз дороже, чем подписка за $200). Таким образом, часть клиентов решит, что им дорого, и уйдёт к конкурентам, часть значимо повысит выручку.

— Вчера люди заметили, что документация Anthropic и лендинг подписок Claude обновились, и из всего написанного выходило, что в 20-долларовый план теперь не входит Claude Code! То есть вы не можете попробовать поиграться с моделью перед тем, как выкладывать как минимум сотню баксов.

— Однако в твиттере сотрудник компании сказал, что это тест, и его пока раскатили на 2% пользователей. Звучит странно — во-первых, документация обновляется для всех, во-вторых, люди попробовали пооткрывать в 10 браузерах и с разных устройств, и везде видели изменения в составе подписки на основном лендинге. Не похоже на 2% 🤷‍♂️

— Как я понял, за ночь изменения откатили. Но судя по динамике продуктовых изменений Anthropic, скоро или ещё сильнее порежут лимиты, или всё равно отключат CC за $20.

— Codex тем временем достиг 4 миллионов пользователей в неделю (он доступен и за $20, и за $0). Пару недель назад я пытался сравнить это с цифрами Claude Code, но оценить оказалось сложно, так как мы не знаем пропорции между $20 и $100-200 подписками. Обычно можно предположить, что большинство сидит на самом дешевом тире, но не уверен, что эта логика применима тут. Разница в цене в 10 раз может дать оценку как в 3-4 миллиона юзеров, так и в 20 😪. Думаю, что цифра скорее всего где-то около 10-12 миллионов, но неопределённость высокая.

— но Codex растёт очень быстро: 3 миллиона пользователей в неделю они достигли всего лишь 2 недели назад. По этому поводу снова сбросили лимиты (3й раз за неделю?). Пользователи Claude Code в ярости.

Читать полностью…

Сиолошная

И вот часть комментария самого Terrence Tao:

В любом случае, я бы действительно сказал, что это та ситуация, когда сгенерированная ИИ статья непреднамеренно выявила более тесную связь между двумя областями математики (в данном случае — анатомией целых чисел и теорией марковских процессов), чем это ранее было явно отражено в литературе (хотя в ней были разбросаны намеки и предпосылки, которые можно разглядеть в ретроспективе). Это стало бы значимым вкладом в анатомию целых чисел, далеко выходящим за рамки решения этой конкретной проблемы Эрдёша.


===

Можно ли рассматривать эту ситуацию как move 37 в математике? Скорее всего нет, хоть и очень близко:
— Я спрашивал об этом [у автора комментария выше], но, думаю, мы оба согласны, что это не столько ход 37, сколько просто хороший ход. Думаю, нам всё ещё нужно увидеть модель, которая построит какую-нибудь исключительно глубокую теорию на уровне, позволяющем доказать Гипотезу Римана или что-то подобное, чтобы классифицировать этот ход как ход 37.


Так что ждём Spud 🤲. Но результат тем не менее всё равно выдающийся.

Читать полностью…

Сиолошная

Я несколько раз, начиная с декабря, писал, что Anthropic закупает мало мощностей:

То есть CEO говорит, что их ставка настолько неамбициозна, что даже если будет самый плохой сценарий роста их выручки — они смогут расплатиться за сервера. Но это не то, чем быстрорастущие компании, вообще-то, должны козырять.


Но дела-то идут настолько отлично, что они перевыполнили позитивный (не реалистичный!) прогноз по росту выручки буквально за первые 3.5 месяца года.

Но теперь, похоже, в будущих интервью Dario не сможет кивать на OpenAI и говорить «ну так некоторые игроки на рынке делают безумные ставки и просто любят большие цифры» (это не шутка, это цитата) — за последнюю неделю он осознал, как сильно промахнулся, и теперь появилось аж 3 новости про наращивание мощностей: с CoreWeave и Broadcom/Google на поставку нескольких ГигаВатт чипов, и про рассмотрение возможности делать свои AI-чипы (которые OpenAI уже года 2 дизайнит).

В целом это означает, что мощности им достанутся по ценам выше, чем OpenAI, а значит, маржа будет меньше. Ещё одна такая промашка — и поставщиков мощностей, скажем, в 2028-м уже может не быть (все будут работать на OpenAI, Google да Китай).

What did Dario see? He's beginning to believe!

Читать полностью…

Сиолошная

Свежий материал от TheInforamtion: DeepSeek будут предоставлять свою модель DeepSeek V4 эксклюзивно на чипах Huawei, показывая самодостатчноссть Китая.

Главное:
— первоначально релиз был намечен на февраль, однако адаптация модели под чипы Huawei оказалась непростой задачей. Инженеры DeepSeek долгое время создавали и запускали свои модели, используя аппаратное и программное обеспечение от Nvidia, и многие инженерные оптимизации для уменьшения цены заточены именно под зелёных.

— Китайские технологические гиганты, в том числе Alibaba Group, ByteDance и Tencent Holdings, уже разместили крупные заказы на готовящиеся к выпуску чипы Huawei общим объемом в сотни тысяч штук.

— DeepSeek также разрабатывает два дополнительных варианта V4: каждый из них оптимизирован под разные задачи, и при этом оба созданы для работы на китайских чипах.

— Будут использоваться чипы Ascend 950PR, вычислительная мощность которых в 2,8 раза превосходит показатели Nvidia H20. Но чипы уступает H200. По данным компании Bernstein, Huawei сможет полностью преодолеть это отставание не раньше 2027 года, когда выйдет чип следующего поколения Ascend 960, чьи вычислительные возможности будут сопоставимы с чипами H200 (выпущенными...во втором квартале 2024-го).

— 950PR заточены на инференс, а в четвертом квартале Huawei планирует выпустить Ascend 950DT — чип, предназначенный для обучения.

Читать полностью…

Сиолошная

Федеральный судья в Сан-Франциско вынесла предварительный судебный запрет в пользу Anthropic, приостановив действие решений администрации Трампа о включении компании в чёрный список Пентагона и запрете на использование моделей Claude федеральными агентствами. Судья Рита Лин квалифицировала действия правительства как «классическое незаконное преследование по Первой поправке» — формулировка, которая задаёт тон всему дальнейшему разбирательству.

Судья Лин прямо назвала происходящее «оруэлловским» — и это не риторическая фигура, а сигнал о том, как суд оценивает правовую обоснованность позиции правительства. Это не окончательное решение — но обычно суды очень детально разбирают иск по сути, прежде чем выносить обеспечительное решение.

https://www.cnbc.com/2026/03/26/anthropic-pentagon-dod-claude-court-ruling.html

Читать полностью…

Сиолошная

Федеральный судья Рита Лин в ходе рассмотрения иска Anthropic к Пентагону заметила, что запрет администрации Трампа на использование госструктурами моделей Anthropic выглядит как наказание компании за то, что она публично раскрыла свой контрактный спор с Пентагоном. По словам судьи, действия правительства «похожи на попытку подорвать Anthropic» и потенциально нарушают Первую поправку. Решение по делу пока не вынесено, но судья запросила дополнительные доказательства.

https://www.wsj.com/tech/ai/u-s-governments-ban-on-anthropic-looks-like-punishment-attempt-judge-says-2ff98fe3

Читать полностью…

Сиолошная

Смотрим-слушаем про токеномику и гигаватты в свежем интервью Dwarkesh: https://www.youtube.com/watch?v=mDG_Hx3BSUE

Какие темы обсудят:
00:00:00 – Почему H100 сегодня стоит дороже, чем 3 года назад
00:24:52 – Nvidia заранее забронировала мощности TSMC; Google сталкивается с дефицитом
00:34:34 – К 2030 году ASML станет главным ограничением для масштабирования вычислительных мощностей ИИ
00:56:06 – Разве нельзя просто использовать старые фабрики TSMC?
01:05:56 – Когда Китай обойдет Запад по масштабам производства полупроводников?
01:16:20 – Надвигающийся колоссальный дефицит памяти
01:42:53 – Увеличение энергетических мощностей в США не станет проблемой
01:55:03 – ДЦ в космосе не появятся в этом десятилетии
02:14:26 – Почему так мало хедж-фондов делают ставку на AGI?
02:18:49 – Вытеснит ли TSMC компанию Apple с техпроцесса N2?
02:24:35 – Роботы и риски, связанные с Тайванем

Читать полностью…

Сиолошная

Одна из крупнейших венчурных фирм a16z выпустила отчёт по AI-индустрии с большим количеством графиков. Я его полистал и нашёл пару интересных моментов:

1. Приложение Sora c генерацией видео еще живо и даже растёт — дневная аудитория чуть больше 3 миллионов пользователей. Солидно само по себе, но на фоне замашек OpenAI цифра достаточно скромная.

2 и 3 — доля ChatGPT по сессиям. С ростом рынка и появлением новых продуктов доля падает, но остаётся солидной. Количество времени, проведенном в ChatGPT, в 8 раз выше, чем у топ-2 игрока.

Читать полностью…

Сиолошная

А ведь менее чем неделю назад на конференции в Индии эти двое не могли взяться за руки

Читать полностью…

Сиолошная

3.5 месяца назад после выхода Kimi K2 Thinking, как и после любого другого релиза, началась волна комментариев в духе «Да всё, да Китай догнал, да эти модели уже на уровне не то что OpenAI а Anthropic».

Как и в случае с R1 vs o1, я считаю, что это бред. Мой твит с хот-тейком про превращение паритета на бумаге в разрыв в реальности набрал под 80 тысяч просмотров, поэтому я решил вернуться и проверить, был ли я прав.

Остают ли модели от фронтира, и если да, то почему? Об этом читайте в новом блогпосте: ikot.blog/the-illusion-of-parity

Читать полностью…

Сиолошная

Считаю, что тут очень важная мысль - как

Читать полностью…

Сиолошная

Посмотрел вчера это интервью, очень понравилось, особенно часть с 00:58:49 про инвестиции в мощности и выход на прибыль. В целом Dario достаточно хорошо ответил на заковыристые вопросы, очень хотелось бы услышать ответы на ровно них же от Sama (хотя уверен, что они будут такими же, но с более агрессивными целями).

Если вкратце, то:
— Dario верит, что «страна гениев в датацентре» появится в течении 3-4 лет.
— Почти наверняка индустрия AI (3-4-5 ведущих игроков) будет иметь выручку больше триллиона долларов в 2030-м. 3 года на «страну гениев в датацентре», 2 года на диффузию этого в экономику от текущего момента.
— После этого ВВП может начать расти на 10-20% в год. Компании и дальше будут наращивать мощности, инвестируя уже триллионы долларов, пока не достигнут некоторой точки равновесия, где дальнейшие вливания уже дают очень маленькую отдачу. Эквилибриум задаётся тем, сколько всего чипов будет производиться, и какую долю в ВВП будет составлять выручка компаний.
— Dario снова повторил предсказание про то, что модели через год смогут делать 90% работы инженеров-разработчиков (не только написания кода).
— Подтвердил / прокомментировал почти все слухи, которые мы получали из утечек презентаций для инвесторов касательно маржинальности, планов по росту выручки, выходу на прибыль.
— Выход на прибыль в 2028-м пока обусловлен тем, сколько спроса они видят, сколько мощностей нужно на исследования и сколько чипов смогут купить.
— Но из всех ответов Dario я скорее укрепился во мнении, что OpenAI имеют более рисковый и при этом реалистичный план; Anthropic уже двигали год выхода на прибыль, и это может повториться снова.

Dario несколько раз подчеркнул, что их инвестиции в мощности не настолько агрессивны, так как если они ошибаются хотя бы на год, то компания обанкротится. Я с этим не согласен, мне кажется он лукавит — ну или это верно для его компании, но не OpenAI 🤷‍♂️

А мой твит с этим кадром из подкаста как-то набрал полмиллиона просмотров 😳

Читать полностью…

Сиолошная

Картинка фотошоп, а твит выдуман:


Вчера вечером я встречался с Andrew Strominger и Alex Lupsasca, двумя ведущими физиками мира.

Они только что опубликовали статью в соавторстве с OpenAI, и, по-моему, это уже уровень ASI (искусственного суперинтеллекта).

Andrew, один из создателей теории струн, рассказал мне, что еще год назад он сомневался, что ИИ может быть хоть сколько-нибудь полезен.

Год спустя, после серии взаимодействий с GPT 5.2 Pro, они отправили итоговый запрос внутренней модели, которая решила И доказала ранее нерешенную задачу квантовой теории поля… всего за 12 часов.

Модель сделала то, что не удавалось двум умнейшим людям в мире в их области. И когда мы общались, они были в диком восторге от того, что может ждать нас впереди.

Andrew сказал: «Я впервые вижу, чтобы ИИ решил задачу в моей области теоретической физики, которая, возможно, вообще не под силу человеку».

Они отметили: «Изменились две вещи: модель стала лучше, и мы поняли, как с ней разговаривать».

Он также добавил: «Учитывая последние достижения, я чувствую, что теперь большинству физиков, желающих оставаться на передовой научного прогресса, придется учиться общаться с ИИ. Год назад в этом не было необходимости».

ASI уже здесь, просто он распределен неравномерно.

Читать полностью…

Сиолошная

Через неделю начинается судебный процесс Musk v Altman, в ходе которого их обоих, а также многих директоров OpenAI и Microsoft, вызовут на трибуну для ответов под присягой.

Судебный процесс обещает стать одним из самых масштабных зрелищ противостояния двух сил, которые когда-либо порождала Кремниевая долина. Обе стороны — компании на триллион долларов, Elon вообще самый богатый человек в мире.

Это не первый и даже не второй иск от него в сторону OpenAI, но первый, который дошёл до слушания в зале суда. В понедельник компании будут выбирать присяжных (ChatGPT говорит, что этот процесс не затягивается, и заканчивают в тот же день или в худшем случае за 2-3), а потом пойдет замес.

Elon утверждает, что стартап нарушил данные ему обещания и по ряду пунктов нарушил свою благотворительную миссию. Он добивается возврата активов. Экономист с его стороны оценил долю в 109 миллиардов долларов 😂, в то время как OpenAI оценивалась в 500 миллиардов долларов. При последней оценке OpenAI эта доля может составить 187 миллиардов долларов (судья уже сказала, что экономист «взял цифры из воздуха»).

Напомню TLDR: OpenAI уже предлагали акции Elon'у ранее, и он отказался, а до этого, ещё до ухода, он предлагал сделать компанию коммерческой и объединить её с Tesla.

Юристы OpenAI наверняка будут ссылаться на это. Они также будут утверждать, что Маск слишком долго тянул с подачей иска, и срок давности истек.

Если жюри признает OpenAI виновной, Elon также просит судью отменить октябрьскую реструктуризацию OpenAI, в результате которой коммерческая часть некоммерческой организации была преобразована в корпорацию. Юристы, следящие за делом, заявили, что суд вряд ли вынесет подобное деструктивное постановление, так как сделка была одобрена двумя генеральными прокурорами.

Лично я думаю, что Elon иск проиграет — но в моё «проиграет» входит и исход, где OpenAI выплачивают какую-то очень маленькую сумму (условно те же 38 миллионов, которые Elon вложил) и больше ничего не меняется. То есть иск не будет удовлетворён в хоть сколь нибудь значимом объеме.

Elon уже сказал, что ему-то деньги не нужны, поэтому всю сумму должна будет получить некоммерческая часть новой OpenAI 👀

Будем следить за ситуацией, запасаемся попкорном 🍿

Читать полностью…

Сиолошная

Второй блок новостей:

— недавно выяснилось, что MFU (утилизация мощностей GPU) во время тренировки моделей xAI составляет всего 11%. Это очень низко— обычно во время претрейна показать может быть около 30-35%, и xAI не то чтобы какой-то новый класс моделей изобретает. Сейчас компания взяла курс на повышение до 50% (скорее всего, как всегда в компаниях Илона, цель намеренно задрана и амбициозна).

— то есть чтобы обучить модель определённого размера, компании нужно ждать в 3 раза дольше (или выделять в 3 раза больше видеокарт). Так что хвастовство размером кластера Colossus вышло боком 🤷‍♂️

— дела были так плохи, что SpaceX (они поглотили xAI) начала сдавать GPU в аренду стартапу Cursor, там ребята видимо показали, что знают как использовать мощности, и хотят поскорее двигаться к Composer 2.5 - 3. «Не можешь сам — продавай тем, кто может».

— Но на этом история не заканчивается. Помимо того, что за последние полгода из команды xAI ушли ВСЕ основатели, кроме одного (Elon Musk), уже больше полугода нет никаких заметных LLM-релизов, которые хоть как нибудь были бы близки к фронтиру. Дела у компании объективно плохо, выручка растёт еле-еле, в то время как у конкурентов взрывной рост. Причём даже хорошая модель компанию маловероятно, что спасёт — они могут попасть в ситуацию, как Anthropic, что мощностей для предоставления услуг просто нет. Начнут откусывать от мощностей под тренировку — и тогда следующее поколение провалится/отстанет.

— Elon делает ход конём: SpaceX, пытаясь догнать конкурентов, заключила сделку о праве приобретения Cursor за 60 миллиардов долларов. Сейчас как такового поглощения нет, будет совместная работа «над созданием лучшего в мире искусственного интеллекта для программирования и работы с интеллектуальными ресурсами». Если компании устроит результат — тогда можно реализовать опцию покупки до конца этого года. Если нет — SpaceX может выйти из сделки.... заплатив 10 миллиардов долларов 👨‍🦳

— Я глубоко над этим не думал, но сходу кажется, что это может быть последней конвульсией xAI (как части SpaceX). Если выгорит, получат хорошую модель, то ещё смогут нарастить выручку и запрыгнуть в поезд ведущих игроков. Если нет — то сделка с Cursor, каким бы боком она не вышла, очень сильно ударит по финансам xAI. Есть надежда на супер-успешное IPO, и если компания подвырастет раза в 2 в кратчайшие сроки, то деньги продолжать будут.

Читать полностью…

Сиолошная

Сегодня пару часов назад прошёл третий пуск ракеты New Glenn — флагмана Blue Origin (компания Jeff Bezos, ex-CEO Amazon и некогда самый богатый человек в мире).

Компания во второй раз смогла посадить первую ступень на баржу — при этом летала та же ступень, что использовалась в прошлом пуске! Таким образом, New Glenn стала третей ракетой (а Blue Origin — второй компанией), которая смогла переиспользовать ускоритель ракеты.

Это выдающееся достижение (ни одно государственное агентство всё ещё не расчехлилось...) 👏, но стоит помнить, что у SpaceX есть бустер, который летал ... 34 раза 😳 а когда-то и 10 казались фантастикой!

Читать полностью…

Сиолошная

Достаточно давно я писал про «Move 37» — ход 37 в одной из партий, сыгранных AlphaGo против чемпиона. Цитирую свой пост:

Мы не знаем, что такое креативность, и скорее всего это придуманный нами концепт, которого в реальности не существует. То что мы можем воспринимать за креатив — это на самом деле просто неоптимальность нашего восприятия, мы что-то упустили, что-то не знали, и поэтому какая-то информация кажется прям ВАУ. Но так как машины «думают» не как мы — они могут быть этому не подвержены (или подвержены в другой мере).

[про ход 37] Я в канале уже упоминал документальный фильм, снятый DeepMind, и там есть этот момент — смотрите с этого таймкода. Послушайте реакцию профессиональных комментаторов и игроков, которые просто не поняли, почему AlphaGo решила сходить так. Они думали, что это или ошибка, или модель тупая и не понимает что-то. Люди так не сходили бы, в этом не видно смысла.

Lee Sedol говорит про это в интервью:
— Я думал AlphaGo оперирует вероятностями и является просто машиной. Но когда я увидел этот ход — я изменил своё мнение. Абсолютно точно AlphaGo креативна. Этот ход был очень креативным и просто прекрасным. Этот ход заставил меня думать о Го в новом свете. Что значит креативность в Го? Этот ход был действительно продуманным, он был полон смысла.


Все или почти все доказательства теорем в математике от ИИ можно назвать заурядными или рутинными. Да, результаты показывают что-то новое, но это скорее ожидаемо, чем нет. Но вот GPT-5.4 Pro нашла решение для задачи Эрдёша номер 1196. Им восхитились и доцент математики из Stanford, и легендарный Terence Tao. Вот что пишет первый:

— В своей докторской диссертации я доказал гипотезу Эрдёша о примитивных множествах. Эта проблема всегда будет в моем сердце: я работал над ней 4 года (даже когда мои наставники отговаривали меня от этого!)
— Эрдёш#1196 — это асимптотическая версия гипотезы Эрдёша для примитивных множеств «больших» чисел. Я работал над ней много лет, консультировался со многими экспертами / донимал их по этому поводу, включая моих менторов [более именитых профессоров].
— Доказательство, выданное GPT-5.4 Pro, оказалось весьма удивительным, поскольку оно отвергло идею, которая неявно подразумевалась во всех работах на эту тему, начиная с оригинальной статьи Эрдёша 1935 года. Идея перейти от анализа к теории вероятностей была настолько естественной и соблазнительной, что она затмила собой техническую возможность сохранить аналитическую терминологию на всём протяжении доказательства.
— Ближайшая аналогия, которую я мог бы привести: основные шахматные дебюты хорошо изучены, но ИИ обнаруживает новую дебютную линию, которая была упущена из виду в силу человеческой эстетики и условностей.
— Более того, Terrence Tao давно подозревал, что применения теории вероятностей к теории чисел излишне усложнены, и этот «трюк», возможно, на самом деле прояснит общую теорию, что будет иметь более широкие последствия, чем решение одной отдельной гипотезы.

Читать полностью…

Сиолошная

Meta запускает LLAMA-5 Muse Spark — первую модель от звёздной команды MSL, инженеры и исследователи которой привлекались миллиардными офферами. Бенчмарки вы можете видеть на картинке (bro thinks he's with big boys).

На второй картинке — мультиагентский режим Contemplating (как Deep Think или GPT Pro).

На третьей картинке — эффективность претрейна, выраженная через способность модели предсказывать текст по ходу обучения (увеличения количества пропущенных через модель мощностей).

На четвертой картинке — качество в HLE в зависимости от количества агентов и задержке для пользователя.

Про релиз модели не написано ничего, весов я бы пока не ждал (но когда-то их обещают выпустить). Статьи тоже нет. Будет закрытое API для выбранных компаний + модель уже появилась в AI-сервисах компании, и пообщаться с ней можно на https://meta.ai/

Alexandr Wang, chief ai officer, написал, что бОльшие модели уже тренируются и их стоит ждать скоро.

Читать полностью…

Сиолошная

В комментариях попросили запустить ChatGPT Pro с просьбой сделать аналитику того, каким мог бы быть показатель OpenAI, если бы они считали так же, как Anthropic. Мне тоже стало интересно.

Чат: ссылка

TLDR: ARR OpenAI на конец февраля была $25B, с корректировкой скорее $33-34B (я ожидал, что ниже — не думал, что Microsoft столько продаёт).

Как GPT сделала оценку — нашла пост TechCrunch с разбором утёкших финансовых документов Microsoft, где упоминались размеры выплат OpenAI (те самые 20% по договору). Потом сопоставила это с выручкой на даты в утечках, посчитала долю, и экстраполировала. Так что цифра может быть завышена, если выручка OpenAI росла быстрее (например, из-за роста популярности Codex, в то время как Microsoft, например, могли продавать просто API).

С другой стороны GPT говорит, что в утечках были только данные Azure, а не по всем возможным Microsoft-продуктам с OpenAI внутри, поэтому цифра может быть больше.

Почему я об этом вообще пишу? Мне кажется это важно для того, чтобы понимать, какой спрос на модели, сколько люди суммарно реально платят за ИИ-продукты. Получается, что у всего лишь двух игроков, OpenAI и Anthropic (вместе с их провайдерами) суммарный ARR уже перевалил за $55B. Но рост супер стремительный, и к концу года мы можем достаточно легко увидеть взятие планки в $100B.

Читать полностью…

Сиолошная

Представляете вот вы открываете последнюю статью Terence Tao, «Моцарта от мира математики», а там написано «Первое из этих предположений было доказано с помощью ChatGPT».

А представлять теперь и не надо 😭

В своём блоге автор даёт пояснение:
— Я так и не понял, как доказать это неравенство, но решил попытать счастья и дать его ChatGPT Pro <и он решил его>

Сомнений что без модели математик смог бы разобраться у меня нет; но теперь и решать самому не нужно, достаточно проверить и/или развить идеи, предложенные моделью. Terence последний год+ очень топит за верифицируемую математику — это когда все условия и доказательства записаны на специальном языке программирования, и компьютер проверяет решение, компилируя его. Если ошибок нет, то почти наверняка решение правильное.

И тогда остаётся лишь проверять, что исходные условия + вердикт формализованы правильно — и всё. Звучит чудесно? Да, но к сожалению ручная формализция на этом языке очень времязатратна, на сложные доказательства могут уходить месяцы. И тут тоже помогает AI — см. Gauss.

Читать полностью…

Сиолошная

Nvidia проводит конференцию GTC, которую открывает CEO компании. Игровых видеокарт не представят (да и скоро ждать не стоит 😭), зато показали новую железку, сделанную на основе технологий недавно «купленного» стартапа Groq.

Groq специализировались на быстрой генерации токенов за счёт того, что в их картах не было HBM — очень быстрой, но всё ещё относительно медленной памяти. Вся модель и ваши токены жили в SRAM — супер-быстрой памяти (в 15+ раз быстрее), с которой напрямую взаимодействуют вычислительные юниты. Но она очень дорогая, и её мало — видеокарта GB200, использующаяся в датацентрах, имеет всего 126 МегаБайт SRAM (и это на 2 чипа внутри, то есть 63 МБ/чип).

(это было одной из проблем Groq — они не могли запускать очень большие модели, SRAM не хватало)

Теперь модуль Groq 3 LPX будет частью серверных стоек, которые предлагает Nvidia — специально для сценариев, где нужна сверх-быстрая генерация. Nvidia рассчитывает, что современные GPT (якобы размером в 2 триллиона параметров) смогут бегать на скорости в 400 токенов в секунду.

Один блок с чипами в стойке (на второй картинке) будет иметь 128 GB SRAM – то есть огромное количество, по сравнению с обычными картами. Но этого всё равно не хватит, чтобы считать всё — поэтому Nvidia предлагает считать там только FFN/MOE, а Attention продолжать на картах Nvidia (картинка 4).

О, и на последней картинке — Nvidia планирует сделать чип архитектуры Vera Rubin (следующее поколение, уже представлено, но ещё не продаётся) специально для космоса, с вниманием к выделяемому теплу.

🚀 🚀 🚀

Читать полностью…

Сиолошная

Cursor написали в своём блоге о том, как отслеживают качество моделей в написании кода. Они используют гибридный онлайн-офлайн процесс.

Оффлайн — это обычный бенчмарк на внутреннем наборе тестов, основанном на сессиях работы инженеров компании. В среднем решение требует гораздо больше строк кода в решении, нежели публичные бенчмарки: изменение 352 строк в ~8 файлах.

Сравнение с другими бенчмарками приведено на второй картинке — откуда также видно, что входное описание куда короче других бенчмарков, то есть в промпте не прописывают каждую маленькую деталь (но детали прописаны в рубрике для автоматической проверки).

Онлайн-часть — это контролируемый анализ на реальном живом трафике. Такие онлайн-оценки помогают выявлять регрессии, например, когда результат работы агента выглядит правильным для проверяющего, но воспринимается хуже самим разработчиком, использующим продукт.

Онлайн-оценка позволяет измерить, действительно ли улучшения помогают разработчикам на практике. Cursor отслеживают набор высокоуровневых прокси-метрик (косвенных показателей) результативности агента на основе действий пользователя.

Онлайн и офлайн бенчмарк очень скоррелированы и имеют одинаковое ранжирование моделей (третья картинка) — в топе GPT-5.4, чуть ниже Opus 4.6 на уровне с GPT-5.2, а собственная модель компании Composer 1.5 обходит Sonnet 4.5 (при том что она гораздо быстрее за счёт инференса на чипах Cerebras).

Приятно удивлён, что пользователи Cursor так высоко оценивают модели OpenAI — но ещё здорово и то, что они требуют меньше токенов для решения задач.

Задачи CursorBench решаются в рамках одной сессии, но компания ожидает, что в течение следующего года подавляющее большинство задач по разработке будет передано агентам с длинным горизонтом планирования, работающим на своих собственных мощностях где-то в облаке — и бенчмарк придётся адаптировать к этому.

Читать полностью…

Сиолошная

Помните несостоявшуюся рекламу наушников от OpenAI? Которая вроде как и не их, но с высоким уровнем продакшена, и за продвижение которой кто-то даже заплатил?

Наушники "случайно" засветились снова — на CDO (Chief Design Officer) America (да, Америки) и со-основателе AirBnb Joe Gebbia, который сидел пил кофе где-то в Сан-Франциско.

После этого я на ~85% уверен, что это действительно девайс OpenAI и что они выбрали такую тактику продвижения, чтобы люди обсуждали.

Читать полностью…

Сиолошная

Мы победили. Не будет дата-центра. И им придётся построить парк.

— 200 тысяч лайков за чуть более чем сутки.

Интересно почему же ДЦ хотят строить на орбите 🤔

Комментарий из твиттера:
200 тысяч лайков за радость от блокировки вычислительной инфраструктуры прямо во время гонки за AGI.

Ни один парк в истории человечества не будет иметь значения, если вы проиграете следующие 1000 лет цивилизационного развития стране, которая создаст его первой.

Кстати, именно так и выглядит упадок.
Вам даже не нужны войны — достаточно лишь людей, которые ликуют, разрушая и фундамент, и будущее своей собственной культуры (и при этом чувствуют свою абсолютную моральную правоту).

Читать полностью…

Сиолошная

Grok 4.20, обещаемый Elon Musk с августа прошлого года, появился в бете на https://grok.com/ .

При обработке вашего запроса используется до 4 агентов, которые общаются между собой; одному из них назначается роль лидера.

Думаю, что с точки зрения качества эти агенты не должны существенно накидывать по отношению к одной длинной цепочке рассуждений, но могут потенциально уменьшать время до получения ответа за счёт параллельных рассуждений и поиска.

Читать полностью…

Сиолошная

Так совпало, что и я на макбуке долго не обновлял операционную систему, и на андроид новый клиент телеграма не приходит. И вот на позапрошлой неделе обновились оба.

Теперь полностью могу прочувствовать это:

Читать полностью…

Сиолошная

Интересный факт. Суммарные капитальные расходы Амазон, Гугл и Мета на 2026 год - около $500 млрд. С Майкрософтом - порядка $650 млрд. И это не прогнозы аналитиков, а цифры с последних отчетов компаний.

Для масштаба. Это 2/3 военного бюджета США, а весь военный бюджет Китая в 2025 - $249 млрд официально (реально ближе к $295 млрд). Три техкомпании потратят на инфраструктуру вдвое больше, чем вторая военная держава мира тратит на всю армию.

Все страны НАТО, исключая США, потратят на оборону около $607 млрд в 2025. Четверка техгигантов по расходам сопоставима со всем европейским военным блоком.

Причем у НАТО эти $607 млрд размазаны по 31 стране на зарплаты, технику, операции, базы. У техкомпаний основная часть идет в одну точку - чипы, дата-центры, электричество. Такой концентрации ресурсов в частном секторе не было никогда.

Год назад $250 млрд совокупных расходов казались ненормальными (ну как минимум мне). В 2025 стало $410 млрд. На 2026 - $650 млрд, плюс 60% за год. При этом CEO Гугла на звонке с инвесторами спросили "что не дает вам спать" - вычислительные мощности. Им мало.

Одни уже покупают электричество у ядерных реакторов. Другие скупают участки рядом с электростанциями. Война за чипы, энергию и землю под дата-центры - это не сценарий из киберпанка. Это банально текущие фин отчеты.

Читать полностью…

Сиолошная

https://www.youtube.com/watch?v=n1E9IZfvGMA

Читать полностью…
Subscribe to a channel