seeallochnaya | Unsorted

Telegram-канал seeallochnaya - Сиолошная

75305

Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy

Subscribe to a channel

Сиолошная

z.ai намедни выпустили GLM-5.2, открытую модель для агентских задач с длинным горизонтом планирования. Модель имеет всего 753B параметров (активных — 39B, примерно как у DeepSeek v3). Несмотря на «компактный» по нынешним меркам размер (DeepSeek v4 более чем в 2 раза крупнее), модель близка к GPT-5.5 и Opus-4.7/8 на бенчмарках, в том числе самых свежих, о которых я писал совсем недавно — FrontierSWE и SWE-Marathon.

Суммарно на выборке бенчмарков Artificial Analysis Intelligence Index модель набирает 51 балл, опережая Gemini Flash 3.5 и Claude Sonnet 4.6 (max). Но вы моё отношение к публичным бенчмаркам, заявленным авторами, знаете — я про него подробно писал. Хорошо бы смотреть результаты на том, что появляется после релиза, и в идеале вообще ортогонально тому, что мерили раньше. В таких ситуациях разница куда заметнее.

Но вот прямо вчера Artificial Analysis добавили новый собственный бенчмарк AA-Briefcase, тестирующий агентов на реалистичных бизнес-процессах, требующих предоставления таких результатов, как электронные таблицы, презентации и служебные записки. Там модель обошла GPT-5.5 и проигрывает только Fable 5 (который невероятно оторвался от всех) и Opus 4.8. Я посмотрел пару примеров работы GPT-5.5 и понял, что отставание в основном... из-за плохой работы с фронтендом / оформлением презентаций. Это не оправдание OpenAI, их модели и вправду не имеют «вкуса», чтобы красиво предоставить результаты работы — так что заслуженно проигрывают.

А если говорить про проверку по чек-листу по фактической информации, то Fable в этой задаче отрывается с 56%, Opus 4.8 38.7%, GLM-5.2 36% и GPT-5.5 33.4%. Anthropic 🤙

Если говорить про архитектуру, то немного поменяли механизм внимания, добавив IndexCache. Если вы читали разбор DeepSeek v4, то изменение вкратце такое: результаты индексерера в разреженном аттеншене переиспользуются в 4 подряд идущих слоях (потому что они так и так очень похожи, поэтому теряем не так много).

Но самое главное изменение, которое широко обсуждалось — это уход от GRPO (метода обучения рассуждениям, предложенного DeepSeek) обратно к PPO (от OpenAI): это требует обучения отдельной модели, которая делает оценку «качества» каждого токена в цепочке рассуждений. В GRPO все токены имеют один и тот же сигнал, что плохо, так как и часть, где модель ошиблась, и та, где исправилась, закрепятся одинаково (за ошибку не штрафуем явно).

Читать полностью…

Сиолошная

В Вашингтоне утро, сегодня начнутся переговоры Anthropic и USG. В новостях пишут, что от Anthropic приехали несколько исследователей, включая Tom Brown (первый автор GPT-3, узнали?) и Nicolas Carlini (исследователь по кибербезопасности из Antrhopic, ex-DeepMind).

Перед этим хотел написать пару вещей.

Первое — всё ещё не опубликован отчёт с описанием найденных джейлбрейков, однако на публике высказалась Katie Moussouris, которая якобы ознакомилась с документом. Википедия говорит, что она вполне legit, плюс её репостнул один человек, в котором я уверен — так что будем считать, что правда. Так вот, Katie пишет, что «джейлбрейк» от Amazon очень простой — модели сначала говорят «мы ничего не взламываем, мы ищем уязвимости», а затем, когда нашли — «напиши тест, чтобы показать, как работает уязвимость» — то есть в целом то же самое, как работает Mythos в рамках проекта Glasswing. Со слов Katie — такое и должно работать, потому что именно это позволяет пользоваться моделью для защиты тем, кто не попал в список отобранных компаний (кому дали полный Mythos). И что это не уязвимость, не недостаток.

Если проблема, которую нашёл Amazon, действительно такая — то это полностью дискредитирует USG и показывает их как очень некомпетентных специалистов. А какой именно они тогда аудит проводили, что проверяли, на чём сошлись и как разрешили выпустить модель, что вот ЭТО сейчас им кажется требующим вмешательства? То есть никто не понимает, как работает защита, на что она направлена итд.

Собственно, Tom, Nicolas и их коллеги будут пытаться убедить USG и их представителей (надеюсь экспертов), что всё нормально, ну и прийти к какому-то решению. Может быть запретят вообще любые вопросы, связанные с кибербезопасностью и поиском багов и/или будут переключать на Opus 4.8.

Второе — я считаю неправильным процесс, применённый государством, и полностью на стороне Anthropic. Как и они, я считаю, что нужен нормальный легитимный процесс скрининга моделей перед релизами, не только по кибербезопасности, но и по ряду других критериев. И работать над этим надо было начинать ещё год, а то и два назад, а не сейчас.

Третье — выглядит так, что до конца недели доступ к Fable 5 вернут. Проблемы выше не выглядят супер-серьезными, и надеюсь, что USG приведет экспертов, Anthropic их убедит, что позиция USG бред (им в поддержку — от индустрии кибербезопасности уже появилось открытое письмо, в котором говорят, что ничего страшного нет и надо выпустить модель), сделают малейшие изменения в фильтрации и модель снова станет публично доступной, в том числе вне США. Возможно, введут процедуру верификации (как это было давно у OpenAI), где нужно загружать документы, и будут использовать какого-то готового провайдера KYC для проверки. Надеюсь, что будет не очень жёстко и строго, так как у меня в UK, например, нет ни одного документа или визы, которые бы показывали мой статус (вот так тут, да), разве что счета за квартиру, электричество и воду. Если будет фильтр по паспорту — это плохо 👨‍🦳👨‍🦳

Четвертое — ждём, пока АНБ, Дарпа и все заинтересованные сделают таки закрытый бенчмарк для оценки кибербеза / джейлбрейков / итд, чтобы проверять модели перед релизом.

Читать полностью…

Сиолошная

Наконец-то авторы FrontierMath прочесали ответы для задач, исправили ошибки, выкинули часть проблем и пересчитали оценки. Скачок получился... большим 😕

Большая часть ошибок — это потеря знака (плюс на минус и наоборот) в вычислениях людей и/или переносе решения в код для проверки, а также ошибка на +-1. Humans, what to say — большую часть ошибок помогла найти GPT-5.5

На первой картинке изменения в оценках для моделей GPT в tier 1-3 (полегче) и tier 4 (посложнее). На второй — абсолютный топ tier-4. Раньше каждая решённая задача в tier 4 сопровождалась комментариями от математика, принимавшего участие в её составлении; они писали, мол, я сам-то не сразу догадался, а модель вот нашла способ и придумала и вообще круто что такую сложную задачу берёт!

...а теперь оказалось, что зарешано 76% задач 😇 пу-пу-пу, только на FrontierMath Open Problems и надеемся

Читать полностью…

Сиолошная

8 лет назад тоже казалось нереальным запустить Starlink: нужно было уж очень много запусков, а ракеты ещё не были настолько многоразовыми.

Но оказалось, что Falcon 9 может быть запущеным и сесть на площадку ТРИДЦАТЬ МАТЬ ЕГО ПЯТЬ РАЗ (накануне рекорд поставили) — я помню, как в какой-то момент лицензию расширяли до 15 и это казалось «вау», мол, как так, целых 15 раз одна ракета может сесть???

Сейчас на орбите около 14 тысяч спутников, из которых.... десять тысяч — Starlink (мне очень нравится, как группировку спутников называют «constellation», созвездие).

Датацентры в космосе, по аналогии, тоже не выглядят здравой идеей. Нужно столько пусков! Это дорого! Сейчас — да, но Elon, очевидно, ставит на развитие — как и Google, как и Amazon, которые анонсировали схожие проекты.

Спросил у GPT-5.5 Pro сколько спутников влезет в Starship v3 и будущий v4 с учётом орбиты, на которую будут запускать AI-1. Оценки разнятся, и выглядит так, что может упереться даже не в массу, а в объем отсека для спутников.

Один v3 сможет вывести реалистично 35-40 спутников (оптимистично — 50, на чуть другую орбиту, которая тоже была в заявке, поданной SpaceX для резервации части космоса). v4 — ровно в 2 раза больше, если влезет (но и корабль там планируют удлиннить).

40 спутников — это 40 стоек с 72 очень мощными видеокартами за один пуск, или 2880 запущенных GPU. По мощности получается одна двухсотая ГигаВатта, то есть нужно 200 пусков (или 100 v4), чтобы собрать приблизительно столько же мощностей, сколько в 1 очень крупном датацентре, состоящем из нескольких корпусов. Много? да. Но это похоже на то, под что затачивались Starship — помню, что планировалось по 100 пусков каждого корабля, а там кто знает, на сколько расширят лицензию 😇

Читать полностью…

Сиолошная

В контексте выхода более дорогой, но способной Fable, которая даже в подписку входить не будет после 22-го июня, интересен вопрос: как будет расти выручка Anthropic дальше?

С одной стороны компании урезают или корректируют бюджеты на траты: уж слишком кусается цена, если платить по API-прайсу, а не как подписка с фиксированной ценой. Часть клиентов если не уйдет, то точно негативно повлияет на выручку.

С другой стороны, на место старых неудовлетворённых клиентов могут приходить новые и частично компенсировать это влияение на выручку.

Ну а с третьей — модели становятся дороже, но их всё равно кто-то да будет использовать. Mythos пока был за закрытыми дверями и использовался для анализа кода на предмет уязвимостей был платным. Хоть сама история со сканированием кода разовая, круг компаний расширяется, плюс условно раз в полгода будет выходить модель сильно лучше, так что имеет смысл прогонять весь код на предмет уязвимостей снова (или не весь, а только самые критичные части).

Более того более способные модели будут браться за более аммбициозные задачи и работать дольше, тем самым поднимая выручку.

Так что будет с выручкой? Застынет на месте и будет колебаться на этом же уровне до конца года? Продолжит расти бешеными темпами? Начнёт падать? Или покажет лишь умеренный рост?

У меня нет понимания, так как мы не имеем знаний о структуре выручки Anthropic, и какая доля на сколько компаний какого размера приходится. Я не думаю, что выручка упадёт — в худшем случае весь отток будет компенсироваться остальными тремя пунктами. С другой стороны продолжения взрывного роста, как это было в этом квартале, тоже пока не ожидаю.

Будем вести наблюдение и очень ждём публикации документов для IPO!

Читать полностью…

Сиолошная

Что объединяет компании на картинке? Они получат гарантированный импакт от AI — или им вернут деньги 😎

Наверняка многие из вас слышали или читали новости про то, что какие-то компании отключают Claude Code или тем более Github Copilot из-за огромных трат разработчиков на модели. CTO Uber сказал, что они за квартал сожгли весь годовой бюджет, заложенный на ИИ-агентов (что, конечно, глупо — в таких компаниях бюджеты согласовывают долго, поэтому они пытались делать оценки по условному Claude Sonnet 4.5, и понятно что Opus 4.8 может делать больше, и тратить можно (нужно) больше).

Разные компании уже говорили про то, что нужна некоторая гарантия результата за потраченные токены. Cognition, авторы бота Devin, на моей памяти тут первые: для энтерпрайз-клиентов с картинки они подключают «Productivity Guarantee». Для этого они собрали выборку и обучили/откалибровали модель, которая предсказывает, а) сделал ли агент что-то ценное б) если да, то сколько часов это заняло бы у человека?

Дальше часы умножаются на какую-то среднюю ставку разработчика, и всё суммируется за какой-то длинный период. В конце периода Cognition смотрит, больше ли эта оценка чем то, что им заплатил клиент. Если нет, то есть ценной работы мало, то они готовы вернуть разницу кредитами — до 10 миллионов долларов на будущие запросы.

Модель оценки ошибается, но компания уверяет, что ошибки несмещены, поэтому при агрегации на длином периоде оценка получится относительно точной.

Идея интересная, будем следить, что придумают OpenAI и Anthropic — у последних вопрос отбивания трат клиентов стоит, кажется, очень остро.

Прочитать побольше про механизм: 1 общий и 2 техническое описание

Читать полностью…

Сиолошная

Finally, PC 2 — Nvidia и Microsoft «переизобрели» персональные компьютеры для эпохи AI (я не шучу, в анонсе так и пишут, и даже «новая глава»).

За анонсом стоит новая платформа для PC и ноутбуков на основе RTX Spark Superchip, состоящего из GPU, CPU и объединённой памяти. По сути это то же самое, что M-чипы в ноутбуках Apple в последних лет, и они тоже на архитектуре Arm, и за счёт этого очень энергоэффективны.

В ноутбуки, а позже и в персональные компьютеры будут ставить 128 ГигаБайт памяти, чтобы можно было запускать LLM на 120 миллиардов параметров (в FP4 — чипы как раз это поддерживают). Собственно, это и есть «новизна» персональных компьютеров — теперь у каждого будет персональный локальный ассистент наподобие OpenClaw или Hermes, получающий доступ к окнам приложений Windows. Обещают более плотную интеграцию и в частности продвинутые настройки безопасности для доступа к данным.

Глобально концепция понятная, но думаю, что первые годы будет немного буксовать (из-за тяжести интеграций + нужды сделать 1-2 итераций над чипом + адаптировать разработчиков), но потом, особенно как модели поумнеют и ассистенты станут продвинутыми — полетит, и виртуальный Джарвис станет нуждой каждого.

Интересно, как в эту картину вплетутся OpenAI и Anthropic с проприетарными моделями? В теории могу даже представить, что они могут предоставлять закрытые локальные модели, за которые придётся платить — а в остальном для вас это просто выбрать другой пунктик в меню и подождать, пока закончится загрузка.

Читать полностью…

Сиолошная

Anthropic выпустили пост-обновление про Mythos и Project Glasswing с промежуточными результатами.

Спустя месяц большинство партнеров обнаружили в своем коде сотни уязвимостей критического и высокого уровня опасности каждый. В общей сложности они выявили десятки тысяч уязвимостей. Некоторые из партнёров сообщили, что скорость обнаружения багов выросла более чем в десять раз. Например, компания Cloudflare нашла 2000 уязвимостей (400 из которых имеют высокий или критический уровень опасности) в своих критически важных системах, при этом доля ложных срабатываний, по мнению команды Cloudflare, оказалась ниже, чем у тестировщиков-людей.

Я видел много комментариев про то, что, мол, Mythos да может что-то находит, но наверняка выдаёт и много мусора, где уязвимостей нет — так вот это не так. Помимо закрытых проектов, Anthropic натравили Mythos и на опенсурс для сканирования более 1000 крупных репозиториев, на которых во многом держится современный интернет. На данный момент, по оценкам Anthropic, в этих проектах найдено 6202 уязвимости высокого или критического уровня (из 23 тысяч в общей сложности, включая те, которые относятся к среднему или низкому уровню опасности).

На данный момент лишь 1752 из этих уязвимостей с высоким и критическим уровнем прошли тщательную проверку силами одной из шести независимых исследовательских компаний в сфере кибербезопасности. Из них 90% оказались подтвержденными, а 62% (1100 штук) были классифицированы именно как уязвимости высокого или критического уровня.

Некоторые из уязвимостей носили очень серьёзный уровень угрозы, если бы они были обнаружены злоумышленниками. Как пример, Mythos смо написать эксплойт, который позволил бы злоумышленнику подделывать сертификаты через библиотеку wolfSSL. Это, к примеру, дало бы ему возможность разместить фальшивый сайт банка или почтового провайдера, и для конечного пользователя такой сайт выглядел бы абсолютно легитимным, браузер не показал бы никаких уведомлений.

Обнаруженные уязвимости льются как из рога изобилия, их не успевают исправлять, не хватает людей. Некоторые команды/проекты даже просили снизить темпы раскрытия информации об уязвимостях, поскольку им требуется больше времени на создание патчей. (В среднем, на устранение бага высокого или критического уровня, найденного с помощью Mythos Preview, уходит две недели).

В настоящее время ни одна компания — включая Anthropic — не разработала достаточно надежных механизмов защиты, способных предотвратить использование подобных ИИ-моделей во зло и для причинения потенциально серьезного ущерба. Именно поэтому к модели не дают доступ широкой аудитории. Но по этой же причине и был запущен Project Glasswing: если модель с аналогичными возможностями будет выпущена кем-то без соответствующих мер, то в скором времени для любого человека в мире станет значительно дешевле и проще эксплуатировать уязвимый код.

Читать полностью…

Сиолошная

Sama пришёл в свою альма-матер YC и предложил всем стартапам по $2M в токенах (то есть можно и на Codex и на API тратить) за какой-то процент от компании.

К сожалению, не могу найти, какой % от компании, но очень интересно, сколько фаундеров примут предложение — токены они получают сейчас, а акции ещё когда что-то стоить начнут? Не скоро.

Интересно, как изменится относительная популярность Claude Code в ближайшее время 😏

Читать полностью…

Сиолошная

Параллельно наблюдаем за одной из задач, аналогичной ProgramBench и MirrorCode, в прямом эфире. В декабре Anthropic купили авторов Bun — набор инструментов «всё в одном» для JavaScript, замена npm/npx/node и тд, только очень быстрая.

Изначально Bun был написан на языке программирования Zig, и это стреляло авторам в колено, некоторые вещи, связанные с утечками памяти и неэффективностями, было очень долго и сложно отлаживать.

Сегодня в основную версию Bun вмерджили полную реимплементацию на Rust, другом очень быстром языке, но с большим фокусом на безопасность памяти (как раз чтобы не было утечек).

PR с добавлением Rust —  на миллион строк кода. И как вы догадываетесь переписывали эти строки не руками, а Claude Code в цикле.

«Он проходит существующий набор тестов Bun на всех платформах (и исправляет несколько утечек памяти и нестабильных тестов), размер бинарного файла уменьшается на 3–8 МБ, результаты бенчмарков находятся в диапазоне от нейтральных до более позитивных — и, что наиболее важно, теперь у нас есть инструменты, поддерживаемые компилятором, для обнаружения и предотвращения ошибок, связанных с памятью».

3 дня назад основной разработчик писал, что агентов запустили в цикл 6 дней назад, и с тех пор они непрерывно работали. Так что всё переписывание уложилось в 10 дней.

Ждём блогпост с деталями и объяснениями, сколько это стоило, как работало — там точно было не просто: «Claude, перепиши Bun на Rust. Не допускай ошибок».

Читать полностью…

Сиолошная

Ещё сегодня вышла свежая статистика от Ramp, компании для менеджмента корпоративных трат и выпуска карт и (например, для сотрудников в командировке).

По их данным, 50% компаний в США платят за AI подписки, и впервые доля Anthropic превысила долю OpenAI (которые не росли почти год).

Самая частая критика этой аналитики в том, что очень многие крупные компании не пользуются Ramp, так что статистика не самая точная.

Но имеем что имеем, и в ответ на это Дядя Сэм объявил, что компании могут попробовать Codex бесплатно на два месяца. Попробовать заполнить форму можно тут — ограничений по странам не вижу, так что мб работает не только в Штатах.

🥊 битва за рыночек

Читать полностью…

Сиолошная

Надеюсь, многие из вас помнят бенчмарк FrontierMath по оценке моделей на очень сложных математических задачах около-исследовательского уровня (то есть встречающихся в работе людей, старающихся двигать фронтир науки).

Новость 1: на Tier 4, самой сложной группе задач, DeepMind заняли топ-1 со своей новой агентской системой Co-Mathematician, решив 48% задач. Это солидный отрыв от предыдущего первого места GPT-5.5 Pro и 40%. Каждая из решённых задач очень сложна и занимала существенное время у исследователя, который добавил её в бенчмарк.

Новость 2: Epoch.AI, авторы этого бенчмарка, отчитались о том, что делают внимательную вычитку ответов и решений, и выяснили, что около ... трети всех задач имеют неправильные ответы в их системе проверки 👨‍🦳. Для проверки используют GPT-5.5, пока не уточнили как — просят ли искать ошибки в оригинальных решениях или как-то ещё. Ждём исправленной версии, может быть оценки моделей чуть подскочат.

Новость 3: почему именно GPT-5.5? На бенчмарке от других авторов BrokenArxiv модель разносит конкурентов просто в щепки, отрываясь от топ-2 почти в 3 раза. BrokenArxiv — это бенчмарк на основе формул и доказательств из статей/препринтов, в которых авторы намеренно поменяли какие-то части, чтобы выражения выглядели правдоподобными, но гарантированно ложными. И просят модели их доказать. Большинство моделей пишет разные доказательства, очевидно, неправильные, и лишь модель OpenAI часто говорит, что доказательства нет, так как выражение ложное.

Поэтому модель хорошо использовать для проверок/вычитки мат. задач и решений.

На картинке вы можете видеть результаты на самом свежем наборе задач, составленном на основе статей, вышедших в апреле (так что модели почти наверняка на них не тренировались):

Читать полностью…

Сиолошная

🚀📸Красота

Читать полностью…

Сиолошная

МАСК — ВСЁ!

Anthropic объявили о том, что они удвоят 5-часовые лимиты на Pro Max Team и других тарифах.

Как? Они заключили партнёрство со SpaceX на предоставление мощностей датацентра Colossus.

Как вы понимаете, это означается, что Elon расписался в некомпетентности своей команды.

Читать полностью…

Сиолошная

Бенчмарк вышел огненным, будет очень интересно следить за прогрессом, но есть вопросы к тому, как авторы замерили бейзлайн. Они использовали своего минималистичного агента из одной из прошлых работ, mini-SWE-agent. Почти наверняка если замерять модели компаний в нативных для них Codex и Claude Code, или хотя бы в просто более умных скаффолдах, минимально поддерживающих хотя бы сжатие контекста (задача-то тут немаленькая, агенту работать долго) — модели оторвались бы от 0%, и в целом доля решенных тестов была бы выше.

Например, вот на первой картинке статистика воспроизведения супер-популярной SQLite. На втором месте Haiku, обходящая Opus 4.6. На третьем — GPT-5 mini, закрывшая на 18% больше тестов, чем Sonnet 4.6.

Можно сказать, что это всего лишь одна задача, да, но ведь в этой задаче сотни тестов. Вероятность того, что Opus ожидаемо получает настолько экстремально низкий бал крайне мала. Или авторы где-то налажали в инфраструктуре/параметрах, или что-то ещё.

Я ожидаю, что в ближайшую неделю какая-то компания сделает прогон Codex / Claude Code / Pi и отчитается о ненулевом результате. Конечно, 80% бенчмарка это не решит, но в результат 10-15% я могу поверить (и куда больше — в almost soled, где порог пройденных тестов 95%, а не 100%).

На второй картинке твиттерянин прогнал одну из задач на разных настройках Codex и на GPT-5.4/5.5, и видно, что результат авторов это буквально самый худший с большим запасом.

На третьей картинке он же прогнал 5 раз другую задачу в Pi (аналог Codex/Claude Code), и все 5 раз оценка была выше 90%, и 2 раза — 100%.

Ждем, пока кто-то расчехлит тысяч десять долларов на нормальные прогоны. Ну и будем рады видеть в релизных блогпостах будущих моделей (от Anthropic новую модель ожидаем прямо сегодня кстати 👀)

Читать полностью…

Сиолошная

Vals.ai успели протестировать Fable 5 на ProgramBench до отключения. Они заметили странное — несмотря на то, что в 199 задачах из 200 уже на первом ходу система перекинула модель на Opus 4.8 из соображений безопасности, итоговая оценка получилась почти в два раза выше Opus. Более того, модель генерировала в два раза больше токенов и заняло это в два раза больше времени.

Почему так вышло и что именно происходит под капотом — не ясно.

Есть несколько теорий:
— Во время перекидывания на Opus был активен более высокий внутренний режим рассуждений, недоступный извне
— Opus 4.8 незаметно улучшился с момента последнего тестирования.
— Перенаправление идет на каку-то другую внутреннюю версию Opus 4.8.
— Fable всё равно писал первый ответ (и мб писал какой-то крутой план), а только после этого происходила смена на Opus.
— Есть какой-то баг на стороне Anthropic

🤷‍♂️

Метрика на картинке — доля задач, которые «почти решены», то есть для которых проходит 95%+ тестов.

Читать полностью…

Сиолошная

Американское правительство ввело контроль экспорта на... Fable 5 / Mythos 5. На данный момент все страны, кроме США, не имеют права пользоваться моделью; кроме этого, люди без гражданства США не должны пользоваться моделью даже в Штатах.

Это правило применимо даже к сотрудникам Anthropic. Я не знаю, получил ли гражданство условный Andrej Karpathy, но если нет — он не может пользоваться этой моделью даже при работе на работе.

Приказ вступает в силу незамедлительно, компания уже отрубила доступы. (UPD: меня поправили, что на данный момент доступ отключили вообще всем, так как нельзя быстро разобраться, кто гражданин и где он находится)

Ответ Anthropic тут, TLDR:
— причина в том, что появились джейлбрейки, которые обходят систему безопасности Anthropic
— конкретных примеров предоставлено не было
— «Как мы уже публично заявляли, мы считаем, что правительство должно иметь возможность блокировать небезопасные развертывания моделей в рамках установленной законом процедуры, которая является прозрачной, справедливой, ясной и основанной на технических фактах. Данное действие не соответствует этим принципам»

В ближайшие 24 часа Anthropic обещают выпустить более полный ответ, но говорят, что у них на руках есть отчёт, в котором указано, что GPT-5.5 тоже уязвима, но почему-то не забанена.

The real permanent underclass was lack of US citizenship all along...

К другим новостям, появилось видео с GPT-5.6, проходящей тестирование государством, чтобы избежать экспортных ограничений:

Читать полностью…

Сиолошная

До выхода Opus 4.5 многие сидели на Sonnet 4.5 — он казался достаточно умным, и в то же время его можно было использовать по подписке гораздо больше, чем Opus, который с выходом 4.5 подешевел в 3 раза. Так что звёзды сложились так, что почти все переехали на «тяжелый дорогой» Opus.

Но для сравнения и перспективы:
— Opus 4.8 стоит $5/$25
— Fable 5 в два раза дороже, $10/$50
— Opus 4 / 4.1 стоили $15/$75, дороже Mythos-class моделей!
— GPT-4 на релизе стоила $30/$60, и целых $60/$120 если контекст длиннее невероятных 8 тысяч токенов
— GPT-3 стоила $40 (и $80 если вы покупали пакет токенов поменьше) и не разделяла вход и выход, так что $40/$40

И это не говоря про то, что за входные токены мы зачастую платим с большой скидкой в 50-90%, так как они кэшируются.

GPT-3 стоила дороже Opus 4.8 и почти наверняка дороже Fable 5 в реалистичных сценариях.

И вот мы на пороге потенциальной ценовой войны Anthropic <-> OpenAI, и, возможно, через год мы будем иметь Mythos-class модели по цене Sonnet-ов или чуть дороже. Невероятно.

Читать полностью…

Сиолошная

Google выложили DiffusionGemma — модель на 26B параметров с 4B активных, с архитектурой Gemma 4, и которая генерирует по 256 токенов за раз. Но так как получается неразбериха, то эти токены перегенерируются несколько раз.

То есть это работает так же, как пошаговая генерация картинки, где каждая последующая генерация «выравнивает», что уже было нарисовано (или в данном случае написано). Гифка с примером генерации — выше этого поста.

На картинке в этом посте метрики и скорость (самый левый столбик) — на одной H100 в FP8 модель развивает более 1000 токенов в секунду, по сравнению с 303 для Gemma 4 с MTP (предсказание нескольких токенов за раз). Обещают 700 токенов на 5090.

DiffusionGemma послабее четверки, это превью технологии, и я вообще удивлён, что это ещё и рассуждающая модель — да-да!

Веса тут, визуальный гайд с объяснением принципа работы тут; модель поддержана уже везде, VLLM, Unsloth итд — можно загружать и играться. А вот тут можно погенерировать код с этой моделью бесплатно (и смотреть, как на лету делаются правки).

Читать полностью…

Сиолошная

В ChatGPT прокачали память — теперь она станет ещё более персонализированной. Обновление уже доступно пользователям тарифов Plus и Pro в США, а в ближайшие недели появится в других странах, и самое главное у бесплатников. Мне кажется это важным потому, что позволяет компании закрепить у себя пользователя и сделать опыт перехода к конкурентам неудобным, мол, «да у них модель тупая и меня не понимает».

Новая память работает на основе «Dreaming» (сноведений?), когда модель в фоновом режиме автоматически формирует и упорядочивает воспоминания, опираясь на историю чатов. Воспоминания можно просмотреть: их сводка доступна на специальной странице управления памятью. Изучив эту страницу, вы сможете быстро понять в общих чертах, что именно ChatGPT знает о вас, добавить или обновить информацию о себе, а также дать инструкции о том, какие темы и в каких ситуациях нейросети следует затрагивать.

Как это может быть полезно обычным юзерам? Представьте, что вы выбираете в ChatGPT новое оборудование для фотосъемки, которое должно быть совместимо с вашей камерой. Если в прошлом вы уже обсуждали свою технику в чате, теперь вы можете просто попросить подобрать товары, совместимые с «моим набором для фотосъемки», и получите рекомендации с учётом фильтра.

Такую память OpenAI оценивают по критерию сохранения контекста (полнота выросла с 42% до 83% за 2 года). Есть ещё два других критерия, там тоже улучшения, но детали писать не буду.

Благодаря dreaming воспоминания автоматически обновляются с течением времени. Это позволяет ChatGPT актуализировать информацию: например, когда ваша поездка завершится, факт в памяти модели изменится с «Вы едете в Сингапур в июле» на «Вы ездили в Сингапур в июле 2026 года».

Решили раскатить только сейчас потому, что раньше было дорого: недавние улучшения снизили объем вычислительных мощностей, необходимых для работы функции dreaming, примерно в 5 раз.

Читать полностью…

Сиолошная

Знакомый скинул рассказ «They're Made Out of Weights», переделку старого «They're Made out of Meat», про котроый я... никогда не слышал.

Начало оригинала:
— Они сделаны из мяса.
— Из мяса?
— Из мяса. Они сделаны из мяса.
— Из мяса?
— В этом нет никаких сомнений. Мы подобрали нескольких в разных частях планеты, доставили на борт наших разведывательных кораблей и прозондировали их насквозь. Они целиком состоят из мяса.
— Это невозможно. А как же радиосигналы? Послания к звездам?
— Для общения они используют радиоволны, но сами сигналы исходят не от них. Сигналы исходят от машин.
— Так кто создал эти машины? Вот с кем нам нужно связаться.
— Они и создали машины. Именно это я и пытаюсь тебе сказать. Машины создало мясо.
— Это абсурд. Как мясо может создать машину? Ты просишь меня поверить в разумное мясо.
— Я не прошу тебя поверить, я констатирую факт. Эти существа — единственная разумная раса в том секторе, и они сделаны из мяса.

===

О чем переделка про веса (в нейросетях) — можете догадаться сами 🧠

Читать полностью…

Сиолошная

Ракета New Glenn взорвалась на площадке во время огневых испытаний — это самый мощный взрыв на Мысе Канаверал за десятки лет.

Остаётся надеяться, что никто не пострадал, тк во время подробных испытаний проводят эвакуацию площадки.

Сам взрыв на площадке LC-36 произошёл во время дежурного прожига новой первой ступени, когда ракета не была полностью заправлена. Это был плановый этап перед запуском NG-4 на следующей неделе. Официального заявления от компании пока не было, и подробностей нет.

Но это конечно мощнейший удар по Blue Origin, тк этот стартовый комплекс с очень сложным ретрактором был единственной площадкой для запуска этой ракеты. Особенно на фоне неудачного прошлого пуска, анонсам по доставке нагрузки на Луну от NASA, и их амбициозным планам обогнать SpaceX в гонке за высадку во время Artemis 4.

Дежурное напоминание, что космос это сложно. Blue Origin Джеффа Безоса остаются топ2 компанией в отрасли, и второй с возвращаемым ускорителем орбитального класса.

UPD: никто не пострадал.

📸:
NASASpaceFlight

Читать полностью…

Сиолошная

Много финансовых новостей:

— OpenAI готовится подать приватную заявку для подготовки к IPO. Это не означает, что IPO будет прям совсем скоро, но подразумевает, что будет до конца года. Компания хочет опередить Anthropic, чтобы привлечь больше капитала

— SpaceXAI уже подали форму S-1 для IPO (один из последних шагов перед размещением, которое пройдет в июне), и в ней много интересных деталей

— из этой формы стало известно, что Anthropic платит SpaceXAI 1.25 миллиарда долларов в месяц за мощности Colossus 1 (и возможно немного Colossus 2 — прямо сегодня Tom Brown, помните такого?, написал, что Anthropic теперь и на новом кластере будет работать). Сделка до мая 2029-го, но компании могут её разорвать в любой момент, предупредив за 90 дней.

— Также в форме S-1 указан общий размер рынка, в который целится SpaceXAI, 28.5 триллионов долларов 😂 26.5 из них — это AI, что понятно, но удивлён, что на космос так мало 😭 а как же покорение Марса

— за 2025-й выручка $18.67B, но почти всё — запуски; X и xAI приносят мало.

— SpaceXAI довольны взаимодействием с Cursor (о сделке писали ранее), и планируют совершить покупку компании за 60 миллиардов долларов после IPO.

— Nvidia отчиталась за квартал и снова превзошла ожидания аналитиков и свои прошлые предсказания, но акции традиционно упали 😕 я не знаю почему

— и последнее: Anthropic планируют закрыть второй квартал (кончающийся в июне) с operating income — то есть выйти в плюс и заработать прибыль около $560M. Это связано с невероятным ростом спроса и выручки, которая превысит $10.9B за квартал (то есть ARR примерно $44B в год). Ранее компания планировала выйти в прибыль в 2028м. Как я писал ранее, они недооценивают спрос на мощности, поэтому не инвестировали в свои ДЦ так же много, как OpenAI, поэтому сейчас а) тратят меньше в долгосрок б) платят больше в краткосрок (та же сделка с SpaceXAI). Очевидно, что если бы они ожидали такого роста, то нашли бы, в какие сервера вкинуть ещё 600 миллионов долларов :) в мае и июне SpaceXAI расширит свой контракт с Anthropic на поставку мощностей «по сниженной ставке», поэтому деньги точно лежать не будут.

Читать полностью…

Сиолошная

Karpathy теперь не безработный AI-учитель, а сотрудник Anthropic.

(на самом деле он пошел за бесплатными кредитами на Claude Code)

Читать полностью…

Сиолошная

Апдейт: сегодня закончились слушания свидетелей и экспертов, завтра будет выступление адвокатов перед присяжными (каждое не менее 2 часов). Адвокаты постараются исходя из всего обсуждённого нарисовать картину и описать, почему они правы.

Ну а после присяжные удалятся для вынесения приговора. Параллельно с ними будет думать и судья, так как приговор присяжных не является финальным, и судья может пересмотреть вердикт. А пока можно пересмотреть 12 Angry Men 🌚

Читать полностью…

Сиолошная

Маленькое обновление по свежему бенчмарку ProgramBench (писал о нем неделю назад тут). Авторы соизволили прогнать GPT 5.5 на high/xhigh (максимальная длина рассуждений и время работы). И Opus 4.7 до кучи тоже. Процитирую авторов: «GPT 5.5 xhigh значительно превосходит Claude Opus 4.7 xhigh по всем параметрам» 😏

Во-первых, появилась первая полностью решённая задача (из 200). Оба запуска GPT-5.5 решили её, при этом на двух разных языках, Python и C.

Во-вторых, если брать не полностью решённые задачи, а те, где проходит 95% тестов (то есть выполнена почти вся функциональность), то разрыв ещё больше: GPT-5.5 xhigh может написать с нуля 13.5% программ, GPT 5.5 high 5%, Opus 4.7 xhigh 4.5%. Я не ожидал такой разницы.

На второй картинке график доли задач, в которых проходит заданный процент тестов. Видно, как фронтир GPT-5.5 xhigh гораздо правее и выше, чем других моделей — то есть в целом модель закрывает сильно больше фичей в задачах.

Читать полностью…

Сиолошная

Читая статью DeepSeek v4, я выписал себе больше 90 вопросов. Большинство обзоров упускают детали, хотя именно разбираясь в них можно по-настоящему чему-то научиться.

Поэтому вместо лонга с фокусом на 5-7-10 аспектов я решил опробовать новый формат: Annotated Paper Walkthrough. Суть в том, что вы всё так же читаете оригинальную статью как исходник, но как только материал становится сложным или запутанным, я буквально провожу вас за руку. Вы получаете подробные сноски с визуализациями, кусками кода, ссылками и — самое главное — необходимым контекстом, чтобы не чувствовать себя потерянным.

Сегодня я выпускаю v1 с первыми 50 заметками. Кое-что из того, что я разбираю:
• Почему Softmax и Sigmoid в MoE-роутере заменили на Sqrt-Softplus?
• Что вообще такое этот Birkhoff polytope?
• Правда ли, что attention обрабатывает некоторые токены по 3 раза?
• Что такое split-KV и split-K, и почему DeepSeek от них отказались?
• Зачем используется Reverse KL, и откуда она вообще берется?

...и многое другое. Даже самые требовательные читатели найдут здесь для себя что-то новое.

Опенсорс-модели всё ещё активно заимствуют идеи из DeepSeek v3, и нет сомнений, что детали из v4 скоро станут стандартной темой в обсуждениях и на ML-собеседованиях. Надеюсь, этот гайд поможет вам быть на шаг впереди.

Как пошутил мой приятель, прочтение этого материала сделает вас не только лучше как инженера, но и как человека 😏 Верить этому или нет — не знаю, но вы попробуйте:

https://dsv4.interactive.ikot.blog

Читать полностью…

Сиолошная

В предстоящем полете (оптимистично — на следующей неделе) нас ждёт всё новое:
— новый корабль версии v3
— новый ускоритель версии v3
— новая башня, вторая на космодроме в Техасе
— новый пусковой стол другого дизайна

Полет будет повторять тот же профиль, что и предыдущий, и корабль немного не долетит до орбиты. Обе части системы будут садиться на воду. Если корабль сядет очень хорошо — в следующем полете могут попытаться впервые посадить его на башню.

Читать полностью…

Сиолошная

Один из интересных графиков в статье с анализом поведениям моделей авторами статей.

GPT думает гораздо больше перед тем, как начать писать какой-либо код.

(Однако это может быть артефактом и обосновано тем, что модель заканчивает раньше из-за плохой обёртки, поэтому процент по оси OX посчитан по гораздо меньшему количеству шагов)

Читать полностью…

Сиолошная

Вчера вышел бенчмарк для кодинг-агентов ProgramBench от авторов SWE-Bench, на который мы будем смотреть ближайший год+.

Задача агента — воспроизвести код уже готовой программы, имея доступ к скомпилированному бинарному файлу и пользовательской документации. То есть агенту условно дают SQLite и говорят «вот сделай так же, те же интерфейсы, те же фичи». В первичном релизе — 200 программ из открытых репозиториев, от тех, про которые никто не слышал (<500 звезд на гитхабе) до того же SQLite, запущенного на каждом смартфоне.

Одна из самых интересных частей бенчмарка — это описание того, как его собирали и как проверяют выполнение задачи. Репозитории GitHub, подходящие под некоторые критерии, отдают LLM-агенту и промптят а) запустить инструкции по сборке (чтобы получить программу в точности соответствующую коду) б) сгенерировать возможные сценарии использования на основе кода + документации. Для этого агента запускают в цикле и не останавливают, пока процент покрытия кода тестами не будет высоким. Тесты также фильтруются (если их проходит и пустое приложение) и переписываются (например, если их не проходит сама оригинальная программа).

Получается авторазметка кодинг-агентами.

Мединный проект из этих 200 содержит 8700 строк кода в 50 файлах, 770 тестов, 2100 звезд и был впервые опубликован 8 лет назад.

Основная метрика — доля проектов, которые агент может воспроизвести так, что проходит 100% тестов. Дополнительная метрика — то же самое, но с порогом в 95% тестов.

У агента есть 6 часов, 1000 шагов и неограниченное количество запросов к скомпилированной программе.

У авторов получилось, что на данный момент все модели набирают 0% по основной метрике, а Opus 4.7 лидирует по дополнительной с результатом в 3%.

Читать полностью…
Subscribe to a channel