seeallochnaya | Unsorted

Telegram-канал seeallochnaya - Сиолошная

56987

Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно запинено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy

Subscribe to a channel

Сиолошная

Evolving OpenAI’s Structure

Маленькое обновление в процессе смены структуры OpenAI. Лидеры компании приняли решение о сохранении контроля некоммерческой части над OpenAI (после того, как выслушали мнения общественных лидеров и провели конструктивный диалог с офисами Генеральных прокуроров двух штатов).

TLDR:
— OpenAI по-прежнему будет контролироваться текущей некоммерческой организацией. Что именно это означает — не уточняется, может быть как право вето/контрольный голос, так и увеличенный размер доли в коммерческой части.
— Уже существующая коммерческая организация станет корпорацией общественного блага (PBC, Public Benefit Corporation; такой же статус имеют X.AI и Anthropic)

В ходе корпоративных изменений некоммерческая часть организации станет крупнейшей в истории, и она сосредоточится на использовании ИИ для достижения максимально полезных результатов для всего человечества.

Чем крупнее и успешнее будет становиться коммерческая ветка, тем больше ресурсов будет у некоммерческой, всё просто (ведь она владеет существенной долей).

===

Полагаю, обновление планов свидетельствует о достижении промежуточных договорённостей с законодательной стороной (и игнорированием нелепых провокаций со стороны).

По первой ссылке из поста можно прочитать обращение CEO компании к сотрудникам с бОльшим количеством деталей.

Читать полностью…

Сиолошная

У OpenAI всё хорошо, по данным Similarweb в апреле сайт ChatGPT обошёл X (ex-Twitter) по количеству посещений, и с большим запасом: 4.786B против 4.028B.

Что интересно, график популярности по дням очень сильно зависит от дня недели — точно такой же паттерн проявляется у всех приложений, связанных с продуктивностью и работой. Что означает, что существенная часть использования ChatGPT связана с работой (и обучением), а значит имеет экономический эффект, не просто стишки да картинки генерировать.

Источник

Читать полностью…

Сиолошная

Google выкатил на весь США свой новый режим поиска «AI Mode» – это новая вкладка вроде картинок, карт, а внутри что-то вроде поиска в чатгпт или перплексити, с памятью, карточками товаров и тп, вы все это видели уже

Это гигантский шаг на встречу массовой адаптации LLM, с чем я всех нас и поздравляю

Читать полностью…

Сиолошная

Так вот, к чему этот опрос был. Как вы заметили, детальные разборы статей в последние полгода стали появляться сильно реже. Детальные — это с текстом на 3-5 постов. Писать их долго, на каждый уходит примерно по полтора-два часа: нужно прочитать источник внимательно, выписать важные части, которые нужно пересказать, потом придумать упрощение, перевести, возможно привести референсы и/или добавить связки с прошлыми исследованиями/постами итд. Времени стало поменьше -> разборов стало поменьше.

Для меня образцом были разборы, которые я читал давно, в начале карьеры, например, у @gonzo_ML или у Влада @dlinnlp (ха-ха он тоже забил что-либо писать, ВЛАД НУ КАК ТАК ТО???).

===

Я всё ещё пролистываю по 2-3 статьи в день, и составляю в голове примерно такие же краткие выжимки по 3-5 абзацев. Но я не вижу большой ценности в их публикации, так как презюмировал, что большая часть их всё равно не поймёт. Опрос это подтвердил: 46% ответили, что не поняли почти ничего, и ещё 30% — что "многие части непонятны".

А в более простых и нетехнических статьях/блогпостах всё равно без объяснений люди в большинстве случаев выносят неправильные выводы. Опускаться дальше и просто постить ссылки точно не хочется.

===

Но нужно с этим что-то делать, вернуться в темп хотя бы 1 разбора раз в 2 недели (а то и раз в неделю), а то совсем руки опустились. Попробуем мб со второй половины апреля (ещё и на англ и на сабстеке, да? 🤡)

Читать полностью…

Сиолошная

Простите что украл ваш вечер вот этим интервью: https://www.youtube.com/watch?v=htOvH12T7mU&feature=youtu.be

(и попутно ещё сайт опубликовали, как и Situational Awareness, https://ai-2027.com/)

Читать полностью…

Сиолошная

Ещё в тему прироста от reasoning'а скриншот из чата канала, где тоже можно прикинуть ожидания.

Разница между моделями Google меньше 2 месяцев. Я думаю, что большая часть прироста обоснована именно дообучением рассуждениям, а не добавкой данных или улучшением методов тренировки (хотя и они могли внести маленький вклад).

Читать полностью…

Сиолошная

Попросил Gemini 2.5 прочитать этот документ на 150 страниц (~45'000 токенов) и сделать саммари в виде последовательных шагов, а затем перевести на русский. Вот результат:

1. Возможности моделей предсказуемо и значительно улучшаются при увеличении "эффективных вычислений" (сырая вычислительная мощность, алгоритмическая эффективность, данные, системы вокруг них).
2. Такое масштабирование привело ИИ от уровня ~дошкольника (GPT-2) до уровня ~умного старшеклассника или студента первых курсов (GPT-4) всего за 4 года.
3. Продолжение этого тренда делает достижение AGI — ИИ, способного выполнять когнитивную работу уровня эксперта, например, проведение исследований в области ИИ — вероятным к 2027 году.
4. AGI вряд ли станет конечной точкой; системы AGI смогут автоматизировать сами исследования в области ИИ, вызвав рекурсивное самоулучшение или "взрыв интеллекта".
5. Этот взрыв интеллекта может сжать десятилетия алгоритмического прогресса, возможно, в один год, быстро приведя AGI к значительно превосходящему человека ИИ (Сверхинтеллекту, ASI).
6. Создание этих передовых систем требует беспрецедентной промышленной мобилизации для вычислительной инфраструктуры (GPU, энергия, дата-центры), стоимостью в триллионы долларов.
7. Это масштабное техно-капитальное строительство уже начинается, движимое ожидаемой экономической отдачей и интенсивной конкуренцией.
8. Однако текущие методы обеспечения безопасности в ведущих лабораториях ИИ совершенно недостаточны для защиты критически важных секретов (алгоритмов и весов моделей), необходимых для создания AGI.
9. Эти важные секреты могут быть легко украдены государствами-противниками, такими как Китай, что потенциально сведет на нет лидерство США/Запада в гонке за AGI.
11. Одновременно, надежное управление системами ИИ, значительно превосходящими человека по интеллекту (супералаймент), является нерешенной технической проблемой; текущие методы, вероятно, не будут масштабироваться и работать для будущих систем.
12. Неспособность решить проблему супералаймента до или во время быстрого взрыва интеллекта может привести к катастрофическим последствиям, поскольку мы будем развертывать все более мощные, плохо контролируемые и непонятные нам системы.
13. Сверхинтеллект предоставит решающее военное и экономическое преимущество, превращая гонку за AGI в геополитическое соревнование с высокими ставками, в первую очередь между США и Китаем.
14. США и их союзники должны сохранять лидерство в этой гонке, чтобы обеспечить выживание либеральной демократии и создать необходимый запас прочности для решения проблем супералаймента. Согласно автору, если авторитарная держава (например, Китай) первой достигнет ASI, она сможет навязать свои недемократические ценности всем странам, навсегда подавить свободы и исключить возможность процветания демократических систем. Лидерство США/союзников рассматривается как необходимое условие для предотвращения такого исхода, сохранения условий для свободы и плюрализма, а также для получения "запаса прочности" для безопасного решения проблемы алаймента без давления гонки "на опережение".
15. Сочетание чрезвычайной мощи, катастрофических рисков (ошибки алаймента, злоупотребление системами) и критической важности для национальной безопасности означает, что частные стартапы в одиночку не могут ответственно управлять разработкой сверхинтеллекта.
16. Поэтому правительство США неизбежно будет глубоко вовлечено, что, вероятно, приведет к созданию национальной программы по AGI ("Проекта") для управления безопасностью, рисками и геополитическими ставками, по аналогии с Манхэттенским проектом.

Читать полностью…

Сиолошная

Если вдруг пропустили стрим, то появилась его запись.

Обсуждение, как мне кажется, вышло достаточно интересным (особенно если промотать сразу минуту на пятнадцатую) — и на самом стриме зрителей было много до конца, и на записи уже много просмотров, и @itbeard успел посмотреть и высказаться (в основном, положительно).

В общем, если не видели, то очень рекомендую.

Читать полностью…

Сиолошная

И ещё провели пару экспериментов с предварительным дообучением LLAMA 3B на данных, содержащих примеры всех 4 паттернов рассуждений, чтобы показать, что если уже из такого состояния начинать RL-тренировку игре в Countdown, то модель догонит по финальному качеству Qwen.

Первый эксперимент:
нагенерировали синтетические решения для Countdown через Claude Sonnet 3.6, при этом дали ей в промпт все 4 паттерна рассуждений и просили какие-то из них не использовать, или использовать только 1 или 2 конкретных, ну и все вместе. Качество вышло не очень  — несмотря на то, что модель очень хорошо слушалась инструкций, и если её просили что-то включить в рассуждения, то она это делала органично, сам по себе Sonnet 3.6 выдал лишь 45% качества.

То есть больше половины цепочек рассуждений были с ошибками. И тренировка на них... принесла улучшения до уровня Qwen! То есть важнее именно показать, что такие паттерны рассуждений есть, и как их примерно применять, но не обязатльно, чтобы примеры были супер-качественные. (что не означает, что их не нужно фильтровать — замера с очисткой авторы не делали, но думаю, что качество могло бы подрасти)

Второй эксперимент:
взяли датасеты OpenWebMath и FineMath (задача + решение + ответ), выбрали из них 200 тысяч случайных примеров, прогнали через Qwen-2.5-32b и попросили определить, какие из паттернов рассуждений встречаются в решениях. Ожидаемо, все методы, кроме выделения подцелей, достаточно редки — в 1 документе из 50.

Получается, теперь все задачи разделены на 2 типа: те, у которых в решении есть паттерны рассуждений, и те, у которых их нет. Из этих наборов сделали два датасета одинакового размера для дообучения LLAMA, только ещё и решения переписали в виде рассказа от первого лица (это же цепочки рассуждений), но с обязательным сохранением паттернов — тут тоже помогла LLM.

Обучили 2 модели, затем запустили RL на игре в Countdown — и увидели разницу. Само по себе обучение на математике, даже без паттернов, уже повысило качество. Но ещё больше оно приросло именно от обучения на примерах, где так или иначе проявлялся как минимум один из вышеупомянутых способов рассуждения. Это отражено на картинке слева.

Очень жаль, что не сделали обратного эксперимента, где сначала обучали на Countdown, а затем замеряли качество на математических задачах.

===

А ответ на изначальный вопрос, кажется, такой: раньше модели были глупее, и они не достигали какой-то критической массы, после которого запуск процедуры RL-тренировки приводил к клёвым результатам. Сейчас такие данные добавляют на одном из последних этапов подготовки модели, поэтому оно уже зашито в модель, и остаётся только начать чаще и к месту использовать.

Читать полностью…

Сиолошная

Новый день, новый запрос на регуляцию АИ-индустрии от Anthropic, в этот отправленный напрямую в Белый дом США:

Anthropic ожидает, что сверхмощные системы искусственного интеллекта уровня «страна гениев в дата-центре» (так и написано) появятся уже к концу 2026 (!) — 2027 годов. В письме в Белый дом компания призывает срочно принять меры, чтобы США сохранили лидерство и защитили критически важные технологии от конкурентов, прежде всего от Китая

Интересные факты из обращения Anthropic:

• Уже сегодня модель Claude 3.7 Sonnet способна на уровне экспертов поддерживать сложнейшие задачи, включая написание софта, научные исследования и даже аспекты разработки биологического оружия, что подтверждено совместными тестами с институтами безопасности США и Великобритании

• Anthropic предупреждает, что новейшие китайские модели, такие как DeepSeek R1, свободно распространяются онлайн и отвечают даже на явно опасные вопросы, что подчёркивает необходимость ужесточения мер безопасности

• Компания предлагает установить особый экспортный контроль на чипы (например, новейший H200), которые могут помочь Китаю обойти действующие ограничения и догнать американские достижения в области ИИ

• Anthropic подчёркивает, что к 2027 году одна только тренировка одной ИИ-модели будет требовать до 5 гигаватт электроэнергии, что может вынудить компании переносить разработки за границу, если США не увеличат энергомощности

• Компания рекомендует Белому дому внедрять ИИ буквально во все сферы госуправления, где происходит обработка данных (тексты, изображения, аудио и видео), что может существенно повысить эффективность госаппарата

Еще Anthropic запустила собственный экономический индекс (Anthropic Economic Index), чтобы отслеживать, как искусственный интеллект меняет экономику и рынок труда США

Оригинал письма в Белый дом.

tldr, АИ-ставки растут

Читать полностью…

Сиолошная

Про точность знаний и галлюцинации: странно, что в статье этого нет, а на сайте модели есть, замеры на бенчмарке от самих же OpenAI SimpleQA.

Точность ответов модели выросла существенно (тут намеренно отобраны вопросы, на которых модели прошлого поколения ошибались). GPT-4.5 выдаёт 62.5% правильных ответов, а, например, Gemini 2.0 Pro от Google 44.3%. Огромная разница.

Галлюцинации более редки, чем у рассуждающей o1 (правая картинка). Ещё раз напишу, что рассуждалка поверх 4.5 будет ОООЧЕНЬ клёвой и дорогой.

Читать полностью…

Сиолошная

Звёзды выстраиваются в правильном порядке, и анонс GPT-4.5 aka Orion состоится либо сегодня (80%), либо завтра (20%, вдруг что-то пойдёт не так в последний момент):

— TheInformation сообщают, что сотрудники OpenAI были уведомлены о том, что анонс состоится «на этой неделе»
— В коде сайта OpenAI уже указано, что «исследовательское превью» будет доступно подписчикам Pro тира за $200. Про Plus пока никаких новостей, как и про доступ по API.
— Напомню, что это не рассуждающая модель (хоть она почти наверняка обучалась на цепочках от o1 или даже o3), и что качество в reasoning-heavy задачах вряд ли будет выше, чем у o3 (может даже o1, почти наверняка хуже o1 pro)
— О том, каких улучшений я жду, писал тут. Вкратце: мультимодальность (работа с документами, картинками, видео), качество на длинных контекстах, знания, представленные в интернете в малом объеме, уменьшение галлюцинаций. Скорее всего, agentic-навыки тоже улучшатся, но не очевидно, что смогут перебить o3.
— Я ожидаю, что модель точно будет лучше Grok 3 повально фактически во всём. Сравнение с Gemini 2.0 Pro сложнее, так как Google не даёт API -> почти нет бенчмарков, и сам я моделью не пользовался. И мне не кажется, что GPT-4.5 будет дешевле 4o.
— Как я писал, главная проблема в релизах Grok 3 и Gemini 2.0 Pro в том, что команды никак не смогли донести новую ценность от новых моделей; посмотрим, получится ли это у OpenAI — даже сырая цифра, что они сделали ПЯТЬ новых бенчмарков за последние полгода, говорит о том, что приросты как минимум на них будут показываться.
— Вполне возможно, что покажут новые/закрытые бенчмарки, собранные под специальные навыки; это — нормально, ожидаемо, и не должно вызывать реакции «ха-ха померились на чём-то непонятном».
— Всё ещё считаю, что самой интересной моделью года будет thinking-модель (условно o4) поверх этого Orion.

Собираемся сегодня вечером к 20:00 мск (обычно во столько делают релизы, край — 21:00).

Страница, вероятно, будет эта: https://openai.com/index/introducing-gpt-4-5/

Читать полностью…

Сиолошная

Чуть больше 2 лет назад узнал тут, что в США есть список запрещённых букв, с которых не может начинаться трёхбуквенное название аэропорта. Одна из них — Q. Почему? Потому что с Q начинаются некоторые из служебных сообщений при телеграфировании (да-да, том настукивании точка точка тире точка).

Сегодня из Википедии узнал, что один из кодов QNB означает:
— (запрос) QNB = «Сколько кнопок на вашем радио?»
— (ответ) «QNB 100/5»

...100/5 означает, что кнопок 100, но отправитель знает, что делают лишь 5 из них. Интересно как после этого происходило дальнейшее общение))

Ну и чтоб два раза не вставать, ещё одно весёлое: QLF, «Ты посылаешь левой ногой? Попробуй посылать левой ногой!» — юмористически-уничижительный комментарий о качестве отправленного человеком сообщения. Буду теперь в комментах иногда писать QLF, вот 😀

Читать полностью…

Сиолошная

Вот так выглядела траектория в прошлом и вот так она может экстраполироваться в будущее

(тут недельная активная аудитория)

Источник картинки

Читать полностью…

Сиолошная

Elon написал, что релиз Grok 3 с живой демонстрацией состоится в 7 утра по Москве во вторник. («Grok 3 release with live demo» я воспринимаю как «сначала демка а почти сразу после — публичный доступ, релиз: надеюсь так и будет).

Всё ещё обещает, что это «самый умный ИИ на Земле» — вот и поглядим, на чём это продемонстрируют. Правда ставочники на площадке предсказаний Manifold не верят в тезис, и дают 70%, что Grok 3 не окажется самым умным. Правда там нет точных критериев, оценка проводится автором вопроса (но он не нонейм), и... в сравнении не участвуют reasoning-модели 🤷‍♂️

Читать полностью…

Сиолошная

«Вторая половина» — мини-эссе Shunyu Yao, исследователя OpenAI, первого автора ReAct и Tree-of-Thoughts, который уже несколько лет занимается AI-агентами.

Вкратце: мы находимся в перерыве между таймами в условной игре развития ИИ. Что ознаменовало окончание первой половины? Методы Reinforcement Learning наконец-то обобщаются.

После нескольких открытий мы пришли к рабочему рецепту для решения широкого спектра задач с использованием языка и вербализованных рассуждений. Даже год назад, если бы вы сказали большинству AI-исследователей, что один рецепт обучения может справиться с разработкой программного обеспечения, творческим письмом, математикой олимпиадного уровня, манипуляцией мышью и клавиатурой для управления компьютером и ответами на длинные вопросы — они бы посмеялись над вашими галлюцинациями. Каждая из этих задач невероятно сложна, и многие исследователи тратят все своё время, сосредоточившись только на одном узком срезе из этих задач.

Вторая половина — которая уже начинается — перенесет фокус с решения проблем на их определение и формализацию. В эту новую эпоху оценка результатов становится важнее обучения. Вместо того чтобы просто спрашивать: «Можем ли мы обучить модель решению задачи X?», мы спрашиваем: «Чему мы должны обучать ИИ и как мы можем измерить реальный прогресс?»

Это означает, что нам следует фундаментально переосмыслить методы оценки прогресса. Не просто создание новых и более жестких критериев, но и фундаментальное переосмысление существующих установок и создание новых. Мы должны пытаться изобретать новые оценки за пределами уже хорошо изученных территорий.

Раньше как было, вот есть школьные математические задачки. Проходит 2-3 года, модель учится их решать, и мы берём задачи сложнее, с первого тура олимпиады. Потом со второго. Каждый раз мы приподнимаем планку, но не меняем сути тестирования. Как следствие — ИИ уже победил чемпионов мира в шахматы и го, превзошел большинство людей на экзаменах, призванных оценить «реальные навыки» специалистов, достиг уровня золотых медалей на международных олимпиадах. Но ... мир не сильно изменился, по крайней мере, если судить по экономике и ВВП.

Yao называет это проблемой полезности и считает ее самой важной. Почти все способы оценки моделей отличаются от того, что мы хотим в реальной жизни, даже в очень базовых вещах:
— прогон модели на бенчмарке «должен» быть атоматическим и не включать участие человека. Но ведь большинство задач реального мира требуют взаимодействия и итераций!
— прогон модели на бенчмарке «должен» быть независимым между примерами. Если есть 500 задач, то задача 1 не связана с задачей 2, все их можно посчитать в параллель и усреднить результаты. Но в реальном мире зачастую успех — это выполнение нескольких задач подряд. Почти никакие способы оценки сейчас это не учитывают, и предлагают лишь набор разрозненных задачек.

===

Игроки первой половины решали видеоигры и экзамены, игроки во второй половине будут создавать компании стоимостью в миллиарды или триллионы долларов, и будут оптимизировать модели напрямую на доллары, на экономический эффект, а не удовлетворённость пользователя. OpenAI уже сделали первые шаги к этому — один из последних бенчмарков, SWE-Lancer, оценивает успех модели в долларах («какую долю банка сможет заработать модель, выполняя задачи?»).

Читать полностью…

Сиолошная

С утра посмотрел интервью-подкаст с Nikolay Savinov, ко-лидом команды тренировки длинного контекста Gemini в Google. Несколько заметок:

— Почему 1 миллион токенов контекста, для маркетинга? Нет, потому что на тот момент было 100 тысяч токенов, и хотелось поставить амбициозную цель не в 2-3 раза выше, а на порядок.

— Ждать ли контекста больше 1-2М токенов? Они уже пробовали 10M, и оно работает, но будет стоить очень дорого и требует огромного количества железа/мощностей, потому пока не предоставляют как услугу. Nikolay сказал, что ждет ещё как минимум один алгоритмический/архитектурный прорыв, который позволил бы приблизиться к 100М супер-надёжного контекста; 10M скорее всего смогут дожать инженерными оптимизациями того, что уже есть. И вообще несколько раз упоминал, что инженерная составляющая безумно важна, и что нужна тесная связь команды, разрабатывающей железо (TPU), и команды разработки архитектуры моделей.

— Бенчмарк Needle-in-a-Haystack уже давно выдохся и никого не удивляет (что это такое — писал тут), и он не отражал реальные запросы к длинному контексту. В нём в обычный текст вставляли очень явно выделяющийся неуместный кусок и потом задавали про него вопрос. В реальных же практических кейсах тексты обычно более однородны, и модель заведомо не может понять, какая часть пригодится в будущем — можно сказать, что в тексте много отвлекающих частей, которые занимают «внимание» модели. Google уже выпустили бенчмарк под это, OpenAI даже успели его взять и модифицировать — теперь будем следить за ними.

— Почему модели могут принимать на вход сотни тысяч токенов, но выход зачастую ограничен 8-16 тысячами? (я так понимаю, что интервью записали давно — у 2.5 Pro выход 66k, у OpenAI 100k). Потому что все модели, которые проходят дообучение, обучаются на примерах, где генерация очень короткая. Модель просто выучивает, что где-то вот примерено после такого количества слов ответ кончается. И даже если задача подразумевает более длинный ответ — бум, LLM просто генерирует специальный токен «я всё». Если брать недообученную модель и давать ей 500 тысяч токенов на вход, а потом просить повторить — она это сделает без проблем (потому что не научилась генерировать «короткие» ответы).

— Nikolay отметил, что они не наблюдали проблему lost in the middle, когда модель хуже находит информацию из центра текста по сравнению с началом или концом. Интересно, означает ли это, что тип механизма внимания в GPT (по крайней мере старых версий до 4o) и Gemini существенно отличаются?

Читать полностью…

Сиолошная

Есть модель-бегемот на 2 триллиона параметров (как, по слухам, была GPT-4)

вот метрики, якобы обходит GPT-4.5 и Gemini 2.0 Pro

Эта модель использовалась для дистилляции в маленькие модели

Читать полностью…

Сиолошная

Вот и первая масштабная промо-кампания от OpenAI: в течение мая ВСЕ студенты (фуллтайм и парттайм) в США и Канаде могут получить ChatGPT Plus на 2 месяца бесплатно.

OpenAI прям так и пишут: «ChatGPT Plus поможет вам сдать экзамены», ну а после этого периода значимая часть студентов, по видимому, так должна прикипеть к продукту, что продолжат платить за подписку.

Если вдруг вам релевантно: https://chatgpt.com/students

Читать полностью…

Сиолошная

Прошло больше полугода с поста про Deadlock, наверняка есть новые интересующиеся — пост для вас.

Deadlock — следующая игры Valve (это которые Half-Life, Counter Strike, DotA 2, Team Fortress — то есть одни из лучших игр делали). Жанр игры — MOBA (как дота), но стрелялка. Можно думать как про смесь DotA 2 + Overwatch + Team Fortress 2.

Всё ещё действует система приглашений — прям как на заре DotA 2, помню, как пытался получить себе ключ от игры (их ещё продавали!). Для этого нужно добавиться в друзья в стим. Если вы хотите поиграть, и если вы часто что-то пишете в комментариях (то есть я знаю вас по аватарке и/или нику) — скидывайте ссылку на стим, я вас добавлю и отправлю приглашение. К сожалению, не могу пригласить всех, иначе придётся разорваться (в прошлый раз отправил ~50-60 приглашений).

Игра ОЧЕНЬ затягивающая, и кажется после двух неудачных попыток (Artifact и Dota Underlords) у Valve получилось сделать полноценный продукт с хорошими механиками и геймплеем. К сожалению, порог входа достаточно высок, первые игр 10 вы не будете понимать ничего, всё будет казаться сложным, и придётся довольствоваться счётом 1-12. Главное этот период пережить :)

Как и в прошлый раз, прикладываю нарезочку своих моментов 😎 (осторожно, присутствует МАТ). Практикуюсь играть на менте 👮‍♂️

Читать полностью…

Сиолошная

Традиционно модели от Google отличаются длинным контекстом — они могут переварить до 1-2M токенов, в зависимости от конкретной модели (GPT-4o 128 тысяч, Claude 200 тысяч). По собственным бенчмаркам компании их длинный контекст якобы лучший в индустрии, правда где-то в трети/половине новых бенчмарков это не подтверждается (из совсем свежего, например, NoLiMa).

После выхода GPT-4.5 узнал о бенчмарке Fiction.LiveBench, где модель показала себя очень неплохо, авторы даже написали «GPT-4.5-preview is the best non-reasoning model». Я уж не стал вам в очередной раз рассказывать, что модель-то топ, вы и сами это знаете 😀

В чём суть бенчмарка? Сайт Fiction.Live посвящён длинным интерактивным текстовым историям, где по ходу написания читателям предлагается сделать выбор (какое действие сделать, что сказать, куда пойти, итд). Голосование закрывается, автор дописывает следующую часть итд. Разработчики уже давно внедрили AI-инструменты, которые помогают писателям экономить время, создавая краткие выжимки, хронологии, характеристики персонажей, потенциальные идеи развития.

Чтобы выполнять эти задачи эффективно, LLM должны действительно понимать длинную, порой запутанную историю, каждого персонажа и их мотивы на глубоком уровне. Однако на практике современные модели часто теряют ход сюжета, не могут понять мотивы персонажей и производят хлам, который полностью не соответствует намерениям автора — всё как раз таки из-за размеров историй: они очень объёмны, а модели недостаточно внимательны.

Ситуация выглядит прямо идеальной для того, чтобы взять и сделать бенчмарк. На основе выборки из дюжины очень длинных и сложных историй и уже готовых и проверенных тестов разработчики собрали тесты, основанные на сокращенных версиях этих историй. Для каждого теста они начинают с сокращенной версии, которая содержит только релевантную вопросу информацию. Это называется «0-token» (см. на картинке). Затем к этому тексту добавляется всё больше и больше истории, и релевантная информация является только частью более длинного повествования.

Моделям перед ответом на вопрос дают время порассуждать, и reasoning-модели тут существенно отрываются от обычных (сравните метрики между DSv3 и R1, или Claude 3.6 vs 3.7). А o1 чуть-чуть лучше Claude 3.7, начиная с 32 тысяч токенов контекста, и обе модели существенно лучше китайских.

Ну и вооот, Gemini-2.5 Pro стала новым топ-1, показав невероятные 90% правильных ответов при 120 тысячах нерелевантных токенов истории. До этого лучшей моделью на самом длинном контексте была GPT-4.5, набравшая 63.9%. Но ещё интереснее посмотреть, как скакнула метрика от Gemini-2.0 Pro к 2.5 (выделил на картинке). Внимание, вопрос: как скакнёт GPT-4.5 при добавлении рассуждений (aka GPT-5)? 🤔

Читать полностью…

Сиолошная

Я часто хвалю o1 Pro, и это правда моя любимая модель которую я использую каждый день по многу раз с момента ее релиза – для вопросов здоровья, шитпостинга, исторических справок, технических советов, проверки фактов, помощи в чтении pdf-ресечей и тп и тд – раньше она была исключительно частью подписки ChatGPT Pro, и недавно ее добавили за какие-то 👁👁👁👁👁 деньги в OpenAI API

И теперь, наконец-то, начали появляться первые данные по бенчмаркам o1 Pro, чтобы оценить насколько хорошо она работает – например, бенчмарк вдохновленный игрой NYT Connections (это где модели разбирают массив из 16 слов по 4 общим категориям, категории нужно придумать самим), o1 Pro проходит успешно почти на 82% - это рекорд по бенчмарку

Я не удивлен, честно - за все месяцы что я использую ее, она ошиблась всего пару раз, и всегда исправляла себя при просьбе «перепроверить ответ»

Еще это первая модель, которая открыто говорит мне, что я в чем-то не прав, если я где-то ошибаюсь

Если вы из тех, кому некуда девать деньги, то вот ее страница в API OpenAI, но я все же советую использовать ее в ChatGPT Pro, там нет лимитов

Из всех минусов только один - думает она пару минут перед ответом, что в целом, уже не так критично, так как я в нее что-то отправляю и ухожу делать параллельно задачи

Читать полностью…

Сиолошная

https://youtu.be/ox6zF48YXkQ

> new Trackmania cheater
> look inside
> Riolu 😎

Увлекательная история о том, как один из самых титулованных игроков, уличенный в использовании читов и ушедший из сообщества, скрытно вернулся и продолжает пакостить. Если вы не в курсе истории, то это видео вам будет не интересно, зато очень интересно будет посмотреть оригинальное расследование трёхлетней давности (всего 20 минут, про игру ничего знать не нужно, всё объясняется с нуля): https://youtu.be/yDUdGvgmKIw

Читать полностью…

Сиолошная

Затем авторы берут все промежуточные модели и генерируют решения ими. Все решения пропускаются через GPT-4o-mini, которой в промпте дали задачу классифицировать рассуждения по четырём указанным выше паттернам (и ещё примеров насыпали). Модель выдаёт предсказания для каждой цепочки рассуждений, и те агрегируются, чтобы считать, как часто то или иное поведение проявляется по ходу тренировки каждой из Small Language Models (крохи, по 3 миллиарда параметров).

И вот тут-то и обнаруживается разница — у Qwen при переходе от 20 к 30 шагам обучения что-то щёлкает, и эти паттерны начинают проявляться очень часто. Вернее, только 2 паттерна — верификация (перепроверка результатов) и пересмотр подходов при обнаружении ошибок (backtraking).

У LLAMA же по ходу всей тренировки почти по нулям, только маленький горбик в самом начале есть. А так как паттерны рассуждений не проявляются, то правильные ответы появляются реже -> обучение хуже. И сами паттерны не закрепляются.

Значит, в самих моделях с самого начала есть разница. Поэтому взяли их, сгенерировали решения, снова классифицировали — и у Qwen даже без всякого дообучения под игру уже в 62% цепочек рассуждений есть само-проверка (против 10% у LLAMA-3B). (правда эти цифры не бьются с первым графиком, где считали частоту встречания паттернов, но я не понял почему).

Ещё взяли LLAMA побольше, на 70B, и она чаще сама по себе применяет паттерны рассуждений, чем маленькая модель, но всё ещё реже, чем Qwen-3B. Это говорит о двух вещах:
1) Qwen почти наверняка этому отдельно учили
2) поскольку обучение с подкреплением может лишь усиливать поведение, проявляющееся в успешных траекториях, — делая присутствие этих паттернов предпосылкой для эффективного обучения — чем качественнее модель, тем лучше будет результат. (Тут вспоминаем, что GPT-4.5 сама по себе иногда обходит некоторые рассуждающие модели, и знает/читала кучу всего, и скорее всего тренировалась на синтетических цепочках рассуждений)

Читать полностью…

Сиолошная

Недавно помогал ребенку подготовиться к контрольной по программированию (школьному предмету; они учат C#). Главной темой были связные списки и работа с ними, что в данном случае было работой с классами типа Node<T>, с методами Get/SetValue(), Get/SetNext().

Я увидел, что с одной стороны ребенок вроде и понимает, что такое связный список, зачем может быть нужен, что с ним делать; но конкретные задачи из старых контрольных, что им выдали, решает с трудом или вообще не. В принципе понимает, что хочет сделать, но в код это переводится с трудом, без уверенности и с постоянными ошибками.

Подумав немного, я решил не разбирать пока эти старые контрольные и их решения, а подтянуть основы. Сидя рядом, просил ребенка писать код НА БУМАГЕ, решающий очень простые задачи одну за другой. Немедленно обсуждали написанное, ошибки в нем, исправляли их и шли дальше. Задачи такие (во всех случаях предполагаем переменную list типа Node<int>, указывающую на первый элемент списка, возможно равную null, если список пустой):

- проверить, пустой ли список
- проверить, есть ли в списке минимум 3 элемента
- проверить, есть ли в списке ровно 3 элемента
- проверить, верно ли, что второй элемент списока равен 4 (не забывать проверки существования элементов)
- если третий элемент списка существует, изменить его значение на 12
- если есть минимум 2 элемента, удалить второй
- распечатать все элементы списка
- проверить, есть ли в списке элемент со значением 5
- если есть хотя бы один элемент, вставить новый элемент с значением 10 на второе место в списке
- удалить все элементы, равные 5, предполагая, что первый не такой
- то же самое, но без предположения, что первый не такой
- найти все элементы в списке, равные 2, и для каждого такого, если следующий тоже 2, а предыдущий не 2, удалить этот следующий
- найти элемент со значением 13, и если после него есть следующий, поменять их местами
- найти минимальный элемент
- вставить элемент на правильное место в отсортированном списке

Мне кажется, это время, проведенное вместе за интенсивной проработкой основ, не было потрачено зря, и помогло укоренить правильные абстракции в голове.

После того, как все эти задачи решаются без сложностей, без ошибок и практически без рассуждений, можно переходить к задачам типа "поменять порядок на обратный" или "найти и удалить все дубликаты в списке с помощью двух вложенных циклов". Не надо с них *начинать*, если основы не делаются быстро, правильно и без сомнений. А это произойдет, когда ментальные образы станут ясными и четкими и будут правильно отражать происходящее на удобном уровне абстракции. Начинающий программист часто не понимает, насколько важны эти ясность и четкость. В таком случае задача наставника - понять это и показать на живых примерах, как и почему они важны.

Читать полностью…

Сиолошная

А стрим будет тут

https://www.youtube.com/watch?v=cfRYp0nItZ8

Читать полностью…

Сиолошная

Апдейт SpaceX по поводу аварии Starship во время Flight 7 и детали Flight 8.

Про ускоритель Super Heavy B14:
- Проблема с перезапуском 1 из 13 двигателей во время первого тормозного манёвра была связана с питанием системы зажигания. Двигатель нормально зажгли во время второго торможения перед посадкой.

- Систему зажигания, как и планировалось, доработают для будущих полётов.

Про аварию Starship S33:
- Через 2 минуты после разделения была замечена «вспышка» в верхней части грузового отсека. Эту часть между стенкой бака с кислородом и защитой отсека называют «чердаком». Вспышка была у одного из двигателей RVac. Ранее в канале публиковалось про именно эту проблему.

- Датчики давления «чердака» зафиксировали повышение давления из-за утечки.

- Ещё через 2 минуты была снова одна вспышка, но уже с последующим пожаром в отсеке.

- Автоматика отключила 5 из 6 двигателей Raptor в отсеке. В этот момент произошла потеря связи. Последняя отметка телеметрии была через 8 минут и 20 секунд после старта.

- Контакт с кораблём был потерян до получения команды на самоуничтожение из центра.

- Автоматика на Starship S33 сама подорвала FTS из-за нарушений критериев полёта. Система сработала штатно.

- Наиболее вероятной причиной стали наши любимые гармонические колебания (причина многих аварий), которые были в несколько раз сильнее тех, которые фиксировали за время лётных и наземных тестов.

- Сильные колебания привели к более высокой нагрузке на железо в двигательном отсеке, что привело к утечке, насыщению отсека газами и пожару.

- Система продува и подавления отсека, а конкретно «чердака», не справилась с излишками газа.

Следующие шаги:
- SpaceX запустили расследование аварии вместе с FAA (Федеральное управление гражданской авиации США), NASA, NTSB (Национальный совет по безопасности на транспорте) и Space Force.

- Расследование пока идёт, и SpaceX либо получат предписание от FAA по новым мерам безопасности, либо закроют расследование после исправления проблем. Для следующих пусков понадобится обновление лицензии (это было ожидаемо).

- В рамках расследования, SpaceX провели 60-секундный прожиг Starship S34 перед Flight 8 в попытке реплицировать гармонические колебания и нагрузку в конструкции, которые возникли во время Flight 7.

- Во время 60-секундного прожига тестировали разные режимы работы Рапторов, включая 3 разных конфигурации топливных магистралей двигателей RVac (что снова указывает на проблему с ними).

- К слову, на этой неделе в окнах Starbase были как раз замечены магистрали от RVac на полу (видимо перерабатывают или меняют на всех отсеках теперь).

- Данные с 60-секундного прожига помогли переработать конструкцию магистралей для RVac, температурный режим для горючего, и проработать новый план режиму тяги (читай ниже, что сможем проверить по телеметрии).

- На новых Starship также установят больше прорезей для вентиляции внутри двигательного отсека и «чердака». И усилят систему подавления с использованием канистр с азотом.

В общем, как вы ранее читали в канале, проблема была из-за RVac. Теперь её официально подтвердили.

Читать полностью…

Сиолошная

⚡️Появилась очень интересная инфа, как раз в тему нашей сегодняшней статьи!

По слухам, в марте SpaceX планируют провести прожиг ранее летавшего Booster 14, а затем во второй раз(!) запустить его в 8-м полёте Starship

Таким образом, если все пройдёт согласно плану, то во время 8-го полёта будет первый случай повторного использования Super Heavy, а также первая попытка возвращения Starship в Starbase

🤞

Читать полностью…

Сиолошная

Elon и команда показали Grok 3 и новые фичи, которые появятся скоро:

— ранний (незаконченный) чекпоинт Grok 3 занимает первое место на LMSYS Arena во всех категориях (первая и вторая картинки), в общем рейтинге без учёта контроля стиля ответов он первым перешагнул 1400 очков. В категориях «общий, с контролем стиля», «креативность/письмо», «длинные запросы» и «следование инструкциям» делит это самое первое место с другими моделями, например, с последней версией ChatGPT.
— пока официальный лидерборд не обновляют, идёт оценка финальной версии, которая, как ожидается, займёт место ещё чуть-чуть повыше.
— по оценкам на наборе бенчмарков (остальные картинки) обходит все остальные модели; но к сожалению, бенчмарков очень мало. Внушает осторожный оптимизм, но будем ждать публичного доступа, чтобы народ протестировал на всём подряд.
— Grok 3 умеет быть и обычной моделью, и рассуждающей. В трансляции это не проговорили явно, но мне показалось, что всё же это одна модель, а не две разные. По началу полные цепочки рассуждений доступны не будут, лишь их сжатая версия.
— рассуждающие модели как будто бы хуже, чем OpenAI o1 — обратите внимание на более светлые части вверху полосочек; OpenAI так обозначали агрегацию ответов от N генераций (сгенерировали 16 ответов -> выбрали самый часто попадающийся; это улучшает качество). Если и тут также, то получается, что более тёмная часть полосочек лежит на уровне или ниже o1/o3-mini-high
— Модель имеет нативный аудио инпут/аутпут, как GPT-4o Advanced Voicemode, однако пока он не будет доступен (обещают скоро).
— Следуя моде, вместе с Grok 3 будет работать Deep Research агент, делающий запросы в интернет и вычитывающий страницы за вас; никаких метрик сравнения, хоть тех же, что показывали Perplexity неделю назад, нет.
— xAI сначала запустили кластер на 100 тысяч видеокарт за 122 дня, про это все писали; а в следующие 92 дня они удвоили количество видеокарт — это новая информация. Правда во время трансляции я не услышал прям однозначного «да, вот почти вся тренировка сразу была на всех картах», возможно их подключили совсем ближе к концу, но так или иначе говорят, что кластер есть. Точно будет использоваться дальше по дороге. Elon сказал, что для следующей итерации модели планируется расширение в 5 раз (до 1M GPU, датацентр будет потреблять 1.2GW энергии)
— Grok 2 будет выложен в открытый доступ «в течение нескольких месяцев», как полностью запустят все фичи Grok 3.

Grok 3 должен быть доступен уже сегодня для подписчиков Twitter Premium + (я вчера взял кстати 🤠) за $22.

TLDR: неплохие приросты, чуть меньше чем я бы ожидал от модели следующего поколения на LMSYS Arena; набор бенчмарков неплохой, но очень маленький и не conclusive, и ни одного мультимодального (картинки/видео). Ждём внешней валидации.

<страницы блога пока нет, тоже ждём>

Пообщаться с моделью БЕСПЛАТНО и без Premium + можно на арене: идём на https://lmarena.ai/ и выбираем сверху Direct chat -> Grok 3.

Читать полностью…

Сиолошная

Как раз на днях вышла статья от Google, где они показывают масштабирование Visual-Language модели на 100 миллиардов картинок и пытаются оценить, становятся ли результаты лучше. Если смотреть только на английские бенчмарки с западными ценностями, то разницы между 10B пар в тренировочной выборке и 100B почти нет.

Зато разница существенна на бенчмарках, оценивающих навыки модели по cultural и language diversity. По ним видно, что впереди ещё пахать и пахать, можно получать приросты — и это как раз то, о чём я написал выше; то, чего я жду (и соответственно жду способа проверки, бенчмарк) от моделей следующего поколения.

Читать полностью…
Subscribe to a channel