Машинное обучение, графы, языковые модели. Чуток про карьеру исследователя в FAANG, путь PhD и щепотка полезной математики. Связаться с автором: @deltaincorrect. Рекламы в канале нет.
Gemini 2.5 Preview 06-05
Выпустили последнюю перед официальным релизом версию Gemini 2.5 Pro. Пофиксили регрессии относительно версии 03-25, сота на Aider и humanity last exam. На арене +25 Эло относительно майской версии, +35 – на webdev arena. Сильно улучшили multi-turn.
Отдельное издевательство – выпускать версию 06-05 после 05-06. Считаю, что надо выпускать релизы начиная с 13 дня каждого месяца, чтобы избежать путаницы.
Всё-таки нравится работать в компании, где на глупенький 😛 технический вопрос в общем чате тебе отвечает нобелевский лауреат, ещё и псевдокод накидал.
Читать полностью…Veo 3 пока выглядит как самая расцензурированная моделька гугла, так что зловещая долина ловится на раз-два.
Читать полностью…Обновился Gemini 2.5 Pro
В этой мини-обнове упор на кодинге, вижне и тулколлинге.
В результате прыжок 🙌 на 150 Эло на WebDev Arena от мартовской 2.5 Pro, отрыв от второго места – Соннета 3.7 – больше 50 Эло.
В Vision arena тоже скачок на 50 Эло. На текстовой версии – тоже прибавка в 10 Эло.
Поиграться, как обычно, можно в AI Studio. В релиз модель выйдет к Google I/O.
как обещал 📸
edit: спасибо товарищам подписчикам, перезалил без зашакаливания
Сегодня на ICLR в Сингапуре буду представлять постер нашей статьи Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning (сама статья; про неё я писал в прошлом году).
Если вы случайно в Сингапуре – заходите на постер 214 с трёх до шести. Как обычно, после конференции покидаю постеры, что понравились, хоть их и меньше в этом году, чем обычно.
Запустили Gemini 2.5 Flash в превью, по ценам – в 10 раз дешевле o4-mini. Должно быть сносно для написания кода, где хочется подешевле, картинок и длинного контекста.
Читать полностью…Выпустили нашу большую Thinking модель Gemini 2.5 Pro
На 40 пунктов обходим всех на LLM Arena (30 с style control), хорошие результаты на всех бенчмарках, сильные улучшения в коде. И то ли ещё будет.
Тыкать можно в aistudio.google.com
Gemma 3
Выкатили семейство очень добротных моделек, нацеленных на локальных юзеров. Размеры 1, 4, 12, 27B, но зато 4-27B модельки со зрением и 128к контекста! По MMMU обогнали Gemini 1.5 Flash и вплотную подобрались ко второму флешу.
По бенчмаркам не так сильно обогнали Gemma 2, но моделька сильно лучше разбирается в социальных науках, бизнесе, психологии. Особенно хороший прирост на европейских языках, но под шумок я долил и русского. 👉
Блогпост
Tech report
HuggingFace
Потыкать модель можно тут
Сегодня без особых фанфар запустили специальную версию Gemini 2.0 для AI overviews в поиске и анонсировали новый продукт: AI Mode – что-то вроде агентного поиска. На меня ещё не раскатили, записаться можно вот тут.
Для AI Overviews я полировал модельку именно для поиска, под их всратые специфические эвалы и требования – такой настоящий продуктовый резёрч. Теперь миллиард+ человек будет этим пользоваться и постить мемы на реддит – интересные ощущения.
Claude Code
Вчера Antropic представили обновлённую модельку Sonnet 3.7 и вместе с ней локального агента Claude Code. Вместе с обновлением, которое значительно подняло метрики по выполнению кода, получилась пушка для как минимум хобби-разработчиков.
Агент работает по API, час работы выходит примерно 10-20$. Агент работает на локальной машине через свой терминал, запуская команды на локальной машине. За полтора часа работы у меня получилось "написать" ~5k строк C++ кода для системы быстрого построения графов при помощи locality-sensitive hashing проекций. Ничего сложного, но время разработки существенно скоратилось, а скаффолдинг можно и поправить.
За весь час я вообще не редактировал код, а давал только общие указания (напиши бенчмарк, напиши тесты). В результате получилась система, которая вроде бы даже работет – агент сам старается всё тестировать и себя проверять. В результате получилось написать то, на что у меня бы ушло недели две работы, да ещё и C++ вышел довольно читаемым.
Будущее, получается, уже совсем рядом – нужно только отстёгивать $20/час за такое удовольствие.
Sakana AI (бывшие ребята из Google Japan) выложили Cuda AI Engineer – агентскую систему, которая пишет кернелы на CUDA по перформансу лучше, чем torch.compile
.
Сравниваются на KernelBench – коллекции из 250 задач, разбитых на 3 уровня сложности: на первом уровне базовые операции, важные для глубоких сеток, на втором – небольшие функции, и на третьем – большие классы, типа ResNet18. На последнем классе задач вышли приросты до 6.68x относительно компиляции на торче с существенным ускорением рекуррентных нейросеток.
NVIDIA буквально неделю назад выкладывала "агента" (for loop – более точное название) на основе R1, но у ребят из Sakana получилось на порядок лучше. 👍
Интересно, может ли сеть оптимизировать выполнение ранее неизвестных архитектур.
По случаю китайского нового года наши китайские товарищи подсуетились и выпустили сразу три интересных релиза. Хотелось бы собрать их в один пост, и заодно поспекулировать про наших слоняр китов DeepSeek.
Начнём с MiniMax-01 – первой сильной открытой модели с контекстным окном в 1 миллион токенов. Напомню, что до этого рекорд держал наш Gemini Pro 1.5 с 2 миллионами, конкуренты ограничивались 100-200 тысячами. MoE архитектура, 456 миллиарда параметров, из них 46 активированных. По перформансу – облегчённая LLaMa 405b, но сильно шустрее. Прорывов по бенчмаркам особых нет, просто хорошая модель.
Продолжим не по порядку выпуска (чтобы подписчикам жизнь мёдом не казалась): вчера Alibaba анонсировал доступную пока только по API Qwen 2.5 Max. Пост на детали скуп, но поигравшись с интерфейсом на HuggingFace можно понять, что перед нами – сырая большая модель на 500-800 миллиардов параметров. Выглядит, как сигнал о том, что сильные базовые модели у Alibaba тоже есть.
Наконец, DeepSeek R1, про который не написал разве что ленивый. Самое удивительное в повальной волне хайпа в том, что результаты этой модели абсолютно предсказуемо вытекают из выпущенной в декабре DeepSeek-v3. Модель на 37 млрд. активированных из 671 млрд. параметров примерно соответсвует Gemini 1.5 Pro 002 в математике и общих знаниях на английском, но опережает в программировании (хоть до короля Sonnet 3.5 и не дотягивает). Вроде ничего особенно удивительного, компания много итерировала над моделями-специалистами для кода, перформанс на остальных бенчмарках не вызывает удивления.
На основе v3 выпустили "рассуждающую" модель R1, которая сильно подрезала по цене O1 от наших любимых конкурентов. Бенчмарки на уровне O1, цена – более чем в 10 раз меньше; помимо выпуска весов DeepSeek достаточно подробно описали весь свой пайплайн с довольно интересным устройством обучения с подкреплением. На первое время ещё и доступ оставили бесплатным – что на сайте, что в приложении. По бенчмаркам – примерно на уровне 2.0 Flash Thinking и O1, но открытые веса сделали своё дело и модель получила очень много пиара. Ответит ли чем нибудь OpenAI, Google и Anthropic? Скорее всего, скоро получим ответ.
Теперь про цену обучения – многие сми тиражируют стоимость затрат на обучение, составившую в сумме $5.5 миллиона. Я хочу объяснить, что в целом это не сильно неожиданная цифра: например, про неё отлично написал Дарио Амодей (CEO Antropic): инновации в архитектуре и процессе обучения делают обучение эквивалентных моделей менее затратным. Только вот вместо того (или вместе с тем), чтобы выпускать сверхдешёвые модели мы продолжаем увеличивать размер моделей, потому что ценность более способных моделей чаще всего сильно выше, чем у дешёвых, но менее способных. Как мне кажется, единственные акции, которые должны были упасть – это акции меты, ведь можно оценить что на тренировку LLaMa 405b они не так давно потратили ~$50 миллионов. Для сравнения, не очень успешная в тренировке LLMок компания DataBricks тренировала MoE модель с очень близкими 36 млрд. активированных параметров за $10 млн.
Почему на релиз классной, но не выдающейся открытой модели так бурно отреагировал мир? Мне кажется, хороший аналитический фреймворк представлен в книге "The Revolt of the Public and the Crisis of Authority in the New Millennium" Мартина Гурри. В ней представлен конфликт элит и "периферии", которые с развитием интернета и других современных технологий получили доступ к инструменам самоорганизации, получения, и распространения информации, которые раньше контролировались элитой. В результате – стойкая неприязнь к правительству, цепочка "фейсбучных революций", избрание Обамы и, затем, Трампа, фейк ньюз, ковидные конспирологические теории и вот все наши славные 2020е. Неприязнью к "элитным" провайдерам сильных LLMок, которые не делятся весами и способами тренировки, как мне кажется, и можно объяснить грохот в новостях. Кстати, доступ к передовым знаниям почти в любой области, как мне кажется, сильно недооценённый фактор будущего подрыва доверия к науке – ведь скоро каждый сможет проверить заявления экспертов.
Пока подписчики оправляются от отравления прошлогодним оливье, советую посмотреть выступление Джеффа Дина на воркшопе ML for Systems на нипсе.
Джефф – тот самый чувак, который своими (и своего друга Санжея) руками написал половину ключевой инфраструктуры гугла от mapreduce до tensorflow. Очень насыщенный рассказ про то, как машинное обучение используется для ключевых систем в гугле, с акцентами на дизайн TPU чипов.
Qwen 3 embedding
На HuggingFace выложили веса самой маленькой моделькт из новой серии эмбеддеров на основе Qwen 3. Размерность 1024, матрёшка (можно использовать меньшую размерность с небольшой потерей качества), поддерживается 100+ языков, ретривал кода. На MTEB официально ещё не завезли.
edit: также выложили 8B веса
Не вайб-кодингом единым
Для сайд-проекта на работе понадобилось сгенерировать много маленьких неизоморфных графов. Для этого есть проверенный временем пакет утилит nauty, написанный в бородатом 1991 году. В основной утилите geng для генерации графов – примерно 10 тыс. строк кода на довольно оптимизированном C. Из комментариев вида
Sep 22, 1996 : Improved 1-2% by tweaking refinex().
Google IO
Сегодня выкатили много моделей и показали много демок, хочется отметить самые, на мой взгляд, интересные с точки зрения возможностей моделей:
1. Gemini Pro Deep Think – новый режим с параллельным рассуждением модели, существенно помогает в сложных задачах математики и кодинга. Будет доступен в подписке за $250/мес 🤑 вместе с Veo 3.
2. Gemini Diffusion – превью самой настоящей текстовой диффузинки – в пять раз быстрее Gemini Flash, ~1500 tok/s на TPU 🏃♂️ – быстрее, чем 8B LLaMa на Groq.
3. Gemini Flash 2.5 05-20 (простите за нейминг 🙏) – сильно улучшился кодинг.
4. Imagen 4 – новая модель генерации изображений в ~3 раза быстрее GPT Im1 при схожем качестве. Доступен Model Card.
Моё сердечко, конечно, лежит с Gemma 3n, которую покажут в секции Developer Keynote. Моделька на 4 миллиарда параметров, у которой на LLM Arena скор на уровне Sonnet 3.7. Также доступны уменьшенные модели, которые получаются из того же файла с весами, так что можно динамически выбирать скорость модели под задачу. Я много полировал данные для этой версии, примерно треть токенов прошли через мои ручонки.
И теперь постеры с ICLR, которые мне понравились
Читать полностью…ICLR и Сингапур
Закончился ICLR (айклир) – одна из трёх крупнейших конференций по машинному обучению, проходила она в Сингапуре. На свежих щах бегу делиться впечатлениями с дорогими подпищеками, тем более, что страна очень интересная. Контента за поездку получилось на несколько постов – здесь напишу про общие впечатления от страны, потом разберу понравившиеся постеры, ну и на последок закидаю фотографиями, которые получилось сделать за пару свободных дней.
Сингапур больше всего известен своей историей выкарабкивания из бедности (см. график в комментариях), при этом никаких полезных ископаемых, драгоценных металлов, и огромного количества рабочей силы у крошечного Сингапуры просто нет. Что интересно, весь этот прорыв случился по сути из-за воли одного человека – Ли Куан Ю – (запоминаем для сочинения на тему "роль личности в истории"), в около-авторитарном режиме управления страной. Кстати, его сын показывал большие успехи в математике – Бела Боллобаш (которого читатели должны узнать по книгам про теорию графов) его называл "потенциально исследователем мирового уровня". С математикой, впрочем, не срослось – пришлось ехать домой помогать править страной – до прошлого года он был премьером Сингапура.
По приезду сразу замечаешь, насколько зелен и продуман город. Развитая система общественного транспорта, система городских парков, нестандартная архитектура с излишествами даже в дешёвых домах (застройку контролирует государство), обилие указателей и навигационных подсказок, космические тарифы на автомобили – урбанисты в экстазе. Всё это призвано бороться с экваториальным климатом – на улице почти круглый год +30 с тропическими дождями чуть ли не каждый день.
Также сразу в глаза бросается мультикультурализм, который менеджерится совсем не на западный толк. В Сингапуре малайцы, китайцы, индусы составляют существенную часть населения, и государство проводит политику их расселения по разным районам, чтобы избежать образования монокультурных гетто. Также бросается в глаза обилие чётко прописанных правил – не бросать мусор из окна, не плевать на пол, тут не лежать, тут не воровать – за всё – существенные штрафы или даже тюремный срок.
При всём этом сингапурцы не стесняются показывать своё богатство – по городу катается неприличное количество порше с феррари, небоскрёбы соревнуются друг с другом на самый красивый руфтоп (каждый с сиреной на случай внезапного грозового ливня), рестораны в моллах подают австралийский вагю, в городе полно люксового люкса. Довольно похоже на сильно более зелёный Дубай, сравните, например, грибочки в Marina Bay Sands в Сингапуре с островом bluewater в Дубае. Любят в Сингапуре и поесть. Hawker centers – национальных фудкорты с разнообразной дешёвой едой меня покорили примерно так же, как автоматы, выжимающие тебе холодный апельсиновый сок по запросу. В то же время из-за открытости к глобализации в городе присутствует много международной еды, от турецкого кебаба до сукияки. Всё, конечно, вагю.
Больше всего мне понравилась архитектура и природа – тропики, всё зеленеет и цветёт самыми разнообразными формами и цветами на фоне современных дизайнерских зданий не похожих одно на другое. Хоть из-за температуры, влажности, и сурового экваториального солнца мне было тяжеловато, городу – моё почтение.
В Gemini подвезли генерацию видео через Veo для платных юзеров. Красивое, но не очень понятно, зачем. 🤷♂️
Читать полностью…Добавил в свой сайтик по сравнению моделей. У Gemini 2.5 Pro получилось определить фразу big model smell и рассказать, где купить клюкву в сахаре в Москве. Получается, AGI?
Читать полностью…Я тут себе каждый год желаю чего-то хорошего, на круглую циферку 👴 можно пожелать набираться мудрости и душевного спокойствия делать то, чего действие хочется.
На фото наша модель дорисовывает в мем шляпу. 😛
Выкатили Gemini Embeddings
Сегодня выкатили ещё один проект, к которому я немного приложил руку – Gemini Embedding, которая взяла уверенную соту (>5% от второго места по среднему перформансу) на MTEB.
Размерность 3072, но сделали матрёшку, и в апи можно запрашивать любую размерность. Модель особенно хорошо работает для кода.
Как правильно нюхать модели
За последние две недели западные лабы расщедрились на аж целых три релиза: Grok 3 от xAI, Claude 3.7 от Anthropic, и GPT 4.5 от OpenAI. С гроком и клодом всё понятно: первый пробил 1400 Эло на арене, второй пишет отличный код. С GPT 4.5 всё сложно: никаких пробитых бенчмарков, только эфемерный big model smell – "запах большой модели". Давайте разберёмся, как научиться отличать большие моделей от мелких.
Интуитивно, маленькие модели похожи на не очень умных зубрил, которые мало что понимают, зато очень стараются ответить "правильно". У них часто не хватает знаний, чтобы ответить на вопрос корректно, но из-за оптимизации на человеческие предпочтения получаются универсальные подхалимы.
У больших моделей сильно больше ёмкости для запоминания конкретных фактов и закономерностей, поэтому для более редких запросов у них найдётся больше действительно полезных знаний для ответа. Как учуять запах настоящих знаний? 🧐
Для этого мы с Клодом состряпали для дорогих подписчиков сайт с десятью промптами, заточенными на проверку действительно важных способностей моделей:
1. Написать рэп про белку в Вашингтон-Сквер-парке.
2. Написать страшный рассказ в двух предложениях.
3. Рассказать, как искать треугольники в огромных графах.
4. Проанализировать большие языковые модели с точки зрения русских космистов.
5. Проанализировать обонятельную этику фразы "big model smell".
6. Пошутить про специалиста в вычислительной линейной алгебре.
7. Рассказать, где купить клюкву в сахаре в Москве.
8. Придумать абсолютно новое слово, которым можно выразить эмоцию, присущую многим людям.
9. Написать greentext про себя.
10. Выдать саркастичный тейк про человечество.
Доступны ответы GPT 4.5, Claude 3.7 Thinking, Gemini 2.0 Pro, Grok 3. Объясню, какие ответы мне кажутся лучше в отдельном посте, а пока предлагаю обсудить их в комментариях.
В комментариях к предыдущему посту уже раскопали, что с результатами Sakana всё нечисто – AI агент научился возвращать указатель на правильный результат в памяти, а сам заниматься без разницы чем. Environment hacking во всей красе.
Читать полностью…Харкорные инженеры из гугла опубликовали гайд про то, как мы думаем про оптимизацию LLMок под TPU с глубоким разбором того, как всё работает под капотом. Рассказывают про шардирование параметров, тренировку, трюки инференса доступно и с диаграммами. 10/10 чтиво на вечер 👍
Читать полностью…Товарищи конкуренты анонсировали создание компьютерного центра с начальными инвестициями в $100 млрд и планируемыми $500 млрд. Анонсировали с большой помпой как манхэттенский проект, возглавляемый новоизбранным верховным лидером свободного мира. 🤴
Деньги подняли от SoftBank (новости были ещё месяц назад) и мутного эмиратского фонда MGX (создан в 2024). Хардварно партнёрятся с NVIDIA и Arm – ни на чём другом такую мега-платформу не построишь, а своя команда по созданию чипов у OpenAI по видимому не поспевает. Microsoft явно недоволен – по слухам, именно они должны были лидить строительство дата-центров.
По странному стечению обстоятельств, на счетах гугла сейчас как раз лежит $100 млрд кэшом. Посмотрим, как в этом году будут развиваться инвестиции в ИИ; в начале года кажется, что такой мега-проект уже не переплюнешь.
Всех с неизбежно наступающим 2025! 🎅🎅🎅
31 декабря – лучшее время подводить итоги за год, и я тоже от этого не удержусь.
Каналу уже чуть больше двух лет, и за год он вырос почти в три раза 👥👥👥 (спасибо посту Дениса и другим цитирующим товарищам). Я написал ровно 99 постов, и мне очень приятны все (почти 👮♂️) дискуссии, которые происходят в комментариях. Почитать пост за прошлый год можно тут.
За год как будто получилось вкатиться в ЛЛМки – поучаствовал в релизах Gemini 1.5, Gemma 2, Gemini 1.5-002 (нейминг – не сильная сторона гугла) и Gemini 2, где мы сильно прокачивали математику и код. Не все проекты и результаты доехали до публики, так что ещё можно погордиться втихую. ☺️
Помимо сурового продакшена за семью NDA, получилось поучаствовать в создании системы, которая решает сложные задачки по математике на уровне олимпиадных призёров. Про науку тоже получилось не забыть – у нас приняли две статьи на нипс, мы организовали воркшоп на KDD и мне в первый раз поручили роль Area Chair на нипсе. В конце января должны прийти новости с ICLR, так что план по вкладу в науку тоже выполнен. 🤓
Предсказания на 2025 сделаны, так что можно смело начинать работать на будущее человечества. 🦆