Машинное обучение, графы, языковые модели. Чуток про карьеру исследователя в FAANG, путь PhD и щепотка полезной математики. Связаться с автором: @deltaincorrect. Рекламы в канале нет.
42-ух минутный доклад с NeurIPS 2024 об основных конкурентах архитектуры трансформера
Вам в очень энергичной манере поведают:
- В чем логика заменять трансформер
- Общий таймлайн развития альтернативных архитектур с 2020 года и причем тут LSTM
- Что же там в итоге с линейным атеншеном в 2024том
- Кто же этот такой ваш RWKV, кто за ним стоит и почему он не хочет умирать в 2025том
- Как быть отчаяным ресерчером и в одиночку успешно линеаризовывать opensource LLM без собственного претрейна
- Что еще случилось за год (Jamba, Sana, DNA Models и что еще нас ждет
Смотреть на Ютубе
AI Digest запустили предсказания по прогрессу систем машинного обучения на разных бенчмарках. Также можно попробовать предсказать результаты репортов для моделей OpenAI и суммарную выручку ИИ-компаний. Мои предсказания на картинке.
Пройти можно тут, предикты можно оставить в комментариях – в следующем году выберем самого точного подписчика. 🤴
Про эту статью наконец-то выпустили блогпост с красивыми картиночками ✨
Читать полностью…На основе Gemini 2.0 Flash выпустили thinking модель, которая улетела вверх по бенчмаркам:
- Overall: #3 → #1
- Overall (Style Control): #4 → #1
- Math: #2 → #1
- Creative Writing: #2 → #1
- Hard Prompts: #1 → #1 (+14 pts)
- Vision: #1 → #1 (+16 pts)
Всего 32к контекста, зато бесплатно через AI Studio. В отличие от конкурентов, видно внутренний chain of thought. 😛
Всю следующую неделю буду на NeurIPS, теперь в Ванкувере. 🎅
(не переживайте, снега там нет и не будет, +10°C и дождь всю неделю)
На конференции у нас будет две статьи:
1. "Understanding Transformer Reasoning Capabilities via Graph Algorithms" – в среду с утра, постер #2300. Я про неё кратко писал вот тут.
2. "Text-space Graph Foundation Models: Comprehensive Benchmarks and New Insights" – в среду вечером, постер #3100.
В конце недели попробую послушать эти воркшопы:
1. Symmetry and Geometry in Neural Representations
2. UniReps: Unifying Representations in Neural Models
3. Scientific Methods for Understanding Neural Networks
Если будет интерес и наберётся достаточно людей, можем сделать сходку с дорогими подписчиками. Пишите @deltaincorrect, если интересно. 👉
Одно из самых приятных ощущений в резёрче – это когда ваши результаты верифицируются другими людьми. 🎃
На картинке – бенчмарк-статья этого года, которая показывает, что на молекулках наша старая статья работает на отлично.
Новый день, новый пост про калибровку предсказаний. В прошлом году я писал про классическую работу Фостера и Вохры про то, что идеальной калиброванных предсказаний можно добиться не обладая знаниями о распределении предсказываемой величины. 🤔
В недавно выпущенной статье предлагается рассматривать более сложную игру с тремя игроками: "предсказателем", "ставочником", чья цель – воспользоваться плохими предсказаниями предсказателя, и "природой", которая производит предсказываемые события.
В таком сеттинге авторы показывают схожесть между калибровкой и сожалением (regret) и доказывают, что случайные исходы по отношению к прогнозам эквивалентны хорошим прогнозам по отношению к исходам. Интуитивно, если исходы случайны по отношению к прогнозам, у "ставочника" нет возможности получить прибыль ставя против прогноза, а если пргнозы хороши по отношению к исходам, вся неопределённость в ошибках предсказателя объясняется случайностью природы.
Осталось только это всё интернализировать. 😰
Чтобы канал не превратился в анонсы Gemini, расскажу про ревью с ICLR. Статистику можно посмотреть на paper copilot, в этом году кажется, что с 5.5 должен начинаться accept, так что шансы есть у двух наших статей.
В этот раз получилось интересно, потому что тройку мы получили от рецензента, у которого реально получилось глубоко прочитать статью с технической стороны, но совершенно не понял, что мы не решаем все мировые проблемы, а решаем небольшую исследовательскую проблему. 😮💨
Посмотрим, удастся ли переубедить рецензента – обычно такое работает редко, но тут есть надежды, потому что человек уже потратил много времени, чтобы разобраться в статье.
А как ваш опыт с ICLR в этом году?
Пара мыслей про Долину
Направляясь в очередную командировку в наш головной офис, меня посетила мысль, что не все, в общем-то имеют представление о том, что такое эта наша Кремниевая долина. Среди подписчиков канала немало людей, у которых будет возможность там поработать, а мне бы хотело рассказать, почему, как мне кажется, стремиться туда смысла нет. Я там прожил около полугода в далёком 2019, так что, надеюсь, мнение будет не совсем голословным.
Сначала о хорошем: в Калифорнии в целом и в долине в частности офигенный климат. Количество комфортных солнечных дней в году зашкаливает, и это сильно влияет на настроение и самочувствие – всё-таки мы все немного цветочки-пирожочки. В паре часов – езды крышесносные национальные парки, любителям природы – полное раздолье. 🛌
Из плохого – полное отсутствие культурных событий и катастрофическая гомогенность общества. Нормальным вопросом при первой встрече может быть «ты программист или проджект?» – и у всех одни и те же интересы. Если вам нравятся исключительно люди, которые любят бег, хайкать и писать код – вопросов нет, милости прошу в долину. Остальным непрошенный совет: попробуйте выбраться хотя бы в Сан-Франциско, или, если совсем повезёт – в Нью-Йорк.
Не зря, получается, постил про нобелевки – заманил в офис одного известного в узких кругах физика
Читать полностью…Почему графы?
В комментариях к новому интро задали понятный вопрос: как так сложилось, что я занимаюсь графами? Об этом я и сам частенько задумываюсь 🤪, так что пора и вам рассказать.
Для начала – немного истории: моё первое знакомство с около-рисёрчем по графам произошло на последнем курсе бакалавриата НИУ ВШЭ – мне хотелось повыпендриваться и написать наукоёмкую выпускную работу. Тогда был расцвет графовой кластеризации: люди придумывали быстрые алгоритмы оптимизации модульности, исследовали её пределы разрешающей способности, и писали на эту тему красиво свёрстанные стостраничные обзоры. Я набрёл на новую функцию, альтернативную модульности, с говорящим названием Surprise. Для неё тогда не было показано результатов жадного алгоритма (который для модульности называется алгоритмом Лёвена), вот его я придумал, заимплементировал, и чуток побенчмаркал. Хоть тогда он никому не приглянулся, начало было положено.
После вышки я пошёл в сколтех, где мне повезло работать с Panagiotis Karras, у которому тоже были интересны графы. Сначала мы пытались придумать что-то про influence maximization, но потом, ближе к концу магистратуры, я набрёл на тему графовых эмбеддингов – вот с этого момента всё и завертелось, потому что стало понятно, что их можно глубоко изучать в аспирантуре.
В изучении графов меня подкупает несколько аспектов. Во-первых, интуитивно простая модель данных: объяснить понятие графо можно за чашкой чая бабушке. При этом в области много интересных и глубоких результатов, связывающих графы с другими областями математики. Во-вторых, широкая применимость: если ты придумаешь хороший метод решения почти любой задачи на графах, шанс, что им воспользуются учёные в прикладной области, довольно велик. В-третьих, связанность с реальным железом: из-за неприспособленности компьютеров для работы с графами, для разных размеров задач можно придумывать новые алгоритмы, которые будут использовать, например, распределённые вычисления.
Почти на любые данные можно смотреть, как на граф, а иногда это даже бывает полезно. С другой стороны, любителям машинного обучения как область для вкатывания рекомендовать графы тоже не особо хочется. 😐
Запустили Gemma 2 зафайнтьюненную на японский. Веса – на HuggingFace.
Заодно запустили соревнование на Кэггле на $150k 👀 на адаптацию Gemma к 73 разным языкам, включая русский и украинский. Ждём ваших сабмитов!
Очередной день, очередной кризис репликации в науке. Три недели назад я писал про дело Франчески Джино, теперь под подозрением Элизер Маслия – один из топовых учёных по исследованиям болезней Альцгеймера и Паркинсона. У него примерно 800 опубликованных статей, и до недавнего времени был главной подразделения нейронаук в National Institute of Aging.
Журнал Science опубликовал свою выжимку из полного досье – и там полная жесть. Проблемы в 132 👽 статьях, следы уже почти профессиональной манипуляции. Важен ещё и домен, в котором работал Маслия: налажать в лекарстве от Паркинсона – это вам не исследования честности, от фальсификаций в которых плохо будет разве что паре сотен MBA с маккинзоидами. Интересно, будут ли какие-то последствия ⛓, кроме увольнения – всё-таки от Альцгеймера умирает больше ста тысяч человек в год, а прогресс замедлился буквально на годы.
Рекомендую почитать оригинал статьи в Science: там сильно больше подробностей. Обидно, что такими темпами доверие к науке как институту подорвётся полностью.
У EleutherAI вышел классный гайд по muP параметризации LLMок.
Для тех, кто не знает, muP – Maximal Update Parameterization – это серия статей, в которых Greg Yang (сейчас в xAI) развивает теорию параметризации глубоких сетей. Что-то вроде Neural Tangent Kernel или анализ сетей при помощи теории среднего поля, но с выводами более таргетированными на обучение сеточек градиентным спуском. Один из результатов – стабильная инциализация параметров сетей, которая позволяет избавиться от необходимости тюнить learning rate градиентного спуска.
В статье "Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer" с ребятами из OpenAI Грег выводит методы инициализации трансформеров. Нужно сказать, что, скорее всего, в индустрии не все инициализируют веса по muP, всё-таки теория и практика отличаются на практике. Тем не менее, с muP для каждой части нейросети мы можем (хотя бы в теории) сказать, корректно ли она пропускает через себя градиенты. Градиентные энергетические блоки – бич многих глубоких сеток, и дебажить такое – сплошная головная боль.
Сам Грег предлагает начинать знакомиться с теорией со статьи "A Spectral Condition for Feature Learning", к чему мы с уважаемыми подписчиками и приступим. 🤓
Часто говорят, что PhD плохо влияет на психическое здоровье, а вот теперь подъехали данные: доля медикаментозного вмешательства существенно увеличивается к концу программы.
Берегите кукуху, дорогие подпичики, она стоит того. 🫂
Потенциально вредный пластик нашли в 86% всей протестированной еды 🍜
В мае этого года Нэт Фридман организовал и спонсировал команду энтузиастов-исследователей для того, чтобы выяснить, сколько же в нашей еде пластика. Вчера вышел первый результат: сайт PlasticList и отчёт про методологию и ход мыслей исследователей.
Советую почитать и потыкать сайт, но если кратко:
🧐 Авторы тестируют еду на 18 соединений, связанных с производством пластика. Это фталаты, их заменители и бисфенолы. Они используются для ключевого процесса создания пластика ђ– пластификации, в клеях, защитных покрытиях, и лаках.
😰 Фталаты нашли в 73% протестированной еды, в 22% – бисфенолы. В исследованиях на крысах учёные показали существенный ущерб репродуктивной функции вплоть до полного бесплодия с эффектом, накапливающимся через поколения (тестировали БЭГФ).
😛 Фталаты нашли в большинстве еды для детей и пренатальных витаминах. Исследование 2014 года связывает контакт с фталатами у матери во время беременности с потерей 6-7 пунктов IQ у ребёнка. 🤤
🍜 Пластиковая тара для еды на вынос "протекает" пластиком вам в еду, повышая концентрацию пластика примерно на треть. Один из протестированных баббл-чаёв содержал бисфенола-а на уровне 1.2 лет безопасного потребления. 🧃
😮💨 Количество пластика почти во всей протестированной еде было в пределах нормы. С другой стороны, Европейское агентство по безопасности продуктов питания недавно снизило свою рекомендуемую норму в 20000 раз, что не может не вызвать вопросов. 🪖
Авторы указывают на нестабильность тестирования – еда, заказанная в ресторанах в разные дни может содержать значительно различающееся количество производных пластика. Но: кажется, задуматься о более массовом тестировании, измерении, и замене пластиков в еде стоит.
Меня в комментариях просили прокомментировать анонс o3 от OpenAI; комментирую: никто не знает, где достать этих лягух с презентации? Очень надо 🤔
Читать полностью…В Notices Of The American Mathematical Society вышла коротенькая обзорная статья Терри Тао про то, как математики могут пользоваться компьютерами для доказательств. Интересный разбор с примерами из разных областей, включая, например, не особо известную статью по геометрической топологии. Из грустного, Gemini не упоминается. 😭
Читать полностью…Официально выпустили Gemini 2.0 Flash
По бенчмаркам бьёт 1.5 Pro 002, которую выпускали в сентябре, а стоит на порядок дешевле. Как обычно, 1М контекст и супер быстрый инференс на маленьком контексте.
Ладно, когда модель, в которую ты вложил недели усилий, занимает топ-1 по всем категориям включая контроль на стиль, это тоже супер 📈
Доступна на плейграунде и по апи (бесплатно!). Настойчиво рекомендую бежать пробовать. 🏃♂️
Не могу не похихикать с посленего ллм-релиза Амазона. Маркетологи перестали стесняться и начали выделять цифры, которые выглядят совсем не впечатляюще. 🤦♂️
Micro и Nano хорошие, примерно на уровне 8B флеша, но с большой моделью у ребят пока получилось не очень. С другой стороны, чем больше игроков на арене, тем интереснее.
Интересная статья вышла в scientific reports: обыватели не просто не могут отличить ИИ-поэзию от написанного людьми, так ещё и оценивают получившееся лучше по всем параметрам.
Два панчлайна: (i) для генерации поэм использовался ChatGPT 3.5, который иногда трёх слов связать вместе не может. (ii) Единственной стратой людей, которые справились с задачей (в самой статье такого разбиения нет, нужно анализировать сырые данные) оказались небинарные персоны. 🏳️🌈
Запустили тут новую модельку Gemini-Exp-1114 в Google AI Studio. На арене #1 overall, math, hard prompts, creative writing. Кодинг всё ещё #3.
Без ответов по три минуты как o1, просто берёт и отвечает.
Начинается сезон стажировок, а это значит, что мне пару раз на дню пишут всякие талантливые товарищи с вопросами, можно ли в нашу команду устроиться стажёром. Развёрнуто отвечать на весь поток писем не всегда получается, но с дорогими подпищеками поделиться мудростью всё-таки хочется. 👴
Стажёры для компаний – это в первую очередь источник дешёвого труда. Выхлоп от самих стажёрских проектов чаще всего минимальный, но зато у компании появляется (а) ценная информация про то, какова продуктивность потенциального фулл-тайм сотрудника и (б) вероятная возможность нанять его дешевле, чем среднего выпускника: при вероятном найме люди перестают активно собеседоваться с конкурентами, снижая цену.
До ковида, когда деньги были дешёвыми, технологические компании росли, как на дрожжах. Нанимали десятки тысяч человек в год, так что все привыкли к большому потоку студентов. С резким повышением ключевой ставки, деньги стали дороже, компании стали даже увольнять людей, а количество мест для стажёров значительно сократилось. Из того, что я вижу, студенты ещё не до конца прочувствовали новую экономическую реальность, и особо не стараются с подачами. А зря.
Если среди подписчиков есть студенты, пара быстрых советов: подавайтесь широко, но прицельно. Составьте список из 10-20 наиболее близких по темам, релевантным вашему PhD, и пишите им персонализирвоанные сообщения напрямую. На копипаст или, того хуже, сгенерированные сообщения отвечать сил уже нет. Всем удачи!
Кто получает Нобелевки?
В недавно опубликованном препринте под названием "Access to Opportunity in the Sciences: Evidence from the Nobel Laureates" рассматриваются два фактора для Нобелевских лауреатов: персентиль доходов родителей и уровень их образования (и профессия). Оказывается, средний лауреат вырос в семьях в 90м персентиле по доходу🤴 и образованию. Для женщин всё (как обычно) хуже – средние женщины-лауреаты – дети более элитных семей, чем мужчины (91 против 87).
Неравенство в доходах и образовании родителей в каком-то смысле позволяют оценить, сколько таланта мир теряет из-за неравных возможностей к получению знаний. В мире без неравенства средний лауреат был бы из семьи с около-медианным доходом, но до этого нам, как до луны. Надо сказать, что прогресс не стоит на месте: в 1900 средний лауреат был из 92 персентиля, сейчас – из 85. Также анализируется род деятельности родителей – тут неудивительно распространены белые воротнички: доктора, учёные, госслужащие, юристы.
Также авторы сравнивают коэффициенты по доходу между разными регионами; оказывается, что в восточной Европе с системой общего образования неравенство было значительно сильнее, чем в США. 🇷🇺 В причины и аналитику статья не погружается, оставив нам материал для срача цивилизованной дискуссии в комментариях. 👉
Закроем пост грустноватой цитатой палеонтолога Стивена Джея Гулда, которая стала эпиграфом к статье:
Меня почему-то меньше интересуют вес и извилины мозга Эйнштейна, чем почти уверенность в том, что люди равного таланта жили и умирали на хлопковых полях и в потогонных цехах.Читать полностью…
Gemini 1.5 Flash 8B теперь доступна всем
После обновления 1.5 Flash мы выпустили Flash 8B для всех. Вдвое дешевле Gemini 1.5 Flash, по бенчмаркам – на уровне майской версии. Также подняли количество запросов в минуту до 4000. 😰
Стоит $0.0375/1M input, $0.15/1M output tokens. Цена примерно соответствует цене LLaMA 3.2 3B у together.ai, ну а по бенчмаркам она совершенно в другой категории. Мой ответ на вопрос “что вы делали этим летом”. 😛
Последний раз я писал о себе чуть больше года назад. За последний год канал вырос больше, чем вдвое, я стал работать над совсем другими вещами, ну и вообще, пора закрепить новый пост.
Зовут меня всё ещё Антон. 👋 В 2021 я защитил PhD по машинному обучению в Германии, и с тех пор работаю исследователем в Google Research. Два года назад я перебрался в Нью-Йорк на постоянку, где теперь и обитаюсь. В гугле я устроился в команду, которая занимается алгоритмами на графах, оптимизацией, приватностью и рыночными механизмами. Вот тут можно прочитать пост с хайлайтами за 22 год.
Часть своего времени я работаю над графовыми нейросетями, эмбеддингами на огромных объёмах данных, и всякими около-графовыми штуками по мелочи. Публикую статьи и иногда внедряю нарисёрченное в прод. С этого года частично перекатился в LLMки и теперь занимаюсь данными для претрейна Gemini и Gemma, и парой более специализированных направлений, например, модельками, которые завоевали серебро на международной математической олимпиаде. Пока, вроде, получается неплохо.
Интересно, куда занесёт в следующем году. 🤔
Эту статью приняли на NeurIPS. Увидимся в Ванкувере! ✨
Также приняли ещё одну статью про бенчмарки GNN+LLM, о ней напишу как-нибудь позже.
Апдейт моделей Gemini 1.5 Pro & Flash
Вышла в свет очередная вещь, над которой я работал летом – обновление основных моделей Gemini. Из хайлайтов: +8% MMLU Pro, +23% 👽 на Hendrycks MATH, +10% на GPQA Diamond для Flash модели.
Цена на Gemini 1.5 Pro порезана больше чем в два раза. Также добавили Gemini 1.5 Flash 8B в Gemini API и Google AI studio.
Сколько на самом деле стоит инференс GPT-4o?
Почему-то многие думают, что провайдеры больших языковых моделей продают API чуть ли не себе в убыток. Я бы хотел поделиться прикидками о том, почему это совсем не так, и заодно помечтать о том, сколько параметров мы можем себе позволить тратить на модель, которая сможет заменить человека в работе.
Все расчёты можно воспроизвести в колабе, меняя цифры, как вам захочется. Выводы остаются неизменны.
Для расчётов нам нужно сделать несколько допущений:
1. Количество активированных параметров в модели. Для GPT 4 Turbo широко ходили слухи про 200 миллиардов параметров, так что 4o должна быть меньше. По данным Artificial Analysis, пропускная способность GPT-4o – 95 tok/s, что находится между LLama 3.1 7b (182 tok/s) и 70b (80 tok/s). Для наших целей предположим, что в 4o 100 миллиардов активированных параметров, делая скидку на то, что в OpenAI инференсом занимаются крайне толковые люди. Кстати, Gemini Flash 1.5 с последним обновлением выдаёт 330 tok/s.
2. Амортизированная стоимость сервера с 8 H100. Чтобы не сильно расстраиваться, возьмём оценку сверху как цену такого сервера на AWS – на сегодняшний день $39.33 в час. На рынке цены могут быть минимум в пять раз меньше.
3. MFU – какой процент вычислений используется эффективно. Стандартом является 30-50%, для наших прикидок возьмём 30%.
При таких допущениях (а с другими вы можете поиграть в колабе), стоимость инференса миллиона токенов получается $0.23. Сравним это с официальной ценой в $2.5 за input и $10 за output и получим наценку API в ~50 раз. И это – оценка сверху со всеми допущениями в сторону удорожания. С другой стороны, кому-то же надо скидываться Саме на Koenigsegg. 😮💨
Заодно мы можем посчитать, насколько дешевле модели в сравнении с кожаными мешками. Взяв минимальную зарплату в Нью-Йорке ($16) и производительность в 100 токенов в минуту (среднее у людей примерно 50 слов в минуту), получим стоимость миллиона токенов в $2666.67. Даже o1 со своими $60 / Mtok тут рядом не стоит. Есть, куда расти!