Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Вот вам ещё свежая работа из Дипмайнда: Virtual Agent Economies
/channel/gonzo_ML_podcasts/860
Авторы утверждают, что наш путь по умолчанию — спонтанная и проницаемая экономика — функционально эквивалентен простому участию ИИ-агентов в существующей человеческой экономике, но на машинных скоростях и в машинных масштабах. Этот сценарий служит предостережением о непредвиденном эмерджентном поведении и потенциале широкомасштабного финансового ущерба. Ключевой тезис работы — это призыв к действию: перейти от реактивной позиции к проактивному архитектурному проектированию.
16 сентября у Элиезера Юдковского выходит новая книга!
О книге уже положительно отозвались крупные учёные (от самого высокоцитируемого живущего учёного и лауреата премии Тьюринга Йошуа Бенжио до Нобелевского лауреата по экономике Бена Бернанке), профессора компьютерных наук и информационной безопасности, бывший промежуточный CEO OpenAI и какое-то число известных людей (от Стивена Фрая до Grimes).
Макс Тегмарк (профессор физики из MIT) назвал эту книгу самой важной книгой десятилетия.
В отличие от известного многим вам фанфика, эта книга — нон-фикшн (и написана в соавторстве с президентом MIRI Нейтом Соаресом). Она называется "If Anyone Builds It, Everyone Dies: Why Superhuman AI Would Kill Us All" и рассказывает о проблеме, над которой Юдковский стал работать за десять лет до начала написания ГПиМРМ.
К сожалению, название книги — не преувеличение, а точное описание ситуации, в которой находится человечество. Книга подробно объясняет, почему из-за того, как устроены современные ИИ, какой уровень контроля мы имеем над их внутренним устройством и какой уровень контроля будем иметь над их целями, когда эти системы станут сверхчеловеческими, все на планете буквально умрут, если искусственный суперинтеллект будет создан в условиях и с технологиями, подобными текущим.
Юдковский с соавтором выпускают книгу через традиционное издательство, потому что надеются так достичь аудиторию, обычно недоступную постам в блогах и статьям в научных журналах. Цель — не заработать на продажах: они потратят на книгу гораздо больше своих авторских гонораров.
У книги уже больше 5 000 предзаказов; вероятно, она попадёт в список бестселлеров New York Times. Но чтобы попасть на первые строчки списка и получить максимально широкое освещение, нужно 20-25 000 проданных копий за неделю. (Предзаказы считаются продажами в первую неделю.)
Поэтому огромная просьба: если у вас есть возможность заказать книжку, сделайте это. Особенно если Юдковский был вам больше, чем на тридцать долларов полезен: заказ книги сейчас очень поможет.
Со мной ещё до выхода поделились черновиком; книга ещё и очень хорошо написана и убедительно и корректно рассказывает о самой важной (на мой взгляд и на взгляд авторов) из стоящих перед человечеством проблем.
Сделать предзаказ на Amazon: amzn.to/4pnKLAW
Если вы в России, воспользуйтесь любой из служб доставки, которые пересылают посылки от Amazon. Мы собрали несколько способов в этом гугл-доке. (Если можете порекомендовать другие способы, посоветуйте в комментариях!).
Если вы в других странах вне Штатов, по ссылке может быть доступна только версия в мягкой обложке — paperback. Найдите местную версию книги через поиск или в книжных вашей страны.
На русском книга выйдет в следующем году в Corpus. Но огромная просьба попытаться сделать предзаказ на английском. Это действительно очень помогло бы.
Стартап Миры Мурати разродился на этой неделе первым постом в блоге. Тема: воспроизводимость ответов LLM.
https://thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/
Где там остаётся недетерминизм, когда все сиды уже зафиксированы. Разбирают неассоциативность сложения чисел с плавающей точкой и прочее.
Прикольно, но задачей на миллиард не выглядит :) Ждём других постов.
Важный апдейт про развенчание заоблачного перформанса K2-Think от независимой команды.
Оценка была некорректная, включала контаминацию, занижала скоры других моделей и использовала их неоптимальным образом. Микро-усреднение также даёт избыточно высокий вес (66%) бенчмарку, на котором модель лучше всего.
Плюс претензии к неравному сравнению: best-of-3 vs. best-of-1 и неизвестного размера внешняя модель-помощник. Этот момент интересный, поскольку во многих случаях и так уже неясно, сравниваем мы чистую модель или какую-то систему с моделью, что особенно часто проявляется при сравнении с закрытыми моделями. Мне кажется было бы правильно сравнивать нормируя на вычислительные ресурсы.
https://www.sri.inf.ethz.ch/blog/k2think
Авторы сделали переоценку на MathArena:
Canaries in the Coal Mine? Six Facts about the Recent Employment Effects of Artificial Intelligence
Erik Brynjolfsson, Bharat Chandar, Ruyu Chen
Статья: https://digitaleconomy.stanford.edu/publications/canaries-in-the-coal-mine/
Англ ревью: https://arxiviq.substack.com/p/canaries-in-the-coal-mine-six-facts
Интересный апдейт от Бринйолфссона по влиянию AI на работников. Оно есть и оно тревожное. Совсем вкратце — под риском работники в начале карьеры, условные джуниоры, их занятость уже заметно сокращается.
Авторы провели масштабное эмпирическое исследование, проанализировав высокочастотные индивидуальные данные о выплате зарплат от ADP, крупнейшего провайдера таких услуг в США. Это позволило авторам отойти от данных публичных опросов, которые могут быть нестабильными и ограниченными по масштабу, и получить картину динамики занятости миллионов работников в десятках тысяч фирм. Публичные источники, такие как Current Population Survey (CPS), часто слишком малы, чтобы надёжно выявлять тренды для конкретных демографическо-профессиональных групп. В статье отмечается, что выборка CPS для молодых разработчиков ПО (22-25 лет) может составлять всего 26 человек в месяц, что приводит к очень зашумлённым оценкам. В отличие от этого, данные ADP обеспечивают необходимый масштаб и точность для отслеживания первых толчков революции ИИ на американском рынке труда.
Измеряли реальное влияние генеративного ИИ на занятость с момента его широкого распространения в конце 2022 года. Основной датасет состоит из ежемесячных индивидуальных записей о заработной плате из постоянного набора фирм с января 2021 по июль 2025 года.
Эти данные затем объединяются с двумя ключевыми метриками подверженности профессий влиянию ИИ:
1. GPT-4 β Exposure: Индекс из работы Eloundou et al. (2024), который количественно оценивает уязвимость профессии для ИИ на основе анализа её ключевых задач большими языковыми моделями.
2. Anthropic Economic Index: Данные из работы Handa et al. (2025), основанные на миллионах реальных разговоров пользователей с LLM Claude. Важно, что этот индекс различает, используется ли ИИ для автоматизации (замены человеческого труда) или для аугментации (дополнения человеческого труда) задач для данной профессии.
Авторы применяют регрессионный анализ событий на основе распределения Пуассона для контроля над конфаундерами. Эта модель изолирует дифференциальное воздействие ИИ, одновременно «поглощая» общефирменные шоки (например, изменения процентных ставок или спады в отрасли), которые в противном случае могли бы объяснить наблюдаемые тенденции.
Результаты статьи представлены в виде шести отдельных фактов, которые выстраиваются в стройное повествование.
🌬 Факты 1 и 2: Занятость начинающих работников снижается, в то время как в целом она растёт.
Самый яркий вывод — существенное снижение занятости для работников в начале карьеры (22-25 лет) в профессиях, сильно подверженных влиянию ИИ. Например, занятость разработчиков ПО в этой возрастной группе упала почти на 20% со своего пика в конце 2022 года, что резко контрастирует со стабильной или растущей занятостью их более опытных коллег. Это не изолированное явление в технологическом секторе. Хотя общая занятость в экономике оставалась высокой, рост для этой молодой демографической группы замедлился, и эта стагнация почти полностью обусловлена спадом в сферах, подверженных влиянию ИИ.
🛠 Факт 3: Снижение в основном в приложениях, автоматизирующих работу.
Анализ выявляет критическое различие: не всякое влияние ИИ одинаково. Занятость молодых работников снизилась в тех профессиях, где ИИ в основном используется для автоматизации задач. И наоборот, в профессиях, где ИИ используется для аугментации человеческих возможностей, занятость оставалась стабильной или даже росла. Это говорит о том, что негативные эффекты для занятости сконцентрированы там, где ИИ напрямую заменяет человеческий труд — ключевой вывод для формирования будущих стратегий разработки и внедрения ИИ.
Статья, которую давно хотелось разобрать, но руки не дошли. Зато агент дошёл.
/channel/gonzo_ML_podcasts/798
Хорошая статья-интервью с Демисом Хассабисом была в Гардиане в августе. С каким-то правильным вайбом.
https://www.theguardian.com/technology/2025/aug/04/demis-hassabis-ai-future-10-times-bigger-than-industrial-revolution-and-10-times-faster
☝ всех с 70-летием ИИ!
https://raysolomonoff.com/dartmouth/boxa/dart564props.pdf
Что-то интересное про world models, надо внимательно разбираться:
/channel/gonzo_ML_podcasts/772
Вот вам ещё воскресное, про книги.
Прочитал за лето пару книжек про нейтрино и людей вокруг него.
Книга Фрэнка Клоуза более-менее классическая научпоп книга, построенная вокруг истории нескольких людей, в первую очередь Рэя Дэвиса, но также и Ферми, Понтекорво, и не очень многих других. В прошлом году также читал другую книгу Клоуза, про антиматерию, он хорошо пишет, даёт нормальную базу для первого знакомства.
Начинается с открытия радиоактивности, необходимости соблюдения закона сохранения энергии при бета распаде и придумывания Паули новой частицы. Что интересно, в тот момент ещё даже существование нейтрона было не доказано, и Паули по факту придумал и нейтрон, и нейтрино (название пришло уже от Ферми), и не сразу стало ясно, что это разные частицы. Когда стало ясно, Паули считал, что обнаружить нейтрино ("нейтрончик") не удастся.
Лет через пятнадцать Бруно Понтекорво (в последующем сбежавший в Советский Союз, но в конце жизни жалевший об этом) предложил способ как таки можно его обнаружить, если работать на больших числах (на сильном потоке и с большим количеством вещества в детекторе). В итоге в середине 50-х сумели таки обнаружить (анти)нейтрино от ядерных реакторов. Потом был челлендж поймать солнечные нейтрино, а когда поймали, понять почему их так мало (примерно в три раза меньше ожидаемого) и всё ли ок с солнцем и нашими моделями, и нет ли косяков в экспериментах (а там надо было детектировать считанные атомы на тонны вещества). И после долгих пересчётов и экспериментов понять наконец, что это не ошибки, и есть три разных типа нейтрино и они ещё и осциллируют (превращаются друг в друга). Это финально подтвердили только в начале 2000-х. Вот большая часть книги про эти поиски и эксперименты, включая также детекцию нейтрино от сверхновой в соседней галактике.
Вторая книга совсем иная. Она конкретно про Этторе Майорану и также сильно про нейтрино, которое, возможно, является майорановской частицей -- когда она же одновременно и своя античастица.
История Майораны -- большая загадка. Он был явно очень талантлив, не менее (и вероятно более) чем Ферми. Он входил в изначальный коллектив итальянского института и в группу Ферми, откуда вышло много Нобелевских лауреатов по ядерной физике. Туда же потом пришёл и Понтекорво, то есть реально центр экспертизы в нейтрино родился там.
Майорана почти не публиковался (ему было неинтересно), часть своих работ он уничтожал после того как они были готовы, часть его бумаг была потеряна. Однажды он просто исчез, и до сих пор есть множество теорий, что с ним могло произойти, от суицида, через бегство в монастырь или в Аргентину (он снял все свои деньги перед исчезновением), до похищения какой-нибудь разведкой (например, СССР, потому что он мог быть близок к созданию атомной бомбы) или даже инопланетянами. Или ещё сбежал в четвёртое измерение, и его могут видеть только кошки 🙀 В общем ответа нет, а спекуляций много.
Интересно, кстати, что та самая группа была очень близка к открытию ядерного распада и цепной реакции ещё в 1934-м (уже в фашистской Италии), когда они систематически обстреливали нейтронами всю таблицу Менделеева, но результат для урана интерпретировали неправильно (и проигнорировали правильную обратную связь от Иды Ноддак). В итоге это открытие случилось уже в 1939-м. Мир мог бы быть совсем другим, не факт что лучше.
В части нейтрино эта книга описывает вещи за пределами книги Клоуза. Здесь есть про двойной безнейтринный бета распад (он был бы подтверждением майорановости нейтрино), здесь мне кажется получше передана суть осцилляций. Книга сильно более неформальная, чем первая, и в целом выступает неплохим историческим взглядом в ту эпоху и конкретно в жизнь Италии (и немного Германии). И безусловно в жизнь самого Майораны. Короче, зачётная, редкого жанра.
#books
🔬 Метод
Форматы FP4
Первым делом исследуют конфигурации форматов FP4. Напомню, что MXFP4 квантизует веса группами по 32 и квантизует скейлы в E8M0, а NVFP4 группами по 16 и скейлы в E4M3. Авторы фиксируют размер группы 16 и перебирают варианты квантизации скейлов от E1M6 до E8M0. Обучают Llama-like LLM на 350M параметров и замечают, что при E4M3/E3M4 скейлах достигается минимальный лосс (при фиксированном числе итераций). Из всех конфигураций расходится только E1M6 (c cамым узким диапазоном). В дальнейшем везде используют E4M3. Блоки размера 16 выбирают так как при больших лосс сходится хуже, а меньшие уже не дают профита.
Стохастическая квантизация
Квантизовать можно к ближайшему значению, а можно стохастически - вверх или вниз, с вероятностью, зависящей от расстояния до соседа.
Ребята из интела перебирают разные варианты детерминистического и стохастического квантования для весов/градиентов и активаций и получают, что лучше всего сходится вариант с детерминированной квантизацией весов и активаций на прямом проходе, и стохастической для градиентов и активаций на обратном проходе, Роль стохастики в квантизации - уменьшить bias, возникающий из-за округления тензоров.
В ходе оптимизации сигнал от градиента постепенно убывает и с какого-то момента перекрывается шумом оптимизации. Не мудрствуя лукаво, авторы предлагают обучать небольшое время с градиентами в более высокой (bf16) точности (на прямом проходе все еще FP4). И это позволяет сойтись до уровня half-precision обучения за то же суммарное число итераций.
🧪Эксперименты
Обучают семейство моделей архитектуры Llama-2 на датасете Красная Пижама. В главном эксперименте учат модель размера 7B на 1Т токенах причем не абы на чем, а на ускорителях Intel Gaudi2 (сыр 🧀 тут ни при чем, это в честь архитектора)
Обучение идет без спайков, лосс отстает несколько от bf16 бейзлайна, но нагоняет после короткой фазы с более точными градиентами (QAF).
0-шоты без QAF чуть хуже безйлайна, с QAF - такие же примерно. Впрочем, все равно оно лишь чуть лучше рандома)
💡 Выводы
Выглядит как очередной аргумент перейти на обучение LLM в FP4. Сам по себе метод выглядит не шибко изощренно, хотя необходимость QAF для лучших результатов несколько противоречит названию статьи (надо было назвать FP4 Most the way). Quartet в этом отношении по изящнее. Интересно, кто из крупных игроков выложит первый техрепорт про полное обучение серьезной модели в FP4? Ставлю либо на Нвидию, либо на Moonshot.
Детали апдейта DeepSeek-V3.1 подъехали
https://api-docs.deepseek.com/news/news250821
Вы наверное уже видели.
Claim: gpt-5-pro can prove new interesting mathematics.
Proof: I took a convex optimization paper with a clean open problem in it and asked gpt-5-pro to work on it. It proved a better bound than what is in the paper, and I checked the proof it's correct.
Details below.
https://x.com/SebastienBubeck/status/1958198661139009862?t=m5Mzg_cRq9lLqgrx3yIzIQ&s=19
Потрясающий набор реакций на Юдковского, впрочем ожидаемо. Я лично прочитаю, мне интересно, какие у него аргументы. В плане аргументов мне также нравятся аргументы Рассела (/channel/gonzo_ML/1516), но что-то мне подсказывает, многие из скептиков про них даже не думали.
Читать полностью…Огромная работа с обзором всего современного RL для ризонинга:
/channel/gonzo_ML_podcasts/849
Ещё одна любопытная недавно нашумевшая работа про SpikingBrain LLM, где взяли Qwen2.5 и делают на его базе эффективную модель. В этот раз более спайко-подобную, хорошо работающую на очень длинном контексте и потенциально намного более энергоэффективную. Это ещё не полноценная спайковая сеть на нейроморфном процессоре, но уже шаг. Гоняют на китайском GPU MetaX.
Очень перекликается с K2-Think, хоть его результаты и обругали (ничего, исправят в следующей версии). Везде фулл-стек инжиниринг, в обеих работах не-нвидиевское железо и база Qwen2.5. Всё, я уже жду вакансии фулл-стеков в ML!
/channel/gonzo_ML_podcasts/834
Опенсорсная модель с ризонингом K2-Think (не путать с Kimi K2) от LLM360 имеет размер всего 32B (построена на базе Qwen2.5), но бьёт многие более тяжёлые открытые модели. Спасибо фулл-стэк подходу, включающему обучение (SFT+RLVR), тест-тайм скейлинг (планирование и best-of-3) и инференс (спекулятивное декодирование и работу на Cerebras (!)).
/channel/gonzo_ML_podcasts/823
Термин фулл-стэк приходит в ML :)
🕵️ Факт 4: Общефирменные шоки не влияют на это снижение.
Регрессионный анализ на основе распределения Пуассона подтверждает, что эти тенденции не являются артефактами других экономических сил. После контроля над общефирменными шоками авторы обнаруживают статистически значимое снижение относительной занятости на 12 лог-пунктов для работников в возрасте 22-25 лет в наиболее подверженных влиянию ИИ профессиях по сравнению с наименее подверженными. Этот результат даёт веские основания полагать, что влияние связано с характером самой работы, а не только с финансовым положением фирм, нанимающих этих работников.
💰 Факт 5: Корректировка рынка труда видна на занятости более, чем на компенсации.
Рынок труда, по-видимому, адаптируется в первую очередь за счёт численности персонала, а не компенсаций; в статье не обнаружено существенных различий в динамике зарплат в зависимости от уровня подверженности ИИ, что говорит о краткосрочной негибкости заработной платы.
💪 Факт 6: Результат анализа устойчив относительно других вариантов составления выборок.
Наконец, эти факты остаются устойчивыми при многочисленных проверках на чувствительность, включая исключение компьютерных профессий, фокус на работах, не предполагающих удалённый формат, анализ по полу и учёт различных уровней образования.
Результаты этой работы — важное раннее предупреждение. «Канарейки в угольной шахте» — это молодые специалисты начального уровня, чьи роли часто зависят от «кодифицированного знания», полученного через формальное образование. Эти «книжные знания» можно сформулировать в виде правил и данных, что делает их главной мишенью для LLM, обученных на огромных текстовых корпусах. В отличие от них, более опытные работники больше полагаются на неявное знание (Tacit knowledge) — интуицию, социальный интеллект и навыки решения сложных проблем, приобретённые за годы практического опыта, которые текущему поколению ИИ воспроизводить пока сложно.
Последствия весьма далеко идущие:
* Для образования и развития трудовых ресурсов: Необходимо срочно переосмыслить учебные планы и программы подготовки, чтобы вооружить новых участников рынка труда навыками, дополняющими ИИ, такими как решение сложных проблем, критическое мышление и креативность, а не навыками, которые легко заменяются.
* Для бизнеса: Исследование даёт ясный сигнал, что стратегическое внедрение ИИ имеет значение. Фокус на приложениях, расширяющих возможности сотрудников, может принести лучшие долгосрочные результаты, чем подход, основанный исключительно на автоматизации, который может истощить поток талантов начального уровня.
* Для политиков: Непропорциональное воздействие на молодых работников указывает на потенциальный рост неравенства в будущем. Эти данные служат мощным стимулом для проактивной политики, включая поддержку программ переквалификации и модернизацию систем социальной защиты для адаптации к более динамичному, управляемому ИИ рынку труда.
Недавно были посты на тему будущего работы и одна программная статья на эту тему с ICML 2025. Всё это становится реальностью уже сейчас. Джуниоры под большой угрозой. Картинка из New Yorker в тему.
Вероятно, важным навыком джуниора станет способность автоматизировать задачи с помощью LLM (и того, что будет после них) и умение отделить то, что можно автоматизировать, от того, что нельзя. Дай, Господи, всем мудрости отличить одно от другого.
Ещё одна интересная работа про репрезентации, хорошо дополняет предыдущую (и вышла до неё). Тоже долго лежала в очереди на разбор, но уже проще через автомат прогнать, чем дальше держать.
/channel/gonzo_ML_podcasts/812
Работа хорошая, показывает, что тренд на увеличение размера модели не решает проблему выучивания хороших репрезентаций, они получаются недостаточно разнообразными. Авторы предлагают свой метод обучения нескольких моделей на разных задачах и конкатенации в одну, который требует столько же вычислительных ресурсов, как и обучение одной большой модели.
Интересный репорт вышел про точность предсказания экзистенциальных рисков. Сравнивались суперфоркастеры, доменные эксперты, не-доменные эксперты и X-риск генералисты. Суперфоркастеры и доменные эксперты сильно превзошли образованную публику, и в целом равны между собой. Также продемонстрирована wisdom of crowds, когда агрегированное мнение лучше одиночных.
Интересно про прогресс в AI, он недооценены, особенно суперфоркастерами. Самый большой сюрприз на международной математической олимпиаде (IMO), которую тут недавно все анонсировали (1, 2), здесь медиана предсказателей была 2030-2035. Прогресс в климатических технологиях наоборот переоценен.
Нашёл здесь.
Сам репорт тут:
First Wave Forecasting Accuracy Results from the Existential Risk Persuasion Tournament
https://forecastingresearch.org/near-term-xpt-accuracy
Отдельно интересно приложение A5.1 Distributions for AI-Related Questions.
Интересная свежая работа про методичное сравнение разных оптимизаторов.
/channel/gonzo_ML_podcasts/786
Новые матричные оптимизаторы in general хороши, но и AdamW был неплох — во многих случаях был выбран как бейзлайн с плохими гиперпараметрами. С хорошими он не сильно отстаёт.
Интересный пост от Анимы Анандкумар:
It is interesting that the new DeepSeek Al v3.1 is trained using the UE8M0 FP8 scale data format, which is nothing but the logarithmic number system (LNS), meaning it has only exponent and no mantissa. Our multiplicative weights update (Madam) for training in that format was done several years ago while at NVIDIA It yields maximum hardware efficiency with no accuracy loss https://arxiv.org/abs/2106.13914
Logarithmic number system achieves a higher computational efficiency by transforming expensive multiplication operations in the network layers to inexpensive additions in their logarithmic representations. In addition, it attains a wide dynamic range and can provide a good approximation. Also, logarithmic number system is biologically inspired, and there is evidence that our brains use such a format for storage.
However, using standard SGD or Adam optimization for training in logarithmic format is challenging, and requires intermediate updates and optimization states to be stored in full precision (FP32). To overcome this, we proposed Multiple Weights update (Madam) that instead updates directly in the logarithmic format and leads to good training outcomes.
Our LNS-Madam when compared to training in FP32 and FP8 formats, LNS-Madam reduces the energy consumption by over 90% and 55%, respectively, while maintaining accuracy.
Simons Foundation Launches Collaboration on the Physics of Learning and Neural Computation
https://www.simonsfoundation.org/2025/08/18/simons-foundation-launches-collaboration-on-the-physics-of-learning-and-neural-computation/
Это выглядит просто бомбически!
Можно ли сделать такой test-time scaling, чтобы вычислений стало меньше (чем у лучших имеющихся подходов), а точность при этом выросла? Оказывается можно. Без обучения, просто хорошими и простыми новыми метриками для взвешивания разных трейсов и отбора наиболее перспективных.
Имеем 99.9% на AIME 2025 с открытой моделью.
/channel/gonzo_ML_podcasts/759
FP4 All the Way: Fully Quantized Training of LLMs
[Статья][Анонимный не анонимный репозитрий]
📘 Введение
Висело оно у меня давно в бэклоге, но в кулуарах напомнили.
С увеличением затрат на обучение больших языковых моделей, когда оно стало переваливать за миллионы GPU часов, все более остро стоит вопрос о том как это делать эффективно.
Как известно, для параметров и активаций моделей не требуется представление вещественных чисел высокой точности, чтобы работать приемлемо. Обучение в половинной точности уже давно стало стандартом, да и в FP8 народ вполне себе успешно обучает. Следующая очевидная цель - обучение в FP4, тем более, что последнее поколение от “зеленых” c блмным названием (Blackwell) имеет его поддержку на уровне архитектуры.
И в ряде работ, вышедших в этом году (Training LLMs with MXFP4, Quartet), включая разбираемую, были предложены техники по стабилизации обучения в FP4.
Недавно упоминали термодинамические вычисления, и тут образовалась подборка авторазборов статей по теме:
* Thermodynamic Natural Gradient Descent, также может быть интересно Covariant Gradient Descent, который не про термодинамические, а больше про геометрию пространства, но всё равно.
* Scalable Thermodynamic Second-order Optimization про термодинамический K-FAC
* Solving the compute crisis with physics-based ASICs про ребрендинг аналоговых компьютеров и термодинамические вычислители в частности.
Михаил Бронштейн и ко написали практически учебник про геометрическое глубокое обучение. Выглядит очень достойно. Вдруг вы хотели почитать что-то по матчасти на выходных или в остаток лета.
Mathematical Foundations of Geometric Deep Learning
Authors: Haitz Sáez de Ocáriz Borde and Michael Bronstein
Paper: https://arxiv.org/abs/2508.02723
Русское саммари тут: /channel/gonzo_ML_podcasts/714
Английское тут: https://arxiviq.substack.com/p/mathematical-foundations-of-geometric
Интересная работа про Energy-based трансформеры: /channel/gonzo_ML_podcasts/633
Модель выучивает энергетическую функцию, и далее генеря что-то, может оценивать это же по энергетической функции и оптимизировать результат градиентным спуском. Результат выглядит неплохо.