gonzo_ml | Unsorted

Telegram-канал gonzo_ml - gonzo-обзоры ML статей

23470

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Subscribe to a channel

gonzo-обзоры ML статей

Опенсорсная модель с ризонингом K2-Think (не путать с Kimi K2) от LLM360 имеет размер всего 32B (построена на базе Qwen2.5), но бьёт многие более тяжёлые открытые модели. Спасибо фулл-стэк подходу, включающему обучение (SFT+RLVR), тест-тайм скейлинг (планирование и best-of-3) и инференс (спекулятивное декодирование и работу на Cerebras (!)).

/channel/gonzo_ML_podcasts/823

Термин фулл-стэк приходит в ML :)

Читать полностью…

gonzo-обзоры ML статей

🕵️ Факт 4: Общефирменные шоки не влияют на это снижение.

Регрессионный анализ на основе распределения Пуассона подтверждает, что эти тенденции не являются артефактами других экономических сил. После контроля над общефирменными шоками авторы обнаруживают статистически значимое снижение относительной занятости на 12 лог-пунктов для работников в возрасте 22-25 лет в наиболее подверженных влиянию ИИ профессиях по сравнению с наименее подверженными. Этот результат даёт веские основания полагать, что влияние связано с характером самой работы, а не только с финансовым положением фирм, нанимающих этих работников.

💰 Факт 5: Корректировка рынка труда видна на занятости более, чем на компенсации.

Рынок труда, по-видимому, адаптируется в первую очередь за счёт численности персонала, а не компенсаций; в статье не обнаружено существенных различий в динамике зарплат в зависимости от уровня подверженности ИИ, что говорит о краткосрочной негибкости заработной платы.

💪 Факт 6: Результат анализа устойчив относительно других вариантов составления выборок.

Наконец, эти факты остаются устойчивыми при многочисленных проверках на чувствительность, включая исключение компьютерных профессий, фокус на работах, не предполагающих удалённый формат, анализ по полу и учёт различных уровней образования.

Результаты этой работы — важное раннее предупреждение. «Канарейки в угольной шахте» — это молодые специалисты начального уровня, чьи роли часто зависят от «кодифицированного знания», полученного через формальное образование. Эти «книжные знания» можно сформулировать в виде правил и данных, что делает их главной мишенью для LLM, обученных на огромных текстовых корпусах. В отличие от них, более опытные работники больше полагаются на неявное знание (Tacit knowledge) — интуицию, социальный интеллект и навыки решения сложных проблем, приобретённые за годы практического опыта, которые текущему поколению ИИ воспроизводить пока сложно.

Последствия весьма далеко идущие:

* Для образования и развития трудовых ресурсов: Необходимо срочно переосмыслить учебные планы и программы подготовки, чтобы вооружить новых участников рынка труда навыками, дополняющими ИИ, такими как решение сложных проблем, критическое мышление и креативность, а не навыками, которые легко заменяются.

* Для бизнеса: Исследование даёт ясный сигнал, что стратегическое внедрение ИИ имеет значение. Фокус на приложениях, расширяющих возможности сотрудников, может принести лучшие долгосрочные результаты, чем подход, основанный исключительно на автоматизации, который может истощить поток талантов начального уровня.

* Для политиков: Непропорциональное воздействие на молодых работников указывает на потенциальный рост неравенства в будущем. Эти данные служат мощным стимулом для проактивной политики, включая поддержку программ переквалификации и модернизацию систем социальной защиты для адаптации к более динамичному, управляемому ИИ рынку труда.

Недавно были посты на тему будущего работы и одна программная статья на эту тему с ICML 2025. Всё это становится реальностью уже сейчас. Джуниоры под большой угрозой. Картинка из New Yorker в тему.

Вероятно, важным навыком джуниора станет способность автоматизировать задачи с помощью LLM (и того, что будет после них) и умение отделить то, что можно автоматизировать, от того, что нельзя. Дай, Господи, всем мудрости отличить одно от другого.

Читать полностью…

gonzo-обзоры ML статей

Ещё одна интересная работа про репрезентации, хорошо дополняет предыдущую (и вышла до неё). Тоже долго лежала в очереди на разбор, но уже проще через автомат прогнать, чем дальше держать.

/channel/gonzo_ML_podcasts/812

Работа хорошая, показывает, что тренд на увеличение размера модели не решает проблему выучивания хороших репрезентаций, они получаются недостаточно разнообразными. Авторы предлагают свой метод обучения нескольких моделей на разных задачах и конкатенации в одну, который требует столько же вычислительных ресурсов, как и обучение одной большой модели.

Читать полностью…

gonzo-обзоры ML статей

Интересный репорт вышел про точность предсказания экзистенциальных рисков. Сравнивались суперфоркастеры, доменные эксперты, не-доменные эксперты и X-риск генералисты. Суперфоркастеры и доменные эксперты сильно превзошли образованную публику, и в целом равны между собой. Также продемонстрирована wisdom of crowds, когда агрегированное мнение лучше одиночных.

Интересно про прогресс в AI, он недооценены, особенно суперфоркастерами. Самый большой сюрприз на международной математической олимпиаде (IMO), которую тут недавно все анонсировали (1, 2), здесь медиана предсказателей была 2030-2035. Прогресс в климатических технологиях наоборот переоценен.

Нашёл здесь.

Сам репорт тут:
First Wave Forecasting Accuracy Results from the Existential Risk Persuasion Tournament
https://forecastingresearch.org/near-term-xpt-accuracy

Отдельно интересно приложение A5.1 Distributions for AI-Related Questions.

Читать полностью…

gonzo-обзоры ML статей

Интересная свежая работа про методичное сравнение разных оптимизаторов.

/channel/gonzo_ML_podcasts/786

Новые матричные оптимизаторы in general хороши, но и AdamW был неплох — во многих случаях был выбран как бейзлайн с плохими гиперпараметрами. С хорошими он не сильно отстаёт.

Читать полностью…

gonzo-обзоры ML статей

Интересный пост от Анимы Анандкумар:

It is interesting that the new DeepSeek Al v3.1 is trained using the UE8M0 FP8 scale data format, which is nothing but the logarithmic number system (LNS), meaning it has only exponent and no mantissa. Our multiplicative weights update (Madam) for training in that format was done several years ago while at NVIDIA It yields maximum hardware efficiency with no accuracy loss https://arxiv.org/abs/2106.13914

Logarithmic number system achieves a higher computational efficiency by transforming expensive multiplication operations in the network layers to inexpensive additions in their logarithmic representations. In addition, it attains a wide dynamic range and can provide a good approximation. Also, logarithmic number system is biologically inspired, and there is evidence that our brains use such a format for storage.

However, using standard SGD or Adam optimization for training in logarithmic format is challenging, and requires intermediate updates and optimization states to be stored in full precision (FP32). To overcome this, we proposed Multiple Weights update (Madam) that instead updates directly in the logarithmic format and leads to good training outcomes.

Our LNS-Madam when compared to training in FP32 and FP8 formats, LNS-Madam reduces the energy consumption by over 90% and 55%, respectively, while maintaining accuracy.

Читать полностью…

gonzo-обзоры ML статей

Simons Foundation Launches Collaboration on the Physics of Learning and Neural Computation

https://www.simonsfoundation.org/2025/08/18/simons-foundation-launches-collaboration-on-the-physics-of-learning-and-neural-computation/

Читать полностью…

gonzo-обзоры ML статей

Это выглядит просто бомбически!

Можно ли сделать такой test-time scaling, чтобы вычислений стало меньше (чем у лучших имеющихся подходов), а точность при этом выросла? Оказывается можно. Без обучения, просто хорошими и простыми новыми метриками для взвешивания разных трейсов и отбора наиболее перспективных.

Имеем 99.9% на AIME 2025 с открытой моделью.

/channel/gonzo_ML_podcasts/759

Читать полностью…

gonzo-обзоры ML статей

FP4 All the Way: Fully Quantized Training of LLMs
[Статья][Анонимный не анонимный репозитрий]

📘 Введение

Висело оно у меня давно в бэклоге, но в кулуарах напомнили.

С увеличением затрат на обучение больших языковых моделей, когда оно стало переваливать за миллионы GPU часов, все более остро стоит вопрос о том как это делать эффективно.

Как известно, для параметров и активаций моделей не требуется представление вещественных чисел высокой точности, чтобы работать приемлемо. Обучение в половинной точности уже давно стало стандартом, да и в FP8 народ вполне себе успешно обучает. Следующая очевидная цель - обучение в FP4, тем более, что последнее поколение от “зеленых” c блмным названием (Blackwell) имеет его поддержку на уровне архитектуры.

И в ряде работ, вышедших в этом году (Training LLMs with MXFP4, Quartet), включая разбираемую, были предложены техники по стабилизации обучения в FP4.

Читать полностью…

gonzo-обзоры ML статей

Недавно упоминали термодинамические вычисления, и тут образовалась подборка авторазборов статей по теме:

* Thermodynamic Natural Gradient Descent, также может быть интересно Covariant Gradient Descent, который не про термодинамические, а больше про геометрию пространства, но всё равно.
* Scalable Thermodynamic Second-order Optimization про термодинамический K-FAC
* Solving the compute crisis with physics-based ASICs про ребрендинг аналоговых компьютеров и термодинамические вычислители в частности.

Читать полностью…

gonzo-обзоры ML статей

Михаил Бронштейн и ко написали практически учебник про геометрическое глубокое обучение. Выглядит очень достойно. Вдруг вы хотели почитать что-то по матчасти на выходных или в остаток лета.

Mathematical Foundations of Geometric Deep Learning
Authors: Haitz Sáez de Ocáriz Borde and Michael Bronstein
Paper: https://arxiv.org/abs/2508.02723

Русское саммари тут: /channel/gonzo_ML_podcasts/714
Английское тут: https://arxiviq.substack.com/p/mathematical-foundations-of-geometric

Читать полностью…

gonzo-обзоры ML статей

Интересная работа про Energy-based трансформеры: /channel/gonzo_ML_podcasts/633

Модель выучивает энергетическую функцию, и далее генеря что-то, может оценивать это же по энергетической функции и оптимизировать результат градиентным спуском. Результат выглядит неплохо.

Читать полностью…

gonzo-обзоры ML статей

Андрей Карпаты про Software 3.0

https://youtu.be/LCEmiRjPEtQ?si=wK51YqY68SR4UBwn

Читать полностью…

gonzo-обзоры ML статей

Интересно про то, как построен Курсор

https://newsletter.pragmaticengineer.com/p/cursor

Paywall, но довольно большая часть доступна

Читать полностью…

gonzo-обзоры ML статей

Интересная новость от Huggingface. Компания не осилила multi-backend и прекращает поддержку всего кроме PyTorch (то есть JAX и TF) в своей либе transformers начиная с версии 5. 4-я LTS версия будет жива до лета 2026. Компания беспокоится, что библиотека разрослась, и обещает убрать 50% кода и разросшиеся абстракции. Новость тут: https://x.com/LysandreJik/status/1933201171130593530, PR тут: https://github.com/huggingface/transformers/pull/38758

Это любопытно. JAX при этом вполне жив и активно используется (из больших игроков как минимум модели Гугла и xAI обучаются на нём), статей тоже достаточно, а TF и правда не выглядит сильно живым, но наверняка он сидит в разных продакшн и мобильных деплойментах. Судя по paperswithcode (https://paperswithcode.com/trends) доля JAX наконец превысила долю TF. У обоих правда она невысока, у JAX 3%, у TF 2%. Интересно, что у MindSpore от Huawei уже 6%. Не совсем понятно, что там в other languages and frameworks с 31%.

Не знаю, как относиться, будем посмотреть. Я сам понял, что тоже не то чтобы активно использую transformers, все мои последние эксперименты с LLM шли мимо него. Но жаль всё-таки, что не получилось тру мультибэкенда.

Читать полностью…

gonzo-обзоры ML статей

Annual base compensation

Читать полностью…

gonzo-обзоры ML статей

Canaries in the Coal Mine? Six Facts about the Recent Employment Effects of Artificial Intelligence
Erik Brynjolfsson, Bharat Chandar, Ruyu Chen
Статья: https://digitaleconomy.stanford.edu/publications/canaries-in-the-coal-mine/
Англ ревью: https://arxiviq.substack.com/p/canaries-in-the-coal-mine-six-facts

Интересный апдейт от Бринйолфссона по влиянию AI на работников. Оно есть и оно тревожное. Совсем вкратце — под риском работники в начале карьеры, условные джуниоры, их занятость уже заметно сокращается.

Авторы провели масштабное эмпирическое исследование, проанализировав высокочастотные индивидуальные данные о выплате зарплат от ADP, крупнейшего провайдера таких услуг в США. Это позволило авторам отойти от данных публичных опросов, которые могут быть нестабильными и ограниченными по масштабу, и получить картину динамики занятости миллионов работников в десятках тысяч фирм. Публичные источники, такие как Current Population Survey (CPS), часто слишком малы, чтобы надёжно выявлять тренды для конкретных демографическо-профессиональных групп. В статье отмечается, что выборка CPS для молодых разработчиков ПО (22-25 лет) может составлять всего 26 человек в месяц, что приводит к очень зашумлённым оценкам. В отличие от этого, данные ADP обеспечивают необходимый масштаб и точность для отслеживания первых толчков революции ИИ на американском рынке труда.

Измеряли реальное влияние генеративного ИИ на занятость с момента его широкого распространения в конце 2022 года. Основной датасет состоит из ежемесячных индивидуальных записей о заработной плате из постоянного набора фирм с января 2021 по июль 2025 года.

Эти данные затем объединяются с двумя ключевыми метриками подверженности профессий влиянию ИИ:

1. GPT-4 β Exposure: Индекс из работы Eloundou et al. (2024), который количественно оценивает уязвимость профессии для ИИ на основе анализа её ключевых задач большими языковыми моделями.

2. Anthropic Economic Index: Данные из работы Handa et al. (2025), основанные на миллионах реальных разговоров пользователей с LLM Claude. Важно, что этот индекс различает, используется ли ИИ для автоматизации (замены человеческого труда) или для аугментации (дополнения человеческого труда) задач для данной профессии.

Авторы применяют регрессионный анализ событий на основе распределения Пуассона для контроля над конфаундерами. Эта модель изолирует дифференциальное воздействие ИИ, одновременно «поглощая» общефирменные шоки (например, изменения процентных ставок или спады в отрасли), которые в противном случае могли бы объяснить наблюдаемые тенденции.

Результаты статьи представлены в виде шести отдельных фактов, которые выстраиваются в стройное повествование.

🌬 Факты 1 и 2: Занятость начинающих работников снижается, в то время как в целом она растёт.

Самый яркий вывод — существенное снижение занятости для работников в начале карьеры (22-25 лет) в профессиях, сильно подверженных влиянию ИИ. Например, занятость разработчиков ПО в этой возрастной группе упала почти на 20% со своего пика в конце 2022 года, что резко контрастирует со стабильной или растущей занятостью их более опытных коллег. Это не изолированное явление в технологическом секторе. Хотя общая занятость в экономике оставалась высокой, рост для этой молодой демографической группы замедлился, и эта стагнация почти полностью обусловлена спадом в сферах, подверженных влиянию ИИ.

🛠 Факт 3: Снижение в основном в приложениях, автоматизирующих работу.

Анализ выявляет критическое различие: не всякое влияние ИИ одинаково. Занятость молодых работников снизилась в тех профессиях, где ИИ в основном используется для автоматизации задач. И наоборот, в профессиях, где ИИ используется для аугментации человеческих возможностей, занятость оставалась стабильной или даже росла. Это говорит о том, что негативные эффекты для занятости сконцентрированы там, где ИИ напрямую заменяет человеческий труд — ключевой вывод для формирования будущих стратегий разработки и внедрения ИИ.

Читать полностью…

gonzo-обзоры ML статей

Статья, которую давно хотелось разобрать, но руки не дошли. Зато агент дошёл.

/channel/gonzo_ML_podcasts/798

Читать полностью…

gonzo-обзоры ML статей

Хорошая статья-интервью с Демисом Хассабисом была в Гардиане в августе. С каким-то правильным вайбом.

https://www.theguardian.com/technology/2025/aug/04/demis-hassabis-ai-future-10-times-bigger-than-industrial-revolution-and-10-times-faster

Читать полностью…

gonzo-обзоры ML статей

☝ всех с 70-летием ИИ!

https://raysolomonoff.com/dartmouth/boxa/dart564props.pdf

Читать полностью…

gonzo-обзоры ML статей

Что-то интересное про world models, надо внимательно разбираться:
/channel/gonzo_ML_podcasts/772

Читать полностью…

gonzo-обзоры ML статей

Вот вам ещё воскресное, про книги.

Прочитал за лето пару книжек про нейтрино и людей вокруг него.

Книга Фрэнка Клоуза более-менее классическая научпоп книга, построенная вокруг истории нескольких людей, в первую очередь Рэя Дэвиса, но также и Ферми, Понтекорво, и не очень многих других. В прошлом году также читал другую книгу Клоуза, про антиматерию, он хорошо пишет, даёт нормальную базу для первого знакомства.

Начинается с открытия радиоактивности, необходимости соблюдения закона сохранения энергии при бета распаде и придумывания Паули новой частицы. Что интересно, в тот момент ещё даже существование нейтрона было не доказано, и Паули по факту придумал и нейтрон, и нейтрино (название пришло уже от Ферми), и не сразу стало ясно, что это разные частицы. Когда стало ясно, Паули считал, что обнаружить нейтрино ("нейтрончик") не удастся.

Лет через пятнадцать Бруно Понтекорво (в последующем сбежавший в Советский Союз, но в конце жизни жалевший об этом) предложил способ как таки можно его обнаружить, если работать на больших числах (на сильном потоке и с большим количеством вещества в детекторе). В итоге в середине 50-х сумели таки обнаружить (анти)нейтрино от ядерных реакторов. Потом был челлендж поймать солнечные нейтрино, а когда поймали, понять почему их так мало (примерно в три раза меньше ожидаемого) и всё ли ок с солнцем и нашими моделями, и нет ли косяков в экспериментах (а там надо было детектировать считанные атомы на тонны вещества). И после долгих пересчётов и экспериментов понять наконец, что это не ошибки, и есть три разных типа нейтрино и они ещё и осциллируют (превращаются друг в друга). Это финально подтвердили только в начале 2000-х. Вот большая часть книги про эти поиски и эксперименты, включая также детекцию нейтрино от сверхновой в соседней галактике.

Вторая книга совсем иная. Она конкретно про Этторе Майорану и также сильно про нейтрино, которое, возможно, является майорановской частицей -- когда она же одновременно и своя античастица.

История Майораны -- большая загадка. Он был явно очень талантлив, не менее (и вероятно более) чем Ферми. Он входил в изначальный коллектив итальянского института и в группу Ферми, откуда вышло много Нобелевских лауреатов по ядерной физике. Туда же потом пришёл и Понтекорво, то есть реально центр экспертизы в нейтрино родился там.

Майорана почти не публиковался (ему было неинтересно), часть своих работ он уничтожал после того как они были готовы, часть его бумаг была потеряна. Однажды он просто исчез, и до сих пор есть множество теорий, что с ним могло произойти, от суицида, через бегство в монастырь или в Аргентину (он снял все свои деньги перед исчезновением), до похищения какой-нибудь разведкой (например, СССР, потому что он мог быть близок к созданию атомной бомбы) или даже инопланетянами. Или ещё сбежал в четвёртое измерение, и его могут видеть только кошки 🙀 В общем ответа нет, а спекуляций много.

Интересно, кстати, что та самая группа была очень близка к открытию ядерного распада и цепной реакции ещё в 1934-м (уже в фашистской Италии), когда они систематически обстреливали нейтронами всю таблицу Менделеева, но результат для урана интерпретировали неправильно (и проигнорировали правильную обратную связь от Иды Ноддак). В итоге это открытие случилось уже в 1939-м. Мир мог бы быть совсем другим, не факт что лучше.

В части нейтрино эта книга описывает вещи за пределами книги Клоуза. Здесь есть про двойной безнейтринный бета распад (он был бы подтверждением майорановости нейтрино), здесь мне кажется получше передана суть осцилляций. Книга сильно более неформальная, чем первая, и в целом выступает неплохим историческим взглядом в ту эпоху и конкретно в жизнь Италии (и немного Германии). И безусловно в жизнь самого Майораны. Короче, зачётная, редкого жанра.

#books

Читать полностью…

gonzo-обзоры ML статей

🔬 Метод

Форматы FP4

Первым делом исследуют конфигурации форматов FP4. Напомню, что MXFP4 квантизует веса группами по 32 и квантизует скейлы в E8M0, а NVFP4 группами по 16 и скейлы в E4M3. Авторы фиксируют размер группы 16 и перебирают варианты квантизации скейлов от E1M6 до E8M0. Обучают Llama-like LLM на 350M параметров и замечают, что при E4M3/E3M4 скейлах достигается минимальный лосс (при фиксированном числе итераций). Из всех конфигураций расходится только E1M6 (c cамым узким диапазоном). В дальнейшем везде используют E4M3. Блоки размера 16 выбирают так как при больших лосс сходится хуже, а меньшие уже не дают профита.

Стохастическая квантизация

Квантизовать можно к ближайшему значению, а можно стохастически - вверх или вниз, с вероятностью, зависящей от расстояния до соседа.

Ребята из интела перебирают разные варианты детерминистического и стохастического квантования для весов/градиентов и активаций и получают, что лучше всего сходится вариант с детерминированной квантизацией весов и активаций на прямом проходе, и стохастической для градиентов и активаций на обратном проходе, Роль стохастики в квантизации - уменьшить bias, возникающий из-за округления тензоров.

В ходе оптимизации сигнал от градиента постепенно убывает и с какого-то момента перекрывается шумом оптимизации. Не мудрствуя лукаво, авторы предлагают обучать небольшое время с градиентами в более высокой (bf16) точности (на прямом проходе все еще FP4). И это позволяет сойтись до уровня half-precision обучения за то же суммарное число итераций.

🧪Эксперименты

Обучают семейство моделей архитектуры Llama-2 на датасете Красная Пижама. В главном эксперименте учат модель размера 7B на 1Т токенах причем не абы на чем, а на ускорителях Intel Gaudi2 (сыр 🧀 тут ни при чем, это в честь архитектора)

Обучение идет без спайков, лосс отстает несколько от bf16 бейзлайна, но нагоняет после короткой фазы с более точными градиентами (QAF).

0-шоты без QAF чуть хуже безйлайна, с QAF - такие же примерно. Впрочем, все равно оно лишь чуть лучше рандома)

💡 Выводы

Выглядит как очередной аргумент перейти на обучение LLM в FP4. Сам по себе метод выглядит не шибко изощренно, хотя необходимость QAF для лучших результатов несколько противоречит названию статьи (надо было назвать FP4 Most the way). Quartet в этом отношении по изящнее. Интересно, кто из крупных игроков выложит первый техрепорт про полное обучение серьезной модели в FP4? Ставлю либо на Нвидию, либо на Moonshot.

Читать полностью…

gonzo-обзоры ML статей

More FP4 training is coming!

Читать полностью…

gonzo-обзоры ML статей

Детали апдейта DeepSeek-V3.1 подъехали

https://api-docs.deepseek.com/news/news250821

Читать полностью…

gonzo-обзоры ML статей

Вы наверное уже видели.

Claim: gpt-5-pro can prove new interesting mathematics.

Proof: I took a convex optimization paper with a clean open problem in it and asked gpt-5-pro to work on it. It proved a better bound than what is in the paper, and I checked the proof it's correct.

Details below.

https://x.com/SebastienBubeck/status/1958198661139009862?t=m5Mzg_cRq9lLqgrx3yIzIQ&s=19

Читать полностью…

gonzo-обзоры ML статей

Популярная новость сегодняшнего дня :)

https://www.reuters.com/business/ai-slows-down-some-experienced-software-developers-study-finds-2025-07-10/

Before the study, the open-source developers believed using AI would speed them up, estimating it would decrease task completion time by 24%. Even after completing the tasks with AI, the developers believed that they had decreased task times by 20%. But the study found that using AI did the opposite: it increased task completion time by 19%.

Читать полностью…

gonzo-обзоры ML статей

Вот ещё очень интересная картинка, спасибо Fedor Shabashev за ссылку.

https://papercopilot.com/paper-list/neurips-paper-list/neurips-2024-paper-list/

Страна аффилиации первого автора

Читать полностью…

gonzo-обзоры ML статей

Интересная работа от соавтора резнетов. Новый лосс для диффузионок, позволяющий получать бенефиты контрастивного обучения без положительных пар. Дешёвый лосс, который при добавлении к сильным бейзлайнам, заметно их улучшает.

Читать тут: /channel/gonzo_ML_podcasts/303

Читать полностью…

gonzo-обзоры ML статей

Вдруг вам нечем заняться в субботу вечером, а тут свежий Теренс Тао

https://www.youtube.com/watch?v=HUkBz-cdB-k

Читать полностью…
Subscribe to a channel