Telegram-канал gonzo_ml - gonzo-обзоры ML статей: Unsorted

gonzo-обзоры ML статей

23 May 2026 19:26

Красивая история. UT с последовательным применением линейного внимания увеличивает выразительность трансформера, одновременно сохраняя разумную вычислительную сложность.

LT2: Linear-Time Looped Transformers
Chunyuan Deng, Yizhe Zhang, Rui-jie Zhu, Yuanyuan Xu, Jiarui Liu, T. S. Eugene Ng, and Hanjie Chen
Paper: https://arxiv.org/abs/2605.20670
Code: https://github.com/chili-lab/LT2
Model: https://huggingface.co/chili-lab/Ouro-hybrid-1.4B
Review: https://arxiviq.substack.com/p/lt2-linear-time-looped-transformers

# TL;DR

ЧТО сделали: Авторы представили архитектуру LT2 (Linear-Time Looped Transformers) — семейство рекурсивных моделей, в которых ресурсоёмкое квадратичное внимание заменено на субквадратичные, линейные или разреженные механизмы смешивания токенов. Также они предложили гибридный подход, сочетающий разные типы внимания по глубине и шагам цикла, и разработали многоэтапную стратегию дистилляции для переноса весов из предобученных полносвязных зацикленных трансформеров.

ПОЧЕМУ это важно: Хотя зацикленные трансформеры отлично экономят параметры за счёт повторного использования слоёв, стандартный softmax attention заставляет объём вычислений при обучении и размер KV-cache расти квадратично от длины контекста. LT2 устраняет это узкое место. Исследователи доказали, что зацикливание качественно обогащает субквадратичные миксеры — оно расширяет комбинаторное рецептивное поле разреженного внимания и повышает ранг состояния линейного внимания. Это позволяет запускать мощные рассуждающие модели на длинных контекстах с минимальным потреблением памяти.

Для практиков: Разработанный метод дистилляции даёт готовый рецепт превращения тяжёлой зацикленной модели с полным вниманием в лёгкую субквадратичную версию. Это сокращает объём памяти под KV-cache и ускоряет инференс в 5–6 раз без потери качества работы с длинным контекстом.

Линейно зацикливать здесь: /channel/gonzo_ML_podcasts/3714