Telegram-канал dl_stories - DLStories: Unsorted - каталог телеграмм

DLStories

26 June 2023 17:23

Интересная статья аж с 2020 года от Facebook AI: Improving Transformer Models by Reordering their Sublayers

Авторы говорят вот что: смотрите, трансформеры у нас обычно состоят из слоев FC и self-attention (SA), которые идут друг за другом: SA-FC-SA-FC-...
Но почему слои трансформеров должны идти именно в таком порядке? Что если такое устройство — не оптимальное?

Авторы провели следующий эксперимент:
Зафиксировали количество параметров. Рандомно сгенерировали 20 вариантов трансформеров с этим количеством параметров. В каждой модели было по 16 слоев SA и FC, но их порядок отличался. Порядок слоев — это как раз то, что генерировалось рандомно. Могли быть, например, такие варианты моделей:
FC-FC-FC-SA-SA-FC-...
SA-FC-FC-SA-SA-SA-...

Далее все полученные модели обучили на задачу языкового моделирования на датасете WikiText-103 и посчитали perplexity на тестовой части. Оказалось, что треть полученных моделей имеют perplexity не хуже, чем у бейзлайна (трансформера со стандартной структурой слоев). А некоторые — лучше.

Авторы решили понять, что отличает те архитектуры, которые показали лучший perplexity. Единственный паттерн, который смогли заметить — у таких архитектур в начале больше слоев SA, а в конце — больше слоев FC.

Чтобы проверить гипотезу, что именно это свойство улучшает модель, авторы провели следующие эксперименты:
1. Обучили трансформер, у которого сначала идут 16 слоев SA, затем — 16 слоев FC. Но тут прироста в качестве не получилось. Хотя, надо заметить, что качество и не упало: оно оказалось на уровне бейзлайна.
2. Обучили разные трансформеры вида SA^k (SA-FC)^(n-k) (FC)^k. То есть, архитектуры, где в начале идет несколько слоев SA, затем слои SA и FC чередуются, и в конце идет набор слоев FC. Такой вид модели назвали Sandwitch Transformer.
Оказалось, что практически все варианты Sandwitch Transformer с тем же количеством параметров, что у бейзлайна, получают perplexity не хуже. А некоторые даже лучше. Например, Sandwitch Transformer для n=16, k=6 получил perplexity=17.96, когда у бейзлайна 18.7 (perplexity был усреднен после 5 запусков с разным random_seed)

Почему наблюдается такое поведение (что Sandwitch Transformer лучшает качество), авторы статьи выяснить не смогли. Но смогли понять вот что: если достаточно сильно отойти от классической архитектуры, где SA и FC чередуются, то слои SA начинают выучивать другие паттерны, нежели слои SA у классического трансформера.
В принципе, это неудивительно, т.к. слои выучивают такие паттерны, чтобы вся сеть работала хорошо. Если архитектура сети меняется, логично, что слои начнут выучивать другие паттерны. Но хорошо то, что авторы проверили это на практике. Возможно, эту идею как-то можно использовать для лучшего понимания, что и зачем выучивают слои SA разных трансформеров.

Позже еще посмотрю на цитирования этой статьи. Может, там есть что интересное на основе этой работы.

📄 Статья