Telegram-канал dl_stories - DLStories: Unsorted - каталог телеграмм

DLStories

05 September 2023 14:43

FILIP: CLIP, у которого близость можно измерять между эмбеддингами отдельных патчей картинки и токенов текста.
(статья еще с 2021, но я реально об этой идее узнала вот прям недавно)

Как работает обычный CLIP:
У обычного CLIP text и image encoder — это трансформеры. Image Encoder — это ViT, который разбивает картинку на 16х16 патчей, и на последнем слое выдает эмбеддинги каждого патча + эмббединг специального CLS токена. Text encoder — трансформер, который выдает эмбеддинги токенов текста. Текст при этом обрамляется токенами <BOS> и <EOS>.
Эмбеддинги CLS токена картинки и <EOS> токена текста считаются эмбеддингами картинки и текста соответственно. И CLIP учится делать так, чтобы эмбеддинги CLS токена картинки и <EOS> токена текста были близки для пар (картинка, описание этой картинки), и далеки для пар (картинка, текст), где текст не является описанием картинки.

Что предлагают в FILIP:
Предлагают чуть изменить лосс-функцию CLIP так, чтобы можно было измерять близость между эмбеддингами всех патчей картинки и всех токенов текста. Т.е. чтобы можно было понять, какая часть картинки соответствует какому куску текста.

Для этого предлагают на каждой итерации обучения делать вот что. Пусть нам пришла пара (картинка, текст). Прогоняем их через image и text encoder и делаем следующее:
- для каждого эмбеддинга патча картинки I_i ищем самый близкий эмбеддинг токена текста T_imax;
- считаем общую близость картинки к тексту L_IT как среднее произведений I_i • T_imax для каждого патча картинки;
- то же самое делаем в обратном направлении: т.е. для каждого эмбеддинга токена текста ищем самый близкий эмбеддинг патча картинки и считаем общую близость текста к картинке L_TI;
- итоговая близость картинки и текста L = L_IT + L_TI
- делаем итерацию обучения сети с помощью L и contrastive loss. Т.е. если пара (картинка, текст) соответствуют друг другу, мы максимизируем L, если не соответствует — минимизируем.

Кажется, что такое обучение заставляет FILIP выучивать больше деталей об изображениях. Это подтверждается экспериментами по zero-shot text-to-image и image-to-text retrieval: на 2021 год FILIP брал SOTA. По сравнению с CLIP прирост был очень существенный.
Ну и еще такой вид обучения позволяет с небольшими дополнениями построить prompt-based сегментацию на основе FILIP. Но об этом в следующий раз =)

Напоследок надо сказать, что такой вид обучения занимает гораздо больше времени и памяти. Авторы статьи решают это тем, что уменьшают размер эмбеддингов до 256 и точность значений эмбеддингов с fp32 до fp16.

📄Статья