dl_stories | Unsorted

Telegram-канал dl_stories - DLStories

14983

Что-то про AI Research и AI образование от Танечки Сотрудничество/предложения: @atmyre

Subscribe to a channel

DLStories

Интересная статья аж с 2020 года от Facebook AI: Improving Transformer Models by Reordering their Sublayers

Авторы говорят вот что: смотрите, трансформеры у нас обычно состоят из слоев FC и self-attention (SA), которые идут друг за другом: SA-FC-SA-FC-...
Но почему слои трансформеров должны идти именно в таком порядке? Что если такое устройство — не оптимальное?

Авторы провели следующий эксперимент:
Зафиксировали количество параметров. Рандомно сгенерировали 20 вариантов трансформеров с этим количеством параметров. В каждой модели было по 16 слоев SA и FC, но их порядок отличался. Порядок слоев — это как раз то, что генерировалось рандомно. Могли быть, например, такие варианты моделей:
FC-FC-FC-SA-SA-FC-...
SA-FC-FC-SA-SA-SA-...

Далее все полученные модели обучили на задачу языкового моделирования на датасете WikiText-103 и посчитали perplexity на тестовой части. Оказалось, что треть полученных моделей имеют perplexity не хуже, чем у бейзлайна (трансформера со стандартной структурой слоев). А некоторые — лучше.

Авторы решили понять, что отличает те архитектуры, которые показали лучший perplexity. Единственный паттерн, который смогли заметить — у таких архитектур в начале больше слоев SA, а в конце — больше слоев FC.

Чтобы проверить гипотезу, что именно это свойство улучшает модель, авторы провели следующие эксперименты:
1. Обучили трансформер, у которого сначала идут 16 слоев SA, затем — 16 слоев FC. Но тут прироста в качестве не получилось. Хотя, надо заметить, что качество и не упало: оно оказалось на уровне бейзлайна.
2. Обучили разные трансформеры вида SA^k (SA-FC)^(n-k) (FC)^k. То есть, архитектуры, где в начале идет несколько слоев SA, затем слои SA и FC чередуются, и в конце идет набор слоев FC. Такой вид модели назвали Sandwitch Transformer.
Оказалось, что практически все варианты Sandwitch Transformer с тем же количеством параметров, что у бейзлайна, получают perplexity не хуже. А некоторые даже лучше. Например, Sandwitch Transformer для n=16, k=6 получил perplexity=17.96, когда у бейзлайна 18.7 (perplexity был усреднен после 5 запусков с разным random_seed)

Почему наблюдается такое поведение (что Sandwitch Transformer лучшает качество), авторы статьи выяснить не смогли. Но смогли понять вот что: если достаточно сильно отойти от классической архитектуры, где SA и FC чередуются, то слои SA начинают выучивать другие паттерны, нежели слои SA у классического трансформера.
В принципе, это неудивительно, т.к. слои выучивают такие паттерны, чтобы вся сеть работала хорошо. Если архитектура сети меняется, логично, что слои начнут выучивать другие паттерны. Но хорошо то, что авторы проверили это на практике. Возможно, эту идею как-то можно использовать для лучшего понимания, что и зачем выучивают слои SA разных трансформеров.

Позже еще посмотрю на цитирования этой статьи. Может, там есть что интересное на основе этой работы.

📄 Статья

Читать полностью…

DLStories

Курс «Английский для разработчиков» Яндекс Практикума
#промо

Для тех, кто хочет изменить свою профессиональную жизнь и работать в международной команде.

Обучение построено не вокруг абстрактной теории, а вокруг рабочих ситуаций и полезных для карьеры навыков:

Стендапы. Подготовитесь обсуждать задачи, задавать вопросы и просить о помощи.
👨‍💻 Работа с заказчиками. Научитесь презентовать решения, говорить про баги и фичи.
📣 Митапы. Сможете понимать на слух доклады и выступать сами.
😎 Собеседования. Научитесь рассказывать про свой опыт, понимать вопросы и тактично переспрашивать.
👯 Неформальное общение с коллегами. Сможете рассказать о своих интересах, опыте, планах на будущее.
💻 Код-ревью. Сможете описать сделанное, дать обратную связь, тактично отстоять своё мнение.

Запишитесь на бесплатную консультацию. Кураторы определят ваш уровень языка и расскажут подробнее про обучение.

Читать полностью…

DLStories

Understanding Optimization of Deep Learning

Крутой обзор всех аспектов и методов оптимизации нейронных сетей. Тут описано как бороться с возникающими проблемами, в чём отличия оптимизаторов, почему трансформеры капризнее резнетов (сильная кривизна лосса → большое значение константы Липшица) и ещё много всего интересного на 50 страниц.

P.S. На картинке показано как можно справиться с взрывающимися градиентами.

Статья

Читать полностью…

DLStories

Картинки к посту выше. Первая — примеры генерации сложных сцен со сложными отношениями между объектами. Видно, что Control-GPT (моделька из статьи) справляется лучше

Вторая картинка — примеры, как выглядят векторные картинки из GPT-4, и затем итоговые из ControlNet. Картинки не всегда визуально красивые, иногда немного странные, но layout и отношения сохраняются хорошо

Читать полностью…

DLStories

Статья с ICLR 2023: Кривизна внутреннего представления данных в vision моделях является хорошим показателем робастности моделей

Звучит, наверное, страшно и непонятно, но на самом деле все очень просто. Давайте по порядку. Для начала, что такое "кривизна внутреннего представления":

В двух словах — это то, насколько сильно отличаются между собой внутренние представления (эмбеддинги) модели для последовательных кадров видео.

Считается кривизна так: берем vision модель. Например, ResNet18. Берем видео. Например, мультик про Чебурашку. Подаем кадры видео один за одним в модель, получаем эмбеддинг для каждого кадра. Обозначим эти эмбеддинги как {x_t}. Теперь вычисляем разность между парами последовательных эмбеддингов: v_t = x_t - x_{t-1}. Получаем последовательность {v_t}. Теперь вычисляем косинусную близость между последовательными векторами v_{t-1} и v_t. Среднее значение косинусной близости между всеми парами последовательных векторов v_{t-1} и v_t и будет значением кривизны внутреннего представления данных для нашей модели.

Было показано, что у людей внутренние представления картинок, получаемые из органов зрения, имеют меньшую кривизну, чем сами эти картинки (если считать кривизну между пиксельными представлениями картинок). То есть, представление потока картинок как бы "выпрямляется" у нас в голове, становится более стабильным во времени. Кажется, это свойство может иметь что-то общее с генерализуемостью и робастностью моделей для классификации. Типа, стабильность внутренних представлений модели во времени говорит о том, что эти представления довольно общие и хорошо генерализуемые.

Эксперименты показывают, что смысл в этом действительно есть. В целом, чем кривизна меньше, тем выше робастность модели. Вот какие выводы получились по итогам экспериментов:
- CNN модели, обученные с помощью adversarial training, имеют меньшую кривизну, чем те же модели без adversarial training;
- кривизна self-supervised ViT (DINO-v1) меньше, чем кривизна supervised ViT. Возможно, это говорит о том, что self-supervised обучение позволяет выучивать более робастные и общие представления, чем supervised обучение (но тут, имхо, надо больше экспериментов);
- У модели, в устройстве которых используются идеи из биологии (biologically-inspired models), внутренние представления оказываются более "выпрямленными". Причем чем глубже слой сети, тем меньше становится кривизна эмбеддингов. Прям как у людей.
Однако у одной из таких моделей (VOneNet) кривизна перестает уменьшаться начиная с некоторой глубины слоя. При этом эта нейросеть довольно робастна к состязательным атакам. Это означает, что нельзя отождествлять кривизну внутреннего представления с робастностью модели. Т.е. из того, что модель робастна, не обязательно следует, что ее внутренние представления будут стабильны.

В общем, кажется, кривизна внутренних представлений модели может быть одним из показателей робастности и генерализуемости этой модели. Но, кажется, further research is needed, чтобы лучше понять связь кривизны с качеством vision моделей.

📄 Статья

Читать полностью…

DLStories

^ Это вчера Apple на конференции WWDC показали свои AR/VR-очки Vision Pro (ставьте 👀, если смотрели конфу). Судя по описанию, эти очки должны быть действительно удобными и функциональными: не очень громоздкие, управляются жестами/движениями глаз. А еще — режим AR, прям как во всех модных фильмах, когда ты такой идешь по улице и сканируешь окружающее пространство в реальном времени)

До этого момента, как вы видели, я в канале про VR/AR не писала. Меня не особо привлекал AI в этих темах, потому что, как мне казалось, он в основном сводился к созданию реалистичных 3D-аватаров или около того. Но вот после поста, который я переслала выше, стало реально интересно. Руки чешутся эту шткук от Apple попробовать (а ее, кстати, не пробовал еще никто, после презентации вчера журналистам дали только посмотреть)

Читать полностью…

DLStories

Вообще, с таким проникновением AI технологий в повседневную жизнь и в профессии людей, которые к AI отношения не имели, кажется, что потребность в подобных вводно-поверхностных курсах будет повышаться. Люди захотят больше понимать, как работает то, что они используют, при этом не залезая в дебри матричных операций и градиентных оптимизаций.

Хороший пример, кому такие курсы будут точно полезны — журналисты. Многие из них хотят понимать, о чем пишут, не написать бреда и уметь хоть как-то критически оценивать новости, чтобы потом их выкладывать. Еще лет 6 назад, когда мы только создавали DLS, к нашей команде даже поступило предложение создать подобный вводный курс по ML для студентов журналистики одного вуза. Правда, дальше это так и не пошло.

Так вот. В таких курсах встает вопрос, насколько глубоко и сложно рассказывать. Если рассказывать слишком просто, есть шанс, что это породит неверное понимание — например, слишком "простой" взгляд на модели с неверными последующими выводами. Посмотрите на курсы по созданию промптов для ChatGPT)).
А если рассказывать сложно — это отобъет желание учиться.

Я сама несколько раз думала над этим вопросом: мне интересно с точки зрения методики преподавания (свой подобный курс я выпускать не собираюсь, не переживайте, это не прогрев)

Короче, кажется, это такой вызов индустрии образования) Миникурс от Гугла выше — один из первых таких примеров. Посмотрим, как это будет развиваться.

Читать полностью…

DLStories

И последний пост на сегодня (обещаю): что я вообще стала писать об этом докладе спустя неделю.

Вспомнила я о Хинтоне, потому что сегодня вышел Statement on AI Risk — абзац текста, под которым подписались (если верить сайту) многие известные люди, включая Хинтона, Сема Альтмана и Демиса Хассабиса.
Этот текст не призывает ничего нигде запрещать и паниковать, а призывает обратить внимание на возможные риски, связанные с AI. Призывает вести об этом дискуссии и обмениваться опытом.

Ссылка вот. Если хотите, документ можно подписать.

Читать полностью…

DLStories

Напоминаю, что трансляция начнется через 5 минут, будет тут: https://www.youtube.com/watch?v=V_Zu6hEoqAE

Приходите!

Читать полностью…

DLStories

Такс, еще один анонс: на следующей неделе я буду записывать новый выпуск подкаста Deep Learning Stories. Гостьей будет Ольга Кардымон — научный сотрудник и руководитель группы «Биоинформатика» Института искусственного интеллекта AIRI

С Ольгой планируем обсудить:
- Языковые модели в работе с ДНК и белками. Почему NLP вообще подходит для изучения ДНК и белков и зачем нужна языковая модель ДНК;
- Последние достижения в генетике и биоинформатике;
- Что получило человечество после появления Alphafold;
- Путь Ольги в науке: из чистой биологии до AI.

Как обычно, перед записью мне нужны ваши вопросы. Что вам было бы интересно узнать у Ольги? Пишите вопросы в комментарии, и во время записи мы добавим эти вопросы в программу.

P.S. Прошлые выпуски подкаста Deep Learning Stroeis можно найти тут:
- Yandex Music
- Apple Music
- Google Music
- Spotify
- Anchor.fm
- YouTube

Читать полностью…

DLStories

Новая работа на тему реконструкции текста на основе сигналов МРТ головного мозга

Ребята из Техасского университета предложили новый метод реконструирования текста, который слышит человек, на основе МРТ-сигнала мозга. Причем декодирование происходит в связный текст, который семантически близок к реальному.

Как обычно, дислеймер: я мало понимаю в методах нейробиологии и том, как оценивать качество таких исследований. Также из-за этого не могу разобраться в некоторых нюансах работы. Если я где-то ошиблась, пишите об этом в комментарии.

Итак, задача реконструкции текста на основе сигналов головного мозга:

Задачу декодирования текста, которую слышит (или даже мысленно произносит) человек, пытались решать и раньше. Подходы тут делятся на два вида по тому, как извлекается сигнал из мозга. Первый вид — инвазивные методы извлечения сигнала. Это когда в голову человеку вживается чип, который считывает сигналы непосредственно с нейронов в мозга. Эти подходы, понятно, дорогие и сложные. Второй вид — неинвазивные методы извлечения сигнала, такие как МРТ, М/ЭЭГ. Эти подходы дешевле и проще, голову никому сверлить не надо.

Но у неинвазивных методов получения сигналов мозга есть большой недостаток. Когда человек подвергается какому-то стимулу (например, слышит слово), этот стимул влияет на показатели МРТ примерно в течение 10 секунд. Человек, который бегло говорит на английском языке, произносит примерно 2 слова в секунду. Получается, если записывать сигнал МРТ во время прослушивания английской речи, каждая МРТ-картинка будет содержать информацию об обработке мозгом примерно двадцати слов.

Из-за этого точно восстановить текст, который слышит человек, по МРТ не получается. И многие прошлые работы по теме восстановления текста по сигналам мозга, полученным неинвазивными методами, умели хорошо восстанавливать только отдельные слова и фразы.

А ребята из Техаса придумали, как по МРТ восстанавливать (почти) связный текст. Этот текст не будет точно таким же, что в реальности слышал человек. Но он будет семантически похож, т.е. будет отражать в целом правильный смысл.

Очень общая идея метода:
Сначала обучаем сеть-энкодер, которая учится по куску текста восстанавливать МРТ-картину могза, соответствующую этому куску текста. Затем берем предобученную языковую модель (например, GPT), и делаем следующее:
Каждые две секунды просим GPT сгенерировать несколько вариантов продолжения текста. Эти несколько вариантов подаем на вход сети-энкодеру, который по ним пытается обратно восстановить текущую МРТ-картину. Тот вариант текста, по которому удалось получить наиболее похожий на реальный МРТ-сигнал, считаем верным.

Таким нехитрым способом авторы получают (почти) связный текст по сигналам МРТ со смыслом, в основном отражающим смысл оригинала. Конечно, есть семантические ошибки, но статистически сгенерированные тексты по нескольким метрикам действительно ближе к оригиналу, чем случайный текст.

Вот пример:
Оригинал: I didn't know whether to scream cry or run away instead I said leave me alone I don't need your help adam disappeared and I cleaned up alone crying
Генерация: Started to scream and cry and then she just said I told you to leave me alone you can't hurt me anymore I'm sorry and then he stormed off thought he had left I started to cry

Если применить эту идею к воображаемой речи, а не к прослушиванию чужих записей, то у такой технологии будет масса применений. Авторы этой статьи даже провели эксперимент по реконструкции воображаемой речи. Опять же, полученные тексты оказались более близкими к оригиналам, чем случайные. Т.е. метод как-то работает.

А еще с помощью подобных моделей можно исследовать функции разных частей мозга. В этой работе МРТ сигнал брался с трез разных частей мозга, которые обрабатывают слышимую речь. Добавляя и убирая сигналы с разных частей мозга из входа модели, можно что-то понимать о том, какую часть информации обрабатывает какая часть мозга. А еще можно сравнивать реконструкции модели-энкодера на основе сигналов из разных частей.

📄 Статья
Инфу о ней прочитала у Дениса

Читать полностью…

DLStories

Как не забывать теорию Deep Learning и учить новое?
#промо

Можно подписаться на канал DeepSchool! Авторы канала — практикующие ML-инженеры, и они понятным языком расскажут вам о своей работе.

В канале вы найдете:
- короткие посты с теорией;
- разборы статей;
- советы по обучению сетей;
- вопросы с собеседований;
- и обзоры фреймворков.

Примеры постов:
1. Обзор ключевых идей MobileNet — что делает эту архитектуру столь эффективной;
2. Инструкция: на что обращать внимание при выборе и подготовке датасета;
3. Что такое attention;
4. Об асинхронности вычислений на GPU;
5. Вопрос с собеседования на дообучение сегментационной модели.

Кроме этого, в канале бывают живые интервью с людьми из ML-сферы. Например, вот интервью с Владом Лялиным — PhD студентом в University of Massachusetts Lowell. Говорили про то, как попасть на PhD в США, как подготовиться к собеседованию на стажировку в Google, Apple, Amazon, и про отличия DS-сообществ СНГ и США.

Подписывайтесь, чтобы прокачиваться в ML и узнавать новое вместе c нами =)

Читать полностью…

DLStories

Foundation Models in Computer Vision, часть 1.

В этом и следующем посте суммаризую свои мысли по поводу того, как и на основе каких идей может появиться foundation model для задач, связанных с картинками.

Для начала, в этом посте поговорим о том, что такое foundation model.

Прямо четкого определения foundation model, насколько я знаю, нет. Чаще всего под этим понимают такую модель машинного обучения, которая обучалась на какую-то задачу на огромном количестве данных, и это заставило модель выучивать хорошие и полезные внутренние представления этих данных. "Хорошие и полезные" означает, что либо эту модель после обучения можно напрямую применять для решения кучи разных задач, либо же эту модель (или ее часть) можно легко дообучить для решения кучи разных задач.
Еще одно важное свойство, которое должно быть у foundation моделей — то, что они должны масштабироваться. То есть, пусть у нас есть foundation model X. Мы ожидаем, что если мы посмтроим модель побольше, и обучим ее на ту же самую задачу на еще большем количестве данных, то эта модель сможет выучить еще более хорошие, полезные и точные внутренние представления объектов. И ее внутренние представления объектов должны давать еще более лучший результат при дообучении на другие задачи.

Получается, чтобы получить foundation model, нужно придумать такую задачу, что при обучении модели на эту задачу модель сможет выучивать хорошие внутренние представления объектов. И при этом задача должна быть такой, что при увеличении размера модели и кол-ва данных для обучения модель будет выучивать все более полезные и точные представления объектов.

В сфере NLP такую задачу придумали — это языковое моделирование. На ее основе получились GPT, которые смело можно назвать foundation model в NLP. Действительно, мы видим, что GPT — это модель, которая была обучена на большом количестве данных, и может решать самые разнообразные задачи: question answering, машинный перевод, суммаризация текста и т.п. И для нее выполняется условие масштабируемости: увеличивая размер модели и кол-во данных (GPT-2 -> GPT-3 -> GPT-4) мы получаем все более "умную" модель. Конечно, при переходе от GPT-3 к GPT-4 сам процесс обучения модели немного изменился, стал более сложным. Но суть его осталась той же, поэтому все еще можно говорить о масштабируемости.

Огромный плюс задачи языкового моделирования в том, что для нее не нужно размечать данные, и сам процесс обучения модели довольно прост. Набираем корпус текстов и заставляем модель предсказывать следующий токен на основе предыдущих. То, что разметка данных не нужна, позволяет достаточно просто модели масштабировать. Поэтому, к слову, когда говорят о foundation models, обычно имеют в виду модели, обученные в self-supervised/unsupervised режимах.

В сфере CV с foundation models дела обстоят сложнее. Прямого аналога задачи языкового моделирования тут нет, поэтому приходится изобретать что-то другое. Есть несколько идей обучения CV моделей, которые являются кандидатами на получение foundation model. Их и разберу в следующем посте ⬇️

Читать полностью…

DLStories

О чем этот канал и что тут есть

Всем привет! За последний год канал сильно вырос, а я как-то даже и не писала за это время о том, кто я, что это за канал и что тут есть. Исправляюсь!

Кто я:
Меня зовут Таня, я — единственный автор этого канала. Сейчас я PhD студент в Queen Mary University of London, исследую foundation модели computer vision. Как только из моей научки выйдет что-то хорошее, обязательно поделюсь с вами)
До PhD я работала AI рисерчером в Philips и Huawei. А еще я преподаю глубокое обучение и computer vision. Например, я один из создателей и преподавателей Deep Learning School — это бесплатная школа глубокого обучения при МФТИ. Мы проводим наборы каждый семестр, а все наши лекции и семинары лежат в открытом достпе на YouTube-канале. Подробнее о школе можно почитать тут.
Кроме этого, мы с командой DLS также записали бесплатный курс по основам машинного обучения. Подробнее о курсе тут.

О чем канал:
В канале я в основном разбираю интересные научные статьи по разным темам AI. Стараюсь разбирать как можно более полно и понятно, выделяя суть. Разборы можно найти по хэштегу #paper. Некоторые из них получаются слишком длинными, и я пишу их в atmyre">Teletype.
Кроме разборов тут бывают ссылки на обучающие материалы (хэштег #learning), а также рассуждения на разные темы вокруг AI (хэштег #ai_inside). В целом, пишу о том, что меня интересует в данный момент.

Также на канале бывает реклама, она помечена хэштегом "промо". Реклама помогает мне не упасть в социальную яму как PhD студенту, а также добавляет мотивации делать разборы статей. Стараюсь делать рекламу нечасто.

Что еще есть полезного:
У меня есть подкаст Deep Learning Stories, куда я приглашаю разных людей из мира AI поговорить за разные темы. Сейчас в подкасте 7 выпусков. Среди них о том, как проходить собеседования в AI research, нужна ли математика в AI и какая, как там с AI в медицине, квантовой физике и сейсмологии, и просто рассуждения вокруг рисерча с крутыми гостями.
Подкаст можно найти тут:
- Yandex Music
- Apple Music
- Google Music
- Spotify
- Anchor.fm
- YouTube
(скоро планирую записывать еще выпуски)

Еще у меня есть две большие статьи на Хабре:
- Что такое inductive bias и где он есть в нейросетях;
- Структурное мышление, или важное отличие человека от ИИ

Вот так. Вроде бы, ничего не забыла. В общем, welcome новым читаталям! И большое спасибо тем, кто читает канал уже давно 💜
Если есть вопросы, прошу в комментарии)

Читать полностью…

DLStories

Недавно в своих странствиях в темах для исследований и статьях по vision набрела на задачу детекции сгенерированных изображений (fake image detection). В этом и следующем посте я опишу то, что это за задача, и почему она не так проста, как кажется. А дальше постараюсь суммаризовать идеи, на которых пытаются строить решение этой задачи.

Итак, задача fake image detection: почему она не так проста, как кажется:

Задача fake image detection — отличить изображения, сгенерированные нейросетью, от реальных. В свете того, что в последнее время выходит много классных open-source моделек для генерации картинок, и генерируют они уже довольно качественно (вы только посмотрите на IF!), задача начинает быть актуальной. Вспомним хотя бы картинку Папы Римского в пуховике и картинки Трампа за решеткой: насколько я слышала, на них реально повелось много народу.

Несмотря на актуальность задачи, с исследовательской точки зрения подступиться к ней не так просто. Главный нюанс — непонятно, как построить датасет и систему оценки моделей.

Смотрите, мы, по сути, решаем задачу бинарной классификации: отличаем фейки от реальных картинок. Логично, что датасет должен состоять из двух видов картинок: реальных и фейковых. И вот тут начинаются проблемы:

1️⃣ Моделей для генерации картинок много разных. И постоянно выходят новые. Если собрать датасет картинок из конкретных моделей и учить на нем нейронку, есть риск переобучить ее на эти конкретные модели. И когда выйдет новая генеративка IF-2.0, на ней детекция фейков работать не будет. Ну и смысла в таком детекторе, который детектит только картинки из конкретных моделей, нет.

Эту проблему чаще всего решают так: собирают датасет фейковых картинок из нескольких моделей. И в тренировочной части оставляют фейки только из одной модели (например, ProGAN). А в тестовой части данных остаются фейки из всех других моделей — SD, Glide, других ГАНов, DALL-E и т.п. Таким образом проверяется то, что ваша модель для детекции может быть обучена на фейках из одной конкретной модели, но при этом научиться детектить фейки и из других генеративок.
Такой принцип разделения данных на трейн и тест сейчас, насколько я вижу, стандартный для статей в области детекции фейков.

2️⃣ Вторая проблема связана с балансированием фейковых и реальных картинок в датасете. Мы хотим, чтобы наша модель научилась отличать любые фейковые картинки от любых реальных. Для этого нужно убедиться, что в ваших данных реальные картинки отличаются от фейковых именно теми характеристиками, которые влияют на "фейковость". А в остальном распределения фейковых и реальных картинок должны быть одинаковы. Если сделать датасет из реальных картинок попугаев и фейковых картинок слонов, нейросеть прекрасно обучится их разделять, но что-то мне подсказывает, что на картинках вне этого датасета она хорошо работать не будет)

А сбалансировать датасет сложно. Нужно придумать такой принцип генерации данных, чтобы можно было из разных генеративных моделей генерировать максимально разнообразные, но похожие между собой по распределению данные. Задача еще усложняется тем, что некоторые модели генерят картинки на основе текста, а некоторые — нет.

Продолжение ⬇️

Читать полностью…

DLStories

Анонс: в четверг я буду записывать новый выпуск подкаста Deep Learning Stories. Гостем будет Андрей Васнецов — основатель & CTO Qdrant — стартапа, который разрабатывает векторную базу данных (что такое векторная база данных, можно узнать тут)

С Андреем планируем обсудить:
- Что такое векторные базы данных и где они применяются;
- Как векторные базы данных можно использовать в ChatGPT;
- В чем сложность реализации векторных баз данных;
- Путь Андрея в создании стартапа

Как обычно, перед записью мне нужны ваши вопросы. Что вам было бы интересно узнать у Андрея? Пишите вопросы в комментарии, и во время записи мы добавим эти вопросы в программу.

P.S. Прошлые выпуски подкаста Deep Learning Stroeis можно найти тут:
- Yandex Music
- Apple Music
- Google Music
- Spotify
- YouTube
Поддержать подкаст (скинуться на монтаж))) можно тут:
- рублями (Тинькофф)
- любая другая валюта (Revolut)

Читать полностью…

DLStories

Помните, DeepMind с помощью RL научили AlphaZero находить более эффективные алгоритмы перемножения матриц? (об этом пост был тут) Так вот, теперь они решили учить AlphaZero находить более эффективные алгоритмы сортировок. И, кажется, добились в этом каких-то успехов.
#paper

Подробнее:
Сортировка — это очень важная часть многих программ. Она используется очень часто. И уметь делать сортировку массивов эффективно (т.е. за как можно меньшее количество операций) — очень важно.

Как и в задаче перемножения матриц, существует несколько эффективных алгоритмов сортировки, которые применяются в разных ситуациях. Например, при разных размерах массивов и разной природе данных. И, как и в случае перемножения матриц, наиболее эффективные варианты сортировок для каждой ситуации были придуманы людьми. А что если попытаться учить нейросеть решать эту задачу? И вдруг она сможет найти более эффективный алгоритм, который люди придумать не смогли? С матрицами же такое проканало.

В DeepMind решили попробовать: взяли AlphaZero и представили задачу сортировки массива в виде игры. И обучали AlphaZero играть в эту игру с помощью RL. Эту модель назвали AlphaDev. Вот как устроена игра и обучение:

Состояние среды S — пара <P, Z>. Здесь P — это сгенерированный алгоритм сортировки на текущий момент на языке assembler. Z — текущее состояние памяти и регистров. В каждый момент времени t агент AlphaZero принимает на вход текущее состояние среды S = <P, Z>, и совершает действие a. Действие а — это добавление к текущему алгоритму P какой-либо новой инструкции на assembler. Например, mov<A,B>.

Так, шаг за шагом, AlphaZero строит итоговый алгоритм сортировки на ассемблере. Reward модели на каждом шаге составляется из двух величин — корректно ли работает алгоритм P, полученный на текущем шаге (correctness), и насколько долго работает этот алгоритм (latency). Корректность алгоритма проверяется на нескольких заранее заданных парах (вход, выход), где "вход" — неотсортированный массив чисел, "выход" — тот же, но уже отсортировнный массив.

Генерация алгоритма сортировки продолжается какое-то заранее заданное количество шагов. Если за это время не получен итоговый работающий алгоритм, генерация начинается сначала.

Обученную таким образом модель попросили выдать алгоритмы сортировки для последовтельностей длины 3, 4 и 5. Надо сказать, что существуют два варианта алгоритмов сортировок — те, которые могут сортировать последовательности фиксированной длины (fixed sort, например, алгоритм, который сортирует только массивы длины 4), и те, которые могут принимать на вход массивы разной длины (variable sort, например, алгоритм, который сортирует массивы длины от 1 до 5). Для обоих случаев авторы сравнили алгоритмы, полученные AlphaZero, с теми, которые сейчас используются в программах. И вышло, что в обоих случаях AlphaZero смогла найти более эффективные варианты алгоритмов. А точнее, в случае fixed sort получилось улучшить алгоритмы сортировки массивов длины 3 и 5, а в случае variable sort был найден интересный способ сортировки массивов длины 4.

Более подробно о том, как устроены найденные AlphaDev алгоритмы сортировки, читайте в статье Nature.

Читать полностью…

DLStories

Пара образовательных апдейтов:

1. Все доклады с DataFest смонтировали и собрали в одно место. Вот тут можно найти треки по разным тематикам, внутри треков — видео. Напомню, что я выступала в треке Instruct Models: там были доклады по RLHF, Instruction tuning (это мой), создание своей LLM'ки на практике и еще пара других. Если что, я перезаписала видео для выкладки, тех технических неполадок там не будет)

2. HuggingFace выпускают новый курс по работе с аудио. Курс будет тут, как обычно бесплатно. Уже есть структура первых модулей. Записаться на курс можно в формочке тут.

Еще напомню, что у HuggingFace есть и другие курсы:
- Deep RL Course
- NLP Course
- Diffusion Models Course

Читать полностью…

DLStories

Как хитро прикрутить GPT-4 к text-to-image модели

Как обычно устроены text-to-image модельки типа Stable Diffusion: берется предобученный text encoder, замораживается, через него прогоняется входящий текст, получаются эмбеддинги. Эти эмбеддинги затем подаются в качестве condition на вход модельке, которая генерирует картинку.

В качестве text encoder обычно берут CLIP или T5. Чем круче text encoder, который вы используете, тем лучше будет "понимание" текста моделью, и тем точнее сгенерированная картинка будет соответствовать тексту. Под "крутостью" text encoder я тут имею в виду то, насколько полные и информативные внутренние представления текста выучивает модель. Еще в этой работе было показано, как переход от эмбеддингов CLIP к T5 улучшает понимание моделью связей между объектами и позволяет генерировать правильный текст на картинке.

Однако даже T5 не способен идеально передать все связи между объектами в запросе. То есть, если подать на вход текст "единорог на цилиндре", мы иногда действительно будем получать картинку единорога на цилиндре, но иногда это будет единорог в/под/около цилиндра.

А GPT-4 — это, как бы, самый крутой text encoder, который у нас только есть. Скорее всего, он умеет лучше понимать отношения между объектами в тексте. Но доступа к модели GPT-4 для генерации эмбеддингов текста нет. Что же делать?

Ребята из UC Berkeley и Microsoft Research предложили такую идею:

Смотрите, GPT-4 может по текстовому запросу сгенерировать код формата TikZ, который задает векторную картинку. Например, по запросу "единорог на цилиндре" мы получим векторную картинку с очертаниями чего-то типа единорога, стоящего на чем-то типа цилиндра. Дальше берем ControlNet (эту штуку подробно разбирала тут). Подаем ControlNet на вход текстовый запрос и векторную картинку из GPT-4 в качестве condition. Получаем итоговую high-res картинку красивого единорога, стоящего на цилиндре.

Короче, этот метод позволяет неявно использовать GPT-4 в качестве text encoder для text-to-image модели, и тем самым повышает контролируемость результата генерации.

Единственный нюанс — чтобы использовать ControlNet в таком режиме, ее надо дообучить на датасете вида (текст, TikZ картинка, high-res картинка). Авторы собирают данные такого вида следующим образом: берут датасеты для image captioning LVIS and COCO. В этих датасетах также даны маски объектов. Эти маски объектов конвертируют в полигоны, похожие на формат TikZ. Получают датасет (текст, около-TikZ картинка, high-res картинка), на котором и дообучают ControlNet

📄 Статья

Читать полностью…

DLStories

#промо

Аренда облачных GPU по отличным ценам!

A10 - $0,68/hr
T4 - $0,5/hr
A800 (a800x8, 232 core cpu 1929 RAM, with ssd 480GB, NVME 2x7.68TB) - $14/hr

Первым пяти пользователям — дополнительная скидка до 80%!
 
Чтобы узнать больше, пиши ▶️ @TechandNick

Читать полностью…

DLStories

Стерлинг Криспин, работавший исследователем нейротехнологических прототипов в Эппле более 3 лет делится тем, что они делали в группе, которая вчера выпустила VisionPro.

Там есть пугающие подробности, вот с цитатами небольшой перевод для вас:

... пользователь находится в смешанной реальности или виртуальной реальности, а модели ИИ пытаются предсказать, испытываете ли вы любопытство, рассеяность, страх, внимание, вспоминаете прошлый опыт или какое-то другое когнитивное состояние. Эти данные могут быть получены с помощью таких измерений, как слежение за глазами, электрическая активность в мозге, сердцебиение и ритмы, мышечная активность, плотность крови в мозге, кровяное давление, проводимость кожи и т.д.

Чтобы сделать возможными конкретные предсказания, было использовано множество трюков ... Одним из самых крутых результатов было предсказание того, что пользователь собирается нажать на что-то до того, как он это сделает... Ваш зрачок реагирует до того, как вы нажмете на кнопку, отчасти потому, что вы ожидаете, что что-то произойдет после нажатия...

Другие трюки для определения когнитивного состояния включают быструю подачу пользователю визуальных или звуковых сигналов, которые он может не воспринимать, а затем измерение его реакции на них.

В другом патенте подробно описывается использование машинного обучения и сигналов тела и мозга, чтобы предсказать, насколько вы сосредоточены, расслаблены или хорошо учитесь. А затем обновлять виртуальную среду, чтобы усилить эти состояния. Представьте себе адаптивную среду погружения, которая помогает вам учиться, работать или расслабляться, изменяя то, что вы видите и слышите на заднем плане.

https://twitter.com/sterlingcrispin/status/1665792422914453506

Читать полностью…

DLStories

Гугл сделал прикольную штуку: Generative AI Learning Path. Это Tl;Dr из 10 мини-уроков о том, как работают современные генеративные модели в CV и NLP. Начинают с того, что вообще такое — эти ваши "большие языковые модели", переходят к общим описаниям архитектур и аттэншену, заканчивают туториалом о том, как самому создать и задеплоить такую модель (на Google Cloud, разумеется, хехе)

Кажется, может быть полезно тем, кто в DL понимает не особо, но хочет базово разобраться в том, на каких принципах работают совеременные модели и задеплоить свою.

📄 Ссылка

Читать полностью…

DLStories

Записали подкаст с Ольгой. Вышло очень классно, мне было оочень интересно! Как смонтируется запись, выложу ее везде и напишу об этом.

В конце Ольга упомянула, что в AIRI открылся прием заявок на летнюю школу по AI. Школа будет 17-30 июля в Татарстане. В программе — лекции, семинары и практика. Среди преподавателей — Евгений Бурнаев, Дмитрий Ветров, Александр Панов и другие.

Направления:
– RL (обучение с подкреплением)
– робототехника
– 3D компьютерное зрение
– генеративное и вероятностное моделирование
– моделирование данных на многообразиях машинного обучения
– графовые нейронные сети
– детектирование и диагностика аномалий по сенсорным данным

Школа бесплатная. Подробная информация и подача заявки на сайте. (подача до 4 июня)

P.S. Лекции прошлогодней школы AIRI выложены на AIRIInstitute/playlists">YouTube

Читать полностью…

DLStories

Все забывала написать: уже с прошлой субботы идет DataFest. Это бесплатная открытая конференция, где с докладами выступают специалисты по AI в разных областях: CV, NLP, MLOps, и т.д. Фест будет идти до 4 июня.

Сегодня будут доклады в секции по NLP + RLHF. Это та тема, с помощью которой обучаются современные языковые модели (ChatGPT и иже с ними). Вас ждет интро в RLHF, воркшоп по тому, как заводить LLM + RLHF, разбор Instruction tuning и еще пара докладов вокруг темы.

Конкретнее:
- В 14:00 будет выступления Игоря из Сиолошной, он расскажет интро в RLHF (выступление в записи);
- В 17:00 будет воркшоп по LLM + RLHF;
- В 19:00 будет доклад "Instruction tuning: что, почему и как" от меня (я буду выступать онлайн вживую)
Между этими выступлениями есть и другие, подробнее — в программе феста.

Ссылки:
Подробная программа
Тг-канал DataFest
Стрим DataFest на YouTube (уже идет, сейчас утренние доклады)
Spatial.Chat — это платформа для просмотра вебинаров, где можно и нужно задавать вопросы спикерам. Пароль от Spatial.Chat: festparroteverywhere23

P.S. Если вам интересно, что я забыла в секции по NLP, хотя занимаюсь я CV, то я тоже не знаю. Я мимо проходила, меня позвали выступить)

Читать полностью…

DLStories

А у меня анонс: в четверг, 25 мая, в 18:00 МСК на YouTube-канале DLSchool будет живая лекция про беспилотные автомобили от Александра Петюшко. Вход свободный, во время лекции можно и нужно будет задавать вопросы. Запись будет.

Более подробно о лекции и спикере:

Тема встречи: Введение в технический стек беспилотных автомобилей. Открытые проблемы и вызовы.
Начнем рассказ с того, как устроены современные беспилотники с технической точки зрения. Затем перейдем к проблемам и вызовам, которые сейчас остро стоят в беспилотниках. Особенно подробно обсудим проблемы в поведенческой части технологии. А еще затронем тему регулирования беспилотных автомобилей в мире: насколько регуляция вредит или помогает разработке.
Обсуждение будет построено на основе материалов открытых лекций, которые Александр читал в университете Беркли.

О спикере: Александр Петюшко (Google Scholar) — технический руководитель направления Исследования Поведения в Nuro. Nuro — это компания-разработчик беспилотных автомобилей из Калифорнии. До Nuro Александр работал ведущим инженером и научным экспертом в Huawei, а также управляющим директором и ведущим научным сотрудником в AIRI. Кроме этого, Александр читает лекции по теории глубокого обучения в МГУ и МФТИ. А еще он был гостем подкаста Deep Learning Stories аж два раза: в первый раз мы говорили с ним о собеседованиях в AI Research, а во второй — о математике в deep learning.

Приходите! Будет интересно)
(В день лекции еще напомню о ней тут)

Читать полностью…

DLStories

Сегодня в сенате США выступал Сэм Альтман (CEO OpenAI). Тема заседания — риски и регулирование AI. Были выступления нескольких людей, включая Альмана, а также ответы на вопросы.

Я посмотрела только малую часть, поэтому суммаризовать не берусь. К тому же, говорят, что почти все там было по делу, и поэтому краткий пересказ вряд ли вообще возможен. Но все же хочу написать пару мыслей касательно этого события:

Во-первых, было ожидаемо, что Сэм Альтман будет появляться на подобных мероприятиях. Ожидаемо после публикации OpenAI текста "Planning for AGI and beyond". Он суммаризует видение компании о том, как должно выглядеть дальнейшее развитие AI, какие риски оно может нести и как эти риски можно нивелировать. Подробно о тексте я писала тут. Один из главных пунктов там — это сотрудничество между крупными AI-игроками, прозрачная проверка всех выпускаемых моделей и сотрудничество с государством. Вот мы и видим, как OpenAI в лице Альтмана к государству приходит.

В посте про "Planning for AGI and beyond" я писала, что меня пункт про "сотрудничество с государством" пугает. Пугал он потому, что было непонятно, как именно компания собирается сотрудничать. Но если под "сотрудничеством" имелись в виду подобные публичные дискуссии, просвещение политиков о состоянии AI и совместная разработка идей, как именно AI сферу нужно регулировать, то я такое поддерживаю. Конечно, тут еще нужно, чтобы государство было адекватным и сотрудничало именно в таком ключе, но это уже не ответственность OpenAI.

Почему я такое поддерживаю, прекрасно иллюстрирует еще одна сегодняшняя новость: в Европе собрали AI Act — документ, который предлагает лицензировать все AI-модели, которые используются на территории ЕС. Умные люди говорят, что его принятие просто заглушит любой opensource в ЕС, и это повлечет за собой закрытие многих AI-based продуктов там. На всякий случай: акт еще не приняли, но могут принять.

Мне это видится так: политики ЕС чуток испугались AI-штук, и решили посильнее закрутить страшной штуке гайки. А пугаются люди чаще всего тогда, когда не понимают. В парламент ЕС Сэмы Альтманы не приходили и дискуссий не вели (ну или я об этом не слышала), поэтому понимание взять неоткуда. А в США на той же самой сегодняшней дискуссии, кстати, прозвучала обратная мысль относительно opensource: вставлять палки в колеса opensource-решениям мы не будем, потому что это замедлит AI-индустрию (по крайней мере, Денис пишет, что эта мысль в выступлении была, я до нее не досмотрела)
Ну или я не права, и ЕС понимают что-то лучше США) Или просто сильнее боятся. Или же ЕС сильнее беспокоится за безопасность, а США больше заинтересованы в экономике и деньгах, которые приносят AI-компании.

Ну и из этого всего еще такая мысль: меня пару раз спрашивали (звучит-то как пафосно, но правда спрашивали)) о том, как, по моему мнению, будет развиваться вся эта история с регулированием AI, которого пока нет, но которое очень нужно. Я отвечала примерно так: когда люди сталкиваются с чем-то новым, они еще не знают, как себя вести и что делать, поэтому их мотает в крайности. Где-то будут технологии запрещать совсем (а-ля как этот акт в ЕС или запрет ChatGPT в Италии), где-то будут регулировать по-минимому (как opensource в США). Где-то будут паниковать, где-то — с оптимизмом смотреть в будущее. Какое-то время общество помотает из стороны в сторону, но потом на опыте себя и других стран все придут в примерный баланс, и в конце концов будет выработан единый "костяк" идеи регулирования AI-сферы.

К слову, вот это вот "мотание в крайности" заметно не только в сфере регулирования, но и в науке. Вспомните Юдковского (и уже, отчасти, Хинтона), которые наводят панику вокруг AI и сулят неминуемую катастрофу. А с другой стороны — Ян ЛеКун, который уже в нескольких интервью говорил, что ничего близкого к Терминатору у нас нет и бояться нечего. Ну или, по крайней мере, очень рано.
Думаю, что через какое-то время, когда мы поковыряем GPT-4 получше, научное сообщество тоже больше поймет о современном состоянии и перпективах AI, и придет в большее равновесие.

Вот как-то так. Ваши мысли?)

Читать полностью…

DLStories

Foundation Models in Computer Vision, часть 2.

Тут разберем идеи обучения CV моделей, которые можно назвать кандидатами на получение foundation model in CV.

1️⃣ SAM (Segment Anything Model).
atmyre/hrnsBpXZMll">SAM — это модель от Meta AI, обученная на огромном датасете для сегментации изображений. Датасет содержит 11 млн картинок и 1.1 млрд масок сегментации. Из-за того, что SAM была обучена на таком огромном количестве данных, это получилась действительно мощная модель. Она способна на одном изображении сегментировать сразу множество объектов, включая объекты небольшого размера и даже те, что модель не видела во время обучения.

В этом плане SAM действительно можно назвать foundation model — она много понимает об объектах, и ее можно успешно дообучать на новые задачи. Но тут есть нюанс: это supervised модель. Для ее обучения нужны размеченные данные. Поэтому масштабировать SAM сложно. Тут, правда, надо сказать, что авторы статьи предложили способ получения датасета сегментаций, который наполовину ручной, а наполовину автоматический. Возможно, таким способом можно будет легче получать еще большие датасеты сегментаций и масштабировать SAM. Но на 100% заменить ручную разметку автоматикой не удастся, особенно если захочется идти "вглубь": собрать датасет, где сегментированы мелкие части объектов.

Устройство SAM я подробно разбирала atmyre/hrnsBpXZMll">в статье тут.

2️⃣ Модели для генерации картинок (Stable Diffusion & co). Тут мысль такая: чтобы научиться хорошо генерировать картинки, нужно действительно много понимать о сути и взаимодействии объектов на изображении. Тут нужно большее понимание природы объектов, чем чтобы научиться решать какую-то задачу по входящей картинке (классификацию/детекцию/...). Поэтому если учить модель генерировать high-res картинки со сложными объектами и взаимодействиями между ними, модель в процессе обучения начнет много "понимать" о данных и построит полезные внутренние представления объектов. А еще эта задача по самой своей сути масштабиреума.

Еще круче учить модель генерировать картинку на основе текста. Так модель учится понимать не только связи между объектами на изображении, но и связи между визуальными объектами и текстовым представлением. И из такой модели можно получить еще более крутые представления.
Конечно, для text-to-image моделей нужна разметка данных. Но такие данные собираются чаще всего автоматически, не вручную, что уже хорошо.

3️⃣ Третий кандидат на получение foundation model в CV — разные подходы self-supervised обучения (SSL). До недавнего времени все идеи SSL на картинках не позволяли получить модели, которые бы выучивали достаточно хорошее внутреннее представление. Но в 2021 году предложили крутую идею: Masked AutoEncoders (MAE). Об этой нейронке я писала пост вот тут. Идея такая — берем изображение, делим его на патчи, случайные патчи закрываем, подаем на вход автоэнкодеру. Задача автоэнкодера — восстановить закрытые патчи.

Такой MAE правда выучивает полезные внутренние представления, которые потом можно использовать в downstream задачах. Из этой работы выросла более общая идея Masked Learning — когда мы какую-то модель (не обязательно автоэнкодер) обучаем восстанавливать закрытые части картинки. Этот подход отлично показал себя во многих задачах. К примеру, в начале 2023 года в Гугле придумали text-to-image модель Muse, которая брала SOTA, и была основана не на диффузии. Внутри нее — трансформер, который учится как раз на задачу Masked Learning. Эту модель я разбирала тут.

А совсем недавно Meta AI выпустили DINO-v2 — новую self-supervised модель для картинок. Она бьет SOTA среди всех self-supervised моделей, и выучивает действительно полезные представления. Одно из основных отличий DINO-v2 от atmyre/ooMFzB7YADA">DINO-v1 — в том, что во второй версии к обучению модели добавили Masked Learning.

В общем, идея masked learning кажется мне хорошим кандидатом на идею обучения, которая приводит к foundation model. Тут еще можно заметить аналогию с NLP: там языковые модели тоже обучаются на задачу masked language modeling.

Какие-то такие у меня сейчас мысли. Буду рада обратной связи)

Читать полностью…

DLStories

Как решать задачу fake images detection

Как обещала выше, написала пост про то, на каких идеях можно пытаться строить решение задачи fake images detection. Но пост снова вышел большим, и я снова оформила его в виде статейки на Teletype.

Чтобы статья была полной и законченной по теме fake images detection, в начале статьи копируется информация из постов выше (почему задача детекции фейков не так проста). А ниже добавлена часть про то, как эту задачу решать.

📄 atmyre/J6qcyBNcPcw">Статья

Читать полностью…

DLStories

Задача fake image detection: почему она не так проста, как кажется (продолжение)

3️⃣ Третья проблема такая: мы хотим, чтобы наша модель для детекции работала "в полевых условиях". То есть, детектила фейки в интернете и где угодно. А в интернете картинки проходят 100500 стадий изменений: где-то они сжимаются (тот же jpeg), где-то на них накладывается шум. Да и сами люди после генерации картинки нейросетью могут изменять ее: накладывать фильтры или править что-то в фотошопе. Все это меняет характеристики картинки, и может сломать модели для детекции. Кажется, что решение — это добавить в датасет картинки, измененные разными способами, но этих способов — просто уйма. Поэтому вместо этого хочется уметь создавать модели, робастные к подобным изменениям. А эту робастность нужно уметь проверять — и тут тоже непонятно, какой протокол тестирования этой робастности выбрать.

4️⃣ А можно же не только генерить картинки с нуля, но и изменять реальные картинки. И получать фейки. И тут непонятно, учитывать ли такие "полуфейковые" картинки в подобных датасетах, или нет. И насколько картинка должна быть "изменена", чтобы считать ее фейком.

Из-за подобных проблем какого-то общепринятого бенчмарка (датасета) для задачи fake image detection пока нет. Ну, или я его не нашла. Каждая статья, которую я читала, придумывала свой датасет, собранный вручную авторами. В последней статье, которую я видела (будет на CVPR-23, кстати!) авторы вообще не сказали, как именно они генерили свой датасет ¯\_(ツ)_/¯ Они, правда, его выложить обещали, посмотрим)

Ну и напоследок два замечания:
- задача fake image detection очень похожа на задачу deepfake detection. Отличие в том, что под "дипфейками" обычно понимают картинки или видео людей, которые либо сгенерированы с нуля, либо изменены. Вот по этой задаче литературы и датасетов уйма. Конечно, модели для deepfake detection заточены именно под дипфейки (т.е. картинки людей), но некоторые идеи, может быть, можно использовать и в более общей задаче fake image detection.
- если мы научимся делать хорошие детекторы фейковых картинок, начнутся поиски идей, как эти детекторы обмануть. То есть, приходим к той же парадигме, что в adversarial attacks: строим защиту -> строим атаку, которая сбивает защиту -> строим защиту от этой атаки -> ...
На самом деле, так даже уже немного происходит) Об этом напишу в следующих постах, где буду разбирать идеи детекции фейковых картинок.

Вот так как-то. В целом, область fake images detection довольно нова, работы и подходы тут только развиваются, поэтому и много неопределенности. Но область явно важная с практической точки зрения. А вы что думаете?

Читать полностью…

DLStories

Еще хотела напомнить про этот опрос. Мы хотим завтра начать анализировать ответы, поэтому если вы хотели его пройти, пройдите, пожалуйста, в ближайшее время. Спасибо❤️

А обычный контент с разборами статей на этом канале возобновится совсем скоро.

Читать полностью…
Subscribe to a channel