dl_stories | Unsorted

Telegram-канал dl_stories - DLStories

14983

Что-то про AI Research и AI образование от Танечки Сотрудничество/предложения: @atmyre

Subscribe to a channel

DLStories

FILIP: CLIP, у которого близость можно измерять между эмбеддингами отдельных патчей картинки и токенов текста.
(статья еще с 2021, но я реально об этой идее узнала вот прям недавно)

Как работает обычный CLIP:
У обычного CLIP text и image encoder — это трансформеры. Image Encoder — это ViT, который разбивает картинку на 16х16 патчей, и на последнем слое выдает эмбеддинги каждого патча + эмббединг специального CLS токена. Text encoder — трансформер, который выдает эмбеддинги токенов текста. Текст при этом обрамляется токенами <BOS> и <EOS>.
Эмбеддинги CLS токена картинки и <EOS> токена текста считаются эмбеддингами картинки и текста соответственно. И CLIP учится делать так, чтобы эмбеддинги CLS токена картинки и <EOS> токена текста были близки для пар (картинка, описание этой картинки), и далеки для пар (картинка, текст), где текст не является описанием картинки.

Что предлагают в FILIP:
Предлагают чуть изменить лосс-функцию CLIP так, чтобы можно было измерять близость между эмбеддингами всех патчей картинки и всех токенов текста. Т.е. чтобы можно было понять, какая часть картинки соответствует какому куску текста.

Для этого предлагают на каждой итерации обучения делать вот что. Пусть нам пришла пара (картинка, текст). Прогоняем их через image и text encoder и делаем следующее:
- для каждого эмбеддинга патча картинки I_i ищем самый близкий эмбеддинг токена текста T_imax;
- считаем общую близость картинки к тексту L_IT как среднее произведений I_i T_imax для каждого патча картинки;
- то же самое делаем в обратном направлении: т.е. для каждого эмбеддинга токена текста ищем самый близкий эмбеддинг патча картинки и считаем общую близость текста к картинке L_TI;
- итоговая близость картинки и текста L = L_IT + L_TI
- делаем итерацию обучения сети с помощью L и contrastive loss. Т.е. если пара (картинка, текст) соответствуют друг другу, мы максимизируем L, если не соответствует — минимизируем.

Кажется, что такое обучение заставляет FILIP выучивать больше деталей об изображениях. Это подтверждается экспериментами по zero-shot text-to-image и image-to-text retrieval: на 2021 год FILIP брал SOTA. По сравнению с CLIP прирост был очень существенный.
Ну и еще такой вид обучения позволяет с небольшими дополнениями построить prompt-based сегментацию на основе FILIP. Но об этом в следующий раз =)

Напоследок надо сказать, что такой вид обучения занимает гораздо больше времени и памяти. Авторы статьи решают это тем, что уменьшают размер эмбеддингов до 256 и точность значений эмбеддингов с fp32 до fp16.

📄Статья

Читать полностью…

DLStories

И снова пост в продолжение истории про роль метрики оценивания качества моделей ИИ, и LLM в частности. Мне тут в рассылке MIT Tech Review попалась статья под названием "Large language models aren’t people. Let’s stop testing them as if they were". В ней — рассуждения разных ученых о том, почему, по их мнению, некорректно оценивать языковые модели теми же методами, как и человеческий интеллект.

В последнее время мы слышали много историй о том, какой высокий у GPT-4 IQ, как LLM лучше справляются с разного рода тестами и экзаменами и т.п. И это все вносит достаточный вклад в то, что люди начинают сильнее бояться развития LLM и последствий этого. И в статье MIT Tech Review приводят пару аргументов, почему мы не очень правильно воспринимаем результаты этих оцениваний.

Первая мысль такая: все эти тесты были разработаны для тестирования именно человеческого интеллекта. И они используют некоторые предположения о человеческом интеллекте, которые могут быть (и кажется, так и есть) не верны для LLM. Например, у LLM нет чувства здравого смысла относительно физики реального мира: если спросить LLM самый простой вопрос вида "как переложить конфеты из одной миски в другую", она не справится. Т.е. LLM не понимают базовых принципов взаимодействия с миром, хотя у людей это то, что базово умеет каждый маленький ребенок. И сравнивать баллы за тест по биологии/математике LLM и человека поэтому не очень честно.

Мои мысли на этот счет такие: это неудивительно. LLM просто неоткуда получить понимание физических процессов. Мне кажется, что чтобы такой здравый смысл относительно физики появился, нужно научить LLM с миром взаимодействовать. Т.е. следующий шаг в эволюции ИИ — это робототехника и ИИ для них. Вообще об этом уже задумываются: вот тут я писала о статье в Nature, где авторы как раз подчеркивают проблему неумения ИИ взаимодействовать с реальным миром, и даже предлагают новый тест Тьюринга, который бы оценивал у моделей в том числе подобные умения.

Вторая мысль в статье касается обучающих/тестовых выборок. OpenAI в своих технических репортах заявляют, что тестовые данные для GPT-4 не пересекаются с тренировочными, и что они это проверяли. Но если говорить о стандартных тестах по математике/биологии со стандартными формулировками вопросов, то в тренировочной выборке могли попадаться очень сильно похожие. А в этом случае то, что GPT-4 так хорошо справляется с такими тестами, уже не кажется удивительным: модель могла просто запомнить (memorize) вид ответа.

Одно из свидетельств, что такое может быть — твит Horace He, который протестировал GPT-4 на задачах с Codeforces. И на задачах, опубликованных до 2021 года, модель показала отличный результат — 10/10 задач. На задачах, опубликованных после 2021 года результат был 0/10. Статья также утверждает, что это не единственное подобное свидетельство. Это может означать, что GPT-4 таки запоминает некоторые виды промптом, а не "интеллектуально их решает".

Мне кажется, что это делает тестирование LLM очень сложным. Как тогда вообще понять, почему модель хорошо повела себя на какой-то из задач: действительно ли она их решает, или просто запоминает? Если бы я была LLM-рисерчером, я бы, наверное, заинтересовалась этим вопросом и попыталась придумать техники, как это понимать) Или, может быть, такие уже есть, но я о них просто не знаю?

📄 Статья

Читать полностью…

DLStories

Мы открываем набор на осенний семестр школы глубокого обучения Deep Learning School!

DLschool — это школа при ФПМИ МФТИ, где мы учим нейронным сетям с самых азов до продвинутого уровня. Полный курс состоит из двух частей, каждая из которых длится полгода.
- Первая часть посвящена введению в нейросети и компьютерному зрению. Начинаем с основ машинного обучения и нейросетей, переходим к CNN для обработки картинок, заканчиваем переносом стиля изображений и ГАНами.
- Вторая часть полностью посвящена обработке естественного языка (NLP) и обработке звука.

Сейчас идет набор на первую часть. О новостях второй части курса напишем отдельно (скоро).

Особенность нашей школы в том, что мы даем много практики (теория при этом тоже есть, разумеется, и немало). Вам предстоит много практических домашних заданий и самостоятельный итоговый проект в конце семестра. По окончании обучения вы точно получите нужные практические навыки работы с нейросетями. Больше информации об организации курса и подробную программу первой части можно найти тут.

Преподаватели школы — ведущие специалисты российских и зарубежных IT-компаний и научные сотрудники исследовательских лабораторий. Среди них — я (Таня), буду вести у вас несколько лекций про CV, сегментацию и архитектуры сетей =)

Школа бесплатная. Полностью онлайн: учиться можно из любой точки мира, где есть интернет. Занятия проходят раз в неделю — лекция, семинар и домашнее задание. Обучение проходит на платформе Stepik. Берем всех, отбора нет.
❗️Начиная с этого года также есть возможность приобрести дополнительный пакет, в который входит индивидуальная поддержка от менторов и преподавателей в прохождении курса, а также дополнительные вебинары. Подробнее о нем читайте на нашем сайте.

Занятия начинаются 16 сентября. Регистрация продлится до 23 сентября. Чтобы зарегистрироваться на курс, оставьте заявку на нашем сайте. После этого вам на почту придет письмо со ссылками на курс на Степике, на канал и чат в Телеграме (письмо может идти 15-20 минут).

Ссылки:
Наш сайт
Подробная программа и оргинформация первой части курса
Ответы на часто задаваемые вопросы (F.A.Q)
Наш YouTube (тут видео всех лекций и семинаров школы, а также открытые лекции и интервью)
Наша группа VK
Поддержать нашу школу на Boosty
❗️В этом году в организации школы произошли некоторые изменения по сравнению с предыдущими потоками. Подробнее о них читайте тут. Также хочется сказать, что мы за лето хорошо поработали над организацией, и теперь не будет задержек в выкладке материалов, проверке дз и решении других вопросов =)

Если остались вопросы, пишите нам на почту (dlphystech@gmail.com), в сообщения в группе VK или в комментарии под этим постом.
И ждем вас в чатике курса в новом семестре! =)

Читать полностью…

DLStories

Присоединяйтесь к TechTrain 2023 Autumn — онлайн-фестивалю, посвященному машинному обучению и искусственному интеллекту.
#промо

На TechTrain будут обсуждать: 
– LLMs: ускорение интерфейса и деплой;
– Обучение искусственного интеллекта психотерапии; 
– Программирование игр с ChatGPT (экспресс-хакатон); 
– Оптимизацию рекомендательных систем: метрики, архитектуру и практические советы; 
– Эволюцию и будущее NLP;  
– Автоматизацию разметки данных с помощью ML-моделей; 
– Разбор успешного кейса: от Jupyter к MLOps;
– Conjoint-анализ: зачем нужен, как устроен, как использовать.

После каждого доклада участники смогут пообщаться со спикером в дискуссионной комнате и задать волнующие вопросы.  

Дата проведения: 30 августа. Фестиваль бесплатный, нужно только зарегистрироваться.

Читать полностью…

DLStories

Увидела в одном из чатов обсуждение AGI (да, опять) и того, погубит ли оно в конце концов человечество. Одна из причин страха такого развития событий — наблюдения, что большие модели типа GPT-4 часто начинают "внезапно" демонстрировать способности, которых у моделей поменьше, кажется, нет и в помине. Ну, например, если обучить языковую модель с количеством параметров 10B, то она, внезапно, начинает уметь в zero-shot question answering или отгадывание загадок. А у моделей с меньшим количеством параметров, сколько их ни обучай, таких способностей не возникает.
(на всякий случай: количество 10B и примеры задач взяты тут с потолка. Надеюсь, общая идея понятна)

Этот эффект называется "emerging abilities of Large Language Models". Из-за него кажется, что большое количество параметров каким-то магическим образом позволяет модели развить умение решать сложные задачи, развить абстрактные высокоуровневые способности типа reasoning, abstract thinking, понимание связей, юмора и т.п. И если эту мысль экстраполировать, то появляется идея, что при еще большем увеличении количества параметров модели у нее также внезапно может появиться и условное "сознание". На этом и основываются многие страхи AGI-апокалипсиса.

Так вот. Это все напомнило мне одну статью, про которую я уже давно хотела написать в канал, но как-то руки не доходили. Называется она "Are Emergent Abilities of Large Language Models a Mirage?". В ней авторы говорят, что эффект emerging abilities — это мираж. И на самом деле его нет (или почти нет). А способности к reasoning, abstract thinking и т.п. у модели появляются не внезапно, а очень даже предсказуемо. Вся проблема в том, что мы неправильно считаем метрики.

Давайте пример. Возьмем задачу "отгадай загадку". Модели подается на вход загадка на естественном языке. В ответ модели нужно выдать ответ тоже на естественнос языке.
В качестве метрики качества ответов LLM на такой задаче обычно берется exact string match. Т.е. metric=1, если модель ввыдала текст, полностью совпадающий с правильным ответом, и metric=0 в любом остальном случае. И вот если смотреть на то, как меняется эта метрика для моделей с разным количеством обучаемых параметров, тут как раз и наблюдается тот самый внезапный эффект. Маленькие модели получают acc = eps, а модели тяжелее условных 10B параметров внезапно показывают acc>0.5.

В чем тут проблема? А в том, что метрика супердискретна. Она не учитывает то, как при увеличении параметров модели меняется распределение вероятностей модели на ответы. И на самом деле дела обстоят так: при увеличении размера модели она научается давать все больше вероятности адекватным вариантам ответа на загадку, и все меньше — бредовым. Короче, на самом деле учится все лучше и лучше решать задачу. И при каком-то значении размера модели она становится способна давать настолько много вероятности правильным ответам, что нашу дискретную метрику exact string match "прорывает" от почти 0 сразу до большого значения.

Короче, мысль такова: на самом деле способности по большинству задач растут вполне предсказуемо с ростом размера моделей. Заменив дискретные метрики на более непрерывные, авторы этой статьи показали, что по крайне мере на 92% задач из Big Bench никакого "внезапного" прорыва у больших моделей не происходит. Качество на них растет плавно и предсказуемо при увеличении размера моделей.

А еще авторы показали, что такой же эффект "emerging ability" можно смоделировать и на обычных автоэнкодерах на датасете CIFAR100. Нужно только поменять метрику качества на чуть более дискретную, чем обычно используется (об этом в разделе 5 статьи)

Вот так. Конечно, этот результат не означает, что у моделей точно никаких "emerging abilities" быть не может, и сознание она никак не получит. Нет. Но это, как минимум, повод задумываться над всеми "странными" результатами, которые получают исследователи, и лучше их изучать. А не просто экстраполировать и сразу делать страшные выводы.

📄Статья

Читать полностью…

DLStories

В конце июня в Ванкувере была конференция CVPR (на которую у меня был билет, но я не поехала, потому что Канада не выдала визу в срок😒)
CVPR — самая масштабная конференция по computer vision, на которой много воркшопов и туториалов.

Воркшоп — это раздел конференции, где собраны доклады вокруг конкретной темы. Например, event-based vision или Vision-Centric Autonomous Driving. Это часто либо более обзорные доклады, чем те, что на основной конференции, либо вообще work in progress — доклады об исследованиях, которые еще не закончены, и в которых еще не получены явные результаты. Туториал — это также раздел с докладами на определенную тему, но они более вводные и более глубокие, дающие представление о конкретном разделе исследования. То есть, такой мини-курс. Часто еще на туториалах бывает интерактив (практика).

И вот вам списки туториалов и воркшопов с CVPR-2023:
- Воркшопы;
- Туториалы.
Видео многих из них к этому моменту уже выложены в открытый доступ, а некоторые будут выложены в ближайшее время.

Конкретно я буду смотреть туториал Recent Advances in Vision Foundation Models
#learning

Читать полностью…

DLStories

Еще небольшой комментарий: у меня в универе на reading club мы как-то разбирали эту первую статью про Grokking. И у профессора-британца возник вопрос: а почему вообще этот эффект назвали Grokking?

Покопавшись в статьях на эту тему, обнаружили, что одни из основных авторов, пишущих статьи по этой теме — физики. В частности, вот есть Eric Michaud, PhD на физическом факультете MIT. Тема его диссертации — improving our scientific/theoretical understanding of deep learning, и исследование Grokking — одна из центральных тем. Он соавтор той статьи про объяснение гроккинга через устройством поверхности лосс-функции и нормы параметров сети. И кто-то из коллег предположил, что термин Grokking был заимствован из физики (астрономии, в частности). Хотя, сказать по правде, я сейчас гуглила, и особо упоминания этого термина не нашла.

Но нашла другое — подкаст-интервью с Eric Michaud, где он рассказывает о своей научной работе. Две большие темы — квантизация моделей и как раз Grokking. Есть видео, аудио и текстовые версии интервью

🎧Слушать тут

P.S. В комментариях подсказали, откуда на самом деле взяли термин Grokking

Читать полностью…

DLStories

Всем привет! В последнее время я была очень занята, но обычные посты в канале возобновятся совсем скоро. А пока вот вам пара образовательных апдейтов:
#learning

1️⃣ Лаида (наша верховная Техножрица) завершила цикл постов на тему "как вкатиться в ML с нуля за ноль рублей". В ее презентациях — пошаговый план изучения области со ссылками на курсы/книги. Всего три части:
- Часть 1: предварительные знания;
- Часть 2: ML/DL (что такое и как/где учить);
- Часть 3: вспомогательные инструменты и поиск работы;

Если у вас есть знакомые, кто хочет перейти в ML, будет хорошей идеей отправить им эти презентации. Возможно, кого-то спасет от покупки дорогих курсов, обещающих "дойти до middle ML engineer и зп в 200k за 3 месяца"

2️⃣ Мои друзья из Mathshub запускают бесплатный интенсив по развитию soft skills для IT специалистов. Интенсив ориентирован на тех, кто стал или собирается стать руководителем в команде (даже если только в будущем). Старт 8 августа, длительность три недели. Больше информации об интенсиве тут.

А если вдруг я пропустила что-то классное в образовательной сфере за последние недели, делитесь в комментариях =)

Читать полностью…

DLStories

Как-то я писала пост о foundation models in computer vision. В частности, писала, что один из кандидатов в foundation model in CV — это генеративные модели а-ля Stable Diffusion. Мысль была такая: чтобы научиться хорошо генерировать картинки, нужно действительно много понимать о сути и взаимодействии объектов на изображении. Т.е. хорошая генеративная модель много "знает" о данных и строит полезные внутренние представления объектов.

А раз так, то эти ее знания и внутренние представления можно пытаться из модели извлекать и применять для решения других задач. Так и сделали авторы статьи "Unleashing Text-to-Image Diffusion Models for Visual Perception": они применили предобученный U-Net из Stable Diffusion для решения задач семантической сегментации, referring segmentation и depth estimation.

Общая идея такая:
Берем картинку и текст к ней.
- Для семантической сегментации текст — фразы вида "a photo of a X", где X — один из классов сегментации;
- Для referring segmentation текст — это, собственно, описание объекта, который мы хотим на картинке найти;
- Для depth estimation текст — фразы вида "a photo of a X", где X — общий класс картинок, например "a photo of a street" для датасета фото улиц.

Текст прогоняем через текстовый энкодер из Stable Diffusion. Затем его вместе с сжатой картинкой подаем на вход U-Net из Stable Diffusion. Вытаскиваем из декодера U-Net feature maps и cross-attention maps. Их конкатенируем и подаем на вход обучаемому декодеру, который решает нужную задачу — semantic/referring сегментацию или depth estimation. Для тех задач декодеры разные.

Вот так на основе информации из предобученной диффузии простенький декодер учится решать сложные задачи. Эксперименты показывают, что метод работает, показывая на всех задачах лучший результат, чем многие supervised и self-supervised методы.

📄 Статья
#paper

Читать полностью…

DLStories

UPD: выдали запись лекции (большое спасибо!), обновила пост выше

Читать полностью…

DLStories

Если уж и проходить курс по промпт-инженирингу ChatGPT, то только такой:
Курс ChatGPT Prompt Engineering for Developers от DeepLearning.Ai в коллаборации с OpenAI. Преподаватели — сам Эндрю Ын и Isa Fulford (Member of Technical Staff, OpenAI).
#learning

Это небольшой (9 занятий) курс о том, как эффективно общаться с ChatGPT так, чтобы получить максимально точный, полный и удобный (в нужном формате) ответ на ваш запрос. Курс практический: каждое занятие —скринкаст jupyter notebook с кодом составления промпта, запроса к API и получения результата. Рядом со скринкастом открывается интерактивный jupyter, где вы сами можете запускать код занатия и изменять его.

Пока что курс бесплатный. Пишут, что станет платным, когда обучающая платформа DeepLearning.AI выйдет из beta. Когда это произойдет, я не знаю.

Я курс еще не проходила, но Юра Кашницкий (автор New Yorko Times) уже прошел и поделился тем, что в курсе хорошо, а чего не хватило.
Но даже если в курсе чего-то не хватает, у курса есть community, где с другими участниками можно обсуждать темы промпт-инжениринга. Ссылка на комьюнити появится в списке уроков после записи на курс. Имхо если комьюнити будет живое, то это будет просто кладезь постоянно обновляющейся инфы про работу с ChatGPT.

Ссылка на курс

Читать полностью…

DLStories

В этом посте хочу порассуждать на вот какую тему. Пару раз случалась такая ситуация: разбираю я в канале какую-то статью, которая использует новую интересную идею для решения задачи Х, но при этом до SOTA не дотягивает. И в комментариях иногда пишут: "ой ну это фуфло, вон модель Y эту задачу X намного лучше решает, метрики больше и все ей пользуются".

Меня каждый раз очень удивляют подобные комментарии. Ценность научных работ совсем не всегда заключается в том, чтобы побить SOTA. Подобные работы круты тем, что они предложили абсолютно новый взгляд на проблему, новое решение, которое тоже неплохо работает. Возможно, кто-то прочитает эту статью, вдохновится и придумает ее улучшение, которое уже побьет эту самую SOTA. Или окажется более обобщаемым. Или просто поможет исследователям посмотреть на проблему с новой стороны и придумать еще один, совершенно новый подход к решению этой задачи.

К такой ситуации есть хороший пример: машинный перевод. Сейчас все понимают, что эта задача решается нейросетями, внутри Google translate сидят крутятся нейронки. Но так было не всегда: до примерно 2015 года с этой задачей лучше справлялись phrase-based подходы, и в продакшене крутились именно они. И был огромный пласт людей, которые в нейронки в переводе совсем не верили, и продолжали улучшать phrase-based системы, хихикая над теми, кто пытался готовить нейронки.
Да и в vision домене ситуация была та же: до 2012 года много кто не верил, что нейронки смогут даже в классификацию картинок. На того же ЛеКуна косо смотрели, когда он начал продвигать свои CNN. А когда-то еще раньше смеялись над теми, что вообще начинал смотреть в сторону нейросетей.

Короче, если что-то пока работает плохо, это не значит, что оно фуфло и это надо выкинуть. Это надо сначала исследовать.

Еще я замечала в каком-то смысле "обратное" явление, когда люди быстро готовы выкинуть в окно старую технологию, когда появилась новая. Например, сейчас многие не хотят смотреть в сторону CNN, потому что есть трансформеры. Хотя CNN и трансформеры — это две совсем разные архитектуры, каждая со своими достоинствами и недостатками. И во многих моделях можно использовать их обе. В той же Stable Diffusion есть и свертки, и трансформеры.

К этому у меня есть такая история: в нашей школе DLSchool в конце семестра студенты делают проекты. Тему проекта можно выбрать из нескольких разных. Я несколько лет подряд курировала проект про автоэнкодеры. В нем студентам нужно было самостоятельно разобраться с устройством vanilla AE, VAE и Conditional VAE, написать код и поставить несколько экспериментов. И года 4 назад ко мне в личку приходили студенты со словами: "Здравствуйте. Думаю взять ваш проект, но меня смущает то, что автоэнкодеры же как бы устарели. Для генерации картинок теперь есть GAN. Зачем тогда AE?"
А посмотрите, что мы имеем сейчас. Часть Stable Diffusion — VQ-VAE. Или вспомним MAE, который положил начало развитию подходов masked image modeling. Или, например, новые подходы к нейросетевому сжатию изображений, многие из которых основаны на автоэнкодерах.

В общем, не спешите закапывать старое, если придумали что-то новое, которое в чем-то лучше этого старого. Оно вам обязательно пригодится. Особенно если это не узкоспециализированная модель, а такая базовая штука, как AE.

Ну и главная мысль поста такая: в науке нужно стараться быть максимально открытым к новому и не позволять себе думать, что ты уже все в своей области понимаешь и знаешь, что и как будет работать. А еще важно развивать в себе умение смотреть на проблему под разными углами.

Читать полностью…

DLStories

Пока я закопалась в написании отчета по PhD (🫠), у Миши вышла вторая часть подкаста со мной (первая была тут, если что).

В этой части две большие темы:
- чем я занимаюсь в своей научной работе по PhD;
- всякие рассуждения о будущем AI и вымрем ли мы все.

Слушать тут

Читать полностью…

DLStories

Ну вот, как и писала в посте выше, начинают появляться все больше "вводных" курсов по AI. В частности, по так хайпующему сейчас Generative AI.

Очередной лот — курс Generative AI with Large Language Models от DeepLearning.ai и Amazon AWS. С первого взгляда контент курса выглядит хорошо. Обещают:
- погружение в LLM: что это, как работает, какие архитектуры бывают
- дообучение LLM (alignment, human feedback, RLHF, трюки вроде chain-of-thoughts, etc)
- практическое руководство по выбору LLM для своей задачи и дообучению на AWS;
- оптимизация обучения (скейлинг на GPU, LORA, Parameter efficient fine-tuning, etc)
Полный syllabus тут.

Если кто-то будет смотреть, скажите потом, как оно

Читать полностью…

DLStories

Выпуск подкаста “S02E01: AI Research в генетике и биоинформатике" доступен на всех платформах!
#podcast

Гостья эпизода — Ольга Кардымон, научный сотрудник и руководитель группы «Биоинформатика» Института искусственного интеллекта AIRI.
С Ольгой поговорили о последних достижениях в генетике и биоинформатике, о языковых моделях в работе с ДНК и белками и о том, что получило человечество после появления AlphaFold. Также обсудили путь Ольги из чистой биологии в AI.

Ссылки:
Yandex Music
Apple Music
Google Music
Spotify
YouTube

Материалы и таймкоды к выпуску

Два момента:
1. Я перенесла подкаст с платформы Anchor на Mave. Теперь на всех платформах должно быть можно слушать без VPN;
2. В этот раз я заказала монтаж подкаста у профессионалов. Скажите, как послушаете, хорошо ли вышло (чтобы на будущее понимать, обращаться ли за услугами для следующих выпусков)

Читать полностью…

DLStories

Подборка рассылок по AI

Подумала тут, что иногда мои посты получаются из статей, которые я получаю на почту из рассылок. Вчерашний пост вот был по статье из MIT Technology Review. Собрала в этом посте рассылки журналов, на которые подписана сама. Вдруг кому-то тоже будет полезно)

1️⃣ MIT Technology Review. Это журнал о технологиях в разных сферах: AI, бизнесе, climate change и пары других (все топики тут). Их рассылки — The Download и Weekend Reads. Там обычно собраны самые яркие статьи за последние дни/неделю. Часто попадаются интересные с рассуждениями вокруг технологий и AI и интервью с известными учеными (как, например, статья из поста выше).

У MIT Tech Review есть еще подкаст по AI "In Machines We Trust". Там — разговоры с разными людьми на разные темы AI. Темы выпусков правда довольно интересные.

2️⃣ Wired. Это журнал со статьями на разные темы, от культуры до технологий. Раздел чисто с AI — Artificial Intelligence Database. У журнала есть несколько рассылок на разные темы, полный перечень тут. Я подписана на Wired Weekly и Wired Fast Forward. Последняя — специализированная про AI. Там тоже попадаются интересные статьи с рассуждениями вокруг технологий и AI.

Ремарка: MIT Tech Review и Wired хорошо дополняют друг друга, статьи там в основном на совсем разные темы. Поэтому имеет смысл читать оба журнала.

3️⃣ Synced. Мой фаворит) Это журнал с обзорами AI Technology & Industry. У них даже есть отдельные разделы со статьями на темы Computer Vision & Graphics, Natural Language Tech, а статьи более приближены к научному миру и обозревают не какой-то феномен в AI, а отдельные новые статьи на узкие темы. Например, вот статья с обзором LLama-2.

Их рассылка — Synced AI Weekly, и она также более "научная", чем рассылки из пунктов выше. В ней обычно присылают ссылки и превью на 5-6 недавних интересных научных (ну или хотя бы околонаучных) статей, а также дайджест AI-мероприятий в мире. А еще дайджест открытых вакансий в AI-институтах и компаниях). Вот из этой рассылки у меня получалось прямо много постов в канале. Я просто просматриваю превью статьи в рассылке, и если меня заинтересовало, открываю саму ту статью.

4️⃣ The Batch от DeepLearning.AI. Этот журнал мне кадется более "обзорным": в нем в статьях часто приводится дайджест событий AI-мира. Но вот в разделе "Machine Learning Research" они выпускают статьи-обзоры на научные работы, почти как у меня в канале. Есть статьи и на другие темы — AI & Society, Culture и т.п. (а еще отдельные статьи по теме AI Careers). Подписаться на их рассылку можно тут.

Вроде бы все. Если вы знаете еще хоршие журналы/рассылки по AI, буду благодарна, если поделитесь в комментариях)

Читать полностью…

DLStories

⬆️ Это одна из главных причин, по которой летом (и особенно в последнюю неделю) было не очень много постов на канале.

Мы прям серьезно взялись за структуризацию школы и улучшение организации, которая явно хромала. Этим летом, можно сказать, попробовала себя в роли менеджера. Ощущения смешанные. Иногда хотелось послать все к черту и пойти дальше спокойно читать статьи и писать рисерчерский говнокод ставить эксперименты. Но пересиливало то, что DLS я очень люблю и чувствую за него ответственность. Хотелось попробовать сделать школу еще лучше и приятнее для студентов. Наладить процессы так, чтобы они не были сильно завязаны на конкретных людей и не буксовали.

А еще иногда становилось почти страшно от ответственности за принимаемые решения и изменения. Да и прям сейчас страшно: запустили набор и смотрим, как все то, что сделали, будет работать. По ощущениям, мы таки справились (хоть и не без косяков и задержек), и сейчас должно быть явно намного лучше. Но посмотрим на практике)

При этом все эти процессы еще даалекоо не закончены, еще остается сделать уйму вещей. А казалось бы, просто онлайн-школа с лекциями там, семинарами и дзшками... Как же я ошибалась насчет многих вещей о сроках и пайплайне их реализации =/

Так что вот. Буду рада, если поделитесь анонсом набора с теми, кому учиться в DLS может быть интересно)

Читать полностью…

DLStories

Сегодня была на первом дне воркшопа DANGER в London Institute of Mathematical Sciences (LIMS). Это такой институт, который собирает ученых-теоретиков в области математики, физики и AI, где они занимаются наукой и публикуют исследования. Находится институт в здании на Mayfair, где когда-то жил Фаррадей!

Так вот, про воркшоп. Он посвящен исследованиям на стыке AI и математики. Идет два дня, сегодня и завтра, каждый день по 4 доклада. Все доклады записываются, записи двух из них уже можно посмотреть на YouTube (вот на этой странице описания тем со ссылками на видео. Остальные тоже обещали добавить). А еще там же можно найти описания и ссылки на Zoom для завтрашних докладов: на них можно прийти и даже спросить вопросы у выступающих.

Пара впечатлений от сегодняшних докладов:
Первые три из четырех докладов были вида "вот есть проблема из теоретической математики, вот так она формулируется, и вот так мы пытаемся ее решить с помощью нейросетей". Во всех них описанию математической проблемы занимало 90% времени, описание нейросетевого подхода — 10%. Потому что все подходы были вида "ну вот простая MLP/convolution, мы ее применили, и вот, работает". Причем в той работе, где применили convolution, не очень даже понятно, почему она вообще хорошо там работает ¯\_(ツ)_/¯
Из этого всего и из моего прошлого опыта взаимодействия с людьми, которые нейронки пытаются применить к задачам физики, складывается ощущение, что пока что взаимодействие миров "классических" наук типа физики/математики и AI не очень велико. Хочется больше исследовать природу математических и физических задач и подбирать такие ML/DL-алгоритмы, которые могли бы помочь там наилучшим образом. Кажется, для этого как раз нужны подобные институты и воркшопы, где собираются люди с разным бэкграундом, а также новые междисциплинарные курсы в ВУЗах.

Четвертый доклад сегодня (от Kathlén Kohn) был про теоретические свойства сверточных нейросетей без функций активации с точки зрения алгебраических многообразий. Доклад основан на этой статье, там исследуется некоторая зависимость геометрии многообразий, которые выражают такие нейросети, от архитектуры сети.
Так вот. Логичный вопрос к этому докладу, который задали многие: а что дальше? Реальные нейросети, которые мы обучаем на реальные задачи, очень далеки от чисто сверточных сетей без функций активации. Можем ли мы что-то подобное умное сказать о "реальных" сетях?
Ответ тут такой, что сделать это очень сложно. И пока что все попытки сделать это были ооочень робкими. Там еле ReLU добавлять пробуют и смотрят, что будет. В принципе, логично, т.к. семейство многообразий сразу становится абсолютно другим, и его сложнее исследовать.
Отсюда мысль такая (высказанная самой Kathlén Kohn, когда я ее про это все спросила): мы оочень мало знаем о том, как и почему работают нейросети. Прямо очень мало. Теоретических основ почти нет. И там еще столько работы, ммм. Короче, еще одна причина развивать сотрудничество между областями.

P.S. у LIMS есть программа fellowship для молодых исследователей-теоретиков из России, Украины и Беларуси. Подробнее тут

Читать полностью…

DLStories

В продолжение к посту выше: эта история мне напомнила еще один недавний случай, где метрика сыграла большую роль. Не так давно в Твиттере/Реддите стали появляться сообщения, что ChatGPT что-то "сильно отупела". Конкретно, в задачах, где нужно генерировать код, стала выдавать невалидный код. Который тупо не запускается. Потом еще ребята из Стенфорда выпустили статью, где основательно сравнили перформанс ChatGPT и GPT-4 в марте и июне 2023 года. Эти сравнения были очень выразительными: в марте где-то 50% кода, выданного ChatGPT, было корректным, а в июне этот показатель стал 10%. Вот твит с парой таких картинок.

Это навело какую-то шумиху, я даже в нескольких чатах видела обсуждение (ну и правда, было интересно, что такое случилось). Ну а что же там произошло на самом деле: оказывается, снова дело было в метрике. В том, как авторы статьи измеряли "корректность" кода, выданного ChatGPT. Измерялась она, похоже, так: берем код, который выдает модель, запускаем. Запустилось — хорошо, не запустилось — плохо. И с мартовской версией ChatGPT большинство кода работало, с июньской версией перестало. В чем же дело?
А дело в том, что OpenAI поменяла вид, в котором ChatGPT выдает код. Теперь весь код в выводе обрамляется кавычками, и рядом еще ставится приписка, какой язык программирования используется. И именно это нововведение сломало прямой запуск кода в выводе ChatGPT. Т.е. модель продолжила выдавать правильный код, но запуск этого кода стал ломаться из-за добавленных кавычек.

Вот такая история. Подробнее про нее и другие аспекты этой статьи можно почитать в Сиолошной. Это еще один повод, чтобы чуть исследовать удивительные открытия, перед тем как писать "this is huge" (сори, у меня немного аллергия на посты, которые начинаются с таких фраз)

Читать полностью…

DLStories

Отзыв на книгу "Machine Learning System Design"
#learning

Не так давно Валерий Бабушкин и Арсений Кравченко написали свою книгу о дизайне ML систем. Она выпускается частями, сейчас вышло около половины. Мне досталась копия книги бесплатно взамен на отзыв (чему я очень была рада, хе-хе). Книгу я, наконец, прочитала (ту ее часть, что уже вышла), и в этом посте пишу свой отзыв.

Для начала пару слов, что такое ML system design:
Простыми словами, ML system design — это искусство построения системы с ML-компонентами. Например, пусть вы — онлайн-магазин, и хотите внедрить в свой магазин умный поиск по товарам на основе ML-модели. Чтобы это сделать, вам нужно разработать эффективный дизайн системы поиска, отвечающий вашим требованиям, реализовать эту систему и научиться ее эффективно поддерживать в условиях постоянно меняющегося мира. Вот это все входит в ML system design.
Еще важно сказать, что дизайн нужен не только большим и высоконагруженным системам. Даже небольшие пайплайны с небольшим потоком данных нуждаются в качественном проектировании.

Теперь, почему мне хотелось прочитать эту книгу:
В апреле 2022 года я собеседовалась в DeepMind на позицию ML Engineer. Прошла все этапы до последнего интервью, которое как раз было на ML System Design. Я его завалила (и по своим ощущениям, и по фидбеку). Но сама не могла понять, что в моем мыслительном процессе было не так. Отчасти из-за этого опыта мне и было интересно прочитать эту книгу. Начав читать, я через страниц 15 поняла, что я делала не так. Я задавала не те вопросы. Я вообще их мало задавала, хотя в дизайне ML систем вопросы — это чуть ли не самое главное.

Итак, перейдем к книге. О чем книга и для кого она:
"Machine Learning System Design" — это отличная вводная книга в мир построения ML-систем. Другими словами, если вы интересуетесь ML System Design или строите свою первую систему и думаете, с чего начать, то эта книга — ровно то, что вам нужно. В ней очень хорошо разобраны базовые вопросы ML дизайна:
- Что вообще такое этот ваш ML System Design;
- На что обязательно нужно обратить внимание при планировании и построении системы;
- Какие вопросы задавать и какие стратегии использовать, чтобы наилучшим образом задизайнить систему;
- Важные моменты в каждом из шагов построения и поддержки системы, от первого черновика дизайна до внедрения и поддержки.

То есть, книга высокоуровневая. Она научит вас правильно мыслить, задавать правильные вопросы. А за конкретными инструментами дальше пойдете в другие места.

Написано все понятным и приятным языком. Читать не скучно и не сложно. Практически к каждой ключевой мысли есть пример из опыта работы авторов: они отлично иллюстрируют важность той или иной компоненты дизайна системы.

Короче, книга хороша, рекомендую.

(тут, на всякий случай, небольшой дисклеймер: чтобы начать изучать ML System Design, нужно хорошо понимать основы ML и принципы работы ML-пайплайнов. Сначала — основы, потом – дизайн систем)

📘Купить книжку туть (разумеется, по мере выхода глав вы будете получать к ним доступ)

Читать полностью…

DLStories

Выпуск подкаста “S02E02: Векторные базы данных и стартап" доступен на всех платформах!
#podcast

Гость эпизода — Андрей Васнецов, основатель & CTO Qdrant — стартапа, который разрабатывает векторную базу данных.
С Андреем поговорили о том, что вообще такое — векторная база данных, как она работает, в чем сложность ее реализации и где ее можно применять. Еще узнали, как векторные базы данных можно использовать в ChatGPT. Ну и обсудили стартап: сложно ли было его создать и как идут дела.

Слушать:
Yandex Music
Apple Music
Google Music
Spotify
YouTube

Материалы и таймкоды к выпуску

Поддержать подкаст:
- рубли
- любая другая валюта

Читать полностью…

DLStories

Помните, был пост про эффект гроккинга (Grokking)? Напомню: это эффект, когда модель в начале обучения начинает переобучаться (train лосс становится мал, test loss остается высоким), а через некоторое время внезапно генерализуется (test loss резко падает). Иллюстрация этого эффекта — на картинке.

Grokking был замечен не так давно, лишь в 2021, и только на маленьких, "игрушечных" датасетах. Первой статьей, исследовавшей этот эффект как раз на игрушечных задачах, можно назвать эту. В ней приводятся некоторые соображения насчет того, откуда этот эффект возникает. В частности, замечено, что weight decay играет большую роль и может способствовать появлению этого эффекта.

Однако досконально выяснить, при каких обстоятельствах возникает Grokking, и какие нюансы архитектуры/метода обучения на это влияют, еще не получилось. В 2022 году вышла статья от MIT, где авторы попытались связать Grokking с устройством поверхности лосс-функции и нормой параметров сети. Для меня эта теория выглядит неплохо (+ она согласуется с тем, что weigth decay помогает: тут тоже дело в норме параметров), но доказать, что Grokking целиком и полностью обусловлен этим эффектом, нельзя.

Так вот, к чему я это. Пару дней назад Google выкатил лонгрид, посвященный Grokking. В нем авторы описали, в чем состоит феномен, и сделали очень понятные визуализации этого эффекта на примере двух игрушечных задач. На них видно, какие свойства есть у весов сети до и после того, как начинается Grokking, а также становится понятно, как именно weight decay вызывает этот самый Grokking.

Короче, отличный лонгрид-ликбез по этой теме.

Из интересного: в ходе экспериментов авторы делают вывод, что weight decay не является ни необходимым, ни достаточным условием для возникновения Grokking. Нужно больше исследований, чтобы понять, откуда берется Grokking. Эти исследования должны начинаться с игрушечных задач, чтобы можно было исследовать влияние каждой мелкой детали на Grokking изолированно. И только потом можно переходить к исследованиям больших моделей.

📄Лонгрид

Читать полностью…

DLStories

Как устроены трансформеры для задач CV на примере ViT
#промо

Это — один из примеров статьи в канале DeepSchool!

В нем 15 практикующих инженеров пишут посты на темы ML/DL:
- разбирают статьи
- дают советы по обучению нейросетей
- напоминают теорию ML/DL
- и пишут туториалы к сервисам и фреймворкам

Ребята ревьюят посты друг друга, чтобы добавить разные точки зрения, а редактор упрощает текст и убирает лишнее, чтобы вам было легче читать.

Еще примеры постов:
Подкаст «Почему растет популярность 3D CV»
Разбор решений Kaggle соревнования по детекции столкновений футболистов
Обзор ключевых идей MobileNet — почему она столь эффективна
Что такое kafka доступным языком и с примером для датасаенс
❺ Вопрос на подумать: как защититься от ленивых разметчиков на краудсорсинг-платформах

➡️ Подписывайтесь, чтобы не пропустить полезный совет и развиваться в Deep Learning!

Читать полностью…

DLStories

Помните, писала пост про предложение нового вида теста Тьюринга? Tl;dr там такой: давайте сравнивать поведение машины с поведением разных животных. Если машина неотличима по поведению от кошки, она прошла тест Тьюринга уровня "кошка". Ну и так для разных животных от червяка до человека.

А вот тут Мустафа Сулейман (co-founder and CEO of Inflection AI, в прошлом co-founder of DeepMind) предлагает еще один вариант. Он говорит вот что: давайте смотреть не на то, насколько модель "умна в целом", а на то, "что осмысленного модель может сделать".

Например, давайте попросим модель "заработать миллион долларов на онлайн-платформе для ритейла с начальной инвестицией в 100k долларов". Чтобы решить такую задачу, модели нужно не только расписать план действий (как может сделать GPT-4), а сделать кучу связанных действий: придумать продукты для продажи, общаться с производителями и поставщиками, вести переговоры о контрактах и продумывать маркетинг.

Сулейман называет AI, который мог бы решать подобные задачи, “Artificial Capable Intelligence” (AСI). По его мнению, ACI — это промежуточная версия между слабым AI и AGI. А еще Сулейман верит, что ACI может быть достигнут уже через пару-тройку лет, и вот тогда это окажет огромное влияние на экономику. Мы перейдем от фазы "AI полезен в решении каких-то задач" в фазу "AI — центральная составляющая мировой экономики".

Мои мысли по этому поводу:
- Это немного похоже на предложение нового теста Тьюринга из поста выше. Похоже тем, что и тут, и там от модели начиает требоваться не только возможность общаться, но и возможность взаимодействовать с миром. Кажется, это требование — логичный шаг в эволюции наших ожиданий от AI;
- Не совсем понятно, как в таком сеттинге сравнивать между собой модели для разных задач. Возможно, это и не предусматривается, но тогда это похоже на обычный бенчмарк в RL-сеттинге, а не на тест Тьюринга. Просто задача чуть посложнее, чем классификация картинок ImageNet или игры Atari;
- Не очень понятно, как тестировать такие модели, если их тест предуматривает реальное взаимодействие с миром с живыми людьми. В примере выше модели нужно заработать миллион долларов, распоряжаясь реальными деньгами, создавая и продавая реальные товары реальным людям, в процессе коммуницируя с кучей людей. Кажется, тестирование модели будут тратить довольно много человеческого времени и денег.

Возможно, ответы на эти вопросы есть в книге Мустафы Сулеймана "The Coming Wave: Technology, Power and the Twenty-First Century's Greatest Dilemma". Интересно будет почитать (она выходит 5 сентября)
А пока подробнее почитать об идее нового теста Тьюринга можно в статье MIT Tech Review

Читать полностью…

DLStories

В комментариях тут пришел запрос написать пост о моем PhD. О том, как поступать, как учиться, какие PhD бывают и все такое.

Если честно, я не считаю себя экспертом по миру PhD, поэтому если и напишу пост, то чисто о своем опыте. Еще есть мысль собрать несколько человек с опытом PhD в разных странах и сделать набор постов/статью/подкаст. Но это не прямо в ближайшем будущем. И пока ничего этого нет, у меня для вас есть вот какая штука:

В феврале этого года я проводила открытую лекцию для онлайн-магистратуры ВШЭ на тему отличий ML/AI research в индустрии и академии. В этой теме, разумеется, я себя тоже экспертом не считаю, поэтому при подготовке лекции консультировалась у своего научника, у Александра Петюшко, а также спрашивала вопросы на ШАДовской встрече с Максимом Пановым.

Для лекции я делала презентацию, и планировала потом на ее основе написать статью на Хабр. Вообще я все еще планирую, но реализация подобных хотелок часто идет медленно. Поэтому пока я этого не сделала, держите слайды: они тоже довольно понятны сами по себе. К тому же, вдруг у вас найдутся комментарии/критика к слайдам, которые я потом смогу учесть при написании статьи)

Какие темы там затронуты:
- Отличия ML Engineer / ML Scientist / ML Researcher;
- Чем ML/DL research в индустрии отличается от академии;
- Как устроен карьерный путь в академии (UK/USA);
- На что обращать внимание при выборе дальнейшего пути;
- Пара слов о том, как искать PhD, если вы выбрали этот путь.

Также на слайде номер 40 есть несколько полезных ссылок по теме PhD в ML/AI.

📄Презентация

Читать полностью…

DLStories

Попросили рассказать про НейроSet: это конференция по нейросетям и AI, где будут доклады на темы CV/NLP/генеративок.

Месяца два назад мне написал организатор этой конференции и пригласил на ней выступить. Выступать я отказалась (мне бы с текущими делами разобраться), но рассказать о ней в канале согласилась, потому что доклады должны быть хорошие.

Я бы выделила вот эти:
- Parameter-Efficient Fine-Tuning: тюнинг больших языковых моделей сейчас и завтра от Владислава Лялина, PhD в University of Massachussets Lowell, автора канала DL in NLP. Обещает рассказать о том, какие эффективные техники существуют для (до)обучения больших языковых моделей. Будет хорошим дополнением к секции RLHF датафеста;
- Другие приложения генеративных моделей от моего бывшего коллеги по лабе в Вышке Михаила Гущина. Миша расскажет про неочевидные применения генеративных моделей — в астрономии, физике высоких энергий и для прогноза поведения систем. Для справки — лаба, где работает Миша, занимается ML в физике высоких энергий и сотрудничает с CERN;
- Коэволюция когнитивных процессов и жизни от Ивана Хватова из Московского института психоанализа. Тут обещают рассказать о том, когда и для чего возникли базовые познавательные процессы (ощущение и восприятие) и как затем появлялись более сложные когнитивные феномены – память, внимание и мышление. Вот этот доклад послушала бы сама.

Подробная программа тут
Конференция будет 14 июля с 10 до 19 МСК.
Стоит 670р (да, знаю), и мне еще выдали промокод DLSTORIES на скидку 20%.

Читать полностью…

DLStories

CoCa: Contrastive Captioners are Image-Text Foundation Models (by Google Research)
#paper

Такая изящная идея, что удивительно, почему никто не додумался до нее раньше.

Что предлагают:
Берем обычный CLIP. Напомню, что он состоит из двух энкодеров — для текста и картинок. Добавляем к нему еще одну часть: модель, которая принимает на вход эмбеддинг текста и эмбеддинг картинки из CLIP, и учится генерировать тот же самый текст, эмбеддинг которого был подан на вход (см. картинку к посту). Назовем эту часть text decoder. И теперь обучаем всю модель целиком (т.е. все три части) с помощью двух лоссов: стандартный contrastive loss от CLIP и кросс-энтропия между сгенерированным текстом и изначальным (а-ля лосс из задачи image captioning). При обучении эти лоссы просто суммируем.

В чем тут смысл:
Смотрите, чтобы модель могла сгенерировать правильный текст по входящим эмбеддингам, нужно, чтобы в этих самых эмбеддингах содержалась нужная для этого информация. Это заставляет энкодеры CLIP'а выучивать более информативные, содержательные эмбеддинги картинки и текста, чем в стандартном сеттинге обучения CLIP.

Это подтверждается экспериментами: на ImageNet фичи CoCa достигают 0.86 top-1 accuracy в zero-shot режиме (без никакого дообучения), а с supervised дообучением на трейн сете – 0.910 accuracy, что есть новая SOTA.
Кроме ImageNet'а авторы провели эксперименты еще на куче даатсетов и заадчах, где CoCa тоже показывает отличные результаты.

Еще плюшка метода: CoCa можно легко дообучить на Image Captioning. Выкидываем текстовый энкодер, и дообучаем энкодер картинок + text decoder на датасете для задачи captioning. Снова получаем новую SOTA и уверенно бьем vanilla CLIP/BLIP.

📄Статья
Инфу о статье нашла тут.

Читать полностью…

DLStories

Сейчас будет реклама, текст которой я написала сама. Это реклама самого крупного в России и Европе сервиса подбора и и видео-консультаций с психологами "Ясно"
#промо

Я в личной терапии уже 3.5 года. И с полной уверенностью могу сказать, что терапия — это лучшее, что я сделала для себя в этой жизни. За годы терапии я сильно выросла эмоционально, научилась лучше коммуницировать с людьми и справляться с самыми сложными ситуациями в жизни. Я стала лучше понимать себя и что я хочу от жизни.

Еще терапия очень помогла мне не поехать кукухой в событиях последних лет. А сейчас я наблюдаю, как терапия помогает не поехать кукухой людям в моем окружении. Два близких мне человека за последние полгода говорили фразу "терапия — это очень хорошо".

Я очень рада, что тема психологов и терапии становится все более нормальной в нашем обществе. Терапия — это действительно прекрасный инструмент помощи в сложных ситуациях и работы над собой. Точно готова ее рекомендовать.

Но для того, чтобы сессии с психологом были действительно полезными, важно найти грамотного специалиста под ваш запрос. Такой специалист никому ничего не навязывает и не стремится как-то на вас повлиять. Он помогает вам самим разобраться с собой и выработать свои механизмы, свое решение вашей ситуации.
В "Ясно" строгий отбор психологов: все терапевты имеют высшее образование и регулярные супервизии. К тому же, сам сервис был основан психологами. В общем, на треш не нарветесь. А если что-то пойдёт не так, вы всегда можете обратиться в службу поддержки, где работают люди с психологическим образованием.

Вот еще несколько поинтов про терапию и "Ясно":
- в терапию можно прийти с любым запросом. Будь то тревожность, выгорание, проблемы в работе, поиск себя или личные отношения. Или даже какая-то точечная сложная ситуация. В "Ясно" вам предложат на выбор несколько специалистов именно под ваш запрос на основе подробной анкеты.
- иногда подходящий именно вам специалист находится не с первого раза. Это нормально. Я сменила трех, пока нашла своего. Но это стоило того на все сто. В Ясно это понимают, поэтому специалиста можно поменять нажатием одной кнопки в личном кабинете.
- иногда результат терапии ощущается уже после первых нескольких сессий. А иногда для этого требуется больше времени. Все зависит от запроса и вашей психики. Мой совет — дайте процессу время. Я пришла к мысли "психотерапия — лучшее, что со мной случилось" далеко не сразу.

В общем, попробовать точно стоит. Чтобы начать было легче, Ясно дают всем читателям моего канала скидку 20% на первую сессию при регистрации по промокоду DLSTORIES.

Записаться в Ясно

Реклама. ООО "Ясно. Лайв", ОГРН 1217700387442, ИНН 9703044223
erid: Kra23uuPh

Читать полностью…

DLStories

Еще одна статья из средних веков 2021 года: Transformer Feed-Forward Layers Are Key-Value Memories
#paper

Когда речь заходит об explainability трансформеров ("а давайте поковыряем модель и попробуем понять, как она работает и что выучивает"), руки сразу тянутся изучать карты внимания. Это логично, потому что механизм attention имеет понятный смысл и структуру, а карты внимания можно визуализировать и найти на них что-то интересное.

Однако ~2/3 параметров траснформера — это веса MLP слоев. А на них в исследованиях внимания обращали не особо. Авторы этой статьи решили это исправить.

Они говорят вот что: кажется, MLP слои трансформера можно рассматривать как ненормированный key-value memory.

Подробнее:
Key-value memory — это механизм реализации "долгосрочной памяти". Состоит memory из двух матриц — K (key) и V (value). Обе матрицы обучаемые. Получение информации из памяти происходит так:
y = SoftMax(Kx) V
Т.е. сначала на основе входящего элемента х получается распределение вероятностей на ключи K. Затем оно умножается на V и получается итоговый ответ.
По сути, тут векторы матрицы K по входящему элементу х понимают, какие значения матрицы V важны для получения ответа. Т.е. векторы матрицы K "реагируют" на наличие во входе x каких-то паттернов, важных для получения итогового ответа. И итоговый ответ собирается из векторов матрицы V с соответствующими весами.

Теперь посмотрим на формулу MLP слоя трансформера:
MLP(x) = f(Kx)V
Здесь K и V — матрицы весов, f — функция активации. Мы можем посмотреть на матрицу K как на матрицу ключей (key), а на V — как на матрицу значений (values). Тогда получается механизм, напоминающий стандартный key-value memory, только функция активации будет другая.

Авторы статьи решили проверить, действительно ли можно смотреть на MLP слои с такой точки зрения. Они взяли обученную языковую модель и стали подавать ей на вход текст. Также зафиксировали несколько векторов k из матриц K MLP слоев. И стали смотреть, для каких входных текстов х произведение kx получалось наибольшим.

Оказалось, что для большинства векторов k есть определенные паттерны текста x, которые дают большие значения kx. Например, 449-й вектор матрицы K первого слоя модели сильнее всего реагирует на тексты, которые заканчиваются на слово "substitutes". А 2989-й вектор матрицы 13-го слоя реагирует на тексты, которые заканчиваются указанием времени ("tomorrow at 11", "Friday until", ...)

Напоминает исследования времен RNN, когда в моделях для генерации текста/кода можно было выделить отдельные нейроны, которые сильнее всего активировались в определенных местах текста. Например, нейрон, который активировался на переносе строки или на том месте, где в коде нужно было поставить закрывающую скобку.

Для меня лично это интересно тем, что это исследование — про NLP. А в картинках как? Какую роль играют MLP слои трансформера в DINO или в Stable Diffusion?

📄 Статья. В ней еще есть соображения насчет роли матрицы V в MLP

Читать полностью…

DLStories

Из МФТИ просили передать, что до 15 июля идет набор в магистратуру и аспирантуру ФПМИ МФТИ по искусственному интеллекту и робототехнике.

Программы:
Магистратура «Методы и технологии искусственного интеллекта» (10 мест со стипендией до 30 т.р.)
Аспирантура «Информатика и вычислительная техника» (5 мест, со стипендией до 80 т.р.)

Для поступления нужно:
- заполнить анкету по ссылке;
- пройти собеседование и сдать экзамены по правилам приемной комиссии МФТИ.

Студенты будут иметь возможность совмещать учебу с оплачиваемой стажировкой в Центре когнитивного моделирования.
Там под руководством ведущих специалистов вы сможете заниматься исследованиями и публиковать результаты на передовых конференциях А* (NeurIPS, ICLR, ICLM, IJCAI и др.), а также работать над прикладными проектами по следующим темам:
— RL
— Беспилотный транспорт
— Сomputer vision
— Воплощенный искусственный интеллект (embodied AI)
— Планирование поведения
— Интеллектуальное управление робототехническими платформами

Больше информации о программе и поступлении можно найти на сайте программы и приемной комиссии.
Также тут можно посмотреть прямые эфиры о поступлении.

Читать полностью…
Subscribe to a channel