Искусственный интеллект, нейросети, машинное обучение Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels Сайт: https://tprg.ru/site Другие наши проекты: https://tprg.ru/media
Технология — это инструмент, а любой инструмент можно использовать для плохих вещей
И думаю, что с преступлениями вроде различных дипфейков 18+ содержания или судами об авторском праве стиля картинки, вы знакомы. Но иногда всё заканчивается в тот момент, когда тебя, несущего заряженный арбалет, ловит полиция на территории Букингемского дворца. И да, в той истории тоже фигурировал ИИ. Или наоборот, использовать ИИ для раскрытия «cold case» (висяк по-нашему), который тянулся с 1977 года.
Посмотреть:
https://tproger.ru/articles/kak-nejroseti-vliyayut-na-ubijc-zhertv-i-rassledovatelej
#статья
Какой толк от нейросетей в работе? Kokoc Group поделились своим опытом в этом вопросе
Они протестировали и взяли в работу уже множество инструментов на основе ИИ, которые помогают им решать разные задачи. О готовых кейсах, идеях и планах по использованию нейросетей рассказали тут:
Почитать:
https://tprg.ru/jgiY
Эти клипы под фонк на YouTube не зальёшь
Contrastive Language–Image Pre-training (или CLIP) — это более-менее современный подход к задачам CV, включающий в себя zero-shot классификацию (когда нужно предсказывать классы, которых не было в тренировочном датасете), мультимодальное обучение и natural language supervision. Однако долгое время, никто не знал, как по хорошему подготовить данные для такого подхода, ибо всё есть тайна за семью печатями. Поэтому эксперты из Meta* решили открыть завесу над тем, как готовят датасет для CLIP (внеся свои коррективы и создав MetaCLIP), потому что, по их словам, данные намного важнее, чем сама модель (в этой задаче).
* — организация, запрещённая на территории РФ
Почитать (CLIP):
https://openai.com/research/clip
Посмотреть (CLIP):
https://www.youtube.com/watch?v=8o701AEoZ8I&t=1s
Почитать (подготовка данных):
https://arxiv.org/pdf/2309.16671v1.pdf
Репозиторий (подготовка данных):
https://github.com/facebookresearch/metaclip
#статья #данные
Очередные улучшения завезли в ChatGPT
А именно зрение, слух и голос. Теперь в запросах можно использовать картинки, звуковые файлы и запрашивать озвучку (например попросить написать детскую книжку, нарисовать к ней картинки и озвучить это всё). А ещё его можно послать прочитать инструкцию к вещи, в которой вы не можете разобраться, после чего он вам понятным языком расскажет, как собрать этот шкаф из ИКЕА. В случае с отечественной мебелью, собирают только сильнейшие, инструкции у вас не будет.
Посмотреть:
https://www.youtube.com/watch?v=k2bynqQ6el4
#позалипать
У нас есть много агентов, но их зовут не Смит
Сегодня у нас не то чтобы научная статья в её обычном понимании, но большая компиляция всех статей по теме LLM-агентов (да и не только LLM). Разделение по категориям, структура зависимости (кто, кого и с какой степенью жестокости улучшал), Развлекайтесь.
Почитать:
https://arxiv.org/pdf/2309.07864v3.pdf
Репозиторий:
https://github.com/woooodyy/llm-agent-paper-list
#статья
200 тысяч улучшений трансформера готовы и миллион ещё на подходе
На этот раз под пристальный взгляд исследователей попал аспект video inpainting (VI), когда мы можем на лету изменять содержание видео-файлов. Новый метод называется ProPainter, потому что они используют улучшенный Propagation и более эффективный Transformer (достойная загадка от Жака Фреско), которые являются компонентами большинства методов VI. Для того чтобы понять, каким именно образом улучшения произошли, придётся очень долго курить матчасть, поэтому для сохранения ваших нервных клеток, лучше просто разберитесь, как использовать их код.
Почитать:
https://arxiv.org/pdf/2309.03897v1.pdf
Репозиторий:
https://github.com/sczhou/propainter
#статья
Сиквел, который наверное кто-то ждал
DALL-E 3 был недавно анонсирован. В представлениях эта text-to-image модель не нуждается, но из анонса авторы обещают интеграцию с ChatGPT и различные улучшения, по сравнению со всеми существующими генеративными моделями. А ещё можно будет из картинок стикеры делать, воооот. Статьи или API пока не появилось, будем продолжать наблюдать. Надеемся, что эта третья часть будет лучше, чем Шрек 3.
Посмотреть:
https://www.youtube.com/watch?v=BAfOGBojiEU
Анонс:
https://openai.com/dall-e-3
#позалипать
Any-to-any выходит в open source
NExT-GPT является конгрегацией обычной LLM и кучи дообученых адаптеров, для конвертации любой модальности (текст, видео, аудио) на вход и соответствующие же адаптеры существуют для выхода. Всё в репозитории, берём, пользуемся.
Почитать:
https://arxiv.org/pdf/2309.05519v2.pdf
Репозиторий:
https://github.com/NExT-GPT/NExT-GPT
#статья
Another one, and another one
Ещё один плейлист с туториалами по ML, в котором, как говорил очень известный торговец, «немного того, немного сего». Почти все базовые алгоритмы, до того как придумали нейросети и все стали меряться количеством GPU и несколько небольших проектов (в которых присутствует деплой через Flask).
Посмотреть:
https://www.youtube.com/playlist?list=PLeo1K3hjS3uvCeTYTeyfe0-rN5r8zn9rw
#программирование
Важная часть обучения, это учиться на своих ошибках
И этот новый подход (под названием Reflexion) к дообучению LLM заставляет ИИ делать как раз это. Только не изнутри, с помощью изменения кода ChatGPT, а с помощью человеческого фидбека в случае неправильных ответов. Сама система Reflexion состоит из нескольких шагов, отвечающих за непосредственно генерацию, проверку, оценку ошибок и память. В деталях читайте в статье. Тесты уже вывели подобный подход в лидеры на бенчмарке HumanEval (PY), где находится 150 задач на программирование на Python.
Посмотреть:
https://www.youtube.com/watch?v=9o_hFlsfaBI
Почитать:
https://arxiv.org/abs/2303.11366
#статья
Факт: чтобы уследить за развитием технологий, рекомендуем читать как минимум ТЕХНО от Яндекса
Там рассказывают про нейросети, роботы, чат-боты, голосовые помощники и многое другое понятным языком. А ещё находят неожиданные факты, например:
— Почему на первых клавиатурах не было 0 и 1?
— Какой была первая в истории фраза, переведённая компьютером?
— Как представляли первого робота в кино почти 90 лет назад?
А ещё про нейросети:
— Как обманывал пользователей самый популярный чат-бот ChatGPT?
— Чем занимается преподаватель для нейросети?
Подпишись: @techno_yandex
Реклама. ООО "Яндекс" ИНН 7736207543, erid: 2VtzquYAPRr
Давно грезите развить свой проект и вырасти в карьере? Пора действовать!
Да, сделать первый шаг к масштабному развитию может быть страшно, ведь неизвестность пугает. Но только действия и ошибки приводят к кратному росту.
Автор статьи доказывает это на собственном примере — от ошибок не застрахован никто. Но их можно свести к минимуму и в краткие сроки из хорошего айтишника превратиться в предпринимателя, благодаря онлайн-обучению и новому окружению. Но все подробности в статье: https://tprg.ru/P1Jv
Реклама Бексаев Николай Сергеевич ИНН 470308037337, erid: LjN8KGYRt
Хотели узнать, что слушает в наушниках милый парень/девушка, что сел(а) рядом с вами в метро?
Ну, если вы как-то сможете незаметно снять с них ЭЭГ, то сегодняшняя модель сможет вам примерно подсказать, что играет в наушниках, реконструировав музыку из мозговых волн. Да-да, brain-to-audio уже здесь. Качество конечно не лучшее, но мелодию можно узнать, если сильно напрячься.
Так что лучше просто попробуйте познакомиться, а не гадайте.
Посмотреть:
https://www.youtube.com/watch?v=qcfC53c3tSc
Послушать (реконструированная музыка, нужен VPN):
https://news.berkeley.edu/2023/08/15/releases-20230811
Почитать:
https://journals.plos.org/plosbiology/article?id=10.1371%2Fjournal.pbio.3002176
#статья
Иногда нам нужна оборона от непрошенных гостей в комнате
Допустим у вас совещание на работе или (для тех кто помладше) к родителям пришли гости, а их детей отправили к вам в комнату. Поэтому берёте, подключаете камеру на подвижном контролируемом сервомоторе к плате Ардуино через ПК (где работает модель детекции лица), которая контролирует наведение камеры на лицо, а к самой камере прикручиваете игрушечный NERF-пистолет с автоспуском, воткнутым в ту же Ардуино. Тот кто зайдёт в комнату сразу поймёт, что ему тут не рады. Берегитесь дружественного огня или носите скрывающую лицо маску.
Посмотреть:
https://www.youtube.com/watch?v=N5vzpi4yF7A
#позалипать
Поговорим возможностях в отрасли ИИ
А точнее, послушаем о трендах, возможностях, рисках и что нужно для стартапа в нашей любимой отрасли. А слушать мы будем знаменитого Эндрю Ына. Даже небольшой отрывок про ИИ-утилиту, помогающую развивать навыки в общении с противоположным полом.
Посмотреть:
https://www.youtube.com/watch?v=5p248yoa3oE
#позалипать
Если вы устали от реальности — отсканируйте её и уставайте от неё уже в виртуальности
NVIDIA выпустила свой Neuralangelo AI, который позволяет отсканировать своё окружение и получить высокодетализированную реконструкцию в 3D окружении. И видимо, чтобы мы не скучали, в это же время вышел Magic Avatar — text-to-motion-to-video утилита, где сначала можно задать общий вид движения какой-нибудь фигуры, а потом, поверх этого движения решать, будет это какой-нибудь робот-гуманоид или аниме-девочка. А может и аниме-девочка-робот-гуманоид, используйте фантазию.
Посмотреть (Neuralangelo AI):
https://www.youtube.com/watch?v=bSHz0NexLBU
Почитать (Neuralangelo AI):
https://research.nvidia.com/labs/dir/neuralangelo/
Репозиторий (Magic Avatar):
https://magic-avatar.github.io/
#позалипать
Проснулись, улыбнулись, начали учить ML, перестали улыбаться
А в том, как начать своё обучение, помогут эти roadmap-ы. Как бы мы не старались, в Telegram спецом по ML и DS не станешь и не заменишь весь тот объём информации, необходимый тем, кто только хочет вкатиться в ML. Не переживайте, сначала вам надо запомнить многое, но только до первого собеседования, потом всё ненужное отвалится само.
P.S. А ещё можно в университет поступить, на соответствующую программу, если такая опция для вас ещё присутствует.
Посмотреть (вариант 1):
https://www.youtube.com/watch?v=KEB-w9DUdCw
Посмотреть (вариант 2):
https://www.youtube.com/watch?v=h2FDq3agImI
Посмотреть (вариант 3):
https://www.youtube.com/watch?v=eaFaD_IBYW4
#это_база
Не всегда надо стакать больше GPU, надо и мозгом работать
QLoRA — эффективный по памяти подход к файн-тюнингу больших LLM, который позволил провернуть тюнинг модели на 65 миллиардов параметров всего с помощью одной GPU (правда GPU была на 48 гигов, так что можете свои игровые кондиционеры не пытаться напрягать). Всё заключается в хитром использовании предобученной модели с пониженным размером параметров и механизмом двойной квантизации (понижение использования памяти) входных данных. При этом, 16 бит на каждом параметре основной модели сохранены.
Почитать:
https://arxiv.org/pdf/2305.14314v1.pdf
Репозиторий:
https://github.com/artidoro/qlora
#статья
Русскоязычное NLP — почти непаханое поле
Возможно даже поле экспериментов. Но тем не менее, некоторые библиотеки тут присутствуют и в этом видео (хоть и слегка устаревшем) рассказывается про библиотеку natasha и производится некоторое сравнение с другими решениями в области русскоязычного NLP, погружение в историю проекта и просто разговор о том, какие технологии для своих проектов стоит использовать.
Посмотреть:
https://www.youtube.com/watch?v=l-9v2KBxlKc
#программирование
Лягуха дико флексит под ИИ-музыку 10 часов смотреть без регистрации и СМС
Примерно такой контент нас ждёт в скором времени, потому что вышел очередной text-to-music генератор, переслушавший 20 тысяч часов различной музыки. MusicGen показывает лучшие результаты, по сравнению с text-to-music моделью от Google (хотя восприятие музыки в каком-то смысле субъективно, кто-то же слушает шансон) используя стратегию чередования токенов. Как обычно, чтобы понять что это такое, надо прочитать пару других статей, где сначала объясняется, на чём основан MusicGen, потом пару статей где объясняется процесс токенизации аудио и тогда вы сможете понять, что именно нового привнесли авторы. Модель доступна в репозитории и на HuggingFace, поэтому практический результат оценить можете сами, а теоретикам удачи и терпения.
Посмотреть:
https://www.youtube.com/watch?v=BRWquZdEigw
Почитать:
https://arxiv.org/pdf/2306.05284.pdf
Репозиторий:
https://github.com/facebookresearch/audiocraft/blob/main/docs/MUSICGEN.md
#статья
Контекст в LLM это не удав, слишком длинным быть не может
Но при этом, контекст требует больших вычислительных мощностей (например, при переходе от 2048 до 8196 токенов контекста, требуется в 16 раз больше вычислений). Поэтому спецы из CUHK и MIT посидели, подумали и создали LONGLoRa — эффективный подход к увеличению контекста уже обученных LLM. Как и большинство подобных статей, самая мякотка прячется в некоторых улучшениях и модификациях механизма attention, в данном случае введение механизма shift-short attention. Авторы утверждают, что этот механизм требует только две строчки кода, одна из которых сдвигает токены в оригинальных attention-heads, а вторая переносит фичи из токенов в батчи. Все эксперименты ставились на LLAMA-2, и у авторов получилось расширить контекст для 7B вариации до 100 тысяч токенов, а у 70B до 32 тысяч, без потери качества и сильных увеличений вычислительных мощностей. Конечно они использовали 8 Tesla A100, но зная какие сейчас вычислительные кластера строятся, это практически ничто. Остальные результаты и код можете посмотреть ниже.
Почитать:
https://arxiv.org/pdf/2309.12307v1.pdf
Репозиторий:
https://github.com/dvlab-research/longlora
#статья
Всем нужно немножечко Mojo
И мы не про тот YouTube-канал, который выпускает топ-10 посредственного качества, а про новый язык программирования для ИИ-специалистов. Простота использования Python с быстродействием C++ (на бумаге). И это первый большой разбор этого языка в открытом доступе (кроме документации, конечно).
Посмотреть:
https://www.youtube.com/watch?v=5Sm9IVMet9c
Документация:
https://docs.modular.com/mojo/
#программирование
Сегодня нас ждёт 3.5, но не ChatGPT
Недавно NVIDIA анонсировала DLSS 3.5 с трассировкой лучей, улучшенной с помощью нейросети. Раньше, при включении трассировки, из-за дискретной природы лучей и вычислений в ПК, мы не могли получить полное покрытие поверхности светом, из-за чего приходилось использовать алгоритмы шумоподавления, которые местами мылили картинку. Поэтому инженеры из NVIDIA использовали стандартное «пусть это делает нейросеть, она умнее» и делегировали шумоподавление новому этапу DLSS с нейросетью. Не то чтобы сейчас было много игр, которые поддерживают DLSS 3.5, но результат по картинке и по увеличению FPS можете пронаблюдать в этом видео.
Посмотреть:
https://www.youtube.com/watch?v=hr85Lc_WT38
#позалипать
Просто фреймворк для LLM-агентов
И называется соответствующе — AGENTS. Сильно расписывать не будем, скажем лишь то, что он поддерживает все нужные фичи для исследований автономных агентов, такие как планирование, менеджмент памяти, использование агентами сторонних API и общение с другими агентами (человеком в том числе).
Почитать:
https://arxiv.org/pdf/2309.07870v1.pdf
Репозиторий:
https://github.com/aiwaves-cn/agents
#статья
Всё в игрушки играем?
Если вам некогда играть в игры, то можете научить нейросеть играть за вас. Не знаем, зачем это вам было бы нужно, разве что научиться применять RL в задачах, которые для вас интересны. Поэтому держите небольшую обучалку, где разобраны несколько RL проектов, связанных с ретро-геймингом. Возможно откроете для себя несколько интересных API для работы как с играми, так и с ML.
Посмотреть:
https://www.youtube.com/watch?v=dWmJ5CXSKdw
#программирование
Retention is all you need (?)
На сцену прорывных ИИ архитектур в области LLM врывается RetNet (Retentive Network). Меньшее использование памяти, меньшая задержка на инференсе и большая пропускная способность, чем у трансформеров, и всё с помощью нового механизма Retention (Attention из которого забрали softmax и добавили затухание по времени, смотрим в формулы в статье). На вопрос, будут ли RetNet'ы столь же умны, как трансформеры, покажет только время и куча экспериментов, но из экспериментов авторов, выглядит всё весьма многообещающе.
Посмотреть:
https://www.youtube.com/watch?v=ec56a8wmfRk
Почитать:
https://arxiv.org/abs/2307.08621
#статья
Не забудьте взять защиту
Когда создаёте системы, включающие в себя ИИ-модели. Много чего о кибербезопасности, этике, уязвимостях и экзистенциальных угрозах для человечества в этой группе лекций, удобно сведённых в одно большое обучающее видео. Не сильно полагайтесь на ИИ, иначе он начнёт нами рулить, а вы и не заметите.
Посмотреть:
https://www.youtube.com/watch?v=agEPmYdbQLs
#лекция
У кого-то дьявол сидит на плече, а у айтишников сотона
По крайней мере у тех, кто пошел по пути ИИ-ассистентов. SoTaNa это опен-сорсный ассистент для разработки, без всяких подписок. В целом, никаких прорывных технологий или подходов там не присутствует, но название китайцы выбрали креативное. В основе лежит LLaMA, к которой применён finetuning для лучшего понимания человеческих запросов.
Почитать:
https://arxiv.org/pdf/2308.13416v1.pdf
Репозиторий:
https://github.com/deepsoftwareanalytics/sotana
#статья
Чем больше моделей работает над задачей, тем лучше
В случае с людьми это не всегда работает, да как и в случае с ИИ моделями. Но на задаче «cлепого» восстановления изображения, когда мы не знаем о том, как именно изображение теряло в качестве, конкатенация двух моделей показала себя хорошо. DiffBUR состоит из двух частей, первая из которых ответственна за непосредственно восстановление (натренированная на нескольких вариантах деградации, для увеличения способности к генерализации), а вторая использует Stable Diffusion для генерации деталей, которые часто теряются при использовании предыдущих методов.
Почитать:
https://arxiv.org/pdf/2308.15070v1.pdf
Репозиторий:
https://github.com/xpixelgroup/diffbir
#статья
Если вам нужна своя компания по разработке ПО — её можно просто скачать
И это позволяет сделать ChatDev — фреймворк для разработки ПО на базе LLM и независимых агентов. Каждый из агентов отвечает за свою задачу, будь то дизайн, кодинг, тестирование или документация. Авторы заявляют, что 86% получившегося ПО смогло запуститься сразу, оставшиеся 14% ломались либо из-за ограничения длины токенов LLM, либо из-за проблем с внешними зависимостями. Просто напишите в чат то, что вам нужно и за вас всё сделают. Только не забудьте в статье прочитать пункт 4 (Discussions), где описаны все возможные проблемы, связанные с использованием ChatDev.
Почитать:
https://arxiv.org/pdf/2307.07924v3.pdf
Репозиторий:
https://github.com/openbmb/chatdev
#статья