neuro_channel | Unsorted

Telegram-канал neuro_channel - Нейроканал

9295

Искусственный интеллект, нейросети, машинное обучение Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels Сайт: https://tprg.ru/site Другие наши проекты: https://tprg.ru/media

Subscribe to a channel

Нейроканал

Технология — это инструмент, а любой инструмент можно использовать для плохих вещей

И думаю, что с преступлениями вроде различных дипфейков 18+ содержания или судами об авторском праве стиля картинки, вы знакомы. Но иногда всё заканчивается в тот момент, когда тебя, несущего заряженный арбалет, ловит полиция на территории Букингемского дворца. И да, в той истории тоже фигурировал ИИ. Или наоборот, использовать ИИ для раскрытия «cold case» (висяк по-нашему), который тянулся с 1977 года.

Посмотреть:
https://tproger.ru/articles/kak-nejroseti-vliyayut-na-ubijc-zhertv-i-rassledovatelej

#статья

Читать полностью…

Нейроканал

Какой толк от нейросетей в работе? Kokoc Group поделились своим опытом в этом вопросе

Они протестировали и взяли в работу уже множество инструментов на основе ИИ, которые помогают им решать разные задачи. О готовых кейсах, идеях и планах по использованию нейросетей рассказали тут:

Почитать:
https://tprg.ru/jgiY

Читать полностью…

Нейроканал

Эти клипы под фонк на YouTube не зальёшь

Contrastive Language–Image Pre-training (или CLIP) — это более-менее современный подход к задачам CV, включающий в себя zero-shot классификацию (когда нужно предсказывать классы, которых не было в тренировочном датасете), мультимодальное обучение и natural language supervision. Однако долгое время, никто не знал, как по хорошему подготовить данные для такого подхода, ибо всё есть тайна за семью печатями. Поэтому эксперты из Meta* решили открыть завесу над тем, как готовят датасет для CLIP (внеся свои коррективы и создав MetaCLIP), потому что, по их словам, данные намного важнее, чем сама модель (в этой задаче).

* — организация, запрещённая на территории РФ

Почитать (CLIP):
https://openai.com/research/clip

Посмотреть (CLIP):
https://www.youtube.com/watch?v=8o701AEoZ8I&t=1s

Почитать (подготовка данных):
https://arxiv.org/pdf/2309.16671v1.pdf

Репозиторий (подготовка данных):
https://github.com/facebookresearch/metaclip

#статья #данные

Читать полностью…

Нейроканал

Очередные улучшения завезли в ChatGPT

А именно зрение, слух и голос. Теперь в запросах можно использовать картинки, звуковые файлы и запрашивать озвучку (например попросить написать детскую книжку, нарисовать к ней картинки и озвучить это всё). А ещё его можно послать прочитать инструкцию к вещи, в которой вы не можете разобраться, после чего он вам понятным языком расскажет, как собрать этот шкаф из ИКЕА. В случае с отечественной мебелью, собирают только сильнейшие, инструкции у вас не будет.

Посмотреть:
https://www.youtube.com/watch?v=k2bynqQ6el4

#позалипать

Читать полностью…

Нейроканал

У нас есть много агентов, но их зовут не Смит

Сегодня у нас не то чтобы научная статья в её обычном понимании, но большая компиляция всех статей по теме LLM-агентов (да и не только LLM). Разделение по категориям, структура зависимости (кто, кого и с какой степенью жестокости улучшал), Развлекайтесь.

Почитать:
https://arxiv.org/pdf/2309.07864v3.pdf

Репозиторий:
https://github.com/woooodyy/llm-agent-paper-list

#статья

Читать полностью…

Нейроканал

200 тысяч улучшений трансформера готовы и миллион ещё на подходе

На этот раз под пристальный взгляд исследователей попал аспект video inpainting (VI), когда мы можем на лету изменять содержание видео-файлов. Новый метод называется ProPainter, потому что они используют улучшенный Propagation и более эффективный Transformer (достойная загадка от Жака Фреско), которые являются компонентами большинства методов VI. Для того чтобы понять, каким именно образом улучшения произошли, придётся очень долго курить матчасть, поэтому для сохранения ваших нервных клеток, лучше просто разберитесь, как использовать их код.

Почитать:
https://arxiv.org/pdf/2309.03897v1.pdf

Репозиторий:
https://github.com/sczhou/propainter

#статья

Читать полностью…

Нейроканал

Сиквел, который наверное кто-то ждал

DALL-E 3 был недавно анонсирован. В представлениях эта text-to-image модель не нуждается, но из анонса авторы обещают интеграцию с ChatGPT и различные улучшения, по сравнению со всеми существующими генеративными моделями. А ещё можно будет из картинок стикеры делать, воооот. Статьи или API пока не появилось, будем продолжать наблюдать. Надеемся, что эта третья часть будет лучше, чем Шрек 3.

Посмотреть:
https://www.youtube.com/watch?v=BAfOGBojiEU

Анонс:
https://openai.com/dall-e-3

#позалипать

Читать полностью…

Нейроканал

Any-to-any выходит в open source

NExT-GPT является конгрегацией обычной LLM и кучи дообученых адаптеров, для конвертации любой модальности (текст, видео, аудио) на вход и соответствующие же адаптеры существуют для выхода. Всё в репозитории, берём, пользуемся.

Почитать:
https://arxiv.org/pdf/2309.05519v2.pdf

Репозиторий:
https://github.com/NExT-GPT/NExT-GPT

#статья

Читать полностью…

Нейроканал

Another one, and another one

Ещё один плейлист с туториалами по ML, в котором, как говорил очень известный торговец, «немного того, немного сего». Почти все базовые алгоритмы, до того как придумали нейросети и все стали меряться количеством GPU и несколько небольших проектов (в которых присутствует деплой через Flask).

Посмотреть:
https://www.youtube.com/playlist?list=PLeo1K3hjS3uvCeTYTeyfe0-rN5r8zn9rw

#программирование

Читать полностью…

Нейроканал

Важная часть обучения, это учиться на своих ошибках

И этот новый подход (под названием Reflexion) к дообучению LLM заставляет ИИ делать как раз это. Только не изнутри, с помощью изменения кода ChatGPT, а с помощью человеческого фидбека в случае неправильных ответов. Сама система Reflexion состоит из нескольких шагов, отвечающих за непосредственно генерацию, проверку, оценку ошибок и память. В деталях читайте в статье. Тесты уже вывели подобный подход в лидеры на бенчмарке HumanEval (PY), где находится 150 задач на программирование на Python.

Посмотреть:
https://www.youtube.com/watch?v=9o_hFlsfaBI

Почитать:
https://arxiv.org/abs/2303.11366

#статья

Читать полностью…

Нейроканал

Факт: чтобы уследить за развитием технологий, рекомендуем читать как минимум ТЕХНО от Яндекса

Там рассказывают про нейросети, роботы, чат-боты, голосовые помощники и многое другое понятным языком. А ещё находят неожиданные факты, например:

— Почему на первых клавиатурах не было 0 и 1?
— Какой была первая в истории фраза, переведённая компьютером?
— Как представляли первого робота в кино почти 90 лет назад?

А ещё про нейросети:

— Как обманывал пользователей самый популярный чат-бот ChatGPT?
— Чем занимается преподаватель для нейросети?

Подпишись: @techno_yandex

Реклама. ООО "Яндекс" ИНН 7736207543, erid: 2VtzquYAPRr

Читать полностью…

Нейроканал

Давно грезите развить свой проект и вырасти в карьере? Пора действовать!

Да, сделать первый шаг к масштабному развитию может быть страшно, ведь неизвестность пугает. Но только действия и ошибки приводят к кратному росту.

Автор статьи доказывает это на собственном примере — от ошибок не застрахован никто. Но их можно свести к минимуму и в краткие сроки из хорошего айтишника превратиться в предпринимателя, благодаря онлайн-обучению и новому окружению. Но все подробности в статье: https://tprg.ru/P1Jv

Реклама Бексаев Николай Сергеевич ИНН 470308037337, erid: LjN8KGYRt

Читать полностью…

Нейроканал

Хотели узнать, что слушает в наушниках милый парень/девушка, что сел(а) рядом с вами в метро?

Ну, если вы как-то сможете незаметно снять с них ЭЭГ, то сегодняшняя модель сможет вам примерно подсказать, что играет в наушниках, реконструировав музыку из мозговых волн. Да-да, brain-to-audio уже здесь. Качество конечно не лучшее, но мелодию можно узнать, если сильно напрячься.

Так что лучше просто попробуйте познакомиться, а не гадайте.

Посмотреть:
https://www.youtube.com/watch?v=qcfC53c3tSc

Послушать (реконструированная музыка, нужен VPN):
https://news.berkeley.edu/2023/08/15/releases-20230811

Почитать:
https://journals.plos.org/plosbiology/article?id=10.1371%2Fjournal.pbio.3002176

#статья

Читать полностью…

Нейроканал

Иногда нам нужна оборона от непрошенных гостей в комнате

Допустим у вас совещание на работе или (для тех кто помладше) к родителям пришли гости, а их детей отправили к вам в комнату. Поэтому берёте, подключаете камеру на подвижном контролируемом сервомоторе к плате Ардуино через ПК (где работает модель детекции лица), которая контролирует наведение камеры на лицо, а к самой камере прикручиваете игрушечный NERF-пистолет с автоспуском, воткнутым в ту же Ардуино. Тот кто зайдёт в комнату сразу поймёт, что ему тут не рады. Берегитесь дружественного огня или носите скрывающую лицо маску.

Посмотреть:
https://www.youtube.com/watch?v=N5vzpi4yF7A

#позалипать

Читать полностью…

Нейроканал

Поговорим возможностях в отрасли ИИ

А точнее, послушаем о трендах, возможностях, рисках и что нужно для стартапа в нашей любимой отрасли. А слушать мы будем знаменитого Эндрю Ына. Даже небольшой отрывок про ИИ-утилиту, помогающую развивать навыки в общении с противоположным полом.

Посмотреть:
https://www.youtube.com/watch?v=5p248yoa3oE

#позалипать

Читать полностью…

Нейроканал

Если вы устали от реальности — отсканируйте её и уставайте от неё уже в виртуальности

NVIDIA выпустила свой Neuralangelo AI, который позволяет отсканировать своё окружение и получить высокодетализированную реконструкцию в 3D окружении. И видимо, чтобы мы не скучали, в это же время вышел Magic Avatar — text-to-motion-to-video утилита, где сначала можно задать общий вид движения какой-нибудь фигуры, а потом, поверх этого движения решать, будет это какой-нибудь робот-гуманоид или аниме-девочка. А может и аниме-девочка-робот-гуманоид, используйте фантазию.

Посмотреть (Neuralangelo AI):
https://www.youtube.com/watch?v=bSHz0NexLBU

Почитать (Neuralangelo AI):
https://research.nvidia.com/labs/dir/neuralangelo/

Репозиторий (Magic Avatar):
https://magic-avatar.github.io/

#позалипать

Читать полностью…

Нейроканал

Проснулись, улыбнулись, начали учить ML, перестали улыбаться

А в том, как начать своё обучение, помогут эти roadmap-ы. Как бы мы не старались, в Telegram спецом по ML и DS не станешь и не заменишь весь тот объём информации, необходимый тем, кто только хочет вкатиться в ML. Не переживайте, сначала вам надо запомнить многое, но только до первого собеседования, потом всё ненужное отвалится само.

P.S. А ещё можно в университет поступить, на соответствующую программу, если такая опция для вас ещё присутствует.

Посмотреть (вариант 1):
https://www.youtube.com/watch?v=KEB-w9DUdCw

Посмотреть (вариант 2):
https://www.youtube.com/watch?v=h2FDq3agImI

Посмотреть (вариант 3):
https://www.youtube.com/watch?v=eaFaD_IBYW4

#это_база

Читать полностью…

Нейроканал

Не всегда надо стакать больше GPU, надо и мозгом работать

QLoRA — эффективный по памяти подход к файн-тюнингу больших LLM, который позволил провернуть тюнинг модели на 65 миллиардов параметров всего с помощью одной GPU (правда GPU была на 48 гигов, так что можете свои игровые кондиционеры не пытаться напрягать). Всё заключается в хитром использовании предобученной модели с пониженным размером параметров и механизмом двойной квантизации (понижение использования памяти) входных данных. При этом, 16 бит на каждом параметре основной модели сохранены.

Почитать:
https://arxiv.org/pdf/2305.14314v1.pdf

Репозиторий:
https://github.com/artidoro/qlora

#статья

Читать полностью…

Нейроканал

Русскоязычное NLP — почти непаханое поле

Возможно даже поле экспериментов. Но тем не менее, некоторые библиотеки тут присутствуют и в этом видео (хоть и слегка устаревшем) рассказывается про библиотеку natasha и производится некоторое сравнение с другими решениями в области русскоязычного NLP, погружение в историю проекта и просто разговор о том, какие технологии для своих проектов стоит использовать.

Посмотреть:
https://www.youtube.com/watch?v=l-9v2KBxlKc

#программирование

Читать полностью…

Нейроканал

Лягуха дико флексит под ИИ-музыку 10 часов смотреть без регистрации и СМС

Примерно такой контент нас ждёт в скором времени, потому что вышел очередной text-to-music генератор, переслушавший 20 тысяч часов различной музыки. MusicGen показывает лучшие результаты, по сравнению с text-to-music моделью от Google (хотя восприятие музыки в каком-то смысле субъективно, кто-то же слушает шансон) используя стратегию чередования токенов. Как обычно, чтобы понять что это такое, надо прочитать пару других статей, где сначала объясняется, на чём основан MusicGen, потом пару статей где объясняется процесс токенизации аудио и тогда вы сможете понять, что именно нового привнесли авторы. Модель доступна в репозитории и на HuggingFace, поэтому практический результат оценить можете сами, а теоретикам удачи и терпения.

Посмотреть:
https://www.youtube.com/watch?v=BRWquZdEigw

Почитать:
https://arxiv.org/pdf/2306.05284.pdf

Репозиторий:
https://github.com/facebookresearch/audiocraft/blob/main/docs/MUSICGEN.md

#статья

Читать полностью…

Нейроканал

Контекст в LLM это не удав, слишком длинным быть не может

Но при этом, контекст требует больших вычислительных мощностей (например, при переходе от 2048 до 8196 токенов контекста, требуется в 16 раз больше вычислений). Поэтому спецы из CUHK и MIT посидели, подумали и создали LONGLoRa — эффективный подход к увеличению контекста уже обученных LLM. Как и большинство подобных статей, самая мякотка прячется в некоторых улучшениях и модификациях механизма attention, в данном случае введение механизма shift-short attention. Авторы утверждают, что этот механизм требует только две строчки кода, одна из которых сдвигает токены в оригинальных attention-heads, а вторая переносит фичи из токенов в батчи. Все эксперименты ставились на LLAMA-2, и у авторов получилось расширить контекст для 7B вариации до 100 тысяч токенов, а у 70B до 32 тысяч, без потери качества и сильных увеличений вычислительных мощностей. Конечно они использовали 8 Tesla A100, но зная какие сейчас вычислительные кластера строятся, это практически ничто. Остальные результаты и код можете посмотреть ниже.

Почитать:
https://arxiv.org/pdf/2309.12307v1.pdf

Репозиторий:
https://github.com/dvlab-research/longlora

#статья

Читать полностью…

Нейроканал

Всем нужно немножечко Mojo

И мы не про тот YouTube-канал, который выпускает топ-10 посредственного качества, а про новый язык программирования для ИИ-специалистов. Простота использования Python с быстродействием C++ (на бумаге). И это первый большой разбор этого языка в открытом доступе (кроме документации, конечно).

Посмотреть:
https://www.youtube.com/watch?v=5Sm9IVMet9c

Документация:
https://docs.modular.com/mojo/

#программирование

Читать полностью…

Нейроканал

Сегодня нас ждёт 3.5, но не ChatGPT

Недавно NVIDIA анонсировала DLSS 3.5 с трассировкой лучей, улучшенной с помощью нейросети. Раньше, при включении трассировки, из-за дискретной природы лучей и вычислений в ПК, мы не могли получить полное покрытие поверхности светом, из-за чего приходилось использовать алгоритмы шумоподавления, которые местами мылили картинку. Поэтому инженеры из NVIDIA использовали стандартное «пусть это делает нейросеть, она умнее» и делегировали шумоподавление новому этапу DLSS с нейросетью. Не то чтобы сейчас было много игр, которые поддерживают DLSS 3.5, но результат по картинке и по увеличению FPS можете пронаблюдать в этом видео.

Посмотреть:
https://www.youtube.com/watch?v=hr85Lc_WT38

#позалипать

Читать полностью…

Нейроканал

Просто фреймворк для LLM-агентов

И называется соответствующе — AGENTS. Сильно расписывать не будем, скажем лишь то, что он поддерживает все нужные фичи для исследований автономных агентов, такие как планирование, менеджмент памяти, использование агентами сторонних API и общение с другими агентами (человеком в том числе).

Почитать:
https://arxiv.org/pdf/2309.07870v1.pdf

Репозиторий:
https://github.com/aiwaves-cn/agents

#статья

Читать полностью…

Нейроканал

Всё в игрушки играем?

Если вам некогда играть в игры, то можете научить нейросеть играть за вас. Не знаем, зачем это вам было бы нужно, разве что научиться применять RL в задачах, которые для вас интересны. Поэтому держите небольшую обучалку, где разобраны несколько RL проектов, связанных с ретро-геймингом. Возможно откроете для себя несколько интересных API для работы как с играми, так и с ML.

Посмотреть:
https://www.youtube.com/watch?v=dWmJ5CXSKdw

#программирование

Читать полностью…

Нейроканал

Retention is all you need (?)

На сцену прорывных ИИ архитектур в области LLM врывается RetNet (Retentive Network). Меньшее использование памяти, меньшая задержка на инференсе и большая пропускная способность, чем у трансформеров, и всё с помощью нового механизма Retention (Attention из которого забрали softmax и добавили затухание по времени, смотрим в формулы в статье). На вопрос, будут ли RetNet'ы столь же умны, как трансформеры, покажет только время и куча экспериментов, но из экспериментов авторов, выглядит всё весьма многообещающе.

Посмотреть:
https://www.youtube.com/watch?v=ec56a8wmfRk

Почитать:
https://arxiv.org/abs/2307.08621

#статья

Читать полностью…

Нейроканал

Не забудьте взять защиту

Когда создаёте системы, включающие в себя ИИ-модели. Много чего о кибербезопасности, этике, уязвимостях и экзистенциальных угрозах для человечества в этой группе лекций, удобно сведённых в одно большое обучающее видео. Не сильно полагайтесь на ИИ, иначе он начнёт нами рулить, а вы и не заметите.

Посмотреть:
https://www.youtube.com/watch?v=agEPmYdbQLs

#лекция

Читать полностью…

Нейроканал

У кого-то дьявол сидит на плече, а у айтишников сотона

По крайней мере у тех, кто пошел по пути ИИ-ассистентов. SoTaNa это опен-сорсный ассистент для разработки, без всяких подписок. В целом, никаких прорывных технологий или подходов там не присутствует, но название китайцы выбрали креативное. В основе лежит LLaMA, к которой применён finetuning для лучшего понимания человеческих запросов.

Почитать:
https://arxiv.org/pdf/2308.13416v1.pdf

Репозиторий:
https://github.com/deepsoftwareanalytics/sotana

#статья

Читать полностью…

Нейроканал

Чем больше моделей работает над задачей, тем лучше

В случае с людьми это не всегда работает, да как и в случае с ИИ моделями. Но на задаче «cлепого» восстановления изображения, когда мы не знаем о том, как именно изображение теряло в качестве, конкатенация двух моделей показала себя хорошо. DiffBUR состоит из двух частей, первая из которых ответственна за непосредственно восстановление (натренированная на нескольких вариантах деградации, для увеличения способности к генерализации), а вторая использует Stable Diffusion для генерации деталей, которые часто теряются при использовании предыдущих методов.

Почитать:
https://arxiv.org/pdf/2308.15070v1.pdf

Репозиторий:
https://github.com/xpixelgroup/diffbir

#статья

Читать полностью…

Нейроканал

Если вам нужна своя компания по разработке ПО — её можно просто скачать

И это позволяет сделать ChatDev — фреймворк для разработки ПО на базе LLM и независимых агентов. Каждый из агентов отвечает за свою задачу, будь то дизайн, кодинг, тестирование или документация. Авторы заявляют, что 86% получившегося ПО смогло запуститься сразу, оставшиеся 14% ломались либо из-за ограничения длины токенов LLM, либо из-за проблем с внешними зависимостями. Просто напишите в чат то, что вам нужно и за вас всё сделают. Только не забудьте в статье прочитать пункт 4 (Discussions), где описаны все возможные проблемы, связанные с использованием ChatDev.

Почитать:
https://arxiv.org/pdf/2307.07924v3.pdf

Репозиторий:
https://github.com/openbmb/chatdev

#статья

Читать полностью…
Subscribe to a channel