Искусственный интеллект, нейросети, машинное обучение Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels Сайт: https://tprg.ru/site Другие наши проекты: https://tprg.ru/media
Хотите создать стартап или вывести на рынок свой бизнес-проект?
МФТИ ждет технических специалистов, менеджеров и предпринимателей в онлайн-магистратуре «Технологическое Предпринимательство».
После обучения вы получите:
1. Проект, прокаченный на несколько стадий;
2. Инвесторов и партнеров для будущих совместных проектов;
3. Вход в международное сообщество физтеха;
4. Диплом государственного образца лучшего предпринимательского университета страны;
И наконец-то сможете написать в био соцсетей, что вы фаундер :)
Инвестируйте свое время и внимание правильно. Прием заявок до 15 сентября.
Реклама МФТИ, ФИЗТЕХ ИНН 5008006211, erid:LjN8KBVHw
Никогда не забывай с кем начинал
А начинали все со статистики и регрессий. Поэтому чтобы вы всё это вспомнили, этот добрый человек с индусским акцентом в течение 9 часов будет вас направлять, на вашем пути к освоению всеми нюансами регрессионного анализа (новичкам максимально рекомендуем).
Посмотреть:
https://www.youtube.com/watch?v=2IZKK3pJQjg
#программирование
Познай силу API, юный падаван
Если вы еще не сделали свою LLM или вы пока не знаете Python, но знаете JS, то можно использовать OpenAI API для создания собственных ИИ приложений. И в этом туториале вам предлагается создать 5 различных приложений, будь то клон ChatGPT, генератор изображений или генератор SQL.
Посмотреть:
https://www.youtube.com/watch?v=uRQH2CFvedY
#программирование
Теперь ИИ может читать статьи про ИИ
Visual transfromer со сладким названием Nougat (Neural Optical Understanding for Academic Documents, и у меня вопрос, почему у всего должно быть название-аббревиатура, которая что-то означает) обучили переводить изображения (фотографии/пдфки) научных статей с формулами в язык разметки. Кто когда-нибудь работал с LaTeX знает, что перепечатывание огромных формул занимает большую часть времени, поэтому, если правильно настроить, подспорье будет большим. Однако со своими нюансами, иногда модель падает в петлю повторений одного и того же сообщения и авторы пока не знают, как это чинить, кроме как остановки генерации на инференсе. Но лучше проверить 30 страниц сгенерированной пдфки с изначальными фотографиями (и поправить созданную разметку в случае ошибки), чем делать это всё вручную.
Почитать:
https://arxiv.org/pdf/2308.13418v1.pdf
Репозиторий:
https://github.com/facebookresearch/nougat
#статья
Правильный менеджмент, это разделить одну задачу на несколько
Ну или как там, я не менеджер. А вот разделение задач по генерации изображений на непосредственно генерацию и затем апскейлинг, дало невероятные результаты, по сравнению со многими предыдущими методами. Назвали это всё GigaGAN (приставок СИ ещё много, есть куда расти) и название действительно отражает результат. И уже практически как стандартной опцией идёт возможность менять стиль уже понравившегося сгенерированного изображения, используя текстовый запрос.
Посмотреть:
https://www.youtube.com/watch?v=UyoXmHS-KGc
Почитать:
https://mingukkang.github.io/GigaGAN/
#статья
Всегда найдётся азиатский ИИ, который сделает это лучше тебя
Исследователи из Китая и Японии создали Qwen-VL (Qwen Large Vision Language Model), визуально-языковую модель для обработки картинок и текстов. Утверждается, что модель имеет state-of-the-art эффективность по сравнению со всеми остальными моделями, используемыми в данной области. Плюс, авторы поделились самой моделью (правда работает она только на китайском и английском, но ИИ-переводчики же сейчас тоже есть).
Почитать:
https://arxiv.org/pdf/2308.12966v1.pdf
Репозиторий:
https://github.com/qwenlm/qwen-vl
#статья
Зачем вам эти Llama и GPT, когда вы можете всё сделать сами
Чему вы и научитесь, посмотрев эту обучалку по созданию своей собственной LLM с нуля. 6 волшебных часов, где вам объяснят множество нюансов создания LLM, всё покажут и разложат по полочкам. Знание PyTorch и английского языка необходимо.
Посмотреть:
https://www.youtube.com/watch?v=UU1WVnMk4E8
#программирование
Один из главных туториалов для начинающего ML-инженера
Конечно это Jupyter Notebook. Установка, нюансы, использование, шорткаты, использование нескольких кернелов, вся самая мякотка для того, чтобы почувствовать себя мастером. Пока не придёт время встраивать это всё в проект.
Посмотреть:
https://www.youtube.com/watch?v=HW29067qVWk
#программирование #это_база
Что нужно, чтобы вырасти из мидл С#-разработчика до сеньора?
Ответ простой: прокачать технические навыки и личностные качества. Какие именно — подробно рассказали в роадмапе, который сделали вместе с экспертами курсов Route 256 от Ozon Tech. Переходите по ссылке и отправляйтесь в путешествие до статуса Senior: https://tprg.ru/T0Qa
Реклама ООО «Озон технологии» LjN8KVrqq
Кто-то по 3D чертежам строит дома, а кому-то надо провернуть обратную операцию
Задача neural surface reconstruction описывается просто. У нас есть видео или несколько фото одного объекта с разных углов и нам надо сделать 3D-рендер этого объекта с максимумом деталей поверхности, основываясь только на фото/видео. И Neuralangelo от NVIDIA Research выполняет эту задачу лучше любых альтернатив (это пока и по заявлениям авторов). Глубоко погружаться не будем, авторы исследования поделились исходным кодом, поэтому протестировать можете сами. А за фотографиями и рендерами со сравнениями различных методов, просим проследовать в оригинал статьи.
Посмотреть:
https://arxiv.org/pdf/2306.03092v2.pdf
Репозиторий:
https://github.com/NVlabs/neuralangelo
#статья
Пилоты меняют высоту на скорость, а ML-инженеры — точность на скорость
Ещё одна вариация трансформера на тему того, что большие vision-трансформеры хорошие, но кушают много вычислительных ресурсов, поэтому давайте попробуем придумать, как от этих вычислений можно избавиться и при этом не сильно потерять в качестве. FastViT (Fast Hybrid Vision Transformer) является архитектурой трансформера использующей авторский блок RepMixer (который в свою очередь является вариацией другого блока ConvMixer, который в СВОЮ очередь является развитием идеи MLP-Mixer), позволяющий на инференсе свести некоторые тяжелые вычисления к одному свёрточному слою. Советуем почитать все три статьи и понаблюдать, как одну идею всего за 2 года последовательно развивают несколько коллективов.
Почитать (FastViT):
https://arxiv.org/pdf/2303.14189v1.pdf
Почитать (ConvMixer):
https://openreview.net/pdf?id=TVHS5Y4dNvM
Посмотреть (MLP-Mixer):
https://www.youtube.com/watch?v=7K4Z8RqjWIk
Почитать (MLP-Mixer):
https://arxiv.org/abs/2105.01601
Репозиторий:
https://github.com/apple/ml-fastvit
#статья
Опять NVIDIA, опять игровая анимация
Только в этой статье упор делается не на плавные переходы между движениями, а на взаимодействие модели в 3D-пространстве с окружением. Например, лежать на диване, но делать это со стилем. Или пафосно сидеть на стуле.
Посмотреть:
https://www.youtube.com/watch?v=_X6zIVPlJ6w
Почитать:
https://research.nvidia.com/publication/2023-08_synthesizing-physical-character-scene-interactions
#статья
Научитесь создавать рекомендательные системы для контента
Приходите 24 августа в 20:00 (мск) на открытый урок «Векторизация текстов для практических задач» в рамках курса «Natural Language Processing» от OTUS.
Что будут делать:
— обсудят, как можно получать векторы текстов и использовать их в практических целях;
— узнают, как быстро сделать рекомендательную систему для текстов;
— рассмотрят похожие статьи на основе тематического моделирования, экстрактивной суммаризации и векторизации FastText;
— поищут похожие товары на основе векторизации TF-IDF;
— обсудят векторизацию текстов архитектурой BERT.
В результат вы узнаете, как эффективно подбирать похожие по смыслу и тематике тексты.
Успейте зарегистрироваться по ссылке https://otus.pw/2OTj/ , количество свободных слотов на регистрацию ограничено.
Реклама ООО «Отус Онлайн-Образование»
Один Stable Diffusion XL и диетическую колу, пожалуйста
Очередной раз держим вас в курсе того, как улучшаются генеративные модели вида text-to-image. Сгенерированное изображение теперь больше, не надо расписывать промпт в деталях, как это было раньше, отрисовка рук тоже стала лучше (но всё ещё не идеальная) и в случае, если вы указываете конкретный стиль отрисовки (например художника), то он будет заметен сильнее.
Посмотреть:
https://www.youtube.com/watch?v=kkYaikeLJdc
Попробовать (3 попытки в день, дальше нужен аккаунт):
https://clipdrop.co/stable-diffusion
#позалипать
ААА-геймев приготовиться, за вами тоже выехали
Ну конечно не весь, а только отдел отвечающий за анимацию персонажей. Мы уже показывали, как NVIDIA обучает модельки в 3D-мире двигаться, скармливая нейросети mocap-видео (с хорошим результатом). А теперь происходит всё тоже самое, только теперь с пользовательским вводом (бег, ползанье, направление движения и прочее). И результат тоже впечатляющий, так как ИИ находит способ делать очень плавные переходы при смене инпутов.
Посмотреть:
https://www.youtube.com/watch?v=nAMSfmHuMOQ
Почитать:
https://research.nvidia.com/labs/par/calm/
#статья
Как обучиться лучше, чем нужно человеку? Не забывать «отдыхать»
ReST — это небольшой (по описанию) алгоритм, который требует долгого курения матчасти для полного понимания, но авторы объясняют его следующим образом: уже обученная модель M_0 на входном размеченном датасете D_0 = (X_0, Y_0) генерирует новые данные D_1 = (X_0, Y_1), затем D_0 и D_1 объединяются и проходят хитрую фильтрацию, после чего M_0 файнтюнится и мы получаем улучшенную модель M_1. Смыть, повторить, пока нас не устроит качество. Проблема в том, что авторы особо не указывают, каким именно образом происходит фильтрация. Янник Килчер вам всё объяснит, но даже он местами несколько скептичен к тому, должно ли это вообще работать.
P.S. Оригинальные выкладки смотрите в статье, текстовый редактор Telegram всё-таки не LaTeX.
Посмотреть:
https://www.youtube.com/watch?v=V4dO2pyYGgs
Почитать:
https://arxiv.org/pdf/2308.08998.pdf
#статья
Теперь можно использовать ИИ вместо трудовика
Правда только по части оценки получившегося результата (например, табуретки). Но если перед этим получить все инструкции от другого ИИ, то действительно можно. А наш сегодняшний гость по имени AnomalyGPT является моделью по выявлению индустриальных аномалий (IAD), которую можно использовать для оценки вещей, что сходят с линий сборочных конвейеров в автоматическом режиме (и в ручном тоже). Конечно, если что-то будет не так, то какой-то из кожаных мешков получит штраф за плохую работу, но роботов это никогда волновать не будет.
Почитать:
https://arxiv.org/pdf/2308.15366v1.pdf
Репозиторий:
https://github.com/casia-iva-lab/anomalygpt
#статья
Если вы внезапно нашли коллекцию рентгеновских снимков, этот туториал для вас
Гайд по тому, как с помощью TensorFlow создать и проверить модель для определения медицинских аномалий. Возможно, если сильно поднапрячься, то в ближайшем будущем, вам не придётся ждать по несколько часов/дней, прежде чем вам выдадут результат по вашей флюорографии.
Посмотреть:
https://www.youtube.com/watch?v=8m3LvPg8EuI
#программирование
А что выберете вы?
Не знаете, что из этого вам больше подходит? Лучше получите бесплатный набор из 3 курсов для старта в IT от GeekBrains, они помогут определиться и с другим важным жизненным выбором — карьерой. https://tprg.ru/hx62
Реклама ООО «ГикБреинс» LjN8KVC7E
Чтобы уверенно говорить на английском во время собеседования — нужно несколько раз пройти его неуверенно и с ошибками
Чтобы говорить хорошо на англоязычных стендапах — нужен опыт стендапов. Где его взять? Попробуйте курсы «Английского для работы в IT» в Яндекс Практикуме.
Во время курса одна из студенток нашла работу в Германии: «Я много тренировалась на курсе, и в итоге оказалось, что всё то же самое я могу делать на настоящем интервью». Полный отзыв.
Во время курса вы поймёте:
— Что говорить.
Личный преподаватель расскажет про грамматические конструкции и фразы, которые уместно применять на стендапах, собеседованиях и ревью.
— Как говорить.
Иностранцы из IT и преподаватель будут регулярно тренировать разговорные навыки на примере рабочих ситуаций.
— Как слушать.
На разговорной практике с иностранными IT-специалистами вы быстрее привыкнете к разным акцентам.
Запишитесь на бесплатную консультацию.
Куратор определит ваш уровень языка и расскажет про обучение.
Реклама АНО ДПО «Образовательные технологии Яндекса»
«На чём едем?»
А ездить сегодня будем на 2D гоночных машинках. Да и то, ездить будем не мы, а ИИ-агенты от Google, которых в качестве демонстрации нового метода обучения агентов. Пока что в гонках и в 2D лазертаге. При этом маленькие агентики умеют справляться с любой вариацией карты (понятно, что в той игре, где они были расположены изначально).
Посмотреть:
https://www.youtube.com/watch?v=PAjlXQBGK8U
Почитать:
https://sites.google.com/view/maestro-ued
#статья
Выпускаем стадо лам программистов
Исследователи из Meta AI* выложили в открытый доступ модели из собрания Code Llama — три языковых модели с разным количеством параметров (7, 13 и 34 миллиарда) и с разной заточкой под задачи (программирование в целом и отдельная ветка под программирование на Python). За базу конечно использовалась их LLM Llama 2.
* — Meta признана экстремистской организацией на территории РФ
Почитать:
https://arxiv.org/pdf/2308.12950v1.pdf
Репозиторий:
https://github.com/facebookresearch/codellama
#статья #нейронные_сети
Мы всё-таки докатились до чтения мыслей
Рецепт простой — берем человека, засовываем его в МРТ, показываем ему картинки и на основе разнообразных активностей в голове, обучаем модель. Такое уже проворачивали, но теперь результаты сильно лучше, чем были до этого, за результатами — в видео (совпадение показанного и предсказанного в основном тематическое, а не покадровое), а если хотите напрячь свой мозг тем, как именно мы до такого дошли — в статью.
Посмотреть:
https://www.youtube.com/watch?v=z-OBapDD340
Почитать:
https://mind-video.com/
#статья
Чтобы победить ИИ, надо думать как ИИ
Ну или сделать ИИ, который будет находить уязвимости в своём оппоненте и правильно их утилизировать. Все мы знаем, что в некоторых компьютерных играх, сложного противника, с помощью некоторых манипуляций, можно заставить вести себя глупо, тем самым обеспечив себе легкую победу. Примерно так, исследователи сумели создать ИИ, который в 97 процентах случаев побеждает KataGo (сильный ИИ для игры в го, основывающийся на AlphaGo, который в свою очередь побеждал лучших людей-игроков). Всё это является примером очень хитро устроенной adversarial attack (состязательной атаки).
Посмотреть:
https://www.youtube.com/watch?v=UTUnVEiO-TU
Почитать:
https://goattack.far.ai/
#статья
Не будем в выходные загружать себе мозги статьями
А будем загружать их туториалами по PyTorch и Monai. Со зверем по имени PyTorch вы знакомы, а вот Monai — это open-source фреймворк для работы с медицинскими изображениями. И вот, посмотрев это видео, вы научитесь обрабатывать печень. Область деятельности очень полезная, никогда не устареет, и применять ее, при должном усердии можно не только к печени, но и к чуть более жизненно важным органам.
В плоти нет правды, плоть предаёт.
В плоти нет силы, плоть слаба.
Нет в ней постоянства, есть лишь изменчивость.
Нет у плоти цели, кроме смерти.
Лишь машины и знания достойны спасения.
Лишь верные услышат волю Омниссии.
Посмотреть:
https://www.youtube.com/watch?v=M3ZWfamWrBM
#программирование
Новости на случай, если последние две недели вы гуляли в лесу
Релиз LLaMA-2 и вся разработка от сообщества, что с ней связана (очень много утилит, использующих модель, включая различные чатботы, увеличенный контекст для основной модели, объединение Google, Microsoft, OpenAI и Anthropic, чтобы разрабатывать новые модели «ответственнее», базовая модель Geospecial AI для работы со спутниковыми изображениями, LLM для роботов и многое другое.
Посмотреть:
https://www.youtube.com/watch?v=xs-0cp1hSnY
#новости
Продолжаем разговор про вероятных нетраннеров
А точнее, про хакеров и мошенников, использующих в своих черных делах ChatGPT. Сопровождать нас в этом разговоре будут Янник Килчер и специалист по кибербезопасности из Check Point Сергей Шукевич. Акцент Сергея слегка сложен к восприятию, но вы справитесь.
Посмотреть:
https://www.youtube.com/watch?v=10nEx2-8J0M
#позалипать
Хоть кто-то нашел применение фотореализму UE5
И всему голова в данном случае — мопс. Точнее PUG (Photorealistic Unreal Graphics). Так как никто не любит проблемы с авторскими данными, но всем хочется получить для себя немного фотореалистичных изображений для бенчмаркинга и оценки моделей (а с фотореалистичной сгенерированной синтетикой есть проблемы), то энтузиасты (с помощью Unreal Engine 5) этого фотореализма и добились, создав 4 датасета и все нужные инструкции к их использованию, включая 3D модели, использованные для генерации. Конечно, они с нами поделились.
Почитать:
https://arxiv.org/pdf/2308.03977v1.pdf
Репозиторий:
https://github.com/facebookresearch/pug
#статья #данные
«Заяц, ты меня слышишь?»
Так вот, чтобы ваш заяц (а именно, ИИ, что вы в данный момент делаете) вас слышал, нужно правильно представить данные в аудио-формате. И не только перевести их в удобоваримый формат, а ещё правильно запаковать для процесса обучения.
Почитать (спектрограммы):
https://habr.com/ru/articles/647833/
Почитать (как паковать данные):
https://huggingface.co/blog/audio-datasets
Данные (с разметкой):
https://machinelearningmastery.ru/a-data-lakes-worth-of-audio-datasets-b45b88cd4ad/
#статья #это_база
Большие языковые модели (LLM) стали очень умными
Поэтому, уже было несколько попыток использовать их как агентов в сложной среде, чтобы проверить, можно ли их отпускать над чем-то поработать без контроля человека. Однако, задумавшись над тем, что общего бенчмарка для тестирования LLM как агентов нет, группа исследователей из университетов США и Китая такой бенчмарк создала.
AgentBench позволяет протестировать LLM на 8 различных задачах, связанных с обычной жизнью (шоппинг, работы по дому), работа с браузером (онлайн-шоппинг и просто поиск чего-либо в интернете), работа с OC и БД и логические игры. Теперь если вы создали очередного убийцу GPT, можете смело пихать его в этот бенчмарк, репозиторий прикреплён.
Почитать:
https://arxiv.org/pdf/2308.03688v1.pdf
Репозиторий:
https://github.com/thudm/agentbench
#статья