Кураторские AI генерации и полезности. Новый мир исследует @dobrokotov. Хаб: @AIMolodcaHub. Образование для команд и студия: http://aimolodca.tilda.ws На чай: QDpY9QQvijkOtyHFFVw3xyeHWr--zpjSc7qxW1OFb_dY0OU
На западе ураган — благодаря простой и доступной технологии клонирования голоса появилось тонны контента из серии «Американские президенты играют в Майнкрафт и ругаются по голосовому чату». Но наиболее любопытно — использование голосов в треках. Отличить от оригинала, особенно под слоями автотюна, становится все сложнее. Что поднимает много правовых и моральных вопросиков. В тоже время, Граймс сообщает в Твиттере, что отдает свой голос в свободное использование и даже готова делить прибыль 50 на 50, если трек с его использованием взлетит.
Кстати, не знаю ни одного инструмента войсклонинга на русском (кроме закрытого silero bot). Кто сделает первым — озолотится. А если вы уже делаете и нужно протестировать — пишите в ЛС.
На этой неделе — довольно много крутых глобальных новостей. О них в следующем посте, а в этом — новость локальная. Выставляюсь на выставке современного искусства. Так что, если вы в Москве — загляните и отправьте фоточку в комментарии. И почитайте обязательно описание под работой :)
Читать полностью…Будет висеть недолго, поэтому кто на местности, жду ваших фоточек — Красноармейская 84.
Из нейросетей здесь — только изображение на щите и слоган.
Нейросети лишат нас работы? Захватят мир? Станут верными помощниками людей? Будут зарегулированы?
Это специальный выпуск «Горящего бензовоза», в который мы пригласили не менее специального гостя — Сашу Доброкотова, креативного директора DADA Agency и просто AI-энтузиаста. Он уже ипользует нейросети в работе и ежедневной рутине, а заодно следит за последними новостями из этой области.
В этом почти двухчасовом выпуске мы как мрачно фанатзируем о будущем, так и отвечаем на вполне приземлённые вопросы — например, узнаём, действительно ли хранятся картинки художников внутри нейронок и кому принадлежат права на генерации из Mijourney.
Ссылки на Сашу
— Телеграм-канал
— Твиттер
Ссылки на нас
— Где слушать
— Вопрос в эфир с разовым донатом
— Подписка на Boosty с бонусными и расширенными выпусками
— Patreon (то же, что на Boosty, но для тех, кто находится за пределами РФ)
И ещё одна новость про #midjourney. И она супер.
Добавили свой img-to-text!
Кто не знает — это когда вы загружаете свою картинку и на выходе получаете промт, то из чего она состоит. Это очень полезно, когда нужно деконструировать какой-нибудь визуал, чтобы собрать из его частей новый. Мало того, MJ выдает сразу четыре промта + по ним сразу же можно сгенерировать новое изображение.
Это круто:
1. Обучение промтингу для новичков становится гораздо легче + опытным можно подсмотреть много нового.
2. В комбинации с референсным изображением можно получить новый уровень контроля.
3. Это все-таки в рамках модели MJ. Img-to-text для Stable diffusion существуют давно, но он своеобразный.
4. Дают ссылки на артистов, если они попадают в промт.
В примере — первая попавшаяся фотография Тбилиси и результат генерации. Я кстати не знал, что такое пропорции можно задавать.
Вызвать командой /describe
Сохранять лицо (этот заголовок придумал chatgpt): #ControlNet дает новые возможности в генерации портретов. ⬛️
Небольшая, но приятная новость для любителей помучать (и помучаться) со #StableDiffusion (я в их числе). Контролнет становится еще контролистей. Обученный на части датасета LAION-Face с использованием аннотатора лиц MediaPipe, ControlNet теперь позволяет легко манипулировать ориентацией лица, состоянием глаз и рта, а также направлением взгляда. Можно позировать несколько лиц на одном изображении и как угодно вращать их в 3D. Теперь на одном герое можно нарисовать все стадии принятия неизбежного.🤨
Несколько примеров, как это работает из треда-анонса, где можно подробнее узнать о ТЫСЯЧЕЛИКОМ ГЕРОЕ (chatgpt заразил меня искусством оборотов из региональной прессы).
Бессонница — полезно, только если что-то придумал благодаря ей. Собственно — канал самого умного орка в Азероте (#chatgpt4 + silero bot). Максимально коротко объяснит все на свете. Не автоматизирован, поэтому оставляйте спрашивалки на любую тему у него в комментариях (скорей всего ответит).
Читать полностью…Сложное — просто.
Перешёл на #ChatGPT 4, который, всего за неделю, для меня стал как Джарвис у Тони Старка — универсальный помощник и консультант по всем рабочим и бытовым вопросам, только без красивого голоса. Возможности колоссальны (продолжаю их исследовать), но можно просто побаловаться со стилизацией и суммаризацией знаний. Принес вам пару забавных промтов для объяснения чего угодно.
Потыкал чат-бот #bing (недавно стал доступен всем, особенно удобен в виде приложения на iOS/Android). Поставлю это в описание канала пожалуй.
Читать полностью…Сделал большой тест новой версии #Midjourney V5. Показываю.
Одинаковый промт в реализации версий от 1-3 (верхние картинки) и 4-5 (нижние).
Что могу сказать.
1. Это лучшая закрытая дифуззионная модель txt-to-img на данный момент.
2. Понимание запроса — великолепно. Исчезло излишнее украшательство прошлой версии. Поэтому короткие промты могут работать хуже.
3. Стилизация — восхитительная.
4. Качество — превосходное. Минимум артефактов и шакалов. Плюс разрешение и скорость генерации. Черрипикинг никогда не был таким простым.
5. Реализм — это новый уровень, даже веха. Можно смело говорить о появлении нейрофотографии.
Забавно, когда я генерировал на v1 — многие результаты были эстетически интересными из-за своей шакальной абстрактности. Думаю, что при дальнейшем улучшении реализма моделей произойдет обратное движение и появятся художники, которые будут генерировать такими лоу-фай средствами.
А прошёл всего год!
Промты — в комментариях.
⌨️ #Midjourney — версия 5 — уже доступна для теста! 🐸
Погнали! Включать: --v 5.
Как улучшили, то, что казалось идеальным?
— V5 имеет более широкий стилистический диапазон и более отзывчив на промты.
— Улучшено качество изображения: в 2 раза увеличено разрешение, улучшен динамический диапазон и детализация.
— Модель может генерировать невероятно реалистичные изображения (поэтому будет больше модераторов).
Беру выходной и иду вбивать старые промты. 😡
#Google даёт нейрогазу и выпускает обновленную версию Workspace (гугл докc, слайдс, таблички, почта, презентации, etc) с плотной интеграции AI. Все привычное — но проще и быстрее. Можно суммировать переписки, делать из них презентации, генерить и переписывать тексты в доках, проверять ошибки, шаманить с формулами в табличках, отвечать на письма, ну и многое другое. В видео выглядит все это нативно и воспринимается как волшебная палочка-выручалочка (за много много миллионов долларов).
Как хэвиюзер экосистемы — очень жду. Ожидается, что будет доступно в США до конца месяца, а дополнительные языки и регионы появятся в ближайшее время.
Типичная тематическая открытка из вацапа, но сквозь эпохи. С праздником! 💪
#controlnet #stablediffusion
Итак, важные новости из нейромира! 🦜
Первая. Про 🗞🗞🗞🗞🗞.
Stability AI, которая в прошлом году подарила миру великий и бесплатный #StableDiffusion, вышла на тропу текстовых моделей и выпустила новую, бесплатную модель обработки естественного языка с открытым исходным кодом под названием #StableLM.
Почему это важно? Как и картиночном StableDiffusion — открытый код. Нет в мире ничего мощнее рукастых энтузиастов, которые на основе кода делают потрясающие вещи. Достаточно посмотреть на спектр продуктов/плагинов/приколов сделанных на базе стейбла. Так что пристегнитесь. Взлетаем в сиящую золотую стратосферу стартапов на основе языковых моделей, которых, судя по мей ленте в твиттере, уже тысячи. Будет в разы больше.
Взять можно на гитхабе, ну и страничка анонса с деталями.
Вторая. Про 🍷👽📀🦄🌰.
Как и предполагалось - стремительное развитие text-to-video моделей. Но стремительней, началась гонка! Мой прогноз, что через год мы достигнем уровня статичных картинок устаревает с каждой такой новостью.
1. Runaway выпустила Gen-2. Эти ребята как будто Midjourney в мире генерации видео. Качество продукта растет очень быстро. Так что ждем пятой версии!
2. Nvidia показывает свой text-to-video. Если Nvidia взялась за дело, то ждем огромный буст в этом направлении. Мощностей у них явно побольше побольше, чем у нескольких китайских ребят из modelscope.
3. Adobe выкатят полный набор инструментов для работы с видео. Демо выглядит, как магия. Не думаю, то что они показывают в ролике сейчас работает, но если заработает (а с их мощностями должно), то это нормально так поменяет индустрию кино/видео производства.
Продолжаем жить в удивительное время! 🚬
ControlNet версии 1.1 - предварительный релиз.
Товарищ lllyasviel продолжает докручивать свой великолепнейший алгоритм по контролю над SD. Поставить его можно уже сейчас, но только отдельным интерфейсом отсюда. Сам релиз и его имплементация к автоматику планируется в ближайшие несколько дней.
Итак, по новшествам.
— Итого, теперь будет 14 моделей (11 готовы, две экспериментальных и 1 в процессе).
— Естественно, все старые модели ещё больше улучшены.
— Новые модельки: Soft Edge (наподобие Scribble, но более "мягкий" в линиях), Lineart и Аниме Lineart (раскрашивать мангу/рисунки теперь можно будет на высшем уровне), Shuffle (перемешивает цвета в картинке), Instruct Pix2Pix (аналогично весам инструкций), а так же Инпаинтая модель (для перерисовки части рисунка контролнета) и незавершённая Tile-модель (повышение разрешения части рисунка).
— Модель ОпенПоз теперь включает руки и лицо по умолчанию, из коробки.
Кажется давно не было творческих проектов, поэтому вот небольшая зарисовка на тему «Да не умер он в конце Барби!». Как обычно — версия для Ютуба, кому нужно.
#midjourney
AI нужно двигать в массы.
Поэтому купил рекламу в городе Урюпинск.
Сходил в уважемый подкаст ГОРЯЩИЙ БЕНЗОВОЗ (прекрасное название, очень напоминает происходящее в AI гонке) и поговорил с ребятами про (вы не поверите) нейронки.
Читать полностью…И небольшая, но приятная новость для любителей #Midjourney. Саб-модель #Nijijourney, которая, напомню, великолепно умеет в любое аниме, обновилась до пятой версии. Еще лучше, еще точнее, еще хайрезнее. Кроме того, был введен показатель —s (ваше значение), которое позволяет регулировать степень влияния стиля и украшательств.
Так же напоминаю, что модель входит в любую платную подписку Midjourney и включается через команду /settings.
Так что, новые #аниверсии не за горами. Ай да тестировать и делиться результатами в хабе.
Типичный день Доминика Торрето.
Должен признаться, я обожаю первую эру text-to-video моделей. В частности #modelscop. Все так ужасно плохо, что невероятно хорошо. На собственную генерацию пока нет времени, поэтому смотрю шедевры авторов с реддита (и делюсь с вами).
Кстати, в начале прошлого года картинки были примерно такого же качества. И где мы сейчас 🚬.
Думаю вы уже видели, что Adobe запускает свою систему генерации изображений #Firefly (уже можно потестить).
Что важно в этой новости, как и в примере Гугла — это не просто создание еще одной прикольной модельки, а интеграция самых жирных AI наработок в уже существующие продуктовые экосистемы. Там где люди уже привыкли работать. Это существенно уменьшает порог входа в генеративный мир. Условно, в привычном интефейсе фотошопа у дизайнера будет большая часть функций сложного для массовой аудитории automatic1111: маски, инпейты, обучение и прочие приколы.
Так что вижу бущее за 1) экосистемами 2) пайплайнами из различных нейронок настроенных на закрытие точечных потребностей. Обсудить можно в хабе.
Почти 15к AI молодцов! Тянет на хорошее комьюнити. А хорошему комьюнити нужен удобный инструмент для общения, не система комментариев под постами, как сейчас. Поэтому сделал хаб:
/channel/AIMolodcaHub
С подразделением на тематические чаты: stable, midjourney, ChatGPT и биржа труда, где можно найти фриланс по теме.
Каникулы у нейробабушки.
Во время работы на «Простоквашино, как ситком 80х» разработал промт для создания интерьера избушки/дачи.
Немного развил его в версии 5.
🤯...И закурил.
Да, шутки про «знаю нейросети — как свои 79 пальцев» — с этого момента начинают покидать чат.
#midjourney #v5
Немного ору. Пока писал новость про Гугл — вышла новость про выход GPT4. Прогресс живёт скоростями. Если совсем коротко — совсем скоро у нас будет еще более умный #ChatGPT, который будет понимать картинки и которого будет сложно обмануть всякими DAN'ми. 🐈⬛
Читать полностью…Коротенькое видео, на котором очевидна консистентность композиции и форм, но при этом все остальное переосмысляется (в рамках, конечно, промта с котом).
#Controlnet — изучать и изучать, так как конфигураций использования, даже не учитывая что он постоянно обновляется — миллиард. Продолжаю тренироваться на кошках. 😩
Продолжая вчерашний дайджест:
Сравнение двух видео алгоритмов
🐱 ControlNet + Ebsynth и Gen-1. Оба алгоритма на вход требуют видео, то есть просто с текстовой подсказкой видео не получить.
😶🌫️ Особенность первого подхода в том, что он доступен прямо сейчас и позволяет хорошо видоизменять оригинальное видео. Хотя Ebsynth сглаживает картинку, все равно при одинаковом seed параметре происходят скачки по получаемому изображению.
🧐 Gen-1 получает цельную картинку по стилистике, может использовать картинку как референс и текст, ControlNet пока только текст. Цельность картинки достигается за счет латентного пространства, поэтому стиль оригинального видеоряда можно менять во все стороны. Например, менять на день на ночь, что в ControlNet достигается только путем потери стабильности генерации видео.
Думаю к лету все уже будут превращать обычные видео свое рабочего пространства в пролет над чудными городами.Автор
оригинального сравнения
Читать полностью…