Кураторские AI генерации и полезности. Новый мир исследует @dobrokotov. Хаб: @AIMolodcaHub. Образование для команд и студия: http://aimolodca.tilda.ws На чай: QDpY9QQvijkOtyHFFVw3xyeHWr--zpjSc7qxW1OFb_dY0OU
/imagine results of the year 🐱
Знаковые проекты за этот год:
Аниверсии.
Первое в мире lyric music video, которым даже флексил глава Stabilty на какой-то конференции.
Простоквашино, но это ситком 80-х.
Попытка сделать Громозеку.
"Тайна третьей планеты", но это часть вселенной Star Wars.
Щит с рекламой канала в г. Урюпинск.
Придуман и создан первый в мире нейроинфлюенсер для бренда.
"Что за границами культовых альбомов?"
Запущен тренд с переозвучкой мемов.
Большое интервью для Т-Ж.
Режиссура и создание клипа для Сергея Мезенцева.
"Забытые игры".
Слово Пиксара.
В цифрах:
Почти 20 тысяч молодцов.
Сотни упоминаний в СМИ, включая международные.
Запущены несколько трендов.
Проведено 4 больших образовательных воркшопа для крупных компаний (кстати, пишите, если вам такое нужно).
А вообще:
Год не был бы таким ударным, если бы не вы, дорогие подписчики, которые следили за обновлениями, лайкали, репостили, общались в комментариях и обменивались опытом. Вы — самые главные AI молодцы. С Новым годом! 🥂
Слово Пацана? А может быть лучше Слово Пиксара?
Сделал добрую версию того самого. Да еще и с песней.
Ссылка на ютуб, если захотите пошерить где-то еще (буду благодарен).
Пайплайн: тонна SD + две тонны Фотошопа + центнер Suno AI (для пеcни) + киллограм GEN-2 (для видео) + монтажка.
ИИгра Престолов в OpenAI похоже закончилась (пока что).
Альтман вернулся.
Если вы пропустил эти несколько легендарных дней, про которые обязательно снимут фильм — сделал небольшое видео с комментариями основных моментов.
"Обучение" Dalle-3.
Для украшения презентации решил попробовать множество мини-версий себя в Dalle-3 и это получилось ОЧЕНЬ ЛЕГКО. Понятное дело, что ни о каком настоящем обучении ala Dreambooth речь не идет и работает это:
а) только в рамках сессии/чата
б) с высоким уровнем абстрации (фотореализма не получится)
Но все же. Процесс на картинках выше.
Иногда захожу на приятные познавательные подкасты, чтобы послушать, как мой голос, записанный на телефон, авторы приводят к удобоваримому уровню.
Запись производилась на следующий день после релиза DALL-E 3, поэтому я был, как и половина нейроэнтузиастов, с мощным генеративным похмельем после бессонной ночи. Но при этом рассказал про новую эпоху креативности, как создавался клип для Сережи Мезенцева, почему круто вернуться во времена Платона и, конечно, про Шрека, играющего на саксофоне в космосе.
OpenAI DevDay - ждем новых анонсов по моделям и API
Через 16 минут OpenAI будет проводить свою первую конференцию для девелоперов. Ходит много слухов о том, что будут представлять. Возможно появится GPT4-TURBO - более быстрая и дешевая версия GPT4. А так же ожидается куча новостей по поводу плагинов, интеграции ChatGPT с разными приложениями и маркетплейс чатботов на базе ChatGPT.
Некоторые даже сравнивают эту конфу с тем моментом, когда Джобс анонсировал первый Iphone. Я, честно, не верю, что это будет что-то настолько же большое, но посмотреть интересно.
Смотрим стрим на YouTube
@ai_newz
Как и предсказывал, #Midjourney пошли в сторону файн-тюнинга! Так что теперь можно его ТРЕНИРОВАТЬ на свои картинках.
Здесь вся инструкция: https://docs.midjourney.com/docs/style-tuner. А я побежал скорей раскидываться с делами, чтобы полноценно потестировать.
UPD: FAKENEWS, ниже детали.
Забыл поделиться полевым тестом функции диалога в мобильной версии ChatGPT. Перед нам прадедушка (или прабабушка, можно выбрать голоса) Джарвис Тони Старка!
В комбинации с возможностью задать роль, можно создать себе собеседника/собутыльника/напарника/группу поддержки/любимого персонажам/пьяного батю/etc. и больше никогда не появляться онлайн оффлайн.
Тест мультимодальности #ChatGPT.
Часть 1: понимание мемов. 🔄
Open AI наконец-то выкатили возможность давать GPT4 картинки на вход (в Bing, кстати, тоже можно), многократно расширив горизонт возможностей и без того самой мощной языковой модели. Начинаю эти самые возможности исследовать в серии постов, пока что на мемах.
Выводы:
🐶 ГПТ4 легко понимает концепты, даже абстрактные, так и пишет: “смысл в абсурдности”.
😠 Если в меме есть двусмысленность, то может не копнуть до второго смысла и снять только первый слой. См. пример с собаками. В этом случае нужна подсказка.
🦞 ГПТ4 НЕ ПОНИМАЕТ ШРИФТ LOBSTER. Пытается читать, но делает ошибки. Но на первой картинке, с фрилансером, все равно затащил.
😳 Понимание количества элементов — мое увожение, см. картинку со Sleep Chart.
В целом, не идеально, но все-равно — фантастика.
Продолжаю наблюдение. Кидайте свои МЭМЫ для анализа в комментарии (по ржом).
Одна из лучших контор по голосовым нейроштукам ElevenLabs выпустила нейродубляж с сохранением голоса. Тыкать тут, можно кидать прям ссылки на ютуб/твиттер/вимео. Cпешите пока не набежало людей и генерится быстро. Я пока пробую переводить свои старые видосы, например обзор на клей Наруто (можно сравнить с оригиналом). Пока не идеально, иногда люто шакалит, простреливает мощный индийский акцент, но перспективы очень интересные.
Читать полностью…У Adobe начался MAX https://youtu.be/1tbrJNP5Cjk
Первое с чего наверное уже отлетела жопа у всех кто делает векторные картинки для стоков — Firefly Vector. Теперь логотипы и принты можно генерить напрямую (раньше я делал в Midjourney и через VectorMagic трассировал).
Сегодня наверняка будет еще очень много анонсов. Например уже показали Firefly Image Model 2 которая генерит картинки еще лучше.
#Dalle3 — мнение и что будет дальше с визуальными моделями.
Давным давно (год назад, лол) Dalle-2 задавал планку качества в генерации картинок, но проиграл медийную гонку Midjourney (по качеству) и Stable Diffusion (по гибкости).
И вот, OpenAI с двух ног вернулась в игру визуальных моделей и снова задает уровень.
В первую очередь, уровень понимания запроса и то, что западные AI блогеры называют coherency (связность или согласованность), грубо говоря логическая и визуальная цельность.
Из полевых тестов — то, чего я добивался часами в MJ и Stable, в Dalle-3 получалось с одной попытки. Карлсон и Громозека — тоже (олды канала помнят)!
То, что вы пишите — то и получаете.
Что дальше?
Midjourney вот-вот выпустит шестую версию, в которой, судя по информации которую я слышал на office hours от CEO, будет будет гораздо большая стилевая гибкость (а не просто очень-очень красиво) и та самая conherncy. А также, некое подобие ControlNet. И на их месте я бы, конечно, шел именно в сторону большего контроля, потому что иначе они выпустят Dalle-3.
Stable Diffusion продолжает быть народным мультикомбаином, который расширяется до бесконечных возможностей за счет энтузиастов. Но уже с новым поколением — XL. Прошлогодная модель 1.5 плавно отдает бразды популярности.
Кандинский и Шедеврум догоняют, но надо (очень) ускоряться.
Dalle-3 скорей всего порежут, так сейчас можно легко создавать NSFW контент, что очень странно для OpenAI. Ну и вот-вот добавят в ChatGPT 4, что создаст множество сценариев использования.
Так что, если вы еще не попробовали, то советую (с VPN): https://www.bing.com/create. Ну и сделал в нашем хабе отдельный раздел для ваших генераций. Кстати, если у вас долго висит, то советую попробовать с браузера Bing, вроде постабильнее.
Крэзи миднайт премьера.
Где-то месяц назад мне написал Сережа Мезенцев и показал песню, куплеты которой он написал в ChatGPT. Песня мне понравилась, поэтому было решено сделать для нее подходящий клип. Хотелось с помощью нейронок создать в видео историю (хоть и простую), а не просто абстрактный нейро-приколдес в ваккуме.
Основной пайплан: Midjourney + Gen-2. Где-то есть и Stable, фотошоп, ну и конечно старый добрый потный монтаж.
В целом, упражнение на терпение, потому что из-за отсутвия контроля в GEN-2 вышло 1400 генераций 😠 Хоть какой-то контроль камеры появился уже когда 90% было готово.
https://www.youtube.com/watch?v=S61Ix-PO13M
Голосовые нейронки летят, конечно, на сверхзвуковой.
Тестирую одну (для перевода) на винтажных мемах.
Здесь вы можете сами сделать, до двух минут бесплатно: https://labs.heygen.com/video-translate
🗞🗞🗞🗞🗞🗞🗞🗞
Сделал стикерпак с разными словечками для важных переговоров. Добавить можно по ссылке /channel/addstickers/AI_slovechki
Будет пополняться по мере появления у меня свободного времени. Ну и пишите в комментариях, чтобы хотели видеть 🍎.
Пайплайн: Stable 1.5 cо стилевыми моделями + Controlnet x QRmonster.
Отцы из #Midjourney выкатили альфа-версию V6! 🚬
Айда тестировать!
Чтобы активировать её, выберите V6 в меню настроек (/settings) или введите --v 6 после вашего запроса.
Что нового, дословно, от комманды Midjourney:
Нововведения базовой модели V6:
- Точное следование промту.
- Улучшенная согласованность, знания модели.
- Улучшенная обработка изображений и ремикс.
- Небольшая возможность рисования текста (вводите текст в "кавычках", --style raw или ниже --stylize может помочь).
- Улучшенные увеличители изображений в режимах 'subtle' и 'creative' (увеличение разрешения в 2 раза).
- Поддерживаемые функции на старте: --ar, --chaos, --weird, --tile, --stylize, --style raw, Vary (subtle), Vary (strong), Remix, /blend, /describe (только версия v5).
- Не поддерживаемые функции, которые появятся в ближайший месяц: Pan, Zoom, Vary (region), /tune, /describe (новая версия v6).
Стиль и запросы для V6:
- Запросы для V6 сильно отличаются от V5. Нужно 'переучиться'.
- V6 более чувствительна к запросам. Избегайте 'мусора' типа "award winning, photorealistic, 4k, 8k".
- Будьте конкретны в запросах. Менее атмосферно, но точнее.
- Для более фотографичных, нейтральных, буквальных результатов используйте --style raw.
- Нижние значения --stylize (по умолчанию 100) лучше понимают запросы, высокие (до 1000) - улучшают эстетику.
- Общайтесь в prompt-chat, чтобы научиться использовать v6
Важно:
- Это альфа-тест. Будут частые изменения без уведомлений.
- Не рассчитывайте на постоянство этой модели в будущем.
- Скорость, качество изображений, согласованность, следование за запросами и точность текста улучшатся.
- V6 медленнее и дороже V5, но ускорится с оптимизацией. Поддерживается режим Relax!
Сделал ГПТшку, которая анализирует любой дизайн в стиле Патрика Бэйтмана. Зачем? Не могу сейчас ответить, нужно вернуть несколько видеокассет.
ИНТ. ОФИС - ДЕНЬ
Патрик Бейтмен, в безупречно белой рубашке, склоняется над столом из полированной хромированной стали. Его взгляд устремлен на экран с логотипом. Цвета яркие, напоминающие сети быстрого питания, оттенки, казалось бы, скорее соперничают за внимание, чем дополняют друг друга.
ПАТРИК (ГОЛОС ЗА КАДРОМ)
Смело... броско... напоминает гамбургер из картины поп-арта. Но что с кириллицей?
Он наклоняет голову, анализируя наклон элементов, агрессивные полосы, которые пересекают текст.
ПАТРИК (ГОЛОС ЗА КАДРОМ) (ПРОДОЛЖЕНИЕ)
Дерзкий ход пересекать текст, смелое заявление в мире дизайна. Но улучшает ли это читаемость? Или просто разрушает её?
На его лице мелькает раздражение, когда он замечает кернинг между буквами, способ их соединения в галдёж тайпографики.
ПАТРИК (ГОЛОС ЗА КАДРОМ) (ПРОДОЛЖЕНИЕ)
Типографика должна шептать о софистике, а не кричать с крыш. А эти цвета... они настолько насыщенные, что это почти нападение на чувства.
Он откидывается на спинку стула, на его губах промелькнула тень усмешки, когда он размышляет о попытке логотипа быть авангардным.
ПАТРИК (ГОЛОС ЗА КАДРОМ) (ПРОДОЛЖЕНИЕ)
Это тот вид логотипа, который не просто хочет быть увиденным, он отчаянно стремится привлечь внимание в мире, уже оглохшем от визуального шума.
Он отворачивается, образ логотипа ярко врезается в сознание даже на фоне строгих белых стен его офиса.
ПАТРИК (ГОЛОС ЗА КАДРОМ) (ПРОДОЛЖЕНИЕ)
Это не просто логотип. Это крик о помощи от бренда, потерянного в море потребления. Запоминающийся, да, но ценой чего?
ЗАТЕМНЕНИЕ.
*звучит музыка из Game of Thrones*
Если вы пропустили, вчера совет директоров одним днем уволил Сэма Альтмана, CEO OpenAi.
Только недавно он флексил на конференции с новым ChatGPT, а теперь с коробкой на выход. Чтобы вы понимали, это как бы если Apple уволили Джобса (стоп, это же было).
Грег Броман, соочередитель, офигел и ушел вместе с ним. Вот Грег пишет в своем Твиттере:
Сэм и я в шоке и опечалены тем, что сегодня сделало правление.
Прежде всего, позвольте поблагодарить всех невероятных людей, с которыми мы работали в OpenAI, наших клиентов, наших инвесторов и всех тех, кто выходил на связь.
Мы тоже все еще пытаемся понять, что именно произошло. Вот что мы знаем:
- Вчера вечером Сэм получил сообщение от Ильи с просьбой поговорить в пятницу в полдень. Сэм присоединился к Google Meet, и там был весь совет директоров, кроме Грега. Илья сообщил Сэму, что его увольняют, и что новость скоро станет общедоступной.
- В 12:19 дня, Грег получил сообщение от Ильи с просьбой о быстром звонке. В 12:23 Илья отправил ссылку на Google Meet. Грегу было сказано, что его удаляют из правления (но он важен для компании и сохранит свою роль), и что Сэма уволили. Примерно в это же время OpenAI опубликовал блог-пост.
- Насколько нам известно, команда управления была уведомлена об этом вскоре после, кроме Миры, которая узнала об этом накануне вечером.
Поток поддержки был действительно приятным; спасибо вам, но, пожалуйста, не тратьте время на беспокойство. Мы будем в порядке. Впереди великие события.
Шок контент, конечно. Интересно что стало причиной.
Ну и fun fact: даже важные партнеры Microsoft не используют чумной Teams для звонков.
AI и творчество — Александр Доброкотов
Что общего у мира идей Платона и нейросетей? Поговорили об этом (и не только) с Александром Доброкотовым — обладателем шикарных усов, креативным директором DADA Agency и создателем канала «Ai molodca».
Саша сделал много проектов с помощью нейросетей. Его работы можно встретить в соцсетях, СМИ и вообще везде (вспомните «нейропанельки» или перевод винтажных мемов на английский с помощью HeyGen).
Что было в выпуске:
▪️ Что такое нейроискуство
▪️ Как AI изменил концепцию создания контента
▪️ Почему Dall-E 3 сейчас круче Midjourney и Stable Diffusion
▪️ Как прокачать свою креативность
▪️ Какой стек использовался при создании первого в мире клипа, сделанного полностью с помощью нейросетей
Пристегнули ремни, приоткрыли форточку и слушаем!
🎧 СЛУШАТЬ НА ВСЕХ ПЛАТФОРМАХ
Если пропустили конференцию OpenAI, то в кратце ее суть можно выразить так — мы стали еще на шаг ближе к ДЖАРВИС Тони Старка, персонализированному мультимодальному AI, который быстро и эффективно решает ваши вопросики, пока вы спасаете мир (или что вы там делаете).
Если совсем коротко: больше персонализации (кастомные модели и чат-боты), больше возможностей для разработчиков (улучшенное API и сниженные цены), больше качества (обновлённые данные, многкратное расширенное количество токенов на вход, новый интерфейс). Турбо!
Отбой! Ложная тревога! Пойду помою глаза с мылом. Насколько я понял, это хитрая история про создание своего стиля, но внутри MJ. Миджорни сделает вам кучу картинок по вашому короткому запросу (свои загружать нельзя), вы черри-пикаете, а на основе них создается стиль, который вы можете использовать. Но это не точно.
Читать полностью…Забытые игры.
В удивительное время живем. Сегодня с нейросетями играемся, а еще, казалось, вчера палкой крапиву избивали и свинец из аккумов плавили.
Сделал полностью в #Dalle3 (через GPT4). Стилизацию, шрифты, консистетность тащит он, конечно, люто.
Дополнение к тесту, выяснилась любопытная особенность при анализе мемов из комментариев.
GPT4 довольно жестко (и не один раз) ошибся с этой картинкой, что было странно, учитывая внимание к деталям при анализе. Конечно, я его спросил почему так:
“При анализе я опирался на обобщенные признаки и структурное сходство с известными образцами, а не на детальный анализ каждого кадра”.
Т.е по мимо классификатора возможно есть функция сравнения сравнения с базой данных. И если картинка, что-то очень напоминает, то он может решить: “да пофиг, скорей всего это та самая картинка”. Палки себе в колеса ставит! 🦆
Пост для ML-талантов!
Яндекс объявил о старте приема заявок на международную премию Yandex ML Prize для исследователей в области ML, их наставников и преподавателей.
Приятные цифры:
5 номинаций, 11 стран и от 500 тысяч до 1 миллиона рублей призовых.
И доступ к облачным сервисам Яндекса.
Подать заявку до 16 октября на сайте премии.
Времени немного осталось, так что поспешите, если эта информация для вас актуальна!
Реклама. ООО «Яндекс»
Судя по всему у многих (в том числе и у меня) #Dalle3 выкатился в GPT4.
Так что бежим тестировать (включать, как и все beta функции, в настройках).
Из первых наблюдений:
1. Встроена улучшайка запроса. Вы вводите запрос, ГПТ4 на его основе делает четыре, чуть прокаченные, версии.
2. В отличии от BING’а на выходе дается не квадратные, а широкие картинки.
3. Почему-то по запросу cyborg он мне дает Терминатора (???).
Продолжаем наблюдение и ждем мультимодальность с картинками еще и на вход. Ваше здоровье!
Пост поддержки, причем не про нейронки, а про игры. Мой старый товарищ Артем посвятил жизнь созданию инди-игр и, наконец, вместе со своей командой выпустил проект, над которым они усердно работали 4 года. Я следил с самого начала, поэтому могу сказать, что очень много сил и души вложено в этот проект, поэтому советую ознакомиться с ним по ссылке на стим https://store.steampowered.com/app/1568970/Torn_Away/ и подписаться на классный канал Артема про разработку игр @progamedev. Конец поста поддержки!
Читать полностью…Dalle-3 — новая эпоха визуальных моделей. И она уже доступна. В чатике нейроэстэтики (оттуда и генерации) орем просто. Сейчас пью пивко, но завтра отредактирую и напишу подробный обзор.
Читать полностью…Через часик буду здесь https://l.skbx.pro/a7pk1Z выступать, залетайте посмотреть кейски. Презентую новый суперпроект, который делал последний месяц. Расскажу про Саммер, ну и всякий аниме-винтаж. Это уже вторая конфа, для первой собирал спикеров, все крутые, и будут на этой тоже, так что советую. Особенно тем, кто еще не вкатился толком в нейросети, присылайте им ссылочку, все по полочкам должно разложиться.
Читать полностью…В комментах попросили поделиться вариациями инфернальных жоп, которые не вошли в финал. Показываю 😍.
Читать полностью…Потрогал тут #Шедеврум, о котором вчера все писали. Потому что генеративное видео — это new sexy, а тут как раз появилась возможность делать короткие ролики.
Что могу сказать? Из-за своей простоты Шедеврум — идеален для новичков. Можно генерировать разных котиков, да и все, что угодно. Качество на уровне.
Вообще, посидев на платформе, понял, что там прям очень широкая аудитория. Кажется, это первый такой массовый народный продукт. Также в приложении можно лайкать картинки других и подписываться (например, на меня). В целом это большая работа с точки зрения привнесения нейросетей в массы.
Интересно, как Яндекс будет это интегрировать в свои сервисы, чтобы это было не просто приколом, а еще бизнес-задачки эффективно выполнялись.
В качестве теста принес вам девушку с клубничками. Видосы сейчас в тестовом режиме и доступны только активным пользователям (и мне).