Кураторские AI генерации и полезности. Новый мир исследует @dobrokotov. Хаб: @AIMolodcaHub. Образование для команд и студия: http://aimolodca.tilda.ws На чай: QDpY9QQvijkOtyHFFVw3xyeHWr--zpjSc7qxW1OFb_dY0OU
В рамках пятничного шитпостинга - музыкальная пауза 🍗
Читать полностью…Тридевятый архив: Бесконечный маршрут 💀
Новый файл. Купил подписку на #Kling и сжег на это все кредиты.
Буду рад репосту/комментам/отзывам.
Инструменты: Midjourney, Kling, ElevenLabs (звучки), CapCut.
Версия для ютуба.
Нам далли секретное обновление ☀️
Работая с #Dalle3, заметил кое-что странное. Он стал генерировать гораздо больше текста на изображениях, иногда даже в генерациях проступают куски промта. Раньше можно было почти без ошибок создать небольшое словосочетание, а теперь - небольшой текст.
Получается, правда, мыльно (яркий пример - картинка с неоном), с косяками, но всё же. Теперь вы тоже знаете.
Тест на зловещую долину 💀
С улучшением качества видео моделей вновь стало актуальным понятие "зловещая долина". Для теста, используя самый продвинутый видеогенератор, я создал анимацию красивого закатного пруда. Испытываете ли вы эффект зловещей долины, при просмотре этого видео?
Скоро будут нормальные посты 🤣
Лучший нейросетевой сервис для создания мемов (и не только) 🍗
Немного отвлечёмся от видео. Расскажу про сервис, который я недавно сильно полюбил. Называется он #Glif - и по сути это платформа-песочница, на которой минимальными усилиями, используя open-source модели, можно создавать Глифы - небольшие генераторы чего угодно: изображений, мемов, комиксов и всего, что придумаете. Сделано просто, работает классно, посмотрите, есть много чего полезного и интересного.
Но особняком стоят мемы (наше всё). И автор сервиса сделал гениальные глифы-мемогенераторы. Выбираете шаблон, в окне ввода пишете, про что сделать мем, и готово. Все работает на базе свежего Claude Sonnet 3.5, который контекстуально ШАРИТ и неплохо ШУТИТ. Поэтому мемесы получаются абсолютно легитимными.
В приложении просто пару примеров. Лайфхак: чтобы генерировать текст на русском (или любом другом языке), просто в окне запроса укажите желаемый язык вывода.
Кому это может быть полезно?
Мемы - это не только ПрИкОлЫ. По сути, они представляют собой концентрированное сусло жизненного опыта, являясь прекрасным источником интересных наблюдений и инсайтов, что делает их незаменимым материалом для креативщиков, писателей, стратегов и других профессий, где понимание человеческой природы крайне важно для создании эмпатичной и жизненной коммуникацию.
P.S.: Колебался, рассказывать ли о бесплатном сервисе - непонятно, кто платит за банкет, и не рухнут ли сервера от наплыва пользователей. Но CEO в Твиттере дал добро, так что делюсь с чистой совестью.
Делитесь своими мемасами! 😎
SORA не нужна 😅
Главная проблема визуальных моделей — это проблема контроля. Сделать красиво легко, а сделать как надо — это квест. С картинками проблему можно считать решённой (Controlnet, Dreambooth, IPAdapter и другие решения умельцев). С видео — пока всё только начинается.
Новая возможность #Luma — загружать не только начальный кадр, но и конечный, что позволяет делать генеративную интерполяцию (переход) между ними. Это кажется маленькой фишкой, но на самом деле это большой шаг к контролю, который, думаю, станет стандартом для многих (#Gen3 и прочих Клингов).
Если вы умеете в консистентную визуализацию и в целом круто управляете картиночными моделями, то перед вами открывается целое поле видео возможностей и СТОРИТЕЛЛИНГА. Я придумал уже с десяток способов интеграции в пайплайны с другими инструментами, и это даже при том, что пока генерации в Luma довольно сомнительного качества (пока что).
В приложении технический тест, где я использовал четыре кадра своего персонажа для презентаций, созданного в Dalle-3.
А вот-вот и Gen-3 выйдет, во многом не уступающий Соре по качеству. Так что последняя окажется в очень конкурентном поле.
What a time to be alive 🔥 (снова).
Видео-мемы из параллельной вселенной 🍴.
Повторить — берете кадр из видео, загружаете в #Luma + промт, монтируете.
Люма с мужиком "нормаааально" не справилась (он должен был идти), но получилось даже интереснее 🌚.
Думаю, вы все уже попробовали прекрасную #Luma (ну или покекали с чужих видео). Поэтому просто оставлю здесь свежесобранную GPT'шку, которая создает эффективный видео-промт из вашей статичной картинки (потому что я устал каждый раз заново описывать изображение).
Механика максимально простая: загружаете картинку, получаете промт для видео, затем идете с этой картинкой в Luma, ждете вечность и получаете прекрасный результат.
GPT'шка: https://chatgpt.com/g/g-bzMStKpAj-luma-dream-machine-promt-enchancer
Как создаются и развиваются популярные сервисы вроде Яндекс Браузера или Алисы? Что нужно уметь, чтобы заниматься технологичными продуктами? Узнайте всё из первых уст — на лектории Яндекса, посвящённом 10-летию факультета компьютерных наук ВШЭ!
Эксперты компании расскажут, какой путь они прошли, чтобы заниматься сервисами с многомиллионной аудиторией, какие навыки им в этом пригодились, а также как их профессии меняются с развитием искусственного интеллекта.
На мероприятии ждут не только студентов НИУ ВШЭ, но и всех, кто влюблён в IT и технологии. Присоединяйтесь к лекторию 11 июня в Культурном центре НИУ ВШЭ или смотрите трансляцию онлайн.
Участие бесплатное, нужна только регистрация. Заполняйте форму по ссылке и вдохновляйтесь историями лучших!
Тридевятый архив: Панельск 💀
Давно хотел создать свою карманную вселенную, в рамках которой можно рассказывать жанровые истории.
Итак!
Тридевятый архив: это found footage (псевдодокументальный жанр) из альтернативной реальности постсоветского пространства, которое переплетается с необъяснимыми аномалиями и секретными проектами.
Этот файл посвящен проекту "Панельск" — ходячему городу, перспективной и амбициозной разработке, который впоследствии был заброшен.
Если задумка найдет отклик, то займусь реализацией других файлов из архива, пока SORA не вышла.
Инструменты: Midjourney, Stable, Photoshop, Suno, Gen-2, CapCut, руки, голос.
Ну и ссылка на ютуб, кому нужно.
Open AI и Google: итоги.
Специально дождался двух ключевых презентаций, чтобы собрать мысли в кучу и поделиться с вами несколькими тезисами.
Презентации OpenAI - это новые "те самые" презентации Apple.
Только лучше. Когда ты такой: "ЧТООООО?!" и трясущимися руками пытаешься подобрать челюсть с пола. При этом без миллионного продакшена и свистоперделок мемного диджея (привет, Гугл). Только продукт и его техномагия.
Что на самом деле показали?
Новую веху. Почему? Если убрать все рядовые (хоть и крутые) обновления текущих продуктов, то останется самое важное - нам показали новый мультимодальный способ взаимодействия с ИИ, который скоро станет новой нормой. Бесшовное и естественное общение голосом + возможность нейросети "видеть" то, что видите вы в реальном времени - это, как говорили классики, историческая ступень. Одна из важнейших областей разработки в сфере - это не сами модели, а интерфейс и опыт использования. Как этими моделями будут пользоваться? Чат-бот, например, был и остается хорошим решением. Но время двигаться дальше.
Дайте железа.
С точки зрения удобства и привычки, общение по телефону - база. Но думаю, что все же нас ждет новый тип мобильных устройств, рассчитанных на новые мультимодальные возможности. Такие уже есть, но технически провальные: Rabbit, Humane AI pin. Решение лежит в качественном симбиозе железа и софта, так что думаю, что OpenAI наверняка объединит усилия с Microsoft или Apple, чтобы сделать железяку, идеально подходящую для их моделей. А Google на этом давно руку набил (тот же Pixel), и решение с очками уже выглядит перспективно.
Что в итоге?
Очень интересно, но ничего не понятно. С одной стороны, оказываемся в реальности из фантастических фильмов, с другой, поднимается еще больше вопросов. Не усилит ли это изоляцию, когда мы предпочтем общение с идеально понимающей нас нейросетью живым людям? Какие сферы пострадают и что им делать? Те же переводчики или тьюторы? Одно можно посоветовать точно: спите 8 часов, правильно питайтесь, заботьтесь о себе и своих близких.
– Показали GPT4-4o, самую мощную новую модель: она будет доступна для платных и ДЛЯ БЕСПЛАТНЫХ пользователей ChatGPT (даже без регистрации). Модель сейчас на первом месте по тестам сравнивая с другими лучшими моделями — и в коде и в других задачах.
– GPT4-4o это «Омнимодель» натренированная сразу на тексте, фото и видео — то есть та самая мультимодальность которую мы ждали.
– GPT4-4o уже доступна через API и стоит в два раза дешевле, и работает в 2 раза быстрее.
– Показали улучшенную версию аудио-чата через ассистента — она теперь шутит, понимает ваши эмоции; теперь ассистента можно перебивать своим голосом и сам ассистент говорит с эмоциями, и вы можете просить ее менять эти эмоции (даже петь). Переводчик с помощью GPT4-4o просто работает как в Sci-Fi кино (не путаясь и не требуя дополнительных нажатий кнопок).
– Запустят десктопные приложение наконец-то, чтобы не в вебе сидеть; в десктопном приложении ей можно показывать экран целиком и просить ее подправить код, что-то рассказать и тп. То есть это ассистент, который всегда видит ваш экран.
Дополнительные мелочи:
— Заявленные фичи выкатят через пару недель.
— Теперь через приложение можно просто ей показывать видео фид и она будет давать советы как решить какую-то задачу (не нужно фоткать ничего, работает как стрим);
— Во время демки ассистент тормозил хехе.
А вот что я предсказывал в посте выше и что сбылось или не сбылось:
✅ Демку ассистента как из фильма Her
✅ Полную мультимодальность: модель будет обучена сразу на видео, аудио, картинках и тексте
❓ Размер контекстного окна в 1М (мы не знаем пока)
✅ Новую архитектуру к новой модели, у которой сразу будут все фишки выше
✅ GPT4 обновление с лучшим написанием кода, или 4.5 или 4.1 (с названиями, они, конечно, не консистентны)
❌ Новую версию Dalle 3, с улучшенным фотореализмом
Kling vs Luma vs Gen-3 (промтинг и особенности so far, дополняется)
Готов поделиться с вами некоторыми наблюдениями на основе своего опыта и официальных гайдов.
😑 Актуально для Kling, Luma и Gen-3:
1. Модели не могут одновременно создать два сюжета или действия в рамках одной генерации. Фокусируйтесь на одном конкретном действии или изменении за раз.
2. Luma лучше справляется с интерполяцией между совершенно разными ключевыми кадрами, создавая логичную (иногда) последовательность. Kling чаще ошибается в таких случаях и требует наличия визуальных подсказок - общих деталей или объектов в кадрах (здесь, например, это приборная панель машины), чтобы правильно интерполировать между ними.
3. Фокусируйтесь на том, что должно быть в сцене, а не на том, чего не должно быть.
4. В целом все три модели схожи - по классике промтинга, четко описывайте желаемую сцену, избегая двусмысленности и сложных выражений.
😌 Рекомендации по промптингу:
1. Для Kling:
* Используйте короткие, простые предложения.
* Сосредоточьтесь на описании движения, а не на характеристиках объектов.
* Избегайте сложных идиом и культурно-специфических выражений. Не понятно, переводит ли он на китайский, но если да, смысл вашего английского или русского промта может измениться.
* Пример: Instead of "An elegant lady in an evening gown", write "A woman smoothly moving in a long dress".
* Есть теория, что Клинг охотнее ест упрощенный китайский.
* Экспериментируйте с ползунком креативности для баланса между точностью и интерпретацией. Установка ползунка на 0.5 дает сбалансированный результат, а на 1 — более точное следование промпту, но это нужно еще проверить.
2. Для Luma:
* Используйте "Enhance prompt" для улучшения ваших промптов. Работает почти всегда.
* Обязательно указывайте движение камеры, например: "A dramatic zoom in" или "An FPV drone shot". Иногда достаточно описать движение камеры + enchance prompt.
3. Для Gen-3:
* Структурируйте промпт по схеме: [camera movement]: [scene setup]. [additional details].
* Четко разделяйте информацию о движении камеры, описании сцены и дополнительных деталях.
* Повторяйте или усиливайте ключевые идеи в разных частях промпта.
* Пример: "Low angle static shot: The camera is angled up at a woman wearing all orange as she stands in a tropical rainforest with colorful flora. The dramatic sky is overcast and gray."
P.S: Обновил свою GPTшку, генерирующую промпты для видео-моделей по картинке. Теперь она более точная и предлагает сразу четыре варианта промпта на выбор. Кроме того, вы можете загрузить две картинки попросить написть для них переход. 🤨
В вашей ленте очередной мем из альтернативной вселенной 🤔
Делаю их в основном для инсты, но здесь некоторыми тоже буду делиться.
Пришлось вернуться в #Luma, так как в Клинге обнаружилась слабость, связанная с ключевыми кадрами (о которой расскажу чуть позже в апдейте поста).
Лучший видео-генератор #KLING открыл доступ всем (но стал условно-платным) 😮
1. Теперь не нужен китайский номер телефона. Просто регистрируйтесь по почте на klingai.com.
2. Бесконечный сыр закончился, теперь генерация по кредитам, как в Gen-2/3. В день дают 66 кредитов и нельзя врубать быструю генерацию по ключевым кадрам.
- 1 генерация text-to-video, Img-to-video: 10 кредитов.
- 1 генерация по кейфремам: аж 35.
💳 Расценки следующие на данный момент.
1. Без подписки: 0 рублей/месяц
- Кредиты: 66 в день, ограниченные функции.
2. Золотая подписка: примерно 396 рублей/месяц
- Кредиты: 660 в месяц
3. Платиновая подписка: примерно 1596 рублей/месяц
- Кредиты: 3000 в месяц
4. Бриллиантовая подписка: 3996 рублей/месяц
- Кредиты: 8000 в месяц
В настоящее время действует 50% скидка на все тарифы.
Оплатить можно с WeChat или AliPay (с которым сейчас разбираюсь).
🍗 Жду видео-наводнения!
Новый уровень для вашей карьеры
НИУ ВШЭ и Яндекс запускают онлайн-магистратуру на стыке маркетинга, разработки и управления продуктом. Она
рассчитана на 2 года, занятия будут проходить онлайн в режиме реального времени.
Вам стоит попробовать, если:
— вы работаете в IT, но задумываетесь, куда расти дальше;
— переживаете за актуальность своих знаний и профессии;
— хотите развиваться вместе с рынком и заглянуть в будущее цифровых продуктов.
Программа магистратуры органично сочетает маркетинговые, менеджерские и технологические дисциплины. Сильная
сторона — инструментарий, который позволит гибко лавировать между вакансиями сейчас и в будущем.
На выходе — диплом государственного образца и знания, которые востребованы по всему миру.
Ознакомиться с программой и документами для поступления можно здесь.
#промо
Получил доступ к #KLING 🤬
Клинг, если вы пропустили, это китайская версия Sora. На голову опережает Gen-3, Люму и остальные видеомодели.
Внутри джентльменский набор: txt-to-video (с настройкой камеры), img-to-video, ключевые кадры (как в Люме), негативные промты. Можно (пока безлимитно) создавать видео длиной 5 и 10 секунд, а также продлевать готовые генерации. Промтинг на китайском мультиязычный, как выяснили в комментариях.
Регистрация требует живого китайского номера (ищите знакомых), с одноразовыми у меня не получилось.
Осталось найти время, чтобы от души поэкспериментировать и принести вам хай квалити контент. Ну и кидайте в комментарии идеи, промты и картинки для тестов! 😮
Меняем освещение всего (одной кнопкой) 🍌
Есть два сервиса: Magnific и Krea. Первый платный, второй условно-бесплатный. Оба работают на open-source решениях Stable Diffusion запеченных в удобные однокнопочные интерфейсы. Функционал примерно одинаковый, но полезный: нейроапскейлер (у обоих), смена стиля (у Магнифик), генерация в режиме реального времени (у Креа).
СУТЬ: появилась еще одна общая (и крайней полезная) функция: смена освещения. Грузим любой объект, пишем промт или загружаем референс, при желании крутим ползуночки, получаем результат. Работает очень хорошо, сохраняет объект качественно, но не совсем справляется с мелкими деталями.
Прекрасное решение для дизайнеров, когда нужно куда-нибудь естественно переставить условную баночку с йогуртом: хоть на пляж, хоть в открытый космос, хоть к черту на рога.
Раньше можно было попробовать только в Магнифик (пришлось заплатить 40$ за тест), но сегодня появилось и в Креа, в разделе Enchancer (бЕсПлАтНо😅).
В комментариях еще примеры.
Потратил 15 долларов на новый #Gen3 (чтобы это не пришлось делать вам).
Это будет короткий пост. Вывод — если вы вдруг решили попробовать свежий GEN-3 за 15 долларов в надежде делать SORA-like видосики, это делать НЕ СТОИТ.
1. Купленные кредиты сгорят за 10 минут экспериментов.
2. Вам очень повезёт, если у вас хотя бы что-то получится. В приложении — ЛУЧШИЙ результат (я генерил по 5 секунд, а не по 10, чтобы экономить кредиты). При этом изучил все доступные гайды по GEN-3 промтингу.
А что делать:
1. Брать вскладчину анлим за 100 долларов и спокойно экспериментировать. На безлимитном тарифе GEN-2 я сделал почти 2000 видео; если бы они считались по кредитам, я бы уже разорился.
2. Ждать, пока появятся img-to-video (кофаундер в Твиттере мне подтвердил, что скоро будет), кейфреймы, motion brush и прочие средства контроля. Иначе это пуньк, а не инструмент.
Мемовселенная безумия 😎
Завтра напишу, почему новая функция #Luma — загрузка финального кадра — это геймченджер, а пока предлагаю посмотреть, на что я потратил большую часть своей платной подписки.
Легкие деньги
В последнее время, из-за мейнстримизации нейросетей, всё чаще стал замечать рекламу разных курсов с тезисами из серии "ЗАРАБОТАЙ 1000000 РУБЛЕЙ ЗА ДВА ДНЯ С ПОМОЩЬЮ ИИ 🤑🤑🤑". Потрясающе! Но полный шлак. Давайте быстро расставим точки над AI и быстрым заработком.
Думаю, большинство моих подписчиков - молодцы и уже достаточно в теме, чтобы понимать, что к чему. Поэтому скиньте этот пост тем, кто только смотрит в сторону AI-штук и курсов по их изучению.
Короче говоря, товарищи маркетологи используют один из множества мифов о нейросетях (рассказываю о них на своих лекциях, но, видимо, нужно сделать отдельный пост). Конкретно - о магической кнопке , которая за вас будет делать всю работу, а вы будете пить манго-шейк на тайском пляже. Fucking NO.😅
Нейросеточки - просто инструменты, которые усиливают вашу экспертизу и уже наработанные компетенции. Всё.
Если вы: 1) ничего не умеете, 2) ни в чем не разбираетесь - нейронки вам никак не помогут. Вы просто не сможете 1) доработать результат, 2) проверить результат. Если вы что-то умеете, то можете делать работу быстрее, брать дополнительный фриланс, запустить свой AI-based стартап, стать AI-блогером. Стратегий много. Но ничего из этого даже близко не пахнет лёгкой прогулкой.
Если уже реклама - фейк, с чего вы взяли, что в самом таком курсе вас ждёт качественный контент, а не водичка? 😎
Немного процесса из Панельска.
Помимо сотни генераций самих домов и различных ассетов, а также ретуши и композинга, попробовал несколько новых приемов.
Интеграция реальной съемки.
Здесь понял, что катастрофически не хватает навыков в видеокомпозинге, поэтому иду учить After Effects. Хорошо, что товарищ помог вырезать руки (Антон, с меня пиво). Из интересного: на напечатанный чертеж полил немного кофе и подпалил зажигалкой для фактурности, а снимал на фоне зеленого чемодана.
Апскейл сцены для разных масштабов.
Раньше пробовал такое в клипе, но здесь решил пойти еще дальше (буквально), можно увидеть на примере с панелькой на двух ногах.
Тиражирование персонажа.
Вот здесь интересно, на основе этого дома попробовал сделать 3D-модель с помощью instantmesh. Сама модель плохенькая, но прикол в том, что сервис дает картинкой несколько ракурсов персонажа. В ужасном качестве, но ведь это можно апскейлить и доработать.
В общем, как-то так, пока не вышла SORA, а я не прокачен в AE, приходится на ходу придумывать решения из костылей.
Если есть вопросики, пишите!
#tips
Королевская серия 👑👺
Я, признаюсь, в восторге от официального портрета короля Чарльза. Абсолютно инфернальный, но из-за этого — впечатляющий.
Представил, что еще королевского можно показать в таком стиле. Довольно интересное упражнение на стилизацию.
Пайплайн: midjourney + magnific (о нем напишу подробнее)+ photoshop.
Если вы пропустили, Денис уже накатал саммари презентации. От себя могу сказать, что: огонь, пушка, бомба. Жду возможность прикрутить голос Скарлет Йоханссон, чтобы полностью оказаться в фильме «Her» (усы у меня уже есть).
Читать полностью…🍿 Через 10 минут начнется презентация OpenAI — смотрим, чем Альтман будет удивлять.
https://www.youtube.com/live/DQacCB9tDaw?si=rT4ow2ugBndRwm9G