cgevent | Unsorted

Telegram-канал cgevent - Метаверсище и ИИще

37760

Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn

Subscribe to a channel

Метаверсище и ИИще

Автоозвучка. Всего

Я только вчера наливал за актеров озвучки. Но посмотрите, что выкатил ДипМайнд.

Video2Audio - причем оцените качество. Это не звук мотора или шуршание шин.
Меня просто убила сцена с анимацией в духа Аардмана - если вы подумали, что там что-то предозвучено то нет. На входе видео без звука. А ИИ сам понимает, что какие-то твари сидят за столом и собираются пожирать индейку. И ну озвучивать.

Пример с гитарой вообще за гранью понимания.
Поглядите все примеры тут:
https://deepmind.google/discover/blog/generating-audio-for-video/
Играцца не дают, говорят - это мы для своей Veo-видеомодели готовим.

Читать полностью…

Метаверсище и ИИще

ИИ-Цинизм, сорри.

Помните был такой клип Sinéad O'Connor - Nothing Compares 2 U
Хотя вряд ли, зумеры вы мои, песня 1990 года, написана Принсом, кстати.
Оригинальный клип в оригинальном качестве тут:
https://www.youtube.com/watch?v=TGRG_396vUI

Но старперчики сейчас меня предадут анафеме и распнут дизлайками, ибо я сделал следующее.
Взял фотку Шинед О'Коннор, начало песни и присунул это все в Хедру.
Получил то, что получил.

Так как я еще помню мурашки от первого просмотра оригинального клипа, то мне, конечно, не заходит, у меня прошлое подгружается.

Но зумеры посмотрят, пожмут плечами и молвят "нормчо".

Не сейчас, так через полгодика.

Когда мы подучим ИИ не только попадать в губы, а поддавать эмоций. И никаких препятствий для этого нет.

P.S. Цинично получилось, я знаю, заранее прошу прощения, что задел чувства староверующих.

P.P.S. Если взять кадр из оригинального клипа, то это работает плохо, модель Хедры натренирована на портретах, у которых не отрезан лоб. Получилось очень крипово, но если навалите 84.4 реакции запощу и этот вариант.

Читать полностью…

Метаверсище и ИИще

🔥Anthropic зарелизили новую модель Claude 3.5 Sonnet - и она бьет GPT-4o!

По цене компьюта и скорости модель на уровне средней модельки Claude 3 Sonnet, но по качеству превосходит самую большую их модель Claude 3 Opus, а также бьет GPT-4o почти на всех бенчах – слегка уступает только на математике и на MMMU в ответах на вопросы по картинке.

В то же время Claude 3.5 Sonnet дешевле чем Claude Opus 3 в пять раз! И дешевле GPT-4o на инпуте ($3 против $5 за млн токенов).

Контекст: 200K Токенов.

Отдельно отмечают прогресс по Vision - 4o и тут проигрывает. Кардинальные улучшения наиболее заметны для задач, требующих визуального мышления, например, для интерпретации диаграмм и графиков. Claude 3.5 Sonnet также может более точно транскрибировать текст из шакальных изображений.

Авторы говорят, что это первый релиз из семейства 3.5, другие обещают попозже в этом году.

Модель уже доступна бесплатно на Claude.ai и в iOS приложении. А также через API: $3/млн входных токенов, $15/млн сгенерированных токенов.

Ну, и ждём рейтинга на арене, конечно.

@ai_newz

Читать полностью…

Метаверсище и ИИще

Illyasviel релизнул LayerDiffuseCLI, инструмент для генерации изображений с прозрачным фоном. Написан на чистом diffusers без интерфейса (с поддержкой командной строки), чтобы код было легче использовать в других проектах.

Несколько месяцев назад он выпустил Layered Diffusion как расширение для Forge, но не весь код. Теперь функционал прошлой версии (система слоёв, генерация по тексту/картинке) перетечёт в LayerDiffuse.

Нужно 8 ГБ VRAM.

Гитхаб

Читать полностью…

Метаверсище и ИИще

В старых совецких фильмах кино снимали без звука. Совсем.
Потом актеры и спецы по шумам садились в студию озвучки и "попадали в губы".
Щас конечно так не делают, но спрос на актеров озвучки по прежнему большой.

Или уже нет? И пора не чокаясь?

Eleven Labs выпустили Voiceover Studio
https://elevenlabs.io/app/voiceover-studio

Теперь можно озвучить вообще все, что угодно, не только голоса, но и шумы.

Еще они потихоньку переизобретают адоб премьер, но там есть интересные решения - кликать по треку, чтоб перегенерить голос или эффект.

Поглядите это видео, чтобы понять, как это выглядит.
https://x.com/elevenlabsio/status/1803453748041359809

Читать полностью…

Метаверсище и ИИще

Хедра просто отлично работает с другими языками.
И знаете, что я ожидаю дальше?
Что Sunо и Udio рано или поздно прикрутят к своим трекам вот таких вот исполнителей (Ну или Хедра прикрутит Суно к себе).
И вы такие "ИИ давай мне текстА, музику и поющие трусы! На все деньги!".
Ржоте?

А между прочим это в этом видео:
Текст: Gpt4o
Музика: Suno
Видео: Hedra
Пост: FaceFusion
Исполнитель: AI-girl


https://www.hedra.com/

Читать полностью…

Метаверсище и ИИще

Ого, часть команды Stability AI перешла в новый проект по развитию ComfyUI до масштабов вселенского интерфейса для генеративного AI.
Там автор SwarmUI - mcmonkey4eva.

В FAQ есть вопрос о создании собственных foundation models. Ответ уклончивый, но не отрицательный.

Придется разводить этот спагетти ад. И разбираться как его запустить на серваке в сети с доступом с локального компа.

Читаем тут:

https://www.comfy.org/

Читать полностью…

Метаверсище и ИИще

Поглядим на арену для text2img

https://imgsys.org/rankings - аналог LLM Arena только для картинок, и самое интересное, что с учетом всех провалов SD3 на 2B параметров(1, 2, 3) интересно посмотреть на её место в этом ранге. Особенно после истории с удалением всех моделей и даже возможности файнтюна на Civit.ai

Пока результат SD 3 2B, даже ниже PixArt-Σ (есть интересный пост о файнтюне PixArt-Σ).

А первые места в арене занимают три модели:

RealVisXL V4.0 с 35 шагами инференса
ColorfulXL-Lightning c 9 шагами инференса (С учетом скорости я бы выбирал эту модель, пример картинок на разные промпты)
ColorfulXL с 34 шагами инференса

Кажется что от SD3 2B полностью отвергнуто комьюнити и ожидать контролнетов и лор даже не стоит.

Читать полностью…

Метаверсище и ИИще

Я тут мучаю Hallo. Получается чуть лучше, чем у ТикТока. Видео сделано по одной фотке и аудиофайлу.

Из интересного - оживляторы лиц не любят мелкие детали, типа веснушек, и я попробовал пройтись по результату с помощью FaceFusion в режиме FaceEnhancer, там много моделек для этого, мне нравится gfpgan.

Он сглаживает косяки, но гримирует веснушки!! Нет добра без худа!

И вот что мне подумалось.
Вот есть Face Enhancer-ы, Face Fixer-ы, липсинк, улучшатели деталей. Но никто не решает проблему зубов!
А она торчит из всех ротовых щелей!
Можно уже сделать сеточку типа Ortho Smile? Чтобы фиксила все эти плавающие зубы. Задача вроде несложная, лэндмарк единственный и понятный, трекается хорошо.
Даешь Dental Diffusion!

Читать полностью…

Метаверсище и ИИще

Похоже это лето, будет летом видео, как в 2022 году было лето картинок.

Тут подписчица Наташа, прорвалась к Клингу и вот что она пишет.
"Банят многое. Обнимашки нейтральные не проходят, упоминания великих художников тоже, упоминания реальных объектов архитектуры тоже. Сложно подбирать промпт на китайском".

Поглядите, что у нее получается. В коментах больше пингвинов и пеликанов.

Меня, как обычно, цепляют визуальные эффекты, сидит эфыксер такой и пишет: "давай апокалипсис на все деньки и Оскара!". Ну и дает.

А еще все озверели от Dream Machine, которая на фоне релиза Runway GEN-3 выкатила возможность генерить 60(!) секунд видео в дополнительными управлялками. Замена фонов, персонажей и редактирование. Похоже надо покупать подписку, чтобы посмотреть.


Также релизнулась Open-Sora 1.2 - качество уже смотрится как шлак, но это опен сорс!

В общем, нас ждем горячее лето, ибо в ход пошли модели с пониманием мира (world model), натренированных на видео, в отличие от ветки AnimateDiff, где просто идет морфинг изображений в латентном пространстве.

Ждем ответочки от Пика Лабс, троллинга от OpenAI, истерики от Гугла и шквала моделей от китайцев.

Читать полностью…

Метаверсище и ИИще

Пришла рассылка от Леонардо.
Они натренировали свою foundation model под названием Феникс.

Если раньше они скромно умалчивали, что у них под капотом просто файнтюны Stable Diffusion,
то теперь это натренированная с нуля модель.
Никаких подробностей про архитекту и количество параметров нет.
Но почему это интересно.
Если они смогли сделать модель с нуля, не являясь 100-миллиардным стартапом, то возможно смогут и другие.
На реддите уже так подгорает от фейла с SD3, что народ уже вопрошает о том, что не собрать ли нам денег и мозгом на свою модель без цензуры и лицензии.

В общем, это интересная новость. Покидайте в коменты технические детали про модель от леонардо, если найдете.
https://x.com/Kyrannio/status/1802824736524947486

Читать полностью…

Метаверсище и ИИще

Лол, оказывается, SD3 - Medium была ошибкой.

Чувак, который разработал Comfy UI, работал в Stability и недавно уволился оттуда, рассказав интересную инфу про SD3.

Сам мистер Комфи работал над 4B версией, но поделился инфой.

Вот что теперь стало известно:

  - Нет никаких censor layers. Из датасета просто реально вырезали все нюдсы, и в довесок разрабы что-то там подшаманили с весами (про последнее нет особо подробностей).
  - "Safety training" — так теперь называется кастрация датасета, которая факапит анатомию людей и не дает генерить NSFW.
  - Более того, уже в самом начале разрабы напортачили с претрейном. Так что 2B вообще не собирались релизить.
  - Причиной релиза стало "давление сверху". То есть, в целом мы могли бы получить 4B или 8B вместо всратой 2B Medium модели.
  - Пока подтверждения о том, что выложат VAE, нет.
  - Сам Комфи просто хотел сделать лучшую модельку для домашних ГПУ, но в Stability в последнее время штормит.

В итоге мы имеем мертворожденный релиз, который был просто одним из первоначальных экспериментом ресерчеров (которые уже уволились), выложенный просто чтобы успокоить кого? Инвесторов? Очевидно, что Stability, проходят через свои нелучшие времена, но я искренне надеюсь, что компания не развалится через год и продолжит радовать нас open source модельками. Хотя у меня большие сомнения по этому поводу, ведь весь ресерч костяк (мои бывшие коллеги по PhD в Хайдельберге) уже уволился.

Тред

@ai_newz

Читать полностью…

Метаверсище и ИИще

Talk llama bot
Сделал бота. Теперь они будут жить в коментах и отвечать вместо меня на ваши вопросы 😁

Персонажи: emma, kurt, stalin, jason, pushkin, bratan.
Сталина и Курта оживили с помощью технологии dead2Speech.
Пушкин не любит болтать, но умеет писать стихи на русском. Рифма есть, но не всегда.
Джейсон Стэтхэм говорит цитатами.
Братан умеет пояснять сложные вещи на пацанском языке.

Боты читают чат, но отвечать будут, только если к ним обратиться.
Чтобы обратиться к персонажу: нужно найти видео-кружок данного персонажа и нажать "Ответить". Либо второй вариант, если кружок лень искать, команда: /call emma Как поживаешь?
Актуальный список имен персонажей для этой команды: /bot_names

В личке пока не общаются.
Политику и 18+ персонажи не обсуждают.

Под капотом:
LLM: GPT-4o, Llama-3-70b
Голос: XTTSv2
Губы: wav2lip

Бот переехал и теперь живет тут: @talkllama

Читать полностью…

Метаверсище и ИИще

Кстати, вы заметили, что есть два прям мейнстримных направления по оживлению изображений. Я имею в виду оперсорсные решения. С HeyGen все понятно, лидеры. А вот количество работ, особенно китайских, по, скажем так, анимации статики, сильно увеличилось. По двум направлениям.

1. Оживляторы портретов, которые заставляют их говорить, петь, гримасничать. Тут понятно, запрос на аватаров, ассистентов, ИИ-секретарей. Вот тут перечислял последние.

2. Оживляторы тела. И тут 99% это танцы тянок на камеру. Как мне пояснили за экономику - это все тиктор животворящий.
Накидайте мне в коменты самые последние оживляторы тела или хотя бы поясного плана, типа MusePose, которые появлялись в последнее время. Чтобы на входе картинка и либо промпт, либо референсное видео. Понятно, что AnimationDiff и все такое. Но возможно есть, что-то более ловкое.

/channel/cgevent/8559

Читать полностью…

Метаверсище и ИИще

Hallo - оживлятор.

Поиздевался над Марго.
Hallo пока лучший оживлятор портретов. Держит паузы, не мельтешит лицом, не сильно кривит губы. Да, есть проблема с зубами. Но если сравнивать с открытыми решениями с кодом - это пока лучшее. Просится второй проход типа Face Fix или Adetailer. Но это дело времени.
https://fudan-generative-vision.github.io/hallo/#/

Читать полностью…

Метаверсище и ИИще

Сорян, сами напросились, навалили лайков и дизлайков. Вот что бывает, если подать в Хедру не совсем то, на чем она обучена. Об этом будет еще через пост.

Читать полностью…

Метаверсище и ИИще

А ещё Anthropic запустили превью Artifacts - такой вот себе конкурент Advanced Data Analysis в ChatGPT, который позволяет запускать в браузере джаваскрипт и показывать html с svg.

Это позволяет быстро прототипировать вебсайты и даже делать простые браузерные игры!

Good evening, Sam

@ai_newz

Читать полностью…

Метаверсище и ИИще

ИИ-Сегрегация.

Заходит житель какого-нибудь Иллинойса в ИИ-бар, а ему охранник говорит: "Иди отсюда кожаная морда! С вашей пропиской ИИ запрещен, вали к своим кожаным реднекам".

Это я к чему.

Вчера регистрировался на Хедре и получил вот такой экран. И там белым по черному написано, что жителям Иллинойса и Техаса пользовать ихний ИИ запрещено. В сад, ковбои!

А Гугль Гемини до сих пор на разрешает генерить картинки в Европе.

И вот вам вишенка:
Apple ищет партнера в Китае в области ИИ, т.к ChatGPT заблокирован в КНР. Компания провела переговоры с Baidu и Alibaba.

Ну то есть ИИ у нас скоро будет по талонам. Точнее по рейтингу: социальному ли, территориальному ли, морально этическому...

Черное зеркало не соврало - ведите себя хорошо и будет вам ИИ.

Я вот выпиваю за кожаных и хвалю ИИ...

Читать полностью…

Метаверсище и ИИще

Фреймстор Ванкувер - всё!

Ностальгии пост. Уходит эпоха, я помню Siggraph 2018 в Ванкувере. Время расцвета VFX. И наши посиделки с ивентовскими сиджишниками переваливали за 20 человек из местных. Влад Ахтырский, Андрюха Евдокимов, Леша Приходько, Паоло Берто.
Кстати именно там впервые презентовали Nvidia RTX.
Ну и началось...

Читать полностью…

Метаверсище и ИИще

Илья Суцкевер, бывший главный ученый в OpenAI и один из основателей этой компании открыли новую, с офисами в Пало Альто и Тель-Авиве. Заниматься будет созданием безопасного суперинтелллекта, т.е. все тем же. Удивительное заявление для мира, мне вот этот кусок понравился:

Мы не отвлекаемся на управленческие хлопоты и циклы производства, а наша бизнес-модель позволяет обеспечить безопасность, надежность и прогресс, не подвергаясь краткосрочному коммерческому давлению.


https://ssi.inc/

Читать полностью…

Метаверсище и ИИще

Простите, что я опять со своими аватарами, но это уже прям хороший уровень.
Недавно мучил вас примерами из опен-сорсного Hallo (код там оказался не сильно свежий и с массой ошибок). Как тут новая сеточка подоспела. И похоже там под капотом не шевеляж пикселей, а некая видеомоделька (возможно я ошибаюсь). По результатам уже похоже на примеры EMO от Алибабы.
Это закрытый сервис, нет настроек, есть стандартная социализация, галерея и прочая. Пока бета, денег не просят, но думаю есть лимит на количество генераций в день.
Я прогнал на своих генеративных девчонках - они неистово шевелят лицом, хочется иметь рульку "поспокойнее, девочки".
Очень забавно отрабатывает музыку, в тех местах, где нет вокала, модель вдумчиво играет лицом, изображая работу мысли.
На выходе немного мыла, но я прогнал его через FaceFusion и получилось явно лучше. Сравните сами.
В общем еще бы настроек побольше и код, цены бы не было. Пойду поищу какая там модель. Говорят что Character-1 Foundation Model
Регаемся гуглом тут и ну разговаривать с аватарами.
https://www.hedra.com/

Читать полностью…

Метаверсище и ИИще

Прастити, не удержался.

Мне кажется, благодаря Luma AI, тема сисек окончательно раскрыта.
Ну и можно теперь делать бенчмарки для видеогенераторов. Кто лучше раскроет, так сказать.

А если серьезно, то у Dream Machine нет (пока) никакого nsfw фильтра на входящие изображения. На промпты есть, вы не можете излагать произвольные фантазии текстом, но можете подавать их в виде картинок. Мне не составило труда найти довольно жоские видео, сделанные в Луме.

Но эту лавочку прикроют в любой момент, ибо Лума закрытая модель.

А вот с выходом Open Sora возникает вопрос - ожидать ли нам Video Civitai через полгодика? Где народ натренирует Опен Сору на все случаи жизни...

Утром снесу пост от греха подальше, но пока очень смешно. ИИ смотрит на нас с крыш датацентров и качает головой. Ну и обучается чувствую юмора.

Читать полностью…

Метаверсище и ИИще

Как в воду глядели десять лет назад (см. дату на фотке).

В Шэньчжэне компания Starpery Technology, крупный производитель секс-кукол, сейчас обучает свою собственную большую языковую модель, чтобы усовершенствовать свой продукт с помощью искусственного интеллекта.
"Мы разрабатываем секс-куклу нового поколения, которая сможет акустически и физически взаимодействовать с пользователями, а прототипы ожидаются к августу этого года"

"Новое поколение секс-кукол, созданных на основе моделей искусственного интеллекта и оснащенных датчиками, может реагировать как движениями, так и речью, что значительно повышает удобство использования, поскольку фокусируется на эмоциональной связи, а не только на базовых разговорных способностях"

Нуштошь, если уже не только "на базовых" потребностях, то можно и замуж брать. Тем более, читаем дальше:

Дорожная карта Starpery включает разработку роботов, способных выполнять домашние дела, помогать людям с ограниченными возможностями и обеспечивать уход за престарелыми. К 2025 году компания планирует запустить своего первого «робота умного обслуживания», способного предоставлять более сложные услуги людям с ограниченными возможностями. К 2030 году эти роботы могут защищать людей от опасных работ, согласно плану компании.

Воистину адалт-индустрия - двигатель прогресса.

Подробнее про внутреннее устройство вот тут:
https://www.bangkokpost.com/life/tech/2813170/chinas-next-gen-sexbots-powered-by-ai-are-about-to-hit-the-shelves

Читать полностью…

Метаверсище и ИИще

Тут ТикТок запустил фабрику ботов. Точнее аватаров.

Читаем, потом смотрим.

Стоковые аватары: готовые аватары, созданные с использованием платных актеров, которые лицензированы для коммерческого использования.

Свои аватары: с возможностью работы на нескольких языках, дают контроль и возможность масштабировать свою персону и бренд. Креаторы могут использовать свое собственное лицо и создавать мультиязычные аватары для расширения своего глобального охвата и сотрудничества с брендами.

Теперь смотрим.

Это снятое видео. Руки и туловище кожаные, снятые. Это видно. А дальше с лицом производятся манипуляции. Причем это даже больше похоже не на дипфейк, а на оживление фотачек лица, о котором я тут пишу как ужаленный.
Видно, что губы оживляются библиотекой wav2lib (скорее всего), и выглядят блекло.

В общем это старый подход с цифровыми инфлюенсерами - взять реальное фото-видео и пришпандорить на лицо какое-нибудь безобразие.

Ну честно сказать, качество не впечатляет. Впечатляет, что это ТикТок, ибо у него до фига разработок в области оживляжа лица, и если он вышел на эту поляну, то прогресс будет.
https://newsroom.tiktok.com/en-us/announcing-symphony-avatars

Читать полностью…

Метаверсище и ИИще

5 инструментов эффективного DS-инженера

Любому DS-инженеру важно перенимать навыки и инструменты от разработчиков — этого требует рынок.

Ведь инженеры тоже пишут код, правят бизнес-логику, стараются снижать bus factor и хотят, чтобы в проектах не было багов. Но следить приходится не только за кодом, но и за данными, экспериментами, моделями и прочими артефактами.

Чтобы помочь в этих задачах и упростить вашу жизнь, есть множество инструментов. И команда DeepSchool познакомит вас с пятеркой самых важных уже в этот четверг!

20 июня в 18:00 МСК DeepSchool проведёт открытую лекцию «5 инструментов эффективного DS-инженера».

На лекции расскажут:
1️⃣ как сделать эксперименты воспроизводимыми
- версионирование данных, кода и моделей
- управление зависимостями
2️⃣ инструменты, которые повысят качество кода
- линтеры и тесты
- Continuous Integration
3️⃣ как упростить свою работу
- lightning
- трекинг и визуализация в CML

🙋‍♂️Спикеры лекции:
- Егор Осинкин — Lead CV Engineer в EPAM
- Тимур, Фатыхов — ex Lead CV Engineer в Koronapay

Регистрируйтесь по ссылке!

После регистрации вы получите список полезных библиотек и сервисов для CV-инженеров!🎁
Также в телеграм-боте будет краткий анализ CV-вакансий, где можно посмотреть, как менялись зарплаты, как они зависят от требований и от грейдов.

Зарегистрироваться

#промо

Читать полностью…

Метаверсище и ИИще

Лоры, говорите, чекпойнты, дообучение...?
На Цивитай взяли и снесли всё, что связано с SD3....


"К сожалению, из-за отсутствия ясности в лицензии, связанной со Stable Diffusion 3, мы временно накладываем запрет:

Все модели, основанные на SD3

Все модели или LoRA, обученные на контенте, созданном с использованием результатов моделей, основанных на SD3. Это включает в себя такие утилиты, как контрольные сети.

Существующие на данный момент модели SD3 будут заархивированы.

Мы не юристы - поэтому мы решили перестраховаться и попросить нашу юридическую команду пересмотреть лицензию, чтобы внести дополнительную ясность. Кроме того, мы обратились к Stability за дополнительной информацией. Как только мы ее получим, мы примем окончательное решение о статусе SD3 на Civitai."


https://civitai.com/articles/5732

Читать полностью…

Метаверсище и ИИще

Самое время — Runway таки анонсировали Gen-3 Alpha.

Готовят не конкретную модель, а серию, плюс целую инфраструктуру для тренировки и файнтюна AI под свои нужды.

Gen-3 Alpha натаскана на видео и картинках с пониманием окружающего мира, как Sora. Генерить можно будет в Text-2-Video, Image-2-Video и Text-2-Image. Инструменты для контроля кадра Motion Brush, Advanced Camera Controls, и Director Mode будут с ней работать тоже.

В тренировке были использованы детальные описания с плотными временными метками для получения результатов с точным следованием промту. Отдельно упоминается, что модель способна генерировать людей с высокой детализацией, эмоциями и жестами.

Для модерации будут использоваться C2PA сертификация и внутренние решения Runway.

Работают с неназванными развлекательными/медиа организациями для кастомизации Gen-3 моделей, ибо это позволяет получать стабильные результаты в целевом стиле и с нужными персонажами.

Ждём теперь Pika V2? Хотя зачем, когда есть Luma.

Анонс

Читать полностью…

Метаверсище и ИИще

Продолжим за нейроаватары. Тема горячая.
И щас речь пойдет уже про реалтаймовых тварей с липсинком.
Я уже писал про проект Talk Llama Fast и даже сам пытался что-то собрать.
Но поглядите ниже!
Автор сделал реалтаймовых аватаров с липсинком и шевеляжем лица, которые общаются в чате. Причем в телеге.
Поглядите ниже следующий пост. И давайте промотаем чуть вперед и выпьем за вот эти вот все ток-шоу.

Читать полностью…

Метаверсище и ИИще

Также попробовал на некожаных персонажах. На генеративе даже лучше работает. Не любит мелких деталей. Просит довольно большое разрешение и 1х1 аспект. Надо попробовать на аниме и вопрос с мультяшными диалогами можно будет закрывать.
На входе - одна квадратная картинка и один аудио-трек в формате wav, на выходе mp4
https://fudan-generative-vision.github.io/hallo/#/

Читать полностью…

Метаверсище и ИИще

Смотрите какая интересная штука:

1)Генерируем коробку в Dalle3 с надписью "Клубника"
2)Подаём эту картинку на вход LUMA и просим открыть эту коробку.
3)Наблюдаем в коробке клубнику!!!!


С котами тоже работает!

Читать полностью…
Subscribe to a channel