Telegram-канал cgevent - Метаверсище и ИИще: Unsorted

Метаверсище и ИИще

28 June 2024 11:59

Снова за нейрорендеринг.

Вот принес вам два видео из Люма и Креа.

Смотрите, давайте немного разберемся.
Креа делает видео на основе кода AnimateDiff, то есть генерит последовательность картинок, которые ничего не знают друг про друга. Там нет временной согласованности между кадрами, но есть много ухваток как сгладить этот момент.
Плюсы - изумительное качество картинки. Минусы - то самое кипение и артефакты, родовой признак всех потомков Warp Diffusion.

Люма делает сразу видео. Очень грубо говоря, она рендерит его из своей world model. И как все рендеры, обеспечивает временную согласованность кадров.
Плюсы - нет кипения и мельтешения, минусы - качество самой картинки (пока) типа отстой. Пока.

Если еще грубее и проще. Креа Видео натренирована на картинках, Люма натренирована на видосах (хотя в Креа много сделано для хорошего сглаживания между кадрами).

Ну и тут можно порассуждать, что у генераторов видео, натренированных на видосах в мозгах возникает некая 3Д-сцена (хотя это не 3Д, а некое "ИИ-понимание как устроен наш трехмерный мир"), которую генератор рендерит по нашему запросу, мы просто "подлетаем" к некоторому участку внутреннего мира модели с помощью промпта и говорим, полетай рядом и пошевели объекты - все как в классическом 3Д. И оно рендерит.

Ну и дальше я опять начну ныть, что в классическом 3Д у нас есть все инструменты для управления анимацией.

А теперь представьте, что их нет, и мы может анимировать объекты только таская их за вертексы, то есть перемоделивая их в ключевых кадрах. Нет ни рига, ни деформеров, только вертексы объектов, за которые можно таскать и то приблизительно, с помощью команд типа "немного вправо".

И пока видеогенераторы, это такое 3Д без рига и контроля. Да уже есть ключевые кадры и референсные изображения на вход. И стрелки "немного вправо" в виде Motion Brush. Но на этом пока все.

Зато они рендерят Согласованные кадры. Пусть в качестве Coarse, но скоро подвезут нейроантиалиасинг и ControlNet. Вопрос интерфейсных решений.