cgevent | Unsorted

Telegram-канал cgevent - Метаверсище и ИИще

37805

Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn

Subscribe to a channel

Метаверсище и ИИще

OpenAI официально показали Sora!

Доступно будет всем подписчикам ChatGPT - и Plus и Pro. Дают кредитов на до 50 генераций в месяц Plus подписчикам и до 500 быстрых генераций Pro подписчикам. Pro подписчики с более 500 генераций попадают в "медленную очередь".

Длина видео всё таки от 5 до 20 секунд (для Plus максимум 5), а разрешение от 480p до 1080p (Plus подписчики ограничены 720p). На более длинные видео и видео разрешения уходит больше кредитов. К видео можно применять стили и создавать свои.

Показали Storyboard - продвинутый инструмент позволяющий режиссировать видео. К примеру можно попросить Sora сгенерить видео человека, который на пятой секунде видео машет рукой.

Ещё есть куча продвинутых инструментов - можно догенеривать до видео как начало так и концовку, смешивать несколько видео вместе разными способами и много чего ещё.

Модерация сейчас чрезмерно строгая, но OpenAI обещают постепенно снимать ограничения.

sora.com

@ai_newz

Читать полностью…

Метаверсище и ИИще

Хрен вам, а не Sora.

Держите список стран, на которые раскатают Sora.
Никакой Европы и UK.
Но есть Сербия, Черногория, Армения, Грузия, Казахстан.

Есть и хорошая новость, я вот собираюсь метнуться в Дахаб на НГ, и Египет таки есть в списке стран.

https://help.openai.com/en/articles/10250692-sora-supported-countries

@cgevent

Страницу потерли, но я вам сохранил список тут: https://pastebin.com/x00E5xZK

Читать полностью…

Метаверсище и ИИще

Кожаная метка

А вот это уже симптоматично. Вместо того, чтобы гоняться за распухающим объемом контента, произведенного с помощью ИИ (мне особенно "зашли" бесконечные стримы, произведенные с помощью NotebookLM и визуализированные с помощью Heygen или Hedra, источник бесконечного булшита на любые темы), ютюбчик хочет отмечать именно кожаные видео, не тронутые грязными лапами ИИ.

Тут, конечно, стартаперы должны зашевелиться с идеями типа "Стриминг-Бутик с кожаными видео only." Но, как вы понимаете, в мире, где основные метрики - это количество, а не качество контента, эта идея немедленно будет взломана.

А идея делить контент на кожаный и ИИшный (имхо), довольно утопична. Просто потому что "а зачем?". Потребление контента кожаными - вот основная цель бизнесов, зарабатывающих на трафике, рекламе и стриминге. Зачем рубить сук?
Более того, кожаные уже давно не в состоянии отличать сгенеренный контент от рукотворного.

Интересно, что монтаж вроде как можно, а вот эффекты уже нельзя:

Видео не обязательно должно быть неотредактированным, чтобы получить кожаную метку, но, согласно странице поддержки, каждый этап процесса должен поддерживать C2PA и не допускать:
- Редактирования, которое нарушает цепочку происхождения или делает невозможным отслеживание видео до его первоисточника. Например, если вы снимаете изображение с метаданными C2PA, а затем сохраняете его в фотоальбоме своего телефона, который не поддерживает C2PA версии 2.1 или выше, это может нарушить цепочку происхождения
- Значительные изменения основной природы или содержания видео, включая звуки или визуальные эффекты.
- Изменения, которые делают видео несовместимым со стандартами C2PA (версии 2.1 и выше).


В общем я не понимаю - зачем?

Давайте оставим только прямые склейки? Ну ок...
https://www.theverge.com/2024/10/15/24271083/youtube-c2pa-captured-camera-label-content-credentials
@cgevent

Читать полностью…

Метаверсище и ИИще

Мне не очень нравится сервис Viggle - слишком узкая область применения, проскальзывания, ну и общее качество - такое.

Но тут вот у них вышла Model V.3 и там они замахнулись на анимацию лица и аватаризацию.

Сам я не буду пробовать, но если под ваши мемные задачи это подойдет, но поглядите сюда:
https://viggle.ai/home

Remix, Multi Character и особенно Relight выглядят,конечно, нарядно, но ноги по прежнему скользят, и вот такие вот меркетинговые сентенции вызывают вопросы:
Viggle is powered by JST-1, the first video-3d foundation model with actual physics understanding.


А я пока разыскал в твитторах довольно любопытное видео, где они дерзко сравнивают себя с Runway Act One на примере Arcane.

Следующим примером дам вам пример другого любопытного сервиса.

@cgevent

Читать полностью…

Метаверсище и ИИще

Runway: обновили Act One, инструмент для переложения своей лицевой анимации с липсинком на визуал. Раньше оно работало с картинками, а теперь пашет и с видео.

Можно менять слова сказанные персонажем, сделать дубль более экспрессивным без пересъёмок, или на препродакшене потестить что работает, а что нет. Причём можно и песни кормить, на вокал тоже реагирует.

По примерам видно, что чем ближе к камере персонаж в кадре, и чем менее он подвижен, тем лучше результат получается. Если нужно "ре-анимировать" чью-то экспрессивную актёрскую игру с новыми словами, то придётся повторить движения героя в кадре, иначе будет рассинхрон.

В отличие от DeepfaceLab или FaceFusion это работает с животными и мультипликацией, и чувствуется что анимация идёт изнутри лица, а не поверх. Хотя в каких-то случаях ими тоже можно достичь похожего результата.

Дальше будет только лучше.

PS: в гайде кстати сказано, что только людей можно анимировать.

Твит
Сайт
Гайд

Читать полностью…

Метаверсище и ИИще

Вы будете смеяться, но у нас еще один генератор картинок. От Маска.

Совсем недавно прошла новость, что в Grok от xAI можно генерить картинки с помощью Flux.

Так вот, сегодня они выкатили свой генератор картинок под названием Aurora. И те пользователи, у кого есть Grok, могут выбрать эту модель в выпадающем меню чата с Гроком.
Давайте разберемся для начала, как получить к нему доступ.
Тут два дня назад прошла также новость, что у Грока появился бесплатный тариф, где лимит 10 сообщений за два часа.
Но.
Вопрос в том, где раскатали этот тариф? Правильно - в Европе и UK недоступно. В Индии - доступно.
Чтобы проверить, запустите приложение Твиттора на мобиле и жмакните внизу на косую черту(иконка Грока).
Меня выбрасывает в предложение подписаться на Грок Премиум, ибо Европа. Соответственно проверить не могу, бесплатного тарифа не завезли.

Поэтому пособирал для вас картинок.
Неожиданно героем тестов Авроры стал Сэм Альтман.
Что до качества: несмотря что в пиар компании есть явный мессадж типа "круче флюкса", нет, не круче.
В пиар компании есть также мессадж "дикий фотореализьм и упор на лица", но нет, Flux Ultra в режим Raw сильно круче.
Так в чем сила, Грок?
- Безбашенность и отсутствие цензуры на лица известных личностей
- Заточенность на быструю генерацию фан-контента для твиттора
- Незамороченность. Минимум настроек и ловкая работа с короткими промптами (думаю внутри доводчик промптов)

Заточенность на лицах заставляет его терять детали из промпта, ну и следование промпту, особенно длинному, у него, конечно, хуже, чем у Флюкса.

Но камон, это не инструмент, это часть продукта. Вы вряд ли будете использовать Аврору для производства контента. А вот огромная орава твитторских будут пользовать его для набивания ленты контентом. Не зря у Авроры есть Fun Mode.

Так что это продуктовая новость, нежели технологическая.

У кого есть Премиум подписка на Грок, кидайте примеры в коменты.

А я вам щас сравнений пособираю.

@cgevent

Читать полностью…

Метаверсище и ИИще

ИИ-режиссер.

Кстати, вот довольно интересный проект и даже с кодом.
Работа с базой видосов, только вместо video-as-files используется подход video-as-data
Там и семантический поиск по видео, и VideoRAG, и редактирование.

Director - это как бы LLM-Chat c видео. Фреймворк для создания видеоагентов, которые могут решать сложные видеозадачи, такие как поиск, редактирование, компиляция, генерация и т. д., и мгновенно передавать результаты. Типа: загрузить это видео и отправить основные моменты в телегу, обобщать видео, искать определенные моменты, создавать клипы, добавлять наложения, генерировать миниатюры и многое другое.

И да, у них есть text2movie, поглядите видосы.

https://videodb.io/

Код тут - https://github.com/video-db/Director

Спасибо Нейронавтику за наводку.

@cgevent

Читать полностью…

Метаверсище и ИИще

Моя TRELLIS!

Пока мы тут алкаем Sora, я вам принес новый 3Д-генератор. И какой!

1. Опенсорсный!
2. Довольно убойного качества.
3. Это Микрософт.

Пока он работает только по входной картинке, что уже неплохо, но они обещают скоро докинуть TRELLIS-text-xlarge на 2B параметров, что для text-to-3D очень круто.
А тренировались они на полумиллионе моделей и похоже не только на помойках типа objaverse.
Они умеют выводить во все, что шевелится в 3Д: Radiance Fields, 3D Gaussians, and meshes.
И анонсируют даже редактирование и модификацию сгенерированных моделей через промпты (покричим на модельки?). Оторви руку, замени ногу, дай в руки палицу - есть примеры на сайте.

Выглядит сладчайше. Все черрипики есть у них на сайте, следующим постом я вам вкину народное творчество из TRELLIS, а тут хочу поделиться тем, что уже попробовал его(а не только твиттор перепечатал), и он меня удивил.

Дал ему на вход довольно иезуитскую картинку с флюксовым бьюти-тараканом - он его пережевал и выдал геометрию с очень тонкими деталями. Кстати, он понимает картинки с альфой или пользует removebg, чтобы отрезать фон, имейте в виду.

Он выдал видос со сплатами и выплюнул меш. Топологию прилагаю. Не айс, конечно, нужен ретоп.

Но это опен-сорс и похоже на голову лучше-всех-опен-сорс в области генерации 3Д.
Очень жду большую модель.

И это идеально оформленный Гитхаб репозитарий. После китайских "навалили-разбирайтесь", тут все расписано даже для тупых нейродедов.

Черрипики и красоту смотрим тут: https://trellis3d.github.io/ - можно сетки посмотреть.

Ставим отсюда: https://github.com/Microsoft/TRELLIS

Более того, есть демо: https://huggingface.co/spaces/JeffreyXiang/TRELLIS-text-xlarge

Ночью ворочалось нормально.

Го тестировать и 3дшить.

@cgevent

Читать полностью…

Метаверсище и ИИще

Вот что показали сегодня:

🌹 O1 теперь доступна всем платным пользователям (я с ней уже игрался тут):
— быстрее
— умнее
— поддерживает картинки

🌹 Подписка за 230 евро в месяц (или $200, клевый у них курс) куда входит:
— Все преимущества тарифа Plus
— Неограниченный доступ к o1, o1-mini и GPT-4o
— Неограниченный доступ к войс моду
— Доступ к режиму o1 pro, который использует больше вычислительных ресурсов для лучших ответов на самые сложные вопросы (еще дольше будет думать)

Если честно, подожду отзывов, я не против если o1 pro окажется лучшей моделью когда-либо сделанной

Читать полностью…

Метаверсище и ИИще

Держите примеров из Tencent Hunyan Video Model

Сразу глядите на бегемота.

Похоже все-таки придется ставить. Да, она медленная, да прожорливая. Но 13B - это 13B. Поэтому качество радует.
Из минусов: image2image будет, похоже, только в 2025 году.
Их плюсов:
- самая расцензуренная из всех опенсорснутых
- у них есть video2video и pose2video. Поглядите на бегемота и медведя. Это, кстати, великий Kijai упихал в Комфи в 20GB VRAM, чтобы получить 101 frames at 768x432.
- text2video не требует шаманства с промптами

Кстати, народ на реддите упихивает генерации в 16 гиг и даже поговаривает про 12 гиг. В Комфи. Но это часы генераций, не минуты.

Время рендерферм возвращается?

Забирайте Комфи сборку отсюда:
https://github.com/kijai/ComfyUI-HunyuanVideoWrapper

@cgevent

Читать полностью…

Метаверсище и ИИще

Genie 2 – A large-scale foundation world model

Google DeepMind хвастаются своим игровым AI-движком на базе диффузионного генератора видео. Сейчас это модно назвать World Model, но давайте без булшита, друзья.

Imagen 3 (txt2img от GDM) генерирует картинку – типа начальное состояние игры. Затем, в привычной нам для img2video манере, картинку оживляют, превращая ее в игру, где дополнительным инпутом идет нажатие клавишь.

Пока что игра живёт лишь 60 секунд максимум (в среднем 10–20), но миры все крайне разнообразные и в абсолютно разных условиях. Я имею в виду вид от третьего лица, первого лица, сверху — и даже гонки можно сделать (и на лошади тоже), и просто бродилки, конечно же. Управление по классике: WASD (QE), пробел и мышь.

Также работает и взаимодействие с объектами, например, можно лопать шары, взрывать бочки и открывать двери на E. Там даже NPC-персонажей можно найти, если задать нужный входной "скрин".

Архитектура
Каких-то технических деталей по Genie 2 особо нет — Google на такие вещи довольно скупы. Из моего представления - там тупо latent diffusion image2video модель, где каждый следующих кадр постепенно генерируется, исходя из контекста, состоящего из существующих кадров и нажатий на клавиатуру/мышку.

Черипики с сайта сасные в плане diversity, но не ахти по качеству картинки. Возможно, через год-два каждый сможет сгенерировать себе мир по душе, так же как сейчас генерируют музыку в Suno.

Очевидно, до статуса играбельно ещё далеко. И я тут даже молчу о скорости генерации (об этом не пишут, но, думаю, там не совсем риалтайм). Несмотря на то, что у авторов были горы TPU для обучения и тысячи часов записанного геймплея, качество видео пока хуже PlayStation 1, картинка размытая, и нет четкости в деталях. Ну, и мир сильно плывет после 10–20 секунд. Есть куда улучшать.

Скоро в эту нишу могут вкатиться другие серьёзные игроки (ждём ответку от Маска). Вот тогда и посмотрим.

Блогпост

@ai_newz

Читать полностью…

Метаверсище и ИИще

Вы будете смеяться но у нас новый видеогенератор.

Амазон приподоткрыл веки и бахнул анонс своего нового семейства моделей Nova.
Все написали про LLM, а про картинки и видео позабыли.

А между тем, амбиции такие:

Amazon Nova Canvas
- это современная модель генерации изображений, которая создает изображения профессионального уровня из текста или изображений, предоставленных в подсказках. Amazon Nova Canvas также предоставляет функции, облегчающие редактирование изображений с помощью текстового ввода, а также элементы управления для настройки цветовой схемы и макета. Amazon Nova Canvas превосходит такие генераторы изображений, как OpenAI DALL-E 3 и Stable Diffusion, по результатам сравнительной оценки, проведенной третьей стороной, а также по ключевым автоматизированным показателям.

Amazon Nova Reel - это современная модель для создания видео, которая позволяет клиентам легко создавать высококачественное видео из текста и изображений. Она идеально подходит для создания контента в сфере рекламы, маркетинга или обучения. Клиенты могут использовать подсказки на естественном языке для управления визуальным стилем и темпом, включая движение камеры, поворот и масштабирование. Amazon Nova Reel превосходит аналогичные модели по качеству и согласованности, согласно оценкам, проведенным третьей стороной, которая отдала предпочтение видео, созданным Amazon Nova Reel, по сравнению с видео, созданными Runway's Gen-3 Alpha. В настоящее время Amazon Nova Reel генерирует шестисекундные видеоролики, а в ближайшие месяцы будет поддерживать создание видео длительностью до двух минут.

Все это уже доступно в Amazon Bedrock, подсобрал для вас примеров.

На видео с дрона выше:
AWS_REGION = "us-east-1"
MODEL_ID = "amazon.nova-reel-v1:0"
SLEEP_TIME = 30
input_image_path = "seascape.png"
video_prompt = "drone view flying over a coastal landscape"

Но самое интересное, что в 2025 году они готовят модель типа "всё-во-всё". Трушная мультимодальность.

В 2025 году мы представим две дополнительные модели Amazon Nova, включая модель преобразования речи в речь и нативную модель преобразования мультимодальности в мультимодальность, или "любой в любой". Модель "речь в речь" будет понимать потоковую речь на естественном языке, интерпретировать вербальные и невербальные сигналы (например, тон и каденцию) и обеспечивать естественное человекоподобное взаимодействие, а модель "всё-во-всё" сможет обрабатывать текст, изображения, аудио и видео, как на входе, так и на выходе. Это упростит разработку приложений, в которых одна и та же модель может использоваться для выполнения широкого спектра задач, таких как перевод контента из одной модальности в другую, редактирование контента и обеспечение работы агентов ИИ, способных понимать и генерировать информацию во всех модальностях.

Наиболее подробно тут:
https://www.aboutamazon.com/news/aws/amazon-nova-artificial-intelligence-bedrock-aws

@cgevent

Читать полностью…

Метаверсище и ИИще

3DECEMBER

Всех причастных к 3Д - с праздником!

Возможно еще живы олды, которые помнят первые сходки майщиков в Матвеевском в ДВК в 90-х и 00-вых.
Возможно еще живы олды, которые помнят книжку на 1424 страницы.
Возможно еще живы олды, которые помнят первый Ивент 2006 года, куда приехал Серега Невшупов из Новой Зеландии.
Наверняка живы еще те, кто помнят приезд Бипла и, о боги, Андрю Крамера.

Кто не помнит - напомню, что сегодня 3December - профессиональный праздник всех трехмерщиков.
Да, моделинг, риггинг, анимация, шейдинг, текстуринг, рендер - и вот это вот все.

Во все это активно залезает ИИ - и это прекрасно. Трудно найти область с бОльшим количеством рутинной работы (только композ). Так пусть ИИ берет на себя рутину, а мы будем на него покрикивать через Voice Mode.

Старзы и донаты Нейро3Деду приветствуются, эпоха сменяет эпоху, а 3Дед все не унимается.

@cgevent

Читать полностью…

Метаверсище и ИИще

Как попробовать Хуньянь Видео Генератор.

Кстати, если вампрямневтерпеж, то camenduru уже собрал Jupiter Notebook для Hunyuan Video 13B:
https://github.com/camenduru/hunyuan-video-jupyter

Можно потренироваться на котиках.

Ну, или если у вас остался китайских номер от ранних тестов Клинга и Минимакса, то можно попробовать тут:
https://video.hunyuan.tencent.com/login

Дают 3 генерации в день.

А пока ждем нормального демо, английского сайта и смотрим на реддит, где индусы пишут всякую чушь про то, то Хуньянь побивает Gen-3 и Luma.

Пока народ на реддите рыдает про видеопамять и взывает к духу Kijai для адаптации под Комфи.

Кстати, Tencent, автор Hunyuan Video 13B, является одним из основных инвесторов в Minimax.

@cgevent

Читать полностью…

Метаверсище и ИИще

Flux 1.1 Pro Ultra Raw, конечно, крут.

Резкость и то, что он генерить хайрез, прям радикально его отстраивает от Flux Dev (а круто мы привыкли к хорошему, и теперь Flux Dev - уже не круто).

Попробуйте на Glif.app - он там есть.

Но даже Минимакс пока не вытаскивает зубы. Палятся.

Пора уже Лору сделать, которая нормальные зубы вставляет и держит их как влитые.

@cgevent

Читать полностью…

Метаверсище и ИИще

Анонс(а может и релиз для некоторых подписчиков OpenAI) Sora, похоже, сегодня — помимо утёкшей страницы поддержки с перечислением стран, где будет доступна модель, на 2 часа раньше видео-стрима свой обзор выложил крупный ютубер MKBHD: https://www.youtube.com/watch?v=OY2x0TyKzIQ
(конечно же, с большим количеством футажей внутри)

Я пока лениво полистал, главная фича в UI на сайте — возможность генерировать несколько клипов последовательно («Storyboard»), для каждого клипа свой пропмпт со своей мини-историей. При этом объекты (в частности персонажи и сцены) будут консистенты между ними.

Читать полностью…

Метаверсище и ИИще

Если вы в кодинг, то умные подписчики в коментах очень приподнахваливают форк Cline под названием Roo-Cline:

https://github.com/RooVetGit/Roo-Cline

Цитата: "оригинальный cline сразу ощущается как intel pentium 3"

Я не буду расписывать, что такое Cline - an autonomous coding agent. Чтобы не пугать нормальных людей.

@cgevent

Читать полностью…

Метаверсище и ИИще

Войя - виртуальный продакшен с айфоном

Если ваши интересы выходят за рамки мемных генераций из Viggle, поглядите на Voia.

Попробовать нельзя, есть запись в waitlist: но их намерения звучат неплохо:
Voia позволяет снимать в любом месте, искусственный интеллект регулирует освещение и создает 3D-среды - и все это с вашего iPhone и из облака. Наша предварительная визуализация (previz) позволяет планировать, визуализировать и совершенствовать сцены до начала съемок, обеспечивая эффективность и творческий контроль.

Есть Unreal Engine & Blender Integration, а основной мессадж - в 10 раз дешевле, в три раз быстрее.

В шапке есть длинноватое видео про съемку реальной рекламы, те, кто в теме, возможно найдут там правильные термины.

В общем, поглядите. Этакий Wonder на минималках.

https://www.voia.com/

Читать полностью…

Метаверсище и ИИще

Sora v2, мать моя женщина...
Кажется, весь видео процессинг скоро изменится навсегда.
Будет доступна "совсем скоро".
Минутная генерация
Текст, текст+картинка, текст+видео -> видео
Отсюда https://x.com/RuudNL/status/1865425438991945938

Читать полностью…

Метаверсище и ИИще

Сравнение Grok Aurora и Grok+Flux

Думаю сами поймете, кто справа, а кто слева.

Три вида промптов по деталям, легкие, средние и хэви-метал.

Источник

@cgevent

Читать полностью…

Метаверсище и ИИще

Вот что показали сегодня:

O1/O1-mini теперь можно файнтюнить – то есть можно взять свой датасет, условно научный или юридический (или любой другой), и сделать лучшую модель в узкой области; самое интересное, что уже 20 (!) примеров решенных задач датасета, уже достаточно для файнтнюна модели в узкую область

Обычно такие модели дороже в инференсе, и сам файнтюн стоит денег – доступно будет в следующем году

А я, тем временем, продолжаю тестировать o1 pro – буду переодически писать апдейты

Читать полностью…

Метаверсище и ИИще

Вот держите вам НЕ черрипиков из TRELLIS.
Его уже завезли на fal и везде, видео об этом приложил.
Меня порадовало видео из Блендора, где полученных таким образом болванов (по одной картинке, наминутчку) используют для превизов.

Понятно, что модельки сходу непригодны к анимации, но текстурки он тащит довольно ловко.

И это, еще раз, опен-сорс от Микрософта. Очень крутого качества.

@cgevent

Читать полностью…

Метаверсище и ИИще

И да, про Sora тоже будет!!

Мне это напомнило Ильфа и Петрова - 12 стульев.

Смешно будет, если Sora поставят именно на 12-й день.

Ох, ждем.
https://www.theverge.com/2024/12/4/24312352/openai-sora-o1-reasoning-12-days-shipmas
@cgevent

Читать полностью…

Метаверсище и ИИще

Джим Блинн, мозг и видеогенераторы.

Коль скоро помянул рендерфермы только что, то повторю свой пост про закон Джима Блинна (того самого чьим именем назван шейдер Blinn), расскажу, что это такое и навалю с дивана мыслей.

Если кратко: Время рендера одного кадра не меняется со временем и не зависит от текущего развития софта железа.

Подробнее: время просчета одного кадра графики для кино не зависит от технического оснащения студии – оно определяется сроками сдачи проекта. Если, например, время рендеринга кадра превысит условные 10 минут, то весь материал не успеет просчитаться. Проще говоря, чтобы обработать всю красоту, железа всегда будет мало (сколько бы его ни было): графика слишком сложная, и это всегда компромисс между замыслом и дедлайном. Поэтому каждый год эффекты становятся все сложнее и, скажем так, выразительнее.

В первой "Корпорации Монстров" от Pixar у Салливана было 2 миллиона волос(кривых).
В четвертой «Истории игрушек» были кадры с шестью миллиардами листьев и триллионом сосновых иголок.

Понятно, что никаких железок никогда не хватит, чтобы отрендерить всю нашу вселенную. С рейтрейсингом и каустиками.

И тут мне приходит в голову не очень умная, но красивая аналогия.

Никаких железок не хватит, чтобы обсчитать модель мозга, со всеми этими триллионами нейросвязей. В лоб.

Но ИИ прекрасно симулирует мышление, не имея никакой модели мозга. Он симулирует процесс, а не работу мозга.

Также SORA генерит видосы с тенями, отражениями, sub surface scuttering и даже каустиками, не имея ни малейшего понятия про индекс преломления, радиосити, pathtracing или антиалиасинг. У нее есть world model, и она не имеет ничего общего с мозгом с устройством рейтрейсинга и оптики в целом.

Вопрос в том, какая картинка нас "устроит".
И тут начинается другая тема о том, что поколение подрастающее на ТикТоковской картинке, скоро начнет снимать кино. И насмотренность у них совсем иная (не на кино) и картинка тоже будет иная. И возможно их устроит картинка от ИИ. Он же обучен на тиктоках...


Если же вернуться в декабрь 2024, то мы видим, что каждый следующий видеогенератор требует еще больше VRAM и времени просчета. Похоже закон Джим Блинна действует и тут. Существующего качества картинки всегда будет мало. По крайней мере для кино (откуда пришел закон Блинна).

Ну потому что в метриках значится "впечатлить зрителя". А он, зритель, до сих пор пальцы пересчитывает, мерзавец.

Вот и зарятся датацентры на атомные реакторы. Чтобы угнаться за временем просчета кадра.

P.S. Фотки делал в Ванкувере, на презентации Пиксара в 2018 году. Тогда еще мультики в 3Д делали...

@cgevent

Читать полностью…

Метаверсище и ИИще

Также Гугл снова потизерил свою видео-модель Veo, которую они спешно показывали в мае, чтобы еще раз утвердиться в роли догоняющего. Сейчас они высунули краешек модели в тестирование на своем Vertex AI для бизнес-аккаунтов.
Хотя там шиллятся всякие ништяки типа 1080p и генерации длиной в минуту, мне это не сильно интересно.
Модели Гугла дико зацензурены, пугливы, диверснуты на всю голову.
Ну и я не вижу уникальных фич - еще один генератор с характерными глюками и родовым сломо.
Ну и если им есть куда встраивать Gemini (у них полно продуктов для этого), то в какую часть своей экосистемы они будут встраивать видео-генерацию - мне неведомо. Шортсы для ютюба?

Лучше я вам сейчас привалю сладостей от дядюшки Хуньяня.

https://www.theverge.com/2024/12/4/24312938/google-veo-generative-ai-video-model-available-preview

@cgevent

Читать полностью…

Метаверсище и ИИще

Hailuo I2V-01-Live: в действии! И в каком!

Рубрика крутые подписчики.


Вчера писал про новую модель Hailuo I2V-01-Live: Transform Static Art into Dynamic Masterpieces

А сегодня Мигель прислал мне вот такой манифест.

Это идеально ложится на «All You Need Is Love» от Битлз - когда я смотрю, как мир реально сходит с ума то здесь, то там, такие ролики держат меня на плаву.

Спасибо Мигелю и за свежайшие тесты новой модели, и за идею и за эмоциональный интеллект.

А мы срочно благодарим Мигеля и бежим пушить его инсту неистовыми лайками, или что там, в инсте есть:
https://www.instagram.com/mimagie.fr/

@cgevent

Читать полностью…

Метаверсище и ИИще

У Минимакса новая видео модель!

Hailuo I2V-01-Live: Transform Static Art into Dynamic Masterpieces

Сначала можно подумать, что это файнтюн по аниме.

Идея чуть шире
Это Image2Video, заточенный, чтобы оживлять статичные картинки и в основном арт.

Можно назвать это уклоном в мультипликацию, анимацию или движущиеся комиксы.

Проблема "общих" генераторов в том, что когда присовываешь им плоскую графику или анимэ, они норовят вытащить ее в реализм или 3д.

А тут именно анимация статики, сохраняющая исходный стиль без плясок с промптами.

Мне всегда нравился NPR(non photorealistic render) и всякие туншейдеры.

Тут они генерятся довольно ловко.

Люблю Минимакс

https://hailuoai.video/discover-ai-videos/1

@cgevent

Читать полностью…

Метаверсище и ИИще

Первое сравнение нового опенсорсного видео-генератора от Tencent с коммерческим MiniMax

1-3 Tencent
4-6 MiniMax

Читать полностью…

Метаверсище и ИИще

Вы будете смеяться, но у нас еще один опенсорсный видео-генератор.

От Tencent.

Я уже писал про Хуньянь - это их модель для генерации картинок. Звезд с неба не хватает и после выхода Флюкса не имеет промысловой ценности. У них также есть 3Д-генератор

Сейчас однако все выглядит серьезно.
Смотрим сюда:
https://aivideo.hunyuan.tencent.com/

13B параметров. Разрешение 1280 на 720. Лютые черрипики на сайте.

Но если вы уже расчехляете свои не остывшие видеокарточки, погодите, щас навалю негатива.

нет image2video. обещают, но не говорят когда. как отдельную модель со своими весами.

минимально нужно 45 ГБ видеопамяти

комфортно: We recommend using a GPU with 80GB of memory for better generation quality.

мультиGPU пока нет

а теперь внимание: 129 кадров в 720x1280 это ~17min with 30 diffusion steps on the H800 GPU model (H800 - это примерно как H100)

Ну в общем что-то натренировали и теперь опен сорс будет упихивать это в Комфи на 4090 и смотреть, что там получается.

13B конечно круто, но надо смотреть, насколько это лучше CogVideo 1.5 или Mochi-1. В деле.

Можно начинать отсюда, качнуть 25 гигов весов, Комфи и Градио демо пока нет.
https://github.com/Tencent/HunyuanVideo

Кстати, почитайте про Tencent - полезно, чтобы понимать, какие у них ресурсы.


@cgevent

Читать полностью…

Метаверсище и ИИще

📚Библиотека промптов для самых разных задач и профессий

Внутри - сотни проверенных запросов для ChatGPT, которые удобно разбиты по категориям (от домашнего обучения до маркетинга и разработки)

Библиотека постоянно обновляется, а доступна она здесь - Нейрон

Сохраняй и пользуйся!💾

#промо

Читать полностью…
Subscribe to a channel