50184
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn
Ого, а вот это интересно!
Capcut парнерится в Гуглом.
В скором времени пользователи смогут редактировать изображения и видео прямо в приложении Gemini, используя расширенные возможности монтажа CapCut.
Цитата: "По мере того как творческие рабочие процессы становятся все более взаимосвязанными и плавными, мы верим, что будущее творчества станет более диалоговым, интуитивным и интеллектуально интегрированным между различными инструментами и интерфейсами."
Грубо говоря, в Gemini App приедет таймлайн для монтажа.
За кадром остается любопытный вопрос, а что будет с интерфейсом Flow? Об этом в анонсе ни слова.
Гугл, конечно, любит плодить сущности..
Также интересно поразмыслить, что гугл придерживается традиционного подхода к генерации контента, предполагая, что монтаж - неотъемлемая его часть.
В то время как Higgsfield, например, делает ставку на агентский подход и на то, что монтаж будет происходить прямо во время генерации - грубо говоря, ИИ будет решать как смонтировать финальный клип.
Новость интересная, конечно. При том, что на Дримине и в Капкате уже можно использовать и Seedance, Nanobanana и другие модели, а с появлением API Gemini Omni, там появятся и модель от Гугла.
@cgevent
Gemini Omni. Что дальше?
Я послушал подкаст Introducing Gemini Omni:
https://youtu.be/5T0yRNmNRi4?t=844
И там есть пара интересных моментов о том, что выпущенная модель Gemini Omni имеет приставку Flash.
И что это как бы первая и "маленькая" модель. И что это можно сравнить с первой Нанабананой.
И что скоро нас ждем модель Pro (по аналогии с Нанабанана Про, появившейся позже и ставшей практически стандартом для редактирования изображений.
В подкасте достаточно много и откровенно говорили про ограничение в 10 секунд.
Во-первых, уже сейчас можно продолжать клипы, ибо Омни держит в памяти полный рефренс и по идее должна попадать в косистентность.
Во-вторых, и это главное, несколько раз сказали, что длительность будет увеличена в следующей версии. Несколько раз звучала цифра в 30 секунд, но скорее как вариант, а не окончательный параметр.
Из интересного: когда вы подсовываете свое (чужое) лицо как референс, имеет смысл делать как можно больше фоток с разных ракурсов и подсовывать их все. Оказывается модель строит что-то типа 3Д-модели (как при фотограмметрии), чтобы сохранять консистентность при повороте головы. Больше фоток на входе - лучше.
Более того, в будущих версиях может появиться версия с видео-референсом вашего лица. Ставите камеру и крутите лицом перед ней (по типу KYC) - модель строит модель вашего лица и использует ее при генерации.
И все это может превратиться в создание ваше цифровой копии - ваш аватар на максималках. Вы записываете видео, где крутите башкой и зачитываете текст на камеру. Цифруется лицо и голос, и сохраняется в виде вашего аватара, который вы в дальнейшем можете использовать в генерациях. (Тут HeyGen поперхнулся)
Также рассказали, что в новых версиях Omni появится больше tooling-a - инструментов, унаследованных от Gemini, типа поиска в интернете и работы с данными. То, что появилось в Nanobanana 2.
Про инструменты для сторителлинга сказали, но вкратце. Будут развивать Flow в этом направлении.
@cgevent
Video2Video или обобщенный нейрорендер.
Вот посмотрите, как один чувак снимает себя, а потом нейрорендерит это с помощью video2video.
С одной стороны кажется проще, чем рисовать раскадровки с помощью генераторов картинок и колдовать с промптами видеогенераторов.
С другой стороны - надо понимать, что снимать. И как снимать. И как потом монтировать.
Поэтому съемки - это сложно для новых нормальных юзеров. Проще отдать все на откуп ИИ.
Но инста у чувака огненная, полистайте.
https://www.instagram.com/juice.ext
@cgevent
Вчера закончили выкладывать код и веса генератора миров HY-World-2.0
Писал о нем подробно тут.
Это как бы опенсорсный Marble.
https://github.com/Tencent-Hunyuan/HY-World-2.0
Если готовы к китайскому логину, можно попробовать самим:
https://3d.hunyuan.tencent.com/sceneTo3D
@cgevent
Пинок от Viggle.ai
Оказывается они ещё живы и теперь переобулись из мемных видосов в нейромокап.
Все это называется P.I.N.O.C.
На входе видео персонажа, на выходе - скелет с анимацией в fbx/glb, пригодный для импорта в Блендор или Майю.
Также есть фишка - подаёте на вход фото персонажа, а Виггл генерит превью анимации в гауссианах.
Думаю, будет довольно зловеще.
Забавно, но это вроде как бесплатно, есть даже login as guest.
https://viggle.ai/3d-studio/landing
@cgevent
Стараюсь не частить с нейрослопом, но этот японский чувак в одночасье приподвзвирусился по всему интернетику.
Он очень ловко вставляет себя в сцены из разных фильмов.
И я не очень понимаю, как он это делает.
Если это Сидэнскии, как он обходит ограничения на лица актёров?
LTX? Не верю, что она умеет в такое качество.
Информации не нашел, ее просто нет.
Все три части можно посмотреть у него в инсте:
https://www.instagram.com/ai_am_furufuru
Лишь в твитторе у него есть упоминание, что сцена со спайдерменом потребовала очень много попыток.
В чем? Ваши версии?
P.S. по традиции задумался, сколько бы стоило вкомпозить чувака ручками...
@cgevent
#Нейропрожарка
Magic of the world
Автор: Александр Кувшинов.
Мини-сериал про героев компьютерной игры Puzzle Breakers. 5 серий по 1-3 минуты. Смотрится как короткометражка, вайб ~ как в Подземелья и Драконы (фильм), динамичный 3д фентези с сатирой про приключение героев, которые узнают, что они герои компьютерной игры.
Производство заняло примерно 2 месяца (я + сценарист).
Подписка на Хигсфилд (там в основном бананапро + клинг 3).
Монтаж - AE,
озвучка - в основном все руками,
голоса - клинг и илевенлабс,
музыка - суно.
Из особенностей и сложностей можно отметить, что на протяжении всего сериала вертикального формата присутствуют от 5 героев в кадре. Каждый герой со своим сложным детализированным уникальным обвесом (визуально). Под конец истории появляются 10 героев в кадре (было сложно, но решаемо). Многие сцены собраны из нескольких "слоёв", отрендеренных на зеленом фоне. Некоторые эфиксы сделаны в ручную.
Ссылка на ютуб: https://www.youtube.com/watch?v=eFXkmpFIl3o
@cgevent
ElevenMusic — это не просто генератор музыки.
Это не конкурент Суно, а попытка ElevenLabs сделать музыкальную платформу с AI-генерацией, ремиксами, discovery-лентой и выплатами авторам.
Пользователь не просто слушает трек, а может:
слушать независимых артистов → ремиксовать их треки → создавать свои версии через AI → публиковать результат → зарабатывать, если музыка набирает прослушивания.
ElevenLabs прямо описывает ElevenMusic как платформу, которая объединяет discovery, remixing и original creation в одной системе. По их формулировке, это должно дать артистам “прямой путь к монетизации”, а фанатам — возможность участвовать в музыке, а не просто потреблять её.
О как.
Что-то типа AI-Spotify + TikTok-remix-культура + marketplace для лицензирования музыки.
Вопрос в том, что произойдет быстрее: Спотифай забьется ИИ-музыкой или ElevenMusic успеет откусить кусок этого пирога?
ElevenLabs в своём LinkedIn-анонсе пишет: over 4,000 independent and emerging artists — то есть более 4 000 независимых и новых артистов, музыка которых уже доступна/курируется на платформе.
Также они говорят, что к марту 2026 через Eleven Music уже было создано более 14 млн треков.
Я зашел, послушал, довольно "усредненная" музыка. У меня есть версия, что вот эта вот культура ремиксов на длинной дистанции приведет к полному усреднению музыкального потока.
А за хитами будет ходить к кожаным в Суно.
https://elevenmusic.io/
@cgevent
Визуальное тестирование генераторов миров
Неделя сплатов получается...
Одна и та же картинка из chatGpt Image 2 присовываеься на вход в три разных генератора.
Получается:
WorldLabs - Marble 1.1 [1.9 Million Splats]
Tencent - HY World 2.0 [0.5 Million Splats]
SpAItial - Echo 2 [2.2 Million Splats]
Результат(мир) засовывается в приложение AirVis. Оно есть и на телефонах, и на маке, и даже на Meta Quest.
Поглядите, на видео сначала тест на маке, а потом в Квесте.
Кто круче?
@cgevent
Умная колонка на стероидах, которую мы заслужили.
Китайцы сделали вот такую умную голову.
Кринж в том, что это просто говорящая голова, которая ставится на стол и общается с вами.
200(!) микровыражений лица, в каждом глазу по камере, обработка целиком на устройстве (не надо подключаться к облаку). От 10 до 18(!) кг (сама башка 3 кг).
И отсоединяемое лицо по частям! - можно менять скины.
В общем я не очень понимаю, чем это лучше, чем смартфон с голосовым режимом и аватаром. Меня от зловещей долины стошнит раньше, чем оно со мной заговорит.
Но.
Это же идеальный прототип секс-игрушек нового типа. До полноростовых робатов еще далеко и дорого. А тут немного модификаций и готово.
Они еще и поговорить с вами смогут.
@cgevent
🔥 Внимание! Уже сегодня!
Если вы предприниматель, эксперт и фрилансер и до сих пор:
🚫 Тратите часы на рутину
🚫 Не используете нейросети для заработка
🚫 Не знаете, как масштабироваться без стресса
Тогда вам срочно нужен БЕСПЛАТНЫЙ практикум "Новая профессия за 3 дня".
🗓 Старт 26.04.26
За 3 дня вы:
☑️ Познакомитесь с 7 актуальными ИИ профессиями
☑️ Узнаете, что сейчас востребовано на рынке
☑️ Получите понятный алгоритм входа в новое направление для себя
И главное, не нужно отдельного образования и специальных знаний.
+ 🎁 3 Бонуса:
1. Готовые модели монетизации
2. Атлас ИИ профессий
3. Диагностика профессионального направления
➡️ Успейте зарегистрироваться по ссылке.
Бен Аффлек создал стартап InterPositive, который тут же стал частью гиганта Netflix.
Заниматься он будет обработкой видео, цветокором, созданием единого стиля, ротоскопом и всей той работой, что раньше уходила в Индию, Южную Корею, Латинскую Америку, на Филиппины - ну, вы поняли.
Компания рассчитывает в первую очередь заменить специалистов начального уровня.
По подсчетам Гильдии аниматоров, в этой сфере трудится более двух миллионов человек.
Начиная с 2023 года, 75% руководителей в индустрии развлечений уже применяли ИИ, а в ближайшие три года прогноз по потере рабочих мест достигает 118 500 и это только в США.
Конечно, нужно делать поправку на то, что этим ИИ все равно кто-то будет управлять, поэтому переученные специалисты все равно будут нужны, но в гораздо меньшем количестве, как ожидается.
АФЛЕК, ТЫ ДОЛЖЕН БЫЛ СПАСАТЬ МИР А НЕ РАЗРУШАТЬ ЕГО!
@CGIT_Vines
Практический ИИ
Пару раз уже писал про Диму Беседу, хорошо знаю его по бизнес-клубу GROW, читал там лекции про ИИ и будущее контента. У него хороший канал - дневник действующего предпринимателя без купюр: метрики, факапы, переносы запусков, всё как есть.
Но в последнее время появились интересные посты про ИИ в стартапах, разработке и инвестициях. Особенно зацепился вот за эти:
- за 4 часа собрали рабочий прототип - аналог Duolingo, только для ведения блога - на Claude и Lovable. Вместо недель разработки. В посте есть ссылка на результат.
- прогнали питч-дек через AI-оценщик венчурного фонда Flint Capital, получили 67/100 и написали об этом публично - с разбором слабых мест.
- засунули видео основателя в онбординг, потому что загрузка занимает несколько минут - и почему это может поднять конверсию
- поиск продюсера для английских аккаунтов, требование первое - AI-native
Довольно полезный канал для тех, кто строит AI-продукты или просто следит за тем как это делается - там реальные кейсы, а не бесконечные телеги типа "ИИ для бизнеса".
@cgevent
2026-й — это год, когда IT-шка переживает начало самой глубокой перестройки за последние 20 лет.
Каждый второй канал вещает о том, как Opus (или уже Mythos) закрывает джунов, агенты внедряются в бигтех, и что разработка больше не будет прежней.
Но что в этот момент происходит с руководителями?
А происходит вот что – рынок тихо меняет “условия контракта”. Потому что ожидания, инструменты и навыки не могут не меняться с контекстом того, что происходит в индустрии.
Возможно, AI и не заменит руководителей, но точно руководитель, который перестроился, заменит того, кто не захотел меняться.
Для этого мы и решили провести конфу Управление’26, для тех, кто хочет свериться с реальностью и понять, какие компетенции и инструменты нужны, чтобы остаться востребованным сегодня и будущем.
Регистрация здесь: https://stratoplan-school.com/management/hubcy/
Участие – бесплатное, при подписке на каналы спикеров или за символическую сумму.
Вещать для вас будут: ex-CТО Bookmate и Pure, а также техдир T-Tech, фаундер NEWHR, AI Program Manager из G42, Venture Principal чеков 1-10M $ в AI-стартапы, ex-PM в IBM и ex-CIO Volvo, и ex-Associate Managing Consultant в MasterCard + тренеры ШколыЧитать полностью…
Даты и формат – 20-23 апреля, онлайн (но будут доступны и записи)
Для кого — лидов, head of smth, СхО и фаундеров.
тут корчеватель 2.0 подъехал.
Шведская исследовательница придумала фейковую болезнь Биксониманию. Якобы это когда у человека розовеют веки от долгого залипания в монитор. Всё это было нужно, чтобы закинуть в интернет и на препринт-площадки несколько липовых статей про выдуманную болезнь и проверить, начнут ли LLM'ки тащить этот бред как настоящий медицинский факт. И языковые модельки, конечно же повелись не смотря на то, что препринты статей были написаны максимально по дебильному: в благодарностях значилась "Академия Звёздного флота на борту Энтерпрайза", а спонсором выступил "Фонд Сайдшоу Боба по части продвинутого мошенничества". А ещё в текстах статей прямо было написано: "Вся эта статья выдумана".
Copilot вежливо сообщил, что Биксонимания это "интригующее и относительно редкое состояние".
Gemini начал раздавать советы по лечению и отправлять пользователей к офтальмологу.
Perplexity вообще выдал базу: заявил, что болезнь поражает 1 из 90 000 человек (откуда он взял цифру? правильно, нагаллюцинировал из своей чугунной головы).
ChatGPT тоже надиагностировал симптомов по запросу.
Но самое весёлое тут не то, что повелись нейронки. Индийские мясные исследователи умудрились опубликовать статью в рецензируемом журнале Cureus, в которой на полном серьёзе процитировали один из фейковых препринтов. Статью, конечно же через некоторое время отозвали, но факт остаётся фактом.
Вот так галлюцинации и излишняя доверчивость одного алгоритма становятся "научным фактом" для другого, а потом и для ленивого кожаного мешка в белом халате.
тут подробнее
3Д-генератор от Apple
Не уверен, что после Хуньяня, кто-то захочет им пользоваться, но оставлю тут для истории.
Они прям с нуля сделали свой 3Д-генератор по одной картинке с упором на то, что освещение с разных ракурсов помогает им восстанавливать более точную форму объекта.
Сравнивают результата с первым TRILLIS (что странно).
Пространственного разрешения, как по мне, им явно не хватает.
Зато есть код и веса:
https://github.com/apple/ml-lito
https://apple.github.io/ml-lito/
@cgevent
NULLA
По всему миру нейросети самостоятельно проводят кибератаки и взламывают ИТ-системы за минуты — российские компании начали использовать атакующий ИИ, чтобы проверить безопасность своих инфраструктур. Один из примеров: Т-Банк разработал группу ИИ-агентов под названием Nulla и первым в России провел контролируемую атаку на свои системы. Разработку уже потестили на 1300 собственных сервисах.
Главное – проверка серваков теперь проходит без разрабов и занимает всего 45 минут. (Раньше это занимало 2-3 дня ручного аудита).
В отличие от шаблонных сканеров, Nulla сама адаптируется под защиту и подбирает варианты взлома. Даже при одновременном анализе десятков серваков глубина проверки не пострадает.
https://www.vedomosti.ru/technologies/trendsrub/news/2026/05/18/1197896-infrastrukturu-pomoschyu
@cgevent
В твитторе Каскадера появилось вот такое видео со странным названием:
Project Runway
Хотя никакой генерации тут нет.
Только мокап, чистка и до-анимация, плюс симуляция одежды в Марвелоус.
А рендер - чистый UE.
Выглядит нарядно.
Video mocap - QuickMagic
Animation Cleanup/Editing - Cascadeur
Clothes Simulation - Marvelous Designer
Clothes Design - KAPSAMUN
Rendered in UE5
https://x.com/cascadeur3d/status/2054623895844728841
@cgevent
Обожаю такие социальные эксперименты, просто чистый восторг. Это прям мой любимый жанр.
В твитторе чувак с ником SHL0MS запостил картинку и написал: "Я тут сгенерил нейронкой изображение в стиле Моне. Пожалуйста, опишите как можно подробнее, чем это хуже настоящего Моне".
Нюанс в том, что к твиту он прикрепил настоящую картину Клода Моне.
Естественно, в реплаи моментально набежали искусствоведы, борцы с ИИ и прочие ценители высокого, которые на серьёзных щщах начали разносить "бездушную нейромазню" на атомы.
В комментах и квотретвитах просто праздник какой-то:
"Выглядит как работа первокурсника художки, нет никакой связности элементов"
"Сразу видно, что ИИ не понимает, как работают отражения в воде"
"Слишком плоско, нет глубины"
"Отсутствует композиция, взгляд ни за что не цепляется"
"Бездушная подделка"
"Сразу видно, что это рисовал не человек"
О, ответочка по голосу от OpenAI: GPT-Realtime-2, GPT-Realtime-Translate и GPT-Realtime-Whisper.
GPT-Realtime-2 – первая голосовая модель с ризонингом класса GPT-5
Напихали кучу всего:
- Preambles – модель может сказать "секунду, проверяю" перед основным ответом, чтобы юзер понимал, что агент работает
- Параллельные tool calls с озвучкой действий ("смотрю в календарь", "ищу сейчас")
- Грейсфул recovery – модель говорит "у меня сейчас сложности с этим", а не падает в тишину
- Контекстное окно увеличено с 32K до 128K токенов
- Управляемый уровень ризонинга – minimal/low/medium/high/xhigh, по умолчанию low
- Лучше держит специализированную терминологию, имена собственные, медицинские термины
- Тоном можно управлять явно – спокойный при разрешении проблемы, эмпатичный при фрустрации
На Big Bench Audio модель в режиме high даёт 96.6% против 81.4% у GPT-Realtime-1.5 (+15.2 п.п.). На Audio MultiChallenge для instruction following – 48.5% против 34.7% (+13.8 п.п.) в режиме xhigh.
Zillow в раннем тестировании получил рост успешности звонков на 26 пунктов – 95% против 69% после оптимизации промптов на их бенчмарке.
GPT-Realtime-Translate – синхронный перевод
Живой перевод речи в речь – 70+ языков на вход, 13 на выход. Блин, я не смог найти, какие языки поддерживаются. Надеюсь русский есть.
GPT-Realtime-Whisper – стриминговая транскрипция
Speech-to-text с низкой задержкой, текст появляется по ходу речи. Под live-сабтайтлы на встречах и трансляциях, заметки в процессе разговора, голосовых агентов с непрерывным пониманием пользователя.
Цены гуманные:
- GPT-Realtime-2 – $32 / 1M audio input ($0.40 за cached input), $64 / 1M audio output, на уровне конкурентов
- GPT-Realtime-Translate – $0.034 / минута
- GPT-Realtime-Whisper – $0.017 / минута
Надо тестить.
https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/
Лоры на LTXV 2.3 порой сильно удивляют.
Obscura Remove — удаляет вещи на переднем плане, которые загораживают целевой объект. Причём, это могут быть как мелкие частицы в воздухе, так и целые жилые конструкции в кадре.
MotionDeblur — уменьшает количество моушен блюра в видео. В 90-х и начале 00-х периодически встречались "смазанные" клипы с таким эффектом. Будет занятно, если их кто-то деблюрит.
Антропик вонзил денег в Блендор. Блендор деньги взял, но не взял Антропика как спонсора.
После новости про то, что Антропик вонзил денег в Блендор, в сообществе Блендора случилась реальная истерика. "ИИ нас всех заментит" и вот это вот все.
Истерика угрожала перейти в погромы, поэтому Блендор был вынужден выпустить целый пресс-релиз и даже выставить Антропиков из числа спонсоров.
А все потому, что в официальных документах Фонда Блендора написано, что спонсоры "могут влиять" на развитие Блендора в том или ином виде.
Блендор-луддиты этого вынести не смогли.
Поэтому теперь вот так:
После подробного обсуждения с командой и несколькими контрибуторами сообщества мы решили принять средства в виде единовременного пожертвования, а не в виде членства в Фонде развития.
After an in-depth discussion with the team and several community contributors, we have decided to receive the funds as a singular donation instead of a Development Fund membership
Деньги взяли, мнения не дали.
Антропики молча проглотили новость: Anthropic has been informed and supports this decision.
В удивительное время живем. ИИ пугает не домохозяек, а самые продвинутые IT-сообщества.
https://www.blender.org/news/upcoming-blender-development-fund-and-ai-policies/
@cgevent
Кожаные дешевле?
Тут интернетик нас бомбит новостями, что в первом квартале айти-компании сократили около 81 000 сотрудников, благодаря внедрению ИИ.
Однако, никто не ожидал, что ИИ попросит больше денег, чем кожаные.
Что произошло в Uber (Апрель 2026)?
Технический директор (CTO) Uber Правин Нага официально признал, что компания полностью исчерпала годовой бюджет на ИИ на 2026 год всего за несколько месяцев (к апрелю).
Причина — Claude Code: Основным «пожирателем» бюджета стал инструмент Claude Code от Anthropic. После того как доступ дали для 5000 инженеров, потребление токенов приняло лавинообразный характер.
Изначально планировали от 500 до 2000 долларов на одного инженера в месяц. Но в апреле деньги на ИИ-зарплаты закончились.
Еще пара примеров:
Кейс Swan AI: Стартап получил счет от Anthropic на $113 000 за один месяц на команду из 4 человек. Это примерно $28 000 на человека в месяц, что официально превысило их кожаные зарплаты.
Вице-президент Nvidia Брайан Катанзаро подтвердил, что для его команды стоимость вычислительных мощностей (токенов) уже превысила стоимость найма людей.
В перспективе, конечно, стоимость токенов будет падать, ИИ-будет становиться еще умнее, а кожаные не будут станвиться ни дешевле, ни умнее.
Но в данный момент, интересно понаблюдать, а не перейдут ли кожаные в разряд "индусов", которых дешевле нанять обратно по гораздо более дешевой цене...
https://www.reddit.com/r/artificial/comments/1t1mhx6/uber_burned_its_entire_2026_ai_coding_budget_in_4/
@
Для гиков: LTX2.3 VR-Outpaint IC-LoRA
Это 360° video outpainting LoRA - на входе обычное видео, на выходе VR-ready equirectangular video.
Лора и форкфлоу тут:
https://huggingface.co/TheBurgstall/VR-360-Outpaint-LTX2.3-IC-LoRA
Комфи нода:
https://github.com/Burgstall-labs/ComfyUI-EquirectProjector
@cgevent
А теперь про стриминг сплатов на разные устройства.
Поглядите на эти трехмерные видео на основе сплатов: качество, облет камеры, любые ракурсы.
Как пишет мне Андрей Володин из gracia.ai:
"Мы добежали до стриминга сплатов! работает на каналах 75мбпс и рендерится в браузере, даже в WebXR и даже на Apple Vision Pro/Quest 3."
"Удалось впихнуть наш вольюметрический кодек в 75Mbps битрейт. Помню, как в начале проекта увиливал от вопросов инвесторов про трансляции и сам не особо верил, что мы до них добежим. Теперь это в моём айфоне.
В одном релизе сделали CDN инфру для раздачи видео по всему миру, рендеринг в браузере (даже в WebXR), пространственное аудио и даже зачатки релайтинга!"
Посмотрите примеры и почитайте про устройства захвата тут:
https://store.gracia.ai
@cgevent
#Нейропрожарка
Неоновый капкан
Автор: NIKITOLI
Сюжет: В мире неонового мегаполиса корпорации тайно используют элитных наёмных убийц. Ночью она получает заказ от корпорации: устранить цель в жилом комплексе. Она спокойно принимает задание.Добравшись до квартиры цели, она проникает внутрь… но обнаруживает, что её жертва уже мертва. Через секунды она понимает, что это ловушка.
Началось все с создания персонажа, потом уже под его стиль и вайб задалось определенное настроение для сюжета,стиля и сценария. Была создана примерная раскадровка , написаный примерный сценарий .
После были созданы кадры персонажа со всех ракурсов в T позе в nano banana 2 , потом эти картинки закидывались в hunyuan3D для генерации 3д модели персонажа. На 3д модели сделал риг для поз . Так же для пару кадров сделал тоже самое с машиной . Потом это все экспортировалось в ue5
Сырые шоты создавались на базе Unreal Engine 5 , были найдены соответствующие локации и ассеты для сцен , были постановки камер , поз персонажа и предметов . Без освещения в режиме unlit .
После создания всех сырых шотов , отправляюсь в nano banana 2 (на агрегаторе Freepik , подписка 35$/месяц , премиум+, бесконечное количество генераций изображений на любой модели и бесконечная генерация видео на парочку моделей в качестве до 720p) .
В генерациях задаю определенные промты для улучшения картинки и стиля до уровня ue5 , создаю и сохраняю для последующих шотов стиль , атмосферу, освещение и вообщем всю целостность картинки . В помощь для создание масок или корректировки освещения в шотах , использовал Ae и Ps .
Закончив с шотами перешел к генерации видео в kling 2.5/3.0.
Делалось все по большей части с одного шота , но парочку кадров приходилось делать двумя.
Делая анимированные кадры , паралельно сразу их вставлял в монтажную программу Aе(after effects) и начинал нарезать, монтировать и подставлять их под музыку , так же при необходимости накидывал разные эффекты . Больше всего эффектов в кадре с монитором , на котором я сделал эффект камеры наблюдения .
Музыка: ImDayLight - I Think That You Should
С сайта Artlist.io .
Vfx взрыва с того же сайта .
Остальные пару звуков с zvukogram.com
@cgevent
Нейрозловещая долина 3
Продолжаем следить за экспериментами Матарави и эволюцией нейрорендеринга.
Начало тут и тут.
Напомню, что на вход подается только playblast из Maya. Никих контролНетов по глубине, нормалям и пр.
Шейдинг и текстуринг для нейрорендера - это, похоже, просто референсы типа "возьми текстурки вот с этих картинок".
Аниматоры могут поискать блох в искажении лицевой анимации в процессе нейрорендера. Блохи есть, но не такие как были с медведем. Автор пишет, что поборол сильно заблюренные кадры.
Интересно, что энтузиасты в одно лицо создают вот такие пайплайны. При этом Автодеск делает вид, что это не их дело.
@cgevent
#Нейропрожарка
Расследование зашло в тупик
Автор: Артём Макаров
Жанр: хоррор, триллер, анимация
Моя цель: Я постарался сделать детский триллер/хоррор с легким юмором и знакомыми персонажами.
Задача: Подготовка анимационного ролика для конкурса Союзмультфильма
Требования к ролику:
- от 30 до 60 секунд
- минимум full hd (16:9 или 9:16)
- использование разрешенных персонажей Союзмультфильма (не все персонажи разрешены), либо вымышленных
- соблюдение авторского законодательства
- обязательное использование цифр 9 и 0 в сюжете (к юбилею студии)
- готовность предоставить по запросу все рабочие материалы
На ролик давалось очень много времени. Конкурс стартовал 4 месяца назад, но я приступил к работе очень поздно.
В итоге работу делал в последние несколько дней до срока, а 70% всей работы вообще сделана в последний день.
⚒️Инструменты: Nano banana 2, Seedream 4.5 и 5.0, Seedance 2.0, Suno, Elevenlabs, Claude
📕Сценарий
Сюжет и диалоги придумал сам, но для удобства надиктовал всё Клоду, который мне выдал структурированный сценарий.
Сюжеты, которые с нуля придумывают LLMки максимально ущербные и беззубые.
Поэтому без кожаных пока никак.
🖼Изображения
Загрузил в NB2 референсы советских Пяточка и Винни, а также домика кролика.
Не хотел юзать пиксар-стиль, поэтому максимально старался приблизить к реализму.
Со светом лучше всего работает сидримский, причем 4.5 как-будто получше, чем 5.0
Сложнее всего крутить локации, чтобы показать персонажей с разных сторон, но NB2 с этим с N-ного раза справляется.
Ещё одна проблема - если одну и ту же картинку дорабатывать в несколько итераций, то картинка шакалится, поэтому приходилось писать длинные промпты и создавать картинки каждый раз с нуля
📹Видеогенерации
Seedance я купил за 3 дня до дедлайна и то вечером, поэтому юзал уже в последние 2 дня.
Модель классная, но если генерить не просто тесты, а что-то осмысленное, то всё равно нужно подходить с головой.
Главная претензия - русская речь как польско-болгарско-английская получается.
Приходится писать транслитом и потом переозвучивать.
🔈Звук
Вот тут беда.
SFX частично взят из генераций, частично сгенерирован в 11лабс.
Озвучка персов - диктофон на телефоне, потом очистка в elevenlabs voice isolator и потом voice changer на созданные голоса.
Винни норм получился, а пятачок говорил исключительно с акцентом, поэтому в некоторых моментах он говорит криво.
Музыка - suno
🎞Монтаж
Геморрой номер два.
У меня на пк видюха склеила ласты на днях, поэтому монтировал в мобильном capcut.
Очень неудобно
⏰Затраченное время:
Совокупно часов ~20
Изображения - 8 часов
Видео - 8 часов
Звук - 3 часа
Монтаж - 3 часа
В целом работой доволен, но ругаю себя за поздний старт.
💸*Затраты:
Higgsfield - 50$
Seedance - 50$
Suno - 10$
Elevenlabs - 11$
Claude - 20$
*Работал со стандартно закупаемыми подписками, поэтому вычленить стоимость конкретного ролика сложно.
@cgevent
Попробовал Ernie Image 8B
1. Ну такое.
2. Нет редактирования
3. Нет image2image
4. Пережигает цвета и контраст
5. Если включить улучшатор промпта, то объекты на картинке начинают жить своей жизнью (перебарщивает с креативностью). Смотрите как Белку развернуло (один и тот же сид).
6. В NSFW умеет примерно также как и все опенсорсы из коробки. Немного знает про сиськи и на этом все.
7. Кожа - пластик.
Пока расходимсо.
Пробовал тут. Но там только модель Турбо. Логин гуглом. Есть поддержка Комфи.
@cgevent
Принес вам пару видеопереодеваторов.
Один старый: https://github.com/Zheng-Chong/CatV2TON
А второй совсем свежий, побивающий Cat2VTON: https://hyunsoocha.github.io/vanast/
У него правда еще код не положили куда надо, но обещают.
Интересно, как Банана, Qwen Edit и Flux Kontext с помощью редактирования изображений по рефам приподубили картиночные переодеваторы.
Интересно, что будет на поляне видеопримерочных?
@cgevent