Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn
Так, а теперь завершаем 2D->3D марафон и складываем все в одну коробочку.
Вчера постил благую весть, о том, что CogVideo 1.5 завезли в Комфи, перебрав все косточки по дороге.
Приводил пример видео генерации с лорой на движение камеры от автора интеграции.
А сегодня смышленые парни уже берут такие генерации кормят их в postshot и получают метаверсик этого сгенеренного мира. Пример нечищеный, как есть.
И да, это 3dgs - гауссианы, полученные из postshot.
Кто не знает про postshot - глядите сюда https://www.jawset.com/ (надо немного знать 3Д).
А я проматываю на пару лет вперед и вижу то самое королевство кривых зеркал (может и прямых, кстати).
Вы силой мысли(или дрожащим голосом) генерите любую влажную картинку из ваших фантазий, а потом просто заныриваете в нее. Ибо мир уже готов, гауссианы ждут вас в свои объятия. Хотя через пару лет это уже будут наверное нано-латентные-пиксели, учитывающие вашу биохимию.
А если отставить нейродедовский юмор, то Midjourney как раз что-то лопотали про это на своих Open Hours. Писал об этом тут.
Ох, куда катится мир... в какие картинки.
@cgevent
Ну и из мира голосовых интерфейсов ElevenLabs надоело быть просто Text-to-Speech, они расширяются и теперь дают возможность весь пайплайн агента голосового у себя собрать.
Можно выбрать основной язык агента, первое сообщение и системный промпт, выбрать LLM (Gemini, GPT или Claude или свою собственную), температуру ответов и лимит использования токенов. Загрузить базу знаний, например файл, URL или текст. SDK ElevenLabs совместим с Python, JavaScript, React и Swift. Компания также предлагает WebSocket API.
Из фирменных штук можно также выбирать голос, задержку, стабильность голоса, критерии аутентификации и максимальную продолжительность разговора с ИИ-агентом. Компании также могут задавать критерии для сбора определенных данных - например, имя и электронную почту клиентов, разговаривающих с агентом, – а также критерии оценки на естественном языке для определения успеха или неудачи звонка.
Вот как работает (видос)
https://youtu.be/TFIudjLTrQM
Подробнее в Техкранч, потому что ребята у себя не постарались описать это все нормально - https://techcrunch.com/2024/11/18/elevenlabs-now-offers-ability-to-build-conversational-ai-agents/
А наш любимый генератор музики релизнул таки версию 4.
И как же круто, что мои всевездесущие подписчики уже разобрали его по косточкам.
Цитирую:
Пока по Суно 4 такие впечатления:
Вокал - огонь
Железо в ударных все еще песочит, хоть и меньше...
Акустическая гитара и перегруженная гитара все еще песочат
Электронные стили звучат почти безупречно
Ремастер хорошо работает только с треками сгенернными в Суно же, внешние треки не удалось зармастерить нормально... видимо он какие то данные еще хранит по сгенеренным трекам.
Пока только для платных бояр.
Завтра пришлю вам пару приятных треков.
А ещё родился новый музыкальный термин "депесочер".
@cgevent
⚡️Всероссийский Хакатон ФИЦ 2024
🚀Попробуйте себя в одном из предложенных кейсов:
1. Семантический делитель текстов: Разработать алгоритм, который сможет обеспечить точное разделение текста на блоки в рамках произвольно заданных ограничений размера блока.
2. Контекстный перевод названий научных работ: Разработать и реализовать переводчик, который будет переводить названия научных работ с русского на английский.
3. Прогнозирование бизнес драйверов: Разработать решение для задачи прогнозирования временных рядов бизнес-драйверов и произвести прогноз на следующий календарный месяц.
4. Система контроля и управления доступом: Разработка системы контроля и управления доступом в реальном времени. Система будет включать API для управления сотрудниками, точками доступа и интеграцию с системой видеонаблюдения.
И другие 16 кейсов смотрите на сайте: https://фиц2024.рф/hackathon
Хакатон пройдет в 2 этапа: Отборочный этап в Онлайн, Финал в Офлайн.
🏆Призовой фонд: 6 000 000 руб.
🔥Дедлайн регистрации: 26 ноября, 23:59
📅Даты отборочного этапа: 29 ноября - 2 декабря
🦾Даты финала: 3 - 4 декабря
Зарегистрируйтесь для участия в хакатоне: https://фиц2024.рф/hackathon
Я тут подсобрал все, что нарендерил с помощью CogVideo V1.5 и сделал колбасу.
Там первая минута - это в основном image2video, потом text2video. Осторожно, в конце малость nsfw, смотрите на свой страх и риск.
Нет, это не Comfy, это ручками, в основном через SAT версию CogVideo-5B-1.5
Памяти - 40гиг врам, просчет 15 минут для 5 секунд на A100.
@cgevent
Magic Quill: A Free AI Image Editor
Еще одна попытка нащупать нишу в редактировании нейрокартинок.
Управляемость - это бич всех генераторов. Инпайнтинг - в чистом виде сложен для нового нормального.
Значит надо его упростить до уровня обычного приложения.
Чем и занимается Magic Quill
И это редкий случай, когда есть и код, и демо, и весь фарш.
Хорошая работа.
https://magicquill.art/demo/
@cgevent
Кидаешь в chatGPT просто кусок кода из репозитария CogVideo:
def generate_video_interface(
prompt: str,
model_path: str = "THUDM/CogVideoX1.5-5B",
lora_path: str = None,
lora_rank: int = 128,
num_frames: int = 81,
width: int = 1360,
height: int = 768,
image_or_video_path: str = "",
num_inference_steps: int = 50,
guidance_scale: float = 6.0,
num_videos_per_prompt: int = 1,
dtype: str = "bfloat16",
generate_type: str = "t2v",
seed: int = 42,
fps: int = 16,
output_path: str = "./output.mp4",
):
Русскоязычный умелец научился создавать 🔞 моделей через нейросети и зарабатывать на них. Об этом он рассказывает в своем авторском Телеграм-блоге >>
Так же он дает бесплатно инструкцию, как начать.
Переходите 👉/channel/+-TH3MQKurcs1YWQx
#промо
Так, потерпите, меня пробило на грибы и Runway.
Я щас доберусь до видеогенератров, но вот вам еще один очень классный пример, похожий на предыдущий о том, как вытаскивать 3Д мир из любой картинки, уже не имея никакой болванки в блендоре.
Берете в Runway Image2Video.
Просто используете новые управлялки из Runway, чтобы сделать видео облетов "внутри" картинки.
Используете эти видео чтобы собрать трехмерную сцену из Гауссианов в Unity Gaussian BOX Splatting.
А дальше вы уже в 3Д и просто светите сцену с помощью Custom URP Lit 6 ways Shader.
Еще раз - на входе картинка (хоть Флюкс, хоть древний Мидж) - на выходе вы бродите в Юнити по этой картинке внутри!
Шел 2024 год. Люди массово переселялись в картинки.
Сорс.
@cgevent
Уточнение к предыдущему посту, не 19, а 20 секунд. И это относится к режиму video2video.
Заодно поглядите, как можно использовать https://www.skyglass.com/ для персонажа и фона, а затем навалить gen-3 video2video сверху. Голос, кастати, от elevenlabs.
Как-то я запереживал за игры и авторское кино.
@cgevent
А вот еще одна примерочная, только не в виде китайских работ, демо на хф или репозитариев на гитхабе со смешными картинками.
А в виде готового допиленного продукта.
На Superlook.ai можно без обучения одевать кого угодно во что угодно (сохраняя крой, материал, цвет, рисунок и фактуру) по одной фотографии. Есть Fitting Room, и он реально работает. Попробовал не на фотографиях, а на картинах, тоже нормально работает. Процесс выглядит так: загружаете фото одеваемого и фото шмота, правите маску (если дефолтная не нравится, крутая фича) и жмакаете Generate.
API для примерочной (для онлайн-стора), как я понял, есть, но под запрос.
@cgevent
Лол, чувак хотел провести параллельное сравнение своей процедурной анимации с анимациями, созданными вручную на некоторых 3D-моделях животных из интернета.
Но что-то пошло не так. На самом деле так даже лучше
Ссылка на пост автора.
Коль скоро в канала последнее время длительная истерика по поводу видеогенераторов, держите 20 промптов для управления камерой.
Некоторые замысловатые прямо.
https://x.com/chidzoWTF/status/1857021178965008642
@cgevent
Вот что ждет в Т-Банке ML-разработчиков, кроме ДМС, крутых офисов и других плюшек:
✔️Актуальный стек. Здесь следят за трендами и быстро внедряют новое.
✔️Улучшения может предложить каждый. Здесь знают, как устроен продукт, и влияют на его развитие.
✔️Прозрачная система роста. Вы всегда будете знать, какие навыки нужно подтянуть и как получить повышение.
✔️Вы окажетесь среди профессионалов, у которых можно многому научиться. А если захотите — можете стать ментором для младших коллег.
Больше о вакансиях ML-разработчиков — здесь.
Устраивайтесь в Т-Банк на позицию ML-разработчика до 23 декабря 2024 года и получайте приветственный бонус в размере одного оклада.
"я подгорел капитально. ЗА ДВА РАЗА VIDU понял полностью что я от него хотел".
Вынесу из коментов такое вот мнение.
Нам же интересно мнение тех, кто делает что-то руками, а не только твитторные видосы.
Привожу мнение Влада без купюр. И немного дискуссий - очень круто наблюдать, как разные инструменты для разных задач находят своих разных пользователей.
Я только что тестил весь день минимакс, клинг, ранвей и люму. И решил закинуть 10 баксов на Виду 1.5, подумал, хрен с ним.
ЭТО ЕДИНСТВЕННЫЙ СЕРВИС который смог выполнить задачу, которую я ему поставил. Я в шоке, за что я отдал деньги всем остальным. Типа, это мусорка видеогенераторов не улучшилась от начала лета вообще блядь, а вот эти ребята смогли ПОНЯТЬ промт, а потом его реализовать на реально качественном уровне (4 секунды , 1080р)
Крайне жаль, что у них нельзя продлить видео, но я теперь за ними плотно слежу
(люма с горем пополам переходы между кадрами вытягивает, остальные умеют генерить только шаблонные лица, стандартные кадры и никак вообще не могут потянуть рабочие задачи, хотя, мне кажется , детского уровня)
Моя задача сегодня была: img2vid
Промт: The camera starts with a medium close-up on a 35mm lens, centered on a cyber-samurai sitting at a desk in a studio. As the camera slowly zooms out, the outer digital world around the studio unfolds, revealing dynamic streams of code and low, flickering holographic symbols and icons floating in space. The atmosphere is a mix of mystic and digitally holographic, with a low, ambient glow casting flickering shadows across the scene. The style emphasizes a digitally limitless world, blending mysticism with futuristic holographics to illustrate endless possibilities.
получился консистентный отлёт камеры с консистентной студией и персонажем (персонаж вообще супер целым остался) с появлением голограмм , циферок и иконок в воздухе пока камера отъезжает
Короче, а теперь я пошёл прикалываться, а не решать конкретную задачу к этим видеогенераторам — работает как золото.
Хочешь видео с хренового джипега телеграмма жены? Держи, охренное видео
Хочешь с циферок на чёрном фоне сделаю моушн дизайн жирный по параллаксу? Держи
Хочешь дыму въебу? (потому что за персонажем которого я кидаю немножко дыма есть) — держи, дыма у меня мноооого
А с ранвей работается плохо. Люма больше радует даже, а на Vidu, походу, я за 10 баксов получу результата больше чем за всех остальных (блять, а там где-то 160 было потрачено)
Но vidu будет уже конкретнее к ночи понятно. Пока что он и ротоскопит, и накидывает графики, и камерой умеет ездить. Но, правда, толк из него есть только в 1080р
@cgevent
Теперь все узнают, куда он смотрел.
DimensionX, конечно, огонь. Причем первые такие работы я видел года три-четыре назад, но они предсказывали обратную сторону одного объекта в сцене.
Сейчас нейросеточки пытаются распутать весь наш мир по ОДНОЙ картиночке.
За последние два дня у меня минимарафон в ленте на эту тему. Но чтобы нормальные читатели не увяли, решил сделать что-то более мемное, а то все когвидео да когвидео..
Также попытался прогнать результат через facefusion - все-таки DimensionX делает довольно черновое качество.
Интересно, что если принудительно попросить facefusion улучшить ВСЕ лица, то магия заблюренной leady in red теряется. Кинул вам разных вариантов, первый - это без улучшайзинга.
Ну и для гиков и не только - вот демоспейс DimensionX - можете сами попробовать сделать альтернативную версию реальности.
https://huggingface.co/spaces/fffiloni/DimensionX
@cgevent
А между тем, наконец-то вышла поддержка той самой версии CogVideo-5B-1.5 для Comfy, которую я тут приподспамливал уже неделю.
Код полностью пересобран, старые воркфлоу не работают, зато уже вшита поддержка костылей от Алибабы в виде CogVideoX-Fun.
Ну и самое главное, в image2video можно задавать не только первый, но и Финальный кадр!
Установка заставит вас поседеть (хотя Комфи юзеры давно уже седые и лысые). Но оно того стоит.
Много умных и малопонятных слов вот тут, в разделе Update 8.
Возможно вы даже пролезете в 12гигов врам.
https://github.com/kijai/ComfyUI-CogVideoXWrapper
GSOPs: обновлённый до V2 плагин для работы со сплатами в Houdini.
С его помощью можно импортировать, рендерить, редактировать, и экспортировать сплаты, или генерить синтетические тренировочные данные.
GSOPs эффективен в изолировании объектов, их цветокоррекции и работе с освещением, удалении шумов и артефактов, изменении мешей и анимации, а также общей сборке сцен.
Гитхаб
Зря я наехал на опенсорс тут.
CogVideo распутал картинку тоже легко.
@cgevent
К вопросу о понимании мира видеогенераторами.
Слева странная фотка с реддита, а видео - это то, как Kling Pro пережевал эту фотку со склеенным пространством и распутал его! Сделав вполне адекватное видео и "поняв", кто есть кто.
Это очень круто.
Боюсь опенсорсным видеогенераторам с их куцыми датасетами еще очень далеко до такого понимания мира.
Сорс
@cgevent
BlockadeLabs, о которых я много писал осваивают новые территории.
На мой вкус, они пытаются зайти на поляну, где уже царствует Krea.ai с одной стороны, и Адобченко с его инструментами с другой стороны.
Я пытаюсь нащупать ценность их нового продукта, подскажите мне.
https://www.blendbox.ai/
@cgevent
Локальный CogVideo-5B V1.5 ImageToVideo
Повешу до утра, пока никто не видит.
Но он хорош.
https://github.com/THUDM/CogVideo
🔥🔥 News: 2024/11/15: We released the CogVideoX1.5 model in the diffusers version. Only minor parameter adjustments are needed to continue using previous code.
@cgevent
Наведём немного порядка с CogVideoX V1.5
Основная путаница тут, в том что сначала вышла версия на библиотеках SAT, а код на основе Diffusers был выпущен только в пятницу. И то, слегка косой, надо было ставить его из другой ветки. Именно он, позволяет упихивать модель в память и сделать, наконец, поддержку для ComfyUI, которой официально ПОКА НЕТ, на момент написания этого поста, есть только тестовый бранч.
Я погонял код на основе Diffusers (из командной строки, вам надо скачать веса в safetensors отсюда https://huggingface.co/THUDM/CogVideoX1.5-5B и не забыть про -I2V).
Действительно, если оставить по умолчанию как у них в примерах:
#pipe.to("cuda")
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()
То генерация действительно упихивается в 8.6 гигабайт VRAM, но идет БЕСКОНЕЧНО долго. Мне нужны доп тесты, но пока это 80 минут на A100.
Если выключить офлоад, слайсинг и тайлинг, и отправить на куду, то система оживает и отжирает свои 37 гиг и бодро справляется за 14 минут.
Kijai вот-вот доделает официальный https://github.com/kijai/ComfyUI-CogVideoXWrapper
Ждите Update 8 (не 7) и тогда можно будет пробовать в Комфи.
Вот вам пока видосов на основе этих тестов.
@cgevent
Создаем генеративные 3Д-миры.
А теперь смотрите, какой неожиданный выход можно сделать из этих новых 20-секундных video2video on Runway. Помните я тут писал, что теперь можно каждому дать свой метаверсик, просто пропустив все, что он видит в умных очках через нейрорендер типа vieo2video.
Так вот, можно этот метаверсик еще и восстановить в 3Д.
Что здесь происходит?
Берется болванка головы в Блендоре и делается облет камерой на 20 секунд.
Этот черновой рендер-облет кормится в video2video от Runway
Получается Девушка на стиле.
Дальше 20 сек растягиваются на 40 сек (в данном случает с помощью RunwayML's super slow-motion interpolation)
И это просто идёт на вход в Polycam to generate the 3D model.
Нейрофотограмметрия, кусающая свой хвост.
Надо сказать, что изначально LumaLabs занималась примерно тем же, перед тем как заскочить в поезд видеогенераторов.
Ну и я когда смотрю на все эти видеогенерации, то постоянно думаю, как как оттуда достать все эти их неявные трехмерные представления?
А вот так примерно...
@cgevent
Странно, Runway AI без всякого шиллинга в твитторах только что тихонько выпустил 19 секундные генерации!
Без продолжалок, а целиком.
Вот ам Skull Island. Сделано с помощью Blender 3D и Gen-3 Turbo video to video.
С новым контролем камеры выглядит все интереснее.
Автор тут
@cgevent
Немного новых Hedra и Suno.
Suno V4 прям радует. Вокал хорошо почистили. Звучит достаточно изолированно.
А вот Хедра меня не радует. Они бросились обвешивать продукт аудио и голосовыми фичами, а вот главная фича - генерить говорящее лицо остается примерно на уровне бета-версии.
Нет, они, конечно, добавили фичу типа "теперь можно генерить аж 12 минут", но для говорящих лиц особого понимания мира не требуется, они же не бургеры кусают, поэтому это несложно.
А картинка до сих пор мыльная, я каждый раз гоню в facefusion для резкости.
При этом диапазон крупности лица - тоже очень чувствительный.
Ну и я, конечно, дал не текст, а песню из Суно, и это конечно, провал.
Как дикторов наверное еще можно рассматривать.
Как певцов - вряд ли.
В общем, послушайте новое Суно...
P/S/ Послушал себя и понял, что зажрался. На входе просто аудиотрек, на выходе и мимика, и артикуляция и движения головой. Ну да, не попадают в мышечные усилия вокалиста. Но елы палы - это работает!
@cgevent
Ну что, годный фанк? Сходили бы на концерт?
Ябсходил.
Ну потому что мне дико нравится фанк и все эти дудки и синкопы.
И мне нравится песня, которая звучит.
И я когда смотрю на этот рекламный ролик, я не перебираю харчами - типа тут песочек в голосе, а тут жестяной призвук затакте.
Мне это все отчаянно нравится.
А между тем, я просто взял сэмпл из нового Suno V4, который вот-вот выйдет в релиз, и приклеил к нему первое попавшееся фанк-видео из интернетика.
И не слышу песочка и жести, ибо заглатываю контент целиком.
Ну и конечно вы тут сейчас, ааа, это Суно, ну там вокал неидеальный, и дудки ненатуральные.
А смышленые ребята - блин, классная фишка тут, перебивки огонь, надо стырить, мелодию тоже можно притырить, если поменять окончания, и вот это вот "а-р-р-р-а" тоже можно использовать.
Вам Суно насыпает бесплатного материала для переработки на 1000 лет вперед. Налетай, кому надоело искать песок во рту.
P.S. Кстати, Udio V2 тоже выйдет до конца года.
@cgevent
Лама - это не только ценный мешь.
Это ещё и понимание меша как текстового описания.
Действительно: obj или usd - это же текст
Интерн из нвидии соорудил интересный проект из LLama и 3Д.
Там и генерация и "понимание" 3д и описание.
"Новый подход, который представляет координаты вершин и определения граней 3D-сетки в виде обычного текста, что позволяет напрямую интегрировать их с LLM без расширения словарного запаса."
Реп на гитхабе есть, но код ещё не залит.
https://research.nvidia.com/labs/toronto-ai/LLaMA-Mesh/
@cgevent
Nvidia Research расписали довольно интересную статью про проект Edify 3D.
Если коротко, то это генератор 3D-моделей на диффузии и трансформерах, но отличает его от подобных, Meshy и Tripo, в том, что Nvidia собрала довольно много подходов в одном инструменте, и, если они доведут его до релиза и будут поддерживать, это будет реально полезная продакшен-тулза. Но кажется, Nvidia не софтверная компания.
Как и конкуренты, Edify генерирует необходимые карты PBR, умеет создавать представления объектов с разных ракурсов, в дальнейшем используя их же для текстур, а отсутствующие части между ракурсами аппроксимирует. Тут важно сравнивать, как алгоритм работает с задними частями модели, потому что в imgTo3D это обычно является слабым местом. В textTo3D с этим должно быть проще.
Дальше про сетку. В презентации ретопология, по всей видимости, работает по схожим алгоритмам с Houdini и Zbrush, и справляется в целом неплохо для танцующих анимированных болванчиков, в продакшен такое не потащишь, к тому же для статик-мешей гораздо лучше использовать триангулированную сетку, особенно если это не хард-сёрфейс. Надеюсь, они сделают кнопку переключения this, quads.
Самое крутое — это создание сцен из набора ассетов, что-то подобное пробовал сделать Andrey Maximov с Promethean AI, но без генерации ассетов. Надеюсь, у Nvidia получится.
Проект
@cgit_vines
ChatGPT стал доступен на Windows для всех (качать тут), но это не единственная новость.
На Mac теперь приложение умеет получать доступ к текстовому контенту других приложений (в основном, ориентированных на код). Код, который вы выделяете (или просто открытые файлы) помещаются в контекст модели, и по ним можно задавать вопросы/просить что-то переписать.
Правда, фича не будет полезна тем, кто уже пользуется копайлотами или Cursor (а такие вообще остались, кто и использует ChatGPT, и программирует без копайлота/Cursor? акак?)