cgevent | Unsorted

Telegram-канал cgevent - Метаверсище и ИИще

37801

Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn

Subscribe to a channel

Метаверсище и ИИще

Anthropic показали универсальный способ общения LLM с внешним миром

MCP (Model Context Protocol) - открытый протокол, позволяющий любой LLM получать доступ к инструментам и информации. В качестве демо Claude попросили создать веб-страницу, залить её на GitHub, создать issue и PR, что он успешно и сделал (показано на видео).

Вдохновлялись LSP - протоколом, который позволил написать ядро интеграции языка с IDE один раз и использовать её повсюду, чем изменил рынок редакторов кода, дав маленьким проектам конкурировать с большими IDE.

MCP работает по простой клиент-серверной архитектуре - приложения на основе LLM (клиенты) могут запрашивать информацию у серверов, а также пользоваться предоставленными серверами инструментами. Ещё серверы могут задавать ряд промптов. Сделать сервер довольно просто - показанный в видео сервер для GitHub написали меньше чем за час.

Клиент пока что только один - Claude Desktop, а серверы нужно разворачивать своими руками локально. Потом обещают поддержку сторонних серверов - то есть в каком-то Notion будет кнопка "привязать Claude/ChatGPT/Gemini", через которую LLM будет даваться доступ к вашим данным.

Выглядит это куда интереснее, чем то как пытаются сделать интеграции OpenAI и Google в ChatGPT и Gemini. Во-первых, MCP более гибкий - авторы приложений могут встраивать туда MCP-серверы. Во-вторых, открытость протокола позволит более маленьким провайдерам, вроде Mistral или DeepSeek, использовать куда больше тулов, чем если бы они пытались сделать это сами. Ну и, конечно же, это приближает эру агентов.

Взлетит или не взлетит - пока ещё непонятно, но выглядит многообещающе. В качестве примеров для разработчиков Anthropic сделали 9 MCP-серверов - Slack, Google Maps, GitHub и ещё несколько. Несколько компаний уже принялись делать и сторонних клиентов - к примеру, авторы Zed и Codeium.

Примеры интеграций
Туториал по протоколу

@ai_newz

Читать полностью…

Метаверсище и ИИще

Похоже Minimax превращается в этакий генеративный Хаб.

Мы привыкли, что это прежде всего очень крутой видео-генератор.
Но в закромах у этого стартапа, во-первых, очень много денег, а во-вторых, есть очень много параллельных решений, о которых я лично и не догадывался.
Сейчас они все это упаковали в единый сайт, и, самое главное, сделали API ко всему хозяйству.
Кроме собственно Минимакса у них, оказывается есть:

Генератор Музыки Music-01!
https://www.minimaxi.com/en/news/music-01
Не Суно, конечно, но попытка защитана.

TTS Speech-01 - генератор голоса из текста:
https://www.minimaxi.com/en/news/speech-01
С эмоциональным, как пишут, интеллектом.
Speech-01 can handle up to 10 million characters in a single output!

Своя LLM - ABAB. Версия 7 в бете, а в 6.5 был триллион параметров и 200к контекст.
https://www.minimaxi.com/en/news/abab7-preview-release
https://www.minimaxi.com/en/news/abab65-series

Более того, у них уже есть упакованные продукты:

свой chatGPT:
https://www.hailuo.ai/
Я проверил, прекрасно пишет промпты для картинок.
https://www.hailuo.ai/?type=chat&chatID=317440964656717828

Внимание, у них свой ИИ-дэйтинг!
https://www.talkie-ai.com/
Looking for romance? (тут многие стартапы занервничали)

А еще у них есть Talkie Advanced Creation Center платформа для создания ИИ-ботов.
"Здесь вы можете не только управлять и создавать свои собственные интеллектуальные Talkies, но и выбирать различные модели ответов, настраивать и тестировать эффекты разговора ваших интеллектуальных агентов в реальном времени. В то же время, центр создания также предоставит различные плагины, такие как рисование, пение и т. д., чтобы поддержать более богатое и разнообразное создание интеллектуальных персонажей."

В общем Minimax - это не только ценный Video Gen, но и целый монстр, со своим выводком продуктов.
Для китайского рынка в первую очередь.

Весь фарш тут:

https://www.minimaxi.com/en

@cgevent

Читать полностью…

Метаверсище и ИИще

Самурай! Это просто плазма.

Пока все молятся на SAM2 от Метачки, опенсорсныe ребята взяли код и запили SAMURAI.

Для тех, кто в теме - поглядите видео и прикиньте количество времени на ротоскоп.
Причем он держит перекрытия другими людьми, дым, резкие движения.

Мне в субботу лень переводить непереводимые термины, просто скину все фичи сюда, а вы поглядите в репозиторий на гитхабе.

SAMURAI vs. MetaAI's SAM 2!

Traditional visual object tracking struggles in crowded, fast-moving, or self-occluded scenes, as does SAM2.

Meet SAMURAI: a completely open-source adaptation of the Segment Anything Model for zero-shot visual tracking!

Here's why it's a game-changer:

🚫 No need for retraining or finetuning
🎯 Boosts success rate and precision
🤖 Motion-aware memory selection
💪 Zero-shot performance on diverse datasets

But that's not all:

🔬 Refines mask selection
🔮 Predicts object motion effectively
📈 Gains: 7.1% AUC on LaSOT, 3.5% AO on GOT-10k
🏆 Competes with fully supervised methods without extra training

https://github.com/yangchris11/samurai

@cgevent

Читать полностью…

Метаверсище и ИИще

Video Outpainting в Runway Gen-3 Alpha Turbo.

Вот это уже интересно по многим причинам.

Переделать лежачее видео в стоячее.

Отъехать камерой назад и вернуться обратно в кадр.

Сделать несколько outpaint отъездов и получить суперзум обратно.

Сделать несколько outpaint отъездов и поелозить панорамой по кадру.

Перекадрироваться.

Выпить за маттэ пейнтеров.

Новые композиции кадра с разными промптами на расширение кадра.

Самое интересное - как я понял при дорисовке кадра снаружи(outpaint) можно использовать не только промпт, но и reference image(s?)!!

Я подумал про то, насколько далеко до inpainting (принцип тот же) и в воздухе отчётливо запахло нейрокомпозом.

А соединив это с успехами Segment Anything мы можем получить этакий Omnigen, но только для видео.

И вот уже сидят композеры в своих темных комнатах и орут в мониторы "замени фон на лес, а персонажу перерисуй коня на верблюда и пол поменяй по дороге, на противоположный".

И все это для видео.

Куда катится мир?

@cgevent

Читать полностью…

Метаверсище и ИИще

Значит так, у нас ЕЩЕ ОДИН ВИДЕОГЕНЕРАТОР, опенсорсный притом.
LTXV is ONLY a 2-billion-parameter DiT-based video generation model capable of generating high-quality videos in real-time. It produces 24 FPS videos at a 768x512 resolution faster than they can be watched.

Cходу нативная поддержка Comfy, text2videi, image2video и вроде как video2video.

Может притормозим?

Весь фарш тут:
https://blog.comfy.org/ltxv-day-1-comfyui/

@cgevent

Читать полностью…

Метаверсище и ИИще

И еще немного утечек от OpenAI.

Есть слух, что через неделю-другую будут новости про НовоСору.

А пока посмотрите новое видео из текущей Соры.
И что тут бросается в глаза?
Лицо.
По сравнению с последними видосами от Соры, где лица все ухудшались и ухудшались (точнее задвигались на дальние планы, где генеративные лица всегда выглядят плохо ибо теряют отметку "лица"), здесь просто огонь.
И тут явно порылся image2Video, которым Сора никогда особо не флексила.
Текстуры, проработка лица, консистентность - тут все явно на костылях, выходящих за рамки простого text2video (моя гипотеза).

В общем подбросим дофамин ожиданиями скорого релиза или хотя бы демо новой Соры.

А пока у них тихий апдейт качества ответов chatGPT-4o (да, 4о, а не о1).

Цитирую: "Творческие способности модели к написанию текстов повысились - они стали более естественными, увлекательными и адаптированными для повышения релевантности и читабельности. Она также лучше работает с загруженными файлами, обеспечивая более глубокое понимание и более тщательные ответы."
https://x.com/OpenAI/status/1859296125947347164

@cgevent

Читать полностью…

Метаверсище и ИИще

🤖 Золотая коллекция авторских каналов про нейросети, сохраняйте!

Собрал для вас редкие и полезные каналы про нейронки:

НероProfit — авторский канал с проверенными инструментами для бизнеса, учебы и работы. Конкретика, кейсы и пошаговые инструкции – все, чтобы вы смогли использовать ИИ эффективно уже сегодня.

Tips AI | IT & AIпишет про интересные сервисы AI и IT технологий! Всегда актуальное, проверенное и немного с юмором.

Бурый — коллекционер нейросетей, тестит всё на себе и делится лучшими бесплатными нейронками.

Силиконовый Мешок — Авторский канал нейроиспытателя Артема Субботина про искусственный интеллект приносящий прибыль.

Сергей Булаев AI 🤖 - создание полезного контента и продуктов с помощью ИИ. Открываем эру миллиардных компаний из трёх человек.

Читать полностью…

Метаверсище и ИИще

1000+ практиков нейросетей соберутся вместе 7 декабря в Санкт-Петербурге!

Конференция «Питерский промпт» — мероприятие про нейросети от ребят, которые делают ивенты в сферах маркетинга, мероприятий и онлайн-образования более 10 лет. Цена более чем лояльная — начинается от 3 900 рублей.

Отличная возможность познакомиться вживую с теми, кто активно работает руками, пишет промпты и внедряет нейросети в бизнес, аналитику, маркетинг и продажи.

Среди тем докладов:

— создание торгового робота для работы с российскими акциями на Московской бирже
— как написать книгу с помощью ИИ
— автоматизация работы с YouTube, RUTUBE, VK Видео с помощью AI
— как нейросети помогают управлять бизнесом и развивать самого себя
— нейросети в продажах: коммуникация с клиентами

А ещё будут доклады о том, как использовать нейросети в недвижимости, образовании, онбординге и найме сотрудников и даже в юриспруденции.

Участвовать можно как офлайн, так и онлайн. Все подробности здесь — https://spbprompt.ru/

Читать полностью…

Метаверсище и ИИще

Тестируем SANA локально.

Первое - она реально быстрая. Причем ей наплевать на разрешение. Она молотит 2048х2048 почти с такой же скоростью что и 1024х1024. Более того, 4096х4096 тоже не сильно отличается по скорости.
Для тестирования промптов, разрешений, параметров - это просто рай. Ты не ждешь вообще.

Второе - установка. Тут вам придется помучиться. Поддержки Комфи пока нет. В инструкциях у них есть пара ошибок. Один pyhton вместо python чего стоит. Но у них есть градио морда, которую таки можно запустить и тестировать локально.

Третье. Качество. И тут мы быстро усмиряем ожидания и помним, что главное преимущество - скорость, нетребовательность и тренируемость.
Если вкратце:
Промпт понимает лучше чем SDXL, но хуже чем Флюкс или SD3.
Качество - среднее между SDXL и SD15. Трудно сказать однозначно, большой разброс по качеству. Но точно не Флюкс или Идео. До них очень далеко.
Кожа и лица - пластик, но с хорошими деталями в портретах. Глаза и зубы - очень нестабильно.
Из интересного - НЕ любит короткие промпты. Лучше работает с длинными. С короткими прикидывается SD15.
Вот что хорошо - это абстракции, арт, всякоразно концептно. Тут неплохо и скорость убийственная.
Есть стили - но они недоделаны.
Анатомия - надо больше тестов, но по моим ощущениями даже лучше, чем SD3. Но тоже с большой нестабильностью.
NSFW из коробки. Нет. Тем не менее, чуть лучше чем Флюкс или SD3, которые портят все, что видят (не хотят видеть). Но практически неуправляемо.

И тут можно сделать пару диванных выводов.

Очень быстрая модель. Недоученная, но с большим потенциалом на обучение. Ибо не требует конских ресурсов.
Может быть она станет новой SD15 в плане файнтюнов?

Подождите поддержки в Комфи (обещано) и ну тестировать.

Ну или ныряйте сюда: https://github.com/NVlabs/Sana

А пока поделитесь утечками.

@cgevent

Читать полностью…

Метаверсище и ИИще

ComfyUI-CogVideoXWrapper в деле
Повешу на ночь, пока никто не видит.

Нуштош, все работает с полпинка.
Обновил Комфи.
В custom nodes git pull https://github.com/kijai/ComfyUI-CogVideoXWrapper
Взял первый же I2V пример из https://github.com/kijai/ComfyUI-CogVideoXWrapper/tree/main/examples

И все завелось. Причем в любых разрешениях. Даже в вертикальных.

Памяти жрет всего 15гиг. 2 секунды считает 4.5 минуты на A100.

И совет. Поменяйте Scheduler на XPDM, киджай видать забыл. Качество в разы лучше.

@cgevent

Читать полностью…

Метаверсище и ИИще

Так, а теперь завершаем 2D->3D марафон и складываем все в одну коробочку.

Вчера постил благую весть, о том, что CogVideo 1.5 завезли в Комфи, перебрав все косточки по дороге.
Приводил пример видео генерации с лорой на движение камеры от автора интеграции.
А сегодня смышленые парни уже берут такие генерации кормят их в postshot и получают метаверсик этого сгенеренного мира. Пример нечищеный, как есть.

И да, это 3dgs - гауссианы, полученные из postshot.

Кто не знает про postshot - глядите сюда https://www.jawset.com/ (надо немного знать 3Д).

А я проматываю на пару лет вперед и вижу то самое королевство кривых зеркал (может и прямых, кстати).

Вы силой мысли(или дрожащим голосом) генерите любую влажную картинку из ваших фантазий, а потом просто заныриваете в нее. Ибо мир уже готов, гауссианы ждут вас в свои объятия. Хотя через пару лет это уже будут наверное нано-латентные-пиксели, учитывающие вашу биохимию.

А если отставить нейродедовский юмор, то Midjourney как раз что-то лопотали про это на своих Open Hours. Писал об этом тут.

Ох, куда катится мир... в какие картинки.

@cgevent

Читать полностью…

Метаверсище и ИИще

Ну и из мира голосовых интерфейсов ElevenLabs надоело быть просто Text-to-Speech, они расширяются и теперь дают возможность весь пайплайн агента голосового у себя собрать.

Можно выбрать основной язык агента, первое сообщение и системный промпт, выбрать LLM (Gemini, GPT или Claude или свою собственную), температуру ответов и лимит использования токенов. Загрузить базу знаний, например файл, URL или текст. SDK ElevenLabs совместим с Python, JavaScript, React и Swift. Компания также предлагает WebSocket API.

Из фирменных штук можно также выбирать голос, задержку, стабильность голоса, критерии аутентификации и максимальную продолжительность разговора с ИИ-агентом. Компании также могут задавать критерии для сбора определенных данных - например, имя и электронную почту клиентов, разговаривающих с агентом, – а также критерии оценки на естественном языке для определения успеха или неудачи звонка.

Вот как работает (видос)
https://youtu.be/TFIudjLTrQM
Подробнее в Техкранч, потому что ребята у себя не постарались описать это все нормально - https://techcrunch.com/2024/11/18/elevenlabs-now-offers-ability-to-build-conversational-ai-agents/

Читать полностью…

Метаверсище и ИИще

А наш любимый генератор музики релизнул таки версию 4.

И как же круто, что мои всевездесущие подписчики уже разобрали его по косточкам.

Цитирую:

Пока по Суно 4 такие впечатления:

Вокал - огонь
Железо в ударных все еще песочит, хоть и меньше...
Акустическая гитара и перегруженная гитара все еще песочат

Электронные стили звучат почти безупречно

Ремастер хорошо работает только с треками сгенернными в Суно же, внешние треки не удалось зармастерить нормально... видимо он какие то данные еще хранит по сгенеренным трекам
.

Пока только для платных бояр.

Завтра пришлю вам пару приятных треков.

А ещё родился новый музыкальный термин "депесочер".

@cgevent

Читать полностью…

Метаверсище и ИИще

⚡️Всероссийский Хакатон ФИЦ 2024

🚀Попробуйте себя в одном из предложенных кейсов:
1. Семантический делитель текстов: Разработать алгоритм, который сможет обеспечить точное разделение текста на блоки в рамках произвольно заданных ограничений размера блока.

2. Контекстный перевод названий научных работ: Разработать и реализовать переводчик, который будет переводить названия научных работ с русского на английский.

3. Прогнозирование бизнес драйверов: Разработать решение для задачи прогнозирования временных рядов бизнес-драйверов и произвести прогноз на следующий календарный месяц.

4. Система контроля и управления доступом: Разработка системы контроля и управления доступом в реальном времени. Система будет включать API для управления сотрудниками, точками доступа и интеграцию с системой видеонаблюдения.

И другие 16 кейсов смотрите на сайте: https://фиц2024.рф/hackathon

Хакатон пройдет в 2 этапа: Отборочный этап в Онлайн, Финал в Офлайн.

🏆Призовой фонд: 6 000 000 руб.
🔥Дедлайн регистрации: 26 ноября, 23:59
📅Даты отборочного этапа: 29 ноября - 2 декабря
🦾Даты финала: 3 - 4 декабря

Зарегистрируйтесь для участия в хакатоне: https://фиц2024.рф/hackathon

Читать полностью…

Метаверсище и ИИще

Я тут подсобрал все, что нарендерил с помощью CogVideo V1.5 и сделал колбасу.

Там первая минута - это в основном image2video, потом text2video. Осторожно, в конце малость nsfw, смотрите на свой страх и риск.

Нет, это не Comfy, это ручками, в основном через SAT версию CogVideo-5B-1.5

Памяти - 40гиг врам, просчет 15 минут для 5 секунд на A100.

@cgevent

Читать полностью…

Метаверсище и ИИще

В общем нашумевший LTXV видеогенератор, который обещает считать быстрее реалтайма (на H100) явно нуждается в более вдумчивых тестах. Это text2video, если кто-то добился нестатического image2video - кидайте в комментарии.

А то, как в анекдоте про машинистку - я печатаю со скоростью 15 000 знаков в минуту. Правда получается какая-то фигня.

@cgevent

Читать полностью…

Метаверсище и ИИще

Очень классный тред о том почему в очень многих областях Клод уже сильно лучше человека-терапевта. А именно, в области эмоциональной четкости и чуткости.

Это уже (меньше чем за сутки) привело к созданию как минимум десятка стартапов про ИИ-терапевтов. Несмотря на то, что их будут сотни и почти все умрут в течении года, здесь очень скоро появится продукт с сотнями миллионов MAU и миллиардной капитализацией.

И дело не только в масштабе рынка (программа минимум: автоматизировать все интеллектуальные сервисные профессии), а в том, что мир станет светлее, добрее и приятнее, когда большинство людей будет иметь эффективный и глубоко личный инструмент различения и работы со своим эмоциями.

Читать полностью…

Метаверсище и ИИще

Если и делать нейрорекламу Кока Колы, то только такую.

Согласитесь, смотрится куда круче нейрорекламы от самой Coca Cola.

Читать полностью…

Метаверсище и ИИще

LTXV выглядит нарядно на их же демках, но подписчики уже раскрыли тему.
С анатомией - также как везде. Никак.

Но зато шустрая.

@cgevent

Читать полностью…

Метаверсище и ИИще

Стоит ли инвестировать во внедрение ИИ? Для тех, кто в теме и читает ленту, вопрос звучит как риторический. Но для бизнеса это до сих пор неочевидно. Риски, непредсказуемость результатов, непонятные затраты.

27 ноября команды Школы управления СКОЛКОВО, Яндекса и Райффайзен Банка попытаются найти ответ на этот вопрос. В рамках открытой дискуссии директор программ по цифровой трансформации Школы Николай Верховский и Head of AI & CRM products Райффайзен Банка Илья Щиров обсудят:

– какие результаты от внедрения ИИ ожидают компании и почему реальность часто не соответствует этим ожиданиям;
– в чем заключается реальная ценность технологий для бизнеса;
– как обеспечить безопасность данных при использовании ИИ.

Также приглашенные эксперты разберут реальные кейсы внедрения ИИ и расскажут о вызовах, с которыми им пришлось столкнуться в процессе реализации трансформационных проектов.

📅 Среда, 27 ноября, 18:30
📍 офис Яндекса

Подробности и регистрация по ссылке.

Реклама: НОУ ДПО МОСКОВСКАЯ ШКОЛА УПРАВЛЕНИЯ «СКОЛКОВО», ИНН 5032180980 erid 2SDnjbvk9WB

Читать полностью…

Метаверсище и ИИще

Прошло 6 месяцев и в коде для приложения chatGPT наконецто заметили кусочки кода для Live Camera.

Помните, как на демо все общались с телефоном, как будет у него есть не только уши (voice mode), но и глаза(лайв-камера).

Код обнаружен в v1.2024.317 и там есть:
—Live camera functionality
—Real-time processing
—Voice mode integration
—Visual recognition capabilities

Когда и кому раскатают в первую очередь?

<string name="video_nux_beta_label">Beta</string>
<string name="video_nux_description">Tap the camera icon to let ChatGPT view and chat about your surroundings.</string>
<string name="video_nux_title">Live camera</string>
<string name="video_warning">Don't use for live navigation or decisions that may impact your health or safety.</string></code?

https://x.com/AndroidAuth

@cgevent

Читать полностью…

Метаверсище и ИИще

Black Forest Labs: выпустили Tools, набор моделей для тонкой работы с генерацией изображений.

В него входит:
* FLUX.1 Fill: модель для инпейтинга и аутпейтинга, позволяющая вписывать/менять объекты на картинках или расширять кадр.
* FLUX.1 Depth: изменение картинки на основе карты глубины.
* FLUX.1 Canny: изменение картинки на основе карты очертаний.
* FLUX.1 Redux: адаптер для получения вариаций изображения.

Canny и Depth идут в двух вариантах: полных моделях с максимальным качеством, и лоры (Canny Lora плюс Depth Lora) на основе Dev для упрощенной разработки.

Данные решения от BFL показывают себя лучше, чем контролнеты собранные сообществом, вроде варианта от Alibaba (хотя в анонсе ссыль ведёт на альфа версию контролнета, а уже есть обновлённая бета). Также пишут, что картинки на выходе лучше других моделей, но на их бенчах нет Recraft V3.

В целом, BFL молодцы, что работают и на комьюнити, продвигая опенсорс, и себя не забывают с платными фишками по API.

Анонс
Хаггинг
Гитхаб

Читать полностью…

Метаверсище и ИИще

SANA и цензура.

Когда будете устанавливать SANA у вас будут ошибки из-за того, что код пытается скачать модель Gemma как текст енкодер, а доступ на хаггинг фейс требует логина. Вам нужно будет добыть логин токен и прописать его в конфиги модели (yaml).
Но самое интересное, что Гемма используется для цензуры!!!
Она пасет ваши промпты и если видит глупости, то шлет вам сердечки.
Зацените картинку и не забудьте выпилить цензуру из кода.

https://github.com/NVlabs/Sana

@cgevent

Читать полностью…

Метаверсище и ИИще

Пару часов назад появился код для той самой SANA от Нвидия, которая должна летать на слабых машинах и выдавать 4к за секунды.
Комфи нет, поддержки дифузерс нет. Но есть градио со ссылками на секретные веса на хаггингфейсе.

Го пробовать.

https://github.com/NVlabs/Sana

@cgevent

Читать полностью…

Метаверсище и ИИще

Ну немного хитов от ТИИхонов Рекордс.

Как пишет Леша:
а) попробовать сделать хит для девичьей группы
б) посмотреть, как суно работает с не-смысловыми строками
в) попробовать earworm

Он говорит, что это Блестящие, а я такой - это скорее Сливки. Потом - а может Виагра? Или Серебро?
Пауза... А как их различают..?

Короче, как по мне - просто готовый хит, если слушать ушами продюсера.

Мне немного не хватает компрессора эмоций, но на этой жанровой территории это не так важно.

А вот крючки для уха удались.

И кожаные тексты пока вне конкуренции.

И это старый Suno. Ждем ремастера.

@cgevent

Читать полностью…

Метаверсище и ИИще

Теперь все узнают, куда он смотрел.

DimensionX, конечно, огонь. Причем первые такие работы я видел года три-четыре назад, но они предсказывали обратную сторону одного объекта в сцене.
Сейчас нейросеточки пытаются распутать весь наш мир по ОДНОЙ картиночке.

За последние два дня у меня минимарафон в ленте на эту тему. Но чтобы нормальные читатели не увяли, решил сделать что-то более мемное, а то все когвидео да когвидео..

Также попытался прогнать результат через facefusion - все-таки DimensionX делает довольно черновое качество.
Интересно, что если принудительно попросить facefusion улучшить ВСЕ лица, то магия заблюренной leady in red теряется. Кинул вам разных вариантов, первый - это без улучшайзинга.

Ну и для гиков и не только - вот демоспейс DimensionX - можете сами попробовать сделать альтернативную версию реальности.
https://huggingface.co/spaces/fffiloni/DimensionX

@cgevent

Читать полностью…

Метаверсище и ИИще

А между тем, наконец-то вышла поддержка той самой версии CogVideo-5B-1.5 для Comfy, которую я тут приподспамливал уже неделю.

Код полностью пересобран, старые воркфлоу не работают, зато уже вшита поддержка костылей от Алибабы в виде CogVideoX-Fun.

Ну и самое главное, в image2video можно задавать не только первый, но и Финальный кадр!

Установка заставит вас поседеть (хотя Комфи юзеры давно уже седые и лысые). Но оно того стоит.

Много умных и малопонятных слов вот тут, в разделе Update 8.

Возможно вы даже пролезете в 12гигов врам.

https://github.com/kijai/ComfyUI-CogVideoXWrapper

Читать полностью…

Метаверсище и ИИще

GSOPs: обновлённый до V2 плагин для работы со сплатами в Houdini.

С его помощью можно импортировать, рендерить, редактировать, и экспортировать сплаты, или генерить синтетические тренировочные данные.

GSOPs эффективен в изолировании объектов, их цветокоррекции и работе с освещением, удалении шумов и артефактов, изменении мешей и анимации, а также общей сборке сцен.

Гитхаб

Читать полностью…

Метаверсище и ИИще

Зря я наехал на опенсорс тут.

CogVideo распутал картинку тоже легко.

@cgevent

Читать полностью…

Метаверсище и ИИще

К вопросу о понимании мира видеогенераторами.

Слева странная фотка с реддита, а видео - это то, как Kling Pro пережевал эту фотку со склеенным пространством и распутал его! Сделав вполне адекватное видео и "поняв", кто есть кто.

Это очень круто.

Боюсь опенсорсным видеогенераторам с их куцыми датасетами еще очень далеко до такого понимания мира.

Сорс

@cgevent

Читать полностью…
Subscribe to a channel