Канал про нейросети в компьютерной графике, в кино и вообще Чат: https://t.me/+16lR_Zc8oVM2ZTky
PERSE: Personalized 3D Generative Avatars from A Single Portrait
Анимируемый аватар головы на гауссианах по одному входному портрету с независимой настройкой параметров
Код ждем
#gaussian #head #avatar #facialanimation #image2avatar
triton-windows
Библиотека, из-за которой мы не могли запустить многие неКронки на Windows.
Благодаря одному энтузиасту, теперь устанавливается командой
pip install triton-windows
Опубликован код, веса и демо Diffusion as Shader
Код
Веса
Демо
#motioncontrol #cameracontrol #motiontransfer
Higgsfield AI
Сервис для создания длинных монтажных видеороликов от идеи до финального монтажа.
ИИ-ассистент Copilot проводит вас через
- Написание сценария
- Создание раскадровки. За картинки отвечает #Flux с выбором из нескольких стилей
- Генерация видео по картинке. Тут на выбор Minimax, Kling, Runway Gen-3 и своя модель Higgsfield (насколько своя - не знаю, сомневаюсь что с нуля делали)
- Монтаж. Есть простенький видеоредактор.
- Генерация речи/липсинк от Elevenlabs
Инпейнтинг для Flux обещают прикрутить на следующей неделе. Генератор музыки тоже планируют встроить.
Потренировался на кошках. С остальным звуком кроме речи помогли DiffRhythm, FoleyCrafter, TangoFlux
1 картинка стоит 1 кредит
1 видео MiniMax/Kling - 10 кредитов
1 видео Gen 3 - 5 кредитов
Бесплатных кредитов, увы, не дают. Но есть промокод на 100 кредитов:
HIGGS_DcU7s
Nunchaku v0.1.4
Инференсный движок для запуска 4-битных диффузных моделей по методу SVDQuant (там есть демо, среди авторов MIT, NVIDIA, Pika Labs)
Поддерживает лоры
Сокращает требование по VRAM для FLUX.1 до 4Гб, увеличивая скорость в 2-3 раза.
Протестирован с SDXL, PixArt-∑, FLUX.1б SANA 1.6B
Код
Демо
ComfyUI
https://huggingface.co/mit-han-lab/nunchaku/blob/main/nunchaku-0.1.4%2Btorch2.6-cp312-cp312-win_amd64.whl - может пригодиться для Windows
#text2image #optimization
Gradio Sketch 2.0
Вайб-кодинг
Визуальное создание полных приложений Gradio, включая добавление событий, без единой строки кода
Если у вас уже установлен Gradio, то обновляем
𝚙𝚒𝚙 𝚒𝚗𝚜𝚝𝚊𝚕𝚕 --𝚞𝚙𝚐𝚛𝚊𝚍𝚎 𝚐𝚛𝚊𝚍𝚒𝚘
𝚐𝚛𝚊𝚍𝚒𝚘 𝚜𝚔𝚎𝚝𝚌𝚑
Open R1
Полностью открытое воспроизведение DeepSeek-R1 от HuggingFace. В процессе разработки
Гитхаб
#assistant #reasoning #coding
Diffusion Self-Distillation for Zero-Shot Customized Image Generation
Персонализация для генераторов картинок.
Применяют самодистилляцию - дообучение модели на ею же сгенерированном наборе пар картинок.
Считают что превзошли все методы персонализации без дообучения.
Метод применим для релайтинга
#тестбендера в комментах
Код
Демо
#text2image #personalization #relighting
GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control
NVIDIA дообучили Cosmos - получили видеогенератор по картинке с точным управлением камерой и временнОй согласованностью в 3D за счет 3D-кэша
Траекторию камеры можно настраивать интерактивно
Код ждем
#image2video #cameracontrol
Только самые отчаянные ходят в коменты смотреть мемы и делятся своими
#humor
Всех котесс подписчиц поздравляю с праздником. Счастья вам 🥰
Читать полностью…FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models
Не совсем свежее, не писал о нем.
Редактирование изображений текстовыми указаниями без дообучения и без инверсии. Прикручено к #SD3 и FLUX (о нем писал), а также к LTX Video и HunyuanLoom
Код
Демо
#imageediting #image2image
Layered Image Vectorization via Semantic Simplification
Послойный векторизатор растровых изображений.
Сначала выделяет крупные структуры, и только потом накидывается на мелкие детали. На выходе многослойный вектор
Код ждем
#image2vector #image2svg
Есть две новости: хорошая и очень хорошая.
1. У Hedra.com вышла обновленная модель Character-3. Не могу сказать, что там прямо прорыв. Все как раньше - первая версия была прям вау, потому что на рынке было мало таких решений, а теперь я\мы зажрались и такие: "ничоособенного".
2. Hedra решила собрать у себя Hedra Studio и дать возможность генерить видосы другими генераторами (ну то есть закосить по Креа или Фриипик с целью обогащения на перепродаже API).
Только вот с перепродажей экономика странная.
Вам на входе (бесплатный логин гуглом) дают 400 кредитов.
Генерация Хуньянем стоит 70 кредитов.
Генерация самой Хедрой - 14 (без аудио) и 89(!) с аудио на входе.
А теперь внимание: генерация с помощью Veo2 стоить 1 (один, прописью) кредит.
Я проверил, да, 1 кредит.
Получается вы можете за 10 баксов в месяц иметь 1000 генераций и возможность докупать кредиты примерно по такой же цене.
И прыгать по аккаунтам и тратить про 400 бесплатных кредитов.
В чем подвох, кто платит за банкет?
Маркетинг коллаб Гугла и Хедры или хитрый способ нагнать лидов? (а потом сменить раскладки по кредитам, о которых на сайте ни слова)
Кстати, там есть все кроме Sora, даже Хуньянь Image2Video и голимый SkyReel. А вот Wan - нет.
При генерации с Veo2 ваши промпты будут безбожно переписаны, просто имейте это в виду.
P/S/ Можно генерить параллельно. Но выбор аспектов и разрешений - ограниченный.
@cgevent
Здесь Вы найдёте классные инструменты для увеличения дохода через нейросети.
❗️Как бесплатные так и быстро окупающиеся.
То, что в 2025 году - нейросети позволяют меньше работать и больше зарабатывать - это реальность, подкреплённая Илоном Маском 😂
Поэтому, советуем не терять время и подсаживаться на канал ✅ Кибермаркетинг.
Его автор Настя давно использует нейросети в маркетинге, блоге и бизнес-проектах, знает все их секреты и делится информацией о самых крутых и интересных решениях. Она поможет не утонуть в мире нейросетей и подскажет где найти то, что Вам нужно.
🌟Будет супер полезно фрилансерам, маркетологам, блогерам, предпринимателям, и всем кто работает и продвигается через соцсети!
✅Присоединяйтесь в Кибермаркетинг!
#промо
Инструкция по портативной установке Nunchaku v0.1.4 на Windows
+ Инструкция по конвертированию лор в формат SVDQuant для Nunchaku на ComfyUI Portable (Windows)
#ComfyUI #lora #text2image
OpenAI представили на стриме 3 новых инструмента для разработчиков:
— WebSearch Tool (то же, что у ChatGPT под капотом, дообученная GPT-4o / GPT-4o-mini) для поиска информации в интернете и уменьшения галлюцинаций (нечто схожее есть у Google для Gemini)
— FileSearch Tool, чтобы делать поиск по документам (как в Ассистентах). Поддерживает фильтрацию по тэгам, которые вы присваиваете документам.
— Computer Use, или Operator (та же самая модель под капотом), но теперь как у Anthropic: можно запускать с доступом к своему компьютеру (а не только на виртуальном браузере на сервере OpenAI). На второй картинке метрики, ждём, пока сообщество доработает промпты итд и проведёт свои замеры.
Доступны в API вместе с новым SDK (библиотекой для взаимодействия с этими инструментами).
Буду обновлять пост по мере появления информации (в основном, интересны цены).
UPD:
— цены: Computer Use чуть дороже обычной GPT-4o (3 и 12 долларов на вход и выход за миллион токенов; а как уж формировать контекст, какие скриншоты экрана и текст закидывать — это уже на вас). Поиск по файлам $2.5 за 1000 запросов, и $0.1 за гигабайт загруженных файлов.
Kimi k1.5
Похоже, китайская мультимодальная модель чуть обновилась
- Контекстное окно 200 тысяч токенов
- Готова переварить до 50 файлов
- Ищет в интернете. Пишут что на 1000+ сайтов - это подозрительно, что за поиск в интернете по всего 1000 сайтов?
- Поддерживает русский язык
Все пишут что она на уровне Open AI o1, но отчет, похоже, двухмесячной давности
Чат
#assistant #mllm #mlm #reasoning
Пару дней уже маячит этот пост, хочет всё же, чтобы я его вам показал.
По сути, ещё один способ рендерить генеративно для какой-нибудь рекламки или клипов. Меня тут сам процесс возмутил.
1. Build 3D Renders in Claude 3.7.
2. Program camera movements.
3. Screen record render.
4. Upload video to Runway Gen-3.
5. Extract 1st frame.
6. Magnific Struct. Ref. 1st frame.
7. Upload in Runway Restyle.
8. Generate.
Прям вот самый первый пункт! Из меня вырывается старый дед с render.ru: "Вы что, и моделить за меня будете?!" Вот в наше время...
На самом деле, насрать, как создаётся, если оно отвечает задачам. У меня скорее вопрос: как долго будут ждать производители софта для моделирования, чтобы встроить подобный генеративный функционал себе? Или они будут рассчитывать на создателей плагинов, как всегда делал Autodesk? 🗡
Мы уже видели это для CAD-систем, Blender тоже не отстаёт, но это всё плагины. Со стороны компаний тоже хочется поддержки, бриджей, чтобы не приходилось танцевать с бубном.
Опубликован код MatAnyone + есть #ComfyUI
Код
ComfyUI_MatAnyone_Kytra
#segmentation #matting #video2matte #video2mask
Обновки ACE++
Кто не видел, в репозитории редактора изображений от Alibaba ACE++ добавлены воркфлоу #ComfyUI, конфига файнтюна и унифицированная fft модель (что это? сам не знаю, говорят что поддерживает больше задач #image2image)
#personalization #imageediting #inpainting
QwQ-32B
Языковая модель от Qwen Alibaba на 32B параметров, побивающая по некоторым бенчмаркам DeepSeek-R1 671B
Попробовать - посмотрите в список моделей, там не только QwQ-32B
#reasoning #assistant
TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models
Еще похожий прошлогодний проект, управление камерой упихано в набор пресетов.
Зато можно попробовать
Код
Демо
Спасибо @SakurakoujiLuna
#cameracontrol #video2video #novelview
Китайский бесплатный генератор музыки DiffRythm уже есть в Pinokio.
Устанавливаем, радуемся
Требования по VRAM: 8Гб
#music #text2music
Учим зайца курить
Я уже постил варианты оживления классики от Hailuo I2V-01-Live и Мигеля Иванова.
Но посмотрите что вытворяет Wan 2.1 Image2Video
Такое, конечно, не пропустит ни один закрытый генератор.
Ну и посмотрите, как он научил зайца Мону Лизу (и Ван Гога до кучи) курить! Мимика прекрасная жеж! Равно как и Одалиска не со спины.
Кстати, кто не в курсе, там Хуньянь выпустил апдейт весов своей Image2Video модели. Мы, говорят, нашли баг, который плохо делал консистентные лица, уплывающие от исходной картинки.
Все подробности вот тут. Перекачивайте веса.
А пока наслаждаемся Ваней.
@cgevent
Inpainting Videos with Wan2.1 & FlowEdit
А теперь внимание: инпейнтинг видео с помощью Wan2.1 + FlowEdit +Qwen2.5-VL-72B-Instruct
Заменяем на видео что угодно на что угодно текстовыми указаниями
Все необходимые ссылки есть в описании на ютубе
#inpainting #tutorial
DAM4SAM (SAM2.1++): A Distractor-Aware Memory for Visual Object Tracking with SAM2
К сегментатору SAM2.1 прикрутили технологию запоминания отвлекающих факторов - получился SAM2.1++. Прямые руки, очевидно, смогут прикрутить и к другому сегментатору
Код
#segmentation #image2mask #video2mask
TensorArt Stable Diffusion 3.5 Large TurboX
А вот и демо, можно потыкать
Демо
#text2image #optimization
LanPaint
Точный инпейнтинг, заставляющий модель "думать" перед итерациями денойза.
Не требует дообучения.
Работает с любой моделью SD, в том числе с лорами