9769
Канал про нейросети в компьютерной графике, в кино и вообще Чат: https://t.me/+16lR_Zc8oVM2ZTky
EgoEdit: Dataset, Real-Time Streaming Model, and Benchmark for Egocentric Video Editing
Редактирование эгоцентрических (от первого лица) видео в реальном времени от заблокированного ныне SnapChat.
Это, разумеется не тянет на продакшен качество, у снэпчата другая ниша - фильтры там, линзы
EgoEdit -авторегрессионная модель, работает в рилтайме на одной H100, задержка начала генерации чуть меньше секунды - 855 мс
Сравнивают себя с LucyEdit, на сайте мульен примеров
Гитхаб - непохоже что собираются опубликовать код/веса, в планах это не обозначено, только датасет и бенч
#videoediting #realtime #streaming #research
AutoGLM-Phone-9B
Мобильный Android - асситент
Понимает экраны через мультимодальное восприятие, управляет устройствами через ADB (Android Debug Bridge), планирует и выполняет действия по текстовому описанию от пользователя.
Предусмотрена защита (подтверждение чувствительных действий) и возможность участия человека в некоторых процессах (например, при вводе кодов подтверждения). Поддерживает удалённое управление устройствами через Wi-Fi или сеть.
Интересный троян на 21 ГБ
Гитхаб
HF
#agent #mobile #vlm
➡️ 18 декабря в 15:00 МСК Phygital+ проводит последнюю в этом году нейросетевую конференцию AI CONF 2026 Trends ➡️
🎁 На конференции разыграем годовую подписку на 30 нейросетей и разберемся, как крупные компании будут использовать ИИ для реальных бизнес-задач в 2026 году. 🎁
Среди спикеров – X5Tech, Май Brands, БКС, Reboot (by Setters), а также арт-директор и амбассадор нейросетей Валерия Титова!
Встретимся онлайн.
Участие, как и всегда, бесплатное! 😍
🎄 Спикеры поделятся своими кейсами внедрения ИИ, итогами 2025 года, результатами, цифрами и сложностями. Вас ждут новогодние подарки и тонна полезной информации про кратное ускорение бизнес-процессов, оптимизацию ресурсов и новые подходы к работе с графикой и дизайном 🎄
🚀 Phygital+ – это коллаборативная AI-платформа, которая объединяет 30+ нейросетей для профессиональной работы с визуалом на одном бесконечном канвасе.
❗Регистрация ❗
#промо
Tencent Hunyuan экономит на буквах, переименовался в Tencent HY
#news
TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows
Метод обучения одношаговых и малошаговых генеративных моделей.
Современные методы создания малошаговых версий моделей используют дополнительные инструменты — например, вспомогательные дискриминаторы, поддельные оценки или замороженные модели преподавателя. Из-за них растёт потребность в памяти, а обучение становится менее стабильным
TwinFlow же не использует внешние дискриминаторы или замороженные модели. Вместо этого он создаёт «двойную траекторию» внутри себя. Модель преобразует шум в «ложные» данные, создавая сигнал для самокоррекции
На сравнении слева Оригинальный Qwen-Image, справа - TwinFlow-Qwen-Image. Насколько понимаю, тут 2 NFE = 1 шаг
TwinFlow-Qwen-Image-v1.0 уже выложили. Работают над Z-Image-Turbo. Видимо, он станет еще турбее
Гитхаб
HF
#optimization #qwenimage
jina-vlm
Новая #vlm на 2B параметров на базе Qwen3-1.7B достигла #SOTA в многоязычном VQA, без катастрофического забывания в задачах, связанных только с текстом
HF
#assistant
ИИ который мы заслужили
Что-то под названием Halftime. Внедряет рекламу в кино и сериалы так будто это часть сюжета. Персонажи отвлекаются от основного действия чтобы продемонстрировать товар.
Показали пример на «Форс-мажорах» и «Друзьях»
#news
WanGP v9.81
В инструмент для lowVRAM-генерации добавлена поддержка модели Hunyuan Video 1.5 i2v Distilled и ускорителя Lora Accelerator, извлечённого из неё. Также добавлена поддержка Magcache (оптимизировано для 20 шагов) для Hunyuan Video 1.5
Поддержка Z-Image-Turbo и Flux.2 тоже есть с контролнетом и масками, Wan Steady Dancer (альтернатива Animate), time-to-move (TTM)
Из остальных обновок:
- Кнопка паузы: позволяет приостановить генерацию видео и освободить большую часть VRAM, используемой WanGP. При этом занятая RAM остаётся занятой. Можно возобновить генерацию с того же места
- Режим WanGP Headless: позволяет создавать очередь генерации видео через стандартный интерфейс WanGP, сохранять её и обрабатывать в пакетном режиме без запуска веб-интерфейса.
Спасибо @EvgenyiPerm
#tools #text2video #image2video #video2video #optimization #zimage #hv15
ImageCritic
Модель на базе Flux.1-Kontext-dev решает проблему несогласованности мелких деталей с референсом в сгенерированных изображениях.
Применяется после к изображениям, созданным другими генераторами.
Гитхаб
HF
Демо
#referencing #imageediting
Вообще все модели лоханулись. Были бы умными - покупали бы RAM, SSD и видеокарты и сделали бы тысячи процентов
Читать полностью…
Cервис для генерации/редактирования музыки Mozart AI тизерит какую-то обновку, назначенную на завтра.
записаться в вейтлист неизвестно чего
Предлагают скачать ваши проекты до завтра чтобы потом работать с ними на обновленной платформе.
Звучит пугающе на фоне слива Suno и Udio
#news #text2music #text2audio #music2music #audio2music #sfx #musicediting #midi #text2midi #audio2midi
Light-X : Generative 4D Video Rendering with Camera and Illumination Control
Контроль камеры и освещения на видеогенерации.
Закидываем на вход видео - на выходе получаем ту же сцену с заданного ракурса и заданным освещением
Гитхаб
HF
#cameracontrol #relighting #lightcontrol #video2video #videoediting
Очередной инструмент от @SashaMelentev
Далее его текст
Refiner
Сдружил Photoshop и ComfyUI, что вообще-то, уже не новость. Собрал два workflow для "разгона" скетча рендера в полноценную заливку.
Первый - со шкатулкой - работает на Illustrious, это SDXL, заполняет не очень детально, но можно настроить рисование реал-тайм, а второй - с рукоятью - на Nano Banana Pro, и от него фляжка брызнет, возьмись за стул, когда будешь смотреть. Он еще и референсы утилизирует в работу.
Оба json'a здесь в комментариях. #Tools
Когда general, простые концепты делает нейросеть, работу руками нужно посвятить деланию уникальных, штучных задач.
Это приводит нас к странному парадоксу, с одной стороны нужно знать базу и техническую сторону работы, для штучной работы без этого никак, с другой - большую ценность приобретают гуманитарные знания, чтобы знать, что писать в промпте, какое желание у ИИ загадывать.
И далее. Когда всю работу будут делать роботы, то труд человека перестанет быть универсальным товаром, то есть станет штучным... роскошью то бишь.
источник
#workflow #tools #sketch2image #texturing
Qwen3-TTS (version 2025-11-27)
Новая версия флагманской говорилки от Qwen
Добавили 49 голосов, поддержку 10 языков, в том числе русский
Улучшили способность адаптировать скорость речи и просодию в зависимости от текстового ввода, что делает речь более естественной и близкой к человеческой.
Демо HF
Демо MS
Qwen Chat - в ответе нажмите три точки, "Читать вслух"
Realtime API
Offline API
#tts #text2speech #voicecloning #realtime
VideoCoF: Unified Video Editing with Temporal Reasoner
Редактор видео, лора на базе Wan-2.1-T2V-14B.
Решает проблему компромисса между точностью экспертных моделей, требующих масок, и универсальностью контекстных моделей, которым не хватает пространственной точности
Гитхаб
HF
#videoediting #lora #wan
EditThinker: Unlocking Iterative Reasoning for Any Image Editor
Редактор изображений на базе Qwen3-VL-8B-Instruct, имитирует человеческий когнитивный процесс через итеративный цикл «критикуй — уточняй — повторяй».
Работает с любыми существующими моделями редактирования изображений, повышая их способность следовать инструкциям
Напоминает LanPaint, не так ли?
Код ждем в течение недели
#imageediting
SpaceControl: Introducing Test-Time Spatial Control to 3D Generative Modeling
Генератор-редактор 3D моделей с точным пространственным контролем.
Cоздаёт высококачественные ассеты из быстрых 3D-эскизов, картинок и текстовых подсказок.
Короче, 3d-контролнет
Авторы прикрутили метод к Trellis, но он интегрируется с любыми генеративными моделями.
Код ждем
#3d #3dediting #3dto3d #controlnet
Chord: Chain of Rendering Decomposition for PBR Material Estimation from Generated Texture images
Ubisoft создает свои PBR текстуры в ComfyUI и выложил в опенсорс свою модель на базе затюненного #SDXL
Chord использует двухэтапный подход: сначала генерирует повторяемые текстурные изображения, а затем оценивает материалы, последовательно предсказывая различные каналы SVBRDF. Дополнительная стадия - апскейл, ибо оптимальное разрешение модели всего 1024*1024, маловато для текстур
Есть кастом ноды и статья на ComfyOrg
Гитхаб
Демо
ComfyUI-Chord
HF
воркфлоу
#pbr #text2image #texture #text2texture #image2pbr #comfyUI #workflow
EMMA: Efficient Multimodal Understanding, Generation, and Editing with a Unified Architecture
Мультимодальный пониматор-генератор-редактор картинок от Huawei
Превосходит BAGEL-7B по эффективности и производительности
Достигает уровня Qwen3-VL и Qwen-Image
Код ждем
#vlm #imageediting #text2image
RealGen: Photorealistic Text-to-Image Generation via Detector-Guided Rewards
Генератор картинок высокого качества на базе FLUX.1-dev + Flow GRPO. Qwen-3 4B в качестве LLM для оптимизации промптов
По реализму превосходит GPT-Image-1, Qwen-Image и FLUX-Krea
Гитхаб
Спасибо @m_franz
#text2image
GLM-4.6V: Open Source Multimodal Models with Native Tool Use
Большая мультимодальная модель с поддержкой использования инструментов.
Понимает визуальный контент напрямую, не переводя в текстовое описание
Контекст 128K
Модель представлена в двух версиях: GLM-4.6V (106B) для облачных и высокопроизводительных кластеров и GLM-4.6V-Flash (9B) для локального развёртывания
GitHub Repository: https://github.com/zai-org/GLM-V
HF: https://huggingface.co/zai-org/GLM-4.6V
Online Demo: https://chat.z.ai/
API Access: Z.ai Open Platform
Desktop Assistant App: https://huggingface.co/spaces/zai-org/GLM-4.5V-Demo-App
#assistant #multimodal #vlm #mllm
One-to-All Animation: Alignment-Free Character Animation and Image Pose Transfer
Оживлятор персонажей по позе от китайцев на базе Wan2.1
Уже поддерживается в ComfyUI-WanVideoWrapper
Гитхаб
Модели:
https://huggingface.co/MochunniaN1/One-to-All-1.3b_1
https://huggingface.co/MochunniaN1/One-to-All-1.3b_2
https://huggingface.co/MochunniaN1/One-to-All-14b
Спасибо @m_franz
#characteranimation #referencing #pose2video
Собираем себе ПК на Новый Год в свой бюджет
#humor
3 декабря авершился сезон NOF1 Season 1.5 битвы ИИ-моделей в трейдинге. Результаты зафиксированы, но модели продолжают "торговать"
Лидирует Grok 4.20, который был инкогнито, он наторговал +12,11%. Его релиз должен состояться до конца года
Следующим идет GPT-5.1, и он в минусе. Хуже всех показал себя Grok 4
#news #trading #shootout #arena
ComfyUI-mesh2motion
Риггинг и анимация 3D-персонажей в #ComfyU
Оригинальный mesh2motion тут - опенсорсный аналог Mixamo
#rigging #characteranimation #3d
PosterCopilot: Toward Layout Reasoning and Controllable Editing for Professional Graphic Design
ИИ-дизайнер с продвинутым пониманием геометрии и эстетики на базе Qwen-2.5-VL-7B-Instruct
Код / веса ждем
#design
Обновление HunyuanVideo1.5
Выпустили дистиллированную модель I2V видеогенератора с разрешением 480p
Рекомендовано 8 или 12 шагов. Можно и 4 шага со снижением качества
На RTX 4090 время генерации видео от начала до конца сокращено на 75%
RTX 4090 может создать видео за 75 секунд.
#hv15 #image2video #optimization
LongCat-Image
Генератор-редактор картинок от авторов LongCat-Video
Билингвальный китайско-английский. 6B параметров
Хорошо изображает китайский текст. Тут они мимо нашей аудитории совсем. Но в остальном - мал да удал. Такое оживление ниши работы с картинками не может не радовать
LongCat-Image - генерилка
LongCat-Image-Dev - пластичная модель для файнтюна
LongCat-Image-Edit - редактор. Принимает на вход референсы. Под капотом Qwen2.5-VL
Чат: longcat.chat
Гитхаб:
https://github.com/meituan-longcat/LongCat-Image
HF:
https://huggingface.co/meituan-longcat/LongCat-Image
https://huggingface.co/meituan-longcat/LongCat-Image-Dev
https://huggingface.co/meituan-longcat/LongCat-Image-Edit
спасибо @m_franz
#imageediting #text2image #assistant
Они даже уже не скрываются
Китайская компания EngineAI (Zhòngqíng) выпустила полноразмерного робота T800
Вас слово "выпустила" не пугает? Хотя думаю, он сам вышел
В доказательство того что это не графика сняли ролик где робот избивает CEO EngineAI Чжао Тонъяна, а кругом стоят роботы, замаскированные под человеков и весело смеются
#robot #яниначтгоненамекаю