Канал про нейросети в компьютерной графике, в кино и вообще Чат: https://t.me/+16lR_Zc8oVM2ZTky
SD3.5 TurboX
Ускоренный генератор картинок #SD35 от Tensorart
SD3.5 Large TurboX - генерация за 8 шагов, вшестеро быстрее. Доступен в видео лоры и .ckpt
SD3.5 Medium TurboX - генерация за 4 шага. 768x1248 за одну секунду на RTX 3080, в 13 раз быстрее оригинала
Превосходит официальную версию SD 3.5 Turbo по детализации изображения, разнообразия, насыщенности и реалистичности. Обратите внимание, что значения CFG, отличные от единицы, дают вдвое большую скорость генерации по сравнению с CFG = 1.
Опубликован код редактора аватара головы GaussianAvatar-Editor
Код
Спасибо @Dmitriy_Ru6ts0v
#humanavatar #gaussian #gaussianeditor
LTX-Video v0.9.5
Обновка видеогенератора
- Поддержка ключевых кадров и продолжения видео
- нативная поддержка в #ComfyUI
- Поддержка более высоких разрешений
- Улучшенное понимание промптов
- Улучшенный VAE
- Новое интерактивное веб-приложение в LTX-Studio
- Автоматическое улучшение промптов
Кому интересно, оно без цензуры
Гитхаб
ComfyUI
Попробовать на офсайте (притворитесь что вы не в России)
🤯 Хочешь создавать ИИ-шедевры, но не знаешь, с чего начать? 🤯 Загляни в «Нейронутых»
Забудь о скучных туториалах. Канал «Нейронутые» — твой проводник в мир ИИ-видео от евангелиста ИИ и победителя международного конкурса ИИ-фильмов; Его работа Scorched вошла в ТОП-50 ИИ-видео мира по версии Project Odyssey. А фильм Dominion победил в международном конкурсе ИИ-фильмов MyFilm 48.
На канале тебя ждут:
✅ Вирусные ИИ-ролики, которые вдохновляют
✅ Самые свежие AI-news, о которых говорят все.
✅ Детальные инструкции по работе с ИИ-инструментами.
✅ Обзоры новинок и секреты мастеров ИИ.
✅ И, конечно же, щепотка отборного юмора.
Подписывайся на «Нейронутых» и стань частью ИИ-революции 🔥
#промо
Что происходит с моделью после обучения
Сегодня DL-инженеру недостаточно учить модели в Jupyter-тетрадках, чтобы соответствовать запросам индустрии. Важно уметь доводить их до пользователей. Чтобы ближе познакомить вас с этим процессом, команда DeepSchool подготовила открытую онлайн-лекцию, на которой разберут, как выглядит путь модели после обучения!
Что вы узнаете на лекции:
- когда стоит использовать Jupyter-ноутбуки, а когда нет
- как подготовить репозиторий моделинга
- варианты конвертации модели
- как обернуть инференс в http-приложение
- чем помогает Model Serving
- как деплоят приложения и автоматизируют этот процесс
Спикеры также расскажут о курсе, на котором вы сможете научиться самостоятельно создавать и деплоить DL-сервисы. Всем участниками лекции — скидки на обучение!🔥
🙋♂️Спикеры лекции:
— Дмитрий Раков — руководитель ML в НИИАС, делает percpetion-алгоритмы для беспилотных поездов
— Тимур Фатыхов — основатель DeepSchool, ex Lead CV Engineer KoronaPay
⏰Дата и время: 6 марта, чт, 18:00 мск (онлайн)
Регистрируйтесь по ссылке!
#промо
MoD ControlNet Tile Upscaler for SDXL
Апскейлер для #SDXL, апскейл происходит прямо в процессе диффузии
Код
Демо
#upscale
CogView4-6B
Генератор картинок
Конкурент flux
Поддерживает очень длинный контекст, хорошо следует промпту
Выходное разрешение от 512 до 2048 пикселей с шагом 32
По потреблению памяти терпимо. Главный вопрос что с кастомизацией?
Гитхаб
Демо
#text2image
Wan2.1 GP
А может и революция
Доступная негерация видео на всего 12 ГБ видеопамяти старшей (14B) моделью генератора Wan2.1, квантизованной или неквантизованной. Хоть по тексту, хоть по картинке
До 5 секунд 720p. А для 5 секунд 480p будет достаточно 8Гб (это все еще 14B)
Уже в Pinokio
#text2video #image2video
🐳 DeepSeek AI | News & Updates - Будущее уже здесь 🐳
🚀 Не просто следи за технологиями — управляй ими!
В мире, где искусственный интеллект меняет всё, важно не отставать. Подпишись на DeepSeek AI | News & Updates и будь первым, кто узнает:
📢 Горячие новости — от революционных алгоритмов до свежих гаджетов.
📊 Простую аналитику — сложные вещи объясняем доступно.
📈 Тренды и инсайты — чтобы ты всегда был в курсе, что будет завтра.
🤖 Эксклюзивный AI-бот — доступ к мощной нейросети DeepSeek для всех подписчиков.
📲 Подписывайся и оставайся на шаг впереди!
#промо
Microsoft опубликовали код мультимодальной модели агентов Magma
Код
Спасибо @Dmitriy_Ru6ts0v
#agent #vlm
Я смотрел, хороший эксперимент
Читать полностью…Feat2GS: Probing Visual Foundation Models with Gaussian Splatting
Интересная работа, оценка понимания базовыми визуальными моделями объемного мира при помощи гауссовых сплатов
Оценивают рендер новых ракурсов, геометрию, текстуры
При этом, как я понял, Feat2GS и сам умеет воссоздавать сцены на гауссианах, иначе как бы они сравнивали свою модель с InstantSplat
Код
Демо
#gaussian #comparison #shootout #image2scene
GaussianCity
Генератор неограниченных городов на гауссианах
Код
Демо
#gaussian
DreamEngine
Какая-то хитрая интеграция визуально-языковых моделей с диффузными генераторами для генерации крутых картинок со сложными концепциями
Сайта нет
Код ждем
#text2image #vlm #personalization
ImageTo3D
Создает 3D локацию из любой картинки
Сделано в Claude 3.7
Бесполезно, но вы ведь уже знаете что с этим делать
Твит автора
#imageto3d
Как TG-канал приносит 200к в месяц.
Спойлер - нейросети. Детали а разборе.
Что в разборе:
✔️ 2 адекватных способа генерации дохода. Всё на живых примерах.
✔️Почему в Новом Мире "талант и мозги" не имеют отношения к размеру дохода.
✔️Люди, которые никогда не делали "онлайн-бизнес", не строили личный бренд, но зарабатывают в Телеге.
🟠Этот РАЗБОР пример того, как с помощью простых текстов, которые делаются с помощью нейронок (без вебинаров, экспертных видео, рилсов, умных статей, автоворонок и ещё 500+ всяких штук) зарабатывают в Телеге.
Разбор в этом канале (см. пост - закреп)-https://t.me/+zGJXY5QNI8A4Mjli
Это реально стоящий разбор.
#промо
HunyuanVideo-I2V GGUF / FP8
Уже есть квантизованные версии
https://huggingface.co/Kijai/HunyuanVideo_comfy/blob/main/hunyuan_video_I2V-Q4_K_S.gguf
https://huggingface.co/Kijai/HunyuanVideo_comfy/blob/main/hunyuan_video_I2V-Q6_K.gguf
https://huggingface.co/Kijai/HunyuanVideo_comfy/blob/main/hunyuan_video_I2V-Q8_0.gguf
https://huggingface.co/Kijai/HunyuanVideo_comfy/resolve/main/hunyuan_video_I2V_fp8_e4m3fn.safetensors
Спасибо @kuvshin8
HunyuanVideo-I2V
Допилили наконец видео по картинке
С блэкждеком, ComfyUI и лорами
Запасайтесь VRAM? для 720p нужно 60Гб
Веса
Код
#image2video
Kokoro Web
Веб версия генератора речи Kokoro
Можно пользоваться онлайн или установить локально. Для локальной версии есть API, совместимый с Open AI
Русского языка по прежнему нет
Код
#tts #text2speech
DiffRhythm: Blazingly Fast and Embarrassingly Simple End-to-End Full-Length Song Generation with Latent Diffusion
Генератор музыки в опенсорсе
Очень быстрый
Отличительная особенность - можно задавать тайминги для текста
Но всего два языка - английский и китайский
Сейчас доступна модель DiffRhythm-base (1m35s)
Старшую DiffRhythm-full (4m45s) выложат позже
Код
Демо
#music #text2music
Pandora3D
Генератор текстурированных 3D моделей от Tencent.
По тексту, по изображению, по набору изображений с разных ракурсов
В архиве 100Гб
Код
#textto3d #imageto3d
Phidias : A Generative Model for Creating 3D Content from Text, Image, and 3D Conditions with Reference-Augmented Diffusion
генератор 3D моделей по картинке, по тексту, по референсной 3D модели
Код - тестировали на RTX 4090 и A100
#textto3d #imageto3d #3dto3d
ChatGarment: Garment Estimation, Generation and Editing via Large Language Models
Визуально-языковая модель для работы с 3D одеждой: генерация, выкройка, редактирование
Код
#cloth #garment #vlm #assistant
Stable Audio Open + Arm Kleidi
Stability AI объявили о партнерстве с ARM в области генерации аудио на мобильных устройствах.
Вы конечно уже забыли что у них есть генератор звука Stable Audio Open. В самом деле, им кто-нибудь пользовался?
Так вот, женят этот генератор с библиотекой Kleidi для быстрого инференса на процессорах ARM
Ни демо, ни саму библиотеку я не нашел где посмотреть, тем более мобильное приложение...
Продолжаем вялое наблюдение
#news #mobile
Я буквально три дня назад посмотрел фильм Земекиса — Here, о котором писал вот тут. Фильм снят полностью на статичную камеру.
И я, кстати, не ошибся с точки зрения применения новых генеративных технологий. 🦸
Сам фильм неплох, как эксперимент.
Смотрел я его... Сейчас треснет жопа сэра Ридли Скотта... ДА НА МОБИЛКЕ!
Но даже через маленький экран была видна очень посредственная графика. А сегодня я наткнулся на пост Javi Lopez, фаундера Magnific_AI, о том, как применялись FX для этого фильма.
Ну, во-первых, FaceSwap и DeAge, о которых я думал, подтвердились. Нельзя так плохо сделать классическими пайплайнами. Кстати, упоминается Nuke как тулза для композитинга — хоть тут классика. Задники за окном дома делались на LED и прогонялись через апскейлеры, что тоже очень удобно и логично.
Пайплайн апскейлеров всем знакомый, всего с двумя параметрами:
1. Креативность.
2. Сходство.
Так как в разных шотах легко можно было нарваться на артефакты и галлюцинации, удачные куски объединяли в Photoshop. Это и экономично, и грустно одновременно — даже для фильма не написали никаких более удобных тулзовин.
Среди недостающих инструментов при использовании ИИ в кино не хватало генеративного HDR, чтобы иметь дополнительные возможности в битности и точках чёрного и белого при редактировании. Хоть за PNG и то спасибо.
Почему всё так? Потому что быстро и дёшево. У фильма не было достаточного бюджета на FX.
Добро пожаловать в дешёвое будущее!
YT
@CGIT_Vines
Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass
Реконструкция 3D сцены за один проход от Facebook Research. Обрабатывает много изображений параллельно, тогда как обычно для этой задачи входные изображения обрабатывают попарно за много проходов.
Код
Демо
#imageto3d #videoto3d #photogrammetry
Distill Any Depth: Distillation Creates a Stronger Monocular Depth Estimator
И у нас новый лидер (SOTA, если не врут) в оценке глубины изображения
Код
Демо
#image2depth
LuminaBrush
Экспериментальный проект lllyasviel, похожий на IC-Light
Эффект освещения задаем цветными мазками кисти и текстовым промптом, на выходе получаем наш картинку, где персонаж помещен в другие условия освещения.
Обработка происходит в два этапа. На первом этапе объект приводят к равномерному освещению. Из этого этапа автор сделал отдельную фичу, см второе демо.
Гитхаб - там кода нет, только описание и примеры, так обычно оформляют сайт проекта
Демо
Демо2 равномерное освещение
#relighting
Демоспейсы видеогенератора Wan2.1
Демо HF
Китайский сайт
#text2video #image2video
Motion Prediction
Wonder Dynamics выпустили модель для точной реконструкции движений актера, даже там где он перекрыт другими объектами в кадре
#video2pose