Канал про нейросети в компьютерной графике, в кино и вообще Чат: https://t.me/+16lR_Zc8oVM2ZTky
3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion
Диффузный генератор высококачественных 3D PBR ассетов по тексту.
Процесс занимает 5 секунд
Ключевая идея - кодирование 3D-меша, текстуры и материалов в компактный тензор N x D. это называется PrimX
Код
Демо (еще не работает)
#PBR #textto3d
GHOST 2.0: Generative High-fidelity One Shot Transfer of Heads
Перенос головы с фото на фото от Sber AI.
Не лица, а головы. Все кто имел дело с заменой лиц, понимают о чем речь.
Пишут что единственный аналог - HeSer, по метрикам его побили
Код
Демо
Хабр
#headswap #faceswap
moonshine-live
Распознавание речи в реальном времени на Moonshine
Демо
Модели
#speech2text #ASR #subtitles #realtime
Видеогенератор Wan2.1 поддерживается в #ComfyUI нативно
Судя по тому что по инструкции надо скачать fp8_e4m3fn модель, не удивлюсь если всю работу взяли у Kijai
У людей t2i (она может оказывается и просто картинки генерить) заводится даже на RTX2060!
Для видео на 1.3B модели заготовьте 15ГБ VRAM, а для 14B - 40ГБ VRAM
Блог
#text2video #image2video
Proxy Lite
Convergence опубликовали в общий доступ младшую версию своего браузерного агента
3B параметров
На основе Qwen2.5-VL-3B-Instruct
Код/Веса
#agent #browser #vlm
ComfyUI-WanVideoWrapper
Ноды видеогенератора Wan2.1 для #ComfyUI
В репозитории выложен тест 512x512x81, "~16GB used with 20/40 blocks offloaded"
Автор пишет что пока смог запустить только image2video
Сохраняйте спокойствие, работы ведутся
Пожатые веса
#image2video
QwQ-Max-Preview
Рассуждалка от Qwen, обновленная Qwen2.5-Max
——————
YandexGPT 5
Тоже обновили. И теперь в ее основе Qwen2.5. Да, поэтому две новости объединил
Из нативно русскоязычных с нуля обученных моделей остался только Гигачат. Мне кажется вы были к нему слишком строги
Веса Pretrain-версии доступны на HF
Попробовать YandexGPT 5 Pro в чате с Алисой
#news #assistant #reasoning
Wan2.1
Генератор видео по тексту и по картинке от Alibaba, опенсорс
Требует всего 8.19 GB VRAM для работы
Младшая модель 1.3B требует всего 8.19 GB VRAM для работы, 5-секундное видео 480p создает за 4 минуты на RTX 4090
Старшая 14B выдает 480p и 720p
Гитхаб
Веса
#text2video #image2video
SynCD: Generating Multi-Image Synthetic Data for Text-to-Image Customization
Вообще это инструмент для кастомизации генераторов картинок. А по сути персонализатор. Даем ему три референса нашего объекта и получаем этот объект в разных новых местах - как материал для обучающего датасета
У меня нубский вопрос. Если мы и так уже можем создавать новые изображения нашего объекта, зачем нам еще чего-то там обучать на него?
Код
Демо
#personalization #text2image
MagicQuill
Редактор изображений MagicQuill завезли в Pinokio
#imageediting
WHAC: World-grounded Humans and Cameras
Реконструкция позы и меша человека, а также ракурса/движения камеры (трекинг) по одному монокулярному (не стерео) видео
За позу отвечает SMPLest-X
Код
#video2pose #video2mesh #videoto3d #tracking #poseestimation #humanreconstruction
Не пользуешься нейросетями = отстал от жизни!
Сейчас каждый пользователь интернета обязан знать, что происходит в мире технологий.
Для этого и был создан канал Жизнь миллениала, где ты в сжатом формате узнаешь про:
— развитие технологий и нейросетей
— анонсы релизов в игровой индустрии
— новинки гаджетов и железа
В век технологий мы должны идти в ногу со временем, поэтому подписывайся на канал, чтобы не отставать!
#промо
❗️Это ваш шанс заявить о себе!
Стартовал III сезон международного конкурса AI-фильмов MyFilm[48] в сотрудничестве с крупным брендом обуви и аксессуаров.
MyFilm[48] — это первый в России международный онлайн-конкурс AI-фильмов, где за 48 часов необходимо создать короткое видео или анимацию с помощью нейронных сетей. Участников в этом сезоне конкурса будет ждать интересное творческое задание на тему «Реклама как кино»!
🟣 Почему стоит участвовать?
— У вас будет возможность проявить себя в индустрии.
— Вы получите креативный опыт работы с AI.
— Станете частью международного сообщества.
— У каждого участника есть шанс получить предложение о сотрудничестве.
Отраслевые партнеры и эксперты конкурса из разных индустрий выберут победителей, которые получат ценные призы.
🗓 Конкурс пройдет в онлайн формате с 1 по 2 марта. И уже 10 марта мы объявим победителей нового сезона!
Регистрируйтесь и подписывайтесь на соц. сети VK и TG, чтобы быть в курсе событий 📲
Участие в конкурсе бесплатное!
#промо
Заработал демоспейс SliderSpace
Только непонятно как работает слайдер. Он не интерактивный. А новая генерация выдает чтото совершенно новое
В коментах ответ
Демо
#text2image #variation #slider
Magma: A Foundation Model for Multimodal AI Agents
Опенсорсная мультимодальная модель для агентов от Microsoft.
- понимает видео
- ориентируется в пространстве
- управляет компом и роботами
Гитхаб - код ждем
#agent #vlm
GPT-4.5
Open AI выпустили новую языковую модель
Доступна для подписчиков Pro
На следующе неделе выдадут тем у кого Plus
#news #assistant #reasoning
MASt3R-SLAM: Real-Time Dense SLAM with 3D Reconstruction Priors
Реконструкция сцен реального мира по одному видео в реальном времени, 15 кадров в секунду на RTX 4090
Код
#video2scene #rendering #videoto3D
Prompt-to-Leaderboard (P2L)
Теперь на lmarena.ai можете создавать свои лидерборды написав промпт во вкладке Chat.
Этим занимаются специально обученные модели, начинающиеся с 'p2l-'
Впрочем, можете организовать и свою арену с блекджеком и ботами, ведь есть веса и код
Гитхаб
Веса
#prompt2leaderboard #p2l #text2leaderboard
Keyframe Control Lora
Лора ключевых кадров для HunyuanVideo T2V (T2V, генератор по тексту - так в репозитории написано)
Задаем два кадра и количество кадров - получаем видео, начинающееся с первого, оканчивающееся вторым
#lora #text2video #image2video
Gemini Code Assist стал бесплатным.
Окно контекста 128K токенов
20+ языков программирования
180 тысяч дополнений кода в месяц
Доступно для VSCode, Jetbrains. Github
Блог
#coding
«Я плохо получаюсь на фотографиях»…
Теперь это неважно.
Аня уже пару лет тренирует нейросети и создаёт крутые фотосессии для блогеров, сммщиков и даже фотографов.
Смотри чему можно научиться в канале ИИшница | визуал и нейросети :
✅Как с помощью нейросети за 5 минут улучшить свои фото?
✅Как приручить дракона, даже если у тебя нет дракона?
✅Какими нейросетями можно пользоваться бесплатно?
Справится даже новичок
Подписывайтесь, чтобы не потерять:👉 @solokvest
#промо
Тестим нейронку Сбера GigaChat для прокачки своих хард скилов
С её помощью легко починить код, освоить новый фреймворк или продвинутый концепт. В последней версии модели эти и другие задачи закрываются на ура. Сохраняйте рабочие промпты, которые можно отработать в Web-версии или Телеграм-боте прямо сейчас:
• Как интегрировать проект на Vue.js с внешними API?
• Составь план изучения баланса и настройки сложности в играх
• Напиши скрипт на Python, который скачивает изображения с сайта
#промо
RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers
Рецепты наших дедушек. Сделать ваше генеративное видео вдвое длиннее очень просто, нужен всего лишь простой советский... freq[k-1]=(2*np.pi)/(L*s)
Короче, этот трюк позволяет создавать генеративное видео длиннее без какого-либо дообучения. На примерах видео удлинено с 129 до 261 кадров
Бонус - так можно не только увеличивать количество кадров, но повышать разрешение (см картинки)
Код - прикручено к Hunyuan, планируют прикрутить к другим моделям
#text2video
Claude 3.7 Sonnet | Claude Code
Claude 3.7 Sonnet доступен даже бесплатным пользователям
Пробуем (притворитесь что вы не в РФ)
#news #assistant
GoWithTheFlow
Перенос движения с образца на генерацию Hunyuan видео
Неофициальные веса нетфликсовского Go with the Flow
Веса
ComfyUI-VideoNoiseWarp
#motiontransfer #motion2video
VideoLingo
Универсальный опенсорсный инструмент для перевода, локализации и дубляжа видео, предназначенный для создания субтитров качества Netflix.
3-этапный процесс Перевод-Осмысление-Адаптация для кинематографического качества
За дубляж отвечают GPT-SoVITS, Azure, OpenAI и др
Поддержка входных языков (будет добавлено больше):
🇺🇸 Английский 🤩 | 🇷🇺 Русский 😊 | 🇫🇷 Французский 🤩 | 🇩🇪 Немецкий 🤩 | 🇮🇹 Итальянский 🤩 | 🇪🇸 Испанский 🤩 | 🇯🇵 Японский 😐 | 🇨🇳 Китайский* 😊
Перевод поддерживает все языки, а язык дубляжа зависит от выбранного метода генерации голоса
Гитхаб
Офсайт - 15 минут бесплатно
#dubbing #speech2speech #translation #subtitles #text2speech #speech2text #tts #stt
Объявляю субботнюю проверку мемов. Кто за неделю не залутал ни одного мема - для чего ты работал целую неделю?
#humor
К вопросу про оцифровку актеров.
На видео - использование Хуньянь и SkyReel для консистентных сцен с конкретным оцифрованным актером.
Из интересного:
Они сначала оцифровали актера (captured him volumetrically), а потом натренировали Хульяньскую Лору на коротких видео по 2 секунды. Как я понял, вольюметрик скан использовался именно для рендеринга таких коротких видеосов, где башка поворачивается из профиля в фас или на меньших углах(но это неточно, trained a LoRA model directly on video data, allowing us to generate sequences where a person remains consistent across shots)
50 видосов для тренировки в 100 эпох - заняли 48 часов на H100.
Пишут, что SkyReel - плохой, особенно в text2video, оттуда взяли мало шотов.
Подробности шаманство с latent upscale и другими гиковскими терминами вот тут.
Это, конечно, просто игра мышцами от kartel_ai, но оцифровка актеров мне видится примерно так.
@cgevent
SANA FOR WINDOWS
Генератор картинок Sana для Windows (в оригинальном репозитории пользователи винды сталкивались с линуксовыми зависимостями)
Нужна Cuda 12
Гитхаб
#text2image
Pikaswaps
У Pika опять новая фича
Заменяем на видео что угодно на что угодно
Попробовать
#videoediting #swap #video2video