Канал про нейросети в компьютерной графике, в кино и вообще Чат: https://t.me/+16lR_Zc8oVM2ZTky
Новости по 3D за неделю
Hunyuan3D V2 обновили и добавили версии:
Mini для работы на 3 ГБ VRAM
Multi-view для получения 3D объекта по нескольким ракурсам
Turbo (FlashVDM) для ускорения генерации просто меша за 1~5 сек, и текстурированного меша за 30~100 сек.
HF / Pinokio / ComfyUI
------------------------------------------------------
Плагины MCP для Houdini, Unity, Unreal: Вдобавок к blender-mcp у нас появились
https://github.com/capoom/houdini-mcp
https://github.com/justinpbarnett/unity-mcp
https://github.com/Arodoid/UnityMCP
https://github.com/kvick-games/UnrealMCP
https://github.com/VedantRGosavi/UE5-MCP
------------------------------------------------------
DeepMesh: делает меш из облака точек
Код
------------------------------------------------------
Hi3D - новый 3D генератор без демоспейса
#digest #textto3d #pointcloud2mesh #assistant #agent #houdini #unity #UE
Безлимитная Сора.
А почему все молчат?
Я залогинился в sora.com под своим chatGPT Plus аккаунтом, и Сора пишет - никаких более кредитов. Творчество не кредитуется!
Полез в обновленный сегодня FAQ, а там:
Understanding Unlimited Usage
ChatGPT Pro and Plus plans offer unlimited access to Sora
https://help.openai.com/en/articles/10245774-sora-billing-faq#h_5a4892aa77
Плюсовики, налетай!
@cgevent
VGGT: Visual Geometry Grounded Transformer
Реконструкция всех ключевых 3D-атрибутов сцены от Facebookresearch.
На входе одна картинка, набор видов или видео, на выходе - параметры камеры, карты точек, карты глубины и 3D-треки точек, из одного, нескольких или сотен ракурсов.
Полюбуйтесь на Планетный Экспресс, собранный из одного короткого шота. GLB файл в комментариях
Код
Демо
#image2scene #imageto3d #video2scene #videoto3d #image2mesh #tracking #image2camera #video2mesh #video2depth
InfiniteYou: Flexible Photo Recrafting While Preserving Your Identity (InfU)
Держите еще один персонализатор от ByteDance
Совместим с Flux и другими DIT.
Обещают высокую идентичность при сохранении возможностей генерации
Выложены модели для Flux. Одна больше для идентичности, другая больше для следования промпту и эстетики
Совместим с Controlnet, Lora и другими плагинами
Код
Демо - ждем, 404
Веса
#personalization #referencing #text2image
Krea Video Styles
Безобразие. Теперь можно обучать свои лоры Wan на Krea AI. Движение там, объекты, стили
За ваши деньги, конечно
#personalization #training #lora #text2video #image2video
Amodal3R: Amodal 3D Reconstruction from Occluded 2D Images
Реконструкция частично видимых 3D объектов по картинке
Код ждем
Демо
#imageto3d
From Parts to Whole: A Unified Reference Framework for Controllable Human Image Generation
Еще одна работа тех же авторов, уже несвежая.
Создает изображения людей в различных позах по любому количеству референсов частей человека
Код
#referencing #image2image #personalization
Lluminate
Интересная работа
Нейросетки хороши в выдаче усредненного результата, поэтому часто выдают однотипные результаты при одном и том же промпте.
Lluminate решает проблему однообразия, выдавая более разнообразные и неожиданные результаты.
Алгоритм использует умный промптинг и анализ новизны с помощью CLIP.
Запускает множество вариантов для оценки их разнообразия.
Самые необычные варианты используются для новых генераций с усложнением и добавлением неочевидных элементов.
Тестировали на шейдерах, архитектуре и генерации часов.
Вместо стандартных результатов типа "неоновые спирали" и "футуристические башни", получаются уникальные и неожиданные вещи.
Код
#text2image
gemini-codrawing
Вангую что таких демок будет много. Сертифицированная точность вангования как всегда 50/50
#sketch2image #text2image #text2drawing #text2sketch
👋 Lama — это проект с самыми мощными нейросетями:
⚡️ o3, ChatGPT-4o с интернетом, Gemini 2.0, Claude 3.5, DeepSeek-R1 и многие другие
⚡️ Kling, Dall-E 3 HD, Flux Dev - лучшие генераторы изображений
⚡️ Суммаризатор видео Nova
⚡️ Свой сайт с тем же функционалом, что и в телеграм
⚡️ Бесплатные GPT-4o , Gemini 2.0 Flash, и Flux Schnell
• Общайся текстом, голосом, отправляй файлы, изображения, видео.
• Цена одной чашки кофе за функционал самых топовых моделей без необходимости покупки токенов и кредитов.
Подписывайтесь на канал Lama AI и окунитесь в мир ИИ.
#промо
Gemini Image Editing NextJS Quickstart
Официальный шаблон интеграции в ваш сервис редактора/генератора картинок Gemini 2.0 Flash
Вот например в Freepik уже прикручено
Демо, и даже без впн
Код
#assistant #mlm #vlm #imageediting #text2image
ReCamMaster: Camera-Controlled Generative Rendering from A Single Video
Изменяем траекторию камеры для видео, получаем то же видео с другого ракурса.
Применимо для 4D реконструкций, стабилизации видео, обучения роботов и автопилотов
Код ждем (но это неточно)
Демо - сюда загружаем свое видео, ждем пока его обработают и пришлют вам на почту.
Варианты движения камеры такие:
1 Pan Right
2 Pan Left
3 Tilt Up
4 Tilt Down
5 Zoom In
6 Zoom Out
7 Translate Up (with rotation)
8 Translate Down (with rotation)
9 Arc Left (with rotation)
10 Arc Right (with rotation)
#cameracontrol #novelview #video2video #stabilization
DDCM: Compressed Image Generation with Denoising Diffusion Codebook Models
Метод генерации и реставрации изображений
Код ждем
Демо
#text2image #imagerestoration #enhance #facerestoration #upscale #image2image
Mistral-Small-3.1
Производительная ( 150 токенов в секунду) мультимодалка от Mistral на 24B параметров, контекст 128K.
Мультиязычная, платформа для продвинутых рассуждений. Визуальные задачи, агентные.
В квантизованном виде влезет на RTX 4090 или 32GB RAM MacBook
Веса Base
Веса Instruct
API
#assistant #reasoning #vlm
Agentic Radar
Анализ агентных систем на предмет уязвимости и угроз безопасности
#agent #security
LHM: Large Animatable Human Reconstruction Model for Single Image to 3D in Seconds
Анимируемая 3D реконструкция человека по одной картинке от Tongyi Lab / Alibaba
Код
Демо
Спасибо @Name_impossible
#humanreconstruction #image2video #humananimation #characteranimation #pose2video
Reve Image 1.0
Новый генератор картинок по тексту, по референсу, опередивший на арене (там он под псевдонимом Halfmoon) Flux, Recraft, Image 3
Говорят что без цензуры
Говорят, что пробовать здесь. Но у меня не получилось зайти
#text2image #referencing #personalization
Cosmos-Transfer1: World Generation with Adaptive Multimodal Control
Nvidia выпустили версию своего генератора миров (видео) для кондиционной генерации на основе множества входных данных в различных модальностях, таких как сегментация, карты глубины и контуры (edge)
Гитхаб
#text2video #image2video #simulation #text2world #image2world #segmentation2video #depth2video #mask2video #edge2video
OpenAI.fm
Генератор голоса/речи по тексту
Можно описать нужный голос и манеру прочтения. Клонировать нельзя. А то придет Скарлетт Йохансон - порядок наведет
Плюс две модели в API для расшифровки речи в текст "лучше чем Whisper"
#news #text2speech #speech2text
Grok в Телеграм, не реклама
В тг появился бот @GrokAI, вероятно официальный
В юзернейме нет обязательного для пользовательских ботов "_bot", кроме того, Дуров в твиттере намекал на интеграцию
Похоже что это не Grok3, а Grok2.
Картинки рисовать отказывается, вот вам ascii art Бендер
Для пользователей ТГ премиум доступ неограниченный, и то не у всех работает. С остальными отказывается общаться 🧐
#news #bot #assistant #тестбендера
Wan2GP v2
Обновился Wan2.1 GP, много улучшений
Удобная установка в Pinokio
#text2video #image2video
Personalize Anything (for Free with Diffusion Transformer)
Персонализация одного или нескольких объектов без дообучения.
Протестировано с #Flux и Hunyuan
В колаб ноутбуках Flux
Код
Колаб inpainting-outpainting
Колаб персонализация одного объекта
Колаб реконструкция объекта, создает новые позы/виды
#personalization #inpainting #outpainting #image2image
Gemini Canvas
В чатбот Гугла прикрутили Canvas для работы с кодом, коллаборациями (и наверно чем-то еще)
Бонусом, сделали Audio Overview - подкаст-обзор на основе загруженных документов. Короче, похоже, просто прикрутили NotebookLM
Попробовать - притворитесь что вы не в РФ
#text2podcast #coding #canvas #assistant
Stable Virtual Camera (Seva): Multi-View Video Generation with 3D Camera Control
Генератор видео по картинке с контролем камеры от Stability AI. На вход от 1 до 32 картинок. Камера идет по заданной пользователем траектории
1.3B параметров
Обещают консисентность вплоть до бесшовного зацикливания если камера возвращается в ту же точку. Причем 1000 кадров как с куста
Код
Демо
#cameracontrol #image2video #image2scene #novelview
Проверьте почту если записывались в вейтлист Mago
Не уверен что такой перенос стиля на видео будет актуален при всех возможностях видеогенераторов которые нам уже доступны.
Но посмотрим что сможет предложить Mago
#news #styletransfer
Нейросети, наука и технологии — одним понятным языком.
Рассказываем просто и с юмором о том, что происходит прямо сейчас:
— Новости про нейросети и технологии.
— Практические гайды и промпты, которые облегчат жизнь.
— Прогнозы, которые уже завтра станут реальностью.
Никакой скучной теории — только интересный и полезный контент.
Подпишись, чтобы не пропустить будущее:
👉 ИИ и Мы
#промо
Andrew Price затестил текущие модели для генерации 3D. Тест не идеальный, так как некоторые игроки не представлены на тестах. Но, тем не менее, это дает представление о текущем положении дел.
Главное — помнить, что где-то использовались PRO-версии генераторов, которые, как я подозреваю, просто наваливают больше геометрии, и точность вырастает именно из-за этого. Стоит ли пользоваться или переживать — решать вам.
VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control
Инпейнтинг видео любой длины с контролем контекста. От Tencent.
Умеет не только заполнять заданные области, но и заменять объекты по текстовому промпту.
Судя по сравнениям уделывает ProPainter одной левой. Но зачем они выставили кейс с заменой девушки на Энн Хэтеуэй, ведь это провал?
Код
Веса
#inpainting #videoediting
Thera: Aliasing-Free Arbitrary-Scale Super-Resolution with Neural Heat Fields
Новая SOTA в апскейле любого разрешения со встроенным антиалайасингом
Код
Демо (до 600х600 на вход)
#upscale #enhance
Command A
Наследник Command R+ на 111B параметров, контекстное окно 256k
Ориентирован на агентные, мультиязычные, программистские задачи
Веса
API
#assistant #coding #agent