9769
Канал про нейросети в компьютерной графике, в кино и вообще Чат: https://t.me/+16lR_Zc8oVM2ZTky
History-Guided Video Diffusion
Метод генерации видео
За счет трюков с контекстом и трансформера форсированной диффуззи (DFoT) позволяет создавать консистентные ультрадлинные видео, видео бесконечной навигации, генерировать композиционное видео (сам не уверен о чем тут речь)
На видео с роботом объяснение работы модели, это непохоже на генерацию
Модельки небольшие, и разрешение у них 128x128 да 256x256, так что это пока не про контентмейкинг, а про фичи которые можно ожидать в видеогенераторах
Код
Демо
#image2video
loras.dev
Онлайн генератор картинок с предустановленными лорами.
Притворитесь что вы не в РФ
Опенсорс, под капотом #Flux и Together AI
Код
#text2image #online
Bleep That Sh*t
Автоматически запикиваем любые заданные слова на видео
Под капотом Whisper, так что должно работать с русским языком
Код
#speech2speech #audio2audio
Zonos
Голосовая модель от Zyphra
Хвастаются превосходством над всеми конкурентами
- Контроль эмоций
- Клонирование голоса по 10-30 секундному образцу
- Звуковые префиксы: Добавьте текст плюс аудиофайл чтобы задать динамику, например шепот
- Поддерживает английский, японский, китайский, французский и немецкий языки, русского нет
- Контроль скорости речи, высоты тона, максимальной частоты, качества звука
- Работает вдвое быстрее рилтайма на RTX 4090
- Есть Playground и API
Код
Демо - вход через гугл/регу
Блог - там есть тесты сравнения с конкурентами
#voicecloning #tts #text2speech
OpenAI: платит за рекламу для Superboul 14 лямов
Прямые руки: ChatGPT ad Maker
#news #stylization
Goku: Flow Based Video Generative Foundation Models
Новый генератор видео и картинок от ByteDance
И на основе Goku они еще сделали Goku+ - семейство моделей для оптимизации рекламных сценариев с участием людей и продуктов
гитхаб (кода нет)
#text2video #image2video #text2image
3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation
Контроль траектории движения нескольких объектов при генерации видео по тексту.
6 степеней свободы на каждый контролируемый объект
Код прикручен к CogVideoX-5B
Код
#trajectory #motioncontrol
Krea Chat
Krea выпустили в открытую бету ассистента для генерации/редактирования видео и изображений текстовыми указаниями.
Он еще вас и проконсультирует что да как.
За понимание указаний отвечает DeepSeek
У меня не получилось зайти 🙁
Подписчики говорят, бесплатно только первые три запроса
#imageediting #assistant
Tülu 3 405B
А вот уже кто по циферкам обскакал DeepSeek-V3 в опенсорсе.
Дообученная версия Llama3 на 405B параметров от Allen AI
Попробовать
#assistant
Radiant Foam: Real-Time Differentiable Ray Tracing
Google Deepmind с соавторами придумали новый метод представления объемных сцен, который может вытеснить гауссианы.
называется Radiant Foam (лучевая пена, пена излучения???), позволяет быстро делать рейтрейс с качеством гауссиан
Помимо скорости, важно что этот метод позволяет пользоваться возможностями, которые есть в классическом рейтрейсинге - оптическими эффектами, например.
Наше представление основано на диаграмме Вороного (справа), которая делит пространство на ячейки в зависимости от близости к набору точек, называемых сайтами. Диаграмма Вороного является двойственной триангуляции Делоне (в центре), и, построив триангуляцию Делоне на основе набора обучаемых точек, мы можем сохранить структуру смежности, которая указывает, какие ячейки Вороного являются соседними.
Используя эту структуру смежности, мы можем легко вычислить пересечения лучей и ячеек, перебрав соседей каждой ячейки и найдя ближайшее пересечение фронтальной плоскости. Выполняя этот процесс итеративно, мы можем эффективно проводить лучи через пену, переходя от ячейки к ячейке. Этот алгоритм намного эффективнее обычных методов ускорения трассировки лучей, которые полагаются на иерархические структуры ускорения с логарифмической сложностью запроса.
Наш метод также позволяет избежать проблем, обычно связанных с оптимизацией дискретной сетки, поскольку границы ячеек диаграммы Вороного непрерывно изменяются при изменении положения объектов. Это связано с тем, что диаграммы Вороного обладают свойством, при котором дискретные изменения в связности эффективно скрываются на гранях с нулевой площадью поверхности, в то время как другие варианты, например использование сетки Делоне напрямую, привели бы к большим разрывам в поле при каждом изменении связности.
В результате получается гибкая, дифференцируемая модель, которая может выполнять трассировку лучей в реальном времени со скоростью, значительно превышающей аппаратную трассировку лучей по Гауссу, при этом качество реконструкции почти соответствует качеству методов сплайсинга по Гауссу
ReasonerAgent
DeepResearch у нас дома.
Браузерный агент, спсобный выполнять комплексные задания
Построен на основе OpenHands BrowsingAgent с наворотами и GPT-4o (в демо несколько моделей Open Ai на выбор)
Код
Демо
#agent #reasoning
Le Chat
Обновился ассиcтент от Mistral
- прикрутили Flux Ultra, генерим картинки нахаляву
- Le Canevas - аналог Canvas Open AI
- ходит в интернет, ищет
- читает документы, принимает файлы
- быстрый как саморазборка ракеты Маска в стратосфере
Наконец есть мобильные приложения
И все это бесплатно
AppStore
GooglePlay
#iOS #Android #assistant
ACE++: Instruction-Based Image Creation and Editing via Context-Aware Content Filling
Редактор изображений от Alibaba по текстовым указаниям.
Есть персонализация, инпейнтинг
Модельки довольно легковесные
Код
Демо
#personalization #imageediting #inpainting
Визуалку от DeepSeek Janus-Pro-7B можно потестить в Шедевруме на #iOS и #Android до конца марта
#news #text2image
AI AppStore
HuggingFace чуть подкрасили фасад Spaces и назвали это громким словом AI AppStore с 400К+ ИИ-приложений.
Прикрутили ИИ-поиск, есть категории
Справедливости ради, демоспейсы вроде можно устанавливать через браузер как PWA приложения.
Но это неточно, у меня ни в одном браузере значок установки не появляется
А еще вы знаете что большинство демоспейсов умирают спустя месяц после релиза. Так сколько там из этих 400К+ функционирующих?
#news
Magic 1-For-1: Generating One Minute Video Clips within One Minute
Новый опенсорсный китайский видеогенератор
Чего-то там наоптимизировали чтобы минутный ролик создавался за одну минуту в несколько шагов
Ест 30GB VRAM для 540x960
Веса будут на днях
Код
#text2video #image2video
InsMind
Онлайн редактор изображений
Сейчас форсят аутпейнтинг - расширение картинки с учетом контекста
Но там много чего бесплатно дают сделать
- генерация изображения
- удаление/замена фона
- удаление/замена объекта - инпейнтинг
- создание логотипа
- добавление тени
- улучшение качества (есть ли апскейл не проверял)
- стилизация
- замена лица
#design #imageediting #bgremoval #online #inpainting #enhance #outpainting #stylization #faceswap
Го тестить реставратор видео Project Starlight
#videorestoration #restoration #denoise #deblur #antialias #upscalevideo #enhance
Lumina-Video-f24R960
Новая модель убийцы всего
Генератор видео со звуком (без звука тоже может) по тексту
#text2video #text2audio #multimodal
ComfyUI_PuLID_Flux_ll
Обновка ноды персонализатора для #Flux в #ComfyUI
#personalization
GSTAR: Gaussian Surface Tracking and Reconstruction
Реконструкция динамичных 3D сцен на гауссианах по видео, с фотореалистичным рендером и 3D-трекином
GSTAR адаптируется к изменениям топологии с помощью двух механизмов: последовательного отслеживания стабильных поверхностей (красные кружочки) и динамической генерации поверхности для вновь появляющейся геометрии (оранжевые кружочки).
Код ждем
#video2scene #video2gaussian #videoto3d #videoto4D #video2mesh #gaussian
AEExplorer
В AfterEffects завезли сторонний ИИ-ассистент.
Он даже умеет сам какой-то моушен создавать по промпту.
Прикрутят ли Adobe своего ассистента, увеличит ли это стоимость подписки? Ау Adobe?
#plugin #assistent #agent
Объявляю субботний сброс мемов
#humor
Willy VPN
Довольно часто мне приходится писать про инструменты, доступ к которым ограничен по территориальному признаку. Так что сейчас будет рекомендация, сервис для того чтобы заграничные сервисы сочли вас гражданином мира, который я самолично обкатал.
- 5 дней бесплатного пользования
- 50 руб. в месяц стоимость подписки
- любое количество устройств
- безлимитные трафик и скорость
При такой мизерной стоимости еще и поддержка работает, помогли подобрать десктопный клиент. Дело в том что у меня установлен клиент для удаленной работы, который конфликтовал с клиентом, рекомендованным Willy. Проблему решили оперативно
Доступны локации:
🇳🇱 Нидерланды
🇨🇳 Китай
🇺🇸 Америка
🇹🇷 Турция
Проверял (успешно) на ИИ сервисах следующих недружелюбных к россиянам компаний:
- Google
- Open AI
- Recraft
- Anthropic
- Microsoft
- glif
и др
Если что, взрослые сайты тоже работают.
Доступно на Windows, MacOS, iOS, Android
Доступ к личному кабинету через телеграм-бота
Подключайся
#промо
Browser-Use тоже может в дипресерч, главное дать ему модельку помощнее в бэкенд
#assistant #agent #reasoning
Pikadditions
У Pika новая фича
Добавляет заданный объект на ваше видео
Закидываем свое видео, фото объекта, пишем промпт
#personalization #videoediting
Project Starlight
"Первый в мире" (правда что ли? 😕) диффузный реставратор видео от Topz Labs, решивший проблему консистентности
6B+ параметров, реставрация до 10 секунд видео - бесплатно (где и как?). 5-минутные видео 1080p - за кредиты
Модель автоматически удаляет шум, размытие, делает апскейл и антиалиасинг
Как же потестить все это волшебство? Говорят, для раннего доступа надо лайкнуть и прокомментировать официальный твит словом "Starlight"
#videorestoration #restoration #denoise #deblur #antialias #upscalevideo #enhance
Simulon вышел в бету для айфона/айпада.
Ставите на айфон TestFlight и через него устанавливаете приложение по инвайту ниже.
Сайт
Инвайт в приложение
Гайд по загрузке своих 3D объектов
Дискорд
Стащил у Psy Eyes
#iOS #Compositing #AR
Ну а GPT Search сделали доступным для всех, даже анонимов.
Даже аккаунт не нужен
Но дискриминация по цвету штанов остается, не забудьте находиться в правильной стране
#news #search
DeepSeek-VL2-small
DeepSeek решил заспамить нас моделями
DeepSeek-VL2-small - средняя визуально-языковая модель на 2.8B параметров из семейства DeepSeek-VL2, наследника DeepSeek-VL
Построена на базе DeepSeekMoE-16B
Демо
#VLM #assistant #image2text