Канал про нейросети в компьютерной графике, в кино и вообще Чат: https://t.me/+16lR_Zc8oVM2ZTky
FramePack
Метод генерации длинных (1000+ кадров) видео от звезды опенсорсных моделей lllyasviel
480p @ 30 FPS на 6 ГБ VRAM, Hunyuan 13B
Поддерживает PyTorch, xformers, flash-attn, sage-attention
Ждем однокликовый установщик для Windows, возможно даже завтра
Код
#optimization #text2video #image2video
HiDream-I1-Dev-gguf
Еще квантизованные версии
Работает на RTX3060 с SageAttention и Torch Complie, 768x1344 100s 18steps
Веса
GGUF Loader
TEXT Encoders
VAE
workflow
#workflow #text2image
В инпейнтер картинок LanPaint добавлена поддержка генератора картинок HiDream
Для установки в #ComfyUI следуйте инструкции
Гитхаб
#inpainting #image2image
В Krea.ai завезли вчерашний Kling 2.0
На бесплатном аккаунте не потестить, разве что на новом если при регистрации дают приветственные кредиты
#text2video #image2video #text2image
Как перестать играться с ИИ и начать получать реальную экономическую выгоду.
Все говорят про ИИ, но в 90% компаний так и не заходят дальше промтов, нет понимания, что делать, чтобы получать эффект для бизнеса и использовать потенциал.
Как отличить полезные решения от бесполезных?
С чего начать бизнесу для первого экономического эффекта?
Как компании теряют деньги, внедряя ИИ без опыта?
Krisp
Голосовой шумодав (тот который встроен в дискорд) научился убирать из речи акцент. Пока только индийский акцент. В будущем добавят и другие
Можно использовать бесплатно, с лимитами
#speech2speech #deaccent #speechcorrection
и ни одного каламбура. я разочарован
Читать полностью…Remove/Replace ANYTHING with VACE+Wan2.1
Связку VACE/Wan2.1 уже используют для замены или удаления объектов на видео
Удаление объектов
Civitai
Видео
Замена объектов
Civitai
Видео
#video2video #videoediting #objectremoval #objectreplacement #cleanup #inpainting #tutorial #workflow
KLING 2.0
Масштабное обновление Kling
KLING 2.0 Master - видео. По картинке, по тексту, 720p
KOLORS 2.0 - картинки
Multi-Elements Editor - добавление, замена, удаление объектов на видео
Image Editing - Inpaint / Expand
Restyle - смена стиля изображения
Motion Control - анимация персонажа по промпту или референсу.
Только что закончился официальный полуторачасовой стрим про обновки в твиттере
#text2video #image2video #news #text2image
BoxDreamer: Dreaming Box Corners for Generalizable Object Pose Estimation
Трекер положения объекта в 3D с баундинг боксом в качестве промежуточного результата
Код ждем
Демо
#tracking #video2pose
sd-forge-fluxtools-v2
Расширение для Forge, позволяющее полноценно использовать Controlnet и Redux c Flux-1-dev. До сих пор с этим были проблемы, в отличие от ComfyUI
#extension #flux
Dreamina
В генератор картинок и видео от Capcut добавили оживлятор портретов с липсинком. Работает он на базе OmniHuman который мы смотрели в феврале без кода.
Загружаем фото, пишем текст для озвучки или загружаем аудио до 15 секунд, выбираем голос.
На выходе получаем анимацию с неплохой мимикой, жестами, движениями головы, глаз и тела.
Нужен аккаунт CapCut и веб-локация в США
Попробовать
#portraitanimation #audio2video #audio2motion #motion2video #talkinghead #lipsync
HiDream-I1
Новый опенсорсный китайский генератор картинок на совете экспертов (#MoE)
Ест 16Гб на самом деле 61Гб
Демо - пожатая модель
Код
Веса
#text2image
Browserable
JS-Библиотека для создания браузерных ИИ-агентов
Для работы понадобится API ключ одного из провайдеров Gemini / Open AI / Claude
Код
#agent
Hunyuan3D-2-stable-projectorz
Легкий установщик (Windows) Hunyuan3D, не требует установки CUDA. Работает на 8Гб VRAM
Для интеграции с текстуровщиком StableProjectorz.
Напоминаю, что все непроверенные штуки из интернета вы устанавливаете на свой страх и риск
#textto3d #imageto3d
Nunchaku v0.2.0
Обновился движок для запуска 4-битных диффузных моделей
Добавлена поддержка нескольких лор и контролнета
На 3060 12gb Flux Dev выдает 1024x1024 30 шагов euler за 14-15 секунд
Код
Демо
ComfyUI
Туториал (youtube)
#text2image #optimization #tutorial
HiDream-I1_fp8/fp16
Квантизованная версия
Веса fp8
Веса на ComfyUI fp8/fp16
ComfyUI_examples
#comfyUI #text2image
OpenAI выпустили новые модели o3 и o4-mini
o3 самая мощная
o4-mini быстрая и дешевая
Модели "думают с картинками" - интегрируют визуальную информацию в процесс рассуждений
Самостоятельно используют все инструменты ChatGPT (веб-поиск, Python, генерацию изображений)
Решают сложные многоэтапные задачи без помощи человека
Доступ сначала дадут платным подписанам и разрабам в API
#news #assistant
FireBase Studio
ИИ-программист приложений от Google в браузере. Построен на базе Code OSS (форк Visual Studio Code)
Прошло уже несколько дней как я дал ему задание, но что-то результата нет. Хотя задание было непростое. В общем, пробуйте сами
Кстати, можно начать проект не с нуля, а с загрузки уже существующего проекта, например из гитхаба
Дают бесплатно 3 проекта (это неточно, могу ошибаться)
#coding #online
Anthropic выпустили свой Deep Research
Доступен только в некоторых странах и только для платных подписанов
Умеет искать не только в интернете, но и в ваших личных данных через интеграцию в Google Workspace. Да, это тоже новая анонсированная фича. Еще анонсировали голосовой режим
Anthropic
#assistant #voicemode #deepresearch #search
Liquid: Language Models are Scalable and Unified Multi-modal Generators
Единая языковая модель в качестве мультимодального генератора без костылей типа CLIP. В данном случае картинки/текст, 7B параметров
Код
Демо
Веса
#llm #mlm #text2image#image2text #text2text
Cursor GPT-4.1
GPT-4.1 доступна в ассистенте программиста Cursor, пока бесплатно
#coding
VLIPP: Towards Physically Plausible Video Generation with Vision and Language Informed Physical Prior
генерация физически корректных видео
Код ждем
#text2video #image2video #simulation
GPT 4.1
Обычный, mini и nano
Предназначены для разработчиков, доступ по API.
Ну и дешевые
Контекстное окно до 1 миллиона токенов
Знания до 1 июля 2024 года
Playground
https://windsurf.com/ - здесь эту неделю можно бесплатно кодить на 4.1
#news #assistant
Geo4D: Leveraging Video Generators for Geometric 4D Scene Reconstruction
Еще один реконструктор 4D сцены по монокулярному (не стерео) видео. Тоже через карту глубины, а также через карту точек и карту лучей
Код
#videoto4d #scenereconstruction #4d #novelview #imageto3d #image2scene #video2scene
ИИ лишит работы даёт карьерный апгрейд
Если ты ищешь работу в сфере ИИ или хочешь встроиться в новый рынок, где нейросети стали полноценным рабочим инструментом — добро пожаловать.
В @ai_seekers ребята мониторят русскоязычные и англоязычные источники, чтобы собирать подборки вакансий, которые реально можно получить, если ты работаешь с ИИ:
— Тестировщики языковых моделей
— Prompt-инженеры
— Продакты с ИИ-бэкграундом
— Разработчики, знакомые с LLM
— Дизайнеры, умеющие творить в Midjourney и не только
И другие роли, где ИИ — часть повседневной работы.
Плюс — полезные новости, чтобы не теряться в быстро меняющемся рынке.
@ai_seekers
#промо
Видеогенератор Veo 2 доступен бесплатно в AI Studio (притворитесь что вы в США)
Разумеется, есть лимиты
#text2video
Время мемов и рефлексии
#humor
В недавнем подкасте режиссёр Джеймс Кэмерон выразил мнение, что для сохранения фильмов-блокбастеров стоимость создания графики (VFX) для них нужно сократить в два раза, но на самом деле он просто не совсем верно высказал мысль, вот цитата:
Дело не в том, чтобы сокращать половину специалистов и VFX-студий. Нужно в два раза увеличить скорость их работы над определённым шотом, чтобы весь производственный цикл шёл быстрее, а художники смогли переключаться на другие интересные задачи, а скучные вещи отдать AI.
Any2Caption: Interpreting Any Condition to Caption for Controllable Video Generation
Контроль генерации видео на основе любой входной информации (текст, нормали, глубина, эскиз, сегментация, ракурс и т д) за счет использования мультимодальных языковых моделей
Эпоха зоопарка контролнетов уходит?
В работе явно указан Hunyuan, наверняка, может работать и с другими генераторами
Код ждем
#text2video #conditioning #controlnet