greenneuralrobots | Unsorted

Telegram-канал greenneuralrobots - Нейронавт | Нейросети в творчестве

4671

Канал про нейросети в компьютерной графике, в кино и вообще Чат: https://t.me/+16lR_Zc8oVM2ZTky

Subscribe to a channel

Нейронавт | Нейросети в творчестве

UFO²: The Desktop AgentOS

Десктопный ИИ-агент от Microsoft
Работает в песочнице, так что ваш монитор не занят.
Выбирает для взиамодействия родные API если они доступны

Код
Документация

#agent #desktop

Читать полностью…

Нейронавт | Нейросети в творчестве

PartField: Learning 3D Feature Fields for Part Segmentation and Beyond

Сегментация 3D объектов на составляющие от Nvidia. Работает CAD моделями, сгенерированными моделями, реконструкциями на гауссианах

Код

#segmentation #gaussian #3dsegmentation

Читать полностью…

Нейронавт | Нейросети в творчестве

Жизнь CV-модели после релиза

После релиза работа не заканчивается — и именно здесь начинаются реальные сложности. Как понять, что модель начала деградировать? Как построить поддержку, если в команде нет лишних рук? Как мониторить предсказания CV-модели?

Команда DeepSchool подготовила открытую лекцию, на которой они разберут, где и что может пойти не так после релиза, как это вовремя заметить, и что делать, если количество моделей растёт, а команда всё та же.

На лекции расскажут:
- как в реальности выглядит цикл жизни CV-модели
- как выстраивать поддержку: что можно автоматизировать, а что — нет
- как следить за качеством модели: дрифты, аутлаеры, шум, ключевые метрики
- какие есть подходы для автоматизации мониторинга модели
- и спроектируют возможное решение на примере реальной задачи

Спикеры также расскажут о курсе, на котором вы научитесь решать трудные задачи: специфичные корнер-кейсы, шумные данные, трёхэтажные постпроцессинги и прочее.

Обо всём этом расскажут:
— Анастасия Старобыховская — руководитель CV-направления НЛМК ИТ
— Тимур Фатыхов — основатель DeepSchool, ex Lead CV Engineer, KoronaPay

🗓 24 апреля, четверг, 18:00 МСК.

Регистрируйтесь по ссылке и приходите в четверг!

#промо

Читать полностью…

Нейронавт | Нейросети в творчестве

Vidu Q1

Обновка видеогенератора

1080p
Обещают четкую картинку, кинематографичные переходы, звуковые эффекты синхронизированные с видео

При регистрации нового аккаунта с промокодом VIDUQ1
дают 100 приветственных кредитов (мне дали 180 😕).

А за лайк видео в твиттере можно выиграть 600 кредитов и что-то там еще

[update] после трех генераций требует подписку

#text2video #image2video #video2sound #sfx

Читать полностью…

Нейронавт | Нейросети в творчестве

FLUX.1-dev-ControlNet-Union-Pro-2.0-fp8

Квантизованная версия универсального контролнета для #flux

civitai/workflow

#controlnet #conditioning @text2image #image2image #workflow

Читать полностью…

Нейронавт | Нейросети в творчестве

FramePack LoRa

Экспериментальная попытка прикрутить лору к FramePack. Последний основан на Hunyuan, поэтому попытка не бессмысленная.

Автор обучил лору на китайских боевиках 70-х

Первое видео - оригинальное видео

Второе - попытка воспроизвести резкое панорамирование оригинальным FramePack

Третье - FramePack с лорой

Похоже, что их можно подружить

Форк FramePack с поддержкой лоры
—————————————

Кстати, в FramePack можно разбивать промпт по тайкодам

1) в сборке от Neurogen
2) в FramePack Studio

#prompting #image2video #lora

Читать полностью…

Нейронавт | Нейросети в творчестве

SkyReels V2

Новая версия видеогенератора, умеет делать "бесконечные" видео

Выпущены модели 1.3B / 5B / 14B и код

Первая модель с открытым весом, конкурирующая с Sora, Kling и Veo2 на VBench и human evals


Генерация сюжета, генерация видео по картинке, управление камерой (эта модель будет позже), синтез видео из заданных элементов

Гитхаб
Веса
Попробовать (попробуйте создать новый аккаунт если на старом нет кредитов)
————————————

SkyCaptioner-V1

Кэпшнер от SkyReels - модель для структурного текстового описания видео

Веса
Демо ждем

#text2video #image2video #video2text #captioning #text2movie

Читать полностью…

Нейронавт | Нейросети в творчестве

DICEPTION: A Generalist Diffusion Model for Vision Perception

Единая модель создает технические карты на уровне SOTA. Умеет делать глубину, нормали, позу? разные виды сегментации.

Сохраняет мелкие детали сегментации, такие как волосы.

Код ждем
Демо

Спасибо @m_franz

#conditioning #image2mask #image2normal #image2depth #image2pose #segmentation

Читать полностью…

Нейронавт | Нейросети в творчестве

Krea Stage

У Krea AI опять обновка.
Добавили функцию генерации 3D сцен

#image2scene #imageto3d #text2scene #textto3d

Читать полностью…

Нейронавт | Нейросети в творчестве

WORLDMEM: Long-term Consistent World Simulation with Memory

Очередная бродилка по генеративным игровым мирам. Но на этот раз с памятью. Он запоминает где что было, уходите, возвращаетесь - все на месте. С реалистичными сценами тоже работает. И даже демка есть. Есть и минус, она не интерактивная, действия вводятся промптом перед генерацией

Код
Демо

#gaming #image2world

Читать полностью…

Нейронавт | Нейросети в творчестве

NormalCrafter: Learning Temporally Consistent Normals from Video Diffusion Priors

Генератор нормалей для видео, которые наконец-то не кипят и не трясутся

Демо
Код

#video2normal

Читать полностью…

Нейронавт | Нейросети в творчестве

ComfyUI Wrapper for FramePack

Kijai уже пилит.
воркфлоу
реддит
———————————
Бонус
FramePack Batch Processor

Скрипт для создания видео из каждого изображения в папке

#image2video #comfyUI

Читать полностью…

Нейронавт | Нейросети в творчестве

FLUX.1-dev-ControlNet-Union-Pro-2.0

Поддерживает разные режимы включая canny, soft edge, depth, pose, gray

Обучен на 512x512

Демо

#controlnet #conditioning @text2image #image2image

Читать полностью…

Нейронавт | Нейросети в творчестве

SHeaP: Self-Supervised Head Geometry Predictor Learned via 2D Gaussians

Реконструкция головы по монокулярному видео от Toyota

Модель предсказывает меш и натягивает на него набор гауссиан так чтобы на рендере получить исходную картинку

Кода нет 🤩

Спасибо @m_franz

#head #image2head #video2head #videoto4d #video2mesh #image2mesh #gaussian

Читать полностью…

Нейронавт | Нейросети в творчестве

InstantCharacter : Personalize Any Characters with a Scalable Diffusion Transformer Framework

Персонализотор картинок по одному образцу от Tencent

Прикручено к Flux, работает с лорами

Код
Демо

#personalization #text2image #image2image

Читать полностью…

Нейронавт | Нейросети в творчестве

CoMotion: Concurrent Multi-person 3D Motion

Отслеживание и реконструкция 3D поз нескольких человек на видео от Apple

Код
Веса

#video2pose #humanreconstruction #video2mesh

Читать полностью…

Нейронавт | Нейросети в творчестве

DIA

Голосовая модель 1.6B параметров от Nari Labs.
Создана командой из 2 человек.
Послушайте как она умеет в эмоции в сравнении с Elevenlabs и Cesame

Есть управление эмоциями и тоном через входное аудио. Модель умеет создавать смех, кашель, прочищение горла и т.д.

Код
Демо
Демо 2
Колаб
Записаться в вейтлист более мощной модели

#tts #text2speech

Читать полностью…

Нейронавт | Нейросети в творчестве

VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning

Это Flux Fill обученный на матрицах входных изображений.

Получает на вход матрицу картинок, например 2 ряда, 2 столбца и понимает какую задачу надо выполнить. Задач можно придумать много от переноса стиля до смены времени года и генерации технических карт.

Разрешение входных изображений в матрицах при обучении 384x384 пикселя

Много примеров на гитхабе и в демоспейсе

Очень интересно какое применение вы ему найдете?

Поломал голову пока понял что он делает и как это описать. Теперь не знаю какие теги придумать.
В коментах подсказывают что это близнец In-Context-LoRA

Код
Демо
HF

#referencing #image2image #conditioning #text2image

Читать полностью…

Нейронавт | Нейросети в творчестве

MAGI-1

Новый видеогенератор длинных видео в опенсорсе
Две модели: 24B и 1.5B. Последняя вероятно запустится на RTX 4090


Попробовать можно онлайн, там насыпают кредитов

Попробовать
Веса
Код

#text2video #image2video

Читать полностью…

Нейронавт | Нейросети в творчестве

Сколько часов у вас уходит на проверку фактов от ChatGPT?

Вы спрашиваете ChatGPT. Получаете уверенный ответ. А затем... тратите в три раза больше времени, проверяя, не выдумал ли бот цифры, факты и цитаты.

Уми не страдает синдромом всезнайки! Он честно ищет информацию в интернете в реальном времени и всегда показывает источники. Вам не придется гадать, можно ли доверять ответу – вы сразу видите, откуда взяты факты.

Хватит тратить время на проверку выдуманных фактов. Получайте достоверные ответы сразу – @umiaibot

#промо

Читать полностью…

Нейронавт | Нейросети в творчестве

Новый драйвер Nvidia 576.02 может сжечь вашу видеокарту

Я просто паникер, поэтому сам не проверял

Новый драйвер Nvidia перестает обновлять данные с датчика температуры и не включает кулер даже при максимальной нагрузке

Безопасные версии драйверов:
для серий 30xx и 40xx - 566.36
для 50xx - 572.83

#news #driver #gpu #лучшеперебздетьчемнедобздеть

Читать полностью…

Нейронавт | Нейросети в творчестве

Опубликован код ReCamMaster, модели для изменения траектории камеры в видео.
Родную модель t2v использовать нельзя, но они прикрутили Wan2.1

Обещают онлайн сервис, новости ждем на сайте Kling

Код
Воркфлоу
Видеотуториал

#cameracontrol #novelview #video2video #stabilization #workflow #tutorial

Читать полностью…

Нейронавт | Нейросети в творчестве

Время мемов и рефлексии

#humor

Читать полностью…

Нейронавт | Нейросети в творчестве

В репозиторий FramePack добавлен инсталлятор для Windows

Скачиваем, распаковываем, запускаем сначала update.bat (важно), потом run.bat

спасибо @Skubidoo

Инсталлятор

#text2video #image2video #windows

Читать полностью…

Нейронавт | Нейросети в творчестве

IndexTTS: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System

Голосовой движок от Qwen
Говорит на английском и китайском
Есть контроль эмоций, контроль произношения/акцента

Работает на 4Гб VRAM

Пишут что не дотягивает до Zonos, но превосходит другие типа Spark, XTTS

Код
Веса
Видео туториал

#voicecloning #text2speech #tts

Читать полностью…

Нейронавт | Нейросети в творчестве

А еще o3 прекрасно определяет где было сделано фото - попробуйте, она прям в деталях каждый фрагмент рассматривает

Читать полностью…

Нейронавт | Нейросети в творчестве

Avat3r: Large Animatable Gaussian Reconstruction Model for High-fidelity 3D Head Avatars

Анимируемый 3D-аватар головы по 4 входным портретам за один прямой проход от Meta Reality Labs.

Создается за несколько минут, далее анимируется интерактивно, ~8fps на RTX 3090 GPU

Код ждем

Спасибо @m_franz

#head #image2avatar #talkinghead #gaussian

Читать полностью…

Нейронавт | Нейросети в творчестве

Купон на 20 баксов на fal.ai
Можно генерить видео.

Ещё работает:
https://t.co/EgEcrNuWh3

Читать полностью…

Нейронавт | Нейросети в творчестве

LTXVideo 0.9.6

Обновка видеогенератора, две модели

ltxv-2b-0.9.6-dev-04-25 - улучшили качество
ltxv-2b-0.9.6-distilled-04-25 - быстрый как саморазборка старшипа в верхних слоях атмосферы, в 15 раз быстрее недистиллированного брата

Сэмплирование за 8 (рекомендовано), 4, 2 или 1 шаг

Новое разрешение по умолчанию 1216 × 704 @ 30 FPS

воркфлоу
Гитхаб

#image2video #text2video #workflow

Читать полностью…

Нейронавт | Нейросети в творчестве

Wan2.1-FLF2V-14B

Выпустили модель генерации видео по первому и последнему кадру, 14B параметров

Только 720p

Веса
Веса у Kijai
Гитхаб
Kijai Workflow

#image2video

Читать полностью…
Subscribe to a channel