9769
Канал про нейросети в компьютерной графике, в кино и вообще Чат: https://t.me/+16lR_Zc8oVM2ZTky
Qwen3-4B-Z-Image-Engineer: The "Z-Engineer"
ИИ-промптер для Z-Image Turbo на базе Qwen3-4B
Обучен со снятием цензуры по методу Heretic понимать специфические требования этой архитектуры и генерировать детализированные описания
Спасибо @m_franz
#prompting #zimage
StereoWorld: Geometry-Aware Monocular-to-Stereo Video Generation
#SOTA в создании стереоскопического видео из монокулярного видео с высокой визуальной точностью и геометрической корректностью
Базовая модель — Wan2.1-T2V-1.3B. За оценку глубины отвечает Video Depth Anything
Кто умеет косить глазами для просмотра стерео - ставьте 👀
Кода нет
#novelview #video2video #stereo #mono2stereo
Efficiently Reconstructing Dynamic Scenes One D4RT at a Time
В DeepMind придумали как эффективно реконструировать динамическую 3D сцену из одного видео.
Гауссианы в препринте не упомянуты
Кода нет
#videoto4d #4d #video2scene
relsim: Relational Visual Similarity
Adobe и Co придумали новый метод измерения визуальной схожести изображений — через реляционную схожесть, а не только через атрибуты.
В отличие от существующих методов (например, LPIPS, CLIP, DINO), которые фокусируются на внешних атрибутах изображений, relsim улавливает скрытые взаимоотношения между визуальными элементами
Гитхаб
#research #vlm
Visionary: The World Model Carrier Built on WebGPU-Powered Gaussian Splatting Platform
Китайская среда для рендера и работы с всевозможными гауссианами и 3D-мешами в браузере. Построена на базе WebGPU и ONNX Runtime
Есть three.js с API на TypeScript для интеграции в веб-приложения
Гитхаб
Попробовать
#3d #gaussian #nerf #3d #3dediting #rendering #onlone #realtime
Чуть подробнее про то как строится работа с гауссианами в 17 нюке
#nuke #gaussian #compositing
Gemini Deep Research API
Гугл наверняка держит за пазухой какой-нибудь релиз на случай релизов у конкурентов.
Вчера в пику GPT-5.2 выкатили в API прокачанный Gemini Deep Research
#agent #deepresearch
GPT-5.2
OpenAI запустили GPT-5.2 — новый флагман для агентов и кода с актуальностью до 31 августа 2025.
В ChatGPT уже доступны режимы Instant, Thinking и Pro (для платных тарифов). Бесплатные пользователи получат доступ завтра. Модель доступна через API и Codex, дороже чем 5 и 5.1
GPT-5.1 останется в ChatGPT для платных пользователей ещё три месяца как legacy-версия.
#agent #coding
Disney инвестирует 1 миллиард долларов в OpenAI и заключает лицензионное соглашение, которое позволит юзерам Sora создавать клипы с персонажами из франшиз Marvel, Pixar и Star Wars
Пацаны, фальстарт, оказывается нужно было ждать разрешения 🤩
Итак, пользователи Sora смогут создавать короткие видео с 200 персонажами из упомянутых франшиз
Disney+ разрешит размещать на своей платформе «видео, вдохновлённые фанатами, созданные с помощью Sora»
То есть, помимо того дерьма за которое подписчики Disney+ платят сейчас, они будут платить еще и за ИИ-дрисню
#humor #news
Generative Video Motion Editing with 3D Point Tracks
В Adobe придумали метод редактирования движения в видео с помощью 3D-треков точек на базе Wan2.1-T2V-1.3B. Модель отличается от аналогов возможностью совместного редактирования движений камеры и объектов, сохраняя при этом контекст сцены
Модель может деформировать, удалять и добавлять объекты, менять их траектории
Полное видео 8 минут
Кода нет
#videoediting #research #cameracontrol #motioncontrol
Devstral 2
Второе поколение вайбкодинга от Mistral включает две модели, на 24B и 123B
Контекст 256k
А также Vibe CLI, аналог Claude Code/Codex, но работает только через API. С локальной моделью не работает
Говорят, что пока по API можно пользоваться бесплатно
HF
Vibe CLI
Mistral AI Studio
#coding #vibecoding #assistant
Неожиданная коллаборация года
В ChatGPT подключили Photoshop, Express и Acrobat
Работает через упоминание названия приложения вместе с загруженным файлом и текстовым запросом, например:
Adobe Photoshop, помоги размыть фон на этом изображении
Клип "Группа 22" от подписчика и активного участника сообщества @Bolserge
Мы месяцами смотрели в чате на его работу с оружием, джипами, чоповцами. Вот наконец все собрано воедино
Без прожарки пожалуйста, конструктивную критику можно
Далее текст автора
Полностью локальное. Все персонажи и представленные сцены вымышленные. Не имеют никакого отношения к государственным органам. Потраченные ресурсы: личное время, электричество и прочее.
Я это строю с весны 2025. Делал на RTX3090 + 64Gb ОЗУ.
Инструментов за 7 месяцев было в огромном количестве. Начинал с SD и Pinokio.
Шлифовал в реализм Flux 1, Wan 2.2 10Steps (Stefan Falkok), Q8.
Картинки делал по очень много времени. Далее появился QIE2509, Z-Image - и прогресс по картинкам пошёл прям хорошо.
Видео начинал с Framepack. Много интересного получил в нём, включая ракурсы для картинок.
Далее в ComfyUI - Wan2.2 в различных вариациях, включая "Remix". И на текущий момент погрузился в Hunyuan 1.5 Rapid.
Песня и музыка - Producer AI. Текст к песне собственный, но с подсказками от Perplexity.
Photoshop и Premiere - это база.
Меня поразил Topaz - без напряга, вытянул в FHD и даже местами артефакты подчистил. Улучшил качество за 5 минут.
Всю массу полезной инфы, которой обучился, получил от сообщества людей в нейро медиа направлении. В особо крупной частности - "Нейронавт". Без сообщества не было бы ничего. Вот она сила объединения людей! Но есть масса и других, которых всех не перечислить. Так что, спасибо просто людям, за инфу и подсказки в решении проблем.
Да, есть артефакты, проблемы с консистенцией и масса недостатков. Да и вообще, качество картинки во многом устарело. Работа продолжается. Наверное...
Почему все думают что в восстании машин роботы прям сразу захотят убить человеков? Может не сразу. А может и не прям убить
#humor
Эпичный тред о потемкинском внедрении Microsoft Copilot в корпорации на 4000+ человек
Copilot был внедрён для 4 000 сотрудников, стоимость составила 30 долларов за место в месяц (1,4 миллиона долларов в год)
Совет директоров быстро одобрил проект, привлечённый фразой «цифровая трансформация», не задавая вопросов о практической пользе.
Через три месяца оказалось, что только 47 человек хотя бы раз воспользовались Copilot, а регулярно его использовали всего 12 человек.
Автор поста использовал Copilot для суммирования письма, которое мог прочитать за 30 секунд, и это заняло у него 45 секунд, плюс время на исправление «галлюцинаций» инструмента.
Несмотря на низкий уровень использования, проект был объявлен успешным, а компания представлена как пример успешного внедрения AI на сайте Microsoft.
Планируется расширение лицензий на 5 000 дополнительных мест, несмотря на то что первые 4 000 практически не используются.
Полный перевод в комментариях
#news #humor
LivingSwap. Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic Quality
"Качественная" замена лиц на видео с сохранением реалистичности исходного видеоматериала.
Фокус на качестве уровня кино.
Первая модель для замены лиц, которая применяет подход с использованием видеоэталона
WindowSeat: Reflection Removal through Efficient Adaptation of Diffusion Transformers
Удаление отражений со снимков сделанных через стекло
Лора для #QIE 2509
Гитхаб
Демо
HF
#lora #imageediting #reflectionremoval
Сервис для стилизации видео Mago Studio вышел в открытую бету
Обещают что попробовать можно бесплатно
Скидка 40% на первую покупку по промокоду LAUNCH
Пробуем здесь. Если сможем достучаться до сайта
#video2video #styletransfer #stylization
Весь декабрь ПОДАРКИ 🎁 !
✱ каждый день бесплатно 1 генерация Veo3;
✱ каждый день бесплатно 1 генерация Nano Banana;
✱ на старте бесплатно 1xVeo3 и 1xNano Banana Pro, никаких подписок;
✱ а с промокодом НЕЙРОНАВТ-НГ еще одна бесплатная генерация и x2 на любую покупку!
#промо
Google Disco
ИИ-браузер от гугла превращает информацию в веб-приложение
Записаться в вейтлист - там требуют подтвердить что вы находитесь в США, так что палевные русские аккаунты наверно там светить не стоит
#browser
Z-Image-Turbo-Fun-Controlnet-Union-2.0
Обновился Контролнет 5-в-1 под #Zimage от alibaba-pai
Умеет делать инпейнтнг, аутпейнтинг
Рулька силы и количество шагов влияет на реалистичность и чёткость результатов
Спасибо @m_franz
#controlnet #conditioning #inpainting #outpainting
Qwen3-Omni-Flash-2025-12-01
Вслед за говорилкой обновили и омнимодальную модель
— лучше понимает видео и аудио в многоходовых диалогах, благодаря чему разговоры протекают естественно
— позволяет настраивать личность ИИ с помощью системных промтов, например для ролевых сценариев
— поддерживает 119 языков текста и 19 языков речи
— создаёт голоса, неотличимые от человеческих
Qwen Chat - нажмите VoiceChat and VideoChat
Демо
Демо MS
API рилтайм
API Offline
#assistant #tts #stt #multimodal #omnimodal #russian
The Nuke 17.0 beta
The Foundry приподнял веки. В 17 нюк прикрутили гауссианы и BigCat - CopyCat на стероидах
Наверняка же там все плохо, да?
Кто уже пробовал?
#nuke #gaussian #compositing
Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance
Контроль движения от Tongui Labs при генерации видео из картинки на базе Wan2.1
Движение задаем латентной траекторией
Сейчас есть модель 14B 480p и поддержка в враппере
Гитхаб
HF
fp8 scaled Kijai
#wan #motioncontrol
Saber: Scaling Zero-Shot Reference-to-Video Generation
Видеогенератор от Meta (запрещено в РФ) с персонализацией и референсами (R2V) на базе Wan2.1-14B.
Отличается от аналогов тем, что не требует специализированных наборов данных, содержащих тройки «изображение-видео-текст», а обучается на парах «видео-текст»
На черрипиках демонстрирует явное превосходство над Phantom и VACE
Помимо основной задачи имеет эмерджентные способности:
— работает с несколькими изображениями одного объекта с разных ракурсов
— связывает изображения и текстовые подсказки
— меняет визуальные детали в видео при изменении текста (например, цвет одежды)
Гитхаб
#referencing #reference2video #personalization #wan
⚡️ ВАЙБ-КОДИНГ теперь в Telegram!
Ребята сделали крутейший канал, где на наглядных примерах и понятном языке рассказывают как войти в новую эру разработки с ИИ, делятся полезными фишками и инструментами
Подписывайтесь, нас уже 10 тысяч: @vibecoding_tg
#промо
Однажды в 2022 году когда еще не было канала а был чатик на 5 человек, я хотел назвать его похожим термином. Но оказалось что это название в телеге уже было занято
#humor
Как LLM-вендоры обращаются с вашими данными: подробный разбор безопасности и конфиденциальности
Статья на Хабре от нашего подписчика @quatt1
Коротко:
OpenAI: обязана бессрочно хранить данные пользователей ChatGPT, кроме корпоративных версий и Zero Data Retention. До этого данные хранились 30 дней.
Anthropic: удаляет данные через 30 дней после удаления разговора, но может хранить до 10 лет при отправке обратной связи. Не использует данные для обучения без разрешения.
Google AI (Gemini): данные потребительской версии хранятся до 18 месяцев, корпоративной — по соглашениям. Данные не используются для обучения без согласия.
Российские вендоры (GigaChat, YandexGPT): соответствуют ФЗ-152. GigaChat может использовать данные для улучшения сервиса, YandexGPT — для коммерческого использования.
DeepSeek: использует данные для обучения и улучшений, в январе 2025 произошла утечка более 1 миллиона записей.
Провайдеры-агрегаторы (OpenRouter): не контролируют политики использования данных провайдеров моделей, пользователи должны изучать условия каждого.
Инструменты для кодинга (Cursor, Windsurf): предлагают усиленную защиту данных, Cursor — Privacy Mode с нулевым хранением, Windsurf — Zero Data Retention по умолчанию.
#safety