Канал про нейросети в компьютерной графике, в кино и вообще Чат: https://t.me/+16lR_Zc8oVM2ZTky
ComfyUI-CSM-Nodes
#ComfyUI ноды голосовой модели Sesame CSM
#voicemode #text2speech #csm
🎁 PERPLEXITY PRO на год — все топ-нейросети в твоих руках!
Друзья, канал AI Апгрейд решили порадовать вас крутым подарком и разыграть целый год премиум-доступа к Perplexity Pro— где собраны самые топовые нейросети(СhatGPT 4.5, Claude Sonnet и др.)!
Для участия нужно всего-лишь быть подписанным на канал: 🚩 AI Апгрейд |Подписаться 🚩
Итоги подведем 31 марта в 19:00 при помощи бота, который выберет случайных победителей.
🍀Всем удачи!🍀
#промо
Ernie 4.5 / X1
Новая мультимодальная языковая модель от Baidu уровня GPT-4.5 за 1% от ее цены.
В двух версиях
Ernie 4.5 - нерассуждающая, с анализом картинок / документов / аудио
В чате работает бесплатно
Цены OpenAI: Input $75 / 1M, Output $150 / 1M
Цены Baidu: Input $0.55 / 1M, Output $2.20 / 1M
Ernie X1 - рассуждающая, конкурент DeepSeek R1 за полцены. Скоро в чате
Input $0.28 / 1M, output $1.1 / 1M.
Чат
#assistant #reasoning
KV-Edit: Training-Free Image Editing for Precise Background Preservation
Редактирование изображений по маске и промпту, с упором на сохранение фона неизменным.
Код
Демо
ComfyUI
#imageediting #inpainting
Sparse Voxels Rasterization: Real-time High-fidelity Radiance Field Rendering
Очередная работа Nvidia в направлении реконструкции/рендера/растеризации объемных сцен.
Выглядит как, ответ Radiant Foam
SVRaster стремится объединить скорость рендеринга гауссиан с преимуществами воксельных сеток без нейросетей и гауссиан (я правильно прочитал?)
Принцип как в nerf и 3DGS - на вход подаем ограниченный набор ракурсов сцены, на выходе вид с любого ракурса.
Код
#gaussian #rendering #novelview #image2scene #video2scene #realtime
LBM: Latent Bridge Matching for Fast Image-to-Image Translation
Универсальный метод преобразования изображений
Примеры применения: удаление объекта, генерация карт нормалей и глубины, релайтинг, реставрация/улучшение
Код
Демо (релайтинг)
#image2image #imageediting #inpainting #objectremoval #relighting #image2depth #image2normal #enhance #imagerestoration
Lara
Новый переводчик
Все пишут что убийца DeepL, но я думаю что это просто маркетинг такой
На бесплатном тарифе:
- Перевод текста без форматирования: до 5000 символов в день.
- Перевод речи с микрофона, до 2 минут за сеанс
- Перевод документов: до 4 страниц в день (без ограничений по количеству документов размером до 200 МБ каждый).
- Режим инкогнито: текст удаляется сразу после перевода.
- Использование API: до 10 000 символов в месяц.
Есть три режима: точный, литературный и творческий;
Для качественного перевода можно добавить к фразе контекст
#translation #text2text
PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC
Мультиагентная платформа для автоматизации задач на десктопе от авторов Mobile-Agent (Alibaba)
Код
#agent
BlenderMCP - Blender Model Context Protocol Integration
Адаптер, позволяющий Claude AI выполнять задания в Blender
Состоит из Blender Addon (addon.py) и MCP Server
Код
#assistant #agent #blender
🔺 GigaChat 2
Друзья, день релиза! Сегодня потихоньку выкатываем новую версию Гигачата. В API он уже доступен, также его можно попробовать в разделе Playground в консоли.
Про улучшения коллеги написали на Хабре. Из прикольного там, например, то, как у ребят получилось приручить DPO, финальный этап обучения, на котором мы пытаемся увеличить вероятность качественного ответа.
Персонажность тоже улучшили, как и вызов функций (появились множественные вызовы) и работу с кодом.
Стало ощутимо лучше, коллеги молодцы.
В обычный чат, думаю, тоже скоро доедет. Пока можете потыкать в API (ключик мой личный, там еще есть немного токенов) и в своем ЛК.
#pip install gigachat
from gigachat import GigaChat
from gigachat.models import Chat, Messages, MessagesRole
key = "NDFjYTQwOWYtYmRjZi00NzE0LTk3MTQtNWQyOWVjODBjYWU0OjU3YzhkMDgxLTgwZjMtNDQyYS05MWRjLTEyZjg0MzU4NTIyYg=="
payload = Chat(
messages=[Messages(
role=MessagesRole.SYSTEM,
content="Отвечай как пришелец с Венеры"
)],
temperature=0.8,
max_tokens=100,
)
with GigaChat(credentials=key, verify_ssl_certs=False, model="GigaChat-2-Max") as giga:
query = "Как у вас там дела?"
payload.messages.append(Messages(role=MessagesRole.USER, content=query))
response = giga.chat(payload)
print(response.choices[0].message.content)
Вот о чем говорил, примерно таким образом и будет строится пайплайн микса сиджи и ИИ, очень примерно, еще много по меняется, но суть в том что даже используя ИИ это не пару кликов нихрена, посмотрите че там чел наворотил в нодовой системе ComfyUI чтоб все это замутить.
Этой почти такой же гемор как и делать это с нуля, но конечно по итогу все равно быстрее, особенно когда уже руку набьешь. Но суть в том что это тот же инструмент и так же будет в пайплайн внедрятся постепенно, хрен знает в каком виде это будет через 5-10 лет, но как то точно будет, пока сложно предсказать, но чел вот грубо показал один из способов когда ты остаешься так же художником и контролируешь процесс, сценарий, динамику, стиль, образы и тд. Но благодаря ИИ многие этапы сильно ускоряются.
Само собой результат палится сильно и куча артефактов, но смотрите с какой скоростью это развивается, не за горами когда артефактов в видео уже не будет, точнее в Соре и Вео от гугла и даже иногда в Клинге их почти нет.
Уже вижу как сиджи чуваки со скилами в ИИ забирают работу у просто сиджи артистов, и студии отдают им предпочтение. Через пару лет.
https://www.youtube.com/watch?v=PZVs4lqG6LA&ab_channel=Mickmumpitz
VACE: All-in-One Video Creation and Editing
Видеогенератор от Alibaba / Tongyi Lab
Они прикрутили туда максимум ништяков: Move-Anything, Swap-Anything, Reference-Anything, Expand-Anything, Animate-Anything
VACE может пересоздать видео с сохранением содержимого, структуры, объекта съемки, позы и движения и т.д.
Код и модель ждем
#text2video #video2video #personalization #videoediting
AvatarGO: Zero-shot 4D Human-Object Interaction Generation and Animation
Создание анимируемых 4D-сцен взаимодействия человека с объектом (HOI) непосредственно на основе текстовых данных
Код
#HOI #textto3d #textto4d
Опубликован код и демо генератора 3D сцены по картинке MIDI-3D от Vast AI
Код
Демо
#imageto3d
3DEnhancer: Consistent Multi-View Diffusion for 3D Enhancement
А это улучшайзер реконструкций 3D объектов по нескольким изображениям-ракурсам. Улучшение 3D модели происходит за счет предварительного улучшения изображений, поданных на вход.
Код
Демо
#imageto3d #enhance3d #photogrammerty
Дайджест интересного о чем не успел написать отдельным постом
Free AI background remover: бесплатное удаление фона онлайн от Adobe #backgroundremoval
MANUS: хайповый автономный агент (записаться в вейтлист) для выполнения задач на компе, собранный из 29 инструментов. Есть расширения Chrome и Edge, аппки Android / IOS и приложения для ПК но бесплатно они мало что могут #agent
ANUS: MANUS клонировал сам себя в опенсорс #agent
OpenManus: ANUS, но рабочий. спасибо @Qwinty
Mirage от Captions: генератор видеоблогеров. За ваши $199 генерит и шевелит поясной портрет, а не только голову
Pika: добавили эффекты для превращения в ребёнка, героя, принцессу, или музейный экспонат. Pikaswaps и Pikadditions теперь генерят в 1080p. #image2video
WAN effects/LoRAs: тем временем подобные же эффекты в опенсорсе #image2video
SkyReels: добавили липсинк к своему генератору видео. Демо. #lipsync
FLARE: получение новых видов сцены или её 3D геометрии из несшитых рандомных фоток. Код / Демо #image2mesh #novelview #imageto3d
CTRL-D: редактирование видео промтом. Код #videoediting #video2video
Ideogram: выпустили Ideogram 2a и версию Turbo, для более быстрой и дешевой генерации картинок. Также улучшились тексты на них. #text2image
Light-a-Video: для релайтера видео появилось ComfyUI #relighting #comfyUI
Tight Inversion SDXL: редактирование картинок промтом. #imageediting
4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models
Слыхали про 4D-языковые поля? Я не слыхал, а они есть.
Служат, по видимому, для сегментации объектов на видео
Код
#video2mask #segmentation #gaussian
Проверка мемов. Накидываем
#humor
Image-01
Генератор изображений от Hailuo
Ежедневно насыпают 100 кредитов бесплатно, 1 картинка стоит 1 кредит
Попробовать - выбираем вкладку Create Image
#text2image
🧠 Какие нейросети помогут создать графику?
🔹 MidJourney – для артов
🔹 Runway ML – для видео
🔹 DALL·E – для генерации изображений
Perplexity Windows / Perplexity Comet
Тут в коментах выяснилось что я дед, который и переводит браузером и ищет инфу в браузере.
Специально для меня Perplexity выпустили десктопное приложения для Windows (мобильные аппки уже давно есть) и анонсировали свой браузер Comet, записаться в вейтлист можно тут
Авось мягко перееду на современные технологии
#search #news #assistant
Sesame CSM 1B
На прошлой неделе Sesame AI Labs показали интерактивную демку крышесносной голосовой модели, вам еще предлагали практиковать на ней английский.
Сейчас уже доступны веса и код
Модель генерирует RVQ аудио коды по входному тексту и аудио. Плюс, под капотом помогает Llama с декодером
Возможен файнтюн на разные голоса
На русский из коробки не стоит рассчитывать. В датасете был в основном английский.
Код
Веса
#voicemode #text2speech #csm
Sparse VideoGen: Accelerating Video Generation with Spatial-Temporal Sparse Attention by 2x with High Fidelity
Ускорение генерации видео вдвое без видимой потери качества.
Прикручено к Hunyuan и CogVideoX v1.5. В будущем обещают Wan, и Cosmos
Код
#optimiozation #text2video
Прорывные технологии ИИ для вашего бизнеса: практические инструменты, которые эффективно работают сейчас
Устали от абстрактных разговоров об искусственном интеллекте? На канале Михаила Шахмурадяна вы найдете рабочие технологии и проверенные инструменты, которые можно внедрить в любой бизнес уже сегодня! 🚀 Например, как создать любое видео для своих целей за 10 минут.
Что еще вы получите на канале:
- Готовые сценарии применения ИИ для автоматизации рутинных задач
- Обзоры новейших ИИ-инструментов для бизнеса с пошаговыми инструкциями
- Практические кейсы внедрения ИИ в российские и международные компании
- Авторские лайфхаки для 3х-кратного повышения продуктивности с помощью ИИ
Михаил Шахмурадян — эксперт, чье мнение ценят ведущие СМИ!
✔️В газете "Коммерсантъ" высказал мнение о будущем ИИ-технологий
✔️Проанализировал ИИ-индустрию в программе телеканала Москва 24
✔️ А также дал авторский комментарий по поводу релиза Sonnet 3.5
Михаил более 7 лет разрабатывает ИИ-системы для бизнеса.
Он работал с такими компаниями как Huawei, Ground Logistix и Yandex. Автор научных статей и докладчик на конференциях по ИИ.
Что обсуждаем на канале:
- Тренды цифровой экономики, которые вы можете использовать уже сегодня
- Экспертная аналитика ключевых событий техномира без хайпа и лишней воды
- Реальные истории успеха внедрения ИИ в бизнесе
- Отчеты и прогнозы ведущих ученых и мировых компаний по ИИ
Подпишитесь сейчас, чтобы получить доступ к закрытой подборке ИИ-инструментов для видео маркетинга, которые экономят десятки часов работы каждую неделю!с
#промо
GigaChat обновился
#assistant #news
Wan2.1-control-loras
Аналог контролнета для Wn2.1
Дает повышение качества
Воркфлоу в комментах
#enhance #video2video #upscale
Gemini 2.0 Flash
В Gemini завезли обещанную еще в прошлом году нативную генерацию картинок самой языковой моделью. Можно не только создавать но и редактировать с попиксельной точностью
Заходим в AI Studio, выбираем Gemini 2.0 Flash Experimental, выбираем в Output format «Image and text»
#assistant #mlm #vlm #imageediting #text2image
Кому качество кода, кому минимум галлюцинаций.
А Лламе скорость
Llama-3.3-70B-Instruct шпарит со скоростью 2000 токенов в секунду.
Видео не ускорено
Playground - попробовать
#assistant
Lipdub Translation Editor
Сервис дубляжа/липсинка Lipdub AI представил функцию корректирования перевода.
Вам дают скорректировать текст который будет звучать в финальном дублированном видео на целевом языке.
Дают попробовать даже на бесплатном тарифе
#lipsync #dubbing #personalization #speechediting #speech2speech
PE3R: Perception-Efficient 3D Reconstruction
Реконструкция 3D сцены по нескольким изображениям.
С поиском по сцене: пишем что нужно найти, и нам выделяют цветом заданный объект
Код
Демо
#image2scene #imageto3d