cgevent | Unsorted

Telegram-канал cgevent - Метаверсище и ИИще

37805

Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn

Subscribe to a channel

Метаверсище и ИИще

Так, в Runway GEN-3 завозят LivePortrait

Сами они называют как бы лицевым мокапом.

Ну очень огненные примеры тут:
https://runwayml.com/research/introducing-act-one

Пока недоступно, но скоро будет.

Ну что, за аниматоров? Опять?

@cgevent

Читать полностью…

Метаверсище и ИИще

Mochi 1

Вы будете смеяться, но у нас новый опенсорсный видеогенератор.

https://github.com/genmoai/models

Выглядит донельзя нарядно.

А уж по приведенным диаграммам этот Genmo побивает всех кроме Клинга (какая наивная наглость).

И написано все сладко: "Модель диффузии с 10 миллиардами параметров построена на основе нашей новой архитектуры Asymmetric Diffusion Transformer (AsymmDiT). Обученная полностью с нуля, она является самой большой генеративной моделью видео, когда-либо открыто выпущенной."

По описанию напоминает Пирамиду, только с конским датасетом.

Но.

Если почитать мелкий шрифт, а точнее в самом конце, то это не 720p, а 480p.

И оно не умеет в движения: "Mochi 1 также оптимизирована для фотореалистичных стилей, поэтому не очень хорошо работает с анимированным контентом"

И вот это хорошо "В некоторых случаях при экстремальном движении могут возникать незначительные деформации и искажения."

Нет image2video.

Ну и вот вам огромная коричневая вишня:

The model requires at least 4 H100 GPUs to run.

Настораживает также, что у них есть платный генератор: https://www.genmo.ai/play - который щас не работает

В общем непонятный проект с каким-то мутным маркетингом, не очень присущим опенсорсу.

Пойду ставить.
https://github.com/genmoai/models

@cgevent

Читать полностью…

Метаверсище и ИИще

У мега-ультра-супербыстрого генератора картинок от Nvidia под названием SANA появился репозитарий на Гитхабе. Но кода пока нет, а Readme обновилось 3 часа назад. Ждем-с...
https://github.com/NVlabs/Sana

Читать полностью…

Метаверсище и ИИще

Ну и вот держите коллекцию рекламных ИИ-каверов.

Только это уже не каверы, а примеры того, как взрослые мальчики не играются с ИИ, а вовсю пользуют его в производстве.

В некоторых роликах чистый ИИ, от картинок и заканчивая звуком, обычно это Suno.
В других (как например мишки в бейсболках), есть композ и пост - это самый профессиональный ролик, наверное.
Некоторые ролики - работы с конкурсов.
У китайцев смешная реклама, да, иная.

Но суть в том, что пока мы тут рядимся, кто лучше Клинг или Минимакс, Суно или Удио, ребятки уже впахивают.

Ибо понимают, сколько бы это стоило сделать "по-старому". И если клиент доволен, то кого трясут ИИ-шные артефакты?

Если вам интересно, как это было сделано, то вот вам исходники:
1, 2, 3, 4, 5, 6, 7

@cgevent

Читать полностью…

Метаверсище и ИИще

Подложил музичку, мне кажется идеально подходит.

Опен-сорсным генераторам видео до коммерческих, как до Луны пешком. Не думаю, что что-то изменится, только если Чорный Лес нас не удивит в ближайшее время.

Щас напишу обещанный пост про Пирамиду.

Ну и вообще, есть идея написать жоский гигантский обзор видеогенераторов. Не в духе "лучшие нейрасетачки", а с глупыми коментариями, как я люблю.
Куда его лучше присунуть: Хабра, VC? Где еще остались думающие люди?

@cgevent

Читать полностью…

Метаверсище и ИИще

Веселых картинок вам с утра.

Жестовая навигация по латентному пространству цветов.


Видят ли LLM цвета иначе, чем люди?

Мы воспринимаем цвета через длину волны, в то время как ЛЛМ полагаются на семантические отношения между словами.

Карта двух цветовых пространств:
Извлечены названия цветов и их rgb-значения из Вики, сгенерированы embeddings for the names

1. семантическое цветовое пространство (размерность сжата до 3d)
2. хроматическое цветовое пространство

сорс

@cgevent

Читать полностью…

Метаверсище и ИИще

Веселых картинок с утра? Апажалста.

Маск показал своих робатов во всей красе.

Ну и кстати, робатов Optimus будут продавать за 30 000 долларов любому желающему, не только барам и ресторанам.

Я ровно дышу к теме антропоморфных робатов, но тут по крайней мере весело.

@cgevent

Читать полностью…

Метаверсище и ИИще

На фоне новостей про массовое применение ИИ в программировании и разработке, хорошо бы понять, а что думают сами разработчики, а не журналисты.

Компания Экопси проводит масштабный опрос на эту тему.

Что нужно сделать для участия?
Честно и вдумчиво ответить на вопросы по ссылке, а в конце ввести свой ник в Telegram или адрес почты.

Что дает участие в опросе?
➡️возможность узнать о новых семействах и моделях генеративных нейросетей,
➡️повод задуматься о том, что на самом деле важно в использовании и выборе нейросетей именно для вашей работы.

Среди участников опроса также разыгрываются:
▪️годовой доступ к Telegram Premium
▪️месяц премиум-подписки на ChatGPT
▪️подписку на два месяца в Альпина Digital

Опрос займёт не больше пяти минут, но принесёт много пользы тем, кто занимается разработкой. Не пожалейте пяти минут, польза будет для всех.

Читать полностью…

Метаверсище и ИИще

Утренние невеселые картинки.

Вот как пары знакомились за последние 100 лет.


Тут настолько много полярно противоположных выводов, что комментировать ничего не буду.

Но предположу, что с 2024 года понятие "пара" может начать включать в себя ИИ-партнера. Количество ежедневных юзеров Character.ai на втором месте после chatGPT, если говорить про ИИ сервисы..
200 million monthly visits
142-е место по посещаемости среди всех сайтов в мире.

Тут я уйду в душного, но одиночество убивает больше людей, чем курение, судя по статистике относительно продолжительности жизни и факторов на нее влияющих (воспринимать с осторожностью).

Сдается ИИ может порешать часть этой проблемы.

@cgevent

Читать полностью…

Метаверсище и ИИще

В Minimax теперь есть image2video.
И Minimax начинает мне нравиться все больше. Других генераторов.

Ну, за Пиксар.

@cgevent

Читать полностью…

Метаверсище и ИИще

На прошедшем демо-дне представили несколько фичей, но ничего крышесносного. Сделал краткую выжимку, часть пунктов опущены:

1. Realtime API: доступ к speech-to-speech модели для создания голосовых агентов с низкой задержкой (API поддерживает стриминг). Доступно 6 голосов (те же, что были основными в ChatGPT). В ближайшем будущем поддержка речи доедет и до Chat Completions, то есть можно будет получать на вход текст, а выдавать голос, и наоборот (сейчас, повторюсь, только speech-to-speech в реальном времени). Ценник за аудио выглядит конским ($200 за миллион сгенерированных токенов), но на самом деле за час общения будет выходить $6-10 в зависимости от баланса входной/выходной звук. Пока, наверное, чуть дороже колл-центров на Филиппинах или в Индии 🫡

2. Кэширование промптов: наконец-то можно платить меньше за запросы, у которых существенная часть начала запроса повторяется (например, ваша инструкция + примеры работы). Очень долгожданная фича, OpenAI тут буквально последние — Google, Anthropic и DeepSeek уже все добавили. Если хотите узнать больше про кэширвоание, то читайте тут. И да, картинки тоже можно кэшировать!

Дисконт составляет всего лишь 50% на токены запроса, зато вы не платите за хранение, и код менять не нужно: всё происходит на сервере без вашего ведома (минимальная длина промпта — 1024 токена, иначе кэширование не включается). Кеш хранится 5-10 минут, и гарантировано удаляется через час, что не идеально — иногда запросы размазаны по времени. Скидка 50% тоже не шик — Anthropic и DeepSeek просят платить всего 10%, а Google 25% (но чарджат за хранение по часам).

3. Vision Finetuning: теперь можно дообучать модели, подавая на вход изображения (раньше было только из текста в текст). Весь тюнинг бесплатен до конца месяца, поэтому поторопитесь, если хотите провести эксперименты — можно поиграться за копейки.

4. Model Distillation: продолжая тему дообучения, теперь можно удобно, прямо из UI, обучить маленькую модель на ответах большой (и таким образом платить меньше за примерно такое же качество). Для этого можно помечать свои сообщения флагом «store», и они вместе с ответами будут сохраняться у OpenAI. А затем вы можете запустить обучение на всех сохранённых ответах, попутно отслеживая качество на нескольких десятках/сотнях примеров, разметка которых подтверждена вами вручную.

5. o1 теперь доступна в API разработчикам tier 3 уровня — это те, кто потратил не меньше $100 за всё время (за вычетом подписки ChatGPT). Дальше, видимо, уже раскатят всем.

=====

И отдельно в конце DevDay был часовой разговор с CEO компании Sam Altman. Все вопросы и ответы записал и выложил Артём, автор канала AI для всех: /channel/nn_for_science/2224 и ниже. А вот полу-корявая видеозапись из зала на YouTube от кого-то другого. Ниже — моя выборка некоторых Q/A оттуда:

Q: Когда появятся вызовы функций в O1?
A: Вероятно, до конца года. Модель будет становиться лучше очень быстро. Мы знаем, как масштабироваться от GPT-2 до GPT-4, и сделаем это для O1.

Q: Почему мы не можем разрешить пение для advanced voice mode?
A: Я сам задавал этот вопрос 4 раза. Проблема в авторских правах на песни. Сейчас это сложный и тонкий вопрос. Мы хотим, чтобы модели могли петь, но пока это невозможно.

И ещё в какой-то момент Sam спросил, кто в аудитории считает себя умнее o1. Несколько людей подняли руки. «Думаете, вы будете умнее о2? Нет? Никто не хочет сделать ставку?»

Ждём 2025-го! o2, GPT-4.5/5, 😯

Читать полностью…

Метаверсище и ИИще

Для тех, кто совсем не в теме и малость офигевает от странного слова "риг" (не путать с играми престолов) поясню.

Вот есть у вас 3Д модель персонажа (обобщенного, это может быть глаз или ножницы).
И вам теперь надо его как-то пошевелить. Но не таскать же его за вертексы.

Вы вставляете внутрь него и вокруг него тьму управляющих объектов. Это прежде всего скелет внутри и разные кубики-шарики снаружи. Которые также управляют друг другом.

Чтобы не дергать за 100 000 вертексов на модели, а дергать за пару сотен кубиков, пытаясь привести персонаж в нужную позу.

То еще удовольствие.

Но мы тут выпиваем за риггеров (которые пишут и делают этот обвес) и молимся на нейрориг - это когда ИИ сам генерит все эти управляющие элементы (у себя в латентных мозгах), а наружу выводит рульки и педальки, за которые мы дергаем. Или за них дергает произвольное видео. И картинка меняется.

@cgevent

Читать полностью…

Метаверсище и ИИще

На text-to-image арене появилась совершенно новая и непонятная модель для генерации картинок blueberry_0, которая побивает всех на свете, включая FLUX и Ideogram

Это тонкий троллинг strawberry или это опенАИ сами троллят?

Судя по тому, как она уходит от фотореализьма, это может быть та самая Dalle-4o, про которую нам намекали в мае.

Но качество (по крайней мере на арене.. ну такое).

Давайте сюда теории заговора, что это за модель?

И нет, это не Mystic v2, Мистик - это просто Флюкс с украшалками.

https://huggingface.co/spaces/ArtificialAnalysis/Text-to-Image-Leaderboard

На реддите народ бьется в истерике уже сутки...
https://www.reddit.com/r/StableDiffusion/comments/1fp6w4n/_/

@cgevent

Читать полностью…

Метаверсище и ИИще

Как насчет LivePortrait, только не портрет а LiveBody?

Алибабищенко уже выкатывал EMO для анимации лиц, сейчас выкатил MIMO - для анимации всего тела.
Спойлер: кода, как и для EMO нет, есть пустой гитхабчег.

Ну то есть вы можете брать full body video одного персонажа, фотачку другого - и хоп, второй начинает двигаться как первый.

Это можно назвать как угодно - новый нейромокап, фулл-боди дипфейк, нейрориг и нейроскининг(для тех кто в теме).

Короче, ИИ берет и восстанавливает из видео позу - то есть двигающийся скелет (как бы нейромокап)

Потом на этот скелет он насаживает входную фотографию (или сгенерированную картинку из флюкса) - нейроскининг.

Картинка начинает плясать, как персонаж на входном видео - нейрориг.

Более того, она вписывается в исходное видео - нейрокомпоз.
Поглядите на баскетболиста.

В общем да, это обобщенный метадипфейк. На всё туловище.

Есть два минуса.

1. Кода нет. И зная Алибабского - вряд ли будет.

2. Это все НЕ видео модель, это продолжение идей Animate Anyone и кода AnimatedDiff. Поэтому карманы ездят по штанине, мелкие детали то появляются, то исчезают, а про пальцы мы не говорим.

Но подумалось мне, что мы можем подать результат в video2video от Рунвея и получить не кипящий вариант.

Время работает на ИИ. Скоро все будет. В одном флаконе. Подождите немного.

P.S. Кстати, кто не понял, на вход можно присунуть просто 3Д-скелет, если он у вас есть. Можете попробовать ваши гениальные анимации надеть на не менее гениальные фотографии и посмотреть, что будет.
https://menyifang.github.io/projects/MIMO/index.html

@cgevent

Читать полностью…

Метаверсище и ИИще

Вышел совершенно плазменный Face Fusion 3.0. Это уже не просто дипфейки, это комбайн для работы с лицом.

https://github.com/facefusion/facefusion

Круче всего выглядит Face Editor (работает через LivePortrait)

Также можно менять возраст - Age Modifier

Ну и Workflows (Job Queue System) - типа очереди на монтаж.

Поглядите вот тут эпический трейлер FF 3.0, полностью собранный в нем же.

shadyendeavor/videos" rel="nofollow">https://www.youtube.com/@shadyendeavor/videos

@cgevent

Читать полностью…

Метаверсище и ИИще

Погонял Stable Diffusion 3.5 Large в Комфи.

Гонял большую, с полным T5, поэтому памяти подъедало 28-29GB VRAM, в батчах уходило и за 40.
Считает быстро, примерно как Флюкс, даже чуть быстрее (4 сек на H100) в 1024 на 20 шагах.

По качеству, ну скажем так (это ведь все субъективно), похуже, чем Флюкс, но достойно.
Хорошо понимает промпт, но довольно бедно прорабатывает детали.

Дико мылит задник, как и Флюкс.

Кожа, лица - очень средне.

Анатомия - лучше, чем SD3, но NSFW точно нет из коробки.

В общем, с учетом того, что Stability в роли догоняющего, и Чорный Лес явно скоро выкатит ехидную ответочку, SD3.5 Large отстает от Флюкса довольно прилично.

Но в отличие от Флюкса, это не дистилят (комрессия) более старшей модели, а веса предназначенные для обучения в чистом виде, возможно сообщество сейчас возьмется доводить это дело до ума (хотя вот с SD30 не взялось).

@cgevent

Читать полностью…

Метаверсище и ИИще

Похоже вот-вот появится код от NVIDIA SANA

Как я писал ночью, они развернули репозитарий на Гитхабе. Утром поправили картинку-лого)

Но уже можно самим попробовать - они открыли демо.
Одна проблема, демо все время падает и выдает ошибку, поэтому вот вам лайфхак.

Идете сюда: https://github.com/NVlabs/Sana
И жмете DEMO|MIT сразу над общей картинкой-коллажем.

Попадаете в gradio-demo со случайным id, пробуете генерить там.
Если выдает ошибку(часто), то закрываете, обновляете страничку с Гитхабом(F5), и снова жмете на DEMO|MIT - попадаете на другое демо с другим id, которое крутится на другом серваке\GPU.

Я нашел вот такое например:
https://8876bd28ee2da4b909.gradio.live/

Не падает и даже считает в 4096х4096, как гордо заявлено на сайте, но, как в анекдоте про машинистку, получается ерунда какая-то.

В общем, не ждите качества, это попытка резко ускорить генерацию за счет нового энкодера Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models.

И если пройтись по авторам SANA, то репозитарием на Гитхабе ведает Junsong Chen, тот самый, который писал и тренировал Пиксарт-Альфу и Пиксарт-Сигму. А теперь работает в Нвидия.

Ну и пока я не очень вижу хоть какое-то качество, а в 4096 все совсем уж разъезжается. Первые две картинки как раз 4096.

Не очень понимаю, как они будут конкурировать с Флюкс Турбо с одной стороны и SDXL Turbo с другой(если речь про расход памяти).

@cgevent

Читать полностью…

Метаверсище и ИИще

Ого, ого. Новый клиент для ComfyUI.

Отдельное standalone приложение. Windows / macOS / Linux

Весит 200MB. Ставится локально, как обычная программа, без всяких ГитКлонов, ПипИнсталов и requirements.

ComfyUI Manager Shipped by Default

Табы как в браузеры и произвольные хоткеи.

Новый UI - меню со своими пунктами, трей, БИБЛИОТЕКА МОДЕЛЕЙ.

Ну и вот: ComfyUI теперь позволяет пользователям вставлять url/id модели в рабочий процесс и автоматически загружать ее. Например, если вы открываете шаблоны, но у вас нет модели, ComfyUI предложит вам загрузить недостающие модели, определенные в рабочем процессе.

Comfy Node Registry (CNR) - база кастомных нод.

PyTorch 2.5 по дефолту

Для серверов на рунпод: On the backend, you will still use the same thing as before. On the frontend, we will be able to support you to connect to runpod backend.

Да, будет портабл версия

It will install PyTorch by default. Will not affect system python

Да, будет код.

Старый пользовательский интерфейс в настоящее время находится в режиме maintenance и не получит новых возможностей. Мы призываем всех разработчиков пользовательских узлов и расширений поддержать новый пользовательский интерфейс.

Я зарегался вбету:
https://www.comfy.org/waitlist

Подробности:
https://blog.comfy.org/comfyui-v1-release/

@cgevent

Читать полностью…

Метаверсище и ИИще

Ну и сладкие остатки с AdobeMax.

Вы конечно помните все эти ситуации, когда к вам приходит (вставить нужное) и говорит:
а можно теперь для инсты квадратное?
и для сторисов можно стоячее?
а еще в шапку фб плоское?
ну и на сайт стандартное?
а, там еще размерчики новые пришли..

ты же уже сделал основную картинку, там поправить немного, да?

А у тебя глаз дергается...

Одна кнопка, Карл!

@cgevent

Читать полностью…

Метаверсище и ИИще

Это я играюсь с Pyramidal Flow Matching for Efficient Video Generative Modeling

Опенсорсным видеогенератором.

Пообщался с командой, завтра напишу подробнее.

Спойлер. Нет, вы пока ничего не сможете в нем сделать, но есть перспективы роста. Тренируют новую модель.

@cgevent

Читать полностью…

Метаверсище и ИИще

Поиск и Обновы в chatGPT

Старая обнова - кто не в курсе, теперь в chatGPT есть inpainting, кликаете в картинку, выделяете область (удобнее на дескопе мышкой или пером), справа появляется отдельное окно, вводите туда промпт - что нарисовать в выделенной области.
Из плюсов - довольно хорошо попадает в стиль картинки
Из минусов - иногда прям ацкие артефакты по краям выделения-маски.
Ну и цензура.

А в чате chatGPT появилась косая черта (как в телеге или майнкрафте).
Вводите /
И появляется менюшка(см скриншот):
Picture
Search
Reason


Первая быстрый доступ к DALL·E 3 - тут все понятно. Причем если оставляешь текст пустым, chatGPT говорит, я щас погляжу что ты там раньше генерил и сделаю похожее.

Search - это еще не SearchGPT, но возвращение chatGPT в лигу поиска. Какое-то время ему отбили мозги, и он не мог искать. Сейчас снова рыщет в интернете и выдает ссылки. Нашел мне 4 варианта OmniGen, один нужный. Я попросил его растолковать за омнигенерацию - он растолковал. В общем из всех обнов, самая полезная.

Reason - это вы можете не выходя из chatGPT-4o вызывать модель о1-preview с введенным после Reason текстом, она подумает, выплюнет умное, за которое можно будет дальше общаться с текущей моделью.

Смешно, но когда я оставил промпт для Reason пустым, то она долго думала, а потом сама для себя догадалась(!), я, говорит, щас буду ризонить про ризонинг, ну то есть думать про размышления. И ну метаразмышлять:
Reasoning is the cognitive process of looking for reasons, forming conclusions, judgments, or inferences from facts or premises. It involves the ability to think, understand, and form judgments logically. Reasoning can be divided into several types:

Работает немного глючно, как весь UI у OpenAI, иногда надо перегужать окно, чтобы он снова стал реагировать на /

Все это для Plus.

@cgevent

Читать полностью…

Метаверсище и ИИще

Krea Video Generator.

Точнее Krea Video Aggregator.

Креа молодцы, конечно.

Они норовят стать этаким генеративным хабом с инструментами для нормальных людей. Без этих вот Distillation CFG.

Как вы помните, они уже завезли к себе Флюкс, а сейчас и вовсе сделали ход конем.

У них уже есть свой видеогенератор, но он немного тряпочный - это код AnimDiff и там все немного кипит.

И тут они просто взяли, и пристегнули на сайт Люму, Рунвей, Клинг и Минимакс!

В одном окне!

Выбираешь, чем генерить, промпт, картинка и Большая Кнопка. И все!

Бета-фича, только для платных тарифов.
Я настолько растрогался, что оплатил месяц и ну генерить. За 10 баксов. Все, Везде и Сразу!

Но поздно. Их сервера уже повалили. Точнее, сервера их провайдеров.

Мне удалось сгенерить воина в Люме, по двум кадрам.
И бокал в Люме и Клинге. По тексту.
И все, потом все упало.

Там немного старый АПИ. В Рунвей нет последнего кадра. В Клинг и Минимаксе - только текст на вход.

Но я успел насладиться гениальным трюком.

Пока идет генерация, вам показывают "ход мыслей модели". Мне кажется, там рандомные умные фразы, но я даже успел записать для вас видос (см выше). И ты такой ждешь генерацию, читаешь, киваешь, да, дорогая, давай, поднажми.

В общем с одной стороны есть Адобченко и у него есть полный фарш по UI\UX и юзербазе.
Но Одна модель, и своя.

С другой стороны, рано или поздно появится такая МетаКреа, которая просто будет дергать за ВСЕ ГЕНЕРАТОРЫ ПЛАНЕТЫ, а вы только будете перебирать щами(генераторами), кричать "еще" и платить за подписку и кредиты.
В ОДНОМ МЕСТЕ!

Молодцы Креа, додумались быстро.

Завтра пойду пробовать еще...

ПС. 4 видоса съели у меня 20% от 10 баксов.

@cgevent

Читать полностью…

Метаверсище и ИИще

Gemini Advanced плюс Imagen3: тормоза на виражах.

Зарегистрировал Gemini Advanced.

И по какой-то неведомой причине скорость генерации упала раза в три (может модель другая? вряд ли)

Понимание промпта снизилось, собачки и бутылочки явно погрустнели, недолив и тоска.

Но появились люди.

Я погонял разные промпты - она очень нестабильная, прям очень.
Кожа в основном пластиковая, но девушку на траве сделала.

С пальцами ок.

Ну и главное наблюдение - не любит короткие промпты, любит хорошее описание.

Но если оно слишком длинное - отказывается. Не могу, говорит, я лишь языковая модель.

Хорошая новость - лимита я не нащупал. Но скорость, пугливость и нестабильнось делают ее непригодной. Ну для меня...

И люди за бабки - это конечно маркетинговый ход.

уж лучше chatGPT...

Потестируйте на логотипах что ли...

@cgevent

Читать полностью…

Метаверсище и ИИще

Ну наконец-то! Minimax вводит платные тарифы, а то его положили окончательно.

Да, будет unlimited plan -95 баксов.
Да, без вотермарков.
За 10 баксов в месяц - тыщща кредитов плюс 100 кредитов в день - 33 видео всего и еще по 3 в день - итого как бы 4 видео в день, если распределить на месяц.
Free Plan - 100 кредитов в день (3 видео)
Одно видео - 30 кредитов
Есть параллельные генерации (до 5 штук одновременно)
Можно докупать кредиты - 1 бакс - 100 кредитов.
Про АПИ ничего не известно.
Ничего неизвестно про unlimited plan - сколько там реально быстрых генераций в день. Не уверен, что полный безлимит.
Доброкотов, твой выход!

@cgevent

Читать полностью…

Метаверсище и ИИще

Теперь точно НейроМетаХьюман.

Недавно постил про FacePoke - это как бы UI нашлепка над LivePortrait с удобным(относительно) ригом, расположенным прямо на картинке вместо слайдеров в соседнем окне.

Автор обещает забрать из LivePortrait и остальные параметры (зрачки и пр).
А для тех, кто грустил, что это под Линукс - уже завезли это дело в pinokkio - народ гоняет это на 4070. Локально.

Более того, там еще прикручивают хоткеи для сохранения изображений, чтобы было как олдскульном риге - выставил позу, поставил ключ.
И насохраняв этого добра, вы можете скормить это в Runway video2video и получить стопитсот вариантов рендеринга вашего метахьюмана!

Забрал у Мартина, ибо хорошо. Нейрориг и Нейрорендер уже здесь.

@cgevent

Читать полностью…

Метаверсище и ИИще

Банк Точка представляет вашего личного AI-Ассистента.

AI интегрирован прямо в интернет-банк.
Он может открыть депозит, перевести деньги, сделать выписку по счёту в удобном формате и посчитать налоги и всё это не выходя из диалога.
Общается на простом языке и отвечает моментально.

AI-ассистент — не замена специалистам поддержки Точки, которые остаются на связи с вами в режиме 24/7 без скриптов и ботов.
Он даёт вам новый пользовательский опыт в интернет-банке.

Ассистент работает на базе искусственного интеллекта, и обучается новым задачам каждый день.

Это меняет дело!

#промо

Читать полностью…

Метаверсище и ИИще

Привлечение инвестиций в эпоху ИИ

Много пишу об ИИ-стартапах, но для развития проекта кроме технологии нужны деньги.

Конкретными рецептами привлечения инвестиций в своем канале делится Андрей Резинкин.

Андрей — действующей венчурный инвестор, в портфеле которого такие AI-стартапы как Aitomatic, XOR, Intone и др.

Секретный соус канала Андрея — показать процесс привлечения инвестиций в стартап именно с точки зрения инвестора.

Вот несколько характерных постов, предлагаю начать с них:

1️⃣ Какой питч-дек зацепит инвестора?

Инструкция по созданию 12 ключевых слайдов, которую вы точно законспектируете:
/channel/startup_venture/520

2️⃣ Сколько денег просить у инвестора?

Рассчитываем, когда стартап выйдет в прибыль и сколько $ для этого нужно:
/channel/startup_venture/274

3️⃣ Какая доля останется у фаундера после 5 раундов инвестиций?

Андрей делится google-таблицей со вшитыми формулами, чтобы вы могли сделать прогноз размытия фаундеров для своего стартапа:
/channel/startup_venture/289

Вообще взгляд инвестора — это в некотором смысле «мета-анализ» ввиду огромного количества просмотренных стартапов. У Андрея есть эта насмотренность!

Если вам, как и мне, заходят авторские каналы с высокой плотностью полезностей — залетайте в канал Андрея.
#промо

Читать полностью…

Метаверсище и ИИще

Я слежу за всеми этими AI 3D Generators.

Все эти многочисленниые бумаги и демо на Хаггинг Фейсе помирают сразу после публикации. Я больше не вижу смысла даже упоминать их в канале.

Среди тех, кто не помер, Tripo 3D, Meshy и Rodin.

Потому что они смотрят немного дальше, чем генерация.

Уже сейчас становится понятно, что из генерации приезжает говномеш. До тех пор, пока все используют одни и те же говнодатасеты.

Возможно что-то изменится, когда Shutterstock, который пожрал TurboSquid(не знали?) или Getty Images сделают что-то принципиально иное, на основе своих 3Д-стоков, содержащих информацию не только про облако вертексов, а и про UV, топологию, текстуры, нормали и прочая. Автодеск делал такое в 2018 году, но они выпилили из интернета это видео, хотя я в Ванкувере сам его видел на Сигграфе.

Итого, смышленые вышеперечисленные игроки пытаются пришпандорить к своим говномешам ретоп(отличная новость, смотри видео от Meshy, хотя это просто скрипт), текстуры и даже шейдеры (Rodin) - благо тут можно приподшаманить с апскейлерами и ИИ. Кстати, они делают автоматический паблишинг на Sketchfab.

Но самое дерзкое, что они замахиваются на анимацию.

Поглядите на анимационные пресеты в Meshy. Там виден, мать его, ТАЙМЛАЙН.

Да, это все пляшущие 3Д-монстротянки. И до прода там пропасть. Но до тиктока - нет.

И мы видим любопытную ситуацию. Все эти генераторы начинают обрастать функционалом взрослых 3Д-пакетов. Ретоп, риг, скин, таймлайн, ключи и пр. И как бы двигаться в эту сторону (но тут проблема в том, что для нового нормального это все ДИКО СЛОЖНО, как и весь 3Д по сути, это вам не фотошоп).

С другой стороны есть взрослыя мальчики Максон и Автодеско. Ну и прям просится пара кнопок и промпт в ZBrush. Которые и сгенерят, и отретопят, и зашейдят. И можно будет это мять в ЗНАКОМОМ интерфейсе. А не вот в этих вот веб-поделках от программистов.

Но Максон как воды в рот набрал по поводу ИИ. Автодеск что-то вякнул про Бернини и затих.

Ну и тут я ожидаю, как обычно, что Адобченко всех пожрет.
Со своим Сабстансом. Прикупив по дороге пару стартапов.

@cgevent

Читать полностью…

Метаверсище и ИИще

В общем, с китайцами надо что-то делать. Они опять выпустили новый генератор видео.

Теперь уже от ByteDance\TikTok (чуете какой там датасет).

ByteDance выпустила две новые видеомодели, Seaweed и PixelDance V1.4, которые поддерживают t2v и i2v и могут генерировать видео длиной до 10 секунд.

PixelDance V1.4 - старшая модель, примеры в посте.

Новость не такая уж и "новая". Еще три месяца назад они подавали эту работу на CVPR:
https://makepixelsdance.github.io/
И примеры там из 2023.

Сейчас вышла версия 1.4 и она вроде как сильно получше. Хотя до Клинга далеко, конечно.

Попробуйте достучаться до нее вот тут:
https://jimeng.jianying.com/ai-tool/home

Производительность довольно хорошая, поддерживаются различные стили , а также горизонтальные и вертикальные размеры(!). В шапке сравнение Seaweed, Runway и Luma. Стабильность изображения очень хорошая, и нет проблем с изменением стиля изображения или цветовых характеристик с течением времени. По стилизации под 2D-аниме он по идее превосходит Luma и Runway.

@cgevent

Читать полностью…

Метаверсище и ИИще

По одеваторы и раздеваторы я много писал.

Сегодня речь скорее не о трендах, а о масс адопшене и интеграциях с телегой.
Смотрите, один из лучших ботов для одевания и раздевания Slook теперь умеет принимать Stars из телеги. Я не понимаю, как это сделано, но оно работает. У меня, благодаря вам, накопилось немного старзов, я их, конечно, использовал с большим умом.

Взял свои генерации во Флюксе, сделанные с меня же (об этом отдельная история, как "я" завирусился везде).
Присунул их в бот и получил спикера в униформе. Забавно, что он даже попадает в 3Д-мульт стиль, но в картун ему, конечно, попасть сложнее.

Поэтому родился быстрый пайплайн для тех, кому надо погорячее. Генерим во Флюксе, раздеваем в Slook. Да, он прекрасно кушает генерации.

Всем фана.

@cgevent

Читать полностью…
Subscribe to a channel