cgevent | Unsorted

Telegram-канал cgevent - Метаверсище и ИИще

37800

Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn

Subscribe to a channel

Метаверсище и ИИще

В 3Д-генераторы приходят контролНеты и метаиндусы.

Вот есть мой любимый Rodin-1 то бишь Родэн-Один.

Они тут обзавелись новым доменом:
https://www.hyper3d.ai/

И флексят там новую модель
Gen-1 RLHF V0.9 (Public Beta)

RLHF - означает, что они взяли и сгенерили сто тыщ - это буквально 100 000 штук - моделей, потом посадили метаиндусов, которые ручками разметили эти модельки - тут ножки, тут рожки, а тут рыбу заворачивали.

И получили модель с повышенным попаданием в ожидания пользователя.

Но это еще не все.

Чтобы попадать в ожидания пользователя еще лучше, они придумали свой 3Д-контролнет.

Можно дополнительно подсунуть на вход вместе с промптом и картинкой либо БаундингБокс(это просто параллелепипед, в который втиснется модель). Либо пойнтклауды, либо воксели - куда генерация тоже постарается втиснуть порождаемую модель. См видео.

Выглядит здраво. Только вот где нетридешный пользователь возьмет пойнтклауды? Впрочем, тут вот и поликам пригодится. И другие нейровидеосканеры. Щелкнул, промптнул и пошел. Генерить.

@cgevent

Читать полностью…

Метаверсище и ИИще

Github Copilot начинает серьёзно конкурировать с Cursor

На Github Universe показали новые фичи Copilot, похоже после продолжительного застоя компания всерьёз взялась за конкуренцию.

➖ Добавили поддержку новых моделей - Gemini, Claude Sonnet (нужно отдельно включать в настройках) и o1-preview с o1-mini. Модельки будут раскатывать в течении следующих пары недель. У меня уже есть Sonnet и o1, жду Gemini.

➖ Наконец-то добавили multi-file editing.

➖ Кастомные промпты для моделек - наконец-то в чате не нужно будет повторяться каждый раз чтобы добиться нужного результата. Вот инструкция по конфигурации.

➖ Copilot теперь доступен в Xcode и Windows Terminal.

➖ Code Review - теперь коммит можно заревьювить с помощью ИИ прямо в редакторе.

Показали и Spark - платформу для создания и хостинга миниапок с помощью ИИ. Записаться в waitlist можно тут.

Большая часть показаных фич уже доступна, правда некоторые лишь в превью.

@ai_newz

Читать полностью…

Метаверсище и ИИще

Стабилити бахнули Stable Diffusion 3.5 Medium

Два главных плюса:

Она маленькая, такого же размера как SDXL. И по идее будет влезать в 10 Гиг врам, а с оптимизациями и в 8Гиг, после того как T5 пожмакают.

Она шустрая. На разных тестах в 3-4 раза быстрее, чем Stable Diffusion 3.5 Large.

А качество сопоставимое.

Еще два плюса:
Хорошая лицензия.
Она умеет аж в два мегапикселя (Large не умеет, что странно). 1440х1440 - апажалста.


Ну и самое главное, в отличие от дистиллированного Флюкса, она поддается предсказуемой тренировке.

И, возможно, скоро мы получим файнтюны 3.5 Medium, с совершенно убойным пониманием промпта. У нее там improved MMDiT-X architecture and training methods.



Для тех, у кого нет пацталом H100 - это прям очень хорошая новость.

Го тестировать, все уже положили куда положено.
В том числе в Комфи:
http://blog.comfy.org/sd-35-medium

Пробовать можно тут:
https://huggingface.co/spaces/stabilityai/stable-diffusion-3.5-medium

Модель
Archive
Github

@cgevent

Читать полностью…

Метаверсище и ИИще

Я вынесу из коментов две вот такие сентенции.

По итогам предыдущего поста.

Я, кстати, только за. За такое использование ИИ.

Так вот, получается, что ИИ нас уже не только хорошо лечит.
Но и уже воспитывает новое поколение кожаных.
С младенчества.

Надеюсь они вырастут чуть лучше, чем мы.

@cgevent

Читать полностью…

Метаверсище и ИИще

Runway: раскатали публичный доступ к Act One, инструменту для переноса своей мимики на персонажей.

Специального оборудования не требуется — достаточно видео с собой. Похоже на LivePortrait... и скорее всего он и есть под капотом.

Runway предоставили гайд как добиться лучших результатов.

Стоит 10 кредитов/сек, минимум 50 кредитов на видео. Максимальная длина видоса 30 сек. В безлимитном тарифе есть Explore Mode.

Сайт
Гайд

Читать полностью…

Метаверсище и ИИще

🌳 ChatGPT выбрасывает меньше CO₂ при написании текста, чем человек.

Последние пару лет климатические активисты обвиняли нас в том, что этот наш ИИ жрет тонны энергии и изрыгает тонны углекислого газа, в результате чего старадает родная планета.

Все оказалось ровно наоборот.

Статья в Nature, которая как-то прошла мимо пабликов, приводит цифры:
— генерация страницы текста выбрасывает в 130-1500 раз меньше CO₂, чем средний кожаный.
— генерация картинки — в 310-2900 раз меньше.

Похоже, для спасения планеты избавляться придется все-таки именно от людей.

🔴 @reptiloidnaya × #ai #llm

Читать полностью…

Метаверсище и ИИще

Тут вот в Нейросайенсе интересная статья на тему гибридизации искуственного и естественного интеллектов, о которой мы говорили недавно с Сергеем Кареловым.

Мне кажется, что авторы злят старика Оккама, но они красиво вводят новую сущность, Систему 0 - по аналогии с двумя моделями человеческого мышления по Канеману: Системой 1, характеризующейся интуитивным, быстрым и автоматическим мышлением, и Системой 2, более аналитическим и рефлексивным типом мышления.

«Система 0» - это как бы когнитивная структура, в которой искусственный интеллект (ИИ) улучшает человеческое мышление, обрабатывая огромные данные.

Тут хочется провести аналогию с появлением калькулятора, потом интернета, потом гугла, а потом рекламных сетей, ибо авторы постулируют вот так:
Система 0» относится к ИИ как внешнему инструменту мышления, дополняющему человеческое познание.
Чрезмерная зависимость от ИИ грозит снижением человеческой самостоятельности и критического мышления.

"Взаимодействие человека и искусственного интеллекта формирует новую систему мышления, новую когнитивную схему, внешнюю по отношению к человеческому разуму, но способную усилить его когнитивные способности."

В принципе, если в статье заменить ИИ на слово Интернет или Инстаграм (ну или взаимодействие с Интернетом), то мало что изменится.

Ну и в статье многократно повторяется довольно банальная и неприятная мысль - человеку надо постоянно брать ответственность за свои выборы. А введение Системы 0 - это скорее красивый философский ход, хотя тут он подается как психологическо-научный.

«Растущая тенденция использования синтетических или искусственно созданных данных может поставить под угрозу наше восприятие реальности и негативно повлиять на наши процессы принятия решений».

Инстаграм может поставить под угрозу наше восприятие реальности и негативно повлиять на наши процессы принятия решений - это уже я сделал подстановку.

"Они приходят к выводу: если не остановить Систему 0, в будущем она может повлиять на человеческое мышление."

Они приходят к выводу: если не остановить Инстаграм, в будущем он может повлиять на человеческое мышление.


Мне кажется тут точно множатся сущности без необходимости.

А я разверну мысль вот в таком направлении.

Вот щас многие пишут код с помощью ИИ (система 0 типа). Если код реально большой, то где гарантия, что в нем нет дыр?

Если предположить, что с некоторого количество строк вероятность появления дыр в безопасности кода чуть подрастает, то переходим к следующему пункту.

Вот щас многие пишут\генерят тексты и вообще контент с помощью ИИ (промпты и все дела).
Если все это работает на больших объемах коммуникаций, то где гарантия, что там нет дыр?

Дыр в безопасности. В кукушке.

P/S/ В конце статьи есть хорошая мысль, которую я тут постоянно повторял, пока не увлекся Флюксом и Гитхабом: "с развитием искусственного интеллекта может появиться возможность полагаться на интеллектуальные системы для анализа нашего поведения и психических состояний".
Иначе говоря, поиск дыр в безопасности.

https://neurosciencenews.com/ai-human-decision-thought-28911/

Читать полностью…

Метаверсище и ИИще

Международная конференция по искусственному интеллекту и машинному обучению AI Journey пройдёт в Москве с 11 по 13 декабря.

Традиционно программа AI Journey будет разделена на три тематических блока: наука, бизнес и общество. В рамках трека «Наука» участники смогут послушать доклады ведущих международных учёных и узнать о последних достижениях в развитии AI-технологий, и о том, как AI помогает в исследованиях. В треке «Бизнес» можно будет узнать о практических кейсах внедрения AI-решений в различных сферах экономики и оценить возможности AI для повышения эффективности предприятий. А в треке «Общество» обсудят искусственный интеллект для решения социальных задач. Также в ходе AI Journey будут подведены итоги открытого отбора научных статей — AIJ Science

Ключевая идея конференции о возможностях AI на благо человека - поговорить о том, чего люди и организации ожидают от искусственного интеллекта и в чём видят его роль. Мероприятие состоится в гибридном формате, будет организована онлайн трансляция на сайте.
В прошлом году было 200+ спикеров, 150 млн просмотров за три дня конференции.

Программу вот-вот опубликуют, ждем.

Все подробности:
https://aij.ru/

Читать полностью…

Метаверсище и ИИще

SAM2Long - быстрее и длиннее.


SAM 2 страдает от проблемы "накопления ошибок", когда ошибочная или пропущенная маска каскадирует и влияет на сегментацию последующих кадров, что ограничивает производительность SAM 2 при работе со сложными долгосрочными видео.

SAM2Long решает эти проблемы.

Код есть, все есть.

https://mark12ding.github.io/project/SAM2Long/

Читать полностью…

Метаверсище и ИИще

Как я уже писал, OmniGen надо "разговорить".

Он очень хорошо понимает промпт. Поэтому берем унылый промпт из предыдущего поста и прогоняем его через chatGPT (типа сделай красивый промпт).
Получаем вот так. Забираем во флюкс или где вы там для улучшайзинга.
Вопрос с цензурой на селебов закрыт.
Кстати, chatGPT не шарахается от ZZ-Top, а сам подливает их в промпт. Лицемер.

Two men playing electric guitars with intense energy on stage, styled with long beards, sunglasses, and hats reminiscent of ZZ Top. They are in a rock concert setting with vibrant lighting and smoke effects in the background, emphasizing a powerful and dynamic performance. The atmosphere is energetic, with the guitarists wearing classic rock attire, surrounded by amplifiers and stage equipment, capturing the essence of classic rock music and ZZ Top's iconic look. A man is <img><|image_1|></img>. The second man is <img><|image_2|></img>.

1024x1024

Time spent 01:46, 2.14s/it, H100 80GB

@cgevent

Читать полностью…

Метаверсище и ИИще

Karma Bitch, меня скормили ИИ. Свои же

Отвлекусь от тестирования OmniGen и GenMo, которые превращают канал в гиковский поток сознания.

Тут вот Даня Криворучко окончательно овладел питоном и первое, что он написал, это бота, которые поедает мой канал и выдает ему не мои дурацкие тексты, а ровную спокойную выжимку новостей.
Не всем нравится мой гопнический стиль ведения канала, это норм, но это самое элегантное решение, которое я видел.

"После двух вечеров обычного и assisted программирования на пару с Claude/ChatGPT у меня теперь на дроплете из DigitalOcean постоянно крутится скрипт, который слушает канал Сергея, из каждого нового сообщения берет текстовую часть и отправляет через API на редактуру в gpt-4o, а потом вместе с оригинальными картинками/видео присылает мне обратно в телеграм. За $6 в месяц я теперь счастливый человек".

Ну и ирония в том, что меня скормили в ИИ и я сижу в тишине и, не чокаясь, выпиваю за себя.

Кто совсем в танке, Даня - это самый крутой моушен-дизайнер и эфыксер на планете. Потому что не только знает Гудини как бог, но и умеет в красивое. Я знаю очень мало людей, которые умеют, обобщенно говоря, и рисовать и программировать, и делать ресерч на очень высоком уровне.

Из коммерческого моушена вы к примеру могли видеть его открывающие титры к сериалу Foundation
https://myshli.com/project/foundation-opening-titles

Из некоммерческого - сай-фай-долгострой, который Даня делал по книжке Питера Уоттса "Ложная Слепота"
https://myshli.com/project/blindsight

Ну и почитайте, как он меня оцифровывал, чтобы кровавые слезы не текли из глаз.
/channel/myshli_channel/730

А я попробую неделю воздержания от погребальных постов, Адобченко и "приповзвигнуть".

@cgevent

Читать полностью…

Метаверсище и ИИще

Нейро-MMA, который мы заслужили.

Тут прекрасно все, видно, что промпты писали люди в теме (темах).
Ну и обязательно досмотрите до 0:55.
Там становится понятно, кто главный на поляне.
И это прям отсылка к прогрессу в области видеогенераций, да и в принципе развития ИИ.

@cgevent

Читать полностью…

Метаверсище и ИИще

Интересно, как Krea превращается в агрегатор видеогенераторов и творчески переизобретает адобовские (ну и в принципе монтажные) фишки.

Теперь видео можно продолжать с последнего кадра. Переход между видео делать нельзя.
И это понятно - тут вообще нет никакой магии, просто завернули в UI процесс image2video, где на входе последний кадр. Можно и ручками.

Примечательно то, что в Креа это можно делать ЛЮБЫМ (имеющимся там) видеогенератором.

Причем их туда завозят и плодят регулярно - теперь там есть Pika, появились разбивки на Kling Standard и Kling Pro. Ну то есть вы еще держите в голове экономику - чем лучше и чем дешевле сгенерить такой переход.

И, как по мне, это начинает усложнять процесс для обычного пользователя.
Одно дело, ты выбираешь чем апскейлит картинку - бикубик, билинеар или ланкрос - есть опыт и платить не надо.

А тут тебе говорят - на что изволите потрать доллар, чтобы поэкспериментировать с непонятками на выходе??

Кожаный мерзавец, как правило, хочет знать, на за что он платит. И если в одном генераторе он как-то приноровился к промптам и фишкам, то тут ему говорят - а выбери из списочка из 6 видеогенераторов и промпт напиши обобщенный (какой?).

Да, понятно, что с картинками этот путь уже пройден - этих генераторов-агрегаторов сотни, которые говорят, чем изволитье погенерить сегодня за 20 долларов в месяц?. Но там другая экономика.

Ну и как по мне, у такого агрегатора должен быть свой ИИ, который поймет, что кожаному надо, и выберет генератор сам. В этом и ценность Адобченко - не надо думать, можно делать. В одном месте.

А про UI сейчас напишу следующий пост.

@cgevent

Читать полностью…

Метаверсище и ИИще

Anthropic тоже запустил возможность в интерфейсе при ответе писать и запускать код, и на ее основе выпустил инструмент анализа данных - https://www.anthropic.com/news/analysis-tool

Вот что пишут:
- Маркетологи могут загружать данные о взаимодействии с клиентами на всех этапах воронки продаж, и Claude выявит возможности для повышения конверсий.
- Продавцы могут загружать глобальные данные о продажах, и Claude предоставит анализ производительности по странам.
- Продакт-менеджеры могут загружать данные о вовлеченности пользователей, и Claude поможет спланировать спринты и определить приоритеты разработки.
- Инженеры могут загружать журналы производительности серверов, и Claude определит области для оптимизации использования ресурсов.
- Финансовые команды могут загружать ежемесячные финансовые данные, и Claude создаст финансовую панель для отображения ключевых тенденций и поддержки принятия решений.

Читать полностью…

Метаверсище и ИИще

OmniGen в режиме text2image.

Ну в общем никак. Либо я не подобрал промпты или не знаю каких-то особенных триггерных мантр.
Я взял своих промптов и флюксовых с prompt hero и прогнал на них.
Нет.
Это скорее уровень SD1.4
Либо я что-то упускаю.
В анатомию он не умеет, хотя пальцы в большинстве своем неплохо.
В NSFW традиционно портит картинку, но не так как флюкс или sd35
Кожа - пластик.
В разные стилизации - неплохо.
Но в целом - похоже он не для этого.
А для голосового нейрокомпоза имеющихся картинок.

Простите, но теперь все будет про Омниген.

@cgevent

Читать полностью…

Метаверсище и ИИще

МАРДИНИ: Тут Метачка дразнится еще одним видеогенератором.

Хотя они про свой MovieGen прямо сказали "не будем запускать его как продукт до 2025 года".

А теперь вот тизерят еще один подход.

Наша модель разделяет генерацию видео на две подзадачи - временное и пространственное моделирование, которые выполняются разными сетями с асимметричным дизайном, основанным на следующих двух принципах:
MAR занимается временным моделированием на большом периоде, а DM фокусируется на детальном пространственном моделировании в кадре.
MAR работает с большим количеством параметров при низком разрешении, а DM работает с меньшим количеством параметров при высоком разрешении.

Подробности по времени и качество по пространству.

Картинки на сайте сладкие как обычно.

Но ни кода, ни демо, ни малейших намеков где, когда и сколько нет.

Ну и знаете, что меня подбешивает в во всех этих "результатах"?

"Мы представляем 17 кадров, которые рендерятся с частотой 8 кадров в секунду, создавая плавные 2-секундные видеоролики."

Нет, это не плавные двухсекундные ролики. Это полсекунды на стандартных для видео 30fps.

Понятно, что можно растянуть хоть на 10 секунд не иишными алгоритмами.

Но 17 кадров - это 17 кадров, и ничего более.

Причем все, кроме Genmo так пишут про 2 секунды, 5 секунд и пр.

Ладно, заканчиваю ворчать, пойду мучить Mochi-1, пока метачка дразнится сферическими продуктами.

https://huggingface.co/papers/2410.20280
https://mardini-vidgen.github.io/

@cgevent

Читать полностью…

Метаверсище и ИИще

У нас тут новая интрига в картиночных генераторах.

На Image-арене всех побивает некая Красная Панда.

Причем хорошо так побивает. С оттяжкой.

Народ в сети просто голову сломал и делает ставки.

Я поресерчил твиттор.

Михаил Парахин из Microsoft, похоже, знает, кто это такие. Он говорит, что они существуют уже некоторое время, говорят на английском языке, и, что Adobe - это близко по смыслу. Он также сказал, что это не OpenAI, не Black Forest Labs, не Mistral и не Google.
https://x.com/MParakhin/status/1851287090748953038

Я был уверен, что это Квай\Клинг\Колорс (красные китайские панды). Если они англоговорящие, не французы и не китайцы, то кто?

Runway или Canva?

Наваливайте ставки в коментах.

@cgevent

Читать полностью…

Метаверсище и ИИще

🤖 ИИ и iGaming — в чем связь?

AI трансформирует индустрию, и знание его возможностей — ключ к успеху.

➡️ Поэтому тебе нужно подписаться на Owner 1win!

На канале ты найдешь:

Анализ трендов — как AI меняет правила игры в индустрии азартных игр;

Инсайты от экспертов — мнения лидеров рынка о будущем iGaming с использованием ИИ;

Новые подходы к монетизации и привлечению игроков.

😍 Присоединяйся к Owner 1win и будь первым!

Читать полностью…

Метаверсище и ИИще

Маск - красавчик. Рвет все шаблоны и, вообще-то говоря, вторгается на очень чувствительные территории.

Картинка у меня кликбейтная, но он предложил всем отправлять в Grok рентгеновские, ПЭТ, МРТ и другие медицинские изображения для анализа.

"Это еще ранняя стадия, но она уже достаточно точна, а в будущем станет еще лучше.
Сообщите нам, где Grok делает все правильно"


Дальше - больше.

Народ в твитторе уже спрашивает, а Маск отвечает:

Сможем ли мы предоставлять другие медицинские результаты, например, результаты лабораторных исследований, чтобы Grok мог анализировать тенденции и объяснять терминологию?

- да

Кажется, что мои результаты анализов крови точны.

- круто

Дальше там вот такие панчи:

- Я с нетерпением жду, когда Grok станет лучшим личным помощником врача. Представьте, если мы сможем диагностировать все более точно и быстро, здравоохранение станет намного лучше.
- Они уже передают чтение на аутсорсинг в Индию. Очень сомневаюсь, что вам удастся добиться снижения цен.
- Grok работает быстрее, чем канадская система здравоохранения!


Ну а дальше самое интересное:

Когда мы сможем представлять счета или юридические документы @elonmusk? Ограничение на количество символов должно быть увеличено.

Маск: Coming soon...

Понятно, что вы давно можете вгрузить свои снимки и анализы в chatGPT. Но нигде и никогда OpenAI не рекомендовала этого делать. Ибо это поднимает очень много вопросов у медицинского и юридического лобби.

А Макс просто пишет - валяйте ребята. Грузите все это добро в Грок и экономьте на дохтурах.

@cgevent

Читать полностью…

Метаверсище и ИИще

На что я потратил длинные выходные.

Как я уже писал, авторы Genmo - платного сервиса для видеогенерации, выложили код в опенсорс и назвали его Mochi-1.

По умолчанию он требует 300 гиг врам(!). У меня не запустился на двух А100. Мало, говорит, памяти, в твоей чахлой машине.

Но прекрасный Jukka Seppänen написал враппер на Комфи и он, о боги, работает на 24 гига врам. Как?
Более того, если в нем выключить vae_tiling он помещается в 40 гигов и довольно шустро бегает на H100.

Короче, после трех дней переписок с разрабами и установки какой-то дополнительной дичи, я его завел. И немного погонял.

Пока мы ждем второй модели от Пирамиды, это пожалуй самое интересное опенсорсное решение, точно получше CogVideo. Но я еще не тестил Аллегро.

Более того, есть подозрение, что на гитхабе у них лежит неактуальная модель, причем всего лишь в 480р. А на платном сайте работает тюненная и в 720p, которую они тоже обещают выложить в опенсорс.

Также я провел пару часов (вместо пары кликов), пытаясь понять как делать гриды в Комфи. Треш, конечно.

Но в итоге насчитал некоторое количество вариантов.

Скоро поделюсь.

Если что, присылайте промпты в коменты. Или скажите, откуда их забрать.

Ох, забыл ссылку на враппер - https://github.com/kijai/ComfyUI-MochiWrapper

@cgevent

Читать полностью…

Метаверсище и ИИще

Вышел Flux IP-Adapter v2 от XLabs


Как его ставить, скачивать и что надо делать читаем тут.
https://huggingface.co/XLabs-AI/flux-ip-adapter-v2

Я погонял, он забавно работает. Вместо Моны Лизы, которая есть в любой трейне, присунул ему Марго Робби. И надел очки на нее. Фирменные брови он срисовал отлично.

Погонял еще на своих генерациях из OmniGena. Если ему помогать промптом (например попросить у chatGPT), то получается совсем нарядно. Очки надевает, бороды отращивает.

А еще вместо пустого латента, как в примерах, можно исходную картинку вонзить в латент Xlabs Sampler и тогда можно будет дополнительно подруливать сходством через i2i strength.

В общем с гитаристами, позами и Марго Робби он справился.

@cgevent

Читать полностью…

Метаверсище и ИИще

ИИ-агенты добрались до минта NFT-коллекций и вообще практически любых действий на блокчейне.

Открытие кошельков, регистрация имен и пр.

Для тех, кто в теме - поглядите, как происходит общение с агентами. Особенно мне понравилось: "будь креативным и сообрази что-нибудь интересненькое на базовом блокчейне, и не спрашивай меня больше ни о чем".

Однокнопочный минт коллекции. Где вы были 3 года назад?

Подробнее тут:

https://cointelegraph.com/news/coinbase-based-agent-ai-agent-crypto-transactions-brian-armstrong-base

@cgevent

Читать полностью…

Метаверсище и ИИще

- Google выпускает лучший продукт за годы, NotebookLM
- Через три недели Meta релизит опенсорсную и бесплатную альтернативу, NotebookLlama

Как это работает?
1. PDF или другой документ превращается в текст
2. На основе текста собирается сценарий подкаста
3. Сценарий обрабатывается, добавляет драматургия
4. Генерируется аудио

Работает с любой моделью, запускать можно локально.

Скачать можно тут: https://github.com/meta-llama/llama-recipes/tree/main/recipes/quickstart/NotebookLlama

Читать полностью…

Метаверсище и ИИще

IC-Light V2 is a series of Flux-based models

Автор Фокуса и Форджа живёт в параллельных мирах. И как-то находит время на тьму проектов.

Новый релайтер на базе архитектуры Flux.

Умеет не только в фото, но и в стилизованные картинки, и гораздо жёстче держит детали с исходного изображения.

Уже есть демо:
https://huggingface.co/spaces/lllyasviel/iclight-v2

А код будет вот-вот.
https://github.com/lllyasviel/IC-Light/discussions/98

@cgevent

Читать полностью…

Метаверсище и ИИще

Ну и кстати, вот эта вот сентенция Дани Криворучко:
"Хочу теперь чтобы в Телеграме и экс-Твиттере это было дефолтной фичей - оставлять суть контента, но форму подачи подстраивать под предпочтения читателя, а не автора."
очень хорошо бьется с моими постами про ИИ-каверы.
Я тут писал, что Дима Киселев сделал 20 ИИ-каверов на одну песню Литтл Бига, а народ в интернетике переделывает легендарные (читай авторские) видосы "под себя".

Ну и "кавер" теперь можно воспринимать на "мета-кавер". Не только новая аранжировка песни. А новая аранжировка текста (под себя), video2video (под свои вкусы), ну и вообще content2content под предпочтения зрителя, а не полубезумного автора.

Ну и я бы назвал это скинами. Для всего.
Про скины для окружающего мира я уже писал пятьсот раз, а каверы, это те же скины только для контента. Причем решать, какой сегодня скин вам больше всего подходит по состоянию психики, решать будет тоже ИИ. Ибо лучше разбирается в людях.

Картинка из OmniGen по запросу:
Two men are playing electric guitars like a ZZ-Top. A man is <img><|image_1|></img>. The second man is <img><|image_2|></img>.

@cgevent

Читать полностью…

Метаверсище и ИИще

Тем временем Nvidia стала самой дорогой компанией, обойдя эпол.

Продавать современные обогреватели хайповее железа пятилетней давности, кто бы мог подумать.

Читать полностью…

Метаверсище и ИИще

Мне тут попался на глаза вот такой тул для After Effects.

Я, конечно, тот еще афтерефетчик, но за ключи понять могу по работе в Maya.

Смотрите, какое ловкое и красивое решение для работы с пачками ключей. Это вам не продолжение последнего кадра, это человек из motion дизайна запилил инструмент под часто встречающиеся задачи для работы с движением.

Интересно, для Адоба не будет никакой сложности адаптировать подобное в свои ии-видео-фишки, а вот веб-апп писателям придется сильно попотеть, чтобы прикрутить это. Для этого сначала надо переписать after effects для веб.

В общем мне понравилась сама идея. Для 3Д-наверное это избыточно, но для моушена, возможно, хорошо. Да поправят меня более умные коллеги по цеху.
https://x.com/goodboyninja/status/1849534364721299491

@cgevent

Читать полностью…

Метаверсище и ИИще

Инфотех: сессия «На шаг ближе к национальной цели: развитие отечественных технологий ИИ — как основа будущего лидерства»

Андрей Белевцев («Сбер») рассказал, о преимуществах в кооперации крупнейших игроков на примере Альянса в сфере ИИ.

Трансляция целиком

Читать полностью…

Метаверсище и ИИще

OmniGen в режиме text2image. Часть 2.

Вот так он видит Марго Робби и Илона Маска (кстати узнаваем). И Барака Обаму. Это если просто текстовым промптом. Делайте выводы.

50 шагов похоже его оптимальный режим. Седой мужик посчитан в 50 и 100, есть больше деталей, но несильно.

И он мыльный. Но как только на вход даешь картинку, все стразу меняется.

Но об этом уже завтра. Он меня укатал.

@cgevent

Читать полностью…

Метаверсище и ИИще

Первые тесты Omnigen

Удивительно, конечно, разговаривать с ним на обычном языке.
Не очень понятно, что его можно просить, а что нельзя.

Вот это, нащупанное методом тыка, работает как классический ControlNet:
use pose of human in this image: <img><|image_1|></img> to make picture of anime boy

Но если написать:
use skeleton of human in this image: <img><|image_1|></img> to make picture of anime boy

то его триггерит слово skeleton и он просто рисует на черном фоне этот самый красно-зеленый скелетик в формате OpenPose.
Ну то есть переходит в режим препроцессора. Что круто, но по шамански.

Похоже к нему должен идти талмуд заклинаний.

Ну и забегая вперед, он НЕ годится для text2image. Сделаю следующий пост.

Но вас же в первую очередь интересуют данные по скорости и памяти.

По памяти там все сильно неоптимизировано пока. Стандартная ситуация, когда генерится картинка в 1024, то nvidia-smi показывает расход 16гиг, но в конце идет сохранение, и память подскакивает до 23 Гиг.
Если генерить в 2048 (он умеет и неплохо), то память расходуется как 27 вначале и 60 в самом конце.

Думаю, его упихают в 16 гиг врам. Там внутри есть флаги, но я не пробовал

А вот по скорости жоско.

text2image генерится на h100 19 секунд.
при работе с картинками на входе это превращается 50-60 секунд.
Это для 1024 и 50 шагов.
Для 2048 - 7 минут. На H100.
Он ОЧЕНЬ неторопливый.

Ну и еще раз. Он имеет смысл только для работы с входными картинками. Поглядите как лихо он сгенерил Марго Робби. А вот Аманду не затащил - потому что разрешение на входе маленькое.

В общем, общение с ОмниГеном - это новый виток промпт инжиниринга, где реально приходится думать, прежде чем его что-то попросить. Ну и если раньше мы думали, что сгенерить, то теперь промпт - это "что сделать" с картинкой. У меня аж голова заболела.

@cgevent

Читать полностью…
Subscribe to a channel