cgevent | Unsorted

Telegram-канал cgevent - Метаверсище и ИИще

37805

Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn

Subscribe to a channel

Метаверсище и ИИще

Большой Хуньянь и Хуньянь 3Д.

У Тенсента есть, вообще-то говоря, неплохой генератор картинок.
https://github.com/Tencent/HunyuanDiT
Там хорошее понимание промпта, но к качеству есть вопросы, разбирал тут.

Так вот, вчера они бахнули 3Д генератор.
https://github.com/Tencent/Hunyuan3D-1
Главная фича - это быстро и это опенсорс.
Судя по тестам - звезд с неба не хватает. Там они генерят своим генератором картинок разные ракурсы, а потом с помощью Marching Cubes выгрызают сетку из микрокубиков.
У них получаются довольно ловкие текстуры(хорошие картинки), но шейпы похожи на обмылки.
Можно развести локально, демо они не предоставили, локально жрет 24 гига VRAM.

Более того, вчера же вышла Tencent-Hunyuan-Large - большая языковая модель, на основе Transformer и MoE. Модель 389 миллиардов параметров, контекст 256K токенов.
https://github.com/Tencent/Tencent-Hunyuan-Large

По их же картинкам-табличкам-метрикам она побивает и большую Ламу 405B и замахивается на OpenAI и Антропис.
Тут ничего не могу сказать, но есть демо:
https://huggingface.co/spaces/tencent/Hunyuan-Large
Можете попробовать.

В общем у Тенсента уже есть полный джентельменский набор, картинки, 3Д, LLM.

А видеогенератор Minimax (это китайский стартап, если что) насобирал 250 миллионов, среди которых Тенсент основной инвестор.

И пока он лучший.

И на Гитхабе у них 192 репозитария.

@cgevent

Читать полностью…

Метаверсище и ИИще

Мнемонад.

Вот держите еще один ИИ-фильм, который навыигрывал тучу призов.


Да, тут наверное один из лучших ии-липсинков на планете и сделано все очень добротно.

Я не люблю постить работы без пайплайнов или истории их изготовления, поэтому вот вам описание того, как это было сделано и какие кнопачки надо нажимать в Клинге, Рунвее и Премьере, чтобы помучиться и получить желаемое.

А я понял, что мне это все напоминает.

Это как бы прошаренные превизы. Анимированные раскадровки на стероидах. Нейрочерновики.

Прогуглите, что такое превизы, кто не в курсе. Есть целые компании типа Third Flow, которые занимаются только превизами.

Так вот, я смотрю на эти ИИ-фильмы и вижу, что глаза глядят не туда, что ножки проскальзывают, что эмоции не соответствуют моменту - но я В ПРИНЦИПЕ понимаю, что хотел сказать автор, какую историю он хочет рассказать, какая идея стоит за этим неуклюжими сценами. Среди которых могут быть просто гениальные 2-5 секундные шоты, но в целом - это красочный, но неуклюжий превиз. Только в превизе всегда есть контроль камеры, а тут нет. За камерой сидит нейросеть на ИИ-грибах.

Поэтому я честно считываю все эти истории, как будто листаю сценарий с картинками. Но в сторителлинг это не складывается до конца. Это сторителлинг на пальцах. На ИИ-пальцах.

Самые убойные результаты нам пока демонстрирует video2video. Да потому-то на входе - кожаное видео. Снятое ручками. Родовой контролНет, так сказать.

@cgevent

Читать полностью…

Метаверсище и ИИще

Для тех, кто в Блендоре и для тех, кто до сих пор делает аватаров в 3Д.

Выглядит нарядно, согласитесь?

https://www.polyhammer.com/

@cgevent

Читать полностью…

Метаверсище и ИИще

В HeyGen новая фича - Photo Avatar

И да, она тоже связана с тренировкой своих аватаров на пачке входных изображений.

Почитайте полный пайплайн тут:

Если вкратце: Flux, Magnific, Heygen, Elevent Labs, chatGPT, Topaz

Ну, за дикторов и блоггеров..

@cgevent

Читать полностью…

Метаверсище и ИИще

Kling "Custom Models" - это вообще-то прорыв.

Это вам не image2video.
Это не face swap и метадипфейки.
Это не LivePortrait и метамокап.
По смыслу это ближе всего к Hedra - но это все равно из прошлого поколения, где на входе одна картинка, которая натягивается на порождения латентного разума.

Здесь на входе - видео. Еще одно измерение. Из которого Клинг тащит информацию о консистентности и ворлдмоделистости. На входе Лор для картинок - картинки. На входе Лор для Клинга - видосы.

Как они за 15 минут тренят Лоры - ума не приложу. Подозреваю, что у них есть и более медленные, но качественные настройки.
Также подозреваю, что остальные товарищи также сейчас расчехлятся с Лорами.

Но самое интересное, что народ уже делает постметаЛоры - берет картинку из Midjourney(wherever), делает из нее видосы Клингом же. Кормит эти видосы Клингу же, как материал для обучения. И получает Лору, для генерации консистентнейшего видео с этим самым персонажем из Midjourney.

Тут за кадром вопрос, что на реальных видосах (для обучения лор) динамика движения кожаного лица натуральная, скажем так. А на сгенеренных по Midjourney-картинке видосах - динамика клинго-изобретенная. По которой он выдаст Лору. Иимбридинг, так сказать. Но это мелочи.

В общем, стоп-кран сорван. Видео-лоры в городе. И щас пойдет борьба за юзера и тарифы.

@cgevent

Читать полностью…

Метаверсище и ИИще

Зачем платить инфоцыганам, когда есть нейросети? 🤔

Нейросети уже выполняют за тебя массу задач: от контента в соц сетях до реальных продаж!

Как легко и без опыта освоить ИИ — читай ЗДЕСЬ.

Автор канала — кандидат наук и владелец IT-компании, внедряющий ИИ в крупнейшие российские корпорации.
Его опыт — это твой шанс быть впереди конкурентов.

🔥 Заходи, здесь учат использовать нейросети для роста твоего бизнеса: @KiberMisha

#промо

Читать полностью…

Метаверсище и ИИще

Open Source Video2Video - работает локально.

Это удивительно, конечно, наблюдать, как с опозданием в 2-3 месяца фишки, которые мы наблюдали, роняя челюсти, в Runway или Kling начинают появляться в опенсорсных сборках.

Да, они сходу работают кривовато, качество треш по большей части, но оно РАБОТАЕТ. Ну то есть замысел и алгоритмы заводятся на кургузых опенсорсных чекпойнтах и главное отличие в том, что у энтузиастов не было денег, возможностей и компьюта, собрать конские датасеты, перемолоть их в тренировке и задрать качество. Но дайте время.

И когда я вижу, что появляются image2video, video2video, маски для видео, глубина (MoGe) на гитхабе, я стараюсь все попробовать, чтобы убедиться, что это не фейк. И это не фейк, это работает локально. И когда Барак Обама улыбается и кивает тебе на видео в нужном ракурсе, хотя у тебя было только видео девушки и текст "Барак Обама улыбается", то ты понимаешь, video2video работает.

Тут ирония в том, что не было ни одной картинки на входе.
Девушка - это text2video в Pyramida Flow.
Остальное - это video2video в MochiEdit - этакий контролНет для видеогенерации.

Его можно завести в Комфи вот отсюда:
https://github.com/kijai/ComfyUI-MochiEdit
или отсюда:
https://github.com/logtd/ComfyUI-MochiEdit

Обещают поддержку CogVideo и других.

@cgevent

Читать полностью…

Метаверсище и ИИще

Чтобы не мучить вас кринжоповатыми опенсорсными видеогенераторами вкину вот такую китайскую утечку из Клинга.

Внимание, это чистый текст2image. Никакой картинки на входе, как у "никогда-в-продукте" MovieGen от метачки или дипфейках.

Внимание, это первая Тренировка Лор для Клинг!

На своих (чужих, нужных) лицах.

Подробности ниже

@cgevent

Читать полностью…

Метаверсище и ИИще

Для mochi запилили редактор mochi comfyui video2video ноды. Заводится локально на 24гб vram.
До runway далеко, и на длинном контексте скорее всего будет разваливаться, как animatediff/svd
Но начало положено, и если кто-то присобачит туда хаки для длинного контекста, будет и у нас runwayml дома!

comfyui mochiedit
comfyui mochiwrapper

Читать полностью…

Метаверсище и ИИще

Pyramide Flow недавно обновился.

Это опенсорсный видеогенератор.
Они взяли и перетренировали модель на основе Флюкс (было SD30), назвали это miniflux и сказали, что пофиксили родовые анатомические травмы первой модели на базе SD30.
Я провел с ней в обнимку несколько дней, там очень много есть о чем рассказать, но выходные, вода еще +26, и надо все-таки не смотреть в монитор.
А пока милая девушка из Комфи желает вам хороших выходных.
Качество подтянули, да. И ходит на 20 гигах. Это я еще image2image не тестировал, разбирался с text2image

@cgevent

Читать полностью…

Метаверсище и ИИще

Text2Avatar

Тут недавно ElevenLabs выкатил text2voice, где вы промптом задаете характеристики голоса, а он генерит голоса, которые вы можете пользовать потом.
Про ElevenLabs и его новую штуку-шутку следующий пост.

А тут HeyGen сегодня ночью бахнул Text2Avatar.

Никаких авторизаций через камеру, никаких проверок входных изображений на селебность.

На входе ваши фантазии текстом, на выходе говорящий аватар, шевелящий лицом притом, с возможностью настройки любого прикида, позы или фона.

@cgevent

Читать полностью…

Метаверсище и ИИще

Небольшой тест (в молодежном стиле рок 80х) нового обновления #Gen3 Alpha Turbo — контроль камеры .

"Ну, нормально работает".

Еще один шаг в сторону контроля над видео, который пока идеален для приколов, но слаб для серьезных продакшен процессов.

Читать полностью…

Метаверсище и ИИще

Клод теперь читает пдфы как человек, с картинками.

До сегодняшнего дня, когда вы запихивалт PDF в Клод, он использовал службу извлечения текста для захвата текста и отправки его себе в текстовом промпте.

Теперь Клод может визуально увидеть PDF-файл вместе с текстом ЦЕЛИКОМ.

С картинками, диаграммами, и что там ещё запихивают в пдф.

Взгляд на страницу целиком.

Это позволяет Клоду более точно понимать сложные документы, например те, которые изобилуют диаграммами или графиками, не поддающимися текстовому представлению.

Например, теперь можно задавать Клоду вопросы о PDF-файле, полном анатомических диаграмм. См. видео

А ещё теперь можно пихать пдф в Клода через API.

Теперь он не читает документы, он их "рассматривает". Все как у людей.
https://docs.anthropic.com/en/docs/build-with-claude/pdf-support

@cgevent

Читать полностью…

Метаверсище и ИИще

У Runway потрясающее новое обновление — улучшенное управление камерой

Можно будет выбрать направление движения, скорость, сочетать это все в ролике. Есть даже панорамирование объекта, то есть обучали не только на видео. Подробнее и с черрипиками тут.

Готовлюсь тестировать на все деньги, вместе с новым обновлением в Midjourney (позволяющим работать со своими изображениями) — это новое слово в творчестве и рекламе. После сотни итераций, конечно.

Читать полностью…

Метаверсище и ИИще

Это возвращает нас к посту о психической регуляции здоровья. Там я упоминал Асю Роллс из Техниона, которая открыла “иммунноцепцию” в мозге. Конечно, работа про VTA и сердце — тоже её. В ноябре она выступит с докладом на Neuroscience 2024, крупнейшей конференции нейронаук, где представит те самые контуры медицины будущего, о которых я здесь пишу периодически. См. также ее небольшое интервью прошлого года.

Такие исследования (а их все больше) намекают на то, что многие процессы иммунной защиты, заживления, регенерации можно запускать напрямую из мозга. Это избавляет нас от необходимости микроуправления, превращая лечение в своего рода “высокоуровневое программирование”. Все инструменты здоровья в организме есть — их нужно научиться включать.

Вопрос, почему они не включаются у больных сами по себе. Ответ лежит в области биологии и, возможно, психологии. И это нужно изучать.

Все это также связано с эффектом плацебо, который на протяжении веков служит медицине, пусть даже большую часть истории врачи об этом не задумывались. Сегодня уже задумываются, и даже учатся его искусственно формировать.

Тема “Mind-Body” явно растет, обещая преобразовать способы лечения, и в то же время она глубоко фундаментальна, так как указывает на слепые пятна и пробелы в понимании биологической регуляции. Ближайшие годы будут в этом отношении захватывающими. Stay tuned.

Читать полностью…

Метаверсище и ИИще

Давайте я доверну мысль из предыдущего поста, а то поздно, дед забыл принять таблетки и лыко вяжет плохо.
Вот смотрите, есть всякие I2P адаптеры, ну или можно просто скормить в chatGPT картинку и сказать, сделай мне детальный промпт, чтобы сгенерить похожее. Он сделает.

А теперь представьте, что вы ему даете на вхот 10-минутное видео и говорите, а сделай, дружок, промптик, чтобы сгенерить похожее видео. Как будет выглядеть этот промпт.

Вы наверное ему даже референсов можете приподнаподсовывать (image2video), но все равно, размером с какую планету будет промпт для генерации 10-минутного видео с рассказом истории по референсам?

Это я к тому, что у видео измерений не два(x,y) плюс время(t), а сильно больше. И все они участвуют в сторителлинге.
Это у комиксов x,y и t.
И у мемных видосов со взрывом мозгов или сплющиванием объектов.

@cgevent

Читать полностью…

Метаверсище и ИИще

Нет времени объяснять, регистрируйся на МТС True Tech Champ 🚀
Осталось несколько дней до шоу финала ИТ-чемпионата.


Дата: 8 ноября
Место: МТС Live Холл
Формат: Офлайн + Онлайн

Участников ждут:
🤖 Шоу с гонкой роботов в интерактивных лабиринтах
🕹 20+ активностей для кодеров и фанатов технологий
🧠 Выступления спикеров, воркшопы, плохие прогерские шутки

Тебе точно понравится, если ты:
— Занимаешься разработкой
— Интересуешься технологиями
— Планируешь построить карьеру в ИТ

До конца регистрации несколько дней — успей присоединиться: https://truetechchamp.ru/conf

#промо

Читать полностью…

Метаверсище и ИИще

ConsiStory: Training-Free Consistent Text-to-Image Generation

Генерация консистентных изображений без дообучения от Nvidia. Модель тизернули еще летом, код опубликовали вчера.
скорость - 10 секунд на 1 генерацию (какого разрешения?) на H100
Работает на SDXL, в будущем добавят поддержку Flux

Код
Демо

#personalization #text2image

Читать полностью…

Метаверсище и ИИще

ПомниГен. Не шутка.

А вот это выглядит уже очень интересно.

Я много писал про OmniGen. Это как бы новая архитектура для генерации картинок.
Но это не совсем генератор. Это скорее нейроредактор уже имеющихся изображений.
Его не стоит использовать как text2image, это больше похоже на "возьми вот эти картинки (пока до трех) и сделай с ними следующее: поменяй тут одежду, убери серьги, дай в руки гитару" и так далее. Это метакитбаш на стероидах, если говорить очень грубо.
Сам автор говорит: I want to focus on editing and non generation tasks.

А теперь внимание.
Те, кто в теме, знают, что есть такая Stable Diffusion Based модель - Pony.
https://civitai.com/articles/6309
Ну это как бы царь (или царица) в области генерации NSFW.
Так вот, автор Пони сейчас файнтюнит Omnigen (на датасетах из Пони), чтобы можно было редактировать эти веселые картинки в соответствии с вашими фантазиями. Промптами. Поглядите мой пост на предмет таких промптов.

Вы представляете, что это будет за комбайн?

И называться все это будет PomniGen!

Как пишет автор Пони: generate with Pony V7 and edit with (p)omnigen.

Я много писал про одеваторов и раздеваторов (поиск по ленте по этим старорусским терминам). В разрезе с Pony это обретает новые применения, например в чатботах для секстинга. Типа "дорогая, а сделай вот так и пришли мне фотку".

За рамками NSFW - это тоже может быть использовано как нейрофотошоп с голосовым управлением.

Вопрос только в том, что OmniGen ну очень не быстрый, жрущий и язык общения с ним не сильно очевиден. Равно как и тренинг оного.

Но замысел, конечно, огненный.
Сорс

На картинке OmniGen из коробки. Он и сейчас не особо парится о том, что на входе и что в промпте, просто делает свой нейрокомпоз. Промпт на картинке. 2 минуты на H100/ Что же будет на файнтюнах Pony и PomniGen?

@cgevent

Читать полностью…

Метаверсище и ИИще

Разведу немного вкусовщины. Ибо рубрика крутые подписчики.

Иногда пощщу работы из коментов или лички.

Засада в том, что большинство работ - это либо хорор, либо цветочки, либо тянки, либо металубок - ну типа щас мы приподнавалим в рунвей салата из флюкса и переходов.

Меня всегда подташнивало от фотореализьма, еще во времена раннего 3Д в нулевых. Где все упарывались в текстуру для кожи, чтобы свалиться в зловещую долину при первом же сдвиге кадра в анимации.

Сложно "додумывать" за фотореализьмом, все уже придумано. Воображению некуда приткнуться.

Некоторое время назад постил вот такой хак-промпт для лайнарта.


А сейчас в коментах Стейси Смит сбросил вот такую наиприятнейшую работу (для меня, с моим плебейским вкусом).

Что мне отчаянно нравится?

Очень простые образы объекты. Каждый додумывает сам.
Аскетично. Есть куда провалиться глазом и не застрять в деталях.
Архетипичные, скажем так, объекты, глаз, стрелки, шестеренки.
Ну и самое главное - это кинжально бьется со звукорядом. Точнее с текстом.
Получается чудовищно просто и символично.
Ну и нет соблазна считать пальцы и придираться "ой у птички глазик не там". Все на месте. Ибо образы и наброски.

В конце как бы развитие и выход в цвет и 3Д. Тут я задергался, но все быстро вернулось в лайнарт - как будто бы к истокам.

Хорошая такая анимационная работа. Мне понравилось.

А, и кстати, замечания от автора:
"рисовал Flux, анимировал Kling и пару переходов Luma, звук от Suno, монтаж в CapCut, а афтерэффектов у нас сроду не водилось..."

Отросло поколение, которое не знает про after effect. Наверное это хорошо. Для них же лучше.
@cgevent

Читать полностью…

Метаверсище и ИИще

Полностью опенсорсная видео-генерация.

Рубрика крутые подписчики.

Идеальным дополнением к моим тряпочным тестам выше будет вот такой эпохальный ролик от Димы Жилзоны ПОЛНОСТЬЮ СОБРАННЫЙ в опенсорсной Pyramide Flow.

"В качестве исходных артов генерации Midjourney без какой-либо пост-обработки и апскейла.

Генерации шли в размере 640x384px, при дальнейшем апскейле до 1200x720px и двойном улучшайзинге через две модели Topaz Video AI."

Про память, скорость и прочее почитайте в посте у Димы.
/channel/zhilzona/1361

А я лишь процитирую то, с чем полностью согласен:

"Да, не хватает динамики в ценах. Да, не хватает когерентности к концу видео. Да, не для всех объектов просчитывается динамика так, как бы хотелось ее видеть. Да, меняется цвет сцены под конец генерации. Да, шаг влево-шаг вправо и видео распадается. Но! Это огромный скачок по-сравнению с тем, что мы видели хотя бы 3 месяца назад. И дальше будет, я верю, я это предсказывал, только лучше."

@cgevent

Читать полностью…

Метаверсище и ИИще

Тренировка Лор для Клинг!

На своих (чужих, нужных) лицах.

Да, в Клинге появляются Лоры - они их зовут "AI Custom model"

Для тренировки своей модели:

Вам потребуется сделать горизонтальный ролик, где вы смотрите в камеру продолжительностью 10-15 секунд, в формате 1080p и размером менее 100 МБ. На заднем плане не должно быть других кожаных, и убедитесь, что это HQ с хорошим освещением.

Ну а потом загрузить в Клинга 10-30 таких (!разнообразных!) роликов. Важно держать длину 10-15 секунд на ролик, качество 1080p и отсутствие людей на заднем плане. Они рекомендуют загружать от 10 до 30 роликов. 20 тоже ок.

Тренинг идет всего 15 минут (это пока все непонаехали). А потом у вас появляется Face Model в text-to-video option.

Пишете промпт: [facemodel] wearing cyberpunk armor and holding a futuristic rifle. Inspecting a dark laboratory. Lantern lights, dramatic atmosphere.

И все, Клингонская Лора в действии!

Поглядите примеры. Этот ж новый нормальный кастинг.

Вместо базы актеров - база Лор. Кем играть сегодня будем? Так, для испанского проката натренируйте Пенелопу Крус, благо материала полно.


@cgevent

Читать полностью…

Метаверсище и ИИще

Похоже, что лента превращается в один сплошной видеогенератор.
У нас небольшая передышка в области, скажем так, североамериканского ИИ (там все прижали уши до завтра, то есть до выборов, и разборок после них) и европейского ИИ (эти перестраховщики просто прижали уши и регулируют регуляции). Зато китайцы и опен-сорс просто не дают поднять головы.

Поэтому вы уж потерпите, на этой неделе на вас будет валиться всякая информация именно по видеогенераторам. Ибо я тут даже завел опенсорсное видео-2-видео и оно, как ни странно криво-косо работает.

А для тех, кто мучает Pyramide Flow через Comfy дам такой лайфхак. В оригинальном коде разрабы считерили и захардкодили в позитивный промпт вот такую добавку ", hyper quality, Ultra HD, 8K"
А в негативный промпт, если он пустой, добавляют "cartoon style, worst quality, low quality, blurry, absolute black, absolute white, low res, extra limbs, extra digits, misplaced objects, mutated anatomy, monochrome, horror"

В Комфи вам надо вручную дописать добавку в позитивный промпт и задать вот такой негативный. У меня качество отросло раз в пять на этих девушках.

Two white women with long, flowing blonde hair walking side by side along a wide, sandy beach on a bright, sunny day. Both are mid-laugh, their expressions full of joy and friendship, as they walk in sync, close together, barefoot on the warm sand. The sunlight casts a golden glow over their hair, which flows slightly in


@cgevent

Читать полностью…

Метаверсище и ИИще

К вопросу о том, что такое video guidance scale в image2video в pyramide flow.
И как оно влияет на генерацию.

Кстати, я заметил, что оптимально считать всего на 4-8 шагах video steps

Сделать в Комфи грид из видео = пол-субботы.

@cgevent

Читать полностью…

Метаверсище и ИИще

X-to-Voice: Твиттор2Аватар и Твиттор2Войс

В общем ElevenLabs пошли еще дальше. На входе ваш твиттор, на выходе ваш голос и даже аватар - они просто берут все ваши глупости, которые вы написали в твитторах, суммаризируют и присовывают как промпт в недавно запущенную ими же фичу Text2Voice.

По дороге забирают вашу твитторную аватарку и с помощью Хедры (да, у них коллаб по голосу) генерят еще и говорящее нечто.

Помните я генерил картинки себя на основе истории разговоров с chatGPT.
Теперь тоже самое на основе вашей болтовни в твитторе, а на выходе голос и аватар.

Это, конечно, вирусный проект, призванный продвинуть их свеженькое Voice Designer API, где как раз и идет генерация голоса по тексту.

И он какбытипа опенсорсный. Весь код вот он, но понятно, что вам надо будет вонзать за Voice Designer API и по дороге за Hedra API.

Но маркетинг отличный, я считаю.

Я туда присунул свой пыльный твиттер, где я когда-то шиллил CG EVENT и получил на выходе вот такое чудо.
Понятно, что из плоского перца никакой Хедрой не сделаешь выпуклого аватара с ротом и глазами. Но попытка защитана. С голосе уже точно звучит намерение выпить не чокаясь за жертв прогресса.

Ну и тебе еще и выдают описание твоего голоса.

Голос мужской среднего диапазона, излучающий уверенность и научный энтузиазм. Тон авторитетный, но в то же время доступный, с нотками волнения, что говорит о том, что он обсуждает важные и инновационные вопросы. Темп его речи взвешенный, но иногда переходит в быстрый, что отражает высокую энергию его мыслительного процесса. Он родом с Кипра, но его акцент в основном нейтральный, со слабыми средиземноморскими нотками. Скорее всего, ему около тридцати лет, что придает его голосу зрелый, знающий тембр.

Лесть, а приятно.

Го играть тут:
https://www.xtovoice.com/

Доброкотов, сувай свой твиттор сюда, он у тебя годный.

И пожалуйста, сделайте такое для телеги: telegram2voice - я уже слышу сиплый, спитой голос "ну, за...".

@cgevent

Читать полностью…

Метаверсище и ИИще

Для тех, кто еще держится в графике, есть вот такая новость и способ заработать.

Эпик сделал свой 3Д-сток, даже не так, Мета Сток. Там всё.

Хорошее название - Fab.

В настоящее время Fab поддерживает форматы игровых движков (ассеты из Unity и Unreal Engine), а также широкий спектр форматов 3D-файлов. В будущем обещают, и вот тут уже любопытно, ассеты для Майнкрафта и Роблокса (прямая конкуренция с экосистемой), Годотные ассеты и всяко-разно.

Если проще - Fab позволяет разработчикам покупать и загружать десятки тысяч игровых активов, 3D-окружения, визуальные эффекты, музыку и звуковые эффекты, модели персонажей, анимацию и многое другое.

Но есть моменты. Эпик пожрал Sketch Fab и ArtStation(не знали?) несколько лет назад.

Так вот, он собирается перенести всю эту годноту в Fab, а Sketch Fab и ArtStation прикрыть в 2025 году.

На реддите полыхает: юзеры пишут петиции и утверждают, что изменения в Sketchfab, включая отмену возможности загрузки бесплатных моделей, являются «фактически эквивалентом сожжения Александрийской библиотеки».

Эпик уже включил обраточку и сделал возможность шарить бесплатные ассеты на Fabe.

Но никто не знает, как Эпик поступит в 2025 году - он явно собирается собрать контент со всех своих четырех площадок в одно Авито, а юзерам это явно не нравится.

А за углом караулят ИИ-боты, чтобы начать заливать треш-ИИ-контент в этот свеженький Fab.
https://www.fab.com/become-a-publisher

@cgevent

Читать полностью…

Метаверсище и ИИще

Данные, которые мы заслужили.

Разметка в действии.

AGI все ближе к решению вопроса "как срать, не снимая свитер".

Прислали подписчики из Тайланда

@cgevent

Читать полностью…

Метаверсище и ИИще

Suno: добавили Personas (Персоны) — инструмент для выделения характерных черт композиции (вокал, стиль, атмосферу), чтобы их можно было переложить на другие треки.

Хотите, чтобы вашу демку исполнил Фредди Меркьюри — держите. Или Metallica перепела Царица.

Персоны могут быть публичными или приватными. Публичные доступны всем на платформе для персонализации чужих треков в своём стиле.

Выделить персону пока можно только у генераций. То есть, загрузить трек и завируситься на эссенции своего характерного стиля пока нельзя. Потом скорее всего подтянут, а там глядишь и монетизацию за каждое использование сделают.

Фича доступна платным подписчикам.

Твит
Сайт

Читать полностью…

Метаверсище и ИИще

Риск ошибки при распознавании неизвестных объектов на изображениях с помощью ИИ удалось сильно снизить. Очень интересная работа от T-Bank AI Research.

Для повышения эффективности распознавания объектов в Computer Vision часто применяются «глубокие ансамбли», которые объединяет несколько нейронных сетей для решения задачи. Это похоже на сбор мнений разных экспертов для получения лучшего решения.

Предыдущие разработки в области CV сталкивались с проблемой однородности ансамблей, то есть они были слишком похожи друг на друга, что снижало качество и разнообразие их оценок.

Ребята из T-Bank AI Research нашли решение этой проблемы с помощью нового метода SDDE, который использует карты внимания, фокусирующиеся на разных аспектах данных. Также исследователи научили модель при работе с изображениями учитывать не только те наборы данных, которые использовались при ее обучении, но и незнакомую ей информацию.

Значимость открытия в том, что теперь риск ошибки при обработке и анализе изображений снизился более чем на 20%. На CIFAR10, CIFAR100 и ImageNet-1K метод показал SOTA.

Метод получил название Saliency-Diversified Deep Ensembles и будет особенно востребован в сферах, требующих высокой точности анализа. В перспективе он поможет развить сферу беспилотных транспортных средств и медицинской диагностики, где важно различать неопознанные элементы и графические артефакты.

Подробное описание модели и результаты экспериментов доступны в статье Diversifying Deep Ensembles: A Saliency Map Approach for Enhanced OOD Detection, Calibration, and Accuracy.

@cgevent

Читать полностью…

Метаверсище и ИИще

Мантра инжиниринг.

Вот приходите вы к коучу - он вам говорит, вот тебе аффирмации, твой мозг перепрошьется, заработает по новому.

Все слова понятны. Промпт инжиниринг в действии.

Вот приходите вы в храм, там над вам молитовки почитают, и скажут читать псалтырь. Ваш мозг перепрошьется, заработает по новому.

Часть слов уже непонятные, но ок. На входе слова, на выходе процессы в нейроночке.

Приходите вы к балийскому шаману, он мантры там читает, палочкой в вас тычет больно (в меня по крайней мере), потом дает тебе мантры на почитать.

Тут уж вообще набор символов. Абракадабра. Гипотеза в том, что они тоже воздействуют на мозг. Вот что говорит chatGPT - Исследования показывают, что повторение мантр может успокаивать ум, снижать уровень стресса и даже изменять структуру мозга в долгосрочной перспективе

Короче, это подводка к картинке.

Вот вы тут ходите на курсы по промп инжинирингу, а кто вас научит такому:

trbancToyleae(l ed1).altisv30, acqiula, ln9nlau etlpdi1.) (dHary, IosnCgitueo, heo(eltrbaa rpaieMegseetcm aGjs, nYna iimsZmn HGrde ednecirsitjQ oorrfOtm, rdeNFj, esohCumdi f7o b0RGzeere Q4va bhrai, arnuoQd, A5Br hebdyt gassrOU kcdgruaoVpnb xZGtuae emamoefl cpteefDr, gshloykyJt bBsenune teA CTmatem eMrlnetg, thwLei, ieriaCiD(tnt, iQmdtseal, efi2n ruh1o2neu1.)oIist) jxh12tle.sy, emoin, uapiiqstl lburoEuma ssRlee pletsoa, Xsti wZothPo aepr4WOap )4GNaui:1ly.1qt sseLh ithw2 4Mdes daa, naasledcp XY8Seraurl rtaetWSi, n5i, iXWyy(hhg worel8bdfs, lrewopf, isKin HWees yokob xZistn copmci Zfo, xQIhseutter hhgi2 lItak jSPrhe nji tSobofs imn5da dtxawX0nriaryero dlef1Gi, hJKEaulihgyq+it, arranitOcSpu tiaaplutdC NsYetli iufitgn daMgY Kaptr uectt3reoncss, ssagroOE uqtshes, lof Wtxsit hitfEwv eatdiXWie tcoelc6sneurt in4y7, fiaKTn, iQEn tfi yzlKndN slirrsueamV fien(eRdV ibPC elqyst, gdtfFynnasj rdoptdCeni arhe2HGtEie s1.enl)fHteme1, rJeh, uedhSYws aWZ, aiy, elfcSimar, yK6Sntgle (bestHnr onlL, eXDQess uceneotwcrst ua0et ihsuortaKe36 Kbrluamo edidtis3ae siCY, ie.Satd:11s)l MLsreds, DzM.dis1 )ae1 


Пихаете это в промпт Флюксу и получаете вполне себе картинку. Только что сделал

Нейрончики активировались, связи установились, образ найден.

И как вам такое, промпт-инженеры!?

Тут я раскрою интригу. Эффект от такой мантры, равен эффекту от пустого промпта. Выходит не работают мантры на бессознательном уровне, если там нет смысловых конструкций.

А плацебо - это в чистом виде пустой промпт. Ибо красота\самочувствие в глазах смотрящего\слушающего.

И вопрос в том, какие смысловые конструкции возводятся(коучем, священником, шаманом, вами) вокруг плацебо. Именно они позволяют людям выздоравливать от кусочка мела и кусочка текста.

Если вам интересная эта тема, почитайте следующий пост, там интереснейший материал про исследования (а их все больше), котоые намекают на то, что многие процессы иммунной защиты, заживления, регенерации можно запускать напрямую из мозга. Это избавляет нас от необходимости микроуправления, превращая лечение в своего рода “высокоуровневое программирование”. Все инструменты здоровья в организме есть — их нужно научиться включать.

Лечим голову в общем, все остальное подтянется, как говорит нам новая германская медицина.


@cgevent

Читать полностью…
Subscribe to a channel