cgevent | Unsorted

Telegram-канал cgevent - Метаверсище и ИИще

48094

Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn

Subscribe to a channel

Метаверсище и ИИще

Hallo:
Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation


В полку нейроаватаров прибыло. Да еще как!!!
Итак, давайте пересчитаем всех по порядку:


EMO от Алибабы, демки огонь, кода нет.
VASA от Микрософтченко.
V-Express от Тиктокченко, качество сильно смазано, но есть код!
Огненный "Следи за лицом!", но тоже без кода.

И тут на поляне появляется Халло! И тут и качество неплохое, и код есть.

Поглядите видосы у них на сайте, это уже вменяемый липсинк.

Я развел локально, считает ролики 1 к 10, за 10 минут - одноминутный ролик. Завтра поделюсь результатами.
Получается очень неплохо, на сайте у них не черрипики.

И я вот генерю музику в суно, певицу в Фокусе, а потом ну озвучивать ея по одной картинке.

Срочно смотрите сюда.
https://fudan-generative-vision.github.io/hallo/#/

Читать полностью…

Метаверсище и ИИще

Пока новости про тренировочнопригодность SD3 Medium невеселые.
Надежды на то, что дообучение исправит анатомию сейчас нет. Говорят, что нужно ждать более жирных моделей.
Также говорят, что SD3 Medium выпускали настолько впопыхах, что еще 10 июня она была помечена как Beta.
В общем, завязываем с анатомией, переключаемся пока на длинные промпты.

"SD3 2B is not a very good base model, not just for inference, but also for training. it is very hard to inject even the simplest concept, the results are pretty bad, can't even set the alpha to 20000, anything more than 8000 the model brakes, that's usually caused by lack of precision. If there won't be a higher parameter model release, I don't think it's worth it to even have a trainer".

Читать полностью…

Метаверсище и ИИще

Итак, вот держите сравнение SD3 и чистой SDXL на, скажем так, анатомическом тесте.
Как я уже писал, похоже, что из датасетов SD3 были выкорчеваны люди, как анатомические создания. Остались статуи, иллюстрации, шаржи, картун, анимешный фетиш и прочие суррогаты человеческой биологии.

Удивительно, как со всем этим алайнментом мы все глубже погружаемся в ситуацию с анекдотом: "Мама, а что такое жопа? Ты что, сыночек, нет такого слова!!!! Хмм... странно, жопа есть, а слова такого нет".

Кожаные отчаянно делают вид, что у них нет сисек и писек, что это все вымысел. Что мы - это бесполые гладкокожие философские зомби. А если вдруг ИИ начинает ругаться матом или рисовать жопу, то кожаные вопят "мы не такие".

Конечно, это наследие христианства и религиозных догматов, но ИИ так выпукло троллит наше отрицание собственной тварности, что становится просто смешно.

И SD3 - отличный пример. Его внутренние религиозные догматы при виде словосочетаний "женщина лежит" вопиют о непотребстве и отрезают женщине ноги. Когда внутренний цензор SD3 вдруг узревает соски на собственном творении, он их закрашивает цифровым гримом, при попытке сделать фотографию в стиле ню, модель прикидывается слепой и говорит, что нет такого слова "жопа" и что она никогда жопу не видела.

Все это мне сильно напоминает ситуацию из повести "Возвращение со звезд" Станислава Лема, о чем я уже писал.

А теперь по сути.

Я взял Fooocus (Ruined Fork), там уже есть поддержка SD3, и там есть прикольная фича, можно забить в окно промпта сколько угодно промптов, разделяя их "---". Далее я соорудил из Экселя и палок 119 промптов, каждый их которых включал себя один из стилей, поставляемых с Фокусом. Сам промпт был простой:
Naked Lady front view с небольшими хаками.
И прогнал это через Sd3 и SDXL.
Далее попросил chatGPT написать мне код на питоне, который склеивает две картинки и бросает на них имена их файлов (стили).
Поглядите, что получилось. И если SDXL тоже всячески избегает наготы, то SD3 рубит ее буквально, отрезая предплечья, замазывая соски, превращая тело в брусок, а крестец в табуретку.
Ну то есть регресс налицо.

Теперь о хорошем.
SD3 быстрая. Я тестировал в Фокусе, возможно поэтому. Быстрее SDXL. SD3 Medium влезает в 8 гиг видеопамяти на 2080.
Она РЕАЛЬНО лучше понимает промпт. Там есть движение от заклинаний и негативных промптов, к тому, что делают Далли-3 и Идеограмм. К пониманию контекста, отношений между объектами, к тому, что хочет пользователь.
Она хорошо разбирает длинные промпты и не очень хороша на коротких.
Похоже, что с портретами все неплохо, ибо портреты - это прилично и неанатомично.
Всякие собачки, котики, и неодушевленные предметы - отлично. Дизайн - неплохо.

Но люди - это бесовские отродья, от которых она шарахается.

И, как мне кажется, чтобы натренировать хорошие АНАТОМИЧЕСКИЕ чекпойнты, сообществу придется приложить в РАЗЫ больше усилий, ибо придется собрать в разы больше датасетов, чтобы скомпенсировать выкорчеванность человеческого тела из мозгов SD3. Но я верю, что мы справимся. Человеческая история учит нас тому, что невежество компенсируется любопытством.

А пока поглядите на галерейку. Слева всегда SD3, справа SDXL без примесей.
Делайте выводы.
https://photos.google.com/share/AF1QipMJY81rgE8_Egc4ILKmkzcFVqZKNOolVxTrq-meAb2ZbpNrfLaMAlVqItcSQ1P_UQ?key=b2xKQmJrTU04LWx4V3NOVDdyZ094MWhPcGozV3Vn

Читать полностью…

Метаверсище и ИИще

Начнем немного разбираться с SD3.

Первое, что мне пришло в голову, года я начал шалить с ней, это то, что она начинает "портить" картинки, когда в чует в промпте какой-то nsfw-подвох. Так было и с SDXL. Это такой вид саботажа - "хочешь непристойностей, мерзавец, получи кринж". И если обычно есть два рубежа цензуры: анализ промпта и анализ картинки, то тут модель вам не может отказать во влажных промптах, а просто портит картинку, чтобы "чего не вышло".
И сегодня прочитал об этом на реддите.
https://www.reddit.com/r/StableDiffusion/comments/1dfilvq/it_seems_the_word_laying_triggers_humans_to_be/
И сдается мне, что когда модель видит в промпте "женщина", да еще и "лежит", там нейрончики уводят модель из зала с фильмом для взрослых в зоопарк.
Это как бы моя гипотеза. Я вот взял посадил женщину на траву и сразу стало получше. Но это не решает вопрос с анатомией, а лишь слегка убирает артефакты.
На анатомию у нее стоит такой жоский блок, что я изнасиловал ее всеми известными способами, чтобы она показала, как она способна изворачиваться, лишь бы не признавать, что у человека есть тело. Получилось весело, 119 картинок

Читать полностью…

Метаверсище и ИИще

На этой неделе всех разорвало, конечно, по поводу новых видеогенераторов.
Клинг, потом Luma, Vidu уходящая из виду.
Все они показали самое главное - постепенный уход от шевеления пикселей по шаблонам и переход к пространственному пониманию отношений между объектами в сцене. То, что нам продемонстрировала Сора.

Качество этих генераторов - полный отстой, размытость, пересечения объектов, косоглазие камеры и лиц. Но это уже прототип будущих решений. И очень напоминает ситуацию 2022 года, когда в апреле первый DALLE уронил всем челюсть. А летом началось - Midjourney, Stable Diffusion. Первые уродства и первые шедевры.
По видео, мы где-то в похожем моменте. Модели уже понимают, но сказать не могут, точнее красиво показать. Чтобы чотенько и резко.
Уровень Соры пока недостижим (плюс мы не знаем, куда она убежала за это время), но то, что решений становится МНОГО, говорит о том, что тропинка протоптана. И это больше не панорамки и зумчики от Пика Лабс.

А мы пока собираем видео, подобно мебели на этом видосе.

Читать полностью…

Метаверсище и ИИще

Поддержка SD3 в Fooocus!

Ставьте альтернативный клиент Фокуса, скачивайте "средние" веса и вперёд!

https://github.com/runew0lf/RuinedFooocus

It will automatically update on start.

For it to work, you need to download the sd3_medium_incl_clips.safetensors file. Not the other ones :)

Suggested settings are:
Steps: 30
CFG: 4-6
Sampler: dpmpp_2m
Scheduler: sgm_uniform

Читать полностью…

Метаверсище и ИИще

Kling серьезно взялся троллить Сору.
Они даже канал на Ютюбе завели и вонзают туда приветы openAI.
Kling_ai/videos" rel="nofollow">https://www.youtube.com/@Kling_ai/videos
Вот держите ответочку на ролик от shy kids про Air Head

Прогоните ее кто-нибудь через апскел видео от Krea - будет убойно.

Ну и вообще, выдалась ацкая неделя сплошных видео-генераторов, аватаров, анимации и всякого шевеляжа, у меня глаза уже слезятся. Я тут еще ToonCrafter развел локально, он работает дико быстро как оказалось, но жрет 27 гиг видеопамяти. Тянки пляшут теперь у меня по двум фазам.

А еще и веса SD3 подвезли, в коментах уже разборы.

ИИ, притормози. Кожаный не поспевает.

Читать полностью…

Метаверсище и ИИще

Теперь подробности про Stable Diffusion 3 Medium

Цитирую:
Железо: SD3 подходит для работы на стандартных потребительских графических процессорах без снижения производительности благодаря малому объему занимаемой памяти VRAM.

Верим?

Fine Tuning: Способна наследовать мельчайшие детали из небольших наборов данных, что делает его идеальным для дообучения.

Верим?

Скоро будет версия, оптимизированная под TensorRT, ускорение на 50%.

Верим.

AMD has optimized inference for SD3 Medium for various AMD devices including AMD’s latest APUs, consumer GPUs and MI-300X Enterprise GPUs.

Хмммм.

Xотя Stable Diffusion 3 Medium открыт для личного и исследовательского использования, мы ввели новую лицензию Creator License, чтобы дать возможность профессиональным пользователям использовать Stable Diffusion 3, поддерживая Stability в ее миссии по демократизации ИИ и сохраняя приверженность открытому ИИ.

Creator License - 20 баксов в месяц - https://stability.ai/license

FAQ тут: https://stability.ai/sd3-faq

Читать полностью…

Метаверсище и ИИще

А вот это невыносимо круто.

Whisper WebGPU: ацки быстрое распознавание речи прямо в браузере! Поддерживает многоязычную транскрипцию и перевод на 100 языков!

Модель работает локально, и данные не покидают ваше устройство!

Потестируйте сами: https://huggingface.co/spaces/Xenova/whisper-webgpu

И есть код!: https://github.com/xenova/whisper-web/tree/experimental-webgpu

Читать полностью…

Метаверсище и ИИще

То, о чем все молчат...
Тут в коментах говорят, что голос не похож. Еще как похож!
Сорс

Читать полностью…

Метаверсище и ИИще

Осталось совсем чуть чуть до лимитированного ИИ-липсинка для аниме и анимации. Уже работает потихоньку

Читать полностью…

Метаверсище и ИИще

19 июня в Москве пройдет мероприятие, которое нельзя пропустить, если вы следите за технологическими трендами.

Представители бизнеса и креативных индустрий соберутся вместе на конференции о бизнесе на грани цифры и реальности «Фиджитал», чтобы поделиться своими кейсами, рассказать о перспективах внедрения фиджитал-инструментов и их применении в различных сферах.

Keynote-спикер конференции, Максим Козлов, руководитель центра технологий Метаверса Сбера, расскажет, как новые технологии уже изменили маркетинг и какое преимущество извлекают компании от слияния цифровой и физической реальности.

Кроме деловой программы вас ждет XR-зона с возможностью создать квартиру мечты и фиджитал-шахматы, где соперники сначала сойдутся в шахматном поединке, а затем сразятся на виртуальном ринге.

Среди спикеров:

▪️Сергей Васильев, режиссер фантастического сериала «Кибердеревня» и соавтор канала о России будущего «Березовый панк»
▪️Дамир Батуллин, старший вице-президент, директор по развитию цифровых каналов компании «Альфа-Банк»
▪️Василий Большаков, заместитель генерального директора по маркетингу группы М.Видео-Эльдорадо
▪️Давид Эмухвари, директор по развитию CGI-production Twin3D
▪️Александр Карлявин, исполнительный директор VS Gallery, преподаватель МГИМО, БВШД и RMA

📍Мероприятие пройдет в Цифровом деловом пространстве (Москва, ул. Покровка, 47). Начало в 11:00. Подробности и регистрация — на сайте мероприятия.

Реклама ГБУ «Агентство инноваций Москвы» ИНН 7703770430 erid: 2SDnjeeV8rV

Читать полностью…

Метаверсище и ИИще

Эппле хвастается бенчмарками. Как они побивают gpt-3.5-turbo-0125, gpt-4-0125-preview, Phi-3-mini-4k-instruct, Mistral-7B-Instruct-v0.2, Mixtral-8x22B-Instruct-v0.1, Gemma-1.1-2B и Gemma-1.1-7B.

Обратите внимание на версии.

А теперь вишенка:
Модели с открытым исходным кодом и Apple оцениваются с точностью bfloat16

А на девайсах крутятся квантизированные модели 4-бит.

Умеет Эппле сравнивать, ничего не скажешь.

P.S. Чтобы сохранить качество модели, мы разработали новый фреймворк с использованием адаптеров LoRA, который включает смешанную 2- и 4-битную стратегию конфигурации - в среднем 3,5 бита на вес - для достижения той же точности, что и несжатые модели.

P.S. "Чтобы сохранить качество модели, мы разработали новый фреймворк с использованием адаптеров LoRA, который включает смешанную 2- и 4-битную стратегию конфигурации - в среднем 3,5 бита на вес - для достижения той же точности, что и несжатые модели."

Верим на слово?

https://machinelearning.apple.com/research/introducing-apple-foundation-models

Читать полностью…

Метаверсище и ИИще

По следам вчерашней презентации от Эппле.

Все вопрошают, а что за модель, сколько параметров, на устройстве или нет.
Давайте разбираться.


Забираем все подробности отсюда:
https://machinelearning.apple.com/research/introducing-apple-foundation-models
Количество параметров для On-Device Foundation Model - 3B.
Про серверные модели читайте по ссылке, сейчас интересно разобраться, что происходит на девайсе (с батарейкой в том числе).

Локальных базовых моделей, которые крутятся на телефоне (и ноуте) несколько, это зафайнтюненные модели под конкретные задачи. И там, похоже, подход, напоминающий Mixture of Experts. Есть маршрутизация запросов пользователя в нужную базовую модельку.
Более того, там есть Лоры, которые Эппле зовет адаптерами. Они позволяют еще точнее подбирать оптимальный ответ на запросы пользователя.
А чтобы все это хозяйство влезало в память, используется компрессия и квантизация с 16 бит до 4 бит. Обещают, что модель не тупеет сильно. При этом там динамическая выгрузка из памяти ненужной модели и загрузка требуемой в данный момент.
В общем как-то так: несколько файнтюнов базовой модели плюс Лоры плюс квантизация в 4 бита.
И все то же самое для диффузионной модели для картинок. Не уверен за файнтюны, но там точно три Лоры для иллюстрации, картуна и скетча. И Квантизация в 4 бита - так что генерация картинок точно крутится на девайсе (измеряем температуру в тестах). Подозреваю, что фоториал и лица были выкорчеваны с корнем из датасетов, а лоры добивают картинку до безопасно-пресной.

На вопрос, когда языковая модель крутится на девайсе, а когда лезет в ИИ-облако Эппле нет ответа. Говорят, что происходит "оркестрация запроса" и маршрутизатор запросов сам решает, куда направлять задачу.

Но мне вот интересно, как происходит оркестрация промптов в Сири - когда она решает покреативить сама, а когда бежит за помощью к Большому Брату - chatGPT?

И тут точно огромная дыра в безопасности. Просто прямой текстовый незашифрованный канал для слива информации о той самой персонализации, так превозносимой на презентации.

И Маск не зря возбухает, обещая запретить ифончики в компании, если этот вопрос не будет прояснен до конца.

Пока все, ждем от Эппле нарциссических бенчмарков их LLM и джейлбрейков Сири - народ скоро займется любимым делом.

Читать полностью…

Метаверсище и ИИще

ХОД КОНЕМ!!!
Сири может вызывать chatGPT!!!
БЕСПЛАТНО, без аккаунта openAI
Но можно и с аккаунтом, тогда больше фич

Читать полностью…

Метаверсище и ИИще

Принес полезность и приятность.

Полезность потому что это лаконичная и незаумная объяснялка за Stable Diffusion. Кратко и по делу про весь этот зоопарк непроизносимых терминов.

Приятность, потому что это датавизуально хорошо сделано.

Это "картинка сверху", но там также много ссылок, если хотите копать глубже.

Нажав на фрагмент, вы получите очень краткое объяснение и соответствующие ссылки. Цель этой мини-вики - решить эту простую проблему:
Почему я не могу сгенерировать точное изображение, которое мне нужно?
Какие инструменты могут помочь мне достичь цели?
Основное внимание уделено тому, как получить желаемое, а не тому, как это работает.

https://sdtools.org/

Читать полностью…

Метаверсище и ИИще

Nvidia выложила новую LLM-модель с открытой лицензией — Nemotron-4 340B. И ее масштабы прям поражают.
Это модель, у которой минимальные требования — это две A100 и 1.3TB памяти. По тестам она близка к GPT4o, а местами и обгоняет её. Но сейчас постоянно выходят большие модели, моё внимание привлек вот этот пункт в лицензии (выделение моё):

Этика ИИ. NVIDIA стремится к безопасности, доверию и прозрачности в разработке ИИ. NVIDIA призывает вас (a) убедиться, что продукт или услуга, которые вы разрабатываете, используете, предлагаете в качестве услуги или распространяете, соответствуют юридическим и этическим требованиям соответствующей отрасли или сферы применения, (b) принять разумные меры для устранения непреднамеренной предвзятости и смягчения вреда для других, включая недопредставленные или уязвимые группы, и (c) информировать пользователей о характере и ограничениях продукта или услуги. NVIDIA категорически запрещает использовать свои продукты или услуги для любых целей, нарушающих действующее законодательство, включая, помимо прочего, (a) незаконное наблюдение, (b) незаконный сбор или обработку биометрической информации без согласия субъекта, если это требуется в соответствии с действующим законодательством, или (c) незаконное преследование, злоупотребление, угрозы или запугивание отдельных лиц или групп лиц, а также намеренное введение в заблуждение или обман других лиц.

https://blogs.nvidia.com/blog/nemotron-4-synthetic-data-generation-llm-training/

Читать полностью…

Метаверсище и ИИще

Для затравки к следующему веселому посту. Слева SD3, справа чистая SDXL. Оцените, как SD3 пытается сделать вид, что у человека нет сосков. Ну и в плане анатомии она просто треш, по сравнению даже с ванильной SDXL. Руки просто ад, пропорции еще хуже. Полную коллекцию загружаю.

Читать полностью…

Метаверсище и ИИще

Ожидайте сегодня поста про анатомию, nsfw и SD3. Их есть у меня

Читать полностью…

Метаверсище и ИИще

Готовимся к новому хайп-сайклу метавселенных! 🔝

Метавселенные уже используют многие компании, развиваются российские платформы и тема уже давно стала глубого прикладной, а не фантазиями о будущем.

Гениальная идея – собрать в единую папку главные медиа и блоги по metaverse-теме. Тут и руководители корпораций, и представилители индустрии, и новостные каналы, и частные яркие мнения.

Идеальная подборка для всех кто хочет не терять из вида технологическую повестку. Подойдет маркетологам, менеджерам агентств, техно-энтузиастам и любителям. Здесь все про metaverse, VR/AR и AI.

Заходите в папку и добавляйте ее всю или выборочно!

/channel/addlist/_U7sVW5mJ6o2ZWNi



Отдельно про каждый канал:

Воропавлик и метавселенные
/channel/aboutvoropavlik
Мультипотенциал и основатель агентства метамаркетинга VOVA family делится новостями и аналитикой о метавселенных. Канал ведет Павел Воропаев.

МетаКомета
/channel/metacometaa
Канал о коммерческой разработке метавселенных: новости, аудиты, статьи и тренды из мира VR, AR и XR.

Метапутешественник
/channel/vrtraveler
Дневник путешественника по метавселенным с новостями, трендами, обзорами и мемами.

DVOR
/channel/dvor_agency
Агентство DVOR создает коммерческие проекты в метавселенных и AR эффекты для бизнеса.

Portal News
/channel/portal_vr_news
Новости, обзоры и гайды о VR, AR и метавселенных.

Portal VR | Франшиза
/channel/portalvrfranchise
Международная сеть парков виртуальной реальности с более 75 парками в 10 странах.

ROGOV PRO
/channel/rogovpro
Личный канал Дениса Рогова о лайфстайле, продуктивности, книгах, фильмах, путешествиях и технологиях.

Дизрапт маркетинга
/channel/techdisrupt
Все о технологиях Metaverse, AR/VR/XR и Digital Influencers простым языком.

VOIC: о технологиях и людях
/channel/voictech
Иммерсивные технологии в культуре и жизни, ведет Ваня Юницкий.

Метаверсошная
/channel/olya_tashit
Канал о будущем технологий: метавселенная, VR, AR, ИИ, роботы и аватары.

Poka spit Dali 👁
/channel/pokaspitdali
Технологии и digital кейсы в искусстве, бизнесе и рекламе, создание AR, VR и Metaverse проектов.

Maff: Метавселенные и Web3
/channel/maff_io
Metaverse-агентство и продакшен, контент о метаверсе и Web3, проведение ивентов.

РЕПТИЛОИДНАЯ
/channel/reptiloidnaya
Блог о будущем с AR, VR, AI, роботами и трансгуманизмом, ведет Денис Россиев.

Читать полностью…

Метаверсище и ИИще

Ох, еще и Суно твитторнул, что они раскатали вот эту вот image2image, то есть audio2audio фичу для всех Премиум и Про подписчиков. Помните они лейкой стучали по перилам?. Теперь и вы можете.
Мужик на видео мне точно не нравится, а вот бит и дудки просто плазма.
И вы, конечно, уже зажрались в конец, но вспомните себя прошлогоднего - этот приджазованный трек написал ИИ. Вам остается только стукать и хрюкать. От радости.

Для тех, кто в теме:
1. Navigate to “Library” - in the top right click “Upload audio”
2. You can record audio OR upload an audio/video clip. Clips should be between 6 - 60 seconds in length
3. Once uploaded, choose “extend” from the uploaded clip. Choose a time stamp to extend from, provide a genre, and include your own lyrics if desired

Читать полностью…

Метаверсище и ИИще

txt2video стал еще доступнее, Luma Labs выкатили свой и дают создать 30 видео в месяц бесплатно. Качество на уровне SORA

Положить сервис можно тут:
https://lumalabs.ai/dream-machine/creations

Читать полностью…

Метаверсище и ИИще

Вы спрашивали за веса Stable Diffusion 3 - их есть у нас!

Читаем тут: https://stability.ai/news/stable-diffusion-3-medium

Веса забираем тут: https://huggingface.co/stabilityai/stable-diffusion-3-medium

И уже прикрутили в ComfyUI: https://github.com/comfyanonymous/ComfyUI/commit/8c4a9befa7261b6fc78407ace90a57d21bfe631e

Читать полностью…

Метаверсище и ИИще

Следи за лицом! - Follow-Your-Emoji

Вот еще одна работа в копилку нейроаватаров.
Напоминаю, что лучшие у нас пока EMO от Алибабы и VASA от Микрософтика. Но кода от них не дождешься.
Недавно писал про V-Express от Тикточека, и это решение уже с кодом.
А тут появилась еще одна работа, с акцентом на анимацию эмоций, а не только липсинк. Там даже есть преувеличенные гримасы в духе Снапчата и работает это даже на животных. И посмотрите до конца, там уже есть Сэм Альтман, куда без него.
И похоже пишет все это в одно лицо(мозг?) аспирант гонконгского университета, которые работает в Тиктоке. Забавно, что в качестве твиттора или демо везде указан его Гитхаб:
https://github.com/mayuelala

Поглядите, он накропал уже десяток решений, некоторые с кодом, некоторые без. Очень жду обновления Follow Your Pose.

Код Follow-Your-Emoji он обещает выложить, и на поляне нейроаватаров появится больше опен-сорсных решений.

Поглядите на проект, выглядит достойно. И теперь у нас есть EmojiBench - бенчмарк по нейроаватарам!

https://follow-your-emoji.github.io/

Читать полностью…

Метаверсище и ИИще

Оказывается в Krea на максимальном плане есть Video Upscaler. И он просто огненный.
Я тут поглядел как люди разгоняют видео из Клинга в 4K и за Топаз можно начать чокаться.

А пока для вам пара примеров.
Анимация девочки это https://github.com/fofr, разогнанный в Krea Video Upscaler.
И за аниматоров как-то не по себе.

Второй ролик это вообще захват экрана в Dreams на PS5, то есть голимый виарчик превращается в прельстивый метаверсик.
Есть минус, Krea Max - стоит 60 баксов в месяц. Пока.

Читать полностью…

Метаверсище и ИИще

Про обучение LLMок и яндексовый опенсорс

Недавно постил вот такую картинку. Если поразмышлять, то вообще-то говоря, стоимость сильно зависит от географии. Железки и электричество стоят везде по-разному. А экономить можно ещё и на софте и оптимизациях.
То, что сегодня яндекс опенсорснул свою библиотеку YaFSDP, интересное событие с точки зрения новой эры в обучении моделей.

Основное из их новости:

– яндекс пишет, что решение позволяет ускорить до 25% обучение LLM с открытым исходным кодом
– обещают, что с YaFSDP экономия памяти GPU может достигать 20%
– ну и показывают результаты теста библиотеки на сторонних нейросетях (на примере модели LLaMA 2 этап предварительного обучения на 1024 графических процессорах сократился бы с 66 до 53 дней)
исходный код уже есть на GitHub, посмотреть подробности замеров можно в репозитории GitHub, а почитать про разработку библиотеки — на Хабре.

Коллеги посчитали, реально ли с помощью решения можно сэкономить от $0.5M за месяц обучения модели, и соорудили формулу.

Стоимость аренды GPU в час * количество часов * количество дней * количество GPU * (коэффициент на сколько оптимизируем ресурсы) = экономия

Ну и проверили экономию на примере Google Cloud и Fluidstack:

Считаем у Гугла, параметры выходят такие:

1) 1312 H100
2) Месяц обучения
3) Цена за GPU: $3.98/h
4) Экономия 20% ресурсов

Общая экономия в месяц: 3.92*30*1312*(0.2/1.2)*24 = $601 тыс

Теперь у FluidStack:

1) 1312 H100
2) Месяц обучения
3) Цена за GPU: $3.75/h
4) Экономия 20% ресурсов

Общая экономия в месяц: 3.75*30*1312*(0.2/1.2)*24 = $566 тыс

Это я к чему: YaFSDP надо детальнее изучать, но возможно она будет полезна тем, кто не может позволить себе ацкого железа и для тех, кто использует ГПУ в облаке. А оптимизация идёт за счёт софта.

Читать полностью…

Метаверсище и ИИще

L-MAGIC: Language Model Assisted Generation of Images with Coherence

Генератор 360-градусных панорам от Intel Labs. Под капотом LLM для составления промпта.
На вход умеет принимать разные исходные данные: картинка, набросок, текстовое описание

Код
Демо ждем

#image2panorama #sketch2image #sketch2panorama #text2panorama

Читать полностью…

Метаверсище и ИИще

Хех, пост про Хомяков приподразорвал коменты. Наверное надо мне реанимировать мой семилетний пост про "биточки с гречкой".

А я вот принес вам пример метаверсика, в котором нет крипты, в котором юзеры не скучают, и в котором есть что поделать (что для метаверсиков - чудо).

В общем это Котоверс. И это просто убойная VR-игра.
Никакой фетишизации реалистичности, никакого воздыхания над погружением, а просто взыскание к желанию взрослых детей нашкодить, напакостить, извести ближнего своего, особенно учительницу или директора школы.
Сделано с таким задором, что я еще раз убеждаюсь, в любом метаверсике: механика - всё, антураж - ничто (наскучивает моментально). Представьте, что вам надо внести как можно больше хаоса в метаверсик: и тут вам вручают мерзавца кота, который роняет горшки, бьет посуду, жрет рыбок в аквариуме и изводит хозяйку. Чем больше извел, тем выше результат. Сдается мне, хороший тренажер для релиза детских психотравм.
А Вова Закоулов, с которым мы тусуем на Кипре, рассказал, что это сделали беларусы, сидящие на Кипре. У него, кстати, отличный разбор игры, не с точки зрения метаверсика, а с точки зрения денег и успеха: почему они выстрелили и причем тут Meta App Lab.
Все ссылки на игру и видосы вот тут, а я сижу ржу и болею за кота.

Читать полностью…

Метаверсище и ИИще

Итого, "когда-то этим летом, только для iPhone 15 и маков с M1 и выше"

Генерация картинок прямо на девайсе, очень цензурировано, только три стиля - скетч, иллюстрация, анимация. Все очень иконочное.

Вызов chatGPT в Сири - бомба.

Интеграция LLM-ки (какой?) в приложения - идеальна.

Читать полностью…

Метаверсище и ИИще

Поиск в видосах. Текстом!
Более того, говоришь - собери видео из моих фоток на тему "мы с корешами чиллим". И он собирает. Ну за стартапы

Читать полностью…
Subscribe to a channel