Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn
Мятное видео.
Вы будете смеяться, но у нас новый видео-генератор!
Причем не простой! А с ништяками.
MinT is the first text-to-video model capable of generating sequential events and controlling their timestamps.
Во-первых, это Снап. Там в авторах Сергей Туляков и Александр Сярохин. Хотя я так понимаю, это работа интерна Ziyi Wu.
Во-вторых, там интересная фишка, работа со временем, промптовый монтаж. Только не прямыми склейками, а латентными. Видео просто генерится с последнего кадра, сохраняя ВСЮ консистентность предыдущего видео. Это вам не image2video склейки.
Проще показать промпт:
[0.0s → 2.3s]: A young man typing on the laptop keyboard with both hands.
[2.3s → 4.5s]: The man touches the headphones with his right hand.
[4.5s → 6.5s]: The man closes the laptop with his left hand.
[6.5s → 9.1s]: The man stands up.
И все это в одном сеттинге.
Выглядит очень нарядно, всегда симпатизировал разработкам Снапа.
Обязательно посмотрите примеры тут:
https://mint-video.github.io/
Там интересно.
По поводу сравнения с другими моделями - я так понимаю, что так принято, потому что качество на примерах довольно мыльное.
У моделей вообще отношения со временем не очень, а тут попытка приручить время.
Также поглядите на интересную работу на тему времени тут.
@cgevent
Коротенечко про Android XR и Google Glasses
Десять лет назад Гугл выпустил google glasses и они были прекрасны. Но не взлетели.
Сейчас они заходят в эту реку второй раз.
Очки снова анонсировали на недавней конфе для разрабов Гугла вместе с анонсом Google: Android XR.
https://www.wired.com/story/google-android-xr-demo-smart-glasses-mixed-reality-headset-project-moohan/
Кстати, это уже пятая операционка от Гугла для мобильных утройств после Android, Wear OS, Google TV и Android Auto. Хромбуки не в счет.
Но им приходится снова быть (по традиции) в роли догоняющего.
Метачка уже вовсю обновляет существующие очки (теперь там есть ИИ-ассистент, переводчик и даже Шазам!), а у Гугла, как обычно, "когда-то в будущем".
https://www.theverge.com/2024/12/16/24322628/ray-ban-meta-smart-glasses-live-ai-translation-shazam
Интересно, что они объединились с Самсунгом и Квалкомом. А Самсунг даже показал ответочку Мета Квесту и Лыжной Маске - проект Мухан. Но тоже без сроков выхода и с невнятным позиционированием.
https://www.theverge.com/2024/12/12/24319528/google-android-xr-samsung-project-moohan-smart-glasses
Интересно, насколько именно операционка + Gemini смогут стать драйверами успеха очков от Гугла.
Вопрос набора киллер-фич, имхо.
Шазам в Рей-Банах от Метачки - одна из них.
На фото, я в 2015 году бегаю со слезами восторга по CG EVENT и ору "Ок, Гугл, take video!!", и оно снимает, зараза. Мы даже с Костей Харитоновым потом кино сделали оттуда. Было очень круто, в 2015 году смотрелось как фантастика.
@cgevent
Что показали
Поговорили про поиск в ChatGPT:
– Теперь он доступен для бесплатных пользователей тоже
– Поиск стал лучше, быстрее и тп.
– Поиск теперь работает во время разговора через Advanced Voice Mode
– Можно сделать поисковик чатгпт дефолтным в браузере (лицо Google представили)
This bass video is generated by AI
Ну и чтобы закрыть тему с басистами сегодня, держите видео от моего любимого Davie504, о котором я периодически пишу в канале.
Это невыносимо смешно.
Davie504 вначале троллит Suno, но если вы посмотрите с 5:00, вы увидите изменение тональности.
Ну и это отличная демонстрация того, что Suno - это прежде всего бесконечный источник идей, а потом уже самой музики. Самая частая моя реакция на прослушивание суновских генераций - "если переписать вокал в студии, то это хит".
А Davie504 в конце "переписывает" партию баса для Суно. И получается прекрасно.
И поглядите до конца, когда он с его серьезным лошадиным лицом рассуждает "Am I AI?".
Восторг для тех, кто в теме. Поглядите полное видео тут:
https://youtu.be/a9GVnh2to44
P.S. А если хотите просто удовольствия от слэпа, вот вам трек от Charles Berthoud X Giacomo Turra:
https://www.youtube.com/watch?v=6B5Kc0D8uqI
@cgevent
Немного разбавим гиковские посты.
Я не знаю, для чего это может быть нужно, но это очень забавная нейросетка.
Определяет, кто и куда смотрит.
Можно, конечно пофантазировать:
- камеры в школе и на лекциях - анализ внимания
- камеры в переговорках - анализ вовлеченности и подтупливания в телефонах
- приложения для телефона для анализа видео типа "посмотри, куда реально глядит твой парень"
- VFX - плагин автоиспепеляющий взгляд
Еще варианты?
И все это уже работает на основе опенсорсных клея и палок:
https://github.com/fkryan/gazelle
Поглядите, хорошие примеры внутри.
@cgevent
Лоры для видео
Мне кажется, скоро мы увидим поток Лор для видео-моделей. И если закрытые платформы типа Kling выкатывают свои скромные решения, позволяющие тренировать внутренние лоры на лицах, но опен-сорс не разменивается по мелочам.
Я долго мучился, выбирал, какое видео можно хотя бы под спойлер спрятать, еле нашел одно.
В общем держите:
CogVideoXXX1.5-5B-I2V LoRA NSFW
Сообщество идет путем Stable Diffusion 1.5 и тренирует то, что действительно востребовано.
Слабонервным, нервным, строговоспитанным и впечатлительным смотреть и ходить по ссылке крайне не рекомендуется. Там все по-взрослому.
Но стоп-кран сорван и трушные Лоры для видео залетают на Civitai.
https://civitai.com/models/1000190/cogvideoxxx15-5b-i2v-lora-nsfw
@cgevent
Это выглядит одновременно очень мило и абсолютно проклято.
Вот бы кто-нибудь устроил матч между такими роботами. Это же действительно куда интереснее, чем мясной футбол.
P.S.: робот в синей футболке симулирует травму
Боюсь, что нигде теперь. А как ещё ИИ будет получать бесплатную разметку для беспилотников?
Любишь катацца, люби и данные метить.
Не любишь катацца, сиди на обочине прогресса.
@cgevent
Grok Aurora & Kandinsky
Цензура? Нет, не слышали..
Сора: а чо так можно было?
@cgevent
Реалтаймовый path tracing в UE5.
Честно говоря, звучит как изобретение квантового рейтрейсинга или применение квантовых компьютеров для рендеринга. Ну не может такой кадр считаться в 60fps, я хорошо помню из прошлой жизни, что такие сцены считаются сутками. На кадр.
Если интересно как это возможно, поглядите видео. Как я понял, вместо миллиардов лучей испускаются миллионы(звучит иронично, но экономия в тысячи раз) и испускаются локально, только там где надо(блидинг, софт шедоу и пр).
И там хорошие три вопроса, один из которых про потерю качества при таком подходе. Ответ - ее почти нет.
Явшоке. Подробности ниже.
А я вспоминаю недавние посты про генерацию, а точнее про рендеринг игр нейронками, которые знать не знают про path tracing и физическую корректность, и думаю, а что важнее - дофамин или физически корректный свет? И где предел качества картинки, после которого пользователю уже все равно на качество?
https://youtu.be/JYI1srodjeg?si=8VxmZyglPqGCjVOa
@cgevent
OpenAI 7: проекты в chatgpt
Очень полезная штука. Можно такие папочки создавать, в которых все необходимые документы, инструкции, чаты. Причем не только на потрындеть, но и код пописать. Наконец-то можно будет разложить все аккуратно и контекст сохранять. Тут рабочая стратегия, тут путешествия организация и так далее. Раскатывают прямо сейчас
https://www.youtube.com/live/FcB97h3vrzk?si=xjUjA8kQxsJLMglh
Мадагаскарский яйценосный дрозд (Madagascar ovum turdi) - единственная известная науке птица, не высиживающая яйца и не вьющая гнезд.
После завершения беременности, самка откладывает в специальную кожаную сумку два, в редких случаях - три яйца, практически идеальной круглой формы.
По окончании вынашивания, нижняя часть кожистой стенки истончается, яйца выкатываются наружу, и происходит процесс вылупления птенцов. Молодой яйценосный дрозд готов к самостоятельному полету уже через четверть часа после рождения, что также является уникальным явлением в мире птиц.
Известный канадский орнитолог Летиция Боллс в своей книге «Наша уникальная планета», так описывает самок Мадагаскарского яйценосного дрозда:
“Учитывая, что во время сезонных миграций этим маленьким хрупким женщинам приходится пролетать около 20 000 км, их по праву можно назвать женщинами с яйцами. И не только из-за необычного способа вынашивания птенцов».
Wilson Journal of Ornithology, 2024
Это мой приятель Алекс Васильев, сделал 4 апреля вот такой пост. Ну и взорвал интернет.
Оригинал тут
В итоге дроздяра разлетелся по интернетику как ковид. Из последнего, я видел тетеньку, кандидата биологических наук, которая прям на серьезных борщах затирала про особый вид дроздов с термотестикулами, а на заднике была вот эта ИИ-птичка.
Тут, конечно, можно разразиться длинным постом о природе кожаных, но я лишь приложу видос из Соры.
Чтобы кандидатам биологических наук было, что обсудить в интернетике.
Я, кстати, уже писал про то, как Алекс меняет фауну планеты.
@cgevent
🔵 Предыстория: У меня в телеге тысячи! непрочитанных и неотвеченных сообщений, скорее всего у вас также. Большинство из них с запросами на партнерства, запуски проектов, маркетинг, да и просто обычные вопросы от пользователей наших продуктов. Все это наверно сотни тысяч долларов упущенных возможностей.
⚠️ Но кто это все должен разбирать, квалифицировать, общаться, договариваться? Не доверишь же ты свой личный телеграм трем ассистенткам.))
Ну и решил я все это автоматизировать через AI Telegram бота, и тут понеслось)) 📱📱📱
Спустя 20.000 строк кода родился полноценный AGI бот-ассистент для Телеграм, который за меня может вести все переписки и делать практически что угодно:
- общаться на любые темы
- квалифицировать лидов и их потребности
- вести переговоры и договариваться в свою пользу
- назначать встречи и звонки
- и даже продавать сервисы и принимать платежи
Ну и конечно же я не поленился добавить в него все последние фишки AI:
- Загрузка любых данных (doc, md, pdf, csv) — бот “запоминает” всё, что нужно.
- Голосовые сообщения — можно добавить свой голос, и бот сможет общаться голосовыми за вас.
- Самые мощные AI-модели (#OpenAI, #Anthropic) под капотом.
- Полный контроль и гибкая настройка инструкций и интеллекта под ваши задачи и цели.
- Доступ в интернет для поиска нужной информации
- Безопасность на уровне самого Telegram — бот работает только с теми чатами, которые вы ему разрешите.
BLENDERGPT
Держите вам еще один 3Д-генератор.
Несмотря на название это НЕ плагин к Блендору, это просто еще один облачный сервис за 10 долларов в месяц.
Преимущество - быстрый.
Я попробовал, не увидел чего-то особенного. Может вы найдете.
С персонажами совсем беда.
https://www.blendergpt.org/app
@cgevent
В аккурат после Gemini OpenAI показали камера- и скрин-шеринг в chatGPT (к чорту приватность, данные всё). И мультимодальность в голосовом режиме в виде audio-direct-to-audio. Звучит действительно еще круче.
А потом стали мучить Санту вопросами про оленей.
Теперь можете поставить телефон рядом с собой, включить камера шеринг - и он будет коментировать ваши действия. Все как у людей.
Кстати, для фитнеса и йоги может зайти. Не удивлюсь, если услышу на тренировке: подтяните внутренние пахи.. Когда ходил на Айенгару, никто мне не мог объяснить, кто это такие. Может chatGPT объяснит.
Кто круче?
Конечно, сравнивать видеогенераторы на одном промпте затея не очень корректная. Но пользователю-то все равно, что один генератор любит детальные промпты, а второй отлично раскучерявливает под капотом короткие в супердлинные.
Пользователь хочет удобства, фич и результата.
Промпт здесь, конечно, жоский:
Руки, физика, отношение между объектами, движение самой нарезки, интерпретация "стейк сделан идеально", пар, сок и т.д.
Prompt:
A pair of hands skillfully slicing a perfectly cooked steak on a wooden cutting board. faint steam rising from it.
Пика и Люма сразу обозначили, что они про другое.
Ранвей удивил в плохом смысле.
Клинг и Минимакс удержались в рамках задачи, а Клинг вообще накреативил, как он умеет.
Гугловая генерация выглядит топово, но сдается мне это лютый черрипик.
Но самое крутое, что опенсорсный Хуньянь составил конкуренцию всем остальным и действительно уделал Рунвей.
@cgevent
Бесплатный Грок и Аврора.
У меня в твитторе появился бесплатный Грок. Он довольно толковый, но выяснять, что больше 9.11 или количество букв "р" у меня нет желания, поэтому я сразу вцепился в Aurora - это, кстати, единственный вариант для генерации картинок в бесплатном Гроке.
У меня сходу два ощущения:
До Флюкса там очень далеко. Понимание промпта среднее, качество деталей (и особенно лиц на средних планах) - слабое.
Аврора прям явно заточена под лица крупным планом, хотя до Флюкса ей тут тоже далеко.
Но.
Грок очень хорош в описании картинок. Я дал ему пару генераций и попросил описать их в деталях. Он сделал очень подробный структурированный промпт. Который я тут же присунул ему обратно. Обычно я делаю так через chatGPT + Flux, теперь попробую делать промпты в твитторе.
На примерах видно, что Аврора не справляется с качеством и деталями. Но очень прикольно наблюдать(на десктопе), как картинки рендерятся сверху вниз (Аврора - не диффузионная модель).
Попробуйте, может у вас получится получше.
На картинках Source - это то, что я скармливал в Грок, как картинку для подробного описания. Потом генерил это в Аврора и Flux 1.1 Ultra
@cgevent
Google Veo 2
Вы будете смеяться, но у нас новый видео-генератор.
Ну то есть генератор старый, версия новая.
Заявленные фичи:
Generates 4K resolution clips.
Understands camera controls like wide shots & angles.
Recreates real-world physics & emotions.
Дальше идет жоский маркетинг:
Create cinematic-quality videos without a camera.
Perfect for filmmakers, creators, & brands.
Human raters prefer Veo 2 over top competitors.
Последнее меня просто обескураживает.
"Говорят, что наш генератор лучше!"
Тетенька с микроскопом выглядит действительно здорово. А вот фигуристка, конечно, оборотень.
Картинка довольно сочная, как у Соры, но меня не оставляет ощущение, что это апскейл.
VideoFX isn't available in your country yet. Пойду расчехлять впн.
Кто-то уже попробовал?
Ну и зная пугливость и диверситикацию Гугла, остается только гадать о размерах цензуры.
https://deepmind.google/technologies/veo/veo-2/
@cgevent
Казах и помор.
Те, кто почитывал меня в прошлой жизни на fb (который я забросил, полностью перейдя в телегу), помнят, что у меня там была целая серия #khazakhipomor.
Есть у меня какая-то необъяснимая кармическая связь с казахами.
И щас хочу рассказать, что на Кипре у меня есть .. долго подбирал слово.. приятель, знакомый .. кент (или на новом нормальном, братуха).
Зовут его Алмас Абулхаиров - физтех, велосипедист, как бы видеоблоггер, и на минуточку создатель SpatialChat (тут вот ссылка на Forbes еслишо).
Недавно выступал у меня на Хабе, полностью уничтожил зал своей харизмой.
Мы встречаемся не так часто, как хотелось бы, но это всегда абсолютное тепло и поддержка.
В добавок ко всему, у Алмаса есть охренительный канал с не менее охренительным названием "Венчур по понятиям". И это не какой-то там модный "дружеский\честный пиар", это абсолютно искренний пост. Читаю его постоянно.
Он пишет про венчур примерно как я про ИИ. Как дышит. Только посты у него более умные и содержательные. И очень личные, что отчаянно важно в эпоху бесконечных штампов и копипастов.
Знаю, что у него там вот-вот будут еще огненные новости, которыми я обязательно поделюсь.
Но самое главное, он - басист!
Всем стартаперам читать, как учебник.
P.S. Блин, поймал себя на мысли, что на фотке пересчитываю зубы у нейродеда, который выглядит, как нейродемон. И у нейроказаха. И сам себя спрашиваю, это генерация или фото. Совсем охренел от ИИ уже.
@cgevent
Ну а совсем для гиков, кто хочет потренировать свои Лоры для видео, держите вот такой пайплайн.
Он, кстати, также может делать Лоры и Файнтюны(!) для Flux (то есть для картинок) и поддерживает, внимание тренировку Лор для Hunyan Video.
Поддежка multi-GPU и все дела:
Pipeline parallelism, for training models larger than can fit on a single GPU
Full fine tune support for:
Flux
LoRA support for:
Flux, LTX-Video, HunyuanVideo
Я обычно не пощшу про новые Лоры для Флюкса, их уже стало слишком много, но вот это прям хорошо.
Более того, для комфименов и комфивуменов там есть воркфлоу для Комфи с восьмистепным ТурбоФлюксом он Алимамы, апскейлером и LUT. И датасет у Лоры был, судя по всему, очень качественный.
Ну хорошие же! А мужик на пятой фотке просто брился второпях..
А я вам сейчас еще новостей про тренировку моделей пригоню.
https://civitai.com/models/1038829/dramatic-portrait
@cgevent
Адобченко пилит свой Omnigen. И какой!
https://xavierchen34.github.io/UniReal-Page/
Обещан код!
В воскресенье мне негоже писать лонгриды, поэтому я просто скопирую сюда все эти сладости, из которых меня больше всего возбудила вот эта:
Learns from video data to understand shadows, reflections, lighting effects and object interactions
Итак.
# 🌟 Key Features
* Universal Framework: Handle multiple tasks like generation, editing, customization and composition in a single model
* Real-world Dynamics: Learns from video data to understand shadows, reflections, lighting effects and object interactions
* Multi-Image Support: Process multiple input/output images seamlessly as "frames"
* Smart Context Understanding: Advanced hierarchical prompting system for precise control
* Automatic Adaptation: Intelligently adjusts to different tasks without requiring specific instructions
# 🎨 Example Applications
# Image Editing
* Add/remove objects with natural lighting and shadows
* Modify scene attributes while maintaining consistency
* Seamless object insertion with proper perspective
# Image Customization
* Transfer objects between images with proper context
* Adjust object poses and lighting automatically
* Multi-subject composition with realistic interactions
# 🔥 Comparison Results
UniReal shows significant advantages over existing methods:
* Instruction Following: Better understanding of complex editing requests
* Detail Preservation: Superior quality in maintaining important details
* Natural Integration: More realistic blending of edited elements
* Background Consistency: Better preservation of original image elements
@cgevent
Pika 2.0 — мечта всех рекламщиков
Pika продолжают исследовать возможности для контроля видео и на этот раз представили Scene Ingredients.
Фича позволяет создавать видео с реальными людьми (0:37) и объектами, а затем поместить их всех в какое-то место действия. По сути, это IP-Adapter на стероидах для видео. Конечно, тут ничего на лету не обучается, просто на вход сетки подаются дополнительные эмбеддинги референсных объектов. Но это может не очень стабильно работать.
- Подписка за $35 даёт кредитов на 40 видео в месяц (это очень мало).
- За $95 можно получить уже 120 видео.
Видео с Ingredients используют в два раза больше кредитов. Так что подписки даже за 95 баксов на нормальный видос не хватит 🤭
Большой упор сделали на рекламщиков. А-ля: загрузи фотку модели и фотку какой-то вещицы — и вот держи, пожалуйста, модный промо-видосик! Но не совсем понятно, насколько это на самом будет хорошо работать и слушаться промпта.
Kling вот недавно тоже сделали шаг в этом направлении, неожиданно релизнув один из лучших virtual try-on'ов. И даже с ним одежда получается не всегда 1 в 1. Чего тогда ожидать от IP-адаптера для видео? Хотя черипики в видосе выше, конечно, прикольные. Слишком уж дорого тратить драгоценные генерации видео без полноценной подложки из 100% рабочей картинки.
pika.art
@ai_newz
Kandinsky Video, Gigachat Music и народный датасет.
У Кандинского вышла новая модель 4.0 для генерации видео и местами там очень неплохие результаты.
А Gigachat запустил свой генератор музыки. Длина трека полторы минуты, но есть также генератор тестов песен.
И кстати про тексты и датасеты. Сбер в 2025 году начнет собирать "Народный датасет" для обучения моделей GigaChat и Kandinsky - в нем могут поучаствовать все желающие, приведя информацию о небольших регионах, о городской специфике, малых народах или устоявшихся выражениях. Своеобразный национальный краудсорсинг информации новой модели.
Подробности тут.
Ну, за подкасты.
Не очень понятно зачем теперь нужны кожаные блогеры, влогеры, инфлюматьихенсеры.
Я тут смотрел, как народ упарывается в NotebokLM, создавая аудио-подкаст из текста, потом вырезает в аудасити звук для каждого голоса, потом огородит с хейгеном и звуком, и тд.
Все.
Одна кнопка.
Сделать красиво.
Тупо, но красиво.
А зачем еще это все?
Хейген, похоже, сами не понимают, как они троллят интернет.
@cgevent
Krea.ai Edit
Редактор изображений Krea.ai теперь доступен всем.
Инпейнтинг, аутпейнтинг, выделение/замена/удаление объектов. Все это удобно как в фотошопе и бесплатно (ограниченно)
#imageediting #inpainting #outpainting
У меня в телеге все разбито на папки. Каналы в одной папке, активные каналы в другой, рабочие чаты в третьей, персональные сообщения в четвертой, ну и тд. Проблема в том, что когда кто-то делает новый чат с тобой и кем-нибудь еще, то этот чат попадает в папку All, а там тысячи непрочитанных. И все это улетает вниз. Не нашел как с этим бороться, а также, как искать ТОЛЬКО в личных сообщениях или только в сообщениях их определенной папки, или только pdf-ы. На итоге постоянно теряю кого-то или что-то. И тут мне пишет подписчик Илья, который с помощью ИИ забабахал бота, который решает часть таких проблем.
Смотрите ниже
⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️
В 3Д-генераторы потихоньку заползают 8К-текстуры.
Это уже намерение работать с ассетами для кино.
Но.
Помимо разрешения, у текстур должно быть и качество.
Я вот поглядел, как Rodin бахнул OmniCraft - там и HDRI генератор, и 8К текстуры, и на входе может быть пять ракурсов.
https://hyper3d.ai/omnicraft
Но потом нашел вот такое сравнение с опен-сорсным TRELLIS, который снимает текстуры, более похожие на реальные.
Rodin, конечно, всех пока уделывает по продуктовым фишкам, а вот по части качества придется теперь конкурировать с опен-сорсом.
Про Trellis читаем тут.
@cgevent
Мы: ну сегодня покажут новый DALL·E 4
OpenAI: смотрите в chatGPT есть кнопка "Санта"
https://www.youtube.com/watch?v=NIQDnWlwYyQ