Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn
Jetson Orin Nano Super
Все молчат вот про такой буквально новоиспеченный девайс от Нвидия.
https://www.nvidia.com/en-us/autonomous-machines/embedded-systems/jetson-orin/nano-super-developer-kit/
AI Performance 67 INT8 TOPS
GPU NVIDIA Ampere architecture with 1024 CUDA cores and 32 tensor cores
CPU 6-core Arm® Cortex®-A78AE v8.2 64-bit CPU 1.5MB L2 + 4MB L3
Memory 8GB 128-bit LPDDR5
102 GB/s
Storage Supports SD card slot and external NVMe
Power 7W–25W
Внимание - 249 долларов за такую малышку.
Теперь пара моментов.
8 гигабайт памяти. В маркетинговых сообщениях значится такое - теперь вы можете запускать свои LLM на таких вот оконечных устройствах. Да, наверное 3B, 7B и даже 9B модели могут влезть в память. И Stable Diffusion тоже прекрасно поместится и даже SDXL.
Но надо понимать, что это не видеопамять, это shared memory (примерно как с новых маках). То есть в 8 гиг должны поместиться и модель, и операционка, и софт для запуска.
Далее, CPU - 6-core Arm® Cortex®-A78AE. Вопрос с операционной системой и софтом открыт.
Насколько я понимаю, память не самая быстрая.
Энергопотребление поражает. Своей низостью.
В любом случае, это очень прикольный девайс для использования ну в очень разных сегментах: робаты, автомобили, интерактивные инсталяции, тренажеры, всякие говорящие твари, включая робособак.
Вишенка. Если вам мало 8 гиг памяти, можете всегда купить более старую версию на 64 гигабайта. За ДВЕ тысячи долларов.
Видео с пекарем вот тут:
https://youtu.be/S9L2WGf1KrM
@cgevent
Ну, за Сора. Не чокаясь
Вы извините, но у нас снова про видеогенераторы.
В твиттор хлынули тесты Veo2 - генератора видео от Гугла.
По крайней мере, это уже не черрипики с сайта и можно оценить реальное качество.
И оно, похоже, очень и очень неплохое.
Поглядите только на сцены из Прибытия, пересобранные с Veo.
Но есть один маленький момент. Гугл, как обычно, очень перестраховывается с цензурой.
Поэтому вместо Image2video у них text2image2video - вы не можете подсунуть свои картинки на вход, вы можете их только сгенерить в самом генераторе и уже из них он сделает видео. Это позволяет отсечь всякие глупости, которые вы будете пихать в него.
@cgevent
Mocha 2025 - Object Brush
В новую версию Mocha завезли нейроротоскоп.
Если это в реальности работает хорошо как на видео (сомневаюсь), то глядишь, всякие громоздкие костыли станут не нужны
#roto #video2mask
Оригинал, а не копия
MTС провел конференцию MTS StartUp Day. Мероприятие стало настоящим парадом главных инвестиционных трендов российского рынка.
По мнению спикеров, 2024 год стал периодом венчурной зимы — много проектов заморозились в связи с низкой активностью фондов. Но в 2025 году сулят оттепель. Уже растет количество новых сделок M&A и увеличивается интерес к pre-IPO.
Инвесторы не обошли стороной три главных слова — что с ИИ? В отличие от B2B и энергетики, сегмент до сих пор ощущается рынком как пузырь. Поэтому вопрос, откуда брать деньги на развитие генеративных технологий, остается открытым.
Главным тезисом дискуссии стал вывод, что рынку необходимо стремиться к созданию новых оригинальных продуктов, а не пытаться повторить успех существующих аналогов. Алексей Басов, BSF Partners, подчеркнул: «Наша программа подготовки к pre-IPO с МИК уже завершила первый выпуск 40 будущих эмитентов, из которых 80% вероятно будут куплены в полете, не добравшись до публичных рынков». А Дмитрий Курин добавил: «У нас законтрактовано больше 10 качественных компаний», демонстрируя наличие значительного числа готовящихся сделок, как публичных, так и частных.
Что ж, такому настрою можно только позавидовать. Посмотрим, что готовит нам рынок в следующем году.
Мятное видео.
Вы будете смеяться, но у нас новый видео-генератор!
Причем не простой! А с ништяками.
MinT is the first text-to-video model capable of generating sequential events and controlling their timestamps.
Во-первых, это Снап. Там в авторах Сергей Туляков и Александр Сярохин. Хотя я так понимаю, это работа интерна Ziyi Wu.
Во-вторых, там интересная фишка, работа со временем, промптовый монтаж. Только не прямыми склейками, а латентными. Видео просто генерится с последнего кадра, сохраняя ВСЮ консистентность предыдущего видео. Это вам не image2video склейки.
Проще показать промпт:
[0.0s → 2.3s]: A young man typing on the laptop keyboard with both hands.
[2.3s → 4.5s]: The man touches the headphones with his right hand.
[4.5s → 6.5s]: The man closes the laptop with his left hand.
[6.5s → 9.1s]: The man stands up.
И все это в одном сеттинге.
Выглядит очень нарядно, всегда симпатизировал разработкам Снапа.
Обязательно посмотрите примеры тут:
https://mint-video.github.io/
Там интересно.
По поводу сравнения с другими моделями - я так понимаю, что так принято, потому что качество на примерах довольно мыльное.
У моделей вообще отношения со временем не очень, а тут попытка приручить время.
Также поглядите на интересную работу на тему времени тут.
@cgevent
Коротенечко про Android XR и Google Glasses
Десять лет назад Гугл выпустил google glasses и они были прекрасны. Но не взлетели.
Сейчас они заходят в эту реку второй раз.
Очки снова анонсировали на недавней конфе для разрабов Гугла вместе с анонсом Google: Android XR.
https://www.wired.com/story/google-android-xr-demo-smart-glasses-mixed-reality-headset-project-moohan/
Кстати, это уже пятая операционка от Гугла для мобильных утройств после Android, Wear OS, Google TV и Android Auto. Хромбуки не в счет.
Но им приходится снова быть (по традиции) в роли догоняющего.
Метачка уже вовсю обновляет существующие очки (теперь там есть ИИ-ассистент, переводчик и даже Шазам!), а у Гугла, как обычно, "когда-то в будущем".
https://www.theverge.com/2024/12/16/24322628/ray-ban-meta-smart-glasses-live-ai-translation-shazam
Интересно, что они объединились с Самсунгом и Квалкомом. А Самсунг даже показал ответочку Мета Квесту и Лыжной Маске - проект Мухан. Но тоже без сроков выхода и с невнятным позиционированием.
https://www.theverge.com/2024/12/12/24319528/google-android-xr-samsung-project-moohan-smart-glasses
Интересно, насколько именно операционка + Gemini смогут стать драйверами успеха очков от Гугла.
Вопрос набора киллер-фич, имхо.
Шазам в Рей-Банах от Метачки - одна из них.
На фото, я в 2015 году бегаю со слезами восторга по CG EVENT и ору "Ок, Гугл, take video!!", и оно снимает, зараза. Мы даже с Костей Харитоновым потом кино сделали оттуда. Было очень круто, в 2015 году смотрелось как фантастика.
@cgevent
Что показали
Поговорили про поиск в ChatGPT:
– Теперь он доступен для бесплатных пользователей тоже
– Поиск стал лучше, быстрее и тп.
– Поиск теперь работает во время разговора через Advanced Voice Mode
– Можно сделать поисковик чатгпт дефолтным в браузере (лицо Google представили)
This bass video is generated by AI
Ну и чтобы закрыть тему с басистами сегодня, держите видео от моего любимого Davie504, о котором я периодически пишу в канале.
Это невыносимо смешно.
Davie504 вначале троллит Suno, но если вы посмотрите с 5:00, вы увидите изменение тональности.
Ну и это отличная демонстрация того, что Suno - это прежде всего бесконечный источник идей, а потом уже самой музики. Самая частая моя реакция на прослушивание суновских генераций - "если переписать вокал в студии, то это хит".
А Davie504 в конце "переписывает" партию баса для Суно. И получается прекрасно.
И поглядите до конца, когда он с его серьезным лошадиным лицом рассуждает "Am I AI?".
Восторг для тех, кто в теме. Поглядите полное видео тут:
https://youtu.be/a9GVnh2to44
P.S. А если хотите просто удовольствия от слэпа, вот вам трек от Charles Berthoud X Giacomo Turra:
https://www.youtube.com/watch?v=6B5Kc0D8uqI
@cgevent
Немного разбавим гиковские посты.
Я не знаю, для чего это может быть нужно, но это очень забавная нейросетка.
Определяет, кто и куда смотрит.
Можно, конечно пофантазировать:
- камеры в школе и на лекциях - анализ внимания
- камеры в переговорках - анализ вовлеченности и подтупливания в телефонах
- приложения для телефона для анализа видео типа "посмотри, куда реально глядит твой парень"
- VFX - плагин автоиспепеляющий взгляд
Еще варианты?
И все это уже работает на основе опенсорсных клея и палок:
https://github.com/fkryan/gazelle
Поглядите, хорошие примеры внутри.
@cgevent
Лоры для видео
Мне кажется, скоро мы увидим поток Лор для видео-моделей. И если закрытые платформы типа Kling выкатывают свои скромные решения, позволяющие тренировать внутренние лоры на лицах, но опен-сорс не разменивается по мелочам.
Я долго мучился, выбирал, какое видео можно хотя бы под спойлер спрятать, еле нашел одно.
В общем держите:
CogVideoXXX1.5-5B-I2V LoRA NSFW
Сообщество идет путем Stable Diffusion 1.5 и тренирует то, что действительно востребовано.
Слабонервным, нервным, строговоспитанным и впечатлительным смотреть и ходить по ссылке крайне не рекомендуется. Там все по-взрослому.
Но стоп-кран сорван и трушные Лоры для видео залетают на Civitai.
https://civitai.com/models/1000190/cogvideoxxx15-5b-i2v-lora-nsfw
@cgevent
Это выглядит одновременно очень мило и абсолютно проклято.
Вот бы кто-нибудь устроил матч между такими роботами. Это же действительно куда интереснее, чем мясной футбол.
P.S.: робот в синей футболке симулирует травму
Боюсь, что нигде теперь. А как ещё ИИ будет получать бесплатную разметку для беспилотников?
Любишь катацца, люби и данные метить.
Не любишь катацца, сиди на обочине прогресса.
@cgevent
Grok Aurora & Kandinsky
Цензура? Нет, не слышали..
Сора: а чо так можно было?
@cgevent
Реалтаймовый path tracing в UE5.
Честно говоря, звучит как изобретение квантового рейтрейсинга или применение квантовых компьютеров для рендеринга. Ну не может такой кадр считаться в 60fps, я хорошо помню из прошлой жизни, что такие сцены считаются сутками. На кадр.
Если интересно как это возможно, поглядите видео. Как я понял, вместо миллиардов лучей испускаются миллионы(звучит иронично, но экономия в тысячи раз) и испускаются локально, только там где надо(блидинг, софт шедоу и пр).
И там хорошие три вопроса, один из которых про потерю качества при таком подходе. Ответ - ее почти нет.
Явшоке. Подробности ниже.
А я вспоминаю недавние посты про генерацию, а точнее про рендеринг игр нейронками, которые знать не знают про path tracing и физическую корректность, и думаю, а что важнее - дофамин или физически корректный свет? И где предел качества картинки, после которого пользователю уже все равно на качество?
https://youtu.be/JYI1srodjeg?si=8VxmZyglPqGCjVOa
@cgevent
OpenAI 7: проекты в chatgpt
Очень полезная штука. Можно такие папочки создавать, в которых все необходимые документы, инструкции, чаты. Причем не только на потрындеть, но и код пописать. Наконец-то можно будет разложить все аккуратно и контекст сохранять. Тут рабочая стратегия, тут путешествия организация и так далее. Раскатывают прямо сейчас
https://www.youtube.com/live/FcB97h3vrzk?si=xjUjA8kQxsJLMglh
Kling 1.6
Ну а чтобы Гугл не расслаблялся, вот вам немного утечек из будущего апдейта Kling до версии 1.6.
Промпты забирайте тут.
@cgevent
Что показали сегодня, анонсы в основном для разработчиков:
- O1 модели теперь поддерживают строгие JSON схемы на выходе (и это не повлияет на качество работы модели) и Functions calling (это когда модель должна выбрать какой-то скрипт сама по себе во время ответа), фичи которые давно есть у других моделей OpenAI
- Упомянули «Developers Messages» для O1 — штука, которая позволяет разработчиком «направить» модель в нужную сторону в процессе ответа, что-то вроде второго системного промпта, но слабее
- «Reasoning Effort» — вы теперь можете указать сколько времени O1-модель будет «размышлять» перед тем как ответить, ответы будут лучше, но дороже или можно запретить ей слишком много думать перед ответом пользователю
- O1 API теперь поддерживает картинки на вход
- Advanced Voice Mode API теперь работает с WebRTC, то есть голосового ассистента OpenAI будет проще встраивать на веб-страницы без особых мучений (12 строк кода и готово)
- Наконец-то цены на Advanced Voice Mode API понизили на 60%, и теперь доступна новая, в 10 раз дешевле, mini-аудио моделька
- Показали новый способ файнтюна моделей «Prefence Finetuning» — можно тренировать на парах данных, что нравится и не нравится в ответе модели, доступно с сегодня для gpt4o & gpt4o-mini
- Вышли новые SDK — для Go и для Java
Если честно затянуто немного со всеми этими днями, я бы списком почитал уже, еще 3 дня осталось
Руй видео.
Вы будете смеяцца, но у нас новая опенсорсная видео модель. Причем image2video.
Ruyi is an image-to-video model capable of generating cinematic-quality videos at a resolution of 768, with a frame rate of 24 frames per second, totaling 5 seconds and 120 frames. It supports lens control and motion amplitude control. Using a RTX 3090 or RTX 4090, you can generate 512 resolution, 120 frames (or 768 resolution, ~72 frames) videos without any loss of quality.
https://github.com/IamCreateAI/Ruyi-Models
Поддержка видеогенерации в Комфи из коробки.
@p0lygon, что будем делать? Когда все это успеть протестировать?
@cgevent
И очень толково оформленный GitHub:
Оппа, оказывается у Клинга тоже можно управлять временем:
[0.0s → 1.5s]: The woman tilts her head side to side, smiling at the camera.
[1.5s → 3.5s]: She waves hello with her right hand, still smiling.
[3.5s → 5s]: She rests both hands under her chin, tilting her head side to side with a smile.
@cgevent
Кто круче?
Конечно, сравнивать видеогенераторы на одном промпте затея не очень корректная. Но пользователю-то все равно, что один генератор любит детальные промпты, а второй отлично раскучерявливает под капотом короткие в супердлинные.
Пользователь хочет удобства, фич и результата.
Промпт здесь, конечно, жоский:
Руки, физика, отношение между объектами, движение самой нарезки, интерпретация "стейк сделан идеально", пар, сок и т.д.
Prompt:
A pair of hands skillfully slicing a perfectly cooked steak on a wooden cutting board. faint steam rising from it.
Пика и Люма сразу обозначили, что они про другое.
Ранвей удивил в плохом смысле.
Клинг и Минимакс удержались в рамках задачи, а Клинг вообще накреативил, как он умеет.
Гугловая генерация выглядит топово, но сдается мне это лютый черрипик.
Но самое крутое, что опенсорсный Хуньянь составил конкуренцию всем остальным и действительно уделал Рунвей.
@cgevent
Бесплатный Грок и Аврора.
У меня в твитторе появился бесплатный Грок. Он довольно толковый, но выяснять, что больше 9.11 или количество букв "р" у меня нет желания, поэтому я сразу вцепился в Aurora - это, кстати, единственный вариант для генерации картинок в бесплатном Гроке.
У меня сходу два ощущения:
До Флюкса там очень далеко. Понимание промпта среднее, качество деталей (и особенно лиц на средних планах) - слабое.
Аврора прям явно заточена под лица крупным планом, хотя до Флюкса ей тут тоже далеко.
Но.
Грок очень хорош в описании картинок. Я дал ему пару генераций и попросил описать их в деталях. Он сделал очень подробный структурированный промпт. Который я тут же присунул ему обратно. Обычно я делаю так через chatGPT + Flux, теперь попробую делать промпты в твитторе.
На примерах видно, что Аврора не справляется с качеством и деталями. Но очень прикольно наблюдать(на десктопе), как картинки рендерятся сверху вниз (Аврора - не диффузионная модель).
Попробуйте, может у вас получится получше.
На картинках Source - это то, что я скармливал в Грок, как картинку для подробного описания. Потом генерил это в Аврора и Flux 1.1 Ultra
@cgevent
Google Veo 2
Вы будете смеяться, но у нас новый видео-генератор.
Ну то есть генератор старый, версия новая.
Заявленные фичи:
Generates 4K resolution clips.
Understands camera controls like wide shots & angles.
Recreates real-world physics & emotions.
Дальше идет жоский маркетинг:
Create cinematic-quality videos without a camera.
Perfect for filmmakers, creators, & brands.
Human raters prefer Veo 2 over top competitors.
Последнее меня просто обескураживает.
"Говорят, что наш генератор лучше!"
Тетенька с микроскопом выглядит действительно здорово. А вот фигуристка, конечно, оборотень.
Картинка довольно сочная, как у Соры, но меня не оставляет ощущение, что это апскейл.
VideoFX isn't available in your country yet. Пойду расчехлять впн.
Кто-то уже попробовал?
Ну и зная пугливость и диверситикацию Гугла, остается только гадать о размерах цензуры.
https://deepmind.google/technologies/veo/veo-2/
@cgevent
Казах и помор.
Те, кто почитывал меня в прошлой жизни на fb (который я забросил, полностью перейдя в телегу), помнят, что у меня там была целая серия #khazakhipomor.
Есть у меня какая-то необъяснимая кармическая связь с казахами.
И щас хочу рассказать, что на Кипре у меня есть .. долго подбирал слово.. приятель, знакомый .. кент (или на новом нормальном, братуха).
Зовут его Алмас Абулхаиров - физтех, велосипедист, как бы видеоблоггер, и на минуточку создатель SpatialChat (тут вот ссылка на Forbes еслишо).
Недавно выступал у меня на Хабе, полностью уничтожил зал своей харизмой.
Мы встречаемся не так часто, как хотелось бы, но это всегда абсолютное тепло и поддержка.
В добавок ко всему, у Алмаса есть охренительный канал с не менее охренительным названием "Венчур по понятиям". И это не какой-то там модный "дружеский\честный пиар", это абсолютно искренний пост. Читаю его постоянно.
Он пишет про венчур примерно как я про ИИ. Как дышит. Только посты у него более умные и содержательные. И очень личные, что отчаянно важно в эпоху бесконечных штампов и копипастов.
Знаю, что у него там вот-вот будут еще огненные новости, которыми я обязательно поделюсь.
Но самое главное, он - басист!
Всем стартаперам читать, как учебник.
P.S. Блин, поймал себя на мысли, что на фотке пересчитываю зубы у нейродеда, который выглядит, как нейродемон. И у нейроказаха. И сам себя спрашиваю, это генерация или фото. Совсем охренел от ИИ уже.
@cgevent
Ну а совсем для гиков, кто хочет потренировать свои Лоры для видео, держите вот такой пайплайн.
Он, кстати, также может делать Лоры и Файнтюны(!) для Flux (то есть для картинок) и поддерживает, внимание тренировку Лор для Hunyan Video.
Поддежка multi-GPU и все дела:
Pipeline parallelism, for training models larger than can fit on a single GPU
Full fine tune support for:
Flux
LoRA support for:
Flux, LTX-Video, HunyuanVideo
Я обычно не пощшу про новые Лоры для Флюкса, их уже стало слишком много, но вот это прям хорошо.
Более того, для комфименов и комфивуменов там есть воркфлоу для Комфи с восьмистепным ТурбоФлюксом он Алимамы, апскейлером и LUT. И датасет у Лоры был, судя по всему, очень качественный.
Ну хорошие же! А мужик на пятой фотке просто брился второпях..
А я вам сейчас еще новостей про тренировку моделей пригоню.
https://civitai.com/models/1038829/dramatic-portrait
@cgevent
Адобченко пилит свой Omnigen. И какой!
https://xavierchen34.github.io/UniReal-Page/
Обещан код!
В воскресенье мне негоже писать лонгриды, поэтому я просто скопирую сюда все эти сладости, из которых меня больше всего возбудила вот эта:
Learns from video data to understand shadows, reflections, lighting effects and object interactions
Итак.
# 🌟 Key Features
* Universal Framework: Handle multiple tasks like generation, editing, customization and composition in a single model
* Real-world Dynamics: Learns from video data to understand shadows, reflections, lighting effects and object interactions
* Multi-Image Support: Process multiple input/output images seamlessly as "frames"
* Smart Context Understanding: Advanced hierarchical prompting system for precise control
* Automatic Adaptation: Intelligently adjusts to different tasks without requiring specific instructions
# 🎨 Example Applications
# Image Editing
* Add/remove objects with natural lighting and shadows
* Modify scene attributes while maintaining consistency
* Seamless object insertion with proper perspective
# Image Customization
* Transfer objects between images with proper context
* Adjust object poses and lighting automatically
* Multi-subject composition with realistic interactions
# 🔥 Comparison Results
UniReal shows significant advantages over existing methods:
* Instruction Following: Better understanding of complex editing requests
* Detail Preservation: Superior quality in maintaining important details
* Natural Integration: More realistic blending of edited elements
* Background Consistency: Better preservation of original image elements
@cgevent
Pika 2.0 — мечта всех рекламщиков
Pika продолжают исследовать возможности для контроля видео и на этот раз представили Scene Ingredients.
Фича позволяет создавать видео с реальными людьми (0:37) и объектами, а затем поместить их всех в какое-то место действия. По сути, это IP-Adapter на стероидах для видео. Конечно, тут ничего на лету не обучается, просто на вход сетки подаются дополнительные эмбеддинги референсных объектов. Но это может не очень стабильно работать.
- Подписка за $35 даёт кредитов на 40 видео в месяц (это очень мало).
- За $95 можно получить уже 120 видео.
Видео с Ingredients используют в два раза больше кредитов. Так что подписки даже за 95 баксов на нормальный видос не хватит 🤭
Большой упор сделали на рекламщиков. А-ля: загрузи фотку модели и фотку какой-то вещицы — и вот держи, пожалуйста, модный промо-видосик! Но не совсем понятно, насколько это на самом будет хорошо работать и слушаться промпта.
Kling вот недавно тоже сделали шаг в этом направлении, неожиданно релизнув один из лучших virtual try-on'ов. И даже с ним одежда получается не всегда 1 в 1. Чего тогда ожидать от IP-адаптера для видео? Хотя черипики в видосе выше, конечно, прикольные. Слишком уж дорого тратить драгоценные генерации видео без полноценной подложки из 100% рабочей картинки.
pika.art
@ai_newz
Kandinsky Video, Gigachat Music и народный датасет.
У Кандинского вышла новая модель 4.0 для генерации видео и местами там очень неплохие результаты.
А Gigachat запустил свой генератор музыки. Длина трека полторы минуты, но есть также генератор тестов песен.
И кстати про тексты и датасеты. Сбер в 2025 году начнет собирать "Народный датасет" для обучения моделей GigaChat и Kandinsky - в нем могут поучаствовать все желающие, приведя информацию о небольших регионах, о городской специфике, малых народах или устоявшихся выражениях. Своеобразный национальный краудсорсинг информации новой модели.
Подробности тут.
Ну, за подкасты.
Не очень понятно зачем теперь нужны кожаные блогеры, влогеры, инфлюматьихенсеры.
Я тут смотрел, как народ упарывается в NotebokLM, создавая аудио-подкаст из текста, потом вырезает в аудасити звук для каждого голоса, потом огородит с хейгеном и звуком, и тд.
Все.
Одна кнопка.
Сделать красиво.
Тупо, но красиво.
А зачем еще это все?
Хейген, похоже, сами не понимают, как они троллят интернет.
@cgevent