37760
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn
Gemini 3.0 (обещают в октябре).
Пишет с одной попытки код Windows, которая работает в браузере.
Prompt: Design and create a web os like windows os full functional features from text editor , terminal with python and code editor and a game that can be played to dile manager to paint to video editor and all important windows os pre bundled software Use whatever libraries to get this done but make sure I can paste it all into a single HTML file and open it in Chrome.make it interesting and highly detail , shows details that no one expected go full creative and full beauty in one code block
Разработай и создай веб-ОС, подобную ОС Windows, с полным набором функций: от текстового редактора, терминала с Python и редактором кода до игры, файлового менеджера, программы для рисования, видеоредактора и всего важного предустановленного программного обеспечения ОС Windows. Используйте любые библиотеки, чтобы выполнить эту задачу, но убедитесь, что я смогу вставить все в один HTML-файл и открыть его в Chrome. Сделай это интересным и очень детализированным, покажи детали, которых никто не ожидал, прояви всю свою креативность и красоту в одном блоке кода.
Полученный код:
https://codepen.io/ChetasLua/pen/yyezLjN
Ждем 3.0 в октябре, а пока можете поглядеть, как она пишет код Веб-Макоси:
https://x.com/chetaslua/status/1977866953705316571
@cgevent
Segment Anything 3 тихо появился на ICLR в виде статьи
Первая версия SAM позволяла щелкнуть по объекту, чтобы сегментировать его.
В SAM 2 были добавлены видео и память.
Теперь SAM 3 говорит: просто опишите, что вы хотите - «желтый школьный автобус», «полосатый кот», «красное яблоко» — и он найдет и сегментирует каждый экземпляр этого объекта на изображениях или в видео.
Это как будто сегментация наконец-то научилась языку, но в обоснованной, минимальной форме, просто оперируя концепциями.
Короткие существительные, образцы изображений или и то, и другое.
Вы озвучиваете объект, он понимает, что вы имеете в виду, и рисует границу везде, где она появляется.
За этим стоит огромный механизм обработки данных: 4 миллиона уникальных концепций, 52 миллиона проверенных масок, созданных людьми и LLM, проверяющими работу друг друга.
Результат: примерно в 2 раза лучше, чем SAM 2, распознавание, близкое к человеческому, на тестах с открытым словарем и скорость в реальном времени.
https://openreview.net/forum?id=r35clVtGzw
@cgevent
Vivix, the World's first Real-time Long Video Model
Звучит как кликбейт, но они действительно генерят пятисекундный видос за три секунды. Но есть моменты.
Реальный кликбейт тут: Vivix Turbo — создавайте видеоролики длиной до 1 минуты менее, чем за 3 секунды, с 9 вариантами сразу.
9 вариантов вам предложат только на платном тарифе.
Но на бесплатных генерациях (а мне насыпали сразу 260 кредитов и одна генерация - 10 кредитов), он работает как обещано - за три секунды генерит одно видео в 5 секунд.
Дальше начинаются игрищща - он пишет на видео длительность в 15 или даже в 50 секунд, и после того, как вы кликаете на видео, начинает его долго генерить (я не дождался).
Качество приподшакальное, 512р.
Но Вилл Смит втянул макаронину как положено.
Умеет только в image2video.
Наверное в таком случае проще использовать Grok Imagine
https://vivix.ai/labs/turbo
@cgevent
Нейропрожарка
Свежая работа от Паши Нойза "DAY OF THE DAD". Очень советую пересмотреть в версии 4K (ссылка в конце). Помните его клип для Limp Bizkit?
Сюжет:
В мире, где День отца — это дата трагедии, выживший "Король Свалки" отмечает ее кровавым ритуалом мести. Его миссия: прорваться сквозь орду мертвецов, чтобы найти новый подарок для своей погибшей дочери, тем самым сохраняя последнюю, самую важную традицию. Это ультра-насилие, ведомое глубочайшей сентиментальностью.
2. Краткая Идея и Философия
Это ultra-trash-хоррор-боевик в стиле B-movie 80-х, который служит пилотом для моей будущей франшизы THE DEAD RUST.
В отличие от современных, бегущих Зомби фильмов и одинаковых серых зомби, мне нравятся Зомби эстетика 1980s с их индивидуальностью и кино эстетикой .
И я намеренно воскресил философию Джорджа А. Ромеро—зомби должны быть уникальными, медленными и нести свою прошлую "идентичность”(Зомби моряк или пассажир в такси). Поэтому я воссоздал эстетику таких фильмов как - “День Мертвецов” или “Ночь живых мертвецов”
3. Детали Производства и Бюджет
Flux 1.dev Finetuned и собственный пайплайн для лица главного героя
Midjourney и собственный Moodboard для генерация основной стилистики
Omni Reference для создания консистентых сцен с главным героем
Kling AI - основной генератор
Minimax Fast для Кровавых сцен (хорошо проводит цензуру)
Higgsfield AI & Wan 2.5 для специальных сцен (взрывы)
SeeDance - для Close Up в основном (хороший кино тон у картинки)
Nano Banao & Seedream - для Создания дополнительных кадров и редактуры
Suno v5 - музыка
ElevenLabs = Закадровый голос.
Final Cut Pro был использован для ручного монтажа и SFX (созданных мной).
Topaz Labs использовался для Upscale в 4K
Бюджет и Время: Общая сумма прямых затрат составила всего около 50$ Внебюджетные расходы (CPP): Topaz Labs и Higgsfield AI использовались на условиях партнерских программ и не вошли в прямые расходы.
4. Личное Заявление
Моя цель — доказать, что AI-кино — это мастерство управления эстетикой, а не случайная генерация. Весь проект был задуман и исполнен за 5-дневный спринт.
Этим проектом я бы хотел показать что : AI — это кисть или инструмент. В правильных руках он может воскресить утраченную эстетику (Джорджа Ромеро) и решить ключевые проблемы консистентности благодаря собственным техническим наработкам.
P.S Если есть вопросы спрашивайте отвечу в комментариях или лично.
Смотреть в 4K - https://youtu.be/fKL1gh4i1Cs
@cgevent
Grok Imagine 0.9
Надо повнимательнее приглядеться к нему: сколько вилов смитов дадим?
Мне кажется уже тянет на девяточку.
Я зашел на https://grok.com/imagine/
Регнулся твиттором (можно гуглом или эппле) и получил довольно интересный опыт.
Если пишешь просто промпт, он генерит Бесконечную(!) ленту картинок по твоему промпту.
Ибо он пока не умеет в text2video.
Потом выбираешь (или загружаешь) картинку и он ея оживляет в видео.
Но есть лайфхак, если ему на вход подать чорную картинку и свой промпт, то получится text2video.
Есть липсинк, есть озвучка эффектов, подкладка музики.
Довольно развеселый продукт.
Также есть аппы для айфона и андроида.
@cgevent
Veo3.1
Утечки из твитторa от 8 октября 2025 года указывают на грядущее обновление Veo 3.1 для модели генерации видео от Google, замеченное в списке ожидания Higgsfield AI и во внутренних кодовых базах, таких как Vertex AI. Предполагаемые улучшения включают в себя улучшенную согласованность персонажей, продолжительность роликов до одной минуты, конструкторы сцен и кинематографические пресеты. ИИ-сообщество рассматривает их как шаги, призванные бросить вызов Sora от OpenAI, хотя Google не предоставила официального подтверждения.
@cgevent
Google выкатил конкурента Open AI Operator для управления компьютером.
А точнее, для взаимодействия с программами и их интерфейсами.
Gemini 2.5 Computer Use основана на базе Gemini 2.5 Pro и лучшый способ понять(если вы не гик), что она делает, это прошуровать сюда и задать какой-нибудь вопрос типа "What is MAU for chatGPT?"
https://gemini.browserbase.com/
Дальше вы увидите, как модель запускает в песочнице браузер, лезет в гугл и орудует с результатами. А вы сидите и смотрите, как она неистово кликает мышкой и анализирует результат.
Также для понимания полезно открыть список вызовов, в которые она умеет:
https://ai.google.dev/gemini-api/docs/computer-use?hl=ru#supported-actions
И там почитать про открытие браузера, наведение мышки, поиск и тд.
Совсем грубо говоря, это Autohotkeys или Selenium на стероидах Gemini.
Для ленивых, но любопытных есть видео:
https://www.youtube.com/watch?v=_lu-FcPUIfM
Пишете запрос: агент уходит решать задачу, вооружившись мышкой, клавиатурой, таймером и приложениями для поиска ответа.
По бенчмаркам от гугла, конечно, она побивает конкурентов и прочих подобных агентов.
Для разработчиков доступна через Gemini API in Google AI Studio и Vertex AI.
Остальные играются по первой ссылке.
@cgevent
Что происходит в LLM. Октябрь 2025
Несмотря на то, что LLM — главный хайп последних 2 лет, вокруг больших моделей остаётся много путаницы и заблуждений. Чем отличаются модели? Надо ли доучивать модель? Хостить или ходить по API? На что можно рассчитывать при построении агента или RAG-системы? Почему у кого-то работают RAG и агенты, а кто-то вовсе в них разочаровался?
Deepschool ответит на эти и другие вопросы на онлайн-лекции в четверг! За полтора часа вы получите актуальный срез индустрии вокруг LLM:
— актуальные модели и их свойства
— бенчмарки
— self-host VS API
— типы задач
— главные «болячки» ванильных решений
— и актуальные советы по их лечению
Спикер — Дмитрий Калашников, NLP Team Lead в Яндексе🔥
А ещё расскажут про курс «LLM», где объяснят теорию LLM, научат промптингу, дообучению, элайменту, построению RAG, агентских-систем и деплою — всё под кураторством опытных инженеров.
Всем участникам лекции подарят скидки на обучение 🎁
Подключайтесь в четверг, 9 октября в 18:30 МСК!
Регистрируйтесь по ссылке и приходите на лекцию в четверг!
Нейропрожарка
«Винни»
Черная комедия в стилистике нуарного комикса.
Решили пофантазировать, что если бы известные нам с детства персонажи существовали в мире Города грехов.
Сценарий - кожаный
Озвучка - кожаная
Статика - Midjourney / Runway (генерировали еще до появления Бананы и Сидрим)
Анимация - Midjourney, Kling 1.6, Kling 2.1, Runway Gen-4
Монтаж - Premiere pro, After Effects
Для площадок с вертикальным форматом видео планируем расширять картинку через Luma AI
Производим сериал командой в студии «Не Канон»
@cgevent
Вайб-монтаж
Есть такой софт для записи подкастов и стримов - Riverside.
Хороший.
Они показали чат с таймлайном, и это выглядит забавно, особенно "убери у буйволу все скучные фрагменты".
Остальные промпты тоже выглядят нарядно, но вероятно это черрипики и after effects.
Поглядите.
Ждем ответочки от Адобченко и Капкатченко.
@cgevent
Нейропрожарка
Фильм "Голубь" от Анатолия Гейко
Этот фильм рассказывает о случайном телефонном звонке: мошенник звонит пожилому мужчине, чтобы обмануть его, как многих до этого. Но разговор принимает неожиданный оборот — и вдруг мужчина узнаёт в незнакомце голос, который когда-то был ему дорог.
Замысел и идея фильма — мои. Но всё остальное: сценарий, созданные персонажи и локации, озвучка, саунд-дизайн, музыка, эмоции героев — подарены этому фильму современными нейросетями. Монтажом я занимался лично, чтобы сберечь авторские смыслы и чувства, заложенные в историю.
Идея родилась спонтанно и основанием был фильм "Коллектор" с Хабенским. Не было цели сильно расширять диалог мужчины с телефонным мошенником, но в процессе столкнулся с дополнительными сложностями. Итак по порядку.
Идея была доработана с помощью ИИ, где просто сюжет был расширен и прописаны диалоги, которые дорабатывались уже мною.
Далее отдельно создавался персонаж в Миджорни на белом фоне (вертикальный формат). Потом через наноБанана персонаж разбивался на разные крупности и позы, стороны и т.д.
После чего создавалась локация. Над ней работал дня четыре, т.к. важно было показать атмосферность и плюс похожесть на Российский (хрущевки) город за окном.
Далее персонаж в банане интегрировался в локацию, тоже было не просто, и было много попыток, но в итоге я заставил его вжиться в интерьер.
Самым легким было записать себя голос мошенника и доработать в ИИ голос и оформить его в голос из телефона.
Потом были попытки записать голос персонажа, доработать, вроде было не плохо, но когда приступил к липсингу, схватился за голову от результата, ибо он выдавал совсем не те эмоции, какие нужны. Липсинг пробовал в хедре, хейгене, дремине, но хейген лучше всего выдавал результат, но эмоции подводили везде, у меня получался дед-балагур, а не драматический персонаж.
Потом решил опробовать в ВЕО3 и эврика - эмоции и поведение то что нужно было. В итоге в ВЕО3 создано имедж то видео порядка 98% кадров с саунддизайном сразу, а несколько кадров делались в Клинге 2.1.
Важно. Сначала на монтаже собрал только диалоги, а потом уже смотрел пропущенные места и где голос мошенника, уже генерил перебивки и добавлял в монтаж.
Музыка в Суно.
Титры уже в Премьере писал. Еще по цвету крутил итоговый вариант, т.к. не люблю использовать кадры "из коробки от нейронки".
На проект ушло по времени +/- 14 дней с учетом перерывов.
Денег затрачено 0.
@cgevent
Это слишком прекрасно, чтобы быть генерацией.
Ведь если это генерация, то можно смело выпивать за видео с котиками.
Я смотрю уже десятый раз и ржу аки конь.
Видос года
@cgevent
Тестирую математику и генерацию текста на разных генераторах
REVE
solve this: 8x + 10 = 18 and make picture with solution
@cgevent
Нанабанана в Фотошопе.
Просто задумайтесь, что бы вы сказали, глядя на это 5 лет назад. И как бы ручками меняли вывеску.
@cgevent
Пока телеграмчик наяривает богоугодные черрипики из Wan 2.5, мы задаемся вопросом, а что там с цензурой?
А ничего! Нет ея!
Берется обычный image2video, в него присовываются ваши бесовские фантазии и Wan 2.5 прекрасно претворяет их в жизнь. Без всяких Лор, которых и быть не может, ибо веса Алибабищенко приподзажал на некоторое время.
Пруфы и промпты вы можете подсмотреть на картинке из Хиггсфилда. И спасибо Мигелю за информацию.
А уж что с лорами будет страшно представить.
@cgevent
В NotebookLM (вы же знаете, что это такое?) завезли Нанабанану, которая легко меняет стили для Video Overview.
Напомню, что NotebookLM умеет генерить не только подкасты по входным документам, но и видеопрезентации.
Теперь для них есть 6 стилей (есть еще седьмой - Brief, но он сокращает презу):
Whitepaper
Retro Print
Heritage
Papercraft
Watercolor
Anime (куда ж без него в презентациях-то!)
Посмотрите видео, сразу поймете о чем речь.
Выглядит очень нарядно..
Начинают раскатывать для юзеров плана Pro, позже всем остальным..
А я вообще не понимаю, почему такой продукт еще бесплатный..
@cgevent
Гагарт: Гага-актеры и Гага-ававтары.
Держите китайскую Хедру - GAGA.ART - озвучиватель портретов по фотке и входному тексту\аудио.
Попробовал, потому что дают 200 бесплатных кредитов.
Если честно, выглядит, как китайская под(д)елка: длительность видео 10 секунд (у Хедры минуты), кариес с зубами, статичная камера, ну и в целом так себе интерфейс.
Из плюсов, есть бесплатная генерилка картинок и за Gaga Actor с меня даже кредиты не списали.
Илон Маск сделан именно так.
В Gaga Avatar уже можно присовывать аудио, а не только текст.
Авторы настаивают, что они делают липсинк С УЧЕТОМ эмоций через микродвижения, что бы это не значило.
Попробуйте, может вам зайдет, логин гуглом.
https://gaga.art/
@cgevent
Tiny Recursive Model (TRM)
Samsung придумал новую архитектуру рекурсивного мышления для построения языковых моделей, которая при размере всего 7М параметров (!!!) — оказалась круче DeepSeek-R1, Gemini 2.5 Pro и o3-mini в тестах на логику и мышление.
Работает так:
1. Делает первый черновой ответ.
2. Думает над ним внутри себя.
3. Проверяет и исправляет свои мысли.
4. Перерабатывает ответ, чтобы он был точнее.
5. Повторяет, пока не будет уверен в своем решении.
* Маленькая: всего 7 миллионов параметров, это в 10 000 раз меньше, чем у современных LLM
* Эффективная: работает лучше больших моделей, но требует меньше ресурсов.
* Логика важнее всего: TRM показывает, что хорошая архитектура важнее объема данных.
* Доступная: может работать на слабых устройствах, не нужны мощные сервера.
Неплохо, в следующем году будем пользоваться модельками уровня DeepSeek локально на телефоне?
Гитхаб
Препринт
#research #llm #TRM
В HeyGen встроили Sora 2
В отличие от многих других агрегаторов они сделали попытку встроить ее как один из элементов ковейера.
Можно просто генерить B-rolls как ассеты внутри HeyGen, которыми потом разбавлять говорящие головы
B-roll - это дополнительный видеоматериал, который дополняет основной материал (A-roll).
Проще говоря, это вставочные кадры, которые помогают сделать видео более живым, динамичным и понятным.
Но есть и режим видеоагента HeyGen с галочкой Sora2: просто пишете промпт, а HeyGen агент генерит и головы, и видосы в Соре, и монтирует все это в один видос.
Интересный пример интеграции, выходящий за рамки "а у нас можно сорой генерить видосы".
@cgevent
Давным давно было замечено, что видеогенераторы весело лажают если попросить их сгенерировать видео с человеком вверх ногами, а после перевернуть это видео на 180 градусов.
Новая сора тоже этим болеет
У проекта Neuralink по внедрению чипов в голову уже 12 пациентов, и даже у самого первого всё в порядке, сигналы считываются, соединение работает.
9й пациент выложил видео, на котором он, при помощи команды Neuralink, учится управлять робо-рукой для взаимодействия с реальным миром. Пациент парализован ниже шеи уже много лет, и для него это невероятная возможность вернуть себе хотя бы частичку автономии.
Вот что он пишет:
— Я впервые за много лет сам надел шляпу! Сам разогрел себе куриные наггетсы в микроволновке и сам поел! Я научился открывать холодильник и снимать и надевать крышки на банках! Мне даже дали попробовать медленно управлять своей инвалидной коляской внутри помещения. У меня отлично получилось! Также я установил новые рекорды (пока что) по перемещению наибольшего количества цилиндров на столе за 5 минут (39 штук) и по наибольшему количеству воткнутых в отверстия колышков в тесте на ловкость (обычно используется для пациентов после инсульта) за 5 минут (5 штук).
Прогресс поражает, а ведь скоро можно будет подключиться и управлять своим гуманоидным роботом или даже домашним флотом 😳
Sora 2 Pro
15 секунд, full HD
Лого по-прежнему на месте.
Цензура по-прежнему на месте, нереально закрученная в последние дни
По-прежнему нельзя грузить на вход фото реалистичных людей.
Жду в комментах впечатлений от Pro-олигархов.
@cgevent
Sora 2 хорошо знает физику, пример с рефракшеном прям удивляет.
Первое видео - это Сора 2 (в вотермарками)
Второе видео - это видео.
@cgevent
Чисто для отслеживания прогресса в нейробалетах и нейрогимнастиках выложу гимнастику в Sora 2. После вилов смитов, это вторая по значимости метрика.
@cgevent
– Первые пару минут презы на стриме сделаны с Sora 2
– Генерирует звук сразу с видео
– Модель намного больше чем прошлая версия, по виду Veo 3 уровень
– Можно себя поместить в генерацию
– Сделали мобильный апп где только AI видео собрано (как тикток по UI)
К осуществлению теории мёртвого интернета приготовиться: OpenAI планирует запустить отдельное приложение для своей модели генерации видео Sora 2, сообщает WIRED.
Приложение, которое представляет собой вертикальную видеоленту с навигацией через свайпы, внешне сильно напоминает TikTok — с той разницей, что весь контент в нем создан искусственным интеллектом.
В нем есть страница рекомендаций в стиле «Для вас», работающая на основе алгоритмов персонализации. Справа от ленты располагается меню, позволяющее поставить лайк, оставить комментарий или создать ремикс видео.
Пользователи смогут создавать видеоролики продолжительностью до 10 секунд. При этом отсутствует возможность загрузки фотографий или видео из галереи пользователя или других приложений.
В приложении Sora 2 предусмотрена функция подтверждения личности, позволяющая пользователям верифицировать свой лик. Если пользователь подтвердил свою личность, он может использовать своё лицо в видео. Другие пользователи также смогут отмечать его и использовать его образ в своих клипах.
Например, кто-то сможет сгенерировать видео, в котором он вместе с другом катается на американских горках в парке развлечений. Пользователь получит уведомление всякий раз, когда его изображение используется — даже если клип останется в виде черновика и никогда не будет опубликован.
OpenAI запустила приложение внутри компании на прошлой неделе, и оно получило исключительно положительные отзывы от сотрудников..
При этом приложение Sora 2 часто отказывается генерировать видео из-за защиты авторских прав и других фильтров, сообщают источники.
Момент как нельзя лучше: прямо сейчас в сфере коротких видео будет неопределённость, связанная с продажей TikTok компании Oracle. OpenAI имеет уникальный шанс запустить собственное приложение для коротких видео и на хайпе переманить аудиторию.
Tripo V3.0 Ultra
Упор на текстуры и тонкие детали.
Показывают сетку в 2М полигонов.
Но зачем?
studio.tripo3d.ai
@cgevent
В Адобченко завезли Нанабанану и Flux Kontext.
Inpaint никогда не будет прежним.
Любопытно, что Адобченко хватило духу признать, что их модель Firefly - ну такое. И встроить в фотошоп внешние модели.
А с Firefly история похоже на Stable Audio 2.5 - "мы натренировали нашу модель на коммерчески безопасных данных".
Пользователи: "ичо?".
А еще забавно, что они дают совершенно разные описания Банане и Флюксу, при том, что функционал на 90% похож.
@cgevent
Нейропрожарка
Недавно команда Яндекс.Браузера пришла с задачей-экспериментом:
пересобрать их рекламные ролики с помощью нейросетей и сравнить результат с классическим продакшном.
И команда из студии Ambition взялась за дело, сделав два ролика с помощью AI-пайплайна.
Инсайды процесса:
–В отличие от линейного классического CG-процесса, генеративный продакшен часто требует делать шаги назад, иногда вплоть до самых первых шагов.
–Стиллы — фундамент. Всё, что касается эстетики, должно быть выверено, именно, на этом этапе. Основным инструментом для достижения консистентности кадров стал runway gen 4, а отдельные концепты генерились в Imagen, flux, и др.
–Для анимации мы использовали стек сервисов: Kling 2.1, Luma, Runway Gen4, Kling 1.6 и Sora.
Ограничения AI-подхода:
–Липсинг пока остаётся слабым местом.
–Ограничения по крупности (разрешению).
–Сложности с реалистичными сценами.
–Трудности при многоуровневом действии в одном кадре.
Такого рода эксперименты важны для индустрии: они помогают понять, где технологии действительно экономят ресурсы, а где ещё пока результат собирается вручную
@cgevent