cgevent | Unsorted

Telegram-канал cgevent - Метаверсище и ИИще

37805

Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn

Subscribe to a channel

Метаверсище и ИИще

Добавил номер +18334363285 в контакты.

Зашёл в вотсап, в чат с этим номером.

Попал в бота Perplexity AI.

Сижу зачем-то генерю котиков, вместо того чтобы спрашивать умныя вопросы (нет ума, не вопросов).

Картинки генерит ловко, мне кажется там Gemini 2.0 Flash для этого.

Но вот редактировать не умеет.

Все бесплатно.

В чем подвох?

@cgevent

Читать полностью…

Метаверсище и ИИще

ИИ читает спикера за секунды, угадывая успех выступления по первым фразам.
Модели GPT и Gemini оценивают научный доклад уже после 15–60 слов — и попадают в точку.
До сих пор сверхвозможности больших языковых моделей мы видели в «текстовом океане» — когда нужно осмыслить миллиарды слов. Новая работа Michigan State University показала, что те же модели не менее точны в микромире: по первым двум-трем предложениям (≈ 1-5 % текста, меньше полуминуты речи) они с корреляцией 0,7 предсказывают, как доклад оценят живые эксперты.
Иными словами, ИИ выхватывает те самые сигналы, по которым мы подсознательно решаем: «слушать дальше или переключиться». Это приближает к эмпирической проверке популярного «7-second rule» Роджера Айлза (авторы уточняют: точное число секунд условно) - популярный постулат о публичных выступлениях, ораторском мастерстве и деловом общении:

«Слушатели (или собеседники) составляют первичное и часто стойкое мнение о спикере за первые семь секунд после его появления».


Эти семь секунд включают момент выхода на сцену, первые слова, мимику, контакт глаз, позу и темп голоса - т.е. касаются в основном невербальной коммуникации. Авторы новой работы перенесли этот подход на вербальную коммуникацию, опираясь прежде всего на классическую «тонко-ломтевую» (thin-slice) линию исследований, начатую в 1990-е Натали Амбади и Робертом Розенталем (их эксперименты показали, что по 30-секундным беззвучным отрывкам можно с высокой точностью предсказывать оценки преподавателей студентами).

С тех пор на основе “тонких срезов” вырос целый корпус работ. Например:
• «speed-dating»: по нескольким секундам общения оценивали перспективу отношений
• микроданные невербального поведения на собеседованиях
• сигналы эмоций через невербальные каналы
• восприятие харизмы только по голосу (и шире - по акустике речи)
• мгновенные решения о доверии и компетентности по выражению лица
• как впечатления о спикере влияют на восприятие самого контента
Всё это - фундамент доказательства, что крошечные отрывки поведения и речи несут достаточную информацию о навыках, эмоциях и чертах личности.

Но лишь революция ChatGPT позволила применить подобный подход в языково-текстовом микромире (где нет ни голоса, ни внешности, а есть только стенограмма).

Как это делали:
• 128 докладов,
• 2 модели GPT-4o-mini и Gemini 1.5
• срезы размером 1-75 % текста стенограмм
• оценки моделей сравнивали с 60 экспертами - людьми

Что из этого следует для нас?
1) Золотое правило «зацепи аудиторию в первую минуту» получило эмпирическое подтверждение: если первые фразы скучны, дальше уже поздно спасать ситуацию.
2) LLM открывают дорогу к молниеносной, практически бесплатной обратной связи для преподавателей, политиков, учёных и всех, кому важно говорить убедительно. Соединяя идеи «тонких срезов» и возможности ИИ, мы получаем масштабируемый, надёжный и валидный инструмент, который поможет прокачивать публичные выступления и доводить их восприятие аудиторией до максимума (в пределах харизмы спикера).
3) А уж какая лафа ожидается в деловом общении с использованием презентаций и иных публичных выступлений (для клиентов, партнеров, инвесторов …)!

Вангую: очень скоро к LLM-анализу «тонких срезов» стенограмм добавится анализ тонких срезов аудио и видео выступлений (т.е. мультимедийный синтез всех каналов вербальной и невербальной коммуникации).

И тогда ИИ станет незаменимым инструментом для политтехнологов, спичрайтеров и имиджмейкеров.

А уж из совсем крышесносных перспектив - преодоление несжимаемости эволюционного опыта Homo sapiens.

#ВовлечениеАудитории #ИнтеллектуальнаяПродуктивность #LLMvsHomo

Читать полностью…

Метаверсище и ИИще

Hunyuan 2.5: 3D-генераторы. Гонка продолжается. Часть 4

Диванные мысли. Гонка 3Д-генераторов сейчас в самом разгаре. Этакий 2023 года для картинок.

В отличие от картинок, где сейчас битва идет уже за конкретные детали(текст, пальцы, лица) и пост-редактирование, у 3Д-генераторов все впереди.

Ибо порождение 3Д-сетки - это не финальный, а более чем промежуточный результат, я бы даже сказал, начальный. Ведь дальше эту 3Д-модель (в отличие от картинок) рано показывать пользователю\миру, а предстоит отправить в длинный пайплайн:
Ретопология
Развертка UV
Текстурирование до годного (разрешения)
Риг
Скиннинг
Лицевой риг(отдельная тема)


Если ваши фантазии не идут дальше 3Д-принтера или расстановки болванов в метаверсике или VR, то вы почти у цели.

Но взрослые мальчики ожидают, что весь этот взрослыйпайплайн постепенно будет пристегиваться к 3Д-генераторам.

И тут я опять взвою вопросом: будут ли Deemos, Tripo, Hunyuan или Trellis изобретать свою Web-Maya или Nano-Blender внутри своих платформ, или кто-то типа Адобченко с готовым 3Д на борту прикрутит генерацию внутри имеющихся пайплайнов.

Понятно, что путь опенсорса лежит через плагины к Блендору.

Но я также подозреваю, что кто-то из больших игроков рано или поздно прикупит один из 3Д-генераторов и сделает свое решение.

Например Фрипик или Креа, у которых очень много денег сейчас.

@cgevent

Читать полностью…

Метаверсище и ИИще

А зачем размениваться на какие-то сторонние сервисы для просмотра 3Д-моделей в предыдущем посте?

Идем в о3 и говорим:

а сейчас напиши мне код, для "OBJ VIEWER" который я смогу запустить в Canvаs и увидеть 3Д-модель. Там должна быть галочка "включить показ edges" ну или wireframe mode

сделай кнопку загрузить с компьютера

Бах! В канвасе, который он сам же и открыл появляется код на реакте и кнопка Preview. Жмем ея, видим наш 3D-viewer, загружаем нашу маску лица, включаем галку wireframe - и все работает!

Год назад разговор зумеров: слушай, есть такие прикольные аппки для вот этого и этого и этого.

Через год от сейчас: хочу аппку, которая делает вот это.

АПАЖАЛСТА!

@cgevent

Читать полностью…

Метаверсище и ИИще

Купон на 20 баксов на fal.ai
Можно генерить видео.

Ещё работает:
https://t.co/EgEcrNuWh3

Читать полностью…

Метаверсище и ИИще

Для гиков. Крафтовые нормали на видео.

Композеры и те, кто в опен-сорсе оценят.
Выше пример вытаскивания нормалей из видео, сгенеренного Сорой. Выглядит очень гладко и не кипит.

По ссылке есть код, веса и даже демо:
https://normalcrafter.github.io/

И много примеров.

@cgevent

Читать полностью…

Метаверсище и ИИще

Немного примеров из нового Клинга 2.0

Все отмечают нормальную динамику и уход slow-motion движения на видео, которым грешили все генераторы прошлого года. Тут Клинг скорее в роли догоняющего, но это все равно отлично, ибо эпоха слоу-моушен-трейлеров уходит.

@cgevent

Читать полностью…

Метаверсище и ИИще

Джеймс Камерон про датасеты, авторские права, обучение на чужих работах и про это вот все.

"Каждый человек - это модель. Вы создаете эту модель по мере того, как идете по жизни".

"Проверку на плагиат должен проходить мой output, а не мой input".

"Никто не имеет права говорить мне куда идти, на что смотреть и на чем обучаться."

Короче, норм мужик.

@cgevent

Читать полностью…

Метаверсище и ИИще

Доктор Виваго и ХайДрим.

Вы будете смеяться, но у нас новый генератор картинок, опенсорсный притом.

Есть такой не сильно известный коммерческий сайт для генерации картинок и видео. Это китайцы из Гонконга.
https://vivago.ai/

Но пару дней назад они бахнули в опенсорс свою foundation model для генерации картинок. И что самое удивительное, она обошла всех на Artificial Analysis Image Arena, включая Flux Pro, Ideogram 3 и REVE!

Давайте я сделаю серию постов про нее, чтобы разобраться.

Во-первых, это некий зоопарк из уже существующих решений:
The VAE is from FLUX.1 [schnell], and the text encoders from google/t5-v1_1-xxl and meta-llama/Meta-Llama-3.1-8B-Instruct

Во-вторых, эта шняга НЕ влезет ни в одну видеокарту без квантования и плясок. У меня она ест 62GB VRAM на A100/H100.

В-третьих, она воще небыстрая. 50 сек на 1024х1024 на A100. Мы уже отвыкли от таких скоростей.

В-четвертых, есть демо на HF (и не одно), но во всех демо - сильно пожатая модель.

В-пятых, моделей ТРИ - fast, dev и full. Жрут одинаково. Скорость измерю позже.

В-шестых, уже есть кванты, которые влазят в 16GB, но имейте в виду, что там качество будет падать.

Ну и последнее в этом посте, все эти Image Arena - не очень хороший источник информации, лучше генерить самим.

Я взял картинки с арены (сравнения с другими генераторами) и прогнал все это через модель full.

Текст она генерит реально хорошо. А про остальное - следующий пост.

Забираем все отсюда:

https://github.com/HiDream-ai/HiDream-I1

Накидайте пару сотен звезд, посмотрю, что там с цензурой.
@cgevent

Читать полностью…

Метаверсище и ИИще

🌟 Поддержать канал
И поздравить нейродеда

Читать полностью…

Метаверсище и ИИще

И как вам такой Ghibli Character?

Объяснялки и промпт в следующем посте.

@cgevent

Читать полностью…

Метаверсище и ИИще

Audio2Audio в Udio

Звучит как заклинание, но тем не менее: теперь вы можете подать на вход любой свой\чужой трек и сказать "сделай на том же вайбе".

И это не Remix или Extend как раньше. Styles помогают "попадать в звук".

"Из предоставленного вами трека или клипа Udio извлекает "представление стиля", в котором собраны все его ключевые стилистические элементы, а затем использует его для создания новых песен с похожим звучанием. Представления стиля содержат гораздо больше информации, чем традиционные текстовые подсказки, позволяя точно улавливать и воспроизводить специфические звуки, которые трудно описать"

И да, можно делать Extend существующего трека в новом стиле из загруженного файла.

Только для подписки PRO. Во всех режимах: Create, Edit, Extend, and Remix.

Есть рулька Styles Similarly и вроде как нет цензуры, то есть проверки авторского контента в загружаемых треках.

Вот, послушайте, как звучат вариации:
https://www.udio.com/playlists/260290ac-eadd-4c32-a60c-f985eac72f76

@cgevent

Читать полностью…

Метаверсище и ИИще

OmniPaint: Mastering Object-Oriented Editing via Disentangled Insertion-Removal Inpainting

Адобченко насмотрелся на демо OpenAI и срочно бахнул свежую работу именно по редактированию изображений

Там гибридный подход с сегментацией, инпейнтом и тренировкой.
Удаление объектов не выглядит революционно, а вот переодевание и добавление деталей смотрится интересно.
Акцент на том, что удаляются или вставляются не только сами объекты, но их тени, отражения и пр.
Прям обещают код, хотя это Adobe.

Ну и конечно, вопрос цензуры. Одевать - не раздевать.

OmniPaint - фреймворк, который переосмысливает удаление и вставку объектов как взаимозависимые задачи, а не изолированные подзадачи. Используя предварительно обученные диффузионные суждения (в данной работе применяется FLUX), мы оптимизируем параметры LoRA на основе собранных небольших парных образцов реального мира, обеспечивая при этом легкое переключение задач с помощью обучаемых текстовых вкраплений. Для реалистичного удаления объектов наша модель обеспечивает семантическое удаление замаскированных элементов переднего плана с одновременным устранением их физических эффектов. Для вставки объектов мы выходим за рамки простого смешивания и добиваемся гармоничного синтеза с учетом геометрии сцены и идентичности ссылок с помощью предложенного нами механизма CycleFlow.

https://www.yongshengyu.com/OmniPaint-Page/

@cgevent

Читать полностью…

Метаверсище и ИИще

Помните говорил, что эмсипишки - это новые джипитишки.

Ну что, пошла жара и вирусы.

Держите 4450+ MCP серверов для всего, что шевелится у вас на компе или в облаке.

Проблема, как обычно, одна - отсутствие модерации. Тут могут быть и вирусы, и просто шлак и редкие жемчужины.

Пользуйте на ваш страх и риск.

https://mcp.so/

@cgevent

Читать полностью…

Метаверсище и ИИще

Я наконец-то добрался до Google Veo 2.

Это txt-to-video.

Версия для Ютуба, если кому надо.

Читать полностью…

Метаверсище и ИИще

Есть такой подреддит r/ChangeMyView: его правило простое - автор делится твёрдым убеждением, а комментаторы стараются аргументированно изменить его точку зрения; если у них выходит, автор награждает их ачивкой – «дельтой» (∆), что на сабе считается символом убедительности и интеллектуальной добросовестности

Благодаря жёсткой модерации и культуре вежливой полемики сабреддит давно служит «полигоном» для тренировки аргументации

Учёные провели секретный эксперимент на Reddit: они создали тринадцать аккаунтов-фейков с двумя координирующимися языковыми моделями на каждый аккаунт:

– Первая сканировала историю постов каждого оппонента, вычленяя вероятный возраст, пол, мировоззрение и эмоциональные триггеры

– Вторая, исходя из этого профиля, генерировала ответ, рассчитанный на максимальное изменение мнения

С ноября 2024 года боты оставили около полутора тысяч комментариев и получили более сотни «дельт» - свидетельств того, что авторы исходных постов действительно поменяли позицию. Для сравнения: среднестатистическому участнику сабреддита нужно в шесть раз больше попыток, чтобы добиться таких результатов

Эффективность объяснялась не только персонализацией - LLM «подстраивались» под стилистику Reddit, включая сленг («TL;DR» в начале, саркастические сноски в конце). При этом боты часто изобретали биографии: один позиционировал себя как «жертва изнасилования», другой - как «белая женщина в почти полностью чёрном коллективе», третий - как рядовой муниципальный служащий и тп – такие «галлюцинации» повышали эмоциональную убедительность

25 апреля 2025 года модераторы r/ChangeMyView обнародовали список подозрительных аккаунтов и черновик статьи «Can AI Change Your View?». Началась бурная дискуссия о границах этики: пользователи сочли эксперимент манипуляцией, университетская комиссия вынесла исследователям предупреждение, и теперь люди требуют изъять работу из публикационного процесса

В интернете будущего, нейронки будут спорить с нейронками, получается так

Читать полностью…

Метаверсище и ИИще

OpenAI дали бесплатный доступ к облегчённому Deep Research

Новая lightweight модель, основанная на o4-mini, позволила дать доступ всем пользователям, даже бесплатным. Бенчмарк дали ровно один — по нему новая модель чуть хуже по качеству чем обычный Deep Research, но даёт заметное улучшение по сравнению с o4-mini, при этом отставая от o3. Но, в отличие от o3, lightweight модель даёт формат deep research, который местами очень нужен.

Доступ уже раскатывают, но доступно всё ещё не всем, дают пять запросов в месяц (до апдейта Plus подписчикам давали 10). Платных пользователей тоже не оставили в обиде — после того как истекают запросы к большому Deep Research, пользователей переключают на облегчённую версию. Это позволило увеличить лимиты с 10 до 25 на Plus и Team подписке и с 100 до 250 на Pro подписке, правда лимит теперь для обеих моделей.

Что-то много у них релизов на этой неделе, похоже OpenAI получили гигантскую поставку GPU

@ai_newz

Читать полностью…

Метаверсище и ИИще

Кстати, Gemini и chatGPT умеют компилировать статьи в формате Latex (кто из академии поймет).

И показывают его в Canvas

Надо просто попросить:
объясни мне формулы для аттрактора Лоренца, используй Latex для написания формул

Gemini отдает правильный код с первого раза, chatGPT (о3) отдал со второго.

Просто просите их отдать файл в формате Латех, а потом идете на
https://www.overleaf.com/ и вставляете (или открываете) там. Жмете Recompile.

П-Профит. В П-Пдф.

@cgevent

Читать полностью…

Метаверсище и ИИще

Wan 2.1 + Vace

Для к гиков. Похоже, что эта связка далеко пойдет. Опенсорсный (с кодом) контролНет для видео.

Про Vace писал вот тут.

Я удивлен, как он дорисовал глаза, ведь на исходнике они закрыты.

Проблема в тайминге. Wan не умеет в длинные видео.

Но я скора запощу про того, кто умеет в бесконечные видео.

Сурс

@cgevent

Читать полностью…

Метаверсище и ИИще

Раньше я больше писал про нейрофизиологию, мозг и разные научные штуки. Сейчас, каюсь, немного утонул в череде новых продуктов, фич и красивых картинок с видосами. Обещаю вернуться, есть три поста про психологию.

Кому хочется не бегать по верхам, а залезть вглубь — к основаниям разума, мышления, сознания — есть канал, который тихо копает в эту сторону: @eternalmind.

Там нейробиология, книги, статьи, лекции, старые забытые концепции, редкие находки. Всё, что может быть кирпичиками на пути к сильному ИИ - если подходить к делу не как к гонке, а как к философскому конструктору.

Автор идёт по следам Хокинса, Лекуна, и дальше - туда, где ещё даже нет тропинок. Канал для тех, кто хочет не просто смотреть на то, как обучают модель, а понять, как вообще работает разум.

Пообщались с Павлом, я еще вернусь к его постам, ибо сам не успеваю залезть вовнутрь.
Заходите на @eternalmind

Читать полностью…

Метаверсище и ИИще

Ладно, прекращаю ломать chatGPT (o4-mini).

Вот вам последний бесполезный (но не факт, что воспроизводимый) трюк с генерацией нескольких картинок.
Говорю, сделай мне видео cat in the hat
Не могу, грит, видео, могу GIF.

Довай!

Тут она, как псих, начинает генерить полноразмерные картинки безумных котов, причем одни квадратные, другие стоячие. Браузер нагревается, она не успокаивается. В рассуждениях у нее "надо сделать 6-8 картинок". Делает 9 штук. В рассуждениях пишет "чо то бардак с именами файлов". Думает, и выдает мне потрясную гифку. Она в следующем посте.
Но результатом - 9 консистентнейших бесполезных котов.

Три последних, это попытка сохранить лицо и все-таки сделать гифку. После чего пишет
I’m currently hitting the platform’s rate limit for generating images and can’t produce new frames right now.

Довел до истерики все-таки.

@cgevent

Читать полностью…

Метаверсище и ИИще

Рендер или видео?

Если вы все еще сторонник рендера, то это полностью опенсорсный(!) рендер.

Комплектующие, CAD-исходники и все спецификации есть на GitHub

Весь SDK доступен тут.

Называется эта тварь Фурье N1, весит 38 кг, ростом всего 1.3 метра, но бегает уже со скоростью 3.5 км/ч.

Коль скоро исходники открыты, каждый может сделать себе Дзюбу.

Битвы робатов не за горами, а фильм Real Steel становится все ближе.

@cgevent

Читать полностью…

Метаверсище и ИИще

А Пика отвечает с помощью Pika Twists

Манипуляция любым персонажем или объектом на видео, сохраняя все остальное нетронутым.

Ну, за композеров. По десятому кругу...

@cgevent

Читать полностью…

Метаверсище и ИИще

Огненный Китайский Липсинк и не только.

Я уже писал про Дримину, как китайскую ответочку Креа и Фрипик. И единственное место, где можно попробовать тот самый Omni Human.

Оказывается, если зайти туда штатовским ВПНом, то кнопка с липсинком становится доступна! Бесплатно!

В общем, это больше похоже на китайскую Хедру - загружаешь портрет, аудио или текст, и жмешь Сгенерить.

И надо сказать, генеративная Марго Робби получилаcь отлично. С первого раза.

Дальше я, конечно, попытался это сломать. Присунув ей двух анимэ персонажей с широко открытыми ртами в одном кадре (T-поза для липсинка - слегка открытый рот).

Ну что сказать, получилось. Но все равно она выкрутилась. Смешно наблюдать как вход один, а рта - два. Синк на лицо\лице.

Там, кстати, цензура на звук. Отрывок из Laid Back: If you wonna be rich, you gotta be a bitch не пропустила из-за последнего слова.

Пробуем тут, я логигился капкатовским аккаунтом, а в капкате логинился гуглом. Без смс и оргий.

https://dreamina.capcut.com/ai-tool/video/lip-sync/generate

Штатовский впн.

@cgevent

Читать полностью…

Метаверсище и ИИще

Вот так выглядит голосовой режим и Draft Mode в Midjourney V7.

Я возможно придираюсь, но вот это вот "добавь единорога на задний план" полностью меняет картинку и композицию. Это как бы не редактирование картинки, а редактирование промпта.

Просто мы тут уже насмотрелись на реальное редактирование картинок в chatGPT и Gemini. Ну и зажрались.

@cgevent

Читать полностью…

Метаверсище и ИИще

Фридра! Выдра? Тьфу, Хедра!

Хедра анонсировала Фридру - ну то есть возвращение 400 бесплатных кредитов в месяц.

Не стал бы писать, но в чате люди отчаянно продают квартиры жгут кредиты на видеогенерациях. Но к сожалению, генерация в Veo2, Kling и Minimax на сайте недоступна для бесплатных пользователей.

Но аватары у них стали отличные.

https://www.hedra.com/app/video

@cgevent

Читать полностью…

Метаверсище и ИИще

Krea.ai не соврали: новый апдейт.

Теперь они идут в 3Д-генерацию...

Завтра изучаем их сетки.

@cgevent

Читать полностью…

Метаверсище и ИИще

А чтобы вам лучше не спалось и было поменьше свободного времени, держите еще свежеистренированный Igeogram 3.0

Уже на сайте и в аппе для айфона.

Кто умеет читать - сюда:
https://about.ideogram.ai/3.0

@cgevent

Читать полностью…

Метаверсище и ИИще

OpenAI выпустила обновления для Advanced Voice Mode, чтобы "сделать ИИ-ассистента более индивидуальным и реже прерывать пользователей."

Немного странный способ коммуникаций - через Short на Ютюбе...

https://www.youtube.com/watch?v=mm4djPNO8os

@cgevent

Читать полностью…

Метаверсище и ИИще

DeepSeek только что выпустил последнюю версию своей огромной модели DeepSeek-V3-0324.

Лицензия — MIT (предыдущая версия DeepSeek v3 имела специальную лицензию), а общий объем файлов в релизе составляет 641 ГБ, в формате model-00035-of-000163.safetensors.

Модель вышла всего несколько часов назад, а разработчик MLX Авни Ханнун уже запустил ее со скоростью более 20 токенов в секунду на M3 Ultra Mac Studio с 512 ГБ (9499 долларов) с помощью mlx-lm и 4-битной версии, размер на диске до 352 ГБ.


Новая модель также представлена на OpenRouter, можно пробовать.

Пишут, что лучше, быстрее, сильнее.

Подробнее:
https://huggingface.co/deepseek-ai/DeepSeek-V3-0324

https://simonwillison.net/2025/Mar/24/deepseek/

@cgevent

Читать полностью…
Subscribe to a channel