Telegram-канал cgevent - Метаверсище и ИИще: Unsorted - каталог телеграмм

cgevent | Unsorted

Subscribe to a channel

Telegram-канал cgevent - Метаверсище и ИИще

37802

Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn

Subscribe to a channel

Метаверсище и ИИще

12 December 2024 12:32

Трумультимодальность.

До вечернего стрима от OpenAI у нас, похоже, идет день Google и Gemini.

OpenAI ТОЧНО пора показать обновленный DALL·E 3, ибо смотрите, что творит Gemini. Причем творит сама по себе, без вызова всяких Imagen-ов - это трумултимодальная модель.

Поглядите все видосики обязательно.
Путешествия по картинкам меня до сих пор восхищают, типа поверни вправо и, особенно, отъедь назад. Хотя такое мы видели в последний месяц регулярно, особенно у видеогенераторов. Но тут повторюсь монолитный чат и хорошее качество.

А вот пример с газовой горелкой - просто отличный: "нарисуй то, что случится, когда горелка повернется".
Визуальная цепочка мыслей.
"Включи телевизор" - тоже неплохо.
Источник тут.
В общем, я прям жду, что ответит OpenAI, прежде чем делать мучительные выборы.

И поднимите веки Midjourney кто-нибудь. Неприлично уже.

@cgevent

Читать полностью…

Метаверсище и ИИще

12 December 2024 10:42

На всякий случай напишу отдельно, так как это легко пропустить. Новая Gemini умеет генерировать изображения сама, без вызова внешних рисовалок. При этом свои же картинки она видит в контексте, и умеет копировать части изображения. Такое умеет и gpt-4o, но эту фишку OpenAI пока не выпустили — быть может, в оставшиеся 7 дней релизов успеют.

Это открывает доступ к новым сценариям, невозможным (или затруднительным) ранее. На скриншотах вы видите пример, как пользователь подсунул картинку из мема «рисуем сову», и попросил дорисовать все промежуточные шаги. Модель взяла часть исходной картинки за основу и сгенирировала несколько новых (по сути «поверх», но там сгенерирован каждый пиксель, нет команды «вот это оставляем, вот это меняем»).

Круто, что модель сама поняла, как декомпозировать рисунок, без дополнительных указаний, так ещё и шаги пронумеровала — 1.25, 1.5 😀

Другие сценарии применения (в том числе генерацию GIF-ок) можете посмотреть в оригинальном блогпосте про GPT-4o (+1 последняя картинка тут для затравки).

Источник картинок

Читать полностью…

Метаверсище и ИИще

11 December 2024 21:29

5 день: OpenAI в новогодних свитерах предлагают посмотреть на их более крутые интеграции с iOS/MacOS
Можно через Siri взаимодействовать с ChatGPT, в том числе в камере. А в MacOS передавать, например, скриншот или весь текущий док для анализа прям в 1 клик
https://youtu.be/mBhkD0iFf4w

Читать полностью…

Метаверсище и ИИще

11 December 2024 15:34

Вы будете смеяться, но у нас новый генератор картинок. Точнее foundation model для оного.

Опенсорсный, с кодом, веса бахнули сегодня.

1. Text-to-Image

2. ID customization

3. Multiview generation

Text to multiview

4. Condition-to-Image and vice versa

5. Subject-driven generation

6. Text-guide image editing

7. Zero-shot Task combinations

https://github.com/lehduong/OneDiffusion

Щас его упихают в Комфи, а пока там Омнигеновские требования к памяти:

The demo provides guidance and helps format the prompt properly for each task. By default, it loads the Molmo for captioning source images, which significantly increases memory usage. You generally need a GPU with at least 40 GB of memory to run the demo. Opting to use LLaVA can reduce this requirement to about ≈27 GB, though the resulting captions may be less accurate in some cases.

Всем удачных тестов!

@cgevent

Читать полностью…

Метаверсище и ИИще

10 December 2024 19:30

Что показали:

🌹 Обновили ChatGTP Canvas:
https://chatgpt.com/?model=gpt-4o-canmore

Это что-то вроде умного Notion/Google Doc, где слева вносишь правки через чат, а документ/код всегда справа, и обновляется моделью или пользователем, а не переписывается с нуля:

– Режим Canvas теперь доступен всем
– Модель может оставлять комментарии к вашему тексту или коду, а не просто редактировать его
– Теперь Canvas работает с кастомными GPT’s (вот бы ими еще занимался кто-то в OpenAI)
– Canvas может исполнять Python код, например, когда нужна какая-та дата аналитика или скрипт не работает, его сразу можно отправить в ChatGPT

В общем, OpenAI опять ряд стартапов сегодня закрыла 😮

Читать полностью…

Метаверсище и ИИще

10 December 2024 15:36

Oracle experienced a 336% increase in GPU consumption, driven by record-level AI demand.

В своем отчете упоминают о 65,000 NVIDIA H200 GPUs. Это не мало, в сравнении с другими супер-комьютерами, на графике.

Кроме шуток, можно все серии Санта-Барбары отрисовать заново.

С использованием 65,000 NVIDIA H200 GPU весь процесс перерисовки всех 2137 серий "Санта-Барбары" в Full HD может быть завершён примерно за 36 минут. При использовании 65,000 NVIDIA H200 GPU, полная смена сюжета "Санта-Барбары" с сохранением хронометража может быть выполнена за примерно 18 часов. Ждем.

Читать полностью…

Метаверсище и ИИще

10 December 2024 11:00

Бобер судьбы

Рубрика крутые подписчики.

Тут вот Михаил ворвался в чат со свежим, пахнущим ветром и бобрами клипом.
И это примерно в 80 раз лучше, чем клип Канье Уэста, о чем я собственно и писал недавно.
Да, конечно, есть артефакты и легкая неуправляемость перформанса (которую, впрочем, можно списать на стилистику).
Но клип примечателен тем, что в нем уже проглядывают прототипы будущих ИИ-клипов - качество и контроль отрастет, музыка уже сейчас бобёрски божественна, и скоро сложно будет отличить не только картинки, но и именно музыкальные клипы.
И эта работа - хороший такой троллинг большинства музыкальных клипов, которые отчаянно вторичны и копируют сами себя годами. Скоро их будут миллиарды.

Для тех, кто в теме - это Suno v4, midjourney, kling, capcut.

Легендарное про бобров читаем тут.

@cgevent

Читать полностью…

Метаверсище и ИИще

09 December 2024 22:01

Ну с наступающим Новым Сором!

Тут Леша Лотков пригнал вот такое диверсити в чат.

Помните фильм Bad Santa?

Интересно, что скажут системы распознавания картинок в Гугле.

@cgevent

Читать полностью…

Метаверсище и ИИще

09 December 2024 21:07

OpenAI официально показали Sora!

Доступно будет всем подписчикам ChatGPT - и Plus и Pro. Дают кредитов на до 50 генераций в месяц Plus подписчикам и до 500 быстрых генераций Pro подписчикам. Pro подписчики с более 500 генераций попадают в "медленную очередь".

Длина видео всё таки от 5 до 20 секунд (для Plus максимум 5), а разрешение от 480p до 1080p (Plus подписчики ограничены 720p). На более длинные видео и видео разрешения уходит больше кредитов. К видео можно применять стили и создавать свои.

Показали Storyboard - продвинутый инструмент позволяющий режиссировать видео. К примеру можно попросить Sora сгенерить видео человека, который на пятой секунде видео машет рукой.

Ещё есть куча продвинутых инструментов - можно догенеривать до видео как начало так и концовку, смешивать несколько видео вместе разными способами и много чего ещё.

Модерация сейчас чрезмерно строгая, но OpenAI обещают постепенно снимать ограничения.

sora.com

@ai_newz

Читать полностью…

Метаверсище и ИИще

09 December 2024 16:37

Хрен вам, а не Sora.

Держите список стран, на которые раскатают Sora.
Никакой Европы и UK.
Но есть Сербия, Черногория, Армения, Грузия, Казахстан.

Есть и хорошая новость, я вот собираюсь метнуться в Дахаб на НГ, и Египет таки есть в списке стран.

https://help.openai.com/en/articles/10250692-sora-supported-countries

@cgevent

Страницу потерли, но я вам сохранил список тут: https://pastebin.com/x00E5xZK

Читать полностью…

Метаверсище и ИИще

09 December 2024 14:42

Кожаная метка

А вот это уже симптоматично. Вместо того, чтобы гоняться за распухающим объемом контента, произведенного с помощью ИИ (мне особенно "зашли" бесконечные стримы, произведенные с помощью NotebookLM и визуализированные с помощью Heygen или Hedra, источник бесконечного булшита на любые темы), ютюбчик хочет отмечать именно кожаные видео, не тронутые грязными лапами ИИ.

Тут, конечно, стартаперы должны зашевелиться с идеями типа "Стриминг-Бутик с кожаными видео only." Но, как вы понимаете, в мире, где основные метрики - это количество, а не качество контента, эта идея немедленно будет взломана.

А идея делить контент на кожаный и ИИшный (имхо), довольно утопична. Просто потому что "а зачем?". Потребление контента кожаными - вот основная цель бизнесов, зарабатывающих на трафике, рекламе и стриминге. Зачем рубить сук?
Более того, кожаные уже давно не в состоянии отличать сгенеренный контент от рукотворного.

Интересно, что монтаж вроде как можно, а вот эффекты уже нельзя:

Видео не обязательно должно быть неотредактированным, чтобы получить кожаную метку, но, согласно странице поддержки, каждый этап процесса должен поддерживать C2PA и не допускать:
- Редактирования, которое нарушает цепочку происхождения или делает невозможным отслеживание видео до его первоисточника. Например, если вы снимаете изображение с метаданными C2PA, а затем сохраняете его в фотоальбоме своего телефона, который не поддерживает C2PA версии 2.1 или выше, это может нарушить цепочку происхождения
- Значительные изменения основной природы или содержания видео, включая звуки или визуальные эффекты.
- Изменения, которые делают видео несовместимым со стандартами C2PA (версии 2.1 и выше).

В общем я не понимаю - зачем?

Давайте оставим только прямые склейки? Ну ок...
https://www.theverge.com/2024/10/15/24271083/youtube-c2pa-captured-camera-label-content-credentials
@cgevent

Читать полностью…

Метаверсище и ИИще

09 December 2024 14:07

Мне не очень нравится сервис Viggle - слишком узкая область применения, проскальзывания, ну и общее качество - такое.

Но тут вот у них вышла Model V.3 и там они замахнулись на анимацию лица и аватаризацию.

Сам я не буду пробовать, но если под ваши мемные задачи это подойдет, но поглядите сюда:
https://viggle.ai/home

Remix, Multi Character и особенно Relight выглядят,конечно, нарядно, но ноги по прежнему скользят, и вот такие вот меркетинговые сентенции вызывают вопросы:
Viggle is powered by JST-1, the first video-3d foundation model with actual physics understanding.

А я пока разыскал в твитторах довольно любопытное видео, где они дерзко сравнивают себя с Runway Act One на примере Arcane.

Следующим примером дам вам пример другого любопытного сервиса.

@cgevent

Читать полностью…

Метаверсище и ИИще

08 December 2024 10:12

Runway: обновили Act One, инструмент для переложения своей лицевой анимации с липсинком на визуал. Раньше оно работало с картинками, а теперь пашет и с видео.

Можно менять слова сказанные персонажем, сделать дубль более экспрессивным без пересъёмок, или на препродакшене потестить что работает, а что нет. Причём можно и песни кормить, на вокал тоже реагирует.

По примерам видно, что чем ближе к камере персонаж в кадре, и чем менее он подвижен, тем лучше результат получается. Если нужно "ре-анимировать" чью-то экспрессивную актёрскую игру с новыми словами, то придётся повторить движения героя в кадре, иначе будет рассинхрон.

В отличие от DeepfaceLab или FaceFusion это работает с животными и мультипликацией, и чувствуется что анимация идёт изнутри лица, а не поверх. Хотя в каких-то случаях ими тоже можно достичь похожего результата.

Дальше будет только лучше.

PS: в гайде кстати сказано, что только людей можно анимировать.

Твит
Сайт
Гайд

Читать полностью…

Метаверсище и ИИще

07 December 2024 17:53

Вы будете смеяться, но у нас еще один генератор картинок. От Маска.

Совсем недавно прошла новость, что в Grok от xAI можно генерить картинки с помощью Flux.

Так вот, сегодня они выкатили свой генератор картинок под названием Aurora. И те пользователи, у кого есть Grok, могут выбрать эту модель в выпадающем меню чата с Гроком.
Давайте разберемся для начала, как получить к нему доступ.
Тут два дня назад прошла также новость, что у Грока появился бесплатный тариф, где лимит 10 сообщений за два часа.
Но.
Вопрос в том, где раскатали этот тариф? Правильно - в Европе и UK недоступно. В Индии - доступно.
Чтобы проверить, запустите приложение Твиттора на мобиле и жмакните внизу на косую черту(иконка Грока).
Меня выбрасывает в предложение подписаться на Грок Премиум, ибо Европа. Соответственно проверить не могу, бесплатного тарифа не завезли.

Поэтому пособирал для вас картинок.
Неожиданно героем тестов Авроры стал Сэм Альтман.
Что до качества: несмотря что в пиар компании есть явный мессадж типа "круче флюкса", нет, не круче.
В пиар компании есть также мессадж "дикий фотореализьм и упор на лица", но нет, Flux Ultra в режим Raw сильно круче.
Так в чем сила, Грок?
- Безбашенность и отсутствие цензуры на лица известных личностей
- Заточенность на быструю генерацию фан-контента для твиттора
- Незамороченность. Минимум настроек и ловкая работа с короткими промптами (думаю внутри доводчик промптов)

Заточенность на лицах заставляет его терять детали из промпта, ну и следование промпту, особенно длинному, у него, конечно, хуже, чем у Флюкса.

Но камон, это не инструмент, это часть продукта. Вы вряд ли будете использовать Аврору для производства контента. А вот огромная орава твитторских будут пользовать его для набивания ленты контентом. Не зря у Авроры есть Fun Mode.

Так что это продуктовая новость, нежели технологическая.

У кого есть Премиум подписка на Грок, кидайте примеры в коменты.

А я вам щас сравнений пособираю.

@cgevent

Читать полностью…

Метаверсище и ИИще

06 December 2024 14:02

ИИ-режиссер.

Кстати, вот довольно интересный проект и даже с кодом.
Работа с базой видосов, только вместо video-as-files используется подход video-as-data
Там и семантический поиск по видео, и VideoRAG, и редактирование.

Director - это как бы LLM-Chat c видео. Фреймворк для создания видеоагентов, которые могут решать сложные видеозадачи, такие как поиск, редактирование, компиляция, генерация и т. д., и мгновенно передавать результаты. Типа: загрузить это видео и отправить основные моменты в телегу, обобщать видео, искать определенные моменты, создавать клипы, добавлять наложения, генерировать миниатюры и многое другое.

И да, у них есть text2movie, поглядите видосы.

https://videodb.io/

Код тут - https://github.com/video-db/Director

Спасибо Нейронавтику за наводку.

@cgevent

Читать полностью…

Метаверсище и ИИще

12 December 2024 10:43

Из всего что релизнул гугл с Gemini 2.0, самое впечатляющее - демка их streaming API. Gemini теперь в риалтайме понимает одновременно и аудио и видео - как с камеры, так и стрим экрана. К тому же может отвечать голосом (пусть и с помощью TTS). А ещё может исполнять код и искать по интернету, в отличие от advanced voice mode.

Такого вау-эффекта от новых возможностей нейронок у меня не было, пожалуй, с релиза advanced voice mode, всем советую попробовать (обязательно врубите стрим либо с экрана либо с камеры). Можно ненадолго почувствовать себя как в фантастике, пока это не стало обыденностью. Доступно бесплатно, но нужен VPN (не европейский).

https://aistudio.google.com/live

@ai_newz

Читать полностью…

Метаверсище и ИИще

12 December 2024 10:41

А Google представила Gemini 2.0 Flash - быстрее, выше, сильнее предыдущих. И несколько крутых исследовательских проектов.

Основное:
- Мультимодальный ввод и вывод: поддержка работы с текстом, изображениями, видео и аудио, а также их генерация.
- Улучшенная производительность: в 2 раза быстрее предыдущей версии (1.5 Pro) с повышенными возможностями рассуждения.
- Интеграция с инструментами: нативная работа с Google Search, выполнение кода и поддержка пользовательских функций.
Уже доступна разработчикам через Google AI Studio и Vertex AI, а также через Multimodal Live API с функцией потокового ввода и инструментов.

Deep Research
Новый инструмент, который действует как продвинутый исследовательский ассистент. Он помогает анализировать сложные темы, структурировать информацию и составлять отчеты. Вот это крутая штука

AI Overviews в поиске
Обновление популярной функции поиска, которая теперь может обрабатывать более сложные запросы, включая мультимодальные вопросы, сложные уравнения и код.

Исследовательские проекты:
- Project Astra: универсальный AI-ассистент, который умеет поддерживать диалог на нескольких языках, лучше понимает контекст и акценты, а также использует инструменты Google (поиск, карты, Lens). Новая версия улучшена благодаря технологиям Gemini 2.0.
- Project Mariner: агент для работы в браузере, который может анализировать содержимое экрана и выполнять задачи, такие как взаимодействие с веб-формами или текстовыми элементами. Это исследовательский прототип с фокусом на безопасность. По видео
- Jules: AI-ассистент для разработчиков, интегрированный в рабочие процессы GitHub, помогающий автоматизировать задачи программирования.
- ИИ в играх: агенты, использующие возможности Gemini 2.0, помогают игрокам разбираться в сложных игровых ситуациях, взаимодействуют с виртуальными мирами и предлагают решения в реальном времени.

Смотрите красивый видос - https://www.youtube.com/watch?v=Fs0t6SdODd8
Mariner выглядит вообще огненно.

Больше инфы https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#building-responsibly

Читать полностью…

Метаверсище и ИИще

11 December 2024 15:49

А чтобы вам жизнь медом не казалась, вот вам ещё грядущий нам на головы
PUBLIC DIFFUSION.

https://source.plus/

Новый подход к базовым моделям: Public Diffusion обучается на изображениях Public Domain и CC0. Высокое качество. Полностью открытая. Создана для файнтюнинга.

Какая понял, основная фишка - вылизанный до предела качества датасет. Который также доступен для сообщества и тренировки своих моделей. 30 терабайт, 12М картинок.

По картинкам - до флюкса не дотягивает, но и тренировка ещё идёт.

Записался в вейтлист.

@cgevent

Читать полностью…

Метаверсище и ИИще

11 December 2024 13:02

В ночи Ютуб запустили автоматический перевод видео. Пока только для избранных видео, и включить перевод должен сам автор.

Хотел написать "многочисленные стартапы по даббингу напряглись. Но послушал вот этот образец и кажется напрягаться рано - звучит это ужасно, липсинка нет и вообще гугл чудовищно далеко от маленьких стартапов делающих такие же функции https://blog.youtube/news-and-events/auto-dubbing-on-youtube/

Читать полностью…

Метаверсище и ИИще

10 December 2024 17:38

Кстати, про Санта Барбару и Pal\Secam

Те старперы, которые застали эру видеокассет, должны помнить, что VHS - это 320 линий по вертикали.

Для новых нормальных - это приблизительно 480х320 для NTSC и 576х~310 для (PAL/SECAM).

В таком разрешении у меня Hunyan Video генерит 5 секунд меньше минуты.
LTX Video на H100 наверное будет быстрее реалтайма в таком разрешении.

Пока мы тут обсуждаем Сору и 1080p, пацаны уже могут генерить Санта Барбару в реальном времени на одной карточке.

Получается каждому Свою Санта-Барбару и Бобра впридачу в реалтайме?

Пришел с работы и ну смотреть новую серию.

@cgevent

Читать полностью…

Метаверсище и ИИще

10 December 2024 12:06

Ну и давайте немного подытожим Сору.

Сейчас телеграмчик приподвспухнет клипами "гляшовсоресделали".
Вы можете сэкономить себе время, воспроследовав вот в такой сабреддит:
https://www.reddit.com/r/SoraAi/

Там народ наваливает этого добра примерно пять раз в час. Можете оценить НЕ черрипики.

А я тут с дивана погенерю слабоумных мыслей.

1. Ожидания, конечно, были больше. Это просто императивное утверждение. Ну большего мы ждали от OpenAI

2. Пока нет промпт-гайда для Соры или хотя бы какой-то массы постов на реддите и в твитторе, чтобы уловить шаманство промптинга, говорить и сравнивать Сору с остальными рано.
Пока это рулетка, о чем пишут все генерирующие. На один и тот же промпт может быть и длинный план, и (чаще) три порезаных плана в этих же 20 секундах. Может быть ацкое качество или такой же ацкий морфинг всех конечностей.
Сейчас будет много клипов, сравнивающих Сору с остальными на одинаковых промптах - это малость нерелевантно, у каждого генератора свои ухватки.

3. Надо сказать все-таки и о плюсах: качество картинки (когда выпадает шанс) - топ, консистентность - топ, длина клипов - топ.
4. Про жесточайшую цензуру я уже написал. Ну и как учит нас история с DALL·E 3 (из которой уже песок сыплется), с цензурой будет только хуже. Вот это вот шарахание от лиц и изображений людей принимает параиноидальные формы, а раскатывание лиц на планы за 200 баксов выглядит и вовсе лицемерно.

5. Тут же добавлю, что сообщения типа "это начальный релиз, мы щас будем допиливать" не внушают оптимизьма. Допиливать будут той же командой (в отличие от опен-сорса, где допиливание - это коллективный разум). Плюс это "допиливание" длится с февраля! То, что чего допилились не очень впечатлило. Ну и допиливание цензуры никогда не бывает в сторону послабления.

7. Про цены - 200 баксов на рулетке выжгут 500 генераций и вы попадете в медленную очередь. Безлимиты за 99 у конкурентов выглядят получше, особенно учитывая количество брака.

8. Ну и последнее. Я, честно говоря, очень ждал каких-то ловких и уникальных продуктовых фич. Чего-то, что значительно отстроило бы Сору от конкурентов.
Каких-то элементов монтажа и композа.
Работу с таймлайном.
Возможность, например выделить часть клипа и перегенерить его по корректирующему промпту. Не вот это вот "сохраним, отрежем, подадим на вход, склеим", а в виде удобной фичи, сохраняющей контекст клипа.
OpenAI до сих пор не научились в продукты, хотя с момента громких заявлений про GPT Store прошло больше года.
Но, впрочем, мы их ценим не за продукты, а за технологии.
А выход Сора сейчас бустанет рынок видеогенераторов еще немного. Не удивлюсь, если Чорный Лес что-то скоро покажет.

@cgevent

Читать полностью…

Метаверсище и ИИще

10 December 2024 09:20

Сора, конечно, знает толк в .. развлечениях.

Тема сисек не то чтобы раскрыта, она творчески переосмыслена и выведена в иное измерение.

По какой-то причине это гораздо лучше, чем 6 пальцев.

@cgevent

Читать полностью…

Метаверсище и ИИще

09 December 2024 21:29

Про Сору и цензуру.

OpenAI решила не разрешать генерации видео с использованием фотографий или кадров реальных людей в качестве input. OpenAI заявляет, что предоставит доступ к такой функции "подмножеству" пользователей Sora, но не будет широко распространять эту возможность, пока не получит возможность доработать свой "подход к безопасности".

Пока известно, что в это "подмножество" попали олигархи с планом Pro за 200 баксов. Остальных ищем в твитторе.

Также тут можно почитать, как они выкрутили на максималки фильтры по NSFW:
https://openai.com/index/sora-system-card/

OpenAI также не позволит пользователям выкладывать сгенерированные видео, содержащие клипы или изображения людей, в ленту на главной странице сайта Sora. Ну то есть шарить их на сайте Sora в галерею.

Также в Sora есть фильтр, позволяющий ИИ-определить, изображен ли на сгенерированном видео человек младше 18 лет. Если это так, OpenAI применяет "более строгий порог" для модерации, и как правило, блочит генерацию.

Все видео, созданные Sora, содержат метаданные, указывающие на их происхождение - в частности, метаданные, соответствующие техническому стандарту C2PA, про который писал сегодня.

OpenAI также заявляет, что использует "оперативное переписывание (ваших) промптов", чтобы не позволить Соре создавать видео в стиле живого\известного автора. А вот тут сейчас жоско было

Пишут: В творчестве существует очень давняя традиция отталкиваться от стилей других художников, но мы понимаем, что у некоторых авторов могут возникнуть вопросы.

У нас тоже есть вопросы. К Соре.

@cgevent

Читать полностью…

Метаверсище и ИИще

09 December 2024 17:25

Анонс(а может и релиз для некоторых подписчиков OpenAI) Sora, похоже, сегодня — помимо утёкшей страницы поддержки с перечислением стран, где будет доступна модель, на 2 часа раньше видео-стрима свой обзор выложил крупный ютубер MKBHD: https://www.youtube.com/watch?v=OY2x0TyKzIQ
(конечно же, с большим количеством футажей внутри)

Я пока лениво полистал, главная фича в UI на сайте — возможность генерировать несколько клипов последовательно («Storyboard»), для каждого клипа свой пропмпт со своей мини-историей. При этом объекты (в частности персонажи и сцены) будут консистенты между ними.

Читать полностью…

Метаверсище и ИИще

09 December 2024 14:59

Если вы в кодинг, то умные подписчики в коментах очень приподнахваливают форк Cline под названием Roo-Cline:

https://github.com/RooVetGit/Roo-Cline

Цитата: "оригинальный cline сразу ощущается как intel pentium 3"

Я не буду расписывать, что такое Cline - an autonomous coding agent. Чтобы не пугать нормальных людей.

@cgevent

Читать полностью…

Метаверсище и ИИще

09 December 2024 14:26

Войя - виртуальный продакшен с айфоном

Если ваши интересы выходят за рамки мемных генераций из Viggle, поглядите на Voia.

Попробовать нельзя, есть запись в waitlist: но их намерения звучат неплохо:
Voia позволяет снимать в любом месте, искусственный интеллект регулирует освещение и создает 3D-среды - и все это с вашего iPhone и из облака. Наша предварительная визуализация (previz) позволяет планировать, визуализировать и совершенствовать сцены до начала съемок, обеспечивая эффективность и творческий контроль.

Есть Unreal Engine & Blender Integration, а основной мессадж - в 10 раз дешевле, в три раз быстрее.

В шапке есть длинноватое видео про съемку реальной рекламы, те, кто в теме, возможно найдут там правильные термины.

В общем, поглядите. Этакий Wonder на минималках.

https://www.voia.com/

Читать полностью…

Метаверсище и ИИще

08 December 2024 18:22

Sora v2, мать моя женщина...
Кажется, весь видео процессинг скоро изменится навсегда.
Будет доступна "совсем скоро".
Минутная генерация
Текст, текст+картинка, текст+видео -> видео
Отсюда https://x.com/RuudNL/status/1865425438991945938

Читать полностью…

Метаверсище и ИИще

07 December 2024 17:59

Сравнение Grok Aurora и Grok+Flux

Думаю сами поймете, кто справа, а кто слева.

Три вида промптов по деталям, легкие, средние и хэви-метал.

Источник

@cgevent

Читать полностью…

Метаверсище и ИИще

06 December 2024 21:05

Вот что показали сегодня:

O1/O1-mini теперь можно файнтюнить – то есть можно взять свой датасет, условно научный или юридический (или любой другой), и сделать лучшую модель в узкой области; самое интересное, что уже 20 (!) примеров решенных задач датасета, уже достаточно для файнтнюна модели в узкую область

Обычно такие модели дороже в инференсе, и сам файнтюн стоит денег – доступно будет в следующем году

А я, тем временем, продолжаю тестировать o1 pro – буду переодически писать апдейты

Читать полностью…

Метаверсище и ИИще

06 December 2024 13:11

Вот держите вам НЕ черрипиков из TRELLIS.
Его уже завезли на fal и везде, видео об этом приложил.
Меня порадовало видео из Блендора, где полученных таким образом болванов (по одной картинке, наминутчку) используют для превизов.

Понятно, что модельки сходу непригодны к анимации, но текстурки он тащит довольно ловко.

И это, еще раз, опен-сорс от Микрософта. Очень крутого качества.

@cgevent

Читать полностью…

Subscribe to a channel