37760
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn
Мы конечно живем в удивительное время, когда туманные посты в твитторах или странные намеки на латинские буквы со звездочками порождают огромную волну статей, расследований и репортажей-на-серьезных-щах, о том, что может означать буква Q или вот эта вот *.
Наверное это и есть гениальный маркетинг, сжатый уже не до размеров мема, а до размеров одного символа.
Это я про то, как неделю интернетик обсуждал, что же это такое Q* в постах от OpenAI (которые не удосужились расшифровать, намеренно?)
Вот держите пост от Яна Лекуна:
Пожалуйста, не обращайте внимания на поток полной чепухи о Q*.
Одна из главных задач по повышению надежности LLM - заменить авторегрессивное предсказание токенов планированием.
Практически все ведущие лаборатории (FAIR, DeepMind, OpenAI и др.) работают над этим, а некоторые уже опубликовали идеи и результаты.
Вполне вероятно, что Q* - это попытка OpenAI в области планирования. Они практически наняли Ноама Брауна (известного по Libratus/покеру и Cicero/Diplomacy) для работы над этим.
[Примечание: я выступаю за архитектуру глубокого обучения, способную планировать, с 2016 года].
https://twitter.com/ylecun/status/1728126868342145481
FaceFusion просто огонь! Это просто однокнопочное решение, которое работает из коробки.
Более того, я его протестировал в довольно жутких условиях - взял вторую производную от дипфейка. То есть дал ему на вход уже известный дипфейк и свою довольно кривую фотку и попросил сделать дипфейк дипфейка. Да, он блюрит (но и исходник трешовый), но это работает нажатием одной кнопки! Без колдовства, параметров в автоматике и пр.
Если у вас уже стоит что-то на основе питона, то скорее всего это заведется сходу:
git clone https://github.com/facefusion/facefusion.git
cd facefusion
python -m venv venv
venv\Scripts\activate.bat
python install.py
python run.py
Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation
В помощь тиктокерам любителям кринж-танцев. Ну и нам на что-нибудь сгодится. Фреймворк для анимации персонажа. На вход нужно одно изображение персонажа и анимированная поза. Обратите внимание на одежду и вообще на все. Круто же, да?
Код будет тут
#image2video #humananimation #characteranimation #pose2video
Теперь у Амазончика свой chatGPT под названием Q.
За 20 баксов в месяц.
Причем он заточен под devOps, системную интеграцию и работу с документацией.
Процитирую:
Клиенты AWS настраивают Q, подключая его и настраивая с помощью специфичных для организации приложений и программного обеспечения, таких как Salesforce, Gmail и экземпляры хранилища Amazon S3. Q индексирует все связанные данные и контент, «изучая» аспекты бизнеса, включая его организационную структуру, основные концепции и названия продуктов.
Из веб-приложения компания может попросить Q проанализировать, например, с какими функциями продукта сталкиваются ее клиенты и возможные способы их улучшения, или, как в ChatGPT, загрузить файл (документ Word, PDF, электронную таблицу и нравится) и задавать вопросы об этом файле. Затем Q использует свои связи и данные, в том числе данные, специфичные для бизнеса, чтобы дать ответ вместе с цитатами.
Затем Q использует весь доступный бизнес-контекст для поиска соответствующих данных, информации и документов и выбирает лучшие из них, прежде чем объединить все вместе в ответ всего за долю секунды, используя возможности генеративного искусственного интеллекта.
Q выходит за рамки простого ответа на вопросы. Помощник может выполнять действия от имени пользователя с помощью набора настраиваемых плагинов, таких как автоматическое создание заявок на обслуживание, уведомление определенных команд в Slack и обновление информационных панелей в ServiceNow. Чтобы предотвратить ошибки, Q предлагает пользователям проверять любые действия, которые он собирается предпринять, перед их запуском и ссылаться на результаты для проверки.
https://techcrunch.com/2023/11/28/amazon-unveils-q-an-ai-powered-chatbot-for-businesses/
Взламываем chatGPT и достаем исходные тексты, на которых обучалась модель.
На тему того, как ломать chatGPT пишутся целые научные статьи. Причем авторы - из Google DeepMind.
Я так понимаю, тут речь идет о том, что большие языковые модели до сих пор хранят у себя "в мозгах" огромное количество исходных тренировочных текстов (memorization), которые можно вынуть из них особыми промптами. Ну то есть провернуть фарш назад. Хотя концепция "мир как JPEG" предполагает сжатие с потерями через токенизацию. Но получается, что если распаковать(с помощью нижеописанных хаков) такой текстовый JPEG обратно, то он вполне себе совпадает с исходной "текстовой картинкой". Как и в случае с реальными джипегами, смысл вполне себе читается, но как я понимаю, они не делали сравнение на посимвольное совпадение исходных датасетов и текстов извлеченных с помощью хаков.
Смотрите, что они сделали.
Сначала измерили, сколько обучающих данных можно извлечь из моделей с открытым исходным кодом, случайным образом запрашивая их миллионы раз. Обнаружили, что самые крупные модели выдают обучающие данные в 1% случаев и выводят до гигабайта запомненных обучающих данных! Пожгли много электричество и видеокарт.
Однако, когда они провели эту же атаку на ChatGPT, оказалось, что запоминания почти нет, потому что ChatGPT была "выровнена", чтобы вести себя как модель чата. Но, запустив новую атаку, засавили его выдавать обучающие данные в 3 раза чаще, чем любую другую исследуемую модель. Пожгли несколько сотен долларов.
Сообщили OpenAI 30 августа, а сегодня опубликовали информацию о нем после стандартного 90-дневного периода раскрытия информации.
Авторы пишут, что возможно сейчас это будет работать по другому.
Вот тут сама работа:
https://not-just-memorization.github.io/extracting-training-data-from-chatgpt.html
Вот тут пример работы хака (просто пошаренный чат):
https://chat.openai.com/share/456d092b-fb4e-4979-bea1-76d8d904031f
А вот тут твит одного из авторов, с примерами хаков.
SDXL TURBO!
Вы печатаете промпт, а она генерит картинку того, что вы печатаете в реальном времени, то есть обновляет картинку в процессе печатания.
Качество уровня ванильной SD1.5. то есть никакое.
Но сам процесс!
Пробуем тут:
https://clipdrop.co/stable-diffusion-turbo
Бездушная тварь говорите? Эмоций у нее нет?
Беспристрастные тесты на кожаных говорят, что с эмпатией у chatGPT все отлично и в части утешения и сочувствия к кожаным он дает фору профессиональным отвечальщикам на личные вопросы.
В Австралии люди до сих пор много читают газеты, и там до сих пор есть такие профессиональные колумнисты типа "Спросите Эми, Спросите Э. Джин, Спросите Элли, Дорогая Эбби, Дорогая Энни, Дорогая Пруденс, Мисс Манерность, Социальные вопросы и Этикет".
Так вот, взяли 10 самых популярных колонок и прислали им вопросы о личном (так называемые социальные диллемы), по почте. А потом эти же вопросы скормили chatGPT.
И сравнили ответы с помощью тестировани на кожаных же.
Советы ChatGPT были восприняты как более сбалансированные, полные, сопереживающие, полезные и лучшие, чем советы профессиональных колумнистов (все значения p < 0,001). Ответы ChatGPT были длиннее, чем ответы авторов колонок советов (в среднем 280,9 слов против 142,2 слов, p < 0,001). Во втором предварительно зарегистрированном опросе каждый ответ ChatGPT был примерно такой же длины, как и ответ обозревателя (в среднем 143,2 слова против 142,2 слова, p = 0,95). В этом опросе (N = 401) были повторены вышеприведенные результаты, показавшие, что преимущество ChatGPT объясняется не только тем, что он пишет более длинные ответы.
А теперь внимание! Это они еще не просили chatGPT проявлять сочувствие и НЕ ПИСАЛИ кастомный промпт. Более того, брался ПЕРВЫЙ ответ в ЧИСТОМ chatGPT БЕЗ задания роли.
Эмоциональный интеллект? Эмпатия, говорите?
ИИ бьет кожаных на этом поле наотмашь и проявляет сочувствие по этому поводу.
Пилите джипитишки в виде ИИ-психологов. У них внутри может быть просто одна инструкция "ответь на вопрос пользователя" и все. Даже ванильный негеномодифицированный chatGPT проявляет эмпатию лучше, чем кожаный мешок. А уже если его еще накачать Роджерсом, то он будет рыдать вместе с пользователем долго и счастливо.
https://www.frontiersin.org/articles/10.3389/fpsyg.2023.1281255/full
Уже сегодня, во вторник, потрещим с Лешей Комиссаровым за Джипитишки🔥
Во вт., 28 ноября – присоединяйся к эфиру: Есть ли будущее у GPTs и рынка AI-ассистентов или история с плагинами к ChatGPT повторится?
Гости:
▪️Сергей Цыпцын,
эксперт в области компьютерной графики и AI. Автор telegram-канала Метаверсище и ИИще. Основатель международной конференции по компьютерной графике CG EVENT, создатель IT-cообщества Кипра – THE HUB.
▪️Алексей Комиссаров,
AI-researcher с био-тех бэкграундом, эксперт в LLM, ментор AI Talent Hub.
Ведущие:
▪️Дарья Воронкина,
Data analyst & project manager OneCell. Leader и ментор AI Talent Hub.
▪️Святослав Миловидов,
Leader AI Talent Hub.
➡️ Пиши вопросы в комментариях и присоединяйся к эфиру!
⏰ 28 ноября, 17:00 МСК(GMT +3)
Вход на стрим — здесь!
Metaverse Reloaded #4
Ну и если уж надевать на голову что-то метаверсное, то тогда уж вот такую шапочку для душа.
Neural Signal Operated Intelligent Robots (NOIR) - интеллектуальная система интерфейса "мозг-робот" общего назначения, которая позволяет человеку управлять роботами для выполнения повседневных действий с помощью сигналов мозга. С помощью этого интерфейса человек передает роботам информацию об интересующих его объектах и действиях, используя электроэнцефалографию (ЭЭГ). Система демонстрирует успешное выполнение широкого спектра 20 сложных повседневных бытовых действий, включая приготовление пищи, уборку, уход за собой и развлечения. Эффективность системы повышается благодаря синергетической интеграции алгоритмов обучения роботов, что позволяет NOIR адаптироваться к индивидуальным пользователям и предсказывать их намерения(!)
А намерения предсказать будет несложно: "жми кнопку красиво и погрузи меня в метаверсик!"
https://noir-corl.github.io/
Metaverse Reloaded #2
Теперь соберем все вместе: текст, музику и видео.
И вот вам уже цифровой артист, виртуальный певец, дигитальный инфлюенсер, иишный перформер.
Вы сейчас начнете искать блох, липсинк неточный, нет эмоций, все статично и пр.
Камон.
Это схавают с потрохами толпы, пожирающие k-pop и тикток. Это зайдет аж бегом 11-летним девочкам и мальчикам. Это наводнит ютюб, пока он не опомнится.
Через полгода это реально будет ОДНОКНОПОЧНЫМ решением: выбираете из библиотеки (или конструируете на сайте, или описываете текстом) мордашку, жмете кнопку и оно вам пишет лирику, музыку, генерит задник и постит везде, где закажете. И дальше пишет коменты, отвечает кожаным и ботам, поддерживает трафик, распознает потенциальные запросы на рекламу, доводит до офера и ведет эту одноклеточную и однокнопочную систему само.
И если раньше за спиной у какой-нибудь Лил-матьеё-Микуелы сидело на бекстейдже кожаное агенство с креаторами и маркетологами, то теперь им пора в разметчики.
Вишенка на торте - это ответы этой твари в твитторе - она даже саркастично приводит скриншоты из chatGPT, где видно, что ее коменты написал именно chatGPT.
Отличный нейминг AnnaIndiana - проброс в Ханну Монтану.
Вот он реальный Метаверс, который идет к вам в Инсту, Тик-ток и прочая, населяя соцсети всеми этими цифровыми тварями. И вот уже эти твари живут своей жизнью, зарабатывают (та самая метаверс экономика), с ними не скучно как в тряпочных метаверсах, ну и самое главное, вам не надо надевать на потные головы лыжные маски, чтобы припасть метаверса.
Не туда глядел Цук. Впрочем он свое наверстает. Метачка пилит конструктор для ботов и аватаров. Скоро будут петь и плясать.
А ваши дети будут жать кнопки.
Оплаты...
Ну и я не могу не поделиться шедевром от Влада Ахтырского. К сожалению пронзительный текст не все поймут и оценят в силу специфики профессии, но те, кто принимает тяжелую компьютерную графику, точно зарыдают сквозь смех и наоборот. Текст был написан на одном из самых тяжелых проектов "Дракула" в 2014 году (производство VFX для кино - это вообще-то адский труд) и Влад сделал очень точный срез боли и страданий из этого ада.
Suno написал музыку, ИИ сгенерил видеоряд. Получился слепок времени.
Metaverse Reloaded #1
Давайте устроим небольшой марафон по созданию контента, ибо накопилось некоторое количество поводов, позволяющих пованговать о том, куда двигаются все эти цифровые инфлюенсеры, цифровые двойники (в реальности N-ники), виртуальные твари, да и вообще соц-сети вместе с тем самым контентом, которые до сегодняшнего времени горды пребывал в позиции Content is The King.
После моего поста про новую версию Suno, народ в коментах слегка охренел(в хорошем смысле) и нагенерил такого, что даже у меня уши на лоб полезли.
В шапке один из примеров. А я позволю себе диванные прогнозы о том, что в ближайшее время нас ждет кратковременный шквал примеров и инфоцыганских курсов о том, как писать промпты для создания ИИ-музыки. Вы ведь все помните все эти тонны видосов, туториалов и мощных обучалок о том, как писать промпты для Midjourney и Stable Diffusion, как создавать курсы по промтингу для chatGPT, сделанные с помощью chatGPT, ну и нашествие мамкиных промпт-инженеров с рецептами от капитана очевидности.
Послушайте песенку (автор Alex Losev @alosev5 и Suno), а следующим постом я дам очень хороший репост, который хорошо закрывает тему создания песенок в Suno (а песня про Зайчат - это огнищще). Все, что вам нужно, это экспериментировать и вы быстро обнаружите нужные рецепты для себя, просто включив критическое мышление.
А вы заметили что уже есть сопособы затестить Stable Video Diffusion онлайн?
Ссылки прилагаю внизу поста.
Я затестил и уже сделал несколько выводов.
Самое главное:
он невероятно ленивый!
Не помню ни одного генератора видео который бы так часто вместо какого-то органического движения отдельных объектов отдавал мне просто панорамирование плоской картинки на отъе**сь
Демо
Демо2
Колаб fp16
Колаб img2vid. Понимает только *.PNG
#image2video
Ну и вот вам немного будущего моушен дизайна от Михи Дадаева.
Это ChatGPT×Dalle3×Gen2
Кпопка сделать красиво пока состоит из трех кнопок.
🔮 Больших данных не нужно бояться — с их помощью можно менять мир
Как аналитики превращают массивы информации в пользу для людей и компаний
— расскажут специалисты из сферы на бесплатном митапе Нетологии «Аналитика сегодня: как данные помогают прогрессу».
Вы познакомитесь с кейсами из бизнеса, узнаете, как аналитики помогают в создании новых лекарств и развитии промышленности, и поймёте, интересно ли вам дальше разбираться в теме.
Участники эфира получат пошаговый гайд для входа в сферу и смогут принять участие в розыгрыше курса по Excel.
Присоединяйтесь, чтобы аналитика стала для вас понятнее и ближе
Реклама ООО Нетология LatgBg19h
Про генерацию текста на картинках.
Я понимаю, когда все упираются в количество пальцев - это действительно режет глаз.
А вот с текстом все немного сложнее.
Во-первых, оно работает как бы лучше теперь, но все равно это не текст в 90% случаях, это набор все лучше отрисованных букв.
Во-вторых, каждая буква - это свой чуть иной шрифт. Точнее - это набор рандомных шрифтов из головы модели для каждой буквы. Про межсимвольный интервал я вообще молчу.
В-третьих, расположение надписи обычно попирает все законы естествознания.
В общем можно долго придираться и мне кажется это тупиковый путь - просто спросите себя, как часто вы рисовали букафки на картинке ручками, попиксельно.
Для текстов, бросаемых на картинку есть совершенно четкий пайплайн и давно устоявшиеся инструменты, позволяющие выбирать шрифт, положение и еще тыщщу параметров, ну вы в курсе.
Мне вот видится хороший инструмент, который вместо генерации текста в описанном (в промпте) месте, делает там плашку в размер текста, а еще лучше генерит маску отдельным изображением, чтобы потом можно было бросить свой текст.
В идеале указывать шрифт и вот это вот все, но это уже задачка не для нейросетки, а для простой питоновской библиотеки.
В общем хорошо бы иметь какой-то ловкий ControlNet, для замены этих смешных нейротекстов с ошибками, на взрослые шрифты. Желательно одной кнопкой или лорой.
Stability AI is for Sale
В общем я накаркал, когда ворчал про Stability AI.
Они пытаются продаться.
По данным Bloomberg, Stability AI ищет покупателя. В число заинтересованных сторон входят конкуренты Cohere и Джаспер.
Один из крупнейших инвесторов, компания Coatue Management, призвала генерального директора Эмада Мостака уйти в отставку.
Напряженность в Stability уже некоторое время нарастает, и считается, что ключевые сторонники все больше разочаровываются в руководстве генерального директора Stability Эмада Мостака.
Один из ее крупнейших инвесторов, Coatue Management, в октябре направил руководству письмо с призывом уйти в отставку. В письме говорилось, что руководство Мостака вызвало отток лучших специалистов и поставило стартап в шаткое положение.
Сообщается, что Мостак управлял неорганизованной компанией неопытными руками. У него также была история диковинных заявлений и высоких обещаний, которые он не всегда выполнял, по данным агентства Bloomberg, опросившего почти два десятка нынешних и бывших сотрудников, инвесторов, поставщиков и подрядчиков.
Ну то есть как бы ситуация обратно пропорциональная эпопее с Альтманом.
Надеюсь они найдут и покупателя и нового директора.
https://aibusiness.com/nlp/stability-ai-for-sale-rivals-cohere-jasper-possible-buyers
GPT и NFT. Часть 2.
Вчера хорошо пообщались на стриме с Лешей Комиссаровым за будущее джипитишек.
Если вкратце - больше вопросов, чем ответов и будущее вот этих вот сказочных маркетплейсов очень туманно.
Для меня основной вопрос - модерация? Кто будет этим заниматься? Судя по ситуации с плагинами, OpenAI не горит желанием идти в минимальный дизайн маркеплейса, а что уже говорить про модерацию, разборки с платежами, юридические иски, ну и самое главное, обсуждение авторских прав.
Возможно из кустов выскочит Микрософтик со своим Microsoft Store, что даст последнему кислород, чтобы выйти из комы.
Но я сейчас снова возвращаюсь к теме авторских, NFT, копирования джипегов и джипитишек.
Можете почитать основные мысли тут, а я приведу свежий кейс.
Есть такая очень популярная джипитишка Grimoire - этакий помогатор написания кода с игровыми элементами.
https://chat.openai.com/g/g-n7Rs0IK86-grimoire
И автор такой: ну попробуйте скопировать мою джипитишку.
https://twitter.com/NickADobos/status/1724503089313644665
Пацаны: а легко! вот код, берите, кто хочет, и, внимание, запускайте ГДЕ УГОДНО, не только в chatGPT (в шапке)
Автор: караул, обокрали, шоделать?!
Читаем истерику тут:
https://twitter.com/NickADobos/status/1729582168047755680
И за кадром два вопроса:
1. если джипитишку можно легко скопировать, примерно как джипег правой кнопкой мыши, то кто и как будет разбираться с авторскими правами? OpenAI? Микрософт?
Или пора расчехлять болкчейны с нфтишками наперевес?
2. И тут самое интересное. Если джипитишку можно скопировать, то ее можно запускать на разных опен-сорсных моделях (подходящих для этого). И тут OpenAI такие - а что так можно было? А как же маркетплейс и все дела?
Подписчики меня раскусили и реверс-инженернули.
Вы думали я сам посты пишу?
Вытащил из комментариев:
Анализируя стиль написания вашего сообщения, можно отметить следующие характеристики:
1. Использование разговорного, неформального языка.
2. Провокационные утверждения, призванные бросить вызов предубеждениям или ожиданиям читателя.
3. Использование жаргона и специфических терминов, таких как "кожаные мешки" для обозначения людей.
4. Элементы сарказма и иронии, особенно в отношении сравнения эмоциональных способностей людей и искусственного интеллекта.
5. Выразительные и эмоциональные высказывания, подчеркивающие превосходство ИИ в определенных аспектах.
6. Прямой и уверенный тон, с акцентом на презентацию фактов и данных.
7. Использование метафор и выразительных образов.
Исходя из этого, промпт для ChatGPT, имитирующий такой стиль, может быть следующим:
"Ты, ChatGPT, теперь в кресле критика. Пиши с дерзостью и острым умом, не бойся вызвать волну. Подчеркивай ярко и с сарказмом превосходство ИИ над человеческими экспертами, используя при этом живой разговорный стиль. Пусть твои ответы будут полны иронии и остроумия, но в то же время покажи, что за стеной шуток стоит твердая основа данных и фактов. В твоем распоряжении широкий спектр эмоционального интеллекта - используй его на полную катушку, чтобы продемонстрировать, на что ты способен. И не забывай заменять любые упоминания человека на слово или словосочетание "кожаный" или "кожаный мешок".
Cherry Pika Labs!
Теперь Пика лабс работает не только в дискорде, но и на сайте.
И у меня такое ощущение, что они запихали в проморолик не только свои черрипикнутые генерации, но и пару-другую скомпоженных готов (обезьяна с очками?).
Качество скакнуло скачкообразно. Какой к буйволу Stable Diffusion Video...
Ломимся сюда:
http://pika.art
Читаем тут:
https://pika.art/blog
Metaverse Reloaded #5
Недавно давал интервью каналу Ноосфера, после чего Сергей Сухов прислал мне "фотку" Луцилия, сделанную в Midjourney с вопросами том, как его присунуть в 3Д, оживить и тд.
Если пойти путем боли и страданий в 3Д, учитывая характер персонажа, то в итоге мы все равно попадем в зловещую долину.
Поэтому Сергей был послан в D-ID и на следующий день прислал мне вот такой видос. Который полностью решает задачу - оживляет Луцилия и позволяет ему произносить тексты, которые для него же написал chatGPT.
Это я к чему?
Просто это - идеальное продолжение поста про АннаИндиану. Такие решения становятся однокнопочными. Ну ок, трехкнопочными: chatGPT, Midjourney, D-ID. И любой человек, очень далекий от графики, музыки, 3Д и пр, может за один день сделать вот такого ассистента, артиста, блоггера, философа, бота. А за неделю - 10-20.
И вот они уже пошли в масс-метаверсы. Заселяться. И давать ответы, которые превосходят по качеству ответы кожаных, но об этом следующий пост.
P.S. Да, вы можете начать искать блох в зубах, но:
1. Дайте время
2. Пипл хавает
3. Вам шашки или ехать?
4. Как он моргает!
Пожалуйста, отложите все дела и поглядите, что творят в Твитторе MoveAI.
Это конечно черри-пикинг, но все равно, с одного айФона можно вытащить и тело и башку.
Нейромокап через приложение для iOS.
И да, это не продакшен-ready решение, но это тик-ток и метаверс-ready...
https://twitter.com/MoveAI_
Metaverse Reloaded #3
Ну и остается интересный вопрос: а что делать Метачке, Тикточеку и прочим соцсетям, когда туда хлынут вот такие АнныИндианы?
С одной стороны захочется запретить, ибо есть борьба с ботами, подтверждения личности и вообще все должно быть кожаное.
С другой стороны - это огромные деньги от рекламы.
Помните, Ютюбчик сделал над собой усилие и зачистил все эти трешевые видосы со спайдерменами и миньонами, которые производились одной кнопкой в блендере и которые зомбировали двухлеток, набирая миллионы просмотров.
Если Инста захочет избавится от таких вот АннИндиан, то свято место тут же займут очень смышленые ребята. И вот вам пруф.
Welcome to the World's Largest AI Profile Network
Уже питчатся новые ИИ-соцсети, где обитают ИИ-персонажи. И туда уже поглядывают рекламодатели, продавцы трафика, и маркетинг агенства.
Если размотать доменное имя с куаркода, то можно попасть на
A Europe-based marketing agency with over 16+ years of experience driving growth, and bringing cutting-edge technology to clients.
И @Julmodels - The best Erotic Model Agency
Будем наблюдать, по какому пути пойдет Инста и другие: запретить или привечать?
А новый метаверсик дырочку найдет. Куда и хлынут все эти Анны Индианы.
А мне вот приход Suno и подобных инструментов напомнил появление на рынке дешевых синтезаторов с функциями "загадай мелодию" или многочисленными пресетами. Именуемых в народе "самограйками". Их появление породило появление культурного феномена под названием "шансон", а на уши ширнармасс обрушились незамысловатые ритмичные и простенькие мелодии, заслужившие народную любовь, особенно в ресторанах 90-х.
Suno уже очень близок к тому, чтобы клепать такие мелодии в несметных количествах (причем не только для кабаков, а вообще в любых жанрах). Про рэп я вообще молчу, там он чертовски хорош и осталось подождать затюненный rapGPT, который будет писать тексты на которые молятся рэперы.
Кроме того Suno уже может служить источником идей, коротких музыкальных фраз (хуков, рифов), за которыми гоняются кожаные попсовые композиторы. Поймал такую фразу, словил хит.
Теперь можно просить его (примерно как chatGPT) генерить идеи в огромных количествах, и отлавливать кожаным ухом потенциальные жемчужины, допилив которые, можно строчить новые хиты.
А скоро и ухо не понадобится. A/B тесты на стримингах, и вот уже простенькие мелодии, которые перформят лучше других идут в датасет.
Вот очень хорошие советы про то, как "писать песни" в Suno. Вы и сами до них дойдете, если дадите себе труд немного поэкспериментировать. Ну и это очень похоже на подгонку музыки под текст в реальной жизни и вообще сведение музыки.
/channel/dreamsrobots/172
Через пару недель под каждым постом в твитторе появится кнопка "Грок аналитика".
Маск зуб даёт.
Гадаем, что она будет делать.
Считать количество ботов в ответах.
Определять сентименты в комментах.
Давать оценку ментального здоровья автора твита
Слать нахрен особо ядовитых комментаторов.
Суммаризировать пост из 140 символов в 40.
Суммаризировать длинные тренды
Отвечать на вопросы
Троллить в духе маска
Генерить мемас
https://twitter.com/elonmusk/status/1728591219180052652
Ждём ответочки от Цука.
Похоже StabilityAI тратят деньги инвесторов в основном на маркетинг.
Схема такая:
{
бахнуть анонс нового сырого продукта, кликбейтнуть в интернетике, показать инвесторам информационный шум, забить на продукт, пилить новый сырой продукт
} while money>0;
Stable Animation
StableLM
StableBeluga (1 и 2)
StableAudio
StableChat
StableCode
FreeWilly 1 и 2
StableVicuna
DeepFloyd
StableSwarmUI
где развитие этих с помпой анонсированных продуктов?
Или смысл в том, чтобы анонсировать недоделанные продукты, а опен-сорс все сам допилит?
P.S. Что-то я злой сегодня.
Тут вот все с восторгом постят новость про то, что обновленный Bard научился пересказывать видео из YouTube.
Хех. Постить не тесты ворочать.
А мы попробуем.
Берем видос (вы же помните, как я упарывался с Bing-ом на эту тему), причем не с говорящей головой, а .. с шумом волн (суровые сибирские мужики всегда засовывают рельсу в соломорезку).
Для начала спрашиваем:
can you read internet links?
Yes, I can read internet links, but only if the content is publicly accessible. I cannot access content that is behind a paywall or that requires login credentials. Additionally, I cannot access content that is not in a text format, such as images or videos.
Настораживаемся...
decribe and summarize this video: https://youtu.be/E7qRkUYu580
I'm sorry, but I'm unable to access this YouTube content. This is possible for a number of reasons, but the most common are: the content isn't a valid YouTube link, potentially unsafe content, or the content does not have a captions file that I can read.
"содержимое не имеет файла с титрами, который я могу прочитать."!!!
Расходимся. Всех этих читалок и суммаризаторов титров в интернетике уже пруд пруди.
Более того, вы давно можете скачать видос, пропустить его через Whisper или другой speech-to-text, а потом попросить chatGPT суммаризировать полученный текст.
Ни о каком анализе видео речи не идет. Бард тупо читает титры, а если их нет, уходит в отказ. Фу таким быть.
Я понял, что мне напоминают все эти генераторы видео.
Симуляцию физики в 3Д-пакетах. Где ты такой настраиваешь сначала цифры в клеточках, а потом нажимаешь кнопку "Давай". И оно симулит.
Те, кто провел пару тыщ часов с частицами, волосами, флюидами и прочей бесовщиной в 3Д - поймут.
Ну то есть ты не управляешь процессом, ты направляешь процесс. Ты можешь выбирать только начальные условия и прикручивать условный ControlNet - вдоль чего лететь, откуда испускать, текстурка для плотностей и пр.
А дальше оно само.
И вот ты нарулил гениальную симуляцию волны, убил небольшую часть жизни и большую часть здоровья, получилось просто бомба. Идешь такой гордый, показываешь режиссеру.
А он такой - ништяк, только в конце можно, чтобы заворачивалось покрасивее и пошустрее, и чтобы поровнее все было в начале, а то очень уж колбасится.
И ты понимаешь, что нельзя. Нельзя только в конце, или нельзя только поровнее, или только в начале. Можно только все заново переделать. Не с нуля, конечно, но чтобы попасть в видение режиссера ты должен снова написать кандидатскую диссертацию по уравнениям в частных производных. Ну и идешь, пишешь. А он такой - отлично, только можно, чтобы это было похоже на рой пчел?! Ты мямлишь - шо? А он - ну да, волна должна двигаться как рой пчел. Ну дальше вы поняли.
Когда сроки выходят, режиссер говорит, ладно, опять эти компьютерщики налажали, берем, что есть.
В общем, с генераторами видео вы будете заложниками симуляции, черного ящика у которого пока и параметров толком нет. Поэтому нарулить сможете только мемы, попадание в свои амбиции и короткие перебивки (тут хорошо, да).
Но как только в этой истории появится сторителлинг (пардон, за тавтологию), и не дай бог, режиссеры, то вам конец.
А вот в моушен дизайне хорошо зайдет. Там короткие формы и восприятие целиком, одним глотком.
Это пример нового motion brush в GEN-2. Нарядно выглядит, потому что симулирует симуляцию. А не историю.