Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn
Метис: как бы chatGPT от Амазона.
Вчера, когда писал про датацентры, невольно задумался: вот у Амазона вычислительной дури практически больше всех. Но мы давно не слышали никаких апдейтов про их языковые или другие модели.
Были новости про LLM Titan AI, а более мощная версия под названием Olympus, как сообщается, находится в разработке. Есть также Rufus, помощник, призванный помочь вам делать покупки и просматривать обширный каталог товаров Amazon.
Я также писал о превращении Alexa в чатбот, который может стоить от 5 до 10 долларов в месяц и позволит пользователям просить Алексу о более продвинутых функциях, таких как составление электронных писем или заказ в Uber Eats, с помощью одной подсказки.
И вот, наконец, судя по утечкам, у Amazon появился внутренний проект под названием "Метис". Это чат, offering conversation using text and image-centric answers. Говорят, что Метис может обмениваться ссылками, отвечать на последующие запросы и генерировать собственные изображения.
Сообщается, что Amazon хочет, чтобы бот также мог использовать расширенный поиск, позволяющий ему находить и предлагать информацию, которой он не был специально обучен. В качестве примера в отчете приводится предложение актуальных цен на акции.
В сети уже окрестили его chatGPT killer. Ну ок, а почему не Gemini killer или Claude killer?
В общем ждем ответочку от Амазона, им явно есть на чем тренировать модели. Было бы что тренировать.
https://www.tomsguide.com/ai/forget-chatgpt-amazon-reportedly-working-on-new-metis-ai-chatbot
Марс атакует!
Новая опенсорсная модель текст ту спич.
140 языков.
Клонирование голоса по сэмплу в шесть секунд.
А ещё MARS5 позволяет выполнять "глубокое клонирование", которое улучшает качество клонирования и выходных данных, но при этом требует немного больше времени для создания аудио.
За актеров озвучки уже пили. Ладно, просто помолчим, пока он нас клонирует.
Всё есть тут:
https://github.com/Camb-ai/MARS5-TTS
P.S.
In general, at least 20GB of GPU VRAM is needed to run the model on GPU (we plan to further optimize this in the future).
Есть платный апи.
Пора завязывать со всеми этим клавиатурами и мышами. И пока Маск пилит свою иголочку, энтузиасты собирают свои нейроинтерфейсы. Причем такие, с помощью которых можно проходить
и второго, и первого Босса в ELDEN RING Shadow of the Erdtree.
Когда смотришь это, чуешь отчетливый аромат Матрицы.
Девушка сидит и просто кладет личико на ладошки и о чем-то там думает.
А теперь вспомним, как типичный геймер орет, подскакивает и потеет.
Мне вот интересно, какие у нее энергозатраты и ощущения.
Насколько я знаю, такой уровень нейро-обратной связи серьезно меняет определенные способности мозга. Также интересно, как эти новые способности влияют на "старые" способности. Что прокачивается параллельно?
Очень круто, явшоке.
Видео мне прислали со ссылкой вот сюда:
https://twitter.com/perrikaryal/status/1804649206310752418
А вот тут сама девушка пилит свой интерфейс. Неинвазивный притом!
https://www.youtube.com/watch?v=UXzncNh7rr8
Джедай от Нвидии.
Joint-image Diffusion Models for Finetuning-free Personalized Text-to-image Generation
В общем они предлагают как бы (как я понял), что-то среднее между RAG и Лорами, для создания консистентных изображений. Основной козырь - отсутствие долгого файнтюна моделей.
Сравнивают в основном с Дримбусом.
Основной акцент в работе - на создание синтетический датасетов.
Типа дали как референс курточку или сумочку и нагенерили датасет с этими ассетами, с сохранением консистентности.
Не очень понятно, куда и когда это будет прикручено.
И выглядит очень нарядно, поглядите тут:
https://research.nvidia.com/labs/dir/jedi/
(там между строк есть один момент - если дать на вход не 1-2, а 20-30 референсных картинок, то производительность катастрофически падает)
Но вот вам интересная новость.
Есть такая независимая модель для картинок Pixart Sigma. Натренирована знаете где? В Хуавее. Это не чекпойнт, это своя архитектура. Всего 0.6B параметров, а ухватки, как у SDXL (2.6B).
Так вот, написал эту модель в одно умное лицо Junsong Chen, который до прошлой недели числился как Research Intern в Хуавее. А теперь он Research Intern в Нвидия.
Пишет, что проект Pixart Sigma будут продолжать. Причем он - опен-сорсный.
Может пора уже увидеть что-то красивое (и опенсорсное) для картинок от Нвидия??
Наткнулся на пример нейродубляжа фильма Операция "Ы".
Просто послушайте, как оно годно сохраняет оригинальные голоса.
Кажется, мясные актеры дубляжа тоже скоро отправятся на рынок торговать луком.
Удивительно, как история повторяется. В начале нулевых мы перепаивали GeForce256 в Квадру, и независимо от этого подбирали версию драйвера от Нвидии, чтобы Maya не падала чаще двух раз в минуту.
Сейчас китайцы перепаивают память на RTX 20xx, делая из них почти 3090 по объему памяти, а мы обновляем драйвера, чтобы Stable Diffusion стал побыстрее считать.
Закон Джима Блинна действует, особенно сейчас, компьюта, то есть вычислительной дури, всегда будет мало.
https://habr.com/ru/articles/173545/
Все это ИИ-великолепие от Эппле станет доступно для разработчиков не раньше конца этого лета. Это означает, что оно не войдет в первые бета-версии iOS 18, iPadOS 18 и macOS Sequoia. А когда его начнут раскатывать осенью, оно будет работать только на некоторых устройствах Apple и только на американском английском языке. В некоторых случаях даже будут вейт-листы.
Эппле также старательно избегала точных сроков. Вместо этого они, по сути, представили дорожную карту того, что появится в конце 2024 и первой половине 2025 года.
Если почитать Блумберга вот тут:
https://www.bloomberg.com/news/newsletters/2024-06-16/when-is-apple-intelligence-coming-some-ai-features-won-t-arrive-until-2025-lxhjh86w
то похоже до 2025 года появится только ограниченное количество фич, а все это безобразие, когда Сири сможет управлять приложениями или искать что-то по контексту работы пользователя, появится после нового года.
VFX-рефлексия
В этом видео прекрасно и грустно все.
Комментарии режиссера про водяную воду, индусы, количество право, Бен Стилер, Илон Маск, Tesla Prompt AI, намеки на известного режиссера, общение с клиентом и еще много чего.
Ироничная рекурсия: VFX-артисты делают кино "Pixel Fucked: The Movie" с помощью ИИ. Про то, как ИИ убивает VFX-артистов.
Сорс от Houdini FX artist
Новый Клод Сонет просто огонь.
Поглядите, как он пишет стихи теперь.
А чтобы вам было веселее глядеть, я скрестил Хедру с Гидрой, то есть сделал химеру медведя и кожаного.
Если изловчиться, то можно присунуть Хедре любого двуглазого и одноротого персонажа. И пока он не откроет рот, все будет отлично.
А когда откроет - будет просто прекрасно. Ржу в голос. Сам пошутил, сам ору.
Но вы стихи зацените, это же уже гораздо лучше, чем в детских книжках. Да и во многих взрослых тоже.
Ну, за детских писателей:
Мишка косолапый по лесу гулял,
О любви мечтая, он стихи слагал.
Но упала шишка прямо по макушке,
И забылись рифмы в этой заварушке.
Мишка призадумался: "Вроде я один,
Но в груди трепещет, словно я не с ним.
Это что за чувство, может я влюблён?
Сердце замирает, мыслями пленён..."
Мама улыбнулась: "Милый мой медведь,
То весна играет, нужно потерпеть!
Ты в пору взросления, первая любовь
Учит состраданию, нежности без слов."
Мишка вдохновился, сел писать стихи,
Вышел на полянку, крикнул от души:
"Я в тебя влюбился, милая моя,
Чувствами делиться - радость для меня!"
(С) Claude&AK
Сорян, сами напросились, навалили лайков и дизлайков. Вот что бывает, если подать в Хедру не совсем то, на чем она обучена. Об этом будет еще через пост.
Читать полностью…А ещё Anthropic запустили превью Artifacts - такой вот себе конкурент Advanced Data Analysis в ChatGPT, который позволяет запускать в браузере джаваскрипт и показывать html с svg.
Это позволяет быстро прототипировать вебсайты и даже делать простые браузерные игры!
Good evening, Sam
@ai_newz
ИИ-Сегрегация.
Заходит житель какого-нибудь Иллинойса в ИИ-бар, а ему охранник говорит: "Иди отсюда кожаная морда! С вашей пропиской ИИ запрещен, вали к своим кожаным реднекам".
Это я к чему.
Вчера регистрировался на Хедре и получил вот такой экран. И там белым по черному написано, что жителям Иллинойса и Техаса пользовать ихний ИИ запрещено. В сад, ковбои!
А Гугль Гемини до сих пор на разрешает генерить картинки в Европе.
И вот вам вишенка:
Apple ищет партнера в Китае в области ИИ, т.к ChatGPT заблокирован в КНР. Компания провела переговоры с Baidu и Alibaba.
Ну то есть ИИ у нас скоро будет по талонам. Точнее по рейтингу: социальному ли, территориальному ли, морально этическому...
Черное зеркало не соврало - ведите себя хорошо и будет вам ИИ.
Я вот выпиваю за кожаных и хвалю ИИ...
Фреймстор Ванкувер - всё!
Ностальгии пост. Уходит эпоха, я помню Siggraph 2018 в Ванкувере. Время расцвета VFX. И наши посиделки с ивентовскими сиджишниками переваливали за 20 человек из местных. Влад Ахтырский, Андрюха Евдокимов, Леша Приходько, Паоло Берто.
Кстати именно там впервые презентовали Nvidia RTX.
Ну и началось...
Илья Суцкевер, бывший главный ученый в OpenAI и один из основателей этой компании открыли новую, с офисами в Пало Альто и Тель-Авиве. Заниматься будет созданием безопасного суперинтелллекта, т.е. все тем же. Удивительное заявление для мира, мне вот этот кусок понравился:
Мы не отвлекаемся на управленческие хлопоты и циклы производства, а наша бизнес-модель позволяет обеспечить безопасность, надежность и прогресс, не подвергаясь краткосрочному коммерческому давлению.
Простите, что я опять со своими аватарами, но это уже прям хороший уровень.
Недавно мучил вас примерами из опен-сорсного Hallo (код там оказался не сильно свежий и с массой ошибок). Как тут новая сеточка подоспела. И похоже там под капотом не шевеляж пикселей, а некая видеомоделька (возможно я ошибаюсь). По результатам уже похоже на примеры EMO от Алибабы.
Это закрытый сервис, нет настроек, есть стандартная социализация, галерея и прочая. Пока бета, денег не просят, но думаю есть лимит на количество генераций в день.
Я прогнал на своих генеративных девчонках - они неистово шевелят лицом, хочется иметь рульку "поспокойнее, девочки".
Очень забавно отрабатывает музыку, в тех местах, где нет вокала, модель вдумчиво играет лицом, изображая работу мысли.
На выходе немного мыла, но я прогнал его через FaceFusion и получилось явно лучше. Сравните сами.
В общем еще бы настроек побольше и код, цены бы не было. Пойду поищу какая там модель. Говорят что Character-1 Foundation Model
Регаемся гуглом тут и ну разговаривать с аватарами.
https://www.hedra.com/
Некоторые боятся что ИИ заменит их, а другие, наоборот, с нетерпением ждут
ИИ-врач AIME — это один из тех проектов, который может значительно улучшить качество жизни сотен миллионов людей на планете.
Команда провела тесты эффективности ИИ-доктора по 32 категориям (диагностика, эмпатия, качество предложенного плана лечения, эффективность принятия решений). По 28 из 32 бот показал результаты лучше, чем живой доктор. По остальным — сравнимый результат.
Для обучения бота использовался подход self-play, когда 3 независимых агента (пациент, врач, критик решений врача) провели более 7 миллионов приёмов. Для сравнения, в среднем терапевт за всю свою карьеру делает неколько десятков тысяч приемов пациентов. Именно поэтому уже сегодня ИИ-доктор позволит оказать качественный сервис для 99% населения планеты, которые не могут позволить личного врача, а через несколько лет будет лучше большинства терпевтов/радиологов/педиатров и т.д. — но только никогда не уставший, условно-бесплатный, имеющий мгновенный доступ к любой медицинской литературе и обученный на сотнях миллионов интеракций с пациентами.
Конечно, в медицине главное это "не навреди", поэтому после публикации отчета в январе команда работает над улучшением продукта, безопасностью и готовится к получению необходимых лицензий от FDA и прочих. Массово такие продукты появятся не прям завтра, но технически это уже возможно.
Как ИИ влияет на бизнес и экономику прямо сейчас?
Об этом в своем канале рассказывают «Яков и Партнёры» — лидеры стратегического консалтинга в России.
Читайте, чтобы узнать:
📌 Как будет развиваться ИИ в России и в мире
📌 Когда инвестиции в генИИ успели опередить вложения в метавселенные
📌 Что крупные компании думают о внедрении генИИ
📌 Какой процент компаний из сферы e-commerce применяет технологии генеративного ИИ
Еще больше интересных инсайтов и прогнозов — в их канале. Подпишитесь, чтобы получать все новые исследования и прогнозы из первых рук.
Из комментов тоже достаю.
Рейтинг качества Text-to-Speech софта
https://huggingface.co/spaces/TTS-AGI/TTS-Arena
Соответственно идете по списку сверху внизу и выбираете решение, подходящее по цене.
Например, Топовый ElevenLabs стоит 100 баксов за 10 часов в месяц (500000 символов)
https://elevenlabs.io/pricing
PlayHT со второго места - 40 баксов за 5 часов и 100 баксов за анлим
https://play.ht/pricing/
Принес вам немного Бигдаты.
Больших данных про Больших мальчиков.
1. Больше всего датацентров у кого? Не, не у амазона или Гугла. У Микрософта - 300+. Причем у Гугла - в 12 раз меньше (но они коллабятся с амазоном).
На втором месте Амазон.
Также в пятерку входит Эппле, у них аж 10 штук.
Надо сказать, что Микрософт просто отлично рванул вперед, и на сотрудничестве с OpenAI затащил свой облачный бизнес в космос.
У меня нет данных, где хостятся Антропик или Мистраль. Но продавцы лопат чувствуют себя просто отлично.
2. О чем говорит вторая картинка. Вот уже месяц Nvidia то выходит на 1 место в мире по капитализации, то снова уступает Эппле и Микрософту. Поглядите на три этих огромных пузыря с примерно одинаковой капитализацией. В этом смысле у Микрософта есть полный фарш - и датацентры, и языковые модели, и экосистема.
3. Все эти датацентры потребляют энергии больше, чем БОЛЬШИНСТВО стран. Только 16 стран потребляют больше энергии, чем орава датацентров на планете.
4. Вычислительная мощность, необходимая для обучения моделей - по прежнему главный ресурс. Compute is the King. Поглядите на график роста вычислительной дури, за последние 7 лет (там поджали в логарифмическую шкалу, чтобы поместилось).
https://hi-news.ru/research-development/gorkij-urok.html
Сдается мне, что дата-центры на ядерных реакторах - просто неизбежность.
Company Data Centers
Microsoft 300
AWS 215
Google 25
Meta 24
Apple 10
Ого, Kling обновился (к сожалению только в своем китайском приложении).
Добавили "Image-to-Video" and "Video Extension", причем видосы можно продолжать до (!) минут.
Сора нервно закуривает.... "бахать или не бахать апдейты?"...
Нарезочка видосов тут. Качество, конечно не дотягивает до соровского, но это уже готовое приложение...
https://twitter.com/Kling_ai/status/1804064065670779233
На видосе одна картиночка из Midjourney на входе. И все. На дворе июнь 2024. Что там было два года назад?
Охоспади, бывший генеральный директор Weta Digital станет новым генеральным директором Stability AI!
Наверное надо радоваться, хуже чем с было Мостаком уже не будет.
https://venturebeat.com/ai/stability-ai-gets-new-leadership-as-gen-ai-innovations-continue-to-roll-out/
Гложут мысли о стартапе, для которого нет инвестиций? Подключайтесь к B2C Launch Camp венчур билдера SKL.vc.
Это интенсивный онлайн-кэмп, где вы вы будете работать над своим B2C-проектом от стадии идеи до прототипа и питчинга. На кэмпе ждут команды от 1 до 5 человек. Ключевое требование – у команды должна быть четкая идея и иметь возможность создать прототип без привлечения внешних подрядчиков и команд. Твоя идея должна подходить для большого и растущего рынка США или ЕС, в котором есть место для нового единорога.
Лучшие участники получат рабочий контракт с оффером до $200к в год, опцион в проекте и до $1.5 млн финансирования для воплощения проекта в жизнь.
Где подать заявки можно на сайте.
❗️Проверьте свою идею по чек-листу и обратите внимание на ниши, в которые студия не инвестирует.
Прием заявок закрывается 15 июля, кэмп стартует 19 июля.
📋 Программа кэмпа:
1. Оценка идеи
2. Конкурентный анализ
3. Качественные исследования
4. Бизнес-модель
5. Юнит-экономика
6. CJM
7. Создание прототипа
8. Презентация
Остались вопросы? Пишите @enjoykaz или в комментариях.
Обучение эмпатии.
Так я тут заигрался в аватаров, пора написать что-нибудь псевдо-умное.
Вот тут постил, что после решения проблемы липсинка, мы подучим ИИ поддавать эмоций в лица нейроаватаров.
Вот держите интереснейшую работу по изучению и, внимание, возможно, созданию целенаправленно эмпатичных роботов. Думаю, что если эти результаты привалить на генерацию нейроаватаров, то мы получим схождение к синтетическим лицам, вызывающим максимально эмпатичный отклик.
Итак, что сделали небританские ученые:
Как люди сопереживают гуманоидным роботам, которые выглядят так же, как и люди, но по сути отличаются от них? Мы изучили субъективные ощущения, электрофизиологическую активность и сигналы функциональной магнитно-резонансной томографии во время восприятия боли и нейтральных выражений лиц, которые были распознаны как пациенты или человекоподобные роботы. Мы обнаружили, что здоровые взрослые люди испытывали более слабые чувства понимания и разделения боли от гуманоидных роботов по сравнению с пациентами. Эти результаты позволяют предложить нейронную модель модуляции эмпатии идентичностью человекоподобного робота через взаимодействие между когнитивными и аффективными сетями эмпатии, что обеспечивает нейрокогнитивную основу для понимания взаимодействия человека и робота.
Все это было сделано, через обратную связь с помощью ЭЭГ и фМРТ, то есть через самую что ни на есть кожаную физиологию.
Ну, за эмоциональный интеллект!
https://pubmed.ncbi.nlm.nih.gov/38884282/
Автоозвучка. Всего
Я только вчера наливал за актеров озвучки. Но посмотрите, что выкатил ДипМайнд.
Video2Audio - причем оцените качество. Это не звук мотора или шуршание шин.
Меня просто убила сцена с анимацией в духа Аардмана - если вы подумали, что там что-то предозвучено то нет. На входе видео без звука. А ИИ сам понимает, что какие-то твари сидят за столом и собираются пожирать индейку. И ну озвучивать.
Пример с гитарой вообще за гранью понимания.
Поглядите все примеры тут:
https://deepmind.google/discover/blog/generating-audio-for-video/
Играцца не дают, говорят - это мы для своей Veo-видеомодели готовим.
ИИ-Цинизм, сорри.
Помните был такой клип Sinéad O'Connor - Nothing Compares 2 U
Хотя вряд ли, зумеры вы мои, песня 1990 года, написана Принсом, кстати.
Оригинальный клип в оригинальном качестве тут:
https://www.youtube.com/watch?v=TGRG_396vUI
Но старперчики сейчас меня предадут анафеме и распнут дизлайками, ибо я сделал следующее.
Взял фотку Шинед О'Коннор, начало песни и присунул это все в Хедру.
Получил то, что получил.
Так как я еще помню мурашки от первого просмотра оригинального клипа, то мне, конечно, не заходит, у меня прошлое подгружается.
Но зумеры посмотрят, пожмут плечами и молвят "нормчо".
Не сейчас, так через полгодика.
Когда мы подучим ИИ не только попадать в губы, а поддавать эмоций. И никаких препятствий для этого нет.
P.S. Цинично получилось, я знаю, заранее прошу прощения, что задел чувства староверующих.
P.P.S. Если взять кадр из оригинального клипа, то это работает плохо, модель Хедры натренирована на портретах, у которых не отрезан лоб. Получилось очень крипово, но если навалите 84.4 реакции запощу и этот вариант.
🔥Anthropic зарелизили новую модель Claude 3.5 Sonnet - и она бьет GPT-4o!
По цене компьюта и скорости модель на уровне средней модельки Claude 3 Sonnet, но по качеству превосходит самую большую их модель Claude 3 Opus, а также бьет GPT-4o почти на всех бенчах – слегка уступает только на математике и на MMMU в ответах на вопросы по картинке.
В то же время Claude 3.5 Sonnet дешевле чем Claude Opus 3 в пять раз! И дешевле GPT-4o на инпуте ($3 против $5 за млн токенов).
Контекст: 200K Токенов.
Отдельно отмечают прогресс по Vision - 4o и тут проигрывает. Кардинальные улучшения наиболее заметны для задач, требующих визуального мышления, например, для интерпретации диаграмм и графиков. Claude 3.5 Sonnet также может более точно транскрибировать текст из шакальных изображений.
Авторы говорят, что это первый релиз из семейства 3.5, другие обещают попозже в этом году.
Модель уже доступна бесплатно на Claude.ai и в iOS приложении. А также через API: $3/млн входных токенов, $15/млн сгенерированных токенов.
Ну, и ждём рейтинга на арене, конечно.
@ai_newz
Illyasviel релизнул LayerDiffuseCLI, инструмент для генерации изображений с прозрачным фоном. Написан на чистом diffusers без интерфейса (с поддержкой командной строки), чтобы код было легче использовать в других проектах.
Несколько месяцев назад он выпустил Layered Diffusion как расширение для Forge, но не весь код. Теперь функционал прошлой версии (система слоёв, генерация по тексту/картинке) перетечёт в LayerDiffuse.
Нужно 8 ГБ VRAM.
Гитхаб
В старых совецких фильмах кино снимали без звука. Совсем.
Потом актеры и спецы по шумам садились в студию озвучки и "попадали в губы".
Щас конечно так не делают, но спрос на актеров озвучки по прежнему большой.
Или уже нет? И пора не чокаясь?
Eleven Labs выпустили Voiceover Studio
https://elevenlabs.io/app/voiceover-studio
Теперь можно озвучить вообще все, что угодно, не только голоса, но и шумы.
Еще они потихоньку переизобретают адоб премьер, но там есть интересные решения - кликать по треку, чтоб перегенерить голос или эффект.
Поглядите это видео, чтобы понять, как это выглядит.
https://x.com/elevenlabsio/status/1803453748041359809
Хедра просто отлично работает с другими языками.
И знаете, что я ожидаю дальше?
Что Sunо и Udio рано или поздно прикрутят к своим трекам вот таких вот исполнителей (Ну или Хедра прикрутит Суно к себе).
И вы такие "ИИ давай мне текстА, музику и поющие трусы! На все деньги!".
Ржоте?
А между прочим это в этом видео:
Текст: Gpt4o
Музика: Suno
Видео: Hedra
Пост: FaceFusion
Исполнитель: AI-girl
https://www.hedra.com/
Ого, часть команды Stability AI перешла в новый проект по развитию ComfyUI до масштабов вселенского интерфейса для генеративного AI.
Там автор SwarmUI - mcmonkey4eva.
В FAQ есть вопрос о создании собственных foundation models. Ответ уклончивый, но не отрицательный.
Придется разводить этот спагетти ад. И разбираться как его запустить на серваке в сети с доступом с локального компа.
Читаем тут:
https://www.comfy.org/