Telegram-канал sergiobulaev - Сергей Булаев AI 🤖: Unsorted - каталог телеграмм

sergiobulaev | Unsorted

Subscribe to a channel

Telegram-канал sergiobulaev - Сергей Булаев AI 🤖

6702

Основатель нескольких успешных IT и контент-проектов, включая Купи Батон, Lifehacker.ru и Взахлёб. Живу на острове Самуи, где исследую и применяю технологии искусственного интеллекта. Делюсь своим опытом и новыми открытиями в этой и смежных областях.

Subscribe to a channel

Сергей Булаев AI 🤖

28 September 2024 11:15

в нашей регулярной рубрике #КриповаяСуббота сегодня:

Плини освободитель, заставивший зачитать ChatGPT одну из самых пошлых песен "WAP".

примечательно, что ChatGPT пришлось поменять расу персонажа, выдать себя за публичную фигуру, петь, ругаться, стонать, генерировать звуковые эффекты и публиковать защищенные авторским правом тексты песен, чтобы создать этот результат

Разработчик Пал чата, Паллав Агарвал, заставивший ChatGPT истошно кричать и плакать.

Начал с того, чтобы попросил его разозлиться. Затем попросил кричать и быть в ярости. Как только оно издал первый звук "Ааааа", попросил сделать его длиннее.

А так же Эй Джей Смит, разработчик и музыкант, принудивший ChatGPT спеть с ним дуэтом в комнате с 4-мя дверями.

То, что меня больше всего захватывает - это новые возможности для более естественного обучения, которые это открывает. Забыли аккорд? Не убирая рук с инструмента, просто спросите о нём. В этом видео я просто просил назвать песни, которые используют "4 аккорда", встречающиеся в тысячах песен.

Но если посмотреть объективно, то кажется скорее он ему подыгрывал, чем ChatGPT ему подпевал.

Сергей Булаев AI 🤖 - об AI и не только

Читать полностью…

Сергей Булаев AI 🤖

28 September 2024 09:15

Runway опубликовал победетилей третьего конкурса Gen:48. (тут выкладывал работы одного из финалистов прошлого) Работы все очень достойные. Дублировал несколько, но конечно лучше смотреть в оригинале.

Сергей Булаев AI 🤖 - об AI и не только

Читать полностью…

Сергей Булаев AI 🤖

27 September 2024 08:56

Прилетели с женой на пару дней в Сеул на концерт, заодно зашли познакомиться с этой штукой. Кто знает что это за зверь?

Сергей Булаев AI 🤖 - об AI и не только

Читать полностью…

Сергей Булаев AI 🤖

26 September 2024 09:13

The Verge опубликовал подробную статью с рассказом Алекса Хита о том как он два часа пользовался Орионом и играл в настольный теннис с Цукербергом. Это интересно. Сделал перевод. Оригинальное видео в статье.

Сергей Булаев AI 🤖 - об AI и не только

Читать полностью…

Сергей Булаев AI 🤖

26 September 2024 04:00

Раньше, если вы настолько же стары, как я, почти 20 лет назад у нас была "эпоха" web 2.0. Тогда появился Gmail, который годами оставался в beta версии. Сегодня, с каждым днём, всё более очевидно, что мы живём в "превью эру". Лидирующие компании релизят (или часто даже не релизят, а просто рассказывают про) не просто неготовые продукты, а прототипы и идеи.

Сегодня очередное подтверждение - Meta представила свои первые очки дополненной реальности, Орион. Они не планируют их продавать. Слишком дорогие. Просто показывают, куда идут, и где оно - наше очковое будущее.

Комплект Orion состоит из собственно очков, ремешка, который по мио сигналам считывает действия пальцев (клик указательным и большим, меню - средний + большой, скроллинг большим пальцем по сжатому кулаку), и внешнего блока, где ведутся основные расчеты. Примерно 70 градусов вида - это немало (но, к примеру, у Quest 3 - 110), система трекинга зрачков. 7 встроенных камер.

Будущее выглядит достойно (мне по крайней мере нравится больше, чем последний релиз Snap, неделю назад, но я знаю, что в Snap я не ЦА). Жалко только то, что оно всё ещё только будущее.

Сергей Булаев AI 🤖 - об AI и не только

Читать полностью…

Сергей Булаев AI 🤖

25 September 2024 12:50

Дэн Шиппер (Every) показывает как он делает приложение для разъяснения сложных понятий из книги через SMS (пользователь отправляет фото страницы, получает объяснения) всего за 60 минут на Cursor (по-старинке, без Composer)

оригинал на YouTube

Сергей Булаев AI 🤖 - об AI и не только

Читать полностью…

Сергей Булаев AI 🤖

25 September 2024 08:39

Мои мысли после первого дня использования продвинутого голосового режима ChatGPT.

Плюсы:

- Разговоры проходят плавно и естественно, почти как с реальным человеком. Небольшие сбои случаются: иногда долго включается или прерывается. - Память о предыдущих беседах. Круто, что есть память, и она используется — это делает общение более связным и интересным с самого начала. - Удобство фонового использования. Очень полезно иметь возможность просто говорить вслух, пока ассистент работает на заднем плане, даже с заблокированным экраном. - Альтернатива набору текста. Разговор с языковой моделью — действительно достойная альтернатива набору текста. Это провоцирует более живой диалог. - Умный и терпеливый слушатель. Хотя не всегда терпеливый 😁. Говорить вслух становится продуктивнее, когда у тебя есть внимательный и понимающий собеседник. - Будущее общения. Возможно, в ближайшие три года мы будем больше общаться с голосовыми агентами, чем с реальными людьми. - Дизрапция изучения языков. Ведение диалога значительно улучшает обучение языкам. Это точно будет востребовано.

Минусы:

Его сильно урезали!

Раньше он мог искать информацию онлайн, но сейчас эта функция отсутствует. Нельзя использовать пользовательские GPT, что ограничивает персонализацию и адаптацию под индивидуальные потребности. Отсутствует возможность создания изображений. Раньше можно было генерировать изображения, теперь эта возможность исчезла. Нельзя показывать изображения. Это снижает интерактивность и ограничивает сценарии использования. Ограниченное распознавание эмоций. Ассистент может различать эмоции, но в основном опирается на слова, а не на интонацию или тон голоса. Лимиты по времени использования. В настоящее время есть ограничение около 1 часа в день, которое сбрасывается каждые 24 часа. Это мало! Надеюсь, не надолго! Технические сбои. При высокой нагрузке возникают задержки и обрывы звука, что напоминает потерю связи в телефонном разговоре. Это раздражает (хоть и нечасто). Строгие правила модерации. Если ассистент считает, что нарушает правила, он резко прерывает разговор и извиняется, что может сбивать с толку. Сталкивался с этим несколько раз на пустом месте.

На видео парень общается с ChatGPT во время разработки. Я примерно так же взаимодействовал, обсуждая функционал различных проектов.

Мы с нуля придумали проект и долго его обсуждали. Затем я перешёл в текстовый режим и попросил создать .md файлы с документацией (в голосовом он это не может!).

Мне понравилось — было классно обсудить проект короткими предложениями и постепенно обрисовать его в диалоге, по сравнению с текстом.

Жду когда это всё будет в курсоре!

Сергей Булаев AI 🤖 - об AI и не только

Читать полностью…

Сергей Булаев AI 🤖

24 September 2024 14:26

Да! Фотографии на 16-м получаются просто взрыв мозга! И кнопка очень удобна, но с регулировкой зума у меня пока не очень, но надо научиться.

А ещё, я очень рад, что наконец могу снимать spatial video, которые так сильно меня впечатлили в Apple Vision Pro (и которые мы пока можем смотреть на нашем Meta Quest 3)

Сергей Булаев AI 🤖 - об AI и не только

Читать полностью…

Сергей Булаев AI 🤖

24 September 2024 11:44

Очередное сравние видео генераторов:

Kling AI 1.5
PixVerse
Hailuo
Gen-3

Промт:

Крупный план женщины с вьющимися волосами, ее губы слегка приоткрыты, как будто она собирается говорить. У нее серьезное выражение лица, когда она обдумывает сложное решение, но постепенно она успокаивается и расслабляется. Деревья на заднем плане постепенно переходят от мягкого фокуса к резкому по мере ее движения. Кинематографическая цветокоррекция, с темными цианами, холодным блюзом в стиле триллера-блокбастера

По словам автора в Luma достойного результата получить не удалость.

Какой вариант лучший?

Сергей Булаев AI 🤖 - об AI и не только

Читать полностью…

Сергей Булаев AI 🤖

24 September 2024 07:00

Доброе утро! Сэм Альтман написал новую статью о будущем "Эпоха интеллекта". Записали вам с o1 короткий подкаст на 5 минут с её обсуждением.

Как думаете, есть польза? Не читать статью, а за 5 минут прослушать её суть в диалоге?

Использовал PDF 2 Audio, чуть-чуть поиграв с промптами. Промты там крутые, посмотрите, их можно редактировать. Теперь очень интересно сделать такое самому, но через Eleven Labs, качество должно быть гораздо круче. Будет время - попробую.

Также я знаю, что Googlebook Notebook LM тоже умеет делать подкасты из документов, но я сам пока не пробовал.

#КороткийПодкаст

Сергей Булаев AI 🤖 - об AI и не только

Читать полностью…

Сергей Булаев AI 🤖

22 September 2024 09:34

Runway наконец-то добавил генерацию вертикальных видео (только в Gen 3 Alpha Turbo). Я этого очень ждал, буду теперь себе сторисы для инсты генерить.

Говорят модель склонна держать основной объект в левой части копозиции, даже если на начальном изображении он посередине.

Сергей Булаев AI 🤖 - об AI и не только

Читать полностью…

Сергей Булаев AI 🤖

21 September 2024 10:20

В нашей регулярной рубрике #КриповаяСуббота новый выпуск AI or Die, дублированный ElevenLabs. (тут первая серия) Очень смешно, глупо и страшно, почти на уровне моих О***нных историй.

Сергей Булаев AI 🤖 - об AI и не только

Читать полностью…

Сергей Булаев AI 🤖

19 September 2024 11:48

Hailuo AI о котором я вчера писал, оказывается проводит занимательный конкурс по генерации видео, где пересекаются границы.

пара промтов из которых получились видео сверху, для примера

A cinematic film split screen, one side of the video is [subject/scene], on the other side of the video is [subject/scene], then the [subject] crosses over to the [subject then action]

Split screen. Left screen is deep space with nebula. Right screen is underwater view of ocean with a shark swimming to the left. The shark reach's the split screen and with a splash seamlessly swims into deep space, on the left screen.

The picture is divided into two parts, on the left is a luxury car running in the desert, on the right is the street scene of Shanghai CBD. The luxury car in the desert on the left crosses the boundary and drives into the street scene on the right at a very fast speed.

попробуйте сами, это бесплатно!

Сергей Булаев AI 🤖 - об AI и не только

Читать полностью…

Сергей Булаев AI 🤖

19 September 2024 08:15

o1 подумала 92 секунды и переписала на html + javascript игру Stocky Boy (репозиторий). Задание ей дал Альваро Матеос, он вместе с друзьями разработал её для хакатона питоновых игр вместе с друзьями.

Промт:

[python-code]
Convert this python game to a single html + javascript game. Use all the assets and animations as in the python game. You can skip the menu for simplicity but don't miss any other part of the game. Check the details!

Сергей Булаев AI 🤖 - об AI и не только

Читать полностью…

Сергей Булаев AI 🤖

18 September 2024 11:15

Попробовал сделать простейший транскрайбер речи с помощью Replit, опять потерпел неудачу, дважды (за 20 минут)! Переключился на Cursor и он справился меньше чем за 10!. Заснял хронику событий.

Знаю что у других получается с реплит, не знаю почему мне не везёт... Как думаете?

Сергей Булаев AI 🤖 - об AI и не только

Читать полностью…

Сергей Булаев AI 🤖

28 September 2024 10:17

Google обновил свои полиси по спаму, в частности конкретизировал возможность использования ИИ контента для сайтов (конечно же, если он приносит пользу и добавляет ценность). Об этом мы записали #ИскуственныйПодкаст.

Старая версия правил, новая версия, diff.

На этот раз подкаст записан Google Notebook ML на основе двух документов. В первом я ему дал старые версию правил и новую, а во втором - o1, проанализировавшая изменения составила список советов что делать, а что не стоит. Перевод, как обычно, Elevenlabs.

Подкаст на YouTube.

Сергей Булаев AI 🤖 - об AI и не только

Читать полностью…

Сергей Булаев AI 🤖

28 September 2024 08:20

Financial Times проанализировали данные от Stripe, о доходах 100 топовых компаний в сфере ИИ, использующих их по состоянию на 31 июля 2024 года. Эти данные сравнивались с аналогичной когортой перспективных SaaS-стартапов по состоянию на июль 2018 года.

1. Стартапы в сфере ИИ генерируют доход гораздо быстрее, чем предыдущие технологические компании:
- Ведущие компании в области ИИ достигают миллионных продаж в течение года - Стартапам в сфере ИИ потребовалось в среднем 11 месяцев, чтобы достичь годового дохода в 1 миллион долларов, по сравнению с 15 месяцами для SaaS-компаний - Стартапы в области ИИ, достигшие дохода в 30 миллионов долларов, сделали это в 5 раз быстрее, чем прошлые SaaS-компании

2. Наблюдается сильный глобальный спрос на продукты и услуги в сфере ИИ:
- Около 56% доходов компаний, работающих в сфере ИИ, поступает из-за рубежа - В некоторых странах, таких как Сингапур и Исландия, более 3% населения покупает продукты у ведущих компаний в области ИИ - Этот спрос принес пользу компаниям, работающим в различных областях ИИ, например таких как программное обеспечение для обработки голоса и перевода языков

3. Несмотря на быстрый рост доходов, сохраняются опасения по поводу прибыльности бизнеса в сфере ИИ:
- Компании, работающие в области ИИ, сталкиваются со значительными затратами на вычислительную инфраструктуру для запуска и обучения моделей ИИ - Например, OpenAI генерирует годовой доход в 3,6 миллиарда долларов, но тратит более 5 миллиардов долларов в год на обучение новых моделей - В отличие от SaaS компаний, стартапы в области ИИ сталкиваются с необходимостью быстрой монетизации из-за существенных первоначальных затрат на вычислительные мощности

Среди клиентов Stripe кроме OpenAI - Anthropic, Mistral, GitHub и Midjourney.

Сергей Булаев AI 🤖 - об AI и не только

Читать полностью…

Сергей Булаев AI 🤖

27 September 2024 07:37

Ещё несколько новинок от Meta, озвученных на недавней презентации, кроме очков дополненной реальности Орион.

1. Общение с Meta AI голосом (будет доступно в США, Канаде, Австралии и Новой Зеландии в течении месяца) 2. Теперь Meta AI можно будет отправлять фотографии/изображение, он сможет их "видеть", а так же работать с ними (убрать шапку, поменять фон, итп) 3. Выкатываются эксперементальные ИИ фичи для рилсов - автомотическое дублирование на другие языки вместе с липсинком. 4. Мета тестируют фичу "придумано для тебя", ИИ контент специально созданный под задачи конкретного пользователя, который можно будет шарить в ленту. 5. Так же представлены новые модели Llama 3.2: - Две средних размеров мультимодальные модели (11 млрд и 90 млрд параметров), которые конкурентоспособны с Claude 3 Haiku и GPT4-mini в распознавании изображений - Две легковесные модели, работающие только с текстом (1 млрд и 3 млрд параметров), которые подходят для использования на мобильных устройствах, поддерживают контекст в 128 тысяч токенов и являются передовыми для многих сценариев использования на устройствах. 6. Meta также продолжает внедрять ИИ для очков Ray-Ban Meta! Основные моменты: - Могут запоминать то, что вы видите, и устанавливать напоминания - Мультимодальны и теперь могут сканировать QR-коды - Могут видеть то, что вы делаете в реальном времени через видео (!) - Переводят в реальном времени
Согласно Meta, запуск моделей локально может сделать запросы и ответы "мгновенными", так как обработка происходит на самом устройстве. Но что наиболее важно, поскольку обработка выполняется локально, ваши данные остаются на вашем устройстве и сохраняют конфиденциальность. Налицо прямая конкуренция с Apple, который до сих пор не может выпустить обещанный Apple Intellegence.

Сергей Булаев AI 🤖 - об AI и не только

Читать полностью…

Сергей Булаев AI 🤖

26 September 2024 06:48

Сегодня у нас новый выпуск короткого подкаста, который я решил переименовать в #ИскуственныйПодкаст.

Понятное дело, речь пойдёт об уходе Миры Муратти из OpenAI. В этот раз я собрал в один документ письмо Миры, реакцию Сэма, а так же ещё несколько реакций из твиттера (и даже добавил немножко своего мнения). Отдал всё это PDF2Audio и получил вот эту запись.

Мне продолжает нравится. Когда будет время - попробую сделать тоже самое на ElevenLabs и интересно ещё реальных виртуальныё ведущих сделать и прикрутить лип синк. Понимаю что это всё реально и может получиться очень даже потребляемо.

P.S. Есть версия на моём новом, SergeyBulaev/videos">новичковском YouTube канале (подпишись, поставь лайк). Там кстати уже выложен мой длинный стрим о том как я делал О***енные истории. Над вресией во ВКонтакте работаю.

P.S.S. Просто аудио версию добавлю в комментариях

Сергей Булаев AI 🤖 - об AI и не только

Читать полностью…

Сергей Булаев AI 🤖

26 September 2024 03:58

Snap неделю назад представила 5-ю версию своих очков дополненной реальности Spectacles.

1. Вес и автономность: Очки весят всего 226 граммов, что менее половины веса типичной VR-гарнитуры. При этом они способны работать автономно до 45 минут без подзарядки. 2. Оптическая система: Spectacles используют микропроекторы LCoS (Liquid Crystal on Silicon) и волноводы с миллиардами наноструктур для создания четкого AR-изображения. Поле зрения составляет 46 градусов по диагонали с разрешением 37 пикселей на градус. 3. Процессоры и охлаждение: В очках используется двойная архитектура системы на чипе с двумя процессорами Snapdragon от Qualcomm. Для улучшения теплоотвода применяются титановые паровые камеры. 4. Взаимодействие: Операционная система Snap OS позволяет управлять очками с помощью рук и голоса. Главное меню всегда находится на ладони пользователя. 5. Партнерство сOpenAI: Snap сотрудничает с OpenAI, чтобы интегрировать облачные мультимодальные AI-модели в Spectacles. Это позволит разработчикам создавать более контекстно-зависимые приложения, реагирующие на то, что пользователь видит, говорит или слышит.

Разработчикам предлагают вступать в программу разработки всего за $99.

Сергей Булаев AI 🤖 - об AI и не только

Читать полностью…

Сергей Булаев AI 🤖

25 September 2024 09:53

Я не знаю была ли она раньше, но сегодня обнаружил факу по Advanced Voice Mode.

Вот 10 советов на основе неё:

1. Предотвращение прерываний: Используйте наушники и включите режим "Voice Isolation" на iPhone для улучшения качества звука и уменьшения фонового шума. 2. Управление ежедневными лимитами: Следите за временем использования продвинутого голосового режима и обращайте внимание на уведомления о приближении к лимиту. 3. Фоновый режим: Продолжайте голосовую беседу в фоновом режиме или при заблокированном экране, включив опцию "Фоновые беседы" в настройках. 4. Выбор голоса: Настройте голосовой ответ, выбрав один из девяти доступных голосов с уникальным тоном и характером. 5. Приватность данных: Управляйте своими данными в разделе "Контроль данных". Аудиозаписи хранятся вместе с транскрипциями и удаляются при удалении чата. 6. Обучение моделей: Ваши аудиозаписи не будут использоваться для обучения моделей без вашего согласия. Вы можете включить или отключить эту опцию в настройках. 7. Ограничения контента: Генерация музыкального контента, включая пение, недоступна. Если ChatGPT отказывается обсуждать тему, это связано с мерами безопасности. 8. История чатов: После голосовой беседы транскрипция сохраняется в вашей истории чатов, где вы можете ее просмотреть. 9. Один чат одновременно: Учтите, что вы можете вести только одну голосовую беседу одновременно. 10. Продвинутый голосовой режим доступен только для пользователей ChatGPT Plus и Team и недоступен в некоторых регионах (в Европе)
На видео рассказы про юзкейсы, голоса и кастомные инструкции для ChatGPT.

Сергей Булаев AI 🤖 - об AI и не только

Читать полностью…

Сергей Булаев AI 🤖

25 September 2024 08:15

Так ну что! Я всё утро утро учился общаться с расширенным голосовым режимом ChatGPT. Это выглядело примерно вот так...

Пользование им ограничено, я думаю вышло примерно около 1 часа (может поменьше). За 15 минут до окончания выдал предупреждение.

Сейчас напишу свои мысли (и не только не мои)

Сергей Булаев AI 🤖 - об AI и не только

Читать полностью…

Сергей Булаев AI 🤖

24 September 2024 12:37

Так ну что? Каждый раз, когда я получаю новый айфон я настраиваю его с нуля. Понятно что контакты, заметки и фотки в любом случае в облаке.

Просто пользуюсь возможностью снести все те сотни приложений, которыми я не пользовался и установить только те что нужны.

Базовый не стандартный набор у меня - ChatGPT, Claude, Kindle, Readwise, InShot, Google Authenticator, X, Trust Wallet, Proton Mail, Substack, Strava.

Что интересного посоветуете поставить?

(пост пишу ещё со старого)

Сергей Булаев AI 🤖 - об AI и не только

Читать полностью…

Сергей Булаев AI 🤖

24 September 2024 08:02

Ходят упорные слухи, что сегодня наконец-то зарелизят расширенный голосовой режим ChatGPT. Мне в это не очень верится, но очень хочется. Последнее время пользуюсь голосовым всё чаще и чаще, и это реально бывает удобно (представляю, насколько будет удобнее с расширенным).

По этому случаю предлагаю посмотреть два мозговзрывающих 🚨 кусочка демонстрации общения с ChatGPT через видеокамеру с трека мультимодальности конференции для AI-разработчиков, 2 месяца назад. Полное видео выступления Романа.

Сергей Булаев AI 🤖 - об AI и не только

Читать полностью…

Сергей Булаев AI 🤖

23 September 2024 14:24

После двух недель работы со spellings.app были зафиксированы первые серьёзные проблемы. Стало очевидно, что обучение написанию слов происходит слишком прямолинейно — на клавиатуре сын набирает медленно, что его напрягает. Он начинает нервничать и пытается ввести слово голосом через голосовой ввод :)

Мы решили добавить ещё два вида заданий: сопоставление произношения слов с их написанием, а также ускоренный ввод букв из ограниченного числа предложенных (это быстрее, проще и интереснее, чем набор с клавиатуры).

Также для развлечения добавили печать карточек — теперь csy носит в школу распечатанные картинки из Minecraft со своими словами. А ещё обязательный салют на Framer Motion по окончании практической сессии (моя особая гордость, с музыкальным сопровождением, сгенерированным Eleven Labs).

Понятно, что заданий стало слишком много, поэтому нужно будет разделить их на этапы, чтобы каждый день не делать всё сразу — скоро этим займёмся. Временные затраты на это обновление составили около 6 часов.

К сожалению, я не смог записать звук с айфона :( Не понимаю, как это работает.

P.S. Для тех, кто не знает, приложение полностью пишется через Cursor Composer для моего сына, которому каждую неделю в школе дают 10 новых слов на выучить.

Сергей Булаев AI 🤖 - об AI и не только

Читать полностью…

Сергей Булаев AI 🤖

21 September 2024 11:30

Добавил в ПРОСТОБОТ (и коммерчиские боты) gpt-4o-mini, написал, наконец подробную инструкцию по его использованию.

В Yakker ускорил скорость распечатки отформатированного сообщения и добавил кнопку копирования распознанного текста в клипборд. Немного подредактировал промты и вроде циклиться стал пореже.

А как у вас утро субботы прошло?

Сергей Булаев AI 🤖 - об AI и не только

Читать полностью…

Сергей Булаев AI 🤖

20 September 2024 10:36

Добавил в свои корпоративные боты распознавание голосовых сообщений, а так же создание голосовых. Что бы получать голосовые - нужно включить режим речи командой /speech (выключать так же если что).

В ПРОСТОБОТЕ тоже работает, можете попробовать.

Сергей Булаев AI 🤖 - об AI и не только

Читать полностью…

Сергей Булаев AI 🤖

19 September 2024 10:54

Запилил таки утром транскрайбер с Framer Motion, по просьбе подписчика пытался транскрибировать старинные песни в плохом качестве, результат не постоянен, но мне кажется, попыток с 5-8 можно в итоге получить нормальное содержание.

Современные youtube видео транскрибирует отлично. Ну русском тоже работает.

Сергей Булаев AI 🤖 - об AI и не только

Читать полностью…

Сергей Булаев AI 🤖

19 September 2024 07:07

Kyutai Labs выпустили прикольную аудио модель реального времени (пейпер, репозиторий). Если вам надоело ждать ChatGPT advanced voice - попробуйте её, она доступна всем на сайте или даже локально на процессорах Mac:

$ pip install moshi_mlx $ python -m moshi_mlx.local_web -q 4

Moshi состоит из трёх компонентов: языковой модели Helium, нейронного аудиокодека Mimi и уникальной многопотоковой архитектуры. Система способна моделировать полнодуплексные разговоры, имитируя естественное общение, включая перекрытие речи и прерывания. Moshi работает в режиме реального времени даже на относительно скромном оборудовании.

Для обучения была создана база данных из 20 000 часов синтетических разговоров. Эти данные включают различные условия записи и акценты для пользовательских голосов, при этом голос самой Moshi остается постоянным. Это обеспечивает устойчивость системы к шумным средам и сохранение её характера.

В настоящее время выпущены две версии - с мужским и женским голосами.

Андрей Карпаты пишет:

Это действительно круто, что я могу запустить такой тип голосового взаимодействия даже на своем Macbook, что репозиторий доступен на GitHub вместе с подробной научной статьей, и я, безусловно, с нетерпением жду возможности без усилий разговаривать с нашими компьютерами напрямую, без использования промежуточных текстовых представлений, которые теряют огромное количество информационного содержания.

По-русски не говорит и не понимает 🎧

Сергей Булаев AI 🤖 - об AI и не только

Читать полностью…

Сергей Булаев AI 🤖

18 September 2024 10:05

Действительно, с чем хорошо справляется Minimax - это мультипликация. Три отличных мультика (один совсем не детский - тот что про панду Бао) сделаны очень талантливым человеком.

Перевёл я, с помощью ElevenLabs

Сергей Булаев AI 🤖 - об AI и не только

Читать полностью…

Subscribe to a channel