ai_newz | Unsorted

Telegram-канал ai_newz - эйай ньюз

93139

Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением. В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии. Aвтор: @asanakoy PR: @ssnowysnow

Subscribe to a channel

эйай ньюз

Хочу рассказать про моих друзей беларусов из стартапа GRAI

Ребята строят AI music lab и хотят сделать так, чтобы пользователи могли экспериментировать с музыкальными треками внутри приложения, например создавать ремиксы или изменять стиль мелодий. Тема интересная, так как до сих пор нет нормального социального приложения, где бы можно было угарать и креативить на базе существующих треков. В отличие от того же Suno, в GRAI заключают соглашения с музыкантами и лейблами, чтобы на легальной основе можно было делать ремиксы и не нарваться на нарушение авторских прав.

Так вот, GRAI недавно зарейзили $9M seed раунд (топ!) и сейчас хайрят Senior ML Engineer (RecSys для музыки) и Research Engineer (тренить аудио-модели), желательно с опытом в аудио генеративных моделях.

Ребята базируются в Варшаве, но готовы рассмотреть и remote. Один из фаундеров, Илья, уже делал exit - продал Vochi в Pinterest 4 года назад, что очень круто и говорит о том, что контора серьезная. Так что рекомендую!

Ну, а матерых спецов в Visual Gen AI милости просим закинуть заявку к нам в GenPeach AI 🙂

@ai_newz

Читать полностью…

эйай ньюз

Эвалы здорового человека

Все мы знаем этот классический флоу разработки LLM-фич — "потыкал промпт, вроде работает", и радостно катим всё это дело в прод. Чтобы уйти от хаотичного тестирования к нормальным предсказуемым системам, ребята из Школы Высшей Математики проводят вебинар про простые подходы к системному улучшению AI-продуктов.

Контент выглядит как мастхэв для ML-инженеров и разработчиков. Продакты смогут наконец-то оцифровать фидбэк юзеров и превратить продуктовые гипотезы в измеримые метрики для оценки экономической эффективности фич, а техлиды поймут, как грамотно выстроить процессы вокруг всей этой AI-разработки в команде.

На стриме обещают не просто сухую методологию измерения качества ответов языковых моделей. Будет полноценное live-демо всего цикла оценки продукта в реальном времени от сбора сырых логов до настройки автоматизированных систем. Заодно разберут production-стек инструментов и дадут готовый фреймворк, который можно сразу забрать внедрять в свои коммерческие или пет-проекты.

Вещать будут весьма компетентные люди — Андрей Киселев, Head of Product в AI-компании с бэкграундом из Revolut и Яндекса, и Федор Азаров, руководящий направлением по исследованию данных в Sber CIB.

Старт 28 мая 2026 года в 19:30 по мск.

Канал ШВМ
Регистрация на вебинар

#промо

Читать полностью…

эйай ньюз

Вышла Gemini 3.5 Flash

Она заметно сильнее чем Gemini 3.1 Pro, но цены за токены выросли в 3 раза, с $0.5/$3 до $1.5/$9 за миллион токенов. 3.1 Pro, для сравнения, стоит $2/$12 за миллион токенов для контекстов меньше 200к. Насколько реально выросла стоимость за задачу по сравнению с прошлой Flash мы узнаем только с тестами.

Самое главное — Google серьёзно отнёсся к проблемам в агентности и особенно прокачал модель в этом. Как пример показали как Gemini 3.5 Flash написала за 12 часов небольшую ОС, которая может запустить Doom. Pro модель существует, её обещают завезти в следующем месяце, страшно какие там заломят цены.

@ai_newz

Читать полностью…

эйай ньюз

Mythos за месяц нашёл больше уязвимостей в Firefox чем разработчики нашли за полтора года

Причём из 271 найденной моделью уязвимости были баги позволяющие выход из песочницы, которые в комбинации с прочими багами могли бы позволить заражение от простого перехода по ссылке. Анонс Anthropic подтвердился, кибербезопасность изменилась навсегда.

Блогпост

@ai_newz

Читать полностью…

эйай ньюз

Помните вы переживали что ваше резюме сделанное с LLM, может не пройти какой-то отбор в HR-системе в месте куда откликаетесь? Можете больше не переживать, всё наоборот

Ресечры изучили сценарий: кандидат пишет резюме с помощью LLM, а компания потом скринит это резюме, тоже через LLM – то есть робот пишет, робот читает, человек где-то в углу пьёт кофе и надеется, что наймут адеквата

В статье два вывода:

1. Резюме, переписанные LLM, чаще проходят автоматический отбор (☕️)

В симуляциях кандидаты, которые использовали тот же LLM, что и система-оценщик, оказывались в шортлисте заметно чаще, чем такие же по содержанию кандидаты с резюме сделанными врукопашную – примерно на 20-60% чаще

2. Сам скоринг оказался байасным. Модель не просто делает вывод в стиле: “о, тут лучше написано”, она, похоже, может узнавать свой стиль и предпочитать тексты, похожие на её собственные – авторы называют это self-preference bias: модель склонна любить контент, который сама же могла бы написать, маленький цифровой нарциссизм

То есть страх “меня не пригласят на собес, потому что резюме написано с АИ” может быть не главным. Главный риск другой: вас могут НЕ позвать именно потому, что резюме не звучит как родной диалект модели-оценщика

Раньше люди подстраивали CV под рекрутера, теперь нужно подстраивать под модель ☺️

Читать полностью…

эйай ньюз

Взлом SynthID или как не спалить свои генерации

Тут хваленый SynthID от Google пал жертвой простого реверс-инжиниринга. Напомню, что это лишь хитрый слой структурированного шума. Глаз его не видит, а сжатие не убивает, но на чисто белом или черном фоне этот фильтр палится мгновенно.

Так вот, умелец смог вытащить шаблон шума, прогнав через Nano Banana Pro абсолютно черные и белые фоны, а затем спектральным анализом сняв координаты частот и упаковав их в словарь. Тулза стирает вотермарку с хирургической точностью — ломает 90 процентов защиты и выдает 43 dB PSNR, то есть визуально качество вообще не страдает. Единственный нюанс в том, что несущие частоты меняются вместе с разрешением картинки, поэтому сейчас разработчик призывает комьюнити кидать пулл-реквесты и пополнять базу словаря.

Кажется, любые потуги корпораций скрыто пометить свой контент всё ещё сносятся опенсорсным скриптом на питоне в два счета.

GitHub

@ai_newz

Читать полностью…

эйай ньюз

И тут очень вовремя OpenAI закрывают Sora

Нейротикток OpenAI в итоге не взлетел и не имел особых перспектив монетизации, так что компания решила сконцентироваться на более денежных направлениях.

@ai_newz

Читать полностью…

эйай ньюз

Байка про немецкое PhD. На днях наш бывший интерн из Меты написал мне с просьбой подписаь документ, нужный для PhD защиты. Я помогал Феликсу с CVPR статьей в 2023 году - давал веса наших моделей Emu, передал ему свой код для дистиляции, обсуждал эксперименты и помогал шлифануть текст в последнюю ночь перед дедлайном.

Дело в том, что в некоторых универах Германии (у меня такого не было), чтобы тебе разрешили вставить публикацию с интерншипа в PhD диссертацию, нужно чтобы все соавторы подписали документ, подтверждающий, что ты 80% работы сделал сам как первый автор. Теперь ему нужно достучаться до всех 13 авторов :)

Кстати, разбор этой статьи Cache me if you can я писал тут.

#personal
@ai_newz

Читать полностью…

эйай ньюз

Похоже Composer 2 — это украденная Kimi 2.5

Сразу после выхода Composer 2 пользователи заметили что модель на эндпоинте называется kimi-k2p5-rl-0317-s515-fast, а чуть позже пошли (ныне удалённые) шокированные твиты от команды Kimi. Ходили слухи что оригинальный Composer тоже был основан на китайской модели — GLM 4.6, так что прецедент такого "ребрендинга" есть, но там ситуация отличается.

Дело в лицензии — если GLM лицензирована по MIT, то у Kimi 2.5 лицензия более сложная — подобные к лицензии MIT права она даёт только до 100 миллионов пользователей продукта или 20 миллионов выручки в месяц. То есть тюн GLM не нарушал лицензию оригинальных весов, а тюн Kimi — нарушает.

Ситуацию обостряет конфликт Anthropic с авторами Kimi — компания обвиняет Moonshot в использовании более чем 3.4 миллионов запросов для дистилляции. Возможно руководство Cursor решило, что из-за собственных проблем с данными, Moonshot не отважится подать на них в суд и им за это ничего не будет.

Достаём попкорн и наблюдаем за ситуацией

@ai_newz

Читать полностью…

эйай ньюз

Партнеры Nvidia открыли предзаказы на DGX Station

Это десктопная машинка с одной GB300 на 748 гигов оперативки внутри (треть из этого HBM 3E, остальное LPDDR5X). Цены только по запросу (читай заоблачные).

@ai_newz

Читать полностью…

эйай ньюз

Вышла Gemini 3.1 Flash Lite

Модель лучшая в своём классе как по бенчам (обгоняет 2.5 Flash), так и по скорости — может выдавать под 400 токенов в секунду. Длина контекст — миллион токенов, модель понимает изображения и аудио. По сравнению с прошлой версией в несколько раз подняли цену за токен, но взамен модель стала сильно менее разговорчивой, так что реальная цена использования практически не выросла, в отличие от более крупной Gemini 3 Flash.

@ai_newz

Читать полностью…

эйай ньюз

Напоминаю, что в среду я буду участвовать в панелке на онлайн-конфе AI Hard Fork.

Стрим с нашей дискуссией будет в эту среду, 25 февраля в 18:55 CET.

Подключайтесь, если хотите послушать про то, как AI тулы используются в разных командах: ресерче (в нашей команде, в GenPeach.ai например), инжиниринге, классической разработке и стартапах.

Напишите в комментариях, что вам было бы интересно услышать про работу в современной AI ресерч организации. Постараюсь ответить на стриме.

Участие бесплатное при подписке на каналы участников.

Зарегайтесть тут, чтобы попасть на ивент

@ai_newz

Читать полностью…

эйай ньюз

Играемся с роборурокой. Пока она умеет только одно - переносить предметы 🖐

Эта рука стояла без дела несколько лет, так что даже суставы затекли. Писать инструкции руками довольно геморройно, а вот с клод кодом это стало гораздо веселее, когда чуть ли не голосом можно управлять любыми железками.

Жаль только, что эта версия разговаривать не умеет.

UPD: через пару минут такого теста робот взбунтовался и выбил пробки в квартире 💥

@ai_newz #personal

Читать полностью…

эйай ньюз

Вышла GLM 5

У нас новая лучшая открытая модель, по крайней мере по бенчам. С проприетарными тягается неплохо, но с Opus 4.6 и GPT 5.3 Codex почему-то не сравнивают, хотя за неделю после релиза тесты можно было прогнать. Веса доступны по лицензии MIT.

Архитектура похожа на DeepSeek V3.2 — тоже используют DSA и multi-token prediction. Модель в 2 раза больше предыдущей модели компании — 744 миллиарда параметров (против 355), из которых 40B — активных. А вот датасет почти не вырос — 28.5 триллионов токенов, против 23 у GLM 4.5. Основной упор всё-таки идёт на RL, но про него-то как раз не говорят (надеюсь в техрепорте будет больше инфы).

Ложка дёгтя — модель использует заметно больше ресурсов чем основной конкурент, Kimi K2.5. У GLM 5 на 25% больше активных параметров и используется в 2+ раза больше памяти на веса из-за использования bf16, что делает модель ещё и медленнее. В результате модель на 30% дороже, судя по тестам Artificial Analysis.

Zhipu жалуются на отсутствие компьюта, похоже из-за этого GLM 5 работает на железе чуть ли не всех китайских производителей чипов для ИИ — Huawei Ascend, Moore Threads, Cambricon, Kunlun Chip, MetaX, Enflame и Hygon (я о половине даже не слышал). Из-за проблем с компьютом, доступ по подписке открыли пока только подписчикам уровня Max, но обещают докинуть остальным в ближайшее время.

Там ещё MiniMax M2.5 втихую дропнулся, но пока нет анонса и весов

Веса
Блогпост

@ai_newz

Читать полностью…

эйай ньюз

Вышла Kimi K2.5

Главная новая фича — рои агентов, модель натренировали делегировать подзадачи другим инстансам самой себя. Она может использовать одновременно до сотни субагентов, но, к сожалению (или к счастью), субагенты вроде не могут спавнить других субагентов. Мне кажется это скоро поправят и мы увидим сложнейшие оргчарты для выполнения простейших задач. Кроме более высокого качества выполнения задач, Agent Swarm выполняет задачи вплоть до 4.5 раз быстрее.

Кроме этого модель теперь понимает изображения, что особенно прокачало её в задачах разработки фронтенда. Ну и бенчмарки тоже выросли, примерно до уровня текущих SOTA моделей, но тестить как всегда нужно самим.

Как и K2 Thinking, веса модели распространяется в int4, что делает инференс триллиона параметров чуть менее болезненным, особенно на фоне заоблачных цен на оперативку.

Вместе с релизом модели, Kimi опенсорснули свой vendor verifier — тест для замера качества инференса модели у разных провайдеров. Такие тесты качества инференса критически важны как для дебаггинга, так и для выявления нечистых на руку провайдеров.

Также компания выпустила и заопенсорсила собственного CLI кодинг агента, с немудрённым названием Kimi Code. Он доступен как и по подписке (от $20 в месяц), так и с прямой оплатой API.

Блогпост
Веса

@ai_newz

Читать полностью…

эйай ньюз

Вышел Claude Opus 4.8

Модель стала заметно умнее на токен, новый low иногда обгоняет старый max. Количество токенов используемое на каждом уровне усилий увеличилось, но вместе с этим увеличили и лимиты в Claude Code.

Самое главное для меня — модель стала заметно честнее. Она меньше срезает углы, реже игнорирует проблемы и чаще будет признавать что она что-то не знает.

Цена за токен в обычном режиме осталась такой же, а fast режим сделали в три раза дешевле. А ещё обещают релиз Mythos через несколько недель.

Блогпост

@ai_newz

Читать полностью…

эйай ньюз

Mira — AI-агент в Telegram

Хорошая альтернатива OpenClaw, которая работает из коробки. Под капотом — саб-агенты, поддержка 1000+ MCP-серверов и работа в групповых чатах.

Через Mira можно автоматизировать кучу всего:
– Ремайндеры и автономные задачи;
– Трейдинг и мониторинг рынков;
– Кастомных AI-ботов;
– Генерацию и автопостинг контента;
– Связки с Gmail, Calendar, Notion, GitHub и другим стеком.

Без настройки серверов, API и сложного сетапа.

#промо

Читать полностью…

эйай ньюз

Cursor выпустили Composer 2.5

За два месяца модель заметно прокачали по бенчам, используя ту же базу K2.5. Количество синтетических тасков на которых тренировали модель увеличили в 25 раз. Это первая модель Cursor натренированная на датацентрах SpaceXAI, они уже совместно тренируют заметно большую модель, используя в 10 раз больше компьюта. Скорее всего от результатов этой модели и будет зависить приобретёт ли SpaceX Cursor или нет.

С выходом новой модели удвоили стоимость fast mode, который включен по дефолту, теперь он стоит $3/$15 за миллион токенов, что равно стоимости Sonnet. Цена обычного режима не изменилась — $0.5/$2.5.

Блогпост

@ai_newz

Читать полностью…

эйай ньюз

OpenAI обновили GPT Instant до версии 5.5

Модель теперь умнее, меньше галлюцинирует и при этом выдаёт заметно более короткие ответы. Кроме этого обновили интерфейс памяти в ChatGPT — будут показывать на основе каких воспоминаний моделька ответила. Новую модель уже раскатывают на всех пользователей ChatGPT,

А вы пользуетесь не ризонерами? Если да, то для чего?

@ai_newz

Читать полностью…

эйай ньюз

Anthropic потихоньку прикрывает лавочку подписок

На этот раз пришли за энтерпрайз пользователями. Компания меняет прайсинг, убирая разные тиры подписок и оставляя лишь базовую $20 подписку, а всё что поверх лимитов $20 подписки — по ценам API. Дополнительно для энтерпрайз пользователей убирают скидки на покупку первых n токенов. Новая ценовая политика повышает цены для активных пользователей вплоть до 2-3 раз. Антропику патологически не хватает компьюта и эта ситуация вряд-ли скоро наладится, так что лимиты в консьюмерских подписках вряд-ли будут становится лучше.

А сколько вы платите за ИИ?

@ai_newz

Читать полностью…

эйай ньюз

Google запускает Lyria 3 Pro

Модель может генерировать аудио вплоть до 3 минут, против 30 секунд у ванильной модели, так что теперь можно генерировать полноценные треки end to end. Доступно по подписке, в AI Studio и по API. Цена в API — $0.08 за трек

@ai_newz

Читать полностью…

эйай ньюз

🔥🔥🔥 Seedance 2.0 в глобальном доступе

После затяжного переноса ByteDance наконец выкатили SOTA видео-модельку на весь мир. Пощупать генерацию можно в CapCut, на Dreamina, а также в агрегаторах. Официально пока раскатили по ограниченному списку стран, но мы то знаем как это обходить.

Под капотом 15 секунд плотной консистентности, нативный липсинк со звуком и мультимодальные референсы.

Го тестить!

@ai_newz

Читать полностью…

эйай ньюз

Илон рассказал о своих планах на космические датацентры

Показал рендер 100киловаттного спутника весом в тонну, Starship сможет такие выводить на орбиту десятками за каждый запуск. Один такой спутник будет производить электричества примерно как вся МКС и в 5 раз больше чем спутники Starlink V3. Предвидя комментарии об охлаждении чипов в космосе, вот хорошее видео с анализом от одного из крупных космических ютуберов.

Чтобы насытить всё это чипами, SpaceX будут строить свою фабу для их производства, планируя производить тераватт чипов в год (для сравнения, электросеть США производит как раз тераватт). Причём под одной крышей собираются делать всё — маски для литографии, память, логические чипы и упаковывать всё это в одно целое. Цель сверхамбициозная, такого уровня интеграции в мире нигде нет, но если кто-то и сможет сделать это, так это Маск.

@ai_newz

Читать полностью…

эйай ньюз

Midjourney V8 alpha!

Все долго ждали новой модели от MJ и вот она (ну почти)!

Что обещают:
— лучшее понимание сложных промптов
— сильнее personalization / sref / moodboards
— более детальные и цельные картинки
— лучше рендер текста, особенно если писать его в кавычках
— генерация примерно в 5 раз быстрее

Что важно:
— есть --hd (нативный 2K) и --q 4 для большей когерентности
— поддерживаются --raw, --chaos, --weird, --exp
— --hd, --q 4, sref и moodboards сейчас в 4 раза дороже и медленнее

Сами Midjourney советуют для лучших результатов активнее использовать длинные промпты, --raw, sref и moodboards.

Я потестил на простых коротких промптах - ну такое. Модель еще явно недотренена.

Ранний доступ к модели тут: alpha.midjourney.com.

@ai_new

Читать полностью…

эйай ньюз

Нейродайджест за две недели (#108)

LLM
- Qwen 3.5 Medium —сильно качнули по метрикам и скорости, закрепив за собой звание лучшей открытой модели. Ещё Alibaba выкатила и самые маленькие модели (от 0.8B до 9B), которые даже в таком размере остались мультимодальными гибридными ризонерами.
- Gemini 3.1 Flash Lite — лучшая в своём классе по бенчам и скорости (до 400 токенов/сек).
- GPT 5.4 — OpenAI без лишнего шума выкатили новую версию флагманской модели, сразу с Pro-версией.

Генеративные модели
- Magnific Video Upscale — Геймчейнджер для видео, который поправляет артефакты генерации. Цена, правда, заоблачная.
- Nano Banana 2 — После слухов и тестов состоялся релиз: бафнули текст и консистентность, но прорыва нет, а нативные 4K нам так и не дали, они оказались апскейлом с оригинала в 1k.
- А что там у китайцев? — Вышел Seedream 5.0 Lite, который, судя по бенчмаркам и тестам, не конкурент Банане, а скорее открытому Qwen.

Прочее
- Попы на нейростероидах — Папа Римский призвал священников не использовать AI для проповедей, так как уже лично замечает, как батюшки зачитывают сгенерированные тексты.
- OpenAI поднимает $110B — Исторический раунд от Amazon, Nvidia и SoftBank, в основном в форме компьюта.
- LLM на часах — Qualcomm анонсировали чип, который может запускать 2B-модели на часах со скоростью 10 токенов/сек.
- Соревка по RAG/агентам — Друзья организовали соревнование в Legal-домене с призовым пулом $32к.
- Киберпсихоз ИИ-психоз — Описан реальный клинический кейс, как GPT-4o свёл девушку с ума, а новый бенчмарк показывает, что большинство LLM склонны поддерживать бред.

> Читать дайджест #107
#дайджест
@ai_newz

Читать полностью…

эйай ньюз

Вот кстати мой тест NB 2 vs NB Pro

Текстуры чутка получше, да. Но вот накосячил с количеством людей в кадре и расположением доски - она висит посреди комнаты.

Так что прорыва нет.

@ai_newz

Читать полностью…

эйай ньюз

Всем, привет! Меня позвали поучаствовать в панельной дискуссии на онлайн-конфе AI Hard Fork.

Доклады готовить к сожалению времени нет, из-за очень плотной работы в GenPeach AI, а вот на дискуссию я с удовольствием приду!

Там еще будут и другие доклады онлайн с 24 по 26 февраля. Но самое интересное будет на нашей панели)) 25 февраля в 18:55 cet.

Подключайтесь, если хотите послушать про то, как AI тулы используются в разных командах: ресерче (в нашей команде, например), инжиниринге, классической разработке и стартапах.

Регистрация здесь, участие бесплатное.

@ai_newz

Читать полностью…

эйай ньюз

Seedance 2.0 — как пощупать новую SOTA-видеогенерацию

Получаем доступ к новенькому Seedance 2.0 раньше всех.

Инструкция для тех, кто не хочет ждать:
Заходим на сайт ChatCut. Там можно просто встать в вейтлист, но если вы нетерпеливый, есть путь быстрее. Идём в официальный дискорд Discord, в канал "codes" — там периодически выкидывают пачки инвайтов. Нужно мониторить: как только коды выкладывают, их тут же разбирают, после чего сообщение удаляют. В общем, придётся немного заморочиться.

Вот вам пачка, но вряд-ли там что-то осталось:

28C2JF VJ95FL 4TMK3A D293TL NQ4V99 WWP9A6 WPJD4Z QZXM5S X3LVN9 YHU2YD NN2EKF RV7N3B QZ5K9F QQVKN7 ESMDHB N72U5A 5WY28G QBCXB9 F3W7XC MGFAHF SXC74E RFVS2J GVVW9V LTRVVM 65AZ3Z WRC6ET HTLX6S 3W3PK3 MGPAQM 94N5CU 9A4WY8 DL6AFT P3AQFX CQ78D7


Мне одновременно и нравится, и не нравится такая стратегия. Сначала закрытая бета в Китае, потом вроде бы глобальный релиз, но с такими вот танцами с бубном. Параллельно на Dreamina открывают доступ для creative partners.

С одной стороны — сервера не лягут (хотя я вот только что проверил, и у меня ничего не вышло), и доступ получат те, кому действительно нужно. С другой — такой мягкий запуск не создаёт инфоповода, чтобы можно было капслоком написать "ВЫШЕЛ СИДЭНС, THIS IS WILD! 🔥🔥🔥".

Кидайте свои тесты в комментарии, если прорвётесь через инвайты. На старте отсыпают 150 токенов (чего хватит на пару генераций), так что запаситесь пачкой почт, чтобы взять побольше. Либо за 99 баксов можно докупить сразу 15 000 токенов.

@ai_newz

Читать полностью…

эйай ньюз

Нейродайджест за неделю (#105)

LLM
- Kimi K2.5 — главная фича модели — рой агентов, позволяющий делегировать подзадачи другим инстансам. Модель также теперь понимает изображения и догнала SOTA по бенчам.

Генеративные модели

- Genie 3 — World-модель теперь доступна подписчикам Ultra. Можно создавать наброски миров и симулировать их до 60 секунд.
- Lucy 2.0 — Модель, которая в реальном времени заменяет вас на видео с вебки другим персонажем.
- LingBot-World — Китайцы выпустили открытый аналог Genie 3 на базе Wan 2.2. Генерит интерактивные миры в риалтайме (720p 16fps) с симуляцией до 10 минут.

LLM
- Prism — Инструмент для написания пейперов от OpenAI: совместный LaTeX-редактор с интегрированным ChatGPT для проверки цитат и перевода набросков в код.

Личное
- Сходка в Дубае — Спонтанно организовались на ужин.

> Читать дайджест #104

#дайджест
@ai_newz

Читать полностью…

эйай ньюз

Qwen 3 TTS

Алибаба опубликовала веса модели для синтеза голоса с 0.6B и 1.7B параметров. Веса идут в нескольких вариантах: Voice Design позволяет запромптить желаемый голос, Custom Voice идёт с 9 готовыми голосами для китайского, английского, корейского и японского. Кроме этого опубликовали базовые веса модели, для клонирования голосов и как основу для файнтюна.

Модель тренировали на 5 миллионах часов аудио на 10 языках, в том числе русском. Поддержка модели уже есть в vLLM и mlx audio, кроме этого она доступна по API.

Веса
Демо
Блогпост

@ai_newz

Читать полностью…
Subscribe to a channel