@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста
Первыми пошли xAI: Макс планирует встроить рекламу прямо в ответы Grok.
Честно говоря, это было лишь вопросом времени.
Проблема ещё и в доверии: в зависимости от того, как это реализуют, люди начнут задумываться — а не подтолкнул ли ИИ к этому ответу рекламодатель? И вот тогда доверие к модели может быстро уйти.
🚀Прорыв от Google: активное обучение с экономией данных на 10 000× при дообучении LLM
Google разработала масштабируемый процесс *active learning*, который позволяет в десятки тысяч раз сократить объём размеченных данных, необходимых для тонкой настройки больших языковых моделей на сложных задачах — например, при модерации рекламного контента.
🟢 Как работает метод:
1. Стартовая модель (LLM-0) получает промпт и автоматически размечает огромный массив данных.
2. Кластеризация выявляет примеры, где модель путается (наиболее спорные и ценные для обучения).
3. Отбор данных: из этих кластеров выбирают информативные и разнообразные примеры.
4. Экспертная разметка — только для выбранных примеров.
5. Итерации: дообучение модели → новый отбор спорных примеров → разметка → снова обучение.
🟢Результаты:
- Сокращение с 100 000 размеченных примеров до менее 500 при сохранении или улучшении качества.
- Улучшение метрики *Cohen’s Kappa* на 55–65 %.
- В больших продакшн-моделях — до 3–4 порядков меньше данных при сопоставимом или лучшем качестве.
🟢 Что такое Cohen’s Kappa?
Это метрика, которая показывает, насколько два "судьи" (например, эксперт и модель) согласны между собой с поправкой на случайные совпадения.
- 0.0 — нет согласия (или хуже случайного)
- 0.41–0.60 — умеренное согласие
- 0.61–0.80 — значительное
- 0.81–1.00 — почти полное согласие
В задачах с дисбалансом классов Kappa даёт более честную оценку, чем обычная точность (accuracy).
Чем лучше предыдущих методов:
- Точечная разметка: размечаются только самые информативные примеры.
- Масштабируемость: метод применим к наборам данных с сотнями миллиардов примеров.
- Экономия ресурсов: меньше времени и затрат на разметку.
- Быстрая адаптация: подходит для доменов с быстро меняющимися правилами (реклама, модерация, безопасность).
🟢Вывод:
При умном отборе данных LLM можно адаптировать в тысячи раз быстрее и дешевле, чем при традиционном обучении на больших размеченных наборах.
#GoogleResearch #ActiveLearning #AI #LLM #MachineLearning #DataEfficiency
🟠Почитать подробно
@ai_machinelearning_big_data
#GoogleResearch #ActiveLearning #AI #LLM #MachineLearning #DataEfficiency
🧠 OpenAI выложила свои рассуждающие модели в опенсорс. А в Yandex Cloud AI Studio их уже можно запускать по API.
Они поддерживают настройку глубины рассуждений и скорости генерации ответа, а их качество сопоставимо с o3‑mini и o4‑mini. Данные обрабатываются и хранятся в российских дата‑центрах.
Модели подходят для построения агентских систем: автоматизация рекрутмента и техподдержки, анализ документов, написание кода и первичная коммуникация с клиентами. В скором времени появится поддержка вызова функций — это позволит подключать внешние источники данных прямо в процессе генерации.
@bigdatai
📐 gpt-oss работает на специальном формате промптов — Harmony, и без него просто не будет выдавать корректные ответы.
Зачем нужен Harmony?
Этот формат нужен для:
— 🧠 генерации chain of thought рассуждений
— 🔧 корректного вызова функций и использования инструментов
— 📦 вывода в разные каналы: обычный ответ, reasoning, tool call
— 🗂️ поддержки tool namespaces и иерархических инструкций
💡 Harmony имитирует OpenAI Responses API, так что если вы с ним работали — будет легко освоиться.
👉 Если вы используете gpt-oss через HuggingFace, Ollama или vLLM, волноваться не нужно — формат уже встроен.
Но если строите свой inference стек — обязательно изучите [гайд по Harmony](https://github.com/openai/harmony).
Без него модель просто не будет работать как надо.
💻 GitHub: https://github.com/openai/harmony
#AI #OpenAI #Harmony
E-CUP возвращается. Реальные данные. Масштабные проекты. Большие призы
Решайте ML-задачи в стиле Ozon Tech. Девять победителей разделят призовой фонд соревнования — 7 200 000 рублей 🔥
Тест-драйв работы в e-com бигтехе стартует здесь.
🗓 Регистрация: https://cnrlink.com/ecup25bidgata
💻 Формат участия: онлайн
👥 Команда: от 1 до 5 человек
🎯 Для кого: Data Scientists, ML-специалисты, аналитики данных, дата-инженеры, специалисты Big Data и разработчики, которые интересуются ML/DS.
Что вас ждёт:
🔹 Работа над проектом для миллионов пользователей на основе данных от ведущего e-com в России.
🔹 Обмен опытом с экспертами Ozon Tech.
🔹 Эксклюзивный мерч для победителей и подарки для самых активных участников.
🔹 Питчинг — 13 сентября на конференции E-CODE. Ozon Tech предоставит финалистам билеты и оплатит поездку.
Три трека E-CUP:
1️⃣ Рекомендации: предсказание следующей покупки пользователя
2️⃣ Логистика: автопланирование курьеров
3️⃣ Контроль качества: автоматическое выявление поддельных товаров
Регистрация на платформе Codenrock: https://cnrlink.com/ecup25bidgata
📈 ИИ уже дал миру $97 млрд пользы — но их не видно в статистике
Официальные доходы OpenAI, Google, Microsoft и Anthropic от генеративного ИИ — около $7 млрд в год.
Но новая экономическая модель показывает: реальная ценность для людей — почти $97 млрд.
💡 Почему эту сумму не видно в ВВП?
Потому что люди используют ChatGPT, Gemini и другие ИИ-сервисы бесплатно или условно-бесплатно.
А ВВП считает только реальные деньги, которые прошли через кассу.
🧪 Как это посчитали?
Экономисты проводили онлайн-эксперименты:
👤 человеку говорят:
> «Хочешь продолжить пользоваться ИИ в следующем месяце — или отказаться и получить $X?»
📉 Увеличивают X, пока человек не скажет "ладно, забирайте".
Этот X — ценность доступа для конкретного человека.
📊 Среднее значение оказалось $98 в месяц.
82 млн пользователей × 12 месяцев × $98 = $97 миллиардов годовой "невидимой" пользы.
📌 Это называется consumer surplus — выгода, которую получает пользователь, не заплатив за продукт.
И она в 14 раз превышает все официальные продажи генеративного ИИ.
🧠 Исследователи предлагают учитывать это в новой метрике — GDP‑B, которая включает и скрытую цифровую ценность.
💬 Вывод:
ИИ уже радикально меняет экономику. Только большая часть этой пользы — не в отчётах компаний, а в жизни пользователей.
🔗 Статья: https://www.wsj.com/opinion/ais-overlooked-97-billion-contribution-to-the-economy-users-service-da6e8f55
🚀 Mars — унифицированный фреймворк для распределённых вычислений на Python, который масштабирует NumPy, Pandas и Scikit-learn до работы с большими данными.
Проект предлагает знакомый интерфейс, но с возможностью параллельного выполнения операций на многоядерных системах или кластерах. Поддерживает интеграцию с Ray, Kubernetes и YARN для горизонтального масштабирования.
🤖 GitHub
@bigdatai
🚀 MLE‑STAR от Google Research — новый state‑of‑the‑art агент для ML-инжиниринга
Google представил MLE‑STAR — агент на основе LLM, который автоматизирует ML-задачи разных типов (табличные данные, изображения, текст и др.) и достигает высот в сравнении с предыдущими подходами.
Что нового:
• Использует веб‑поиск для поиска современных моделей и примеров кода, чтобы создать начальное решение
• Делает абляционный анализ (ablation study), чтобы определить наиболее влиятельный компонент в ML-пайплайне, и итеративно дорабатывает его
• Развивает энсемблирование: генерирует несколько решений и собирает их в одно улучшенное, опираясь на стратегию агента
• Включает модули контроля: дебаггер, проверку утечек данных и контроль использования всех источников данных, чтобы избежать плохих практик
🧪 Результаты:
MLE‑STAR выигрывает медали в 63–64 % из бенчмарка MLE‑Bench‑Lite (Kaggle), обгоняя лучшие существующие методы (~25–26 %)
🛠 В чем плюсы:
- Снижает порог входа в ML для инженеров и организаций
- Обеспечивает адаптивность: агент извлекает свежие знания из сети, поэтому решения автоматически улучшаются с развитием ML
- Открытый исходный код — можно протестировать или встроить в собственные пайплайны
💡 Как работает:
1. Поиск нужных моделей через веб
2. Генерация и слияние лучших кандидатов
3. Абляционный анализ → выбор блока → уточнение этого блока
4. Итеративное улучшение и объединение ансамблей
5. Контрольные модули: дебаг, утечки, использование данных
🔜 Подробнее
@machinelearning_interview
#Google #GoogleResearch #ml #mle #llm
🧠 SmallThinker — новая серия LLM, нативно обученная для локального запуска
SmallThinker — это семейство языковых моделей, созданное с нуля для запуска на обычных устройствах:
📉 низкая память, 🐌 медленное хранилище, ❌ без GPU — и всё это без потери качества.
🔧 Технологии под капотом:
• Двухуровневая разреженность: MoE + sparse ReGLU (>60% нейронов неактивны)
• Pre-attention router: предсказание нужных экспертов заранее → читаем с SSD параллельно
• NoPE-RoPE гибрид: 1:3 глобальное:локальное внимание → KV-кэш в 4 раза меньше
• Кэширование и оффлоадинг экспертов → экономим CPU и дисковый ввод
• Sparse LM head: предсказываем подмножество словаря, не нужен полный софтмакс
• Чекпойнт-мёрджинг: баланс между универсальностью и инструкционной точностью
⚙️ Производительность (CPU-only, Q4_0):
• 🪶 4B-A0.6B (1 ГБ ОЗУ): 82.3% HumanEval, 66.1% MMLU, 108 ток/с
• 🚀 21B-A3B (8 ГБ ОЗУ): 89.6% HumanEval, 84.4% MMLU — на уровне Qwen3‑30B, но с 85× меньшим потреблением памяти
🏃♂️ Работает на CPU, ARM, Raspberry Pi — 20–108 токенов/сек.
📦 Полностью open-source. Готово к локальному использованию без компромиссов.
#LLM #SmallThinker #AI #LocalLLM #OpenSource
HF: https://huggingface.co/PowerInfer
PAPER: https://arxiv.org/abs/2507.20984
Станьте разработчиком нейро-сотрудников на Python и зарабатывайте от 150.000р в месяц 🔥🔥🔥
Мы научим вас создавать топовых нейро-сотрудников на базе GPT-4 Omni, и вы сможете:
1️⃣ Устроиться разработчиком в крупную компанию и зарабатывать от 150 тысяч ₽ в месяц
2️⃣ Разрабатывать такие проекты на заказ и зарабатывать от 500 тысяч ₽ за проект
3️⃣ Создать нейро-сотрудника в вашей компании и вырасти на +30-100% в зарплате
Что будет на интенсиве?
🧬 Теория: как создаются нейро-сотрудники с GPT-4o на Python
🧬 Практика: мы создадим нейро-консультанта, нейро-HR, нейро-маркетолога и др.
Ведущий интенсива - Senior AI разработчик нейросетей и основатель Университета искусственного интеллекта
🔥 Регистрируйтесь на бесплатный интенсив! Встречаемся в ближайший четверг!
Хочешь знать, что происходит внутри ИТ крупного банка?
Команда ПСБ рассказывает о работе и жизни в блоке ИТ!
🔹 Знакомься с командой, их проектами и хобби
🔹 Участвуй в активностях: митапы, конференции, спорт
🔹 Читай и комментируй экспертные статьи
Подписывайся на канал ИТ ПСБ !
🔥 Microsoft снова доказывает силу синтетических данных для задач компьютерного зрения!
Современные модели компьютерного зрения с фокусом на человека (Human-centric CV) требуют миллиардов параметров, гигантских датасетов и дорогостоящего инференса. Но можно ли добиться такой же точности, не тратя миллионы?
Исследователи показали: модели можно обучать только на синтетических данных высокого качества — и при этом достигать тех же результатов.
Microsoft представили DAViD — open-source фреймворк, позволяющий создавать цифровых людей с точной геометрией лиц и текстурами.
Проект демонстрирует, как можно использовать синтетические датасеты для:
🟠 Предсказания глубины изображения (Depth Prediction)
🟠 Оценки поверхностей (Normal Estimation)
🟠 Сегментации фона и людей на фото/видео (Background & Human Segmentation)
Почему это круто:
🟢 Синтетические данные = пиксельная точность разметки
🟢 Почти бесконечное разнообразие сцен, ракурсов, освещения и поз
🟢 Прекрасно масштабируются для обучения моделей с нуля или дообучения
Самое приятное, что Microsoft выложили всё в опенсорс:
✔️ 300 000 сэмплов
✔️ Предобученные модели
✔️ Исходный код фремйворка
🟢Проект: https://microsoft.github.io/DAViD/
🟢Статья: https://arxiv.org/abs/2507.15365
🟢Github: https://github.com/microsoft/DAViD
@ai_machinelearning_big_data
Если ты работаешь с human-centric CV — это мощный старт. Даже без реальных данных.
#cv #microsoft #opensource
⚙️ llmware — фреймворк для создания RAG-пайплайнов и AI-агентов с упором на небольшие специализированные модели. Проект предлагает готовые решения для обработки документов, извлечения данных и построения чат-ботов, которые можно запускать даже на CPU.
Вместо гигантских LLM llmware использует каталог из 50+ компактных моделей, оптимизированных под конкретные задачи — от анализа контрактов до финансовых исследований. Поддерживает 10 векторных БД, включая Milvus и ChromaDB, и работает с PDF, Word и даже голосовыми записями через WhisperCPP.
🤖 GitHub
@bigdatai
⚡️ BeeAI Framework — инструмент для создания мультиагентных систем на Python и TypeScript, который позволяет легко комбинировать ИИ-агентов с разными ролями и инструментами. Проект поддерживает интеграцию с популярными LLM и инструментами LangChain, предлагая готовые решения для обработки запросов — от поиска информации до генерации отчётов.
Проект отличается гибкостью: можно собирать сложные цепочки агентов с контролем токенов и логированием процессов. Фреймворк уже используют в production-средах, а его разработка ведётся под эгидой Linux Foundation.
🤖 GitHub
@bigdatai
🤖 Financial Times: Microsoft усиливает AI-команду — и делает это агрессивно
За последние 6 месяцев Microsoft наняла 24 бывших исследователя Google DeepMind, включая бывшего главу инженерной команды Gemini. Это не просто найм — это перехват элиты.
💡 Почему это важно?
Напомним: если совет OpenAI официально объявит о достижении AGI (ИИ, превосходящий человека в большинстве экономически значимых задач), Microsoft теряет доступ к новым моделям OpenAI.
📌 Это прописано в их контракте.
📌 После AGI Microsoft должна будет идти дальше своими силами.
📌 А значит — ей нужны собственные учёные, чтобы строить frontier‑модели.
🎯 И вот вопрос на миллион:
Знает ли Microsoft что-то, чего не знаем мы?
Почему именно сейчас она масштабирует свою AI-команду так быстро и так дорого?
Возможно, гонка за настоящим AGI куда ближе, чем мы думаем.
🔒 Неожиданный поворот в мире ИИ: Anthropic заблокировала OpenAI доступ к API своего чат-бота Claude, обвинив конкурента в нарушении условий обслуживания. По данным источников Wired, OpenAI использовала Claude для тестирования и сравнения с собственными разработками в преддверии релиза GPT-5 — якобы в обход стандартного интерфейса, через специальные API.
В Anthropic сочли это недопустимым — их условия явно запрещают применение сервиса для создания конкурирующих продуктов. При этом представители компании подчеркивают: сравнительный анализ моделей — обычная практика в индустрии, и доступ для таких целей останется.
OpenAI в ответ заявили, что разочарованы решением, особенно на фоне открытого доступа к их API. Конфликт интересен не только с юридической точки зрения, но и как маркер накаляющейся конкуренции между крупными игроками ИИ. Особенно сейчас, когда все готовятся к новым релизам — GPT-5 от OpenAI и, вероятно, ответных шагов от Anthropic.
🔗 Ссылка - *клик*
@bigdatai
💎 RisuAI — кроссплатформенный клиент для общения с ИИ. Этот проект объединяет поддержку разных языковых моделей в одном интерфейсе с необычными функциями. Например, можно создавать групповые чаты с несколькими персонажами, добавлять эмоциональные изображения в диалоги и использовать TTS для озвучки ответов.
Проект имеет встроенный редактор regex для кастомизации вывода моделей и система «Lorebook» для сохранения контекста беседы. Есть версии для веба, ПК и Docker.
🤖 GitHub
@bigdatai
🧠ИИ открыл новые законы физики — понятным языком
Учёные из Университета Эмори (США) дали ИИ задачу не «угадывать результаты», а самому вывести формулы. Вот что получилось.
🔍 Что исследовали
- Пыльная плазма — это горячий ионизированный газ, в котором летают микроскопические пылевые частицы.
- Частицы отталкиваются и притягиваются сложным образом; классическая теория не всё объясняла.
🧠 Как работал ИИ
- Ему показали короткие 3-D видеозаписи движения частиц (маленький датасет).
- В алгоритм заранее «вшили» базовые принципы: сопротивление воздуха, гравитацию.
- ИИ искал уравнения, которые лучше всего описывают траектории.
📈 Что открыл
- Нереципрокные силы: сила от A к B ≠ сила от B к A. Раньше про них только догадывались.
- Исправил старую ошибку: заряд частицы зависит от её размера иначе, чем считали.
- Показал, как быстро затухают взаимодействия с расстоянием — формула тоже обновилась.
🚀 Почему это важно
- Малый объём данных: хватает секундных видеороликов.
- Обычный ПК: нужен лишь настольный компьютер, не суперкомпьютер.
- Метод переносится на любые «многие частицы» — от порошковых материалов до клеток в биологии.
Вывод: ИИ уже способен не только анализировать данные, но и выводить новые законы природы. Скорость открытий растёт экспоненциально.
https://interestingengineering.com/innovation/ai-decodes-dusty-plasma-new-forces-physics
@data_analysis_ml
🚨 ALERT: Новый ИИ‑скам — Airbnb‑хост сгенерировал фейк‑фото, чтобы выбить £12,000 с гостя
Хост использовал генеративный ИИ, чтобы сделать вид, будто гость сломал кофейный столик. Airbnb поверили картинке и потребовали компенсацию.
Гостье пришлось обратиться в СМИ, чтобы доказать свою невиновность.
📰 По данным The Guardian:
— Через 5 дней после вмешательства журналистов Airbnb согласились на апелляцию
— Предложили вернуть £854 из £4,269
— После отказа гостья добилась полного возврата
— И негативный отзыв хоста удалили
🤖 Что это значит?
Создать фейковое изображение с ИИ — дешево и просто. А значит, и фейковые обвинения — теперь тоже.
Компании вроде Airbnb обязаны иметь:
⚠️ AI-детекторы на стороне модерации
☎️ Канал экстренной поддержки при ИИ-манипуляциях
🔍 Независимую оценку при спорных случаях
То, что человеку пришлось идти в прессу, чтобы добиться справедливости — тревожный сигнал.
Это и есть пост-генеративная реальность. И большинство компаний, правительств и платформ к ней до сих пор не готовы.
🚀 Tencent расширяет экосистему Hunyuan LLM и выкладывают в открытый доступ еще 4 компактных моделей — 0.5B, 1.8B, 4B и 7B!
Эти модели заточены под low-power устройства: ПК, смартфоны, авто, умные дома и пользовательские GPU.
Модели легко настраиваются под вертикальные задачи и запускаются даже на одной карте.
💡 Особенности:
✅ Fast/slow thinking режимы: лаконичные или глубокие ответы
✅ 256K контекст и продвинутые агентные способности (tool use, планирование, reasoning)
✅ Хорошие метрики на тестах по языку, математике и логике
✅ Модели готовы к продакшену — работают с SGLang, vLLM, TensorRT-LLM
🖥 GitHub:
- 0.5B: https://github.com/Tencent-Hunyuan/Hunyuan-0.5B
- 1.8B: https://github.com/Tencent-Hunyuan/Hunyuan-1.8B
- 4B: https://github.com/Tencent-Hunyuan/Hunyuan-4B
- 7B: https://github.com/Tencent-Hunyuan/Hunyuan-7B
🤗 Hugging Face:
- 0.5B: https://huggingface.co/tencent/Hunyuan-0.5B-Instruct
- 1.8B: https://huggingface.co/tencent/Hunyuan-1.8B-Instruct
- 4B: https://huggingface.co/tencent/Hunyuan-4B-Instruct
- 7B: https://huggingface.co/tencent/Hunyuan-7B-Instruct
🔗 Подробнее: https://hunyuan.tencent.com/modelSquare/home/list
@ai_machinelearning_big_data
#Tencent #Hunyuan #ml #llm #ai #opensource
🧠 ИИ размером всего 27M превзошёл O3-mini, R1 и другие — и он вдохновлён мозгом
Исследователи создали крошечную модель — всего 27 миллионов параметров,
но она уже обходит более крупные модели вроде o3-mini и R1.
И это заставляет весь ИИ-мир выглядеть немного… нелепо.
🔍 Почему она работает так хорошо? Вот 5 ключевых идей:
1. Иерархическая обработка + рекурсия
Модель имитирует мозг: обрабатывает информацию слоями, со временем и обратной связью.
2. Устойчивая сходимость
Специальная архитектура не “застревает”, как это бывает у RNN — сходится стабильно.
3. Приближённый градиент
Обновления выполняются с постоянным объёмом памяти, без разворачивания по времени (в отличие от классических рекуррентных сетей).
4. Глубокое поэтапное обучение
Модель обучается на каждом шаге, но запоминает финальное состояние — как итог размышления.
5. Адаптивное время вычислений
Умеет переключаться между "быстрым" и "медленным" мышлением (System 1 и System 2),
используя механизм остановки + Q-learning для принятия решения, когда пора остановиться.
⚡ Эта работа показывает:
даже маленькая модель может думать глубже, если у неё хорошая архитектура.
📄 Подробнее — в исследовании: https://arxiv.org/abs/2506.21734
🛠 Github: https://github.com/sapientinc/HRM
🔥 KAT-V1 — новый LLM, который умеет не переусложнять
Разработан @KwaiAICoder, специально чтобы балансировать между рассуждением и прямыми ответами.
✨ 40B параметров
✨ Step-SRPO — умное переключение режимов мышления через RL
✨ MTP + дистилляция — более дешёвое и эффективное обучение
📦 Модель уже доступна на HuggingFace:
https://huggingface.co/Kwaipilot/KAT-V1-40B
Иногда лучший ответ — это короткий ответ. Эта модель это понимает.
♾️ Infinity — высокоскоростной API для эмбеддингов и RAG. Проект превращает любые модели с Hugging Face в REST-сервис с минимальной задержкой. Поддерживает ONNX/TensorRT и работает на CPU/GPU через PyTorch и CTranslate2.
Инструмент имеет динамический батчинг и FlashAttention для максимизации производительности. Позволяет развернуть локальный аналог OpenAI Embeddings с открытыми моделями в несколько команд.
🤖 GitHub
@bigdatai
📌 Habitat-Lab — фреймворк от Facebook Research для разработки ИИ-агентов, способных взаимодействовать с виртуальными и реальными окружениями. Проект позволяет обучать агентов выполнять различные задачи: от навигации в помещениях до взаимодействия с людьми и перестановки объектов.
Фреймворк поддерживает обучение через имитацию и reinforcement learning, а также интеграцию с ROS для робототехники. Инструмент обладает модульностью: можно настраивать сенсоры агентов, создавать новые задачи и тестировать их в реалистичных 3D-сценах.
🤖 GitHub
@bigdatai
🎵 Elastic MusicGen Large — генерация музыки нового уровня
Новая модель от TheStageAI на базе MusicGen способна создавать музыкальные треки с гибким контролем стиля, темпа и инструментов прямо на лету. Это не просто генерация — это интерактивное музыкальное творчество с высокой детализацией звука.
Что умеет Elastic MusicGen Large:
- 🎼 Генерирует треки по текстовому описанию (prompt-based music generation)
- ⏱ Позволяет менять темп и стиль без перегенерации
- 🎹 Поддерживает наложение инструментов и тонкую настройку аранжировки
- ⚡ Работает прямо в браузере через Hugging Face Spaces
Подходит для:
- Саунд-дизайнеров и композиторов
- Создания фоновой музыки для видео и игр
- Быстрой генерации идей и музыкальных скетчей
Попробовать можно здесь: huggingface.co/spaces/TheStageAI/Elastic-musicgen-large
✔️ Новый крутой выпуск 3Blue1Brown о диффузионных моделях!
Популярный ютубер (совместно с Welch Labs) простыми словами и красивой анимацией объяснил, как работают генераторы изображений и видео.
▪ 40 минут — от основ до тонкостей
▪ Для новичков + русские субтитры
P.S. Отличный вариант для первого знакомства с технологией и анимация на канале вышла реально на новый уровень!
Смотрим: тут
#ИИ #ДиффузионныеМодели #МашинноеОбучение
Yandex Cloud добавил в AI Studio языковую модель Qwen3‑235B — масштабное решение для задач генерации, анализа и автоматизации.
Инструмент предназначен для бизнеса и может применяться в поддержке клиентов, персонализированных интерфейсах, e‑commerce, обработке данных.
Доступ осуществляется через API или визуальный интерфейс.
Модель работает с 119 языками и предлагает высокую производительность при низкой стоимости входа.
Реклама. ООО Яндекс.Облако. ИНН 7704458262
В открытый доступ выложили и обновили RuModernBERT — модель от VK для обработки естественного русского языка. Доступны две версии: 150M и 35M. Обучали на 2 триллионах токенов данных — брали всё: от классической литературы до соцсетей и документации.
Она понимает длинные тексты целиком, без разбиения на фрагменты и работает локально, без внешних API, что снижает нагрузку на инфраструктуру. Инженеры могут использовать ее для задач в области обработки текста, в том числе для извлечения информации, анализа тональности, поиска и ранжирования в приложениях и сервисах. А пользователи, таким образом смогут быстрее находить информацию, документы, видео или товары.
По скорости работы обходит аналоги — особенно на больших текстах (в 2-3 раза быстрее) и при запуске на устройствах (плюс 10-20% к скорости). В тестах по русскому языку показала топовые результаты.
Доступна на Hugging Face — там же лежат обновлённые USER/USER2 для группировки и поиска похожей информации.
🚀 MegaTTS 3 теперь действительно умеет клонировать голос
Ранее ByteDance выпустила MegaTTS 3 — мощную модель синтеза речи, но не добавила ключевой компонент: WavVAE-энкодер, необходимый для голосового клонирования.
Теперь ситуация изменилась.
🎉 Разработчик ACoderPassBy выложил совместимый WavVAE-энкодер на ModelScope — и голосовое клонирование с MegaTTS 3 наконец-то работает. Качество звучания — на уровне.
Что это даёт:
— 🎙 Кастомные синтезированные голоса
— 🧠 Эксперименты с озвучкой на open-source стекe
— 🚀 Альтернатива StyleTTS и другим TTS-платформам
https://huggingface.co/spaces/mrfakename/MegaTTS3-Voice-Cloning