data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

🎵 DiffRhythm - полноценныйгенератор песен всего за несколько секунд!

DiffRhythm‑base — базовая модель из коллекции DiffRhythm от ASLP‑lab на Hugging Face.

Проект интересен тем, что применяет современные диффузионные алгоритмы для генерации и анализа ритмических структур, что открывает новые возможности в области музыкального творчества и аудиоанализа.

Модель: https://huggingface.co/ASLP-lab/DiffRhythm-base
Демо: https://huggingface.co/spaces/ASLP-lab/DiffRhythm
Статья: https://huggingface.co/papers/2503.01183

Читать полностью…

Анализ данных (Data analysis)

⚡️ HF: Spark-TTS, модель преобразования текста в речь на базе LLM, которая выполняет клонирование голоса с нуля и создание голоса с высокой детализацией — все в одном потоке!

> Сделана на Qwen2.5
> Управляйте частотой тона, скоростью и стилем диктора непосредственно из текста.

Попробовать можно здесь: https://huggingface.co/spaces/Mobvoi/Offical-Spark-TTS
Paper: https://arxiv.org/pdf/2503.01710
Code: https://github.com/SparkAudio/Spark-TTS
Demo: https://sparkaudio.github.io/spark-tts/

Читать полностью…

Анализ данных (Data analysis)

🧠 Это происходит: человек и машина сливаются.

Австралийская компания Cortical Labs представила первый в мире биологический компьютер, объединяющий клетки человеческого мозга с кремниевыми чипами.

Эта система, известная как синтетический биологический интеллект ( SBI) , позволяет формировать динамические нейронные сети, которые обучаются быстрее и более гибко, чем традиционные системы искусственного интеллекта.

Официальная презентация CL1 состоялась в Барселоне 2 марта 2025 года. Ожидается, что он поступит в продажу во второй половине 2025 года.

Технология основана на предыдущем исследовании, в ходе которого 800 000 человеческих и нейроно мышей на чипе были обучены игре в видеоигру Pong.

Теперь CL1 предоставляет платформу, которая позволяет исследователям использовать эту технологию без специализированного оборудования или программного обеспечения. Клиенты могут либо приобрести CL1, либо получить к нему доступ через Cortical Cloud для работы с культивируемыми клетками.

Потенциальные области применения CL1 варьируются от исследований лекарственных препаратов и клинических испытаний до разработки интеллектуальной робототехники.

Система энергоэффективна и не требует внешнего компьютера для управления. Разработчики подчеркивают, что SBI более естественна, чем обычный ИИ, поскольку основана на биологических нейронах, которые также являются основой человеческого интеллекта.

Появление CL1 знаменует собой значительный прогресс в слиянии биологии и технологий и может иметь далеко идущие последствия для различных областей науки и медицины.

Это происходит: человек и машина сливаются. Курцвейл был прав!

Австралийская компания Cortical Labs представила первый в мире биологический компьютер, объединяющий клетки человеческого мозга с кремниевым оборудованием.

Эта система, известная как синтетический биологический интеллект ( SBI) , позволяет формировать динамические нейронные сети, которые обучаются быстрее и более гибко, чем традиционные системы искусственного интеллекта.

Официальная презентация CL1 состоялась в Барселоне 2 марта 2025 года. Ожидается, что он поступит в продажу во второй половине 2025 года.

Технология основана на предыдущем исследовании, в ходе которого 800 000 человеческих и мышиных нейронов на чипе были обучены игре в видеоигру Pong.

Теперь CL1 предоставляет платформу, которая позволяет исследователям использовать эту технологию без специализированного оборудования или программного обеспечения. Клиенты могут либо приобрести CL1, либо получить к нему доступ через Cortical Cloud для работы с культивируемыми клетками.

Потенциальные области применения CL1 варьируются от исследований лекарственных препаратов и клинических испытаний до разработки интеллектуальной робототехники.

Система энергоэффективна и не требует внешнего компьютера для управления. Разработчики подчеркивают, что SBI более естественна, чем обычный ИИ, поскольку основана на биологических нейронах, которые также являются основой человеческого интеллекта.

Появление CL1 знаменует собой значительный прогресс в слиянии биологии и технологий и может иметь далеко идущие последствия для различных областей науки и медицины.

https://newatlas.com/brain/cortical-bioengineered-intelligence/

Читать полностью…

Анализ данных (Data analysis)

🚀 Google неожиданно представил нового ИИ-ассистента для Data Science, позволяющего за считанные минуты создавать полноценные рабочие блокноты.

Теперь весь процесс – от загрузки датасета до итогового анализа – берёт на себя нейросеть.

Агент самостоятельно генерирует код на Python, создаёт блокноты, визуализирует данные и шаг за шагом предлагает оптимальное решение.

Достаточно загрузить набор данных объемом до 1 Гб, и ИИ выполнит всю работу.

В итоге вы получаете готовый проект с кодом и графиками, без утомительной рутины и постоянной отладки.

📌 Попробовать можно здесь

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Хотите научиться автоматизировать процессы обработки данных как в Бигтехе?

Чтобы проанализировать большой массив данных, его нужно обработать. Обычно это происходит в три этапа: извлечение, трансформация и загрузка (или ETL). Но чем больше становится данных, тем труднее управлять этим процессом вручную — автоматизировать его можно с помощью Airflow.

Чтобы научиться работать с Airflow, приходите на бесплатный вебинар, где Антон Шишков, опытный Software Engineer из бигтех-компании, — поделится с вами своими знаниями и лучшими практиками работы с Airflow на примере автоматизации сбора данных.

Что мы будем делать на вебинаре:
🟠 Познакомимся с Airflow: узнаем, как он может упростить работу и повысить эффективность;
🟠 Узнаем об операторах и сенсорах: как использовать для создания гибких и надежных конвейеров данных;
🟠 Напишем базовые и продвинутые DAG'и, чтобы вы могли применить их на практике;
🟠 Разберем, как использовать Docker, FastAPI, Postgres, Clickhouse и Minio для автоматизации ETL-процессов.

🕗Встречаемся 4 марта в 19:30 по мск

Зарегистрироваться на бесплатный вебинар

Читать полностью…

Анализ данных (Data analysis)

🔥 Невероятно полезный инструмент от Стэнфорда — Storm посещает сотни веб-сайтов и создает огромные статьи на заданную вами тему!

🔍 К сожалению, работает только на английском, однако ничего не мешает вам перевести получившуюся статью в любой другой нейросети.

🔗 Ссылка: *клик*

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🧠 Сравнение 8 моделей img2vid.

Напишите в комментариях - какой генератор используете вы.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥CosyVoice — это многоязычная модель генерации речи, разработанная для создания естественного и выразительного синтеза голоса!

💡 Версия 2.0 предоставляет улучшенные возможности по сравнению с предыдущей версией, включая более точную и стабильную генерацию речи с уменьшенной задержкой. Модель поддерживает такие языки, как китайский, английский, японский, корейский и различные китайские диалекты. Кроме того, CosyVoice 2.0 интегрирует офлайн и потоковые технологии моделирования, обеспечивая задержку до 150 мс при сохранении высокого качества звука.

🔐 Лицензия: Apache-2.0

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Бесплатный вебинар, который поможет начать изучение Spark с нуля!

👨‍💻🛠👨🏻‍💻 Кому будет полезно?
- Data-инженерам и аналитикам, работающим с большими объемами данных
- Программистам, переходящим с других технологий обработки данных на Spark

Не пропустите прямой эфир, где мы начнем изучение Big Data фреймворка и подробно разберем обработку графов с помощью Spark:
- ключевые понятия, включая структуру графов, а также алгоритмы, доступные в библиотеках GraphX и GraphFrames
- создание и обработку графов на основе различных типов данных
- эффективную работу с большими графами
- 2 популярных алгоритма для анализа данных: PageRank и Connected Components
- интеграцию графов в проекты
- практические примеры построения графов и их анализ

Все участники вебинара смогут продолжить обучение на курсе «Spark Developer» с выгодной скидкой.

➡️ Регистрация: https://otus.pw/rAba/?erid=2W5zFJt5CPA

#реклама
О рекламодателе

Читать полностью…

Анализ данных (Data analysis)

📖 В этой статье обсуждается улучшение оценки глубины сцены по одиночному изображению (monocular depth estimation, MDE) с использованием методов дистилляции знаний!

💡 Авторы анализируют различные стратегии нормализации глубины при дистилляции псевдометрических меток и выявляют, что глобальная нормализация может усиливать шум в псевдометрических метках, снижая эффективность дистилляции. В ответ на это они предлагают метод Cross-Context Distillation, объединяющий глобальные и локальные признаки для улучшения качества псевдометрических меток, а также многопедагогическую дистилляцию, использующую преимущества различных моделей оценки глубины. Эксперименты на эталонных наборах данных демонстрируют, что предложенный подход значительно превосходит современные методы как количественно, так и качественно.

🔗 Ссылка: *клик*

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

✔️ Hume AI открыла доступ к Octave: ТTS-модель, которая умеет говорить с эмоциями.

Octave, TTS-модель, анонсированная в конце декабря 2024 года, стала доступной через web и API. Модель умеет не просто "читать" слова, а понимает их смысл в контексте. Octave способна отыгрывать персонажей, генерировать голоса по запросу и изменять эмоциональную окраску и стиль речи.

Благодаря функции Voice Design, Octave может создать любой ИИ-голос по текстовому описанию. От "терпеливого, чуткого консультанта с голосом ASMR" до "средневекового рыцаря" – Octave воплотит любую фантазию. В ближайшем будущем планируется запуск функции клонирования голоса.

В ходе слепого сравнительного исследования, Octave превзошла систему ElevenLabs Voice Design по качеству звука (71,6%), естественности (51,7%) и соответствию голоса заданному описанию (57,7%).
hume.ai

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ DeepSeek-R1-FP4 от NVIDIA привлекает внимание тем, что сочетает в себе передовые идеи для быстрого и эффективного поиска по мультимедийному контенту.

Главное, что здесь сделано по-новому — это применение 4-битной точности (FP4) для представления данных.

Такая оптимизация позволяет существенно снизить затраты памяти и ускорить вычислительный процесс, что особенно важно при работе с огромными массивами изображений или видео.

Суть подхода в том, что система сначала «вчитывается» в контент, извлекая из него ключевые признаки, а затем преобразует их в компактные векторные представления.

Эти векторы отражают глубокую семантику, а не просто поверхностные характеристики, поэтому поиск становится более осмысленным. При запросе система сравнивает вектор, соответствующий запросу, с уже сохранёнными представлениями, находя наиболее похожие и релевантные результаты.

Такой метод особенно интересен для приложений, где необходимо работать с мультимодальными данными — будь то поиск похожих сцен в видеоархивах или сопоставление изображений с текстовыми описаниями. Оптимизация под современные аппаратные решения от NVIDIA делает эту модель подходящей для интеграции в реальные системы, где скорость и эффективность поиска играют ключевую роль.

В общем, DeepSeek-R1-FP4 — это пример того, как современные технологии позволяют не только повысить качество поиска, но и сделать его более доступным с точки зрения вычислительных ресурсов.

huggingface.co/nvidia/DeepSeek-R1-FP4

Читать полностью…

Анализ данных (Data analysis)

🔥 Memobase — это система памяти, ориентированная на профили пользователей, разработанная для интеграции долговременной памяти в генеративные AI-приложения!

🌟 Она позволяет виртуальным компаньонам, образовательным инструментам и персональным ассистентам запоминать, понимать и адаптироваться к своим пользователям.

🔐 Лицензия: Apache-2.0

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 PIKE-RAG (sPecIalized KnowledgE and Rationale Augmented Generation) — это метод, разработанный для улучшения возможностей больших языковых моделей в извлечении, понимании и применении специализированных знаний!

🌟 Он направлен на построение последовательной логики рассуждений, что позволяет LLM постепенно приходить к точным ответам, особенно в сложных промышленных приложениях.

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

✔️ Подтвержден выпуск Claude 3.7 Sonnet

AWS Badrock готовятся разместить новую версию Sonnet 3.7, которая, скорее всего, будет анонсирована сегодня во время мероприятия Amazon.

* Модель в настоящее время скрыта и не отображается в пользовательском интерфейсе

Инсайдеры раскопали, что модель достигает SOTA в кодинге, агентных способностях, сложном рассуждении и генерации контента.

Благодаря высокой производительности и контролю над скоростью работы, Claude 3.7 Sonnet заточена для реализации AI-агентов и комплексных AI-решений.

Источник: https://archive.is/BkvLb

@data_analysis_ml - подпистаться

Читать полностью…

Анализ данных (Data analysis)

🗼Многоязычный LLM с поддержкой 25 языков, выпущенный командой Alibaba DAMO

✨ 9B/83B
✨ Поддерживает 25 языков: Английский, китайский, хинди, испанский, арабский, французский, бенгальский, португальский, русский, урду, индонезийский, немецкий, японский, суахили, филиппинский, тамильский, вьетнамский, турецкий, итальянский, яванский, корейский, хауса, персидский, тайский и бирманский.

▪Модель
: https://huggingface.co/collections/Tower-Babel/babel-67c172157372d4d6c4b4c6d5
▪Paper: https://huggingface.co/papers/2503.00865

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📌 PyTorch: новые инструменты для для экономии памяти при обучении моделей.

PyTorch представил усовершенствованные методы Activation Checkpointing (AC), цель которых - снижение потребления памяти при обучении.

Традиционный подход в eager mode сохраняет промежуточные активации для обратного прохода, что зачастую приводит к значительному расходу ресурсов. AC позволяет не сохранять эти тензоры, а вычислять их заново при необходимости, тем самым жертвуя вычислительным временем ради экономии памяти.

Новая техника – Selective Activation Checkpoint (SAC). В отличие от обычного AC, который затрагивает всю выбранную область, SAC дает гранулярный контроль над тем, какие операции следует пересчитывать, а какие – сохранять. Это достигается за счет использования policy_fn, определяющей, нужно ли сохранять результаты конкретной операции. SAC будет полезен для избегания перевычисления ресурсоемких операций, например, матричных умножений.

Для torch.compile стала доступна Memory Budget API. Эта функция автоматически применяет SAC с оптимальной политикой, исходя из заданного пользователем бюджета памяти (от 0 до 1). Бюджет 0 соответствует обычному AC, а 1 – поведению torch.compile по умолчанию.

🔜 Читать подробную статью в блоге Pytorch


@ai_machinelearning_big_data

#AI #ML #Pytorch

Читать полностью…

Анализ данных (Data analysis)

Хотите получить много практики на рельных задачах, собрать портфолио и узнать как выглядит рабочий день аналитика?

CEO Simulative и эксперт с большим опытом в аналитике, Андрон Алексанян организовал бесплатный интенсив, где в течение 3 недель вы будете решать реальные задачи, с которыми аналитики сталкиваются на работе

На прямых эфирах вы сделаете:
🟠ABC анализ ассортиментной матрицы в Excel
🟠Анализ активности пользователей с помощью SQL
🟠Анализ маркетинговых активностей с помощью Python

Во время эфиров вы узнаете много лайфхаков, а также будете получать полезные материалы для развития в аналитике на протяжении всего интенсива

❗️Знать Python и SQL не обязательно — все будем разбирать с нуля

🕗Встречаемся на первом эфире уже завтра, 6 марта в 19:00 по мск

Участвовать в бесплатном интенсиве

Читать полностью…

Анализ данных (Data analysis)

⚡ Verl – Volcano Engine Reinforc
ement Learning for LLMs

Проект, объединяющий методы обучения с подкреплением для улучшения работы языковых моделей.

Отличается экспериментальным подходом и перспективой интеграции с популярными LLM.

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📖 В этой статье авторы изучают, могут ли большие языковые модели решать задачи по определению неотрицательности многочленов!

🌟 Авторы создали набор данных SoS-1K с 1000 задачами разной сложности и обучили модель SoS-7B, которая превзошла более крупные LLM, такие как DeepSeek-V3 (671B) и GPT-4o-mini. Результаты показали, что без инструкций точность моделей была около 50%, но с правильными инструкциями она возрастала до 81%.

🔗 Ссылка: *клик*

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Agentic Reward Modeling: Интеграция человеческих предпочтений с проверяемыми сигналами корректности для надежных систем вознаграждения!

💡 Данный репозиторий представляет собой реализацию системы вознаграждения, объединяющей модели вознаграждения с проверяемыми сигналами корректности из различных аспектов для обеспечения надежных вознаграждений. В частности, реализован агент вознаграждения под названием RewardAgent, который сочетает вознаграждения на основе человеческих предпочтений с двумя проверяемыми сигналами: фактичностью и следованием инструкциям, что обеспечивает более надежные вознаграждения.

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💥 Повышайте точность ML-моделей!

Для достижения высокой точности в ML часто используют не одну, а несколько моделей, объединяя их в ансамбли. 

Записывайтесь на бесплатный вебинар, где мы на практике разберём популярные методы ансамблирования:
- Бэггинг снижает дисперсию модели, делая её устойчивее
- Градиентный бустинг усиливает предсказания, обучая модели на ошибках

📅 Встречаемся онлайн 17 марта в 18:00 мск. Открытый урок пройдёт в преддверии старта курса «Специализация Machine Learning», а все участники получат скидку на обучение.

➡️ Ссылка для регистрации: https://otus.pw/znbk/?erid=2W5zFGn7i5v

#реклама
О рекламодателе

Читать полностью…

Анализ данных (Data analysis)

🎮 Дэнни Лименсата (Danny Limensata) сделал целую игру с помощью Grok 3, создав этот готический шутер в стиле ретро Doom с нуля.

На разработку ушло менее 24 часов, и выглядит он вполне приятно!

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 GHOST 2.0 – open-source модель переноса головы от Sber AI и AIRI.

На Habr вышла статья от разработчиков Sber AI и AIRI про свежее open-source решение по переносу головы на изображениях.

Авторы рассказали, как GHOST 2.0 решает задачу headswap без видимых артефактов, сохраняя реалистичность и соответствие геометрии исходного лица. Важный этап обработки – использование Kandinsky 2.2, который упрощает адаптацию данных перед финальной генерацией.

Среди других особенностей:

• Улучшенный контроль за точностью замены головы;
• Минимизация искажений при переносе текстур;
• Полный open-source: код доступен для экспериментов и интеграции.

🔗 Ссылка: *клик*

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🤖 Еще один день, еще один (китайский) гуманоидный робот: сегодня STAR1 демонстрирует возможности своего робота в задачах готовки.

При такой скорости развития.год роботы будут в наших домах в ближайшее время.

Читать полностью…

Анализ данных (Data analysis)

🔥 Это — подробное руководство по созданию и пониманию AI-агентов — автономных систем, которые могут анализировать информацию, принимать решения и выполнять задачи!

🔗 Ссылка: *клик*

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Победи DeepFake!

Участвуй в Kryptonite ML Challenge и создай решение для распознавания лиц. Призовой фонд – 600 000 рублей.

Регистрация до 28 февраля: https://cnrlink.com/kryptonitemldsmath

Приглашаем молодых специалистов и профессионалов в областях Data Science, Machine Learning и Computer Vision.

Тебе предстоит создать модель, которая умеет:
🔹 распознавать фальшивые изображения;
🔹 сравнивать реальные фотографии одного и того же человека;
🔹 различать снимки разных людей.

Участвуй и ты сможешь:
🔸 получить шанс разделить призовой фонд в 600 000 рублей;
🔸 разработать решения в области Machine Learning и Computer Vision;
🔸 прокачать скиллы в Computer Vision, Metric Learning и Face Recognition.

Этапы Kryptonite ML Challenge:
▪️ 1-28 февраля. Регистрация участников
▪️ 1 марта. Открытие хакатона
▪️ 1-9 марта. Работа над проектами
▪️ 16 марта. Питчинг и награждение победителей

Зарегистрируйся сейчас: https://cnrlink.com/kryptonitemldataanalysis?erid=2W5zFHUGRex

Реклама. АО "НПК "КРИПТОНИТ". ИНН 9701115253.

Читать полностью…

Анализ данных (Data analysis)

AI-буткемп от red_mad_robot: получи практические навыки в новых AI-профессиях NLP и MarkUp

red_mad_robot — технологическая компания с широкой экспертизой в запуске цифровых продуктов и бизнесов. Мы развиваем собственный центр исследований и разработки ИИ-решений и обучаем специалистов в сфере GenAI.

Сейчас мы запускаем AI-буткемп — это 4 недели интенсивной практики с экспертами red_mad_robot, которые помогут тебе освоить новые востребованные навыки в AI-разработке.

Ты можешь выбрать одно из двух направлений
– NLP-инженер — будешь работать с языковыми моделями (Chat GPT, LLaMA, Claude), настраивать промты, обрабатывать данные и тексты. Подойдёт аналитикам, разработчикам и тем, кто хочет работать с AI.
– MarkUp-инженер — занимается разметкой данных, генерацией контента и интеграцией с LLM. Полезно тестировщикам, техническим специалистам и тем, кто хочет автоматизировать рутинные задачи.

Что ждёт участников
– 80% практики — разметка, промпты, LLM, RAG.
– Поддержка от менторов — экспертов из red_mad_robot.
– Кейс в портфолио и востребованные навыки в сфере AI.

Приём заявок до 10 марта. Старт буткемпа — 17 марта.
Участие бесплатное, но с отбором.

Подробности и регистрация по ссылке.

Реклама ООО «РЭДМЭДРОБОТ МСК». ИНН 7703435262. erid 2VtzqvfBFfc.

Читать полностью…

Анализ данных (Data analysis)

🔍 Основы A/B тестирования для выбора ML модели

Узнайте, как правильно оценивать ML-модели с помощью A/B тестирования на практическом бесплатном вебинаре

В прямом эфире обсудим: 
— Особенности выбора ML модели с точки зрения оценки ее качества
— Как вычислять длительность A/B теста  
— Как интерпретировать результаты A/B тестирования  

📅 Занятие пройдет 3 марта в 20:00 мск. Все участники вебинара получат скидку на курс «Специализация Machine Learning»: С нуля до Middle ML инженера (Data Scientist) за 11 месяцев!

Успейте занять место на вебинаре: https://otus.pw/kw9k/?erid=2W5zFHQGKjn

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

Читать полностью…

Анализ данных (Data analysis)

🚀 Flashmla от deepeseek

DeepSeek представил MLA – революционное ускорение инференса LLM
DeepSeek выпустил свою реализацию MLA (Multi-head Latent Attention), которая значительно ускоряет работу больших языковых моделей (LLM) и существенно снижает требования к памяти. Вот как это работает:

Что такое MLA?
MLA – это инновационный механизм внимания, который использует технику «low-rank joint compression» для сжатия матриц «ключей» (K) и «значений» (V). Благодаря этому подходу достигается:

Снижение использования памяти до 93.3%: сжатие позволяет уменьшить объем данных, которые нужно хранить для каждого слоя внимания.
Увеличение пропускной способности до 5.76 раз: особенно заметно на длинных контекстах, где традиционные методы сталкиваются с проблемами масштабирования.
Основные принципы работы MLA
MLA впервые был представлен в публикации DeepSeek AI V2, где также описывалась их архитектура Mixture-of-Experts. Ключевые этапы работы метода «low-rank joint compression» MLA включают:

1️⃣ Проекция в латентное пространство:
Вместо хранения полных матриц K и V для каждой «головы» внимания, они проецируются в общее, низкоразмерное латентное пространство. Это позволяет существенно сократить объем необходимых данных.

2️⃣ Обучаемые латентные векторы:
MLA вводит набор обучаемых латентных векторов, число которых значительно меньше, чем размеры исходных матриц K и V. Эти векторы служат своего рода «ядром», которое хранит сжатую информацию.

3️⃣ Нелинейная проекция:
Ключи и значения проецируются в латентное пространство с использованием нелинейной функции, которая обучается вместе с моделью. Это позволяет адаптивно подбирать оптимальное сжатие в зависимости от задачи.

4️⃣ Восстановление «по требованию»:
При вычислении коэффициентов внимания происходит динамическое восстановление приближенных матриц K и V из сохраненных латентных векторов. Важно, что восстановление выполняется «по требованию», только для необходимых токенов, что экономит вычислительные ресурсы.

Техническая поддержка и оптимизация
DeepSeek также представил open-source CUDA ядра, оптимизированные для NVIDIA Hopper GPUs, что обеспечивает высокую производительность MLA на современном оборудовании. Ознакомиться с кодом и начать использовать оптимизированные ядра можно по ссылке: FlashMLA на GitHub.

https://github.com/deepseek-ai/FlashMLA

@data_analysis_ml

Читать полностью…
Subscribe to a channel