machinelearning_ru | Unsorted

Telegram-канал machinelearning_ru - Машинное обучение RU

17262

Все о машинном обучении админ - @haarrp @data_analysis_ml - анализ даннных @ai_machinelearning_big_data - Machine learning @itchannels_telegram -лучшие ит-каналы @pythonl - Python @pythonlbooks- python 📚 @datascienceiot - 📚 РКН: clck.ru/3FmrUw

Subscribe to a channel

Машинное обучение RU

⚡️ «R1-Omni: Explainable Omni-Multimodal Emotion Recognition with Reinforcing Learning» представляет собой исследовательскую работу от Alibaba

Основные идеи и новизна
Мультимодальное распознавание эмоций:

Проект нацелен на задачу распознавания эмоций с использованием данных из нескольких источников, в частности, визуальных и аудио сигналов. Это важно для создания систем, способных лучше понимать эмоциональное состояние человека.

Использование RLVR:
В работе впервые применяется метод обучения с подкреплением с проверяемой наградой (Reinforcement Learning with Verifiable Reward, RLVR) для оптимизации омни-мультимодальной большой языковой модели. Такой подход позволяет улучшить:

Способность к рассуждениям, что помогает модели лучше интерпретировать и анализировать входные данные.
Точность распознавания эмоций, благодаря чему система становится более надежной

Обобщающую способность, что проявляется в устойчивости модели при работе с данными, отличными от обучающих (out-of-distribution).


Благодаря улучшенной рассуждательной способности модели становится возможным анализировать вклад каждой модальности (визуальной и аудио) в процесс распознавания эмоций. Это открывает новые возможности для интерпретируемости и объяснимости работы сложных мультимодальных систем.

https://huggingface.co/papers/2503.05379

Читать полностью…

Машинное обучение RU

⚡️ PyTorch Tutorials

Pytorch плейлист с уроками, посвящённый нейронным сетям и основам глубокого обучения.

В серии видео автор наглядно демонстрирует, как работают нейронные сети, объясняет принципы алгоритмов обратного распространения ошибки и градиентного спуска, а также рассказывает о математических основах, лежащих в основе современных систем искусственного интеллекта.

Благодаря визуализациям и интуитивному подходу материал становится доступным как для новичков, так и для тех, кто хочет углубиться в тему машинного обучения.

Видео

Читать полностью…

Машинное обучение RU

🔥 Micro Agent — это инструмент командной строки, который использует возможности искусственного интеллекта для автоматической генерации и исправления кода!

💡 Его основная задача — создавать тесты и писать код, соответствующий этим тестам, обеспечивая разработчикам эффективный и надежный процесс разработки.

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru

Читать полностью…

Машинное обучение RU

✔️ OpenAI запускает программу NextGenAI.

OpenAI запускает NextGenAI — совместную программу с 15 НИИ, направленную на ускорение научных прорывов и трансформацию образования с использованием ИИ. OpenAI планирует выделить на финансирование исследований 50 млн. долларов.

Программа объединяет институты в США и за рубежом. Среди партнеров Калифорнийский технологический институт, Гарвардский университет и Массачусетский технологический институт, а также Бостонская детская больница и Бостонская публичная библиотека.

Цель NextGenAI — укрепить связи между академическими кругами и реальным сектором, гарантируя, что преимущества ИИ будут распространены на научные лаборатории и социально значимые проекты.
openai.com

✔️ Китай планирует запустить новую политику по продвижению архитектуры RISC-V.

Китай разрабатывает новую политику по расширению применения архитектуры микросхем с открытым исходным кодом RISC-V в попытке снизить свою зависимость от западных технологий микросхем.

В настоящее время многие учреждения разрабатывают чипы на базе RISC-V, а компании, например, Qualcomm уже создали специальные подразделения для популяризации этой архитектуры. Ожидается, что политика будет представлена ​​в этом месяце, а RISC-V станет альтернативой архитектурам x86 и ARM.
reuters.com

✔️ Stability AI и Arm: генеративный звук теперь на смартфонах и без интернета.

Stability AI в сотрудничестве с Arm представила возможность генерации высококачественных звуковых эффектов и аудиосэмплов прямо на мобильных устройствах, без необходимости подключения к интернету. Это стало возможным благодаря использованию библиотек Arm KleidiAI и технологии Stable Audio Open от Stability AI.

Так время генерации аудио на ARM-устройствах сократилось в 30 раз, с 240 до 8 секунд на процессорах Armv9. Увидеть демонстрацию работы Stable Audio Open можно будет на выставке MWC в Барселоне 3 марта 2025 года.
stability.ai

✔️ Operator от Opera: AI-агенты в браузере.

Opera анонсировала браузер Operator, который сам выполняет задачи пользователя в интернете. Он содержит встроенный ИИ-агент, способный покупать товары, искать информацию и выполнять другие действия по запросу пользователя. Operator также способен управлять подписками и онлайн-аккаунтами - он найдет все активные подписки и предложит отменить ненужные. Operator может автоматически оплачивать счета и загружать банковские выписки.

В отличие от обычных браузеров, Operator анализирует DOM Tree и структуру страницы, чтобы быстро и эффективно выполнять задачи. Пользователь может видеть весь процесс и контролировать его.
Operator скоро станет доступен в рамках программы Opera Feature Drop.
blogs.opera.com

✔️ Amazon готовится выпустить конкурента GPT-o

Amazon разрабатывает новую модель ризонинга - Nova, которая должна составить конкуренцию OpenAI и Anthropic. Релиз Nova запланирован в июне этого года и будет отличаться высокой производительностью и экономической эффективностью.

Amazon ставит перед собой цель войти в топ-5 лучших ИИ-моделей по результатам внешних оценок, с фокусом в задачах, связанных с разработкой программного обеспечения и математическим мышлением. Разработкой занимается команда AGI под руководством Rohit Prasad.
businessinsider.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Машинное обучение RU

🔥 Huginn — это система с открытым исходным кодом для создания агентов, которые выполняют автоматические задачи в интернете от вашего имени!

💡 Эти агенты могут читать веб-страницы, отслеживать события и предпринимать действия на основе заданных условий. Huginn позволяет создавать и настраивать агентов, которые генерируют и потребляют события, распространяя их по направленному графу. Это похоже на настраиваемую версию сервисов, таких как IFTTT или Zapier, но с полным контролем над данными и процессами на вашем собственном сервере.

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru

Читать полностью…

Машинное обучение RU

🔥 Epigram — это открытый и бесплатный новостной агрегатор, использующий искусственный интеллект для предоставления кратких и понятных сводок новостей из надежных источников!

🌟 Платформа позволяет пользователям получать персонализированную ленту новостей, основанную на их интересах, и предоставляет возможность углубленного анализа статей с помощью AI. Интерфейс Epigram интуитивно понятен и адаптирован для использования на различных устройствах, обеспечивая удобный доступ к новостям в любое время и в любом месте.

🔐 Лицензия: AGPL-3.0

🖥 Github

@machinelearning_ru

Читать полностью…

Машинное обучение RU

🌟 MatAnyone: модель для выделения по маске людей на видео.

MatAnyOne - memory-based модель для видео-маттинга, разработанная для получения стабильных и точных результатов в сценариях реального постпродакшена. В отличие от методов, требующих дополнительного аннотирования, MatAnyOne использует только кадры видео и маску сегментации целевого объекта, определенную на первом кадре.

MatAnyOne оперирует регионально-адаптивным слиянием памяти, где области с небольшими изменениями сохраняют данные из предыдущего кадра, а области с большими изменениями больше полагаются на информацию из текущего кадра. Такая техника позволяет MatAnyOne эффективно отслеживать целевой объект, даже в сложных и неоднозначных сценах, сохраняя при этом четкие границы и целые части переднего плана.

При создании модели применялась уникальная стратегия обучения, которая опирается на данные сегментации для улучшения стабильности выделения объекта. В отличие от распространенных практик, MatAnyOne использует эти данные непосредственно в той же ветви, что и данные маски. Это достигается путем применения регионально-специфичных потерь: пиксельная потеря для основных областей и улучшенная DDC-потеря для граничных областей.

Для обучения был специально создан кастомный набор данных VM800, который вдвое больше, разнообразнее и качественнее, чем VideoMatte240K, что по итогу значительно улучшило надежность обучения объектному выделению на видео.

В тестах MatAnyOne показал высокие результаты по сравнению с существующими методами как на синтетических, так и на реальных видео:

🟠На VideoMatte и YouTubeMatte, MatAnyOne - лучшие результаты по MAD (средняя абсолютная разница) и dtSSD (расстояние преобразования формы);

🟢В бенчмарке с реальными видео MatAnyOne достиг MAD 0.18, MSE 0.11 и dtSSD 0.95, что значительно лучше, чем у RVM10 (MAD 1.21, MSE 0.77, dtSSD 1.43) и MaGGIe12 (MAD 1.94, MSE 1.53, dtSSD 1.63.


⚠️ Согласно обсуждению в issues репозитория, MatAnyOne способен работать локально от 4 GB VRAM и выше с видео небольшой длительности. Реальных технических критериев разработчик не опубликовал.

▶️Локальная установка и запуск web-demo на Gradio:

# Clone Repo
git clone https://github.com/pq-yang/MatAnyone
cd MatAnyone

# Create Conda env and install dependencies
conda create -n matanyone python=3.8 -y
conda activate matanyone

pip install -e .

# Install python dependencies for gradio
pip3 install -r hugging_face/requirements.txt

# Launch the demo
python app.py


📌Лицензирование: S-Lab License 1.0.


🟡Страница проекта
🟡Модель
🟡Arxiv
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VideoMatte #MatAnyone

Читать полностью…

Машинное обучение RU

✔️ OpenAI открыла доступ к Advanced Voice для всех.

С 26 февраля Advanced Voice на базе GPT-4o mini доступна бесплатным пользователям ChatGPT на всех платформах.

Free tier имеет ежедневные ограничения на использование входных и выходных аудиоданных. Пользователи ChatGPT Plus могут использовать полную версию Advanced Voice на основе GPT-4o с дневным лимитом, который в 5 раз превышает лимит бесплатной версии, и могут продолжать использовать функции видео и демонстрации экрана в расширенном голосовом режиме. Подписчики ChatGPT Pro не имеют дневного лимита.
OpenAI в X

✔️ Microsoft Copilot voice и deepthink теперь бесплатны и не имеют ограничений.

Microsoft открыла всем пользователям бесплатный доступ к функциям «Think Deeper» и голосовому управлению Copilot, а также снимет предыдущие ограничения на использование для бесплатных пользователей. Это означает, что пользователи могут вести неограниченное количество "бесед" и голосовых взаимодействий с Copilot. Think Deeper работает на основе модели логического вывода OpenAI o1, которую Microsoft сделала бесплатной в прошлом месяце.
microsoft.com

✔️ Hume AI открыла доступ к Octave: ТTS-модель, которая умеет говорить с эмоциями.

Octave, TTS-модель, анонсированная в конце декабря 2024 года, стала доступной через web и API. Модель умеет не просто "читать" слова, а понимает их смысл в контексте. Octave способна отыгрывать персонажей, генерировать голоса по запросу и изменять эмоциональную окраску и стиль речи.

Благодаря функции Voice Design, Octave может создать любой ИИ-голос по текстовому описанию. От "терпеливого, чуткого консультанта с голосом ASMR" до "средневекового рыцаря" – Octave воплотит любую фантазию. В ближайшем будущем планируется запуск функции клонирования голоса.

В ходе слепого сравнительного исследования, Octave превзошла систему ElevenLabs Voice Design по качеству звука (71,6%), естественности (51,7%) и соответствию голоса заданному описанию (57,7%).
hume.ai

✔️DeepSeek снижает цены на использование своих AI-моделей в непиковые часы.

DeepSeek объявил о введении скидок до 75% на использование своих AI-моделей в непиковые часы. Это решение может оказать давление на конкурентов как в Китае, так и за рубежом, вынуждая их пересматривать свои ценовые стратегии. Согласно информации на сайте компании, в период с 16:30 до 00:30 по Гринвичу стоимость использования API DeepSeek будет значительно снижена. Для моделей R1 и V3 скидки составят 75% и 50% соответственно.
reuters.com

✔️ SSD Samsung Pro-серии Gen 5 PCIe поступят в продажу в марте.

Samsung выпустит первую потребительскую серию PCIe 5.0 SSD 9100 Pro в марте. Впервые среди NVMe SSD от Samsung в линейке будет модель с 8 ТБ (ожидается, что будет доступен во второй половине 2025 года). В спецификации M.2 предусмотрены две дополнительные версии с радиатором или без него, с тремя конфигурациями: 1 ТБ (199,99 долл. США), 2 ТБ (299,99 долл. США) и 4 ТБ (549,99 долл. США).

Серия 9100 Pro демонстрирует значительные улучшения: в ней используется специализированный контроллер и флэш-память V-NAND TLC 7-го поколения. В синтетических тестах скорости последовательного чтения и записи достигают 14,8 ГБ/с и 13,4 ГБ/с, что вдвое больше, чем у предыдущего поколения 980 Pro и примерно на 2–3 ГБ/с быстрее, чем у конкурирующих продуктов, а производительность случайного чтения и записи улучшена до 2200 тыс./2600 тыс. IOPS, что более чем 2х превышает показатели PCIe 4.0.
news.samsung.com

✔️ Свежий релиз Microsoft Phi‑4 mini instruct — это компактная, оптимизированная модель на 3.8 млрд параметров, оптимизированная для вычислительно ограниченных сред
Hf

@ai_machinelearning_big_data

#news #ai #ml #microsoft #openai #DeepSeek

Читать полностью…

Машинное обучение RU

🔥Google сделали Gemini Code Assist бесплатным для всех стран.

🌐 Поддержка всех языков программирования в открытом доступе
💡 Окно контекста 128K токенов

https://blog.google/technology/developers/gemini-code-assist-free/

@ai_machinelearning_big_data

Читать полностью…

Машинное обучение RU

⚡️ EasyR1 – эффективный и масштабируемый фреймворк для обучения с подкреплением (RL) с поддержкой мультимодальных данных.

Чем интересен EasyR1?
EasyR1 сочетает в себе алгоритм GRPO, продемонстрированный в DeepSeek R1, и расширение системы veRL для поддержки vision-language моделей, таких как Qwen2.5-VL.

Уже после 30 шагов обучения фреймворк показал прирост производительности на 5% в экспериментах на тестовом наборе Geometry3k.

Это делает его привлекательным инструментом для исследователей и разработчиков, работающих с задачами, где объединяются визуальные и текстовые данные.

Фреймворк спроектирован так, чтобы быть масштабируемым и легко интегрироваться с различными алгоритмами RL, что открывает широкие возможности для дальнейших исследований.

Ожидайте будущих обновлений – в них планируется интеграция дополнительных алгоритмов RL и новых архитектур VLM.

Github

@ai_machinelearning_big_data


#EasyR1 #opensource #GRPO #VLM

Читать полностью…

Машинное обучение RU

🚀 Как изменить свою жизнь и начать новую карьеру в сфере машинного обучения?

На бесплатном практическом вебинаре по машинному обучению от онлайн-школы karpov courses можно узнать:

— Кто такой ML-инженер простыми словами с реальными примерами задач;
— Как понять, что вам подходит сфера машинного обучения;
— Как стать специалистом в этой востребованной области и сколько реально зарабатывать на своем деле;
— Зачем вообще бизнесу нужен ML?

Узнайте, как развиваться от новичка до уровня senior, какие навыки нужны и КАК рисовать котиков на практике 🐾

При чем тут котики? Запишитесь на вебинар и узнай: https://clc.to/kYDURg

Читать полностью…

Машинное обучение RU

🌟 Генерация изображений байесовскими методами.

Исследователи из Мюнхенского университета предложили методику генерации изображений, основанную на байесовском выводе. Экспериментальная модель, которая получила название Bayesian Sample Inference (BSI), имитирует процесс постепенного уточнения данных: ее инференс начинается с «размытого» представления об изображении и последовательно корректируется с использованием шумовых измерений до финального результата. По заверениям авторов, их метод позволяет точнее воспроизводить распределение данных, чем классические решения на основе диффузии.

BSI-модель стартует с априорного распределения, где начальная точность намеренно задаётся низкой — это эквивалентно «размытой картинке», покрывающей всё множество возможных изображений. На каждом шаге генерации, предиктор, построенный на U-Net или ViT, анализирует текущий промежуточный «результат» и генерирует оценку соответствия относительно "идеального" изображения, который, в свою очередь, участвует в пересчете среднего значения и точности для следующего шага генерации.

Такой подход позволяет BSI-модели балансировать между имеющимися знаниями и новыми данными, избегая переобучения и сохраняя разнообразие генерации. Эксперименты выявили, что BSI сохраняет разнообразие сгенерированных образцов даже при малом числе шагов — это выгодно отличает её от аналогов, склонных к «повторяющимся» генерациям.

BSI напрямую сравнивали с диффузионными VDM- и EDM-моделями и BFNs. Оказалось, что BSI-архитектура не только включает BFNs как частный случай, но и превосходит их в тестах на правдоподобие. Например, на наборах CIFAR10 и ImageNet BSI показала лучшие результаты, достигнув 2.64 (BFNs) и 3.22 (VDM) бит на измерение соответственно, но не смогла превзойти модели с точным расчетом правдоподобия (i-DODE).

Эта новая потенциально методика может стать гейм-чейнджером для генерации изображений.

▶️ Практическая реализация метода доступна в репозитории проекта на Github, где представлены инструменты для инференса, обучения и файнтюнинга.


📌Лицензирование: MIT License.


🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Bayesian #GenAI

Читать полностью…

Машинное обучение RU

✔️ DeepSeek откроет исходный код 5 проектов на следующей неделе.

DeepSeek запустил мероприятие OpenSourceWeek и на следующей неделе откроет исходный код в пяти репозиториях, чтобы поделиться своими достижениями в исследовании AGI. Начиная с понедельника DeepSeek будет каждый день открывать исходный код нового проекта. Каждый проект был проверен в реальных онлайн-сервисах и имеет полную документацию.
Deepseek в X

✔️ OpenAI разоблачила китайские кампании, использующие ИИ для распространения дезинформации.

OpenAI выявила и пресекла 2 попытки использования своих инструментов искусственного интеллекта в рамках китайских кампаний влияния. Согласно опубликованному отчету OpenAI, одна из кампаний, названная "sponsored discontent", использовала ChatGPT для создания англоязычных комментариев, атакующих китайского диссидента Цай Ся. Часть этих материалов была размещена на платформе X, а статьи появились на различных новостных сайтах Латинской Америки, иногда в качестве спонсируемого контента.

Другая кампания, получившая название "peer review", включала использование ChatGPT для создания маркетинговых материалов инструмента мониторинга социальных сетей, который, по утверждениям создателей, использовался для отправки отчетов о протестах китайским службам безопасности. Найденные аккаунты заблокированы.
openai.com

✔️ Фреймворк S* улучшает генерацию кода.

Исследователи из Калифорнийского университета представили фреймворк S*, который значительно повышает качество и надежность кода, создаваемого языковыми моделями. S* использует одновременно параллельное и последовательное масштабирование, позволяя системе не только генерировать несколько вариантов кода, но и последовательно улучшать их за счет систематической отладки.

Ключевая особенность - использование "адаптивного синтеза входных данных". В процессе тестирования модель GPT-4o mini создает специальные тестовые входные данные, которые помогают выявить различия между разными версиями генерации. Это позволяет анализировать результаты и выбирать наиболее эффективное решение.

Даже небольшие модели, в тестах - Qwen2.5-7B-Coder-Instruct, с использованием S* показывают результаты на 10% лучше, чем более мощные модели без этого фреймворка. В некоторых случаях они даже превосходят GPT-4o mini. Однако, пока S* оптимизирован только для задач программирования в рамках соревнований, и его применение в более сложных инженерных проектах еще не изучено.
arxiv.org

✔️ SigLIP 2: улучшенный мультиязычный VL энкодер от Google.

Google выпустила новое поколение SigLIP 2, которое превосходит предыдущие версии в задачах классификации, поиска изображений и текста, а также в создании визуальных представлений для VLMs. В новой версии энкодера улучшено семантическое понимание, локализации и dense features. Модели семейства теперь лучше справляются с задачами, требующими тонкого анализа изображений и текста.

Ключевая особенность SigLIP 2 - поддержка динамического разрешения (naflex), что полезно для задач, чувствительных к изменению пропорций и разрешения изображений. Новые модели, включая варианты с динамическим разрешением, уже доступны для использования через библиотеку Hugging Face.
huggingface.co

✔️ ElevenLabs поможет миллиону людей вернуть свой голос.

ElevenLabs расширяет свою программу Impact Program, чтобы помочь людям, потерявшим голос из-за тяжелых заболеваний. В прошлом году программа была запущена для пациентов с боковым амиотрофическим склерозом, а теперь ее поддержку смогут получить люди, страдающие от множественной системной атрофии и рака полости рта.

В сотрудничестве с организациями MSA Trust, Mission MSA и Mouth Cancer Foundation, ElevenLabs предоставляет бесплатный доступ к своим инструментам для создания цифровых копий голоса. Пациенты получают пожизненный доступ к этим технологиям, а больные раком полости рта могут подать заявку на бесплатный Pro-план, чтобы сохранить свой голос до потери речи.
ElevenLabs ставит перед собой амбициозную цель — помочь миллиону человек через Impact Program.
elevenlabs.io

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Машинное обучение RU

🌟 InfiniteHiP: расширение контекста LLM до 3 млн. токенов на одном GPU.

InfiniteHiP - опенсорсный инструмент, разработанный сервисом deepauto.ai, который позволяет значительно расширить контекст LLM, обрабатывая до 3 миллионов токенов на одном GPU.

InfiniteHiP использует модульный иерархический алгоритм прунинга токенов, динамически отсеивая нерелевантные элементы контекста. Это позволяет ускорить обработку и обойти ограничения GPU по памяти, перенося KV-кэш в память хоста.

Прунинг-модули алгоритма избирательно отбрасывают менее важные входные токены, опираясь на разреженность шаблонов и пространственную локализацию в матрицах внимания LLM.

Алгоритм делит входную последовательность на чанки фиксированной длины и определяет аппроксимированный top-1 токен с наивысшим attention score в каждом чанке. Затем только top-K наиболее значимых чанков передаются в следующий модуль, а остальные отбрасываются.

Максимально эффективная реализация InfiniteHiP на SGLang фреймворке показывает 7.24-кратное ускорение в end-to-end декодировании на контексте в 3 млн. при использовании всего 3.34% VRAM, необходимой для Flash Attention 2.

InfiniteHiP превосходит существующие методы в задачах QA по объемным документам, обобщении и в мульти-шот ризонинге. HiP демонстрирует отличные OOL (out-of-likelihood) способности, сохраняя производительность при увеличении длины контекста, в то время как другие методы на таких задачах ощутимо деградируют.

InfiniteHiP может использоваться с любыми моделями на архитектуре Transformers.

▶️ Локальная установка и использование:

git clone git@github.com:DeepAuto-AI/hip-attention.git
cd hip-attention

conda create --name hip python=3.11
conda activate hip

pip install -e "."
# Optional for development
pip install -e ".[dev]"

# Optional, depends on your CUDA environment
export CUDACXX=/usr/local/cuda/bin/nvcc
# Dependencies that requires --no-build-isolation
pip install -e ".[no_build_iso]" \
--no-build-isolation \
--verbose
# SGLang with OpenAI API support for serving
pip install -e ".[sglang]" \
--no-build-isolation \
--verbose \
--find-links https://flashinfer.ai/whl/cu124/torch2.4/flashinfer/

# Access the `hip` package from any project
import torch
from hip import hip_attention_12, HiPAttentionArgs12

device = 'cuda'

batch_size = 1
kv_len = 128 * 1024
q_len = 32 * 1024
num_heads = 32
num_kv_heads = 8
head_dims = 128
dtype = torch.bfloat16

q = torch.randn(
(batch_size, q_len, num_heads, head_dims),
dtype=dtype,
device=device
)
k = torch.randn(
(batch_size, kv_len, num_kv_heads, head_dims),
dtype=dtype,
device=device,
)
v = k.clone()

output, metadata = hip_attention_12(q=q, k=k, v=v, args=HiPAttentionArgs12())
print(output.shape)

# > torch.Size([1, 32768, 32, 128])


📌Лицензирование: FSL-1.1-MIT


🟡Arxiv
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #InfiniteHiP #Framework

Читать полностью…

Машинное обучение RU

⭐️ R1 1776 — это дообученная версия модели DeepSeek‑R1 от Perplexity AI, созданная для устранения цензуры КПК.

Модель обеспечивает объективную, точную и фактологически достоверную информацию, сохраняя высокие аналитические и математические способности. Для проверки «несанированности» её ответов используется многоязычный набор тестовых примеров, охватывающий свыше 1000 чувствительных тем.

https://huggingface.co/perplexity-ai/r1-1776

@machinelearning_ru

Читать полностью…

Машинное обучение RU

📌LADDER: как научить LLM решать сложные задачи без учителя.

Tufa Labs опубликовала пейпер фреймворка LADDER, который дает возможность языковым моделям самостоятельно улучшать навыки решения сложных задач.

Технология имитирует человеческое обучение: ИИ разбивает проблемы на простые шаги, создаёт «учебный план» из упрощённых вариантов и постепенно наращивает мастерство решения. Например, модель Llama 3.2 с 3 млрд. параметров, изначально решавшая лишь 1% интегралов студенческого уровня, после обучения по методу LADDER достигла 82% точности.

Самые интересные результаты LADDER показал на тесте MIT Integration Bee — ежегодном соревновании по интегральному исчислению. На нем модель Qwen2.5 (7B), доработанная с помощью LADDER, набрала 73%, обойдя GPT-4o (42%) и большинство студентов, а с применением TTRL — результат вырос до 90%. Это превзошло даже показатели OpenAI o1, хотя последний не использовал числовую проверку решений.

TTRL (Test-Time Reinforcement Learning) — это метод «микрообучения», который позволяет языковым моделям адаптироваться к сложным задачам прямо во время их решения.


В основе LADDER - принцип рекурсивной декомпозиции: модель разбивает непосильную задачу на цепочку постепенно усложняющихся шагов, создавая собственную «учебную программу». Столкнувшись со сложным интегралом, ИИ генерирует его упрощённые версии — снижает степень полинома, убирает дробные коэффициенты или заменяет составные функции базовыми. Каждый такой вариант становится ступенью, ведущей к решению целевой задачи.

Работа фреймворка делится на три этапа:

Первый — генерация «дерева вариантов»: модель создаёт десятки модификаций задачи, ранжируя их по сложности.

Второй — верификация: каждое решение проверяется численными методами (например, сравнение значений интеграла в ключевых точках).

Третий — обучение с подкреплением: система поощряет успешные стратегии, используя баллы за правильные ответы и штрафуя за ошибки.

Дополняющее применение TTRL позволяет проводить «экспресс-тренировки» прямо во время теста: ИИ генерирует варианты конкретной задачи и адаптируется к ней за секунды, не требуя вмешательства человека.


🟡Arxiv

@ai_machinelearning_big_data

#AI #ML #RL #LADDER #Paper

Читать полностью…

Машинное обучение RU

🌟 AMD Instella: открытая языковая модель, обученная на ROCm и оборудовании AMD.

Instella - полностью опенсорсная модель с 3 млрд. параметров, обученная с нуля на GPU AMD Instinct MI300X. Instella не только превосходит существующие LLM сопоставимого размера, но и показывает конкурентоспособную производительность по сравнению с Llama-3.2-3B, Gemma-2-2B и Qwen-2.5-3B.

Разработка Instella основана на опыте AMD с OLMo, на которой была доказана возможность обучения LLM на стеке AMD. В процессе создания Instella прошлые наработки были масштабированы для создания модели с 3 млрд. параметров. Она обучалась на 128 GPU MI300X с использованием 4,15 трлн. токенов. В процессе применялись методы FlashAttention-2, Torch Compile и FSDP с гибридным шардированием.

Процесс обучения Instella состоял из 4-х этапов, постепенно наращивая возможности модели от базового понимания естественного языка до следования инструкциям и соответствия предпочтениям человека.

Первый этап претрейна задействовал 4 трлн. токенов из набора данных OLMoE-mix-0924 (код, академические тексты, математика и общие знания). Второй этап - 57 млрд. токенов из датасетов Dolmino-Mix-1124 и SmolLM-Corpus (python-edu).

На третьем этапе проводилась SFT модели с использованием 8,9 млрд. токенов текстовых пар "инструкция-ответ". Наконец, для приведения модели в соответствие с предпочтениями человека был выполнен четвертый этап - DPO модели Instella-3B-SFT с использованием 0,76 млрд токенов.

Instella получила 36 слоев, каждый из которых имеет 32 attention heads и поддерживает длину последовательности до 4096 токенов.

Финальный вариант Instella-3B превосходит существующие открытые модели в среднем на 8,08%.

▶️ Состав релиза:

🟢Instella-3B-Stage1 - претрейн-чекпоинт после первого этапа обучения;
🟢Instella-3B - чекпоинт после второго этапа;
🟢Instella-3B-SFT - версия модели после SFT;
🟢Instella-3B-Instruct - финальная версия после DPO;
🟠Instella-GSM8K-synthetic - датасет, использованный на 2 этапе обучения;
🟠Код для трейна и инференса


📌 Лицензирование: ReasearchRAIL License.


🟡Статья
🟡Коллекция на HF
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #RoCM #AMD #Instella

Читать полностью…

Машинное обучение RU

Теперь мы можем запустить AGI дома!! 🤯

Читать полностью…

Машинное обучение RU

CogView4-6B – свежая Text2Image
Модель генерации изображений, разработанный командой THUDM.

По качеству она конкурирует с flux/lumina.

Архитектура модели 6B DIT и 9B TextEncoder Демка показывает очень высокое качество следования заданному промпту.

CogView4 поддерживает очень длинный контекст.

Генерирует изображения от 512 до 2048 пикселей.

Ввод на китайском, и на английском.

Лицензия
: Apache 2.0

Model: https://huggingface.co/THUDM/CogView4-6B
Demo: https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
Github: https://github.com/THUDM/CogView4
Paper: https://arxiv.org/abs/2403.05121

@ai_machinelearning_big_data


#AI #CogView4 #OpenSource #TextToImage

Читать полностью…

Машинное обучение RU

✔ Разбор задач с собеседований по статистике для Дата Саентистов

В современных собеседованиях на позицию Data Scientist кандидатов проверяют не только практические навыки программирования, но и глубокое понимание статистических методов.

В данной статье рассмотрены часто встречающиеся задач, которые могут встретиться на интервью. Разберём каждую задачу с теоретической точки зрения, а также продемонстрируем пример кода на Python.

📌 Читать

@machinelearning_ru

Читать полностью…

Машинное обучение RU

🔥Phi-4-multimodal-instruct — это легковесная открытая мультимодальная модель, разработанная Microsoft!

🌟 Она способна обрабатывать текстовые, визуальные и аудио входные данные, генерируя текстовые выходы. Модель поддерживает контекст длиной до 128 тысяч токенов и была улучшена с помощью методов, таких как супервизорное дообучение, прямая оптимизация предпочтений и обучение с подкреплением на основе обратной связи от человека (RLHF), что обеспечивает точное следование инструкциям и повышенные меры безопасности!

🔗 Ссылка: *клик*

@machinelearning_ru

Читать полностью…

Машинное обучение RU

📚 Эта статья представляет новый метод, направленный на развитие способности больших языковых моделей (LLM) генерировать длинные цепочки рассуждений (LongCoT) без использования дистилляции знаний из существующих моделей или дорогостоящих человеческих аннотаций!

🔗 Ссылка: *клик*

@machinelearning_ru

Читать полностью…

Машинное обучение RU

OpenAI расширили доступ к DeepResearch для пользователей с подпиской до $200, теперь они могут использовать 10 запросов в месяц.

Пользователи с Pro подпиской также получат небольшое улучшение — теперь они могут делать 120 запросов вместо 100.

Кроме того, внесены и другие улучшения:

- Ответы могут включать изображения, обнаруженные в ходе исследования.
- Обновлённая обработка файлов упрощает использование загруженных PDF или Excel файлов в качестве контекста.
Эти изменения направлены на повышение эффективности работы с информацией и улучшение пользовательского опыта.

https://x.com/OpenAI/status/1894454194943529433

Читать полностью…

Машинное обучение RU

🔥 Dify — это платформа с открытым исходным кодом для создания и развертывания AI-приложений на основе больших языковых моделей!

💡 Она предлагает удобный интерфейс для построения AI-воркфлоу, работы с RAG (retrieval-augmented generation), создания агентов и интеграции с популярными моделями, такими как GPT, Llama 3 и Mistral. Dify позволяет разрабатывать AI-приложения без сложного программирования, предоставляя инструменты для тестирования, оптимизации и мониторинга моделей.

🔐 Лицензия: Apache-2.0

🖥 Github

@machinelearning_ru

Читать полностью…

Машинное обучение RU

🖥 LLM Functions — это проект с открытым исходным кодом, предназначенный для упрощения создания инструментов и агентов на основе больших языковых моделей с использованием языков программирования, таких как Bash, JavaScript и Python!

🌟 Он позволяет разработчикам легко интегрировать LLM с пользовательским кодом, что открывает широкие возможности для выполнения системных команд, обработки данных, взаимодействия с API и многого другого.

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru

Читать полностью…

Машинное обучение RU

🌍✨ Учебное пособие по Leafmap

Из него вы узнаете, как без труда наносить на график десятки тысяч точек с помощью пользовательских стилей, используя всего несколько строк кода!

🎥 Смотреть: https://youtu.be/F3NzZMIhff4
📓 Код: https://leafmap.org/notebooks/104_point_style

#geospatial #leafmap #mapping

Читать полностью…

Машинное обучение RU

🔥 lms — это командная строка (CLI) для управления LM Studio, разработанная с использованием lmstudio.js. Она предоставляет различные команды для взаимодействия с LM Studio, такие как проверка статуса, запуск и остановка локального API-сервера, управление загруженными моделями и создание новых проектов с использованием SDK LM Studio.

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru

Читать полностью…

Машинное обучение RU

🔥 Это — бесплатный курс по диффузионным моделям и согласованиям потоков для машинного обучения, ориентированный на техническую аудиторию без предварительного опыта в этой области! Авторы стремятся максимально упростить математические детали, сохраняя при этом достаточную точность для вывода корректных алгоритмов.

🔗 Ссылка: *клик*

#курс #machinelearning

Читать полностью…

Машинное обучение RU

📚 В этой статье обсуждается ограниченность современных методов машинного обучения в отношении неопределенности Найта — типов неопределенности, которые невозможно количественно оценить!

🌟 Авторы утверждают, что существующие формализмы ML, такие как обучение с подкреплением, не учитывают неизвестные и непредсказуемые изменения в открытом мире, что снижает их устойчивость к неожиданным ситуациям. В отличие от этого, биологическая эволюция успешно справляется с такими неопределенностями, создавая организмы, способные адаптироваться к новым и непредсказуемым условиям.

🔗 Ссылка: *клик*

@machinelearning_ru

Читать полностью…

Машинное обучение RU

Вот для чего Маску на самом деле нужен Grok3.

@machinelearning_ru

Читать полностью…
Subscribe to a channel