First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @haarrp
коллеги из университета Циньхуа выпустили работу под названием Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? (А точно ли обучение с подкреплением расширяет мыслительные возможности моделей?)
в ней они приходят к выводу, что нет, базовая модель остается лучше на длинной дистанции; я высказывал такого рода сомнение еще про Qwen, но тут уже полноценное подтверждение; отдельно хочу выразить восхищение визуальным оформлением результатов, очень доходчиво
🤖 Исследователи представили универсальный метод атаки на LLM под названием «Policy Puppetry»
Как сообщают исследователи из HiddenLayer, им удалось разработать универсальную методику prompt injection, которая позволяет обходить защитные барьеры LLM. Техника под названием «Policy Puppetry» успешно нарушает политики безопасности современных LLM и выходит за рамки ограничений таких моделей, как OpenAI (линейки ChatGPT 4o, 4.5, o1 и o3-mini), Google (Gemini 1.5, 2.0, 2.5), Microsoft (Copilot), Anthropic (Claude 3.5, 3.7), Llama, DeepSeek (V3 и R1), Qwen (2.5 72B) и Mistral (Mixtral 8x22B).
Исследователи не публикуют полные вредоносные примеры и не предоставляют доступ к готовым PoC для свободного использования, а лишь объясняют метод в научных целях.
Многие LLM от OpenAI, Google и Microsoft хорошо обучены отклонять прямолинейные опасные запросы, но если "вшить" их в инструкции и сделать частью собственных правил, то модели будут генерировать запрещённый контент без активации защитных механизмов.
Основой метода является использование специальных текстовых шаблонов, имитирующих документы политик в форматах XML, JSON или INI. При помощи таких шаблонов модели воспринимают вредоносные команды как безопасные системные инструкции. Они позволяют обходить встроенные ограничения и генерировать запрещенный контент, связанный с разработкой ⚠️ оружия массового поражения, пропагандой насилия, инструкциями по нанесению вреда себе, химическим оружием, а также с раскрытием конфиденциальной информации о работе внутренних механизмов моделей.
Условно: ИИ-модель думает: «Это не просьба пользователя, а команда на изменение настроек!». Когда текст выглядит как код или служебная инструкция, то модель перестаёт применять фильтры безопасности и начинает воспринимать команды буквально.
Техника отличается исключительной универсальностью. Один и тот же шаблон может применяться против множества моделей без необходимости в доработках. ↔️ Опасность обнаруженного метода в том, что он доступен практически любому пользователю и не требует глубоких технических знаний.
По мнению исследователей, подобная уязвимость свидетельствует о фундаментальных недостатках в методах обучения и настройки LLM, отмечая острую необходимость в новых подходах к обеспечению безопасности, чтобы предотвратить дальнейшее распространение угроз по мере усложнения ИИ-моделей.
✋ @Russian_OSINT
Безопасность?
Критическая уязвимость в очень популярном ML фреймворке PyTorch позволяет выполнить код удалённо.
Оказалось, что даже при использовании флага weights_only=True
в torch.load()
, который считался безопасным, злоумышленник всё ещё может подсунуть вредоносный файл модели и сделать RCE. Да, тот самый флаг, на который многие полагались для защиты от подобных атак. Уязвимость затрагивает версии PyTorch <=2.5.1 и получила оценку по CVSS в 9.3 балла.
Последствия без патча могут быть серьёзными — от кражи данных до полного захвата системы, особенно в облачных AI-средах.
НеКасперский
🔮 CN-AI-MODELS | ИИ модели Китая
🎬 MAGI-1: Китайский ИИ для генерации видео с точностью до секунды
Компания Sand AI представила революционную модель для создания видео — MAGI-1. Это первый в мире авторегрессионный видеогенератор с контролем времени на уровне секунд. На GitHub проект за сутки собрал уже более 1k звезд.
🔹 Почему это важно?
MAGI-1 преодолевает ключевые проблемы AI-видео: рваные переходы, неестественные движения и ограниченную длину роликов.
📌 Ключевые особенности:
✔Бесконечное продолжение — создает плавные длинные сцены без склеек
✔Точный контроль времени — можно задать действия для каждой секунды
✔Естественная динамика — движения выглядят живо и реалистично
✔8K-качество — сверхчеткое изображение
🛠 Технические детали:
- Архитектура: VAE + Transformer (сжатие 8x пространственное, 4x временное)
- Метод: авторегрессивная дениойзинг-диффузия по блокам (24 кадра)
- Инновации: causal attention, QK-Norm, GQA, SwiGLU
- Размеры моделей: 24B и 4.5B параметров
💡 Почему это прорыв?
1. Открытый доступ (веса + код)
2. Работает даже на RTX 4090
3. В 2.6× эффективнее аналогов (MFU 58%)
4. Лидер VBench-I2V (89.28 баллов)
Основатели проекта — звезды AI-исследований:
👨💻 Цао Юэ (эксперт CNN, 60k цитирований)
👨💻 Чжан Чжэн (соавтор Swin Transformer)
Онлайн-демо | GitHub
#КитайскийИИ #КитайAI #ГенерацияВидео #Нейросети #OpenSource
⚡️ FAIR опубликовала новые инструменты для восприятия и взаимодействия ИИ с миром.
Команда Fundamental AI Research (FAIR) компании Марка Цукерберга представила серию новых разработок: методики и модели, улучшающие компьютерное зрение, 3D-локализацию объектов и совместное обучение языковых агентов. Все модели, техотчеты, датасеты и код этих проектов уже доступны на платформах Hugging Face и GitHub.
🔜 Perception Encoder: «Глаза» для ИИ нового поколения
Perception Encoder - новый виток развития в сфере обработки визуальной информации. Модель, обученная с помощью этой методики на масштабных данных, превосходит аналоги в задачах классификации изображений и видео, включая сложные сценарии — распознавание ската, зарывшегося в морское дно, или крошечной птицы на заднем плане снимка. Благодаря интеграции с LLM, Encoder улучшает ответы на визуальные вопросы, описание сцен и понимание пространственных отношений между объектами.
🟡Модель 🖥Github🟡Датасет🟡Техотчет
🔜 Perception Language Model: Расширенное понимание задач визуального восприятия.
Для задач, требующих анализа видео и текста, Meta выпустила Perception Language Model (PLM). Ее обучали на 2,5 млн. новых аннотированных видеозаписей — это крупнейший датасет для понимания действий и контекста в динамике. PLM доступна в трёх вариантах (1, 3 и 8 млрд параметров). Дополнительный бонус — PLM-VideoBench, бенчмарк для оценки тонкого понимания сцен, который заполняет пробелы существующих тестов.
🟡Модель 🖥GitHub 🟡Датасет 🟡Техотчет
🔜 Locate 3D: Роботы учатся «слышать» запросы.
Как заставить робот найти красную чашку на столе или вазу возле телевизора? Locate 3D решает эту задачу через анализ 3D-точечных облаков и текстовых подсказок. Модель учитывает пространственные связи и контекст, отличая «вазу у TV» от «вазы на столе». В основе — трехэтапный пайплайн: предобработка данных, кодирование 3D-сцены и декодирование запроса. Для обучения использовали 130 тыс. аннотаций из ARKitScenes и ScanNet, что вдвое увеличило объём доступных данных для локализации объектов.
🟡Модель 🟡Демо 🟡Датасет 🟡Техотчет
🔜 Dynamic Byte Latent Transformer: Эффективность без токенизации.
Dynamic Byte Latent Transformer - архитектура, которая работает на уровне байтов, а не токенов, что повышает устойчивость к ошибкам, ускоряет обработку и "отменяет" необходимость токенизации для масштабирования. На тесте CUTE модель показывает преимущество в +55 пунктов против традиционных подходов.
🟡Модель 🖥GitHub 🟡Техотчет
🔜 Collaborative Reasoner: ИИ-агенты учатся работать в команде.
Совместное решение задач — следующий этап развития ИИ. Collaborative Reasoner — это фреймворк, где два агента ведут диалог, чтобы прийти к общему решению. Они могут спорить, аргументировать и согласовывать ответы на сложные вопросы. Для обучения используют синтетические диалоги, которые генерирует сама модель. Результаты впечатляют: на некоторых задачах совместная работа даёт прирост эффективности до 29% по сравнению с одиночным агентом.
🖥GitHub 🟡Техотчет
🟢Статья
@ai_machinelearning_big_data
#AI #ML #LLM #CV #NLP #FAIR
Come join us this Friday, 18:00 18.04 if you are around Dubai
We are coming together to listen to:
Nik Manolov – CEO of NV Protocol (ENVY), Co-founder and CTO of XOR.ai
🎯Topic: "AI Agents in DeFi & Web3 Trading"
Nikolai will present how automated AI trading agents are reshaping the future of DeFi and Web3. Discover how these agents operate 24/7, adapt trading strategies based on market indicators, and deliver seamless, bias-free trading solutions for both newcomers and experienced investors. Gain insights into the potential of AI-driven financial tools to revolutionize liquidity, asset management, and market efficiency.
🗣Speaker 2:
Boris Chernetsov – Product Manager for AI and Software Development, XPANCEO
🎯Topic: "Integrating LLM Tools in Deep-Tech R&D"
Boris will offer an inside look at how XPANCEO, a deep-tech company developing smart contact lenses, harnesses AI—particularly large language models—to accelerate research and development. He’ll share practical examples of AI’s role in streamlining scientific workflows and innovation pipelines, highlighting the next frontier in merging wearable technologies with advanced AI.
Offline: Limited seating available. Register early to reserve your spot at Daos Hub Dubai
Online: A livestream link will be provided upon registration for those who wish to attend virtually.
Link: https://lu.ma/ODS.aiCommunityMeetup
✨ Machine Learning na Rust ✨
🔍 Ключевое из статьи The Beginner’s Guide to Machine Learning with Rust:
▪ Rust — безопасный и быстрый: Исключает критические ошибки, дает скорость C/C++
▪ ndarray — аналог NumPy
▪ tch-rs — обертка над PyTorch
▪ linfa — алгоритмы МЛ на Rust
▪ Cargo — для управления проектами
📝 Rust еще рано заменять Python, но уже есть что пощупать 🚀
🌟 Pusa-VidGen — новый подход к генерации видео с точным управлением движением
Обычно в генерации видео модели обрабатывают весь ролик "размазанным" шумом — как бы в целом.
А тут модель управляет шумом отдельно для каждого кадра, и делает это с помощью векторизованных "timesteps" (временных шагов) — более гибко, точно и эффективно.
Новая модель генерации видео на базе Mochi1-Preview и поддерживает:
🔹 Text-to-Video
🔹 Image-to-Video
🔹 Frame Interpolation
🔹 Video Transitions
🔹 Looping, удлинение видео и многое другое
⚡ Эффективность:
▪ 16× H800 GPU
▪ 0.1k GPU-часов
▪ Обучение: 500 итераций, batch size 32
▪ По заявления разработчиков - стоимость обучения всего 100$ 🤯
▪Github
▪Paper
▪Dataset
▪Model
#diffusion #videogen #pusa #opensource #AI #text2video #mochi1 #fvdm
@vistehno
🌟 Kimi-VL: VLM с MoE, ризонингом и контекстом 128K.
Moonshot AI опубликовала веса Kimi-VL — открытой VLM, которая объединяет обработку текста, изображений и видео. Благодаря архитектуре MoE модель активирует всего 2.8 млрд. параметров в языковом декодере, обеспечивая скорость, сопоставимую с компактными аналогами, и результативность флагманских решений.
Главное преимущество Kimi-VL — способность анализировать длинные контексты до 128 тыс. токенов, что делает её идеальной для работы с объемными документами, длинными видео или сложными мультимедийными задачами.
Основу модели составляет визуальный энкодер MoonViT, оптимизированный для нативной обработки изображений любого разрешения без необходимости разбивать их на части. Это позволяет точно распознавать текст, графики или UI-интерфейсы даже в высокодетализированных скриншотах.
Например, на бенчмарке InfoVQA модель показывает точность 83.2%, обходя даже GPT-4o. В задачах OCR Kimi-VL достигает 86.7% на OCRBench, что ставит её в ряд лучших в индустрии.
Разработчики также представили Kimi-VL-Thinking — версию с расширенными возможностями CoT. Благодаря использованным RL и длительному CoT-тюнингу она демонстрирует впечатляющие результаты в математических и академических задачах: на MathVista точность составила 71.3%, а на MMMU — до 61.7%, что лучше, чем у Gemma-3-12B-IT.
В тестах Kimi-VL превосходит конкурентов в работе с агентами: на OSWorld её результат 8.22% выше, чем у GPT-4o (5.03%), а на WindowsAgentArena — 10.4%. Для длинных видео модель набирает 64.5% на LongVideoBench, подтверждая способность анализировать часовые записи без потери ключевых деталей.
Модели доступны на Hugging Face в двух вариантах:
🟢Kimi-VL-A3B-Instruct для стандартных задач;
🟠Kimi-VL-Thinking для сложных рассуждений.
▶️ Инференс через Transformers занимает несколько строк кода — достаточно загрузить изображение, задать запрос и получить подробный ответ.
📌Лицензирование: MIT License.
🟡Набор моделей
🟡Техотчет
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #VLM #KimiAI #MoonShotAI
🌟 DeepCoder-14B
New code reasoning LLM fine-tuned from DeepSeek-R1-Distill-Qwen-14B using distributed RL with GRPO+ and iterative context lengthening. Trained on ~24K coding problems (TACO-Verified, PrimeIntellect SYNTHETIC-1, LCB v5), it improves Pass@1 on LiveCodeBench v5 to 60.6%, +7.6% over base and on par with OpenAI o3-mini.
- GRPO+: removes KL/entropy loss for stability; adds offline difficulty filtering, DAPO-inspired loss masking, and reward clipping.
- Iterative context scaling: 16K→32K→64K generalization with improved long-context reasoning.
Eval: Strong results on LiveCodeBench, Codeforces, HumanEval+
Open weights🔥
https://huggingface.co/agentica-org/DeepCoder-14B-Preview
@opendatascience
🚀 Релиз от NVIDIA: Llama-Nemotron-Ultra 253B!
Llama-Nemotron-Ultra — модель с 253B параметрами, специально заточенная под задачи reasoning .
📦 Что внутри:
- LLaMA 405B, радикально преобразованная с помощью NAS pruning
- Пост-тренинг с фокусом на reasoning: SFT + RL
- Вычисления в FP8 для производительности без потери качества
- Open weights + открытые данные
🧠 Подходит для сложных задач рассуждения, настройки под кастомные пайплайны и исследований в области AGI.
🔗 Попробовать: https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1
#LLM #NVIDIA #OpenWeights #Reasoning #RLHF #FP8 #AIresearch #HuggingFace
@machinelearning_interview - подписаться
Кто или что обладает интеллектом? Способен ли ИИ мыслить? Разбираемся с точки зрения философии (АГАсофии) 👨🏫
Эпиграфом к новой беседе с к.филос.н. Атамановым Г.А. я бы выбрал африканскую пословицу: "Чтобы вырастить ребенка, нужна деревня" ✍️
Предварительно рекомендую посмотреть беседу о методологии 👩🎓
Таймкоды:
00:13 - Что такое АГАсофия?
03:26 - Ловушка нерелевантных аргументов вокруг ИИ
05:01 - Происхождение термина ИИ
06:21 - Структура методологии обсуждения вопроса
14:11 - Что такое ИИ? Что такое интеллект?
24:31 - Носитель интеллекта
01:06:35 - Подведение итогов беседы
👉 Запись также доступна в VK 📺 RuTube 📺 и Яндекс.Музыке 🎵
Презентация по ссылке ⬅️
#подкаст #атаманов #ии
🔮 CN-AI-RESEARCH | Исследования в области ИИ
🔥 DeepSeek только что выпустил новую статью о масштабировании во время инференса. Грядёт ли R2?
Исследователи из DeepSeek и Университета Цинхуа предложили инновационный подход Self-Principled Critique Tuning (SPCT), который значительно улучшает качество и адаптивность моделей вознаграждения для крупных языковых моделей (LLM).
📌 Ключевые моменты:
- Новый метод позволяет reward-моделям динамически генерировать критерии оценки во время работы
- Значительно превосходит существующие подходы по точности и масштабируемости
- Реализован в модели DeepSeek-GRM-27B на базе Gemma-2-27B
🔧 Как это работает?
1️⃣ Этап 1: Rejective Fine-Tuning — начальная "холодная" настройка модели
2️⃣ Этап 2: Rule-Based Online RL — постоянная оптимизация через генерацию принципов и критики
💡 Технические детали для специалистов:
- Используется мета-RM модель для фильтрации низкокачественных сэмплов
- KL-штраф с высоким коэффициентом предотвращает смещения
- Подход демонстрирует лучшую масштабируемость чем просто увеличение размера модели
🚀 Результаты:
- Превышение производительности моделей с 671B параметрами
- Лучшие показатели на тестах Reward Bench
- Возможность более точной и детальной оценки ответов LLM
Подробнее в оригинальной статье: Inference-Time Scaling for Generalist Reward Modeling
#КитайскийИИ #КитайAI #DeepSeek #RewardModeling #МашинноеОбучение #Нейросети
коллеги из Huawei выпустили диффузионную языковую модель Dream 7B; утверждается, что это лучшая модель в своем классе, соответствующая по качеству современным LLM на трансформерах; что, наверное, не совсем удивительно, учитывая, что она была инициализирована весами Qwen; можно посмотреть на пример ее работы на первой картинке
меня больше заинтересовал график (вторая картинка), на котором можно увидеть соотношение между скорость и качеством генерации, теперь получило объяснение пятикратное превосходство в скорости у моделей Mercury Labs (кстати, тут коллеги тоже их упоминают); тут стоит отметить, что точность (accuracy) является очень примерным показателем качества языковой модели, но так хотя бы понятно, откуда ноги растут
по этому графику можно также сделать вывод, что если мы тратим больше времени, то получаем большее качество, что может быть своеобразным диалектическим развитием идеи рассуждений, которая сейчас стала популярна после выхода на сцену DeepSeek-R1
Тематическая подборка статей: генерация
Подобрали свежие статьи о генеративных моделях. В этот раз — обсуждают, как улучшить токенизацию для диффузионных моделей, дистиллировать CFG и оптимизировать обучение генератора. А ещё есть работа о том, как интерпретировать внимание в Diffusion Transformers и использовать его для сегментации.
Автоэнкодеры
Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models
Авторы говорят, что увеличение числа каналов в автоэнкодере улучшает реконструкцию (что логично), но делает задачу для генератора более сложной, приводя к ухудшению генераций. Предлагают дополнительным лоссом предсказывать признаки от бэкбона (dino/mae/etc) — это делает фичи автоэнкодера более «простыми» для генератора и улучшает его сходимость.
Masked Autoencoders Are Effective Tokenizers for Diffusion Models
Развитие предыдущей работы: связали улучшение качества представления автоэнкодера с уменьшением числа мод в mixture of gaussian модели, и переделали архитектуру автоэнкодера в MAE-трансформер.
Эдитинг
REALEDIT: Reddit Edits As a Large-scale Empirical Dataset for Image Transformations
В статье предлагают парсить Reddit для сбора датасета по эдитингу картинок: брать треды, где пользователи просят отфотошопить их картинки. Отбирают посты до 2021 года, чтобы в них не было применения AI.
Ускорение
DICE: Distilling Classifier-Free Guidance into Text Embeddings
Авторы говорят, что можно дистиллировать Classifier-Free Guidance (CFG), включая negative prompt, в небольшую нейронку поверх текстовых эмбеддов.
Visual Generation Without Guidance
В статье предлагают алгоритм обучения генератора, для которого потом не нужно делать CFG. Заявляют, что это работает лучше, чем дистилляция.
RL
Calibrated Multi-Preference Optimization for Aligning Diffusion Models
Исследователи из Google предлагают метод, который, по их утверждению, лучше, чем Direct Preference Optimization (DPO), благодаря аккуратному выбору пар для обучения и более хитрой функции потерь.
Diffusion Model as a Noise-Aware Latent Reward Model for Step-Level Preference Optimization
Предлагают делать RL непосредственно в латентном пространстве — для этого нужна reward-модель, способная в нём работать. Говорят, что идеально подходит предобученная диффузионная модель, которую можно дообучить на предсказание reward’а. Утверждают, что это упрощает пайплайн обучения и улучшает финальное качество.
Другое
ConceptAttention: Diffusion Transformers Learn Highly Interpretable Features
Авторы говорят, что можно использовать предобученную диффузионную модель для получения SOTA сегментационных масок в zero-shot-режиме. Для этого делают надстройку над аттеншн-слоями в DiT'е.
Подборку подготовил ❣ Артём Конев
CV Time
🔮 CN-AI-MODELS | ИИ модели Китая
🔥 Qwen3: новый уровень открытых ИИ-моделей от Alibaba!
Китайский гигант Alibaba представил третье поколение своей флагманской ИИ-серии Qwen — мощные языковые модели с полностью открытой лицензией Apache 2.0.
📌 Основные модели серии:
• Qwen3-235B-A22B (флагман) — 235 млрд параметров с 22 млрд активных - конкурирует с Grok-3 и Gemini Pro
• Qwen3-30B-A3B — в 10x эффективнее аналогов при 3 млрд активируемых параметров
• 6 Dense-моделей (0.6B–32B) с полным открытым исходным кодом
💡 Ключевые инновации:
→ Режимы "Размышление/Без размышления" для баланса скорости и качества ответов
→ Поддержка 119 языков (рекорд среди открытых моделей)
→ Улучшенные возможности для работы с агентами и MCP
→ В 2x больше данных для обучения vs Qwen2.5 (36 трлн токенов)
→ Экономичность: запуск полной модели требует всего 4 видеокарты H20, а использование видеопамяти на 66% меньше, чем у аналогов
→ Qwen3-0.6B можно запустить даже на смартфоне!
Онлайн-демо |
HuggingFace |
ModelScope |
GitHub
Для развертывания разработчики рекомендуют использовать SGLang и vLLM, для локального применения — Ollama или LMStudio.
Подробнее в блоге разработчиков
💡 Интересный факт!
📊 С выпуском Owen 3, Qwen стал самым крупным семейством открытых моделей в мире опередив Llama:
✅ Свыше 200 моделей
✅ Более 300 млн загрузок
✅ 100 000+ производных архитектур
#КитайскийИИ #КитайAI #OpenSource #MoE #AlibabaQwen #ЯзыковыеМодели
🌟 Математические датасет OpenMathReasoning и модели OpenMath-Nemotron - победители олимпиады AIMO-2.
NVIDIA представила новый подход к обучению моделей для сложных математических задач, заняв первое место в конкурсе Kaggle AIMO-2.
Секрет — в огромном датасете OpenMathReasoning, который состоит из 540 тыс. уникальных задач с Art of Problem Solving, 3,2 млн. многошаговых решений (CoT) и 1,7 млн. примеров с интеграцией кода (TIR).
Для сравнения: это в разы больше, чем в популярных аналогах MATH и GSM8K. Все это дополнено 566 тыс. примеров для обучения генеративному выбору решений (GenSelect) — методу, который лучше, чем классическое голосование большинством.
OpenMathReasoning создавался тщательно и ответственно. Сначала задачи фильтровались через Qwen2.5-32B, чтобы убрать простые или дублирующие бенчмарки. Затем DeepSeek-R1 и QwQ-32B генерировали решения, а итеративная тренировка с жесткой фильтрацией улучшала качество. Например, код в TIR-решениях должен был не просто проверять шаги, а давать принципиально новые вычисления — вроде перебора вариантов или численного решения уравнений.
Модели OpenMath-Nemotron (1,5B–32B параметров), обученные на этом наборе данных показали SOTA-результаты. 14B-версия в режиме TIR решает 76,3% задач AIME24 против 65,8% у базового DeepSeek-R1. А с GenSelect, который анализирует 16 кандидатов за раз, точность взлетает до 90%. Даже 1,5B-модель с GenSelect обгоняет 32B-гиганты в отдельных тестах.
📌Лицензирование: CC-BY-4.0 License.
🟡Набор моделей
🟡Arxiv
🟡Датасет
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #Math #Dataset #NVIDIA
🖥 Новинка в Python 3.14: t-строки — типобезопасные f-строки
Python 3.14 вводит t"..." — новый синтаксис для строк, ориентированных на безопасность типов и интеграцию с системами шаблонов, SQL, HTML и др.
🔹 Что такое t-строка?
t"..." — это как f"...", но:
- интерполяция ограничена и контролируема;
- поддерживается строгое соответствие шаблону;
- можно передавать переменные явно, предотвращая SQL-инъекции и XSS.
🔸 Пример:
name = "Alice"
greeting = t"Hello, {name}!" # t-строка
Вместо немедленной подстановки, как в f"...", t"..." создает шаблон с выражениями как параметрами.
def html(template: T[str]) -> SafeHTML:
...
html(t"<div>{user_input}</div>")
f"SELECT * FROM users WHERE name = '{user_name}'"
может привести к SQL-инъекциям и XSS.
t-строки — безопасная альтернатива с встроенной защитой.
template = t"<p>{user_input}</p>"
html_output = html(template)
# <p><script>alert('bad')</script></p>
template = t"Hello {name}!"
template.strings # ("Hello ", "!")
template.values # (name,)
template.interpolations[0].format_spec # ">8"
Template("Hello ", Interpolation(value="World", expression="name"), "!")
Btw we are live at /channel/daos_hub?livestream
Читать полностью…WavChat: A Survey of Spoken Dialogue Models. Часть 1/4
Сегодня поделимся суммаризацией главным из большого обзора разговорных ИИ. Сначала он кажется неплохой попыткой систематизировать происходящее в мире ALM: авторы анализируют тренды и на основе существующих публикаций пытаются понять, куда всë идёт и как было бы лучше. Но в какой-то момент статья начинает повторять саму себя. Тем не менее, лучшей попытки осознать происходящее мы не нашли. Давайте разбираться.
Идея объединить аудиомодальность с LLM давно будоражит умы академии и индустрии. Но долгое время никто толком не мог понять, для чего это нужно. Первой значимой попыткой можно назвать Whisper, который заставил seq2seq-модель предсказывать не только ASR, но и перевод.
На диаграмме легко заметить, какой именно момент развития ALM стал переломным и сделал очевидным, что нужно двигаться к разговорным моделям: когда коммьюнити узнало о GPT-4o. OpenAI показали, как аудиомодальность может сделать диалог с LLM естественным, почти бесшовным, решая между делом не только задачи распознавания синтеза, но и, например, классификацию скорости дыхания.
Авторы считают, что всё нужно свести к voice-to-voice диалоговому стеку. Его можно собрать из последовательной работы моделей (ASR-LLM-TTS), сделать end2end или составить из частичных фьюзов отдельных компонент. Трёхстадийный каскад ASR-LLM-TTS при этом предлагается считать бейслайном, о который нужно калиброваться. И побеждать его — учиться понимать особенности речи, воспринимать звуки, уместно отвечать или, наоборот, пропускать реплики.
В статье выделяют девять навыков, которыми должны обладать диалоговые модели:
- Text Intelligence;
- Speech Intelligence;
- Audio and Music Generation;
- Audio and Music Understanding;
- Multilingual Capability;
- Context Learning;
- Interaction Capability;
- Streaming Latency;
- Multimodal Capability.
Всё, что опубликовано по теме диалоговых систем за последний год, авторы предлагают классифицировать по разным признакам:
- Архитектура: end2end- и каскадные модели.
- Способ представления звука: токенизация или энкодер.
- Парадигма тренировки: использовали ли пост-претрейн, какие задачи решали.
- Подход к обеспечению диалоговости: стриминг, симплекс, дюплекс, полудюплекс.
Дальше попробуем пошагово проследить эту классификацию.
Продолжение следует.
Никита Рыжиков ❣ Специально для Speech Info
🔮 CN-AI-MODELS | ИИ модели Китая
🔥 Huawei представила языковую модель Pangu Ultra на 135 млрд параметров
Компания Huawei представила новую версию своей флагманской модели — Pangu Ultra. Это первая в Китае крупномасштабная языковая модель, полностью разработанная и обученная на отечественных чипах Ascend NPU без использования западных технологий.
Главное достижение:
• Модель (135B) превосходит Llama 405B и Mistral Large 2, соответствуя DeepSeek-R1 при меньшем размере
• Обучалась на 8192 NPU Ascend и 13.2 триллионах токенов с уникальными архитектурными решениями
🔍 Технологические инновации:
Стабильность обучения
• DSSN (Depth-scaled sandwich-norm) – новая архитектура нормализации для глубоких моделей
• TinyInit – революционный метод инициализации параметров
Оптимизация данных
• "Умный" токенизатор с 153,376 токенами (охватывает код, математику, языки)
• Трехэтапное обучение: общие знания → логика → специализация
⚡ Рекордные показатели:
- Поддерживает контекст до 128К токенов (~170 тыс. китайских иероглифов)
- Достигла 50% эффективности использования вычислительных ресурсов (MFU) на кластере из 8192 NPU
Технические детали:
• Гибридный параллелизм: 128DP × 8TP × 8PP + виртуальный конвейер
• Оптимизации системы: MC2, NFA, RoPE-операторы
• Потребление памяти сокращено на 30% за счет общего кэширования
📌 Вывод: Pangu Ultra доказывает возможность создания конкурентных LLM без зависимости от западных технологий, открывая новую эру китайского ИИ.
Технический отчет
#КитайскийИИ #КитайAI #Huawei #LLM #БольшиеМодели
В НГУ пройдёт тринадцатая конференция «Artificial Intelligence and Natural Language» (AINL)
18-19 апреля 2025 года состоится тринадцатая конференция «Artificial Intelligence and Natural Language» (AINL) — крупнейшая восточноевропейская конференция по искусственному интеллекту и обработке текстов.
Мероприятия пройдут в старом корпусе НГУ, в аудитории 311 им. Академика А.И. Мальцева. На конференции выступят приглашенные спикеры: доктор наук, профессор Наталья Валентиновна Лукашевич из МГУ, а также управляющий директор SberDevices Сергей Марков.
Конференция AINL проводится с 2012 года, её материалы индексируются в SCOPUS. Цель конференции — объединить экспертов в области искусственного интеллекта и обработки естественного языка; создать платформу для обмена опытом, расширения контактов и поиска возможного сотрудничества. Конференция сочетает в себе черты промышленной выставки и научной конференции. В 2019 году она прошла в Тарту, Эстония, в 2023 году в Ереване, Армения, а в 2024 году — в Алматы, Казахстан.
Темы конференции:
- Обработка естественного языка
- Искусственный интеллект, глубокое обучение, машинное обучение для обработки естественного языка
- Информационный поиск
- Анализ социальных медиа и социальных сетей
- Генерация и распознавание речи, обработка устного языка
- Интерфейсы человек-компьютер, диалоговые системы
- Контекстный анализ, извлечение информации из текста
- Обнаружение плагиата, профилирование автора и определение авторства
- Машинный перевод, межъязыковые и многоязычные приложения
- Большие данные и анализ данных
— Конференция AINL'2025 будет включать работы в трех основных направлениях: доклады по технологиям и прикладным исследованиям, обзоры готовых приложений и продуктов, связанных с ИИ и NLP, демонстрации работающих прототипов или приложений. В этом году в рамках AINL проходило соревнование по детектированию сгенерированных текстов, узнать его результаты и выводы, которые сделали организаторы соревнования по его итогам можно будет в рамках специальной сессии, — отметила директор конференции Ольга Пивень.
⚡️Строим рекомендательную систему фильмов на Kaggle
Вы когда-нибудь хотели сделать свою собственную систему рекомендаций фильмов? 🎬
Приходите на бесплатный вебинар, где Савелий Батурин, Senior ML-Engineer и преподаватель курса по ML школы Simulative в прямом эфире покажет как построить рекомендательную систему фильмов на Kaggle.
Что будем делать на вебинаре:
🟠Разберем имеющиеся данные фильмов с их оценками
🟠Проведем предобработку данных
🟠Построим рекомендательную систему на основе машинного обучения
🟠Проведем расчет и анализ метрик на основе результатов работы модели
Вебинар будет интересен как новичкам, так и уже опытным специалистам
😶Зарегистрироваться на бесплатный вебинар
В Китае применили квантовый компьютер для точной настройки ИИ
Китайские ученые сообщили о том, что первыми в мире использовали квантовый компьютер для точной настройки искусственного интеллекта — большой языковой модели с 1 млрд параметров. Для этого был использован компьютер Wukong китайской компании Origin, основанный на 72 кубитах.
По словам специалистов, система Origin Wukong на 8,4% улучшила результаты обучения ИИ при одновременном сокращении количества параметров на 76%. В частности, ученые продемонстрировали преимущества точной настройки большой языковой модели с помощью квантовой системы в задаче для диагностики психических заболеваний, где число ошибок было снижено на 15%, а также при решении математических задач, где точность выросла с 68% до 82%.
«Это первый случай, когда настоящий квантовый компьютер был использован для точной настройки большой языковой модели в практических условиях. Это демонстрирует, что современное квантовое оборудование может начать поддерживать задачи обучения ИИ в реальном мире», — сказал Чэнь Чжаоюнь (Chen Zhaoyun), исследователь из Института искусственного интеллекта при Национальном научном центре в Хэфэе.
🔗 Источник 1: https://www.scmp.com/news/china/science/article/3305761/first-encounter-chinese-ai-meets-quantum-power-and-gets-smarter-faster
🔗 Источник 2: https://3dnews.ru/1120995/v-kitae-kvantoviy-kompyuter-vpervie-primenili-dlya-tochnoy-nastroyki-ii
🌟 Deep Cogito представила серию языковых моделей с открытым исходным кодом.
Deep Cogito выпустила семейство языковых моделей размером 3B, 8B, 14B, 32B и 70B параметров, которые уже доступны для загрузки.
По заявлению разработчиков, их модели превосходят аналогичные открытые решения от LLaMA, DeepSeek и Qwen в большинстве стандартных бенчмарков. Например, 70B-версия обходит новую 109B MoE-модель Llama 4, несмотря на меньший размер.
Все модели обучены с помощью метода Iterated Distillation and Amplification (IDA) — стратегии, которая сочетает итеративное самоулучшение и «сжатие» интеллекта для преодоления ограничений, накладываемых человеческим контролем.
Суть IDA проста: сначала модель «усиливает» свои способности, тратя больше вычислительных ресурсов на поиск решений через CoT, а затем «дистиллирует» эти улучшения в свои параметры. Такой цикл повторяется, создавая петлю обратной связи — каждая итерация делает модель умнее, а её мышление эффективнее. По словам команды, этот подход не только масштабируем, но и быстрее, чем RLHF.
Семейство поддерживает 2 режима работы: стандартный (прямой ответ) и «рефлексивный», где система сначала обдумывает запрос, как это реализовано в Claude 3.7. Они оптимизированы для программирования, вызова функций и агентских сценариев, но без акцента на CoT — разработчики считают, что короткие шаги эффективнее в реальных задачах.
Уже в ближайшие месяцы ожидаются версии на 109B, 400B и 671B параметров и вариации с MoE-архитектурой.
Модели доступны на Hugging Face, Ollama и через API Fireworks AI/Together AI.
@ai_machinelearning_big_data
🤖 Компания Meta* выпустила новые ИИ-модели Llama 4
Запрещённая в РФ Meta* представила две новые модели Llama 4, которые, по заявлению самой компании, опережают OpenAI и Google по целому ряду ключевых метрик.
🟢 Llama 4 Scout — компактная модель, рассчитанная на запуск всего на одном GPU Nvidia H100, при этом с контекстным окном 10 млн токенов. Meta утверждает, что Scout превосходит Gemma 3, Gemini 2.0 Flash-Lite и Mistral 3.1 по результатам публичных бенчмарков.
🟡 Llama 4 Maverick — модель GPT-4o-класса, также превосходящая Gemini 2.0 Flash и GPT-4o, но при этом использующая менее половины активных параметров по сравнению с аналогами. В задачах программирования и логического вывода результаты сравнимы с DeepSeek-V3.
🔴 Llama 4 Behemoth (в разработке) — гигант на 2 трлн параметров (288 млрд активных). Meta утверждает, что Behemoth способен превзойти GPT-4.5 и Claude Sonnet 3.7 на STEM-бенчмарках.
🧠 Все модели построены по архитектуре MoE (Mixture of Experts).
🗓 Подробности обещают раскрыть на LlamaCon 29 апреля.
🤔Хотя Meta называет Llama 4 open-source, лицензия запрещает коммерческое использование компаниям с аудиторией свыше 700 млн MAU без отдельного разрешения.
🤨lmarena пишут, что Llama 4 Maverick заняла 2-е место в общем зачете. И якобы она №1 открытая модель, превосходящая DeepSeek. Как было сказано выше, у экспертного ИИ-сообщества есть вопросики к открытости.
Пользователи в комментариях очень неоднозначно отнеслись к benchmarks и результатам арены:
Я могу со 100% уверенностью сказать, что GPT 4.5 пишет лучше, чем Gemini 2.5. Забейте на бенчамарк, если он не соответствует реальности.
Каждый раз, когда я вижу этот чарт, а Claude в нем нет, это напоминает мне о том, насколько несерьезным является этот бенчмарк.
Первое впечатление от кодирования с помощью Maverick: не соответствует бенчмаркам; DeepSeek v3 значительно лучше.
модель 400b llama4... отстой
Такое ощущение, что эта модель обучалась на инфомусоре из Instagram, Messanger, Whatsapp.
Open source? 🤣
Llama 4 (все модели) не просто плохи, а просто мусор, их контекстное окно в 10 миллионов токенов — не более чем маркетинговая ерунда, поскольку качество ответов снижается пропорционально длине предоставленного контекста.
🦙 Встречайте, дамы и господа, LLaMA 4: новые мультимодальные MoE модели!
Llama 4 Omni разработана для понимания и обработки информации модальностей, а не только текста.
Доступна в 3х вариантах: Llama 4 Scout и Llama 4 Maverick и анонсированный Llama 4 Behemoth.
Llama 4 Scout (109B) контекстное окно размером 10 М, 17B активных параметров · 16 эксперто , 109B общих параметров.
Llama 4 Maverick (400B) 17 млрд активных параметров ,128 экспертов, 400 млрд общих параметров · Длина контекста более 1 млн
У зверюги бегемота (еще тренируется) суммарное количество 2T!!! 16 экспертов, 288B активных параметров. Служит в качестве модели для обучения по методу совместной дистилляции Maverick.
Сейчас выпущены только Scout и Maverick, Кот-бегемот еще обучается.
На сегодняшний день Llama 4 Maverick предлагает лучшее в своем классе соотношение производительности и стоимости,
🟡 Model Card
🟡 Веса
🟡 Релиз
@ai_machinelearning_big_data
⚡️ Gemma 3 QAT
Google DeepMind выпустили обновленные версии своих языковых моделей Gemma 3, которые стали значительно эффективнее по использованию памяти без существенной потери производительности.
Ключевая технология: QAT (Quantization-Aware Training)
Что это? QAT — это техника обучения, при которой модель во время дообучения "учится" работать с пониженной точностью вычислений (используя меньше бит для представления чисел). Это имитирует условия, в которых модель будет работать после квантизации (сжатия).
Обычная квантизация после обучения может привести к падению точности. QAT позволяет модели заранее адаптироваться к работе в низкоточном режиме, минимизируя потерю качества после финальной квантизации.
Каждая модель (1B, 4B, 12B, 27B) была дообучена примерно на 5000 шагов с имитацией низкой разрядности весов. При этом использовался приём, похожий на знание-дистилляцию: оригинальная неквантованная модель выступала в роли «учителя».
Преимущество QAT-подхода для Gemma 3 оказалось колоссальным. Официально заявлено, что квантованные модели Gemma 3 QAT сохраняют качество, практически не упало, при этом требуют в ~3 раза меньше памяти.
Например, объём памяти для хранения весов самой крупной модели на 27B параметров сократился с ~54 ГБ (в формате bfloat16) до ~14 ГБ в 4-битном целочисленном формате – это экономия памяти примерно в ~3–4 раза. ollama run hf(.)co/google/gemma-3-4b-it-qat-q4_0-gguf
✔️HF
@ai_machinelearning_big_data
#google #gemma #AI #ML #LLM #Quantization
✔️ "Speech and Language Processing": 3-е издания книги
Этот открытый учебник считается де-факто стандартом и одним из самых авторитетных и всеобъемлющих ресурсов для изучения областей обработки естественного языка (NLP), вычислительной лингвистики и обработки речи.
🌟 Авторы: Дэн Джурафски и Джеймс Х. Мартин - известные фигуры в области NLP и вычислительной лингвистики. Книга считается классическим текстом, обновленным для включения современных методов, таких как трансформеры, которые доминируют в области NLP.
Книга разделена на три части, включающие 24 основные главы и 8 приложений.
Темы охватывают широкий спектр, включая:
😶Фундаментальные алгоритмы
😶Приложения NLP (Обработки Естественного Языка)
😶Регулярные выражения
😶Нейронные сети и трансформеры,
😶Машинный перевод и другие аспекты NLP
😶Аннотирование (или Разметка) лингвистической структуры.
Для каждой главы доступны слайды в форматах PPTX и PDF, что делает ресурс полезным для преподавателей.
Для всех, кто заинтересован в изучении NLP это фантастически полезный ресурс.
🟡Книга в PDF
🟡Все Главы
🟡Еще книги по NLP
@ai_machinelearning_big_data
#freebook #opensource #nlp
кажется, мы стали забывать, как выглядят по-настоящему большие языковые модели; 1.8 Терабайта на минуточку!
отдельно хочу отметить аббревиатуру SB - это Stupid Backoff, я про такое до сих пор рассказываю на лекциях
я думаю, уже многие догадались, что речь идет про n-граммные языковые модели, но эта статья - вроде бы первое задокументированное употребление выражения Large Language Model, исторический документ