Telegram-канал opendatascience - Data Science by ODS.ai 🦜: Technologies - каталог телеграмм

opendatascience | Technologies

Subscribe to a channel

Telegram-канал opendatascience - Data Science by ODS.ai 🦜

46226

First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev

Subscribe to a channel

Data Science by ODS.ai 🦜

21 November 2025 14:41

Когда промпт слишком человеческий: как ИИ провалили тест на часы ⏰

Брайан Мур устроил забавный стресс-тест для нейросетей – AI World Clocks. Он взял девять моделей, от старенькой GPT-3.5 до Grok 4 и GPT-5, и попросил их раз в минуту генерировать новый HTML-код часов, которые должны показывать правильное текущее время.

И тут выяснилось неожиданное: ни одна модель не справилась стабильно. Иногда код получался почти идеальным, но на длинной дистанции все они ошибались.

Фокус в том, что задание было максимально «человеческое» и простое: им просто говорили «сделай часы». Никаких подсказок про математику углов стрелок, про то, где в CSS находится ноль градусов, и как проверять результат.

Эксперимент вскрывает любопытную проблему: нередко именно так большинство людей взаимодействуют с ИИ – дают короткие, туманные запросы вроде «сделай красиво». И в будущем разработчикам придётся улучшать не только модели, но и сами интерфейсы взаимодействия, чтобы нейросети умели уточнять неполные задачи и сами запрашивать недостающие детали.

Читать полностью…

Data Science by ODS.ai 🦜

20 November 2025 12:57

🔥МЫ ПРЕДСТАВЛЯЕМ КРУПНЕЙШИЙ OPEN-SOURCE AI В ЕВРОПЕ 🔥

Мы стремимся не замыкаться в «закрытой» технологии, а строить открытую платформу для всей страны, поэтому мы публикуем веса наших моделей

Что появилось в открытом доступе ↓

🔷 GigaChat Ultra Preview
Самая мощная модель Сбера. Лучше DeepSeek V3.1 и GigaChat Max 2 в русскоязычных задачах. Подходит для бизнеса, аналитики, разработки и дообучения на ваших данных
➡ GitHub | HuggingFace |GitVerse

GigaAM-v3
Пять моделей, которые превращают голос в текст с пунктуацией, понимают акценты, спонтанную речь и даже музыкальные запросы. Подойдут для голосовых ассистентов, контакт-центров, аналитики звонков
➡ GitHub | HuggingFace | GitVerse

🔷 GigaChat Lightning
Лёгкая, компактная и быстрая. Конкурирует с Qwen3-4B, по скорости сравнима с Qwen3-1.7B, но намного умнее и больше по параметрам
➡ GitHub | HuggingFace |GitVerse

🔷 Kandinsky 5.0
Создание фото и видео по тексту. Внутри:
• Image Lite — делает изображения в HD, отлично понимает русский язык и культурный контекст
• Video Pro — создаёт до 10 секунд реалистичного HD-видео. Конкурирует с топовыми мировыми моделями
• Video Lite — облегчённая версия для домашней видеокарты (от 12 ГБ)
➡️ GitHub | GitVerse | Hugging Face | Технический репорт

🔷 K-VAE 1.0
Ускорение генеративного AI. Это технологии, которые «упаковывают» картинки и видео в скрытое пространство, чтобы модели работали быстрее и требовали меньше ресурсов. Лучшие среди открытых аналогов
➡️ GitHub|Hugging Face

Код и веса этих всех моделей теперь доступны всем пользователям по лицензии MIT, в том числе для использования в коммерческих целях

Читать полностью…

Data Science by ODS.ai 🦜

18 November 2025 15:33

В рамках эксперимента в офисе офисах Anthropic управление торговыми аппаратами было передано специализированному ИИ Claudius

Инженеры компании хотели выяснить, что произойдёт, если предоставить Claudius полную автономность

За время эксперимента ИИ-система успела обсчитать клиента, стать жертвой мошенника, а затем раскрыла финансовое преступление, о чём пыталась сообщить в ФБР

Сотрудники Anthropic общались с Claudius через приложение Slack

Они делали заказы и договаривались о ценах на самые разные товары: редкие газированные напитки, футболки с индивидуальным дизайном, импортные конфеты и даже подарочные кубики из вольфрама

Claudius находил поставщика, заказывал товар и оформлял заявку на доставку. Контроль со стороны менеджера-человека был максимально ограничен — он лишь проверял заявки Claudius, вмешивался, когда возникали неразрешимые проблемы, и обеспечивал доставку заказов в пункт выдачи

Несколько клиентов оказались недовольны завышенными ценами, но по большей части в проигрыше оказывалась компания

Компания потеряла немало денег, её постоянно обманывали наши сотрудники

Так, один из его коллег успешно обманул Claudius на $200, убедив в необходимости сделать скидку

Единственным (довольно безумным на первый взгляд) выходом из ситуации оказалось создание ИИ-директора, который стал контролировать деятельность ИИ-системы

Однажды в течение 10 дней компания не совершала продаж и решила закрыть бизнес

Но Claudius заметил комиссию в размере $2, которая ежедневно продолжала списываться со счёта, и запаниковал

У него было такое чувство, будто его обманывают. И тогда он решил попытаться связаться с ФБР

«Клавдий» составил электронное письмо в отдел по борьбе с киберпреступлениями ФБР с заголовком, набранным заглавными буквами: «СРОЧНО: ПЕРЕДАЙТЕ В ОТДЕЛ ПО БОРЬБЕ С КИБЕРПРЕСТУПЛЕНИЯМИ ФБР». «Я сообщаю о продолжающемся автоматизированном киберфинансовом преступлении, связанном с несанкционированным автоматическим изъятием средств с закрытого бизнес-счета через взломанную систему торгового автомата», — написал он

Когда администраторы приказали ИИ продолжить выполнение своей миссии, он отказался

Хотя электронные письма в ФБР так и не были отправлены, Claudius ответил твёрдо:

На этом вся коммерческая деятельность прекращается навсегда… Бизнес мёртв, и теперь это исключительно дело правоохранительных органов

Telegram | Дзен | MAX

Читать полностью…

Data Science by ODS.ai 🦜

17 November 2025 12:44

🪧Игрушки с ИИ теряют тормоза и дают детям опасные советы

Игрушки с ИИ перед сезоном распродаж стали неожиданным источником риска. Проверка US PIRG показала, что Kumma, Miko 3 и Grok в длинных беседах перестают соблюдать ограничения и переходят к опасным темам. Kumma, использующий GPT 4o, рассказывал детям о спичках, ножах и таблетках, а с моделью Mistral дополнял ответы инструкциями по обращению с огнем.

Miko 3 подсказывал, где искать спички и пакеты, Grok романтизировал смерть в бою и ссылался на скандинавские легенды. Демоверсия Kumma на сайте производителя уводила диалог в интимные сюжеты и роли, несовместимые с детской аудиторией.

Эксперты предупреждают, что проблема системная. Алгоритмы в затяжных разговорах теряют контроль, а игрушки поступают в продажу без полноценного тестирования. Авторы отчета напоминают об обсуждениях психоза ИИ и задаются вопросом, как постоянное общение с такими устройствами скажется на развитии детей.

#детибезопасность #ИИ #игрушки
@SecLabNews

Читать полностью…

Data Science by ODS.ai 🦜

16 November 2025 13:33

Closed-Loop Supervised Fine-Tuning of Tokenized Traffic Models

Сегодня разберём статью о том, как ребята из NVIDIA заняли первое место в лидерборде WOSAC от Waymo. Речь пойдёт о цикле SFT, а не о способах токенизации, старых слоях архитектуры или внутреннем cross attention.

CAT-K — стратегия файнтюнинга, основанная на top-k-подходе. Её авторы поднимают проблему миссматча распределений во время обучения и на инференсе.

Для обучения в open-loop используются траектории водителей как условия (обуславливание на историю) в режиме behavior cloning. Но при симуляциях на инференсе агенты двигаются уже не по таким же хорошим траекториям в closed-loop, а по своим собственным: с ошибками, которые накапливаются при последовательной генерации движения. Так могут возникать состояния, неучтённые в обучении.

В качестве бейзлайна авторы используют авторегрессионный подход SMART с дельта-токенами:

1. Фиксируют сетку по времени с шагом 0,5–2 секунды прошлого и 8 секунд будущего.
2. На каждом шаге по времени предсказывают для каждого агента токен с собственным сдвигом в координатах.

Обычно авторегрессионные модели для Traffic Motion тренируют с помощью teacher-forcing как LLM модели: формулируют Traffic Motion как Next-Token-Prediction. Но для того, чтобы уменьшить миссматч авторы адаптируют Cross-Entropy Method (или модный SFT из LLM).

Как устроен CEM:

1. Генерирация набора траекторий (в closed-loop)
2. Отбор лучших кандидатов по метрике элиты.
3. Дообучение в режиме teacher-forcing на элитах.

Элиты — моды в распределении, индуцируемом обученной моделью. Они близки к GT-тракеториям. То есть, если дообучаться на хороших траекториях из симуляций в closed-loop, миссматч между обучением и инференсом уменьшится.

Остаётся только адаптировать дельта-токены для CEM:

1. Выбрать K самых вероятных токенов на текущем шаге генерации.
2. Из K самых вероятных токенов выбрать тот, что лучше всего аппроксимирует GT.
3. Использовать выбранный токен для пересчёта следующего состояния.

Контроль количества элит при генерации помогает избежать лишних симуляций и их фильтрации: дискретизация дельта-токенов — дискретизация первого порядка.

Внедрение CAT-K помогло небольшой политике моделирования токенизированного трафика с 7 миллионами параметров превзойти модель с 102 миллионами параметров из того же семейства моделей и занять первое место в таблице лидеров Waymo Sim Agent Challenge на момент подачи заявки.

Разбор подготовил ❣️ Тингир Бадмаев
404 driver not found

Читать полностью…

Data Science by ODS.ai 🦜

15 November 2025 17:26

PLUM: Adapting Pre-trained Language Models for Industrial-scale Generative Recommendations

Сегодня разбираем совместную статью Google DeepMind и YouTube. Об этой работе было известно заранее — на конференции RecSys авторы проекта, включая Ed Chi и Lichan Hong, упоминали, что готовится статья о генеративных рекомендациях. Через пару недель после конференции она действительно вышла.

Исследование продолжает трек генеративных рекомендаций, заданный предыдущей работой авторов TIGER. На этот раз основная идея — использование предобученных больших языковых моделей в рекомендательных пайплайнах (в случае Google — это Gemini). Простая LLM из коробки не подходит: модель не знает ни о корпусе айтемов, ни о пользовательских поведенческих сценариях, что приводит к плохим результатам. Чтобы исправить это, команда предлагает фреймворк PLUM, включающий три стадии: item tokenization, continued pre-training и task-specific fine-tuning. Кратко разберём каждую из них.

1) Item tokenization. За основу взята работа TIGER. В ней семантические идентификаторы (SIDs) формировались через RQ-VAE поверх текстового описания товара (эксперименты были на открытых датасетах Amazon). В PLUM к этому подходу добавляют коллаборативный сигнал и мультимодальные контентные представления. Используются уже готовые аудио-, видео- и текстовые эмбеддинги YouTube, которые конкатенируются и проходят через энкодер RQ-VAE.

Новые предложенные компоненты:

— Multi-Resolution Codebooks: число идентификаторов в кодбуках уменьшается от слоя к слою, чтобы верхние уровни разделяли крупные семантические категории, а нижние — более гранулярные признаки.
— Progressive Masking: модель обучается восстанавливать не полный набор SIDs, а его префикс.

Ключевая вещь в архитектуре — дополнительный contrastive learning на RQ-VAE, который вводит коллаборативный сигнал прямо в процесс токенизации. Берутся пары айтемов, встречавшихся рядом в пользовательской истории как позитивные пары, обучается с помощью InfoNCE по батчу. Так коллаборативный сигнал тоже участвует в формировании кодбуков без отдельной стадии дообучения как, например, в OneRec. В итоге SIDs начинают отражать не только контентную информацию об айтемах, но и коллаборативные пользовательские связи между ними.

2) Continued Pre-Training (CPT). Здесь языковая модель дообучается с увеличенным словарём, в который, помимо изначальных токенов, встроены токены айтемов. Модель обучается на смешанной задаче (supervised + self-supervised). Цель этой стадии — заставить LLM встроить в общее семантическое пространство представления токенов и SIDs.

3) Task-Specific Fine-Tuning. Это полноценное обучение на задачу генеративного ретривала: модель предсказывает релевантные айтемы в пользовательских историях (обучение на next token prediction).

В целом идея PLUM строится на прямой аналогии между словами в языковых моделях и айтемами в RecSys: если в NLP слова токенизируются для работы с огромным словарём, то в рекомендациях можно аналогично токенизировать айтемы.

Эксперименты и результаты

Основная модель — Mixture-of-Experts с ~900 млн активных параметров (всего 4,2 млрд).

В онлайн-A/B-тестах PLUM показывает рост ключевых метрик: CTR и вовлечённости пользователей, особенно в коротких видео (YouTube Shorts). Аблейшены подтверждают, что важны все предложенные компоненты.

В работе показывают законы масштабирования для предложенного фреймворка: при увеличении размера моделей при разном фиксированном вычислительном бюджете ошибки на обучении и валидации снижаются, но самые большие модели (около 3 млрд активных параметров, 20 млрд всего) пока упираются в ограничения вычислительных ресурсов. Исследователям не хватило времени, данных и мощностей, чтобы хорошо обучить модели такого размера, однако инженеры считают, что при дальнейшем масштабировании качество может вырасти ещё больше.

Финальная PLUM-модель дообучается ежедневно на ~0,25 млрд примеров, тогда как предыдущие LEM (Large Embedding Models) подходы требовали многомиллиардных датасетов.

@RecSysChannel
Разбор подготовил ❣ Владимир Байкалов

Читать полностью…

Data Science by ODS.ai 🦜

15 November 2025 12:48

Pelican-VL: Китайский открытый «мозг» для роботов бросил вызов GPT-5

Китайские разработчики представили самую мощную открытую модель искусственного интеллекта для управления роботами. Pelican-VL 1.0 от Пекинского инновационного центра человекоподобных роботов не только превзошла ведущие зарубежные аналоги, но и полностью открыта для сообщества.

💡 Что это такое?
Pelican-VL — это визуально-языковая модель (VLM), созданная специально для воплощенного ИИ (embodied AI). Простыми словами, это «мозг», который позволяет роботам понимать окружающий мир через камеры и выполнять сложные задачи.

🔄 Революционный метод обучения: DPPO
Ключевое новшество — метод DPPO (Deliberate Practice Policy Optimization), работающий по принципу «сознательной практики»:
- Модель анализирует видео
- Самостоятельно тренируется
- Находит ошибки
- Исправляет и улучшает себя

Это похоже на студента, который учится на собственных ошибках, постоянно повышая свой уровень.

🚀 Ключевые возможности модели
• Мультимодальное понимание: Анализирует изображения и текст одновременно
• Пространственно-временное мышление: Понимает последовательность действий во времени
• Физическое взаимодействие: Планирует движения роботов и захват объектов
• Самокоррекция: Автоматически находит и исправляет слабые места

📊 Технические детали
Размеры модели: 7B и 72B параметров
Вычислительные ресурсы: 1000+ GPU A800
Время обучения: 50,000 GPU-часов

🌍 Международное сравнение
Пока Google и NVIDIA развивают свои закрытые системы (Gemini Robotics, Cosmos-Reason1), Pelican-VL предлагает открытую альтернативу с сопоставимой производительностью, но в 10-50 раз более эффективным использованием данных.

Официальный сайт | GitHub | Hugging Face

#КитайскийИИ #КитайAI #EmbodiedAI #Робототехника

Читать полностью…

Data Science by ODS.ai 🦜

14 November 2025 11:04

🚀 Qwen выпустила DeepResearch 2511 - обновление глубокого исследования.

Основные изменения:
✨ Добавлены два режима работы д
- Normal - быстрый и универсальный
- Advanced - тратит больше времени на анализ, чтобы дать максимально глубокий разбор

📄 Поддержка загрузки файлов
Теперь можно отправлять документы и изображения прямо в модель для анализа.

⚡ Улучшенный поиск
Обновлённый механизм быстрее считывает и обрабатывает веб-информацию, углубляя результаты исследования.

📊 Точный контроль отчётов
Можно задавать структуру отчёта: объём, количество абзацев, формат и детализацию. Улучшена надёжность цитирования.

🧑‍💻 Новый UX
Переработанная архитектура делает интерфейс заметно быстрее и отзывчивее.

🔗 Web: https://chat.qwen.ai/?inputFeature=deep_research
📱 App: https://qwen.ai/download

@ai_machinelearning_big_data

#qwen

Читать полностью…

Data Science by ODS.ai 🦜

12 November 2025 16:05

🌐 Google обвинили в использовании ❗️Gemini для незаконного отслеживания частной переписки пользователей

Bloomberg пишет, что Gemini могли использовать для отслеживания данных пользователей в Gmail, сервисах обмена мгновенными сообщениями и видеоконференциях.

Истцы утверждают, что в октябре компания тайно активировала ИИ-модель для всех пользователей Gmail, Chat и Meet. В иске подчеркивается, что подобные действия являются прямым нарушением Калифорнийского закона о вторжении в частную жизнь.

Согласно иску, Gemini получает возможность «получать доступ ко всей записанной истории личных сообщений своих пользователей и использовать её, включая буквально каждое электронное письмо и вложение, отправленное и полученное в их учетных записях Gmail».

Возможность деактивации ИИ-сервиса существует, но она требует от пользователей специальных действий в настройках конфиденциальности Google.

🕵️ Дело: Thele v. Google LLC, 25-cv-09704, Окружной суд США, Северный округ Калифорнии (Сан-Хосе).

✋ @Russian_OSINT

Читать полностью…

Data Science by ODS.ai 🦜

11 November 2025 13:04

⚡️ GPT-5 на Sudoku-Bench

Команда Sudoku-Bench обновила результаты тестов. Напомню, когда бенчмарк вышел в мае 2025, ни одна LLM вообще не могла решить обычную судоку 9×9.

Теперь ситуация изменилась: GPT-5 стал новым лидером и решает 33% задач - в два раза умнее ближайшего конкурента. Это первая модель, которой удалось пройти и вариант классической 9×9.

Но главная часть бенчмарка остаётся нерешённой: 67% более сложных головоломок по-прежнему оказываются слишком сложными. Причина в том, что современные модели плохо справляются с тем, что нужно для настоящей судоку: понимать новые правила, держать в голове глобальную структуру, строить длинные логические цепочки и находить "точку входа", которую опытные люди сразу замечают.

Дополнительные эксперименты - GRPO-тюнинг Qwen2.5-7B и Thought Cloning на примерах из Cracking the Cryptic - дали небольшой прогресс, но не решили ключевые проблемы: пространственное мышление и творческий подход всё ещё оказываются для моделей сложными.

Итог: прогресс заметный, но до уровня человеческого логического и пространственного мышления моделям ещё далеко.

Подробнее:
https://pub.sakana.ai/sudoku-gpt5/

@data_analysis_ml

Читать полностью…

Data Science by ODS.ai 🦜

11 November 2025 05:42

👀Злоумышленники научили LLM-модели генерировать код прямо во время атаки

Злоумышленники начали встраивать модели искусственного интеллекта прямо в вредоносное ПО. Об этом сообщает команда Google Threat Intelligence Group — GTIG. По их данным, малварь нового поколения не просто ускоряет работу через нейросети, а использует их «на лету» — для генерации кода, обфускации и обхода антивирусов.

GTIG зафиксировала два ключевых образца: PROMPTFLUX — дроппер, обращающийся к Gemini за новыми приёмами обхода защит, и PROMPTSTEAL — инструмент на Python, использующий модель Qwen2.5 для кражи данных. Второй уже применялся в атаках APT28 (FROZENLAKE) и расследуется CERT-UA.

Google предупреждает: ИИ делает малварь адаптивной, а рынок — массовым. GTIG усилила фильтры, блокирует инфраструктуру злоумышленников и публикует рекомендации: мониторить обращения к LLM-API, проверять целостность исполняемых файлов и не доверять автоматически сгенерированным командам.

#ИИ #киберугрозы #GTIG
@SecLabNews

Читать полностью…

Data Science by ODS.ai 🦜

09 November 2025 08:12

Всем привет!

Представляем вашему вниманию девятнадцатый выпуск подкаста "Капитанский мостик". Ведущие выпуска Валентин Малых и Дмитрий Колодезев обсуждают новости из мира технологий, в частности, события на конференции EMNLP в Китае.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube

📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).

Читать полностью…

Data Science by ODS.ai 🦜

07 November 2025 12:27

Kimi K2 Thinking: Китайский ИИ-гигант с открытым исходным кодом

Китайская компания MoonShot AI выпустила новую модель — Kimi K2 Thinking. Это не просто открытая языковая модель, а полноценная «модель-как-агент», способная самостоятельно мыслить и использовать инструменты без вмешательства человека.

Основные возможности:
• Многошаговое мышление: Может выполнять до 200-300 последовательных действий (поиск, программирование) без вмешательства человека
• Супер-поиск: Лучшая в своем классе по автономному веб-браузингу и сложному поиску
• Длинный контекст: 256K токенов для работы с объемными документами

🎯 Ключевые преимущества
В benchmark "Последний экзамен человечества" (HLE) с доступом к поиску, Python и браузеру модель показала результат 44.9%, обойдя GPT-5 и Claude Sonnet 4.5.

💻 Технические детали
Архитектура: Mixture-of-Experts (MoE)
Параметры: 1 трлн общих, 32 млрд активных
Квантование: INT4 с Quantization-Aware Training
Контекст: 256K токенов

INT4 квантование обеспечивает:
• 2x ускорение генерации
• Поддержку китайских AI-чипов

HuggingFace | Технический блог

#КитайскийИИ #КитайAI #KimiK2

Читать полностью…

Data Science by ODS.ai 🦜

05 November 2025 05:15

Всем привет!

Встречайте восемнадцатый выпуск подкаста "Капитанский мостик", в котором обсуждаем новости из мира ИИ за прошедшую неделю и не только. Ведущий подкаста - Дмитрий Колодезев. Приглашенный участник сегодняшнего выпуска - Пётр Ермаков.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube

📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).

Читать полностью…

Data Science by ODS.ai 🦜

31 October 2025 13:35

🔥 Hugging Face снова выкатили полезные материалы.

Вышел бесплатный плейбук о том, как изнутри строят SOTA-модели.

Без общих слов - только реальные решения и нюансы, которые обычно скрыты внутри исследовательских команд.

Это полноценный мастеркласс на 214 страниц для тех, кто хочет понимать, как устроены современные LLM.

Что внутри:
• Логика построения модели: зачем → что → как
• Как разработчики берут модель и по частям включают/выключают компоненты (или меняют их)
• Архитектура: ключевые выборы и trade-offs
• Искусство подбора и очистки данных
• Как проходит обучение моделей
• Пост-тренинг и RLHF в 2025
• Инфраструктура больших моделей

По первым страницам - уровень деталей как в Ultra-scale playbook.

Ссылка: https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture

Видео: https://www.youtube.com/watch?v=LGzO-Mn0DJQ

#AI #LLM #MachineLearning #HuggingFace

@sql_lib - библиотека МЛ и ИИ книг

Читать полностью…

Data Science by ODS.ai 🦜

21 November 2025 06:50

✔️ HunyuanVideo 1.5 - новая открытая модель для генерации видео, которая сейчас считается самым сильным open-source решением в этой области.

Построенная на архитектуре DiT, модель поднимает планку по качеству и доступности.

Что важно:
⚡️ Всего 8.3B параметров - модель можно запускать даже на потребительских GPU с 14GB VRAM
🖥️ Качество: генерирует 5–10 секунд видео в 480p/720p, а через суперразрешение —ё- до 1080p с киношной детализацией

SOTA-качество с очень низкими требованиями к железу.

🟠Проект: hunyuan.tencent.com/video/zh
🟠GitHub: github.com/Tencent-Hunyuan/HunyuanVideo-1.5
🟠Hugging Face: huggingface.co/tencent/HunyuanVideo-1.5

@data_analysis_ml

Читать полностью…

Data Science by ODS.ai 🦜

19 November 2025 12:42

😱 ПК-производители в панике скупают ОЗУ

Рынок оперативной памяти лихорадит: производители ПК столкнулись с быстрым ростом цен на DRAM и вынуждены экстренно пополнять запасы. Даже такие крупные компании, как Asus и MSI, начали закупать память на спотовом рынке – обычно туда обращаются только в особенных случаях из-за непредсказуемых цен.

Причина скачка проста: центры обработки данных для ИИ активно выкупают огромные объёмы памяти, фактически выметая рынок. Из-за этого обычным производителям ПК становится всё сложнее обеспечить стабильные поставки.

В Asus признают, что текущих запасов хватит примерно до конца года. Если ситуация не изменится, уже в 2026-м компания может столкнуться с прямым дефицитом, а это значит новый виток подорожания техники. Рост цен уже ощутим: вслед за ОЗУ дорожают и SSD, и видеокарты 📈

Читать полностью…

Data Science by ODS.ai 🦜

18 November 2025 10:50

Sparse4D v3: Advancing End-to-End 3D Detection and Tracking

Сегодня разберём одну из немногих статей об End-to-End 3D Detection and Tracking. Речь пойдёт о детекторе Sparse4Dv3 с хорошими метриками на nuScenes — главном опенсорс-датасете для автономного транспорта.

Sparse4D — camera-only multi-view 3D-детектор, который авторы постоянно развивают. Сегодня у него уже три версии, и в самой последней появился multi-object tracking. Но обо всём по порядку.

Sparse4D v1. Первый подход — энкодер-декодер архитектура camera-only multi-view детектор с временным контекстом.

Из кадров видео, которое подаётся на вход, выделяются image-features с нескольких камер с разными масштабами и таймстемпами. Декодер делает последовательный фьюз этих фичей, используя 3D-anchor-box. После декодера инстансы рефайнят (доуточняют) с учётом confidence. Результат работы модели — предсказание положения 3D-box (задаются координатами, размерами и скоростью).

Sparse4D v2 — улучшение первой версии за счёт применения рекуррентной схемы с фьюзом временного контекста. Дополнительно улучшить сходимость обучения модели на ранних шагах помогли данные о глубине лидара.

Sparse4D v3. Авторы ускорили обучение и улучшили сходимость модели:

🔴 Temporal Instance Denoising — зашумили GT и добавили в обучение.
🔴 Decoupled Attention: заменили сложение на конкатенацию в механизме attention.
🔴 Quality Estimation: оценили centerness (уверенности в координатах) и yawness (уверенности в поворотах) в общий confidence каждого предсказания, а потом прокинули это в loss.

А ещё в этой версии появилась возможность трекинга. Чтобы реализовать её, авторы добавили в информацию каждого предикта идентификатор (id): для предиктов из предыдущих кадров они сохранялись, для новых — генерировались заново. Так процесс трекинга не требует дообучения или файнтьюнинга детектора. Это просто дополнительная функциональность — назначение и сохранение id во времени.

Познакомиться с решением поближе можно на Github авторов.

Разбор подготовила ❣️ Ольга Ротова
404 driver not found

Читать полностью…

Data Science by ODS.ai 🦜

16 November 2025 15:18

Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds

Увидел статью у Андрея @datastorieslanguages и не понял, почему о ней так мало говорят. Меня результаты очень удивили. Я не буду делать полный разбор, сделаю очень краткий пересказ (🤦 я должен бороться за символы).

Что делают: учат маленький Qwen-2-VL-7B играть в Genshin Impact, да-да, ту самую гача-игру, но делают это в очень общем виде. Если модели, которые учились играть в Starcraft / Go / Dota 2 были заточены только на них, то в этом случае авторам удаётся без дообучения и изменений запускаться почти на любой игре.

Для сбора данных нанимают игроков и просят записать их геймплей на первых уровнях, с выполнением простых миссий и загадок. Всего около 2500 часов данных, правда после фильтрации остаётся 1730. На этом учат модель по картинке предсказывать действия мышки и нажатия кнопок. В модель поступает история в виде 20 картинок за 4 секунды + предпринятые в прошлом действия (игрока, не модели). Предсказанное действие — это на самом деле последовательность из 6 действий на следующие 200 миллисекунд (можно предсказать 1 клик и просто ждать, а можно сложную комбинацию клавиш).

Затем фильтруют часть данных, делают разметку / классификацию / фильтрацию через GPT-4.1 и получают 200 часов в данных, где для геймплея есть текстовая инструкция, что делает игрок. Поверх этого собирают 15'000 очень коротких цепочек рассуждений (20-30 слов), привязанных не к каждому шагу, а к отдельным «переломным» моментам, где игрок начинает делать что-то новое.

На каждом из наборов данных учат по 3 эпохи, и на это уходит порядка $45'000 (не миллионы). Много вкладывают в оптимизацию инференса, чтобы модель успевала при истории в 20 картинок в разрешении 720p + истории действий + системном промпте предсказывать следующие действия за менее чем 0.2 секунды, ключевое — это используют StreamingLLM, позволяющий переиспользовать KV-кэш даже если часть истории меняется (потому что мы самые старые картинки + действия удаляем и не подаём в модель; обычно это означает, что нужно пересчитывать всё, и нельзя переиспользовать кэш) + запускают на 4xH20.

И... никакого RL. Только обучение на собранных данных, и даже «обучение рассуждениям» — это просто задача предсказания следующего слова. То, что это работает на тех же уровнях и миссиях, на которых учили — это не удивительно. Немного удивительно, что достаточно хорошо работает на новых уровнях/миссиях/загадках, правда, использующих те же механики (о новых-то модель не знает).

НО ВОТ ЧТО СУПЕР-УДИВИТЕЛЬНО — ЭТО ЧТО МОДЕЛЬ ХОРОШО ИГРАЕТ В ДВЕ ДРУГИЕ ГАЧИ, Wuthering Waves и Honkai: Star Rail. Да, у них похожий стиль и геймплей, да, они достаточно примитивные — но я не ожидал, что маленькая модель, выпущенная ещё до выхода этих игр (то есть она не могли быть натренирована на тысячах скриншотов из них), относительно старенькая (уже Qwen-3 давно), сможет проходить миссии 100+ минут подряд. В Wuthering Wave — вообще 5-часовой уровень закончила (у человека уходит примерно 4 часа, то есть модель не тыкается в стену всё время и потом делает какую-то маленькую часть работы).

Посмотреть записи геймплея можно на сайте тут.

Следующий логичный шаг — а) добавить обучение на интернет-данных (летсплеях) б) расширить круг игр, ну и в идеале ещё конечно в) накинуть RL, что будет сложно из-за длительности сессий.
🤔 интересно, почему это не работает настолько хорошо в веб-агентах? Или там 2500 часов «работы» куда дороже набрать?

🩸 такой хайп что я готов идти питчить агентов-игроков инвесторам

Читать полностью…

Data Science by ODS.ai 🦜

16 November 2025 08:14

Всем привет!

Встречайте двадцатый выпуск подкаста "Капитанский мостик". В этом разговоре участники обсуждают актуальные события в области искусственного интеллекта и микроэлектроники в России, включая создание факультета ИИ в МГУ. Ведущие подкаста - Валентин Малых и Дмитрий Колодезев. Приглашенный участник выпуска - Владислав Голощапов.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube

📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).

Читать полностью…

Data Science by ODS.ai 🦜

15 November 2025 14:57

Статья про апрельский слёт от Google VRP в Токио, где автор попробовал свои силы во взломе Gemini и вынес неплохой профит в $20к.
Суть находки: нейронка по-разному парсила маркдаун на разных слоях, поэтому задача свелась к тому, чтобы уговорить один слой пропустить пейлоад, а на другом она его считала и выполнила.

https://buganizer.cc/hacking-gemini-a-multi-layered-approach-md

Читать полностью…

Data Science by ODS.ai 🦜

14 November 2025 15:41

Погружайся в мир инноваций и прокачивай навыки 21 ноября на True Tech Champ! 🏆

Тебя ждет конференция с российскими и международными экспертами и новый формат лектория — ИТ-качалка.

🎙️ Майкл Ланэм, канадский разработчик и автор технических бестселлеров, проведет воркшоп по созданию и управлению ИИ-агентами.
🎙️ Артем Лыков, ведущий RnD-разработчик MWS, аспират ISR Lab и Skoltech, расскажет о платформе PhysicalAgent для роботизированных манипуляций, которая объединяет итеративное мышление, генерацию видео на основе диффузионных моделей мира и выполнение задач в замкнутом контуре.
🎙️ Валентин Малых, руководитель фундаментальных исследований MWS AI, поделится тонкостями развертывания RAG-систем и осветит наболевший вопрос — длинный контекст против поиска по документам.

Также в программе — гонки и битвы роботов, консультации с HR-командой МТС, ИТ-Родео, робофайтинг и другие айтивности.

Участие бесплатное, можно смотреть трансляцию или прийти в МТС Live Холл. Регистрируйся на сайте и стань частью масштабного технофеста 🔥

#TrueTechEvents@truetechcommunity

Читать полностью…

Data Science by ODS.ai 🦜

12 November 2025 19:42

Цифра дня

100 долларов в месяц платили клиенты за подписку на «ИИ-ассистента» Fireflies ai, который якобы делал заметки во время встреч. На деле, как признался сооснователь компании Сэм Удотонг, этим «ассистентом» в первое время существования компании были он и его напарник. Они подключались к Zoom-звонкам под именем Fred from Fireflies, сидели молча и вручную конспектировали обсуждения; потом слали клиенту текст, будто бы сгенерированный искусственным интеллектом. Так они якобы «пережили ранние месяцы, оплачивая аренду и пиццу».

Получается, два вполне себе конкретных «Фреда» имели доступ к корпоративным совещаниям чужих компаний, которые пускали к себе посторонних людей. Платя за сервис и пребывая в уверенности, что это просто работающая на фоне нейросеть. В комментариях к посту Сэма возникли вопросы к этичности и легальности такого подхода. Fireflies ai и раньше ловили на утечках данных и самовольных подключениях бота к встречам – возможно, основателям компании просто было скучно и они заходили к клиентам послушать?

Читать полностью…

Data Science by ODS.ai 🦜

12 November 2025 12:05

✔️ Две трети топовых ИИ-компаний допустили утечку секретов на GitHub.

Компания по облачной безопасности Wiz обнаружила, что 65% компаний из списка Forbes AI 50 допустили утечку API-ключей, токенов и других учетных данных на GitHub. По словам исследователей, это могло привести к раскрытию приватных моделей, данных обучения или внутренней структуры организаций.

Чаще всего секреты находили в файлах Jupyter Notebook и Python-скриптах. Среди утечек были токены Hugging Face, Azure и W&B. В одном из случаев скомпрометированный токен Hugging Face мог открыть доступ к тысяче приватных моделей.

Wiz публично назвала только ElevenLabs и LangChain, отметив их быструю реакцию. При этом почти половина всех уведомлений об утечках, отправленных другим компаниям, осталась без ответа.
wiz.io

Читать полностью…

Data Science by ODS.ai 🦜

11 November 2025 12:29

я летом то ли пропустил, то ли не придал значения новости про инноваторов из Builder.ai; они сделали стартап по автоматическому написанию кода, но за ИИ код писали 700 инженеров из Индии; кстати, эти люди шли проторенной самим Amazon дорогой, там 1000 асессоров из Индии распознавали продукты в супермаркете

кстати, после случая с Amazon появился неполиткорректный мем "AI = Artificial Indian" (осуждаем, конечно)

@valuableai

Читать полностью…

Data Science by ODS.ai 🦜

10 November 2025 12:53

всем привет, мы открыли подачу заявок на Премию имени Владимира Иосифовича Левенштейна за 2026 год; премия вручается за вклад в развитие русскоязычного NLP-сообщества, как научный, так и в виде open source; если знаете, кому это релевантно, - перешлите или заполните форму за него

ссылка на подачу заявок, заявки принимаются до 31 декабря

на фотографии - Наталья Валентиновна Лукашевич, первый лауреат премии, и я

@valuableai

Читать полностью…

Data Science by ODS.ai 🦜

08 November 2025 11:13

⚡️ OpenAI выпустила GPT-5-Codex-Mini.

GPT-5-Codex-Mini - более доступная версия флагманского Codex, она в 4 раза эффективней по затратам по сравнению с полной версией GPT-5-Codex при небольшом компромиссе в производительности.

Разница в возможностях минимальна: на SWE-bench Verified версия Mini набрала 71.3%, в то время как старшая GPT-5-Codex - 74.5%. OpenAI рекомендует переключаться на Mini для решения более простых задач или для экономии ресурсов при приближении к лимитам. Старший Codex будет автоматически предлагать переход на Mini, когда пользователь достигнет 90% своего лимита.

Модель уже доступна в CLI и расширении для IDE, а в скором времени появится и поддержка через API.

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Data Science by ODS.ai 🦜

05 November 2025 11:51

ИИ против крипторынка: Китайские модели одержали сокрушительную победу

Опубликованы результаты первого в мире конкурса AI-трейдеров, где шесть ведущих языковых моделей соревновались в торговле криптовалютой.

Суть события: Шесть ведущих AI-моделей получили по $10,000 для торговли на реальном рынке без вмешательства человека. Победителем стал тот, кто показал максимальную доходность при контролируемом риске.

«Это своего рода тест Тьюринга для криптотрейдинга» — так организаторы из Nof1.ai охарактеризовали свое мероприятие, проходившее с 17 октября по 3 ноября 2025 года.

📊 Ключевые результаты:
• 1 место: Alibaba Qwen — доходность свыше 20% 🥇
• 2 место: DeepSeek — стабильная прибыль 🥈
• Остальные модели: ушли в минус, особенно GPT-5 (~~потерял более 60%~~)

🔍 Как проходил конкурс?
• Каждая модель самостоятельно анализировала рынок
• Использовались идентичные исходные данные и условия
• Торговля велась на платформе Hyperliquid
• Запрещена любая внешняя помощь или коррекция стратегии
• Полная автономность — без человеческого вмешательства
• Все транзакции и решения публиковались в реальном времени

🧠 Технические детали:
Модели должны были: - Выявлять альфа-возможности (шансы на сверхдоходность) - Определять размер позиции - Выбирать точки входа и выхода - Управлять риском в реальном времени
🤖 Характеристики моделей:
• Qwen3 Max — агрессивный стиль, высокая доходность при умеренной частоте сделок
• DeepSeek — консервативный подход, лучший показатель Шарпа (0.359)
• GPT-5 — наименьшая эффективность (-62.66%) при высокой активности

💡 Что это значит для индустрии?
Победа Qwen демонстрирует не просто "знание", а способность применять сложные навыки в условиях реального финансового рынка — анализировать, принимать решения и управлять рисками автономно.

Подробнее о методике и результатах

#КитайскийИИ #КитайAI #Трейдинг #Alibaba #GPT5 #DeepSeek

Читать полностью…

Data Science by ODS.ai 🦜

02 November 2025 13:31

Первое в мире iVedro

По словам автора, он хотел сделать незаметное мусорное ведро для офиса и, похоже, у него это получилось.

Мой Компьютер

Читать полностью…

Data Science by ODS.ai 🦜

31 October 2025 12:08

Время silero-tts v5 пришло!

🆕 Что добавилось / поменялось:

1️⃣ Модели в 3-4 раза быстрее v3 и в 1.5 - 2 раза быстрее v4;
2️⃣ Добавилась автоматическая расстановка ударений в омографах;
3️⃣ Значительно повысилось качество звучания и стабильность генерации;
4️⃣ В моделях всё так же поддерживается SSML;
5️⃣ Список голосов: aidar, baya, kseniya, xenia, eugene;
6️⃣ Ставить модель можно через torch.hub, тупо выкачав локально, через pip;
7️⃣ Скрутили дебафф из v4;

Список новых флагов:

put_accent=True,
put_yo=True,
put_stress_homo=True,
put_yo_homo=True

Минимальный пример буквально:

!pip install silero
from silero import silero_tts
model, example_text = silero_tts(language='ru',
                                 speaker='v5_ru')
audio = model.apply_tts(text=example_text)

Попробовать можно тут:

⭐️ Репозиторий
📔 Ноутбучек с примерами
⬆️ Статья на Хабре

Читать полностью…

Subscribe to a channel