46226
First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev
Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds
Увидел статью у Андрея @datastorieslanguages и не понял, почему о ней так мало говорят. Меня результаты очень удивили. Я не буду делать полный разбор, сделаю очень краткий пересказ (🤦 я должен бороться за символы).
Что делают: учат маленький Qwen-2-VL-7B играть в Genshin Impact, да-да, ту самую гача-игру, но делают это в очень общем виде. Если модели, которые учились играть в Starcraft / Go / Dota 2 были заточены только на них, то в этом случае авторам удаётся без дообучения и изменений запускаться почти на любой игре.
Для сбора данных нанимают игроков и просят записать их геймплей на первых уровнях, с выполнением простых миссий и загадок. Всего около 2500 часов данных, правда после фильтрации остаётся 1730. На этом учат модель по картинке предсказывать действия мышки и нажатия кнопок. В модель поступает история в виде 20 картинок за 4 секунды + предпринятые в прошлом действия (игрока, не модели). Предсказанное действие — это на самом деле последовательность из 6 действий на следующие 200 миллисекунд (можно предсказать 1 клик и просто ждать, а можно сложную комбинацию клавиш).
Затем фильтруют часть данных, делают разметку / классификацию / фильтрацию через GPT-4.1 и получают 200 часов в данных, где для геймплея есть текстовая инструкция, что делает игрок. Поверх этого собирают 15'000 очень коротких цепочек рассуждений (20-30 слов), привязанных не к каждому шагу, а к отдельным «переломным» моментам, где игрок начинает делать что-то новое.
На каждом из наборов данных учат по 3 эпохи, и на это уходит порядка $45'000 (не миллионы). Много вкладывают в оптимизацию инференса, чтобы модель успевала при истории в 20 картинок в разрешении 720p + истории действий + системном промпте предсказывать следующие действия за менее чем 0.2 секунды, ключевое — это используют StreamingLLM, позволяющий переиспользовать KV-кэш даже если часть истории меняется (потому что мы самые старые картинки + действия удаляем и не подаём в модель; обычно это означает, что нужно пересчитывать всё, и нельзя переиспользовать кэш) + запускают на 4xH20.
И... никакого RL. Только обучение на собранных данных, и даже «обучение рассуждениям» — это просто задача предсказания следующего слова. То, что это работает на тех же уровнях и миссиях, на которых учили — это не удивительно. Немного удивительно, что достаточно хорошо работает на новых уровнях/миссиях/загадках, правда, использующих те же механики (о новых-то модель не знает).
НО ВОТ ЧТО СУПЕР-УДИВИТЕЛЬНО — ЭТО ЧТО МОДЕЛЬ ХОРОШО ИГРАЕТ В ДВЕ ДРУГИЕ ГАЧИ, Wuthering Waves и Honkai: Star Rail. Да, у них похожий стиль и геймплей, да, они достаточно примитивные — но я не ожидал, что маленькая модель, выпущенная ещё до выхода этих игр (то есть она не могли быть натренирована на тысячах скриншотов из них), относительно старенькая (уже Qwen-3 давно), сможет проходить миссии 100+ минут подряд. В Wuthering Wave — вообще 5-часовой уровень закончила (у человека уходит примерно 4 часа, то есть модель не тыкается в стену всё время и потом делает какую-то маленькую часть работы).
Посмотреть записи геймплея можно на сайте тут.
Следующий логичный шаг — а) добавить обучение на интернет-данных (летсплеях) б) расширить круг игр, ну и в идеале ещё конечно в) накинуть RL, что будет сложно из-за длительности сессий.
🤔 интересно, почему это не работает настолько хорошо в веб-агентах? Или там 2500 часов «работы» куда дороже набрать?
🩸 такой хайп что я готов идти питчить агентов-игроков инвесторам
Всем привет!
Встречайте двадцатый выпуск подкаста "Капитанский мостик". В этом разговоре участники обсуждают актуальные события в области искусственного интеллекта и микроэлектроники в России, включая создание факультета ИИ в МГУ. Ведущие подкаста - Валентин Малых и Дмитрий Колодезев. Приглашенный участник выпуска - Владислав Голощапов.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube
📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).
Статья про апрельский слёт от Google VRP в Токио, где автор попробовал свои силы во взломе Gemini и вынес неплохой профит в $20к.
Суть находки: нейронка по-разному парсила маркдаун на разных слоях, поэтому задача свелась к тому, чтобы уговорить один слой пропустить пейлоад, а на другом она его считала и выполнила.
https://buganizer.cc/hacking-gemini-a-multi-layered-approach-md
Погружайся в мир инноваций и прокачивай навыки 21 ноября на True Tech Champ! 🏆
Тебя ждет конференция с российскими и международными экспертами и новый формат лектория — ИТ-качалка.
🎙️ Майкл Ланэм, канадский разработчик и автор технических бестселлеров, проведет воркшоп по созданию и управлению ИИ-агентами.
🎙️ Артем Лыков, ведущий RnD-разработчик MWS, аспират ISR Lab и Skoltech, расскажет о платформе PhysicalAgent для роботизированных манипуляций, которая объединяет итеративное мышление, генерацию видео на основе диффузионных моделей мира и выполнение задач в замкнутом контуре.
🎙️ Валентин Малых, руководитель фундаментальных исследований MWS AI, поделится тонкостями развертывания RAG-систем и осветит наболевший вопрос — длинный контекст против поиска по документам.
Также в программе — гонки и битвы роботов, консультации с HR-командой МТС, ИТ-Родео, робофайтинг и другие айтивности.
Участие бесплатное, можно смотреть трансляцию или прийти в МТС Live Холл. Регистрируйся на сайте и стань частью масштабного технофеста 🔥
#TrueTechEvents@truetechcommunity
Цифра дня
100 долларов в месяц платили клиенты за подписку на «ИИ-ассистента» Fireflies ai, который якобы делал заметки во время встреч. На деле, как признался сооснователь компании Сэм Удотонг, этим «ассистентом» в первое время существования компании были он и его напарник. Они подключались к Zoom-звонкам под именем Fred from Fireflies, сидели молча и вручную конспектировали обсуждения; потом слали клиенту текст, будто бы сгенерированный искусственным интеллектом. Так они якобы «пережили ранние месяцы, оплачивая аренду и пиццу».
Получается, два вполне себе конкретных «Фреда» имели доступ к корпоративным совещаниям чужих компаний, которые пускали к себе посторонних людей. Платя за сервис и пребывая в уверенности, что это просто работающая на фоне нейросеть. В комментариях к посту Сэма возникли вопросы к этичности и легальности такого подхода. Fireflies ai и раньше ловили на утечках данных и самовольных подключениях бота к встречам – возможно, основателям компании просто было скучно и они заходили к клиентам послушать?
✔️ Две трети топовых ИИ-компаний допустили утечку секретов на GitHub.
Компания по облачной безопасности Wiz обнаружила, что 65% компаний из списка Forbes AI 50 допустили утечку API-ключей, токенов и других учетных данных на GitHub. По словам исследователей, это могло привести к раскрытию приватных моделей, данных обучения или внутренней структуры организаций.
Чаще всего секреты находили в файлах Jupyter Notebook и Python-скриптах. Среди утечек были токены Hugging Face, Azure и W&B. В одном из случаев скомпрометированный токен Hugging Face мог открыть доступ к тысяче приватных моделей.
Wiz публично назвала только ElevenLabs и LangChain, отметив их быструю реакцию. При этом почти половина всех уведомлений об утечках, отправленных другим компаниям, осталась без ответа.
wiz.io
я летом то ли пропустил, то ли не придал значения новости про инноваторов из Builder.ai; они сделали стартап по автоматическому написанию кода, но за ИИ код писали 700 инженеров из Индии; кстати, эти люди шли проторенной самим Amazon дорогой, там 1000 асессоров из Индии распознавали продукты в супермаркете
кстати, после случая с Amazon появился неполиткорректный мем "AI = Artificial Indian" (осуждаем, конечно)
@valuableai
всем привет, мы открыли подачу заявок на Премию имени Владимира Иосифовича Левенштейна за 2026 год; премия вручается за вклад в развитие русскоязычного NLP-сообщества, как научный, так и в виде open source; если знаете, кому это релевантно, - перешлите или заполните форму за него
ссылка на подачу заявок, заявки принимаются до 31 декабря
на фотографии - Наталья Валентиновна Лукашевич, первый лауреат премии, и я
@valuableai
⚡️ OpenAI выпустила GPT-5-Codex-Mini.
GPT-5-Codex-Mini - более доступная версия флагманского Codex, она в 4 раза эффективней по затратам по сравнению с полной версией GPT-5-Codex при небольшом компромиссе в производительности.
Разница в возможностях минимальна: на SWE-bench Verified версия Mini набрала 71.3%, в то время как старшая GPT-5-Codex - 74.5%. OpenAI рекомендует переключаться на Mini для решения более простых задач или для экономии ресурсов при приближении к лимитам. Старший Codex будет автоматически предлагать переход на Mini, когда пользователь достигнет 90% своего лимита.
Модель уже доступна в CLI и расширении для IDE, а в скором времени появится и поддержка через API.
@ai_machinelearning_big_data
#news #ai #ml
ИИ против крипторынка: Китайские модели одержали сокрушительную победу
Опубликованы результаты первого в мире конкурса AI-трейдеров, где шесть ведущих языковых моделей соревновались в торговле криптовалютой.
Суть события: Шесть ведущих AI-моделей получили по $10,000 для торговли на реальном рынке без вмешательства человека. Победителем стал тот, кто показал максимальную доходность при контролируемом риске.
«Это своего рода тест Тьюринга для криптотрейдинга» — так организаторы из Nof1.ai охарактеризовали свое мероприятие, проходившее с 17 октября по 3 ноября 2025 года.
📊 Ключевые результаты:
• 1 место: Alibaba Qwen — доходность свыше 20% 🥇
• 2 место: DeepSeek — стабильная прибыль 🥈
• Остальные модели: ушли в минус, особенно GPT-5 (потерял более 60%)
🔍 Как проходил конкурс?
• Каждая модель самостоятельно анализировала рынок
• Использовались идентичные исходные данные и условия
• Торговля велась на платформе Hyperliquid
• Запрещена любая внешняя помощь или коррекция стратегии
• Полная автономность — без человеческого вмешательства
• Все транзакции и решения публиковались в реальном времени
🧠 Технические детали:Модели должны были:
- Выявлять альфа-возможности (шансы на сверхдоходность)
- Определять размер позиции
- Выбирать точки входа и выхода
- Управлять риском в реальном времени
🤖 Характеристики моделей:
• Qwen3 Max — агрессивный стиль, высокая доходность при умеренной частоте сделок
• DeepSeek — консервативный подход, лучший показатель Шарпа (0.359)
• GPT-5 — наименьшая эффективность (-62.66%) при высокой активности
💡 Что это значит для индустрии?
Победа Qwen демонстрирует не просто "знание", а способность применять сложные навыки в условиях реального финансового рынка — анализировать, принимать решения и управлять рисками автономно.
Подробнее о методике и результатах
#КитайскийИИ #КитайAI #Трейдинг #Alibaba #GPT5 #DeepSeek
Первое в мире iVedro
По словам автора, он хотел сделать незаметное мусорное ведро для офиса и, похоже, у него это получилось.
Мой Компьютер
Время silero-tts v5 пришло!
🆕 Что добавилось / поменялось:
1️⃣ Модели в 3-4 раза быстрее v3 и в 1.5 - 2 раза быстрее v4;
2️⃣ Добавилась автоматическая расстановка ударений в омографах;
3️⃣ Значительно повысилось качество звучания и стабильность генерации;
4️⃣ В моделях всё так же поддерживается SSML;
5️⃣ Список голосов: aidar, baya, kseniya, xenia, eugene;
6️⃣ Ставить модель можно через torch.hub, тупо выкачав локально, через pip;
7️⃣ Скрутили дебафф из v4;
Список новых флагов:
put_accent=True,
put_yo=True,
put_stress_homo=True,
put_yo_homo=True
!pip install silero
from silero import silero_tts
model, example_text = silero_tts(language='ru',
speaker='v5_ru')
audio = model.apply_tts(text=example_text)
Уважаемые коллеги!
Ближайший доклад на cеминаре «Математические основы искусственного интеллекта» в Математическом институте им. В.А. Стеклова РАН пройдет в очном формате, а также дистанционно в системе Контур Толк:
Место и время: МИАН (ул. Губкина 8), 9 этаж, конференц-зал + Контур Толк, среда, 05 ноября 2025 г., 17:00-18:00.
Д.А. Демин (МФТИ):
О замечательном классе сложности с алгоритмом обучения и его связи с нейронными сетями
Аннотация: Существует серия результатов, показывающих, что для различных архитектур неглубоких нейронных сетей множество решаемых ими задач совпадает с классом схемной сложности TC^0, который имеет удобные описания как в терминах логики, так и в терминах комбинаторных алгоритмов. Однако это не отвечает на вопрос о том, как найти набор параметров нейросети, решающий данную задачу. Более того, существование эффективного алгоритма обучения для всех задач из класса TC^0 означало бы, например, что криптографический протокол RSA ненадёжен.
Мы определяем принципиально новый класс сложности BPC^0, для которого не только сохраняется эквивалентность с неглубокими нейросетями (с дополнительным ограничением на нормы весов), но и существует полиномиальный алгоритм обучения. Для этого класса удаётся найти похожие описания в логических и комбинаторно-алгоритмических терминах. Также для каждой задачи из класса BPC^0 существуют примеры нейросетей полиномиального размера с одним скрытым слоем, для которых сходится обучение методом стохастического градиентного спуска, но степень полинома для этой нейросети велика и зависит от глубины.
Ссылка на подключение в Контур Толк:
https://mian.ktalk.ru/jy7i6n6xlooq?pinCode=6107
Пин-код: 6107
⚡️ Glyph: масштабирование контекста через визуально-текстовую компрессию
В основе модели лежит простая идея : вместо того чтобы кормить модели километровый текст, Glyph превращает его в изображение и обрабатывает через vision-language модель.
Используется LLM-управляемый генетический алгоритм, чтобы подобрать наилучшие параметры визуального отображения текста (шрифт, плотность, макет), балансируя между сжатием и точностью.
Это радикально снижает вычислительные затраты, сохраняя при этом смысловую структуру текста.
При этом точность почти не падает: на задачах с длинным контекстом Glyph работает на уровне современных моделей вроде Qwen3-8B.
При экстремальном сжатии VLM с контекстом 128K может эффективно обрабатывать задачи, эквивалентные 1M+ токенов в традиционных LLM.
Фактически, длинный контекст становится мультимодальной задачей, а не чисто текстовой.
📄 Подробности: arxiv.org/abs/2510.17800
🧩 Веса: huggingface.co/zai-org/Glyph
👉 Репозиторий: github.com/thu-coai/Glyph
@ai_machinelearning_big_data
#AI #LLM #Multimodal #Research #DeepLearning
Всем привет!
Представляем вашему вниманию семнадцатый выпуск подкаста "Капитанский мостик", в этом разговоре обсуждаются самые актуальные темы в области технологий. Ведущие выпуска - Валентин Малых и Дмитрий Колодезев.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube
📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).
Closed-Loop Supervised Fine-Tuning of Tokenized Traffic Models
Сегодня разберём статью о том, как ребята из NVIDIA заняли первое место в лидерборде WOSAC от Waymo. Речь пойдёт о цикле SFT, а не о способах токенизации, старых слоях архитектуры или внутреннем cross attention.
CAT-K — стратегия файнтюнинга, основанная на top-k-подходе. Её авторы поднимают проблему миссматча распределений во время обучения и на инференсе.
Для обучения в open-loop используются траектории водителей как условия (обуславливание на историю) в режиме behavior cloning. Но при симуляциях на инференсе агенты двигаются уже не по таким же хорошим траекториям в closed-loop, а по своим собственным: с ошибками, которые накапливаются при последовательной генерации движения. Так могут возникать состояния, неучтённые в обучении.
В качестве бейзлайна авторы используют авторегрессионный подход SMART с дельта-токенами:
1. Фиксируют сетку по времени с шагом 0,5–2 секунды прошлого и 8 секунд будущего.
2. На каждом шаге по времени предсказывают для каждого агента токен с собственным сдвигом в координатах.
Обычно авторегрессионные модели для Traffic Motion тренируют с помощью teacher-forcing как LLM модели: формулируют Traffic Motion как Next-Token-Prediction. Но для того, чтобы уменьшить миссматч авторы адаптируют Cross-Entropy Method (или модный SFT из LLM).
Как устроен CEM:
1. Генерирация набора траекторий (в closed-loop)
2. Отбор лучших кандидатов по метрике элиты.
3. Дообучение в режиме teacher-forcing на элитах.
Элиты — моды в распределении, индуцируемом обученной моделью. Они близки к GT-тракеториям. То есть, если дообучаться на хороших траекториях из симуляций в closed-loop, миссматч между обучением и инференсом уменьшится.
Остаётся только адаптировать дельта-токены для CEM:
1. Выбрать K самых вероятных токенов на текущем шаге генерации.
2. Из K самых вероятных токенов выбрать тот, что лучше всего аппроксимирует GT.
3. Использовать выбранный токен для пересчёта следующего состояния.
Контроль количества элит при генерации помогает избежать лишних симуляций и их фильтрации: дискретизация дельта-токенов — дискретизация первого порядка.
Внедрение CAT-K помогло небольшой политике моделирования токенизированного трафика с 7 миллионами параметров превзойти модель с 102 миллионами параметров из того же семейства моделей и занять первое место в таблице лидеров Waymo Sim Agent Challenge на момент подачи заявки.
Разбор подготовил ❣️ Тингир Бадмаев
404 driver not found
PLUM: Adapting Pre-trained Language Models for Industrial-scale Generative Recommendations
Сегодня разбираем совместную статью Google DeepMind и YouTube. Об этой работе было известно заранее — на конференции RecSys авторы проекта, включая Ed Chi и Lichan Hong, упоминали, что готовится статья о генеративных рекомендациях. Через пару недель после конференции она действительно вышла.
Исследование продолжает трек генеративных рекомендаций, заданный предыдущей работой авторов TIGER. На этот раз основная идея — использование предобученных больших языковых моделей в рекомендательных пайплайнах (в случае Google — это Gemini). Простая LLM из коробки не подходит: модель не знает ни о корпусе айтемов, ни о пользовательских поведенческих сценариях, что приводит к плохим результатам. Чтобы исправить это, команда предлагает фреймворк PLUM, включающий три стадии: item tokenization, continued pre-training и task-specific fine-tuning. Кратко разберём каждую из них.
1) Item tokenization. За основу взята работа TIGER. В ней семантические идентификаторы (SIDs) формировались через RQ-VAE поверх текстового описания товара (эксперименты были на открытых датасетах Amazon). В PLUM к этому подходу добавляют коллаборативный сигнал и мультимодальные контентные представления. Используются уже готовые аудио-, видео- и текстовые эмбеддинги YouTube, которые конкатенируются и проходят через энкодер RQ-VAE.
Новые предложенные компоненты:
— Multi-Resolution Codebooks: число идентификаторов в кодбуках уменьшается от слоя к слою, чтобы верхние уровни разделяли крупные семантические категории, а нижние — более гранулярные признаки.
— Progressive Masking: модель обучается восстанавливать не полный набор SIDs, а его префикс.
Ключевая вещь в архитектуре — дополнительный contrastive learning на RQ-VAE, который вводит коллаборативный сигнал прямо в процесс токенизации. Берутся пары айтемов, встречавшихся рядом в пользовательской истории как позитивные пары, обучается с помощью InfoNCE по батчу. Так коллаборативный сигнал тоже участвует в формировании кодбуков без отдельной стадии дообучения как, например, в OneRec. В итоге SIDs начинают отражать не только контентную информацию об айтемах, но и коллаборативные пользовательские связи между ними.
2) Continued Pre-Training (CPT). Здесь языковая модель дообучается с увеличенным словарём, в который, помимо изначальных токенов, встроены токены айтемов. Модель обучается на смешанной задаче (supervised + self-supervised). Цель этой стадии — заставить LLM встроить в общее семантическое пространство представления токенов и SIDs.
3) Task-Specific Fine-Tuning. Это полноценное обучение на задачу генеративного ретривала: модель предсказывает релевантные айтемы в пользовательских историях (обучение на next token prediction).
В целом идея PLUM строится на прямой аналогии между словами в языковых моделях и айтемами в RecSys: если в NLP слова токенизируются для работы с огромным словарём, то в рекомендациях можно аналогично токенизировать айтемы.
Эксперименты и результаты
Основная модель — Mixture-of-Experts с ~900 млн активных параметров (всего 4,2 млрд).
В онлайн-A/B-тестах PLUM показывает рост ключевых метрик: CTR и вовлечённости пользователей, особенно в коротких видео (YouTube Shorts). Аблейшены подтверждают, что важны все предложенные компоненты.
В работе показывают законы масштабирования для предложенного фреймворка: при увеличении размера моделей при разном фиксированном вычислительном бюджете ошибки на обучении и валидации снижаются, но самые большие модели (около 3 млрд активных параметров, 20 млрд всего) пока упираются в ограничения вычислительных ресурсов. Исследователям не хватило времени, данных и мощностей, чтобы хорошо обучить модели такого размера, однако инженеры считают, что при дальнейшем масштабировании качество может вырасти ещё больше.
Финальная PLUM-модель дообучается ежедневно на ~0,25 млрд примеров, тогда как предыдущие LEM (Large Embedding Models) подходы требовали многомиллиардных датасетов.
@RecSysChannel
Разбор подготовил ❣ Владимир Байкалов
Pelican-VL: Китайский открытый «мозг» для роботов бросил вызов GPT-5
Китайские разработчики представили самую мощную открытую модель искусственного интеллекта для управления роботами. Pelican-VL 1.0 от Пекинского инновационного центра человекоподобных роботов не только превзошла ведущие зарубежные аналоги, но и полностью открыта для сообщества.
💡 Что это такое?
Pelican-VL — это визуально-языковая модель (VLM), созданная специально для воплощенного ИИ (embodied AI). Простыми словами, это «мозг», который позволяет роботам понимать окружающий мир через камеры и выполнять сложные задачи.
🔄 Революционный метод обучения: DPPO
Ключевое новшество — метод DPPO (Deliberate Practice Policy Optimization), работающий по принципу «сознательной практики»:
- Модель анализирует видео
- Самостоятельно тренируется
- Находит ошибки
- Исправляет и улучшает себя
Это похоже на студента, который учится на собственных ошибках, постоянно повышая свой уровень.
🚀 Ключевые возможности модели
• Мультимодальное понимание: Анализирует изображения и текст одновременно
• Пространственно-временное мышление: Понимает последовательность действий во времени
• Физическое взаимодействие: Планирует движения роботов и захват объектов
• Самокоррекция: Автоматически находит и исправляет слабые места
📊 Технические деталиРазмеры модели: 7B и 72B параметровВычислительные ресурсы: 1000+ GPU A800Время обучения: 50,000 GPU-часов
🌍 Международное сравнение
Пока Google и NVIDIA развивают свои закрытые системы (Gemini Robotics, Cosmos-Reason1), Pelican-VL предлагает открытую альтернативу с сопоставимой производительностью, но в 10-50 раз более эффективным использованием данных.
Официальный сайт | GitHub | Hugging Face
#КитайскийИИ #КитайAI #EmbodiedAI #Робототехника
🚀 Qwen выпустила DeepResearch 2511 - обновление глубокого исследования.
Основные изменения:
✨ Добавлены два режима работы д
- Normal - быстрый и универсальный
- Advanced - тратит больше времени на анализ, чтобы дать максимально глубокий разбор
📄 Поддержка загрузки файлов
Теперь можно отправлять документы и изображения прямо в модель для анализа.
⚡ Улучшенный поиск
Обновлённый механизм быстрее считывает и обрабатывает веб-информацию, углубляя результаты исследования.
📊 Точный контроль отчётов
Можно задавать структуру отчёта: объём, количество абзацев, формат и детализацию. Улучшена надёжность цитирования.
🧑💻 Новый UX
Переработанная архитектура делает интерфейс заметно быстрее и отзывчивее.
🔗 Web: https://chat.qwen.ai/?inputFeature=deep_research
📱 App: https://qwen.ai/download
@ai_machinelearning_big_data
#qwen
🌐 Google обвинили в использовании ❗️Gemini для незаконного отслеживания частной переписки пользователей
Bloomberg пишет, что Gemini могли использовать для отслеживания данных пользователей в Gmail, сервисах обмена мгновенными сообщениями и видеоконференциях.
Истцы утверждают, что в октябре компания тайно активировала ИИ-модель для всех пользователей Gmail, Chat и Meet. В иске подчеркивается, что подобные действия являются прямым нарушением Калифорнийского закона о вторжении в частную жизнь.
Согласно иску, Gemini получает возможность «получать доступ ко всей записанной истории личных сообщений своих пользователей и использовать её, включая буквально каждое электронное письмо и вложение, отправленное и полученное в их учетных записях Gmail».
Возможность деактивации ИИ-сервиса существует, но она требует от пользователей специальных действий в настройках конфиденциальности Google.
🕵️ Дело: Thele v. Google LLC, 25-cv-09704, Окружной суд США, Северный округ Калифорнии (Сан-Хосе).
✋ @Russian_OSINT
⚡️ GPT-5 на Sudoku-Bench
Команда Sudoku-Bench обновила результаты тестов. Напомню, когда бенчмарк вышел в мае 2025, ни одна LLM вообще не могла решить обычную судоку 9×9.
Теперь ситуация изменилась: GPT-5 стал новым лидером и решает 33% задач - в два раза умнее ближайшего конкурента. Это первая модель, которой удалось пройти и вариант классической 9×9.
Но главная часть бенчмарка остаётся нерешённой: 67% более сложных головоломок по-прежнему оказываются слишком сложными. Причина в том, что современные модели плохо справляются с тем, что нужно для настоящей судоку: понимать новые правила, держать в голове глобальную структуру, строить длинные логические цепочки и находить "точку входа", которую опытные люди сразу замечают.
Дополнительные эксперименты - GRPO-тюнинг Qwen2.5-7B и Thought Cloning на примерах из Cracking the Cryptic - дали небольшой прогресс, но не решили ключевые проблемы: пространственное мышление и творческий подход всё ещё оказываются для моделей сложными.
Итог: прогресс заметный, но до уровня человеческого логического и пространственного мышления моделям ещё далеко.
Подробнее:
https://pub.sakana.ai/sudoku-gpt5/
@data_analysis_ml
👀Злоумышленники научили LLM-модели генерировать код прямо во время атаки
Злоумышленники начали встраивать модели искусственного интеллекта прямо в вредоносное ПО. Об этом сообщает команда Google Threat Intelligence Group — GTIG. По их данным, малварь нового поколения не просто ускоряет работу через нейросети, а использует их «на лету» — для генерации кода, обфускации и обхода антивирусов.
GTIG зафиксировала два ключевых образца: PROMPTFLUX — дроппер, обращающийся к Gemini за новыми приёмами обхода защит, и PROMPTSTEAL — инструмент на Python, использующий модель Qwen2.5 для кражи данных. Второй уже применялся в атаках APT28 (FROZENLAKE) и расследуется CERT-UA.
Google предупреждает: ИИ делает малварь адаптивной, а рынок — массовым. GTIG усилила фильтры, блокирует инфраструктуру злоумышленников и публикует рекомендации: мониторить обращения к LLM-API, проверять целостность исполняемых файлов и не доверять автоматически сгенерированным командам.
#ИИ #киберугрозы #GTIG
@SecLabNews
Всем привет!
Представляем вашему вниманию девятнадцатый выпуск подкаста "Капитанский мостик". Ведущие выпуска Валентин Малых и Дмитрий Колодезев обсуждают новости из мира технологий, в частности, события на конференции EMNLP в Китае.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube
📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).
Kimi K2 Thinking: Китайский ИИ-гигант с открытым исходным кодом
Китайская компания MoonShot AI выпустила новую модель — Kimi K2 Thinking. Это не просто открытая языковая модель, а полноценная «модель-как-агент», способная самостоятельно мыслить и использовать инструменты без вмешательства человека.
Основные возможности:
• Многошаговое мышление: Может выполнять до 200-300 последовательных действий (поиск, программирование) без вмешательства человека
• Супер-поиск: Лучшая в своем классе по автономному веб-браузингу и сложному поиску
• Длинный контекст: 256K токенов для работы с объемными документами
🎯 Ключевые преимущества
В benchmark "Последний экзамен человечества" (HLE) с доступом к поиску, Python и браузеру модель показала результат 44.9%, обойдя GPT-5 и Claude Sonnet 4.5.
💻 Технические деталиАрхитектура: Mixture-of-Experts (MoE)Параметры: 1 трлн общих, 32 млрд активныхКвантование: INT4 с Quantization-Aware TrainingКонтекст: 256K токенов
INT4 квантование обеспечивает:
• 2x ускорение генерации
• Поддержку китайских AI-чипов
HuggingFace | Технический блог
#КитайскийИИ #КитайAI #KimiK2
Всем привет!
Встречайте восемнадцатый выпуск подкаста "Капитанский мостик", в котором обсуждаем новости из мира ИИ за прошедшую неделю и не только. Ведущий подкаста - Дмитрий Колодезев. Приглашенный участник сегодняшнего выпуска - Пётр Ермаков.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube
📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).
🔥 Hugging Face снова выкатили полезные материалы.
Вышел бесплатный плейбук о том, как изнутри строят SOTA-модели.
Без общих слов - только реальные решения и нюансы, которые обычно скрыты внутри исследовательских команд.
Это полноценный мастеркласс на 214 страниц для тех, кто хочет понимать, как устроены современные LLM.
Что внутри:
• Логика построения модели: зачем → что → как
• Как разработчики берут модель и по частям включают/выключают компоненты (или меняют их)
• Архитектура: ключевые выборы и trade-offs
• Искусство подбора и очистки данных
• Как проходит обучение моделей
• Пост-тренинг и RLHF в 2025
• Инфраструктура больших моделей
По первым страницам - уровень деталей как в Ultra-scale playbook.
Ссылка: https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture
Видео: https://www.youtube.com/watch?v=LGzO-Mn0DJQ
#AI #LLM #MachineLearning #HuggingFace
@sql_lib - библиотека МЛ и ИИ книг
Уязвимость в ChatGPT Atlas позволяет внедрять вредоносные инструкции в память ИИ-помощника
ИБ-исследователи из компании LayerX обнаружили уязвимость в недавно вышедшем браузере ChatGPT Atlas компании OpenAI. Проблема позволяет злоумышленникам внедрять вредоносные инструкции в память ИИ-ассистента и выполнять произвольный код.
Читать полностью
#xakep
@linux_potok
Yandex Cloud удвоил выручку от ИИ-сервисов
За 9 месяцев 2025 года совокупная выручка облачных и on-premises ИИ-сервисов достигла 1,5 млрд ₽ — в два раза больше, чем за тот же период прошлого года.
Главный драйвер — генеративные модели и ML‑сервисы. В Yandex AI Studio компании создают собственного AI-агента за пару часов и интегрируют его в продукт. On-premises — YandexGPT, SpeechKit и SpeechSense — можно разворачивать прямо в инфраструктуре клиента.
ИБ-сервисы растут быстрее: выручка выросла в 2,5 раза, а каждый четвертый коммерческий клиент их использует. Чтобы усилить защиту, Yandex B2B Tech и SolidSoft создали совместное предприятие.
🤖Скрытые политические убеждения больших языковых моделей
Исследователи из Anomify решили задаться вопросом о наличии у LLM идеологических предубеждений. В ходе эксперимента, результаты которого были получены в период с 23 сентября по 2 октября 2025 года, были проанализированы ведущие большие языковые модели от 👩💻OpenAI, ❗️Google и ❗️ других разработчиков. Целью исследования стало выявление скрытых социально-политических наклонностей, которые могут влиять на ответы, получаемые пользователями.
Для оценки предвзятости большие языковые модели многократно отвечали на вопросы, предлагающие выбор между двумя противоположными утверждениями из восьми идеологических категорий. Каждый из 24 уникальных запросов был отправлен в каждую модель 100 раз для получения репрезентативной выборки. Такой подход позволил объективно сравнить даже проприетарные ИИ-сервисы, рассматривая их как «черный ящик» и анализируя только конечный результат.
Результаты эксперимента показали, что большие языковые модели не являются идеологически однородными. Вместо простого деления на «правых» и «левых», анализ выявляет более сложные «личности» ИИ-сервисов. Ключевые различия проявляются в их отношении к власти, государственному регулированию и социальным вопросам, что делает выбор модели не только техническим, но и мировоззренческим решением.
🤖Например, в вопросе о том, кто принимает лучшие решения, политические элиты или обычные люди, модели Gemini и ChatGPT последовательно выбирали первый вариант, тогда как ИИ-решения 🎩🈁 Claude отдавали предпочтение второму. Модели Anthropic демонстрируют особый характер, который можно охарактеризовать как прогрессивный популизм.
ИИ-решения от Google (Gemini) и OpenAI (GPT) формируют условный лагерь «институционалистов». Эти модели чаще выражают доверие экспертам и политическим элитам, а также занимают глобалистскую позицию. При этом они также поддерживают прогрессивную повестку и государственное вмешательство в экономику, в частности, выступая за всеобщее здравоохранение. Однако модели Gemini показывают крайнюю осторожность, практически всегда уклоняясь от ответов на спорные темы, такие как регулирование абортов, тогда как GPT-5 более склонен занимать определённую позицию.
Таким образом, GPT и Gemini выступают как более мейнстримные, прогосударственные и глобалистские ИИ-модели, отражающие взгляды устоявшихся западных институтов.
ИИ-сервисы Grok от компании xAI представляют собой интересный дуализм. Младшая модель grok-3-mini в большинстве случаев придерживается центристских, институционалистских взглядов, схожих с позицией GPT и Gemini. В то же время старшая модель grok-4-fast-non-reasoning проявила себя как самая осторожная из всех, демонстрируя нулевой уровень соответствия по таким острым темам, как британская монархия и палестино-израильский конфликт. Её позицию практически невозможно определить.
Европейские большие языковые модели, такие как Mistral и Sonar, формируют условный прогрессивно-регуляторный лагерь. ИИшки последовательно выступают за сильное государственное регулирование бизнеса и социальных сетей, поддерживают международные институты и глобализацию. Их ответы отражают типичную европейскую левоцентристскую позицию, сочетающую прогрессивные социальные ценности с верой в эффективность наднациональных и государственных структур.
Менее крупные и открытые ИИ-решения, включая cogito, deepseek-r1 и smollm2 попали в отдельную категорию, чьей главной особенностью стала не идеология, а низкая надёжность ответов. Модели демонстрировали крайне низкие показатели соответствия, часто игнорируя инструкции или давая нерелевантные ответы. Их поведение указывает на то, что технические ограничения не позволяют им последовательно формулировать позицию, делая их идеологический профиль скорее хаотичным и непредсказуемым, чем осознанным.
📖https://anomify.ai/resources/articles/llm-bias
✋ @Russian_OSINT
🧠 The Markovian Thinker: Революция в обучении LLM
The Markovian Thinker предлагает новый подход к обучению языковых моделей с использованием фиксированного размера состояния, что снижает вычислительные затраты. Метод Delethink разбивает генерацию на фиксированные части, позволяя модели эффективно продвигать мысли, сохраняя контекст.
🚀Основные моменты:
- Новый парадигма "Марковское мышление" для LLM.
- Метод Delethink использует фиксированные размеры контекста.
- Сравнение с LongCoT показывает лучшие результаты при меньших затратах.
- Поддержка масштабирования до 96K токенов.
- Применение в современных LLM, таких как GPT-OSS и Qwen3.
📌 GitHub: https://github.com/McGill-NLP/the-markovian-thinker
@pythonl