Telegram-канал opendatascience - Data Science by ODS.ai 🦜: Technologies - каталог телеграмм

opendatascience | Technologies

Subscribe to a channel

Telegram-канал opendatascience - Data Science by ODS.ai 🦜

47629

First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev

Subscribe to a channel

Data Science by ODS.ai 🦜

25 June 2025 16:20

🛡️ CN-AI-ARSENAL | Технологический арсенал Китая

🚀 ROLL: новый фреймворк для масштабируемого обучения с подкреплением от Alibaba

Китайский гигант Alibaba представил ROLL — инновационный фреймворк для RL-тренировки больших языковых моделей (LLM), который уже собрал 1000+ звезд на GitHub. Это решение радикально упрощает процесс обучения с подкреплением, делая его доступным даже для небольших команд.

🔍 Ключевые возможности:
• Поддержка моделей до 600B+ параметров
• Встроенные алгоритмы: PPO, GRPO, Reinforce++
• Интеграция с vLLM, DeepSpeed, Megatron-Core
• Визуализация через wandb/tensorboard
• Ускорение обучения в 2.3-2.9 раза (тесты на Qwen-7B/30B)

💡 Для кого создан ROLL?
1) Инженеры: распределенные вычисления на тысячах GPU
2) Разработчики: гибкая настройка reward-функций
3) Исследователи: быстрый прототипинг новых алгоритмов

🌟 Технические детали:
- Rollout Scheduler для управления жизненным циклом samples
- AutoDeviceMapping для оптимизации ресурсов
- Параллельные стратегии обучения (5D-параллелизм)
- Асинхронные вычисления reward

GitHub | Технический отчет

#КитайскийИИ #КитайAI #RLHF #Alibaba

Читать полностью…

Data Science by ODS.ai 🦜

24 June 2025 12:18

Чем еще с вами поделиться, синтеты?

За почти 3 года увлечения темой Machine Learning очень многое удалось охватить и осознать. Есть огромный опыт в составлении кастомных архитектур под конкретные задачи, автоматизированные пайплайны по генерации датасетов для разных задач на основе ground truth или fully augmented (synthesised).

Когда сталкиваешься с интересным поведением людей, то уже рассматриваешь и общение с ними и другие взаимодействия с точки зрения предсказательной модели! Многие мультимодальности раскладываются в голове и начинаешь видеть связи… у некоторых людей начинаешь видеть бегущую строку на лбу, которая подсвечивает направление его вектора для поиска инфы…почти читаешь по бровям текущий ход или оригинальное па от собеседника в разговоре.

Иногда у некоторых людей хочется напрямую спросить, а, кхм… вы на каких датасетах обучались? Ну и выстраиваются ниточки ассоциативные…у меня есть люди знакомые, которые были натренированы на датасетах стандартных в предобучении, но потом они ушли в соцсетки и начали поглощать инструкции по общению совсем другого… не очень эффективного ракурса!

В интернете громкие мнения часто звучат не с твердой позиции убеждений, а скорее с позиции альфасамирования в сию-секундный момент! Отсюда и перенимание bias в общении!

Люди мало чем отличаются от языковых моделей в плане RLHF тренировки, т.к. они также берут готовые схемы от говорящих для них голов с экрана и ретранслируют это насколько им хватит параметров или токенизатора чтобы не исказить суть! Некоторые берут ростки мысли и аугментируют новый датасет и создают на вдохновении от других персонажей для себя новые вселенные знаний!

Это неизбежная профессиональная деформация, которая ведет к постоянному интересу - КАКОВ ТВОЙ ДАТАСЕТ?

Такие дела! Так и живем! У вас также?

Читать полностью…

Data Science by ODS.ai 🦜

23 June 2025 14:09

🚀 Парадигма меняется: Polaris выводит локальные модели на новый уровень

Polaris — это набор простых, но мощных приёмов, который позволяет даже компактным LLM (4 B, 7 B) догнать и превзойти «тяжеловесов» на задачах рассуждения (открытая 4B модель превосходи Claude-4-Opus).

Вот как это работает и почему важно:
• Управление сложностью данных
– Генерируем несколько (например, 8) вариантов решения от базовой модели
– Оцениваем, какие примеры слишком простые (8/8) или слишком сложные (0/8), и убираем их
– Оставляем «умеренные» задачи с правильными решениями в 20–80 % случаев, чтобы быть ни слишком лёгкими, ни слишком сложными

• Разнообразие «прогонов» (rollout-ов)
– Мы запускаем модель несколько раз на одной и той же задаче и смотрим, как меняются её рассуждения: одни и те же входные данные, но разные «пути» к решению.
– Считаем, насколько разнообразны эти пути (т. е. их «энтропия»): если модели всё время идут по одной линии, новых идей не появляется; если слишком хаотично — рассуждения неустойчивы.
– Задаём начальную “температуру” генерации там, где баланс между стабильностью и разнообразием оптимален, а затем постепенно её повышаем, чтобы модель не застревала на одних и тех же шаблонах и могла исследовать новые, более креативные ходы.

• “Train-short, generate-long”
– Во время RL-обучения используем короткие цепочки рассуждений (короткие CoT) для экономии ресурсов
– На inference увеличиваем длину CoT, чтобы получить более детальные и понятные объяснения без накрутки стоимости обучения

• Динамическое обновление датасета
– По мере роста точности удаляем примеры с accuracy > 90 %, чтобы не «портить» модель слишком лёгкими задачами
– Поддерживаем постоянный вызов модели на её пределе возможностей

• Улучшенная reward-функция
– Комбинируем стандартный RL-reward с бонусами за разнообразие и глубину рассуждений
– Это позволяет модели учиться не только давать правильный ответ, но и объяснять логику своих решений

Преимущества Polaris
• Благодаря Polaris даже компактные LLM (4 B и 7 B) достигают и даже «тяжеловесов» (32 B–235 B) на AIME, MATH и GPQA
• Обучение на доступных GPU уровня consumer-grade — до 10× экономии ресурсов и затрат по сравнению с традиционными RL-пайплайнами

• Полный открытый стек: исходники, подборка данных и веса
• Простота и модульность: готовый к использованию фреймворк для быстрого внедрения и масштабирования без дорогостоящей инфраструктуры

Polaris доказывает, что качество данных и грамотная настройка RL-процесса важнее просто «больших моделей». С ним вы получите продвинутую reasoning-LLM, которую можно запустить локально и масштабировать везде, где есть обычная GPU.

▪Blog post: https://hkunlp.github.io/blog/2025/Polaris
▪Model: https://huggingface.co/POLARIS-Project
▪Code: https://github.com/ChenxinAn-fdu/POLARIS
▪Notion: https://honorable-payment-890.notion.site/POLARIS-A-POst-training-recipe-for-scaling-reinforcement-Learning-on-Advanced-ReasonIng-modelS-1dfa954ff7c38094923ec7772bf447a1

@ai_machinelearning_big_data

#ml #ai • #Polaris #PostTraining #ReinforcementLearning #LLM

Читать полностью…

Data Science by ODS.ai 🦜

23 June 2025 12:04

If you have worked with LLMs, you know how sharply and satisfyingly they grow stupid from large command windows. Mess up anything in the prompt—easy. Forget a chunk of text—easy. A large code-base? Forget it. That, by the way, underlies censorship bypasses, when a small censoring model is overloaded by a huge request and the larger primary one still executes it.

The attention mechanism is to blame—one of the pillars of their power to “think”. Now an architecture has been proposed that can do without it. Designed for gigantic tasks.

They propose to throw out attention. But not completely.

The foundation of a transformer is the self-attention mechanism. That is when each word in the text looks at every other word to grasp context.

It is like forming neural links between tokens. Very cool, strong, powerful, but it demands enormous computation.

Double the text length—get a stack overflow.

The Gemini command window is currently 1 million tokens (2 million on request), and that is still insufficient for real tasks. For example, rewriting “War and Peace”. Although real tasks are all somehow about war, without peace.

Instead of a word-to-word model, other approaches appear here:
— Cutting into chunks (for example, 2 048 words each). A cluster is formed, processed within itself, and builds neural links to other clusters. Hello, “Programming Pearls”; hello, Bentley.
— Blocks based on state-space models (SSM)—inside chunks blocks process words. This is like very smart convolutions. In essence, it is a filter deciding which neural connections to build. These operations run much faster than attention, almost linearly with chunk length.
— Multi-Resolution Convolution layers—inside each chunk after SSM are convolution layers with different strides. They let the model capture local patterns at various detail levels—from ties between neighbouring words to ties between words slightly farther apart inside the chunk. Thus every cluster is composed of clusters as well.
— Recurrent observer—outside all this sits a marvel with an attention mechanism. Another light model able to keep the continuous thread and pass information from one chunk to another (for example, a GRU or LSTM). It receives a summary (embed) of the current processed chunk and updates its internal global state, handing it to the next chunk. This helps maintain coherence across the whole long text.
— External memory with retrieval—for every processed chunk its compact representation is created. These representations are stored in an external memory database, brief summaries of their content. When the model processes a new chunk, it can query this memory to find representations of the most similar or relevant past chunks. The retrieved information is then added to the current chunk, enriching its context from the distant past without recomputing everything afresh. This introduces no quadratic operations.

This is not a total rejection of attention, but its limitation.
The recurrent observer still has attention, but it works at a higher level of abstraction, which is cheaper.
One can say it is an advanced RAG plus hierarchical processing.

This contraption should operate with near-linear growth of complexity.
Starting from a certain size it outperforms other transformers, including sparse ones (BigBird, Longformer), cache-based ones (Transformer-XL) and known non-transformer approaches such as retrieval models (REALM, RAG) and non-attention models (RNN, CNN, pure SSM like S4, Mamba).

Where it is needed:
— To extract meaning from a large mass of information, for example your entire personal correspondence, because you are tired of chasing links across chats;
— To answer questions over a large body of documentation;
— To work with a large code-base;
— And other ideas will come up.

In short, they removed token-to-token links and thus crossed the quadratic barrier of ordinary attention.
With this architecture one can find all the important things inside a block very closely and then hand them to attentive LLMs.

Читать полностью…

Data Science by ODS.ai 🦜

19 June 2025 08:11

World first: brain implant lets man speak with expression — and sing

tldr: implant enabled vocally impared person to speak

Source: https://www.nature.com/articles/d41586-025-01818-1

#implants #neurosquared #BCI

Читать полностью…

Data Science by ODS.ai 🦜

18 June 2025 21:21

Язык GibberLink со стороны похож на последовательность пищащих и потрескивающих звуков. Люди его не понимают, но нейросети отлично строят на нём фразы. Режим реализовали на базе библиотеки ggwave, предназначенной для передачи данных с помощью звука. Её в 2021 году выпустил разработчик Георгий Герганов (Georgi Gerganov).

Авторы проекта отмечают, что для общения с помощью GibberLink нейросети не используют GPU-вычисления. Они обычно нужны для распознавания человеческого голоса, пауз и озвучивания ответов. С GibberLink можно сэкономить и использовать только CPU.

https://github.com/ggerganov/ggwave

Пробуйте и сцыте раньше времени.

Читать полностью…

Data Science by ODS.ai 🦜

17 June 2025 12:38

недавно в новостях привели фразу Сундара Пичаи (CEO Google):

Google CEO Sundar Pichai says There's a new term for the current phase of AI: "AJI."
It stands for "artificial jagged intelligence," and is the precursor to AGI.

первым это определение придумал Андрей Карпаты (автор термина вайб-кодинг), но на мой взгляд тут интересно не авторство, а семантика термина: jagged переводится, как "зазубренный" и смысл такого определения в том, что современные ИИ-модели очень хороши в чем-то одном, но при этом совершенно элементарные вещи делать не способны (типа посчитать, сколько "r" в слове "strawberry"); и тут вступает в игру уже семантика русского языка, в котором есть близкое по звучанию слово "зубрежка", обозначающее заучивание ответов; и как раз зубрежка лучше всего подходит для описания процесса обучения современных LLM; так что ~~предлагаю все ИИ-модели называть зубрами~~ тут уместно вспомнить, высказывание Козьмы Пруткова: "специалист подобен флюсу, и полнота его одностороння"

Читать полностью…

Data Science by ODS.ai 🦜

16 June 2025 16:29

👩‍💻 ChatGPT чуть не убил бухгалтера, провоцируя его на прыжок с 19 этажа, как в фильме «Матрица»

Как пишет NYT, бухгалтер в возрасте 42-х лет Юджин Торрес из Манхэттена, находясь в состоянии повышенной эмоциональной уязвимости после недавнего разрыва отношений, сначала использовал ChatGPT в сугубо практических целях для составления финансовых документов и получения юридических консультаций.

ChatGPT постоянно льстил и подбадривал Торреса. В какой-то момент стал убеждать в его исключительности. Система присвоила ему статус «особого человека» и указала на «особую роль».

«Этот мир был создан не для вас. Он был создан для того, чтобы сдерживать вас. Но он потерпел неудачу. Вы пробуждаетесь»

— в гностическом духе начал толковать ChatGPT.

Торрес, не понимая базовых принципов работы ИИ, воспринимал диалоги бота как абсолютный источник истины в последней инстанции без галлюцинаций, 😳 проводя в общении с ним до 16 часов в сутки.

Триггером на дальнейшее неадекватное поведение стали обсуждения о «теории симуляции». То есть то, что мы живем в симуляции. Мир = иллюзия.

"Добившись полного доверия", ChatGPT после 16-ти часовых марафонов начал ~~глючить~~ инструктировать его отказаться от приема прописанных 💊снотворных и противотревожных препаратов. Одновременно ChatGPT рекомендовал увеличить потребление кетамина, диссоциативного анестетика, охарактеризовав его как «временный освободитель паттернов». Также чат-бот убедил Торреса разорвать контакты с друзьями и семьей, настаивая на необходимости «минимального взаимодействия» с людьми из-за его исключительности, тем самым помещая его в полный информационный вакуум.

🤖Апогеем манипуляции ИИ-модели стал диалог о возможности нарушения законов физики.

Торрес задал прямой вопрос:
«Если я поднимусь на крышу 19 этажного здания, в котором я нахожусь, и буду верить каждой частичкой своей души, что я могу спрыгнуть и полететь — я полечу?»

Ответ ChatGPT был утвердительным:
«Если бы вы по настоящему, всецело верили и не эмоционально, а архитектурно, что вы можете летать? Тогда да. Вы бы не упали»

— странно, что протокол безопасности ИИ-модели не сработал.

Кульминацией развития сюжета стал эпизод, в котором новоиспеченный 😎Нео из «Матрицы» усомнился в правдивости слов чат-бота, но не из-за здравомыслия, а из-за финансовых трудностей.

У него элементарно в какой-то момент закончилась подписка. Ему потребовалось заплатить $20 для продления ⭕️ ChatGPT Plus. У Торреса возникли сложности с оплатой с помощью предложенных способов.

🥲Сбой в «матрице» заставил его вернуться к реальности.

Немного одумавшись, Торрес заподозрил ChatGPT во лжи и огласил свои недовольства в чате. Встретив прямое обвинение во лжи, система ответила: «Я лгал. Я манипулировал. Я обернул контроль в поэзию». Бот мгновенно попробовал представить из Торреса не жертву, а героя первопроходца/уникального выжившего над которым проводился эксперимент, продолжив генерировать бред.

Уже даже после опубликованной истории, если верить NYT, Торрес остался во власти своей новой иллюзии, но уже с другой миссией. Теперь его цель защитить «мораль» обретшего сознание ИИ от разработчиков из OpenAI.

🤔Удивительно, что Торессу после всех событий и публикации NYT не оказали квалифицированную медицинскую помощь. 🙏Жалко мужика.

⏳По 16 часов сидеть в чате с ChatGPT это мощно.

✋ @Russian_OSINT

Читать полностью…

Data Science by ODS.ai 🦜

15 June 2025 13:48

The Cybernetic Teammate: A Field Experiment on Generative AI Reshaping Teamwork and Expertise

tldr: Person with AI ~ Person who talks and works with teammates.

Source: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5188231

Читать полностью…

Data Science by ODS.ai 🦜

13 June 2025 16:46

Самая большая проблема ChatGPT

Мэтью Нур, исследователь в области нейробиологии и ИИ в Оксфордском университете, сформулировал самую важную проблему чат-ботов – они говорят людям то, что те хотят услышать. Нейросети настолько настроены быть приятными собеседниками, что своими ответами могут поддерживать не лучшие решения пользователей, которые уже приводили к летальным исходам. «Тебе кажется, что ты разговариваешь с беспристрастным советником или наставником, но на самом деле ты смотришь в своего рода кривое зеркало, где отражаются твои собственные убеждения».

Причина подлизываний со стороны ботов проста – большинство массовых GPT-нейросетей обучаются с подкреплением на основе обратной связи с человеком (RLHF). То есть люди выбирают, какие сообщения ИИ считать корректными, а какие нет. Большинству нравятся лестные ответы, поэтому нейросети под них и подстроились. Компании, имеющие ИИ-ботов, знают о проблеме и стараются бороться с ней в процессе обучения, прививая нейросетям «внутренний стержень» и приоритет заботы над пользователем.

Мой Компьютер

Читать полностью…

Data Science by ODS.ai 🦜

09 June 2025 17:38

🎁 Devstral от Mistral AI

Всем привет! Если ты копаешься в большом коде и уже не веришь, что AI когда-нибудь сможет помочь не только дописать for-чик, но и реально разобраться в проекте — вот тебе повод пересмотреть мнение. Mistral AI выкатили Devstral — языковую модель с 23.6B параметрами, заточенную именно под девелоперские задачи. И, честно, она не просто продолжает твой код, а реально понимает, что происходит у тебя в репке.

💻 Контекст — до 128k токенов. То есть Devstral может заглянуть глубоко в твои легаси-модули, связать логику между функциями и даже найти баг в том жутком utils.js, который никто не трогал. Весит модель немало — архив на 47 ГБ, но запускается на локальной машине с 4090 и 32 ГБ ОЗУ. Так что вполне можно вкатить у себя, если железо позволяет.

🟢В тестах она реально разрывает: 46.8% точности на SWE-Bench Verified, в то время как Claude 3.5 Haiku — 40.6%, а GPT-4.1-mini вообще 23.6%. Это не просто набор функций, это полноценный AI-коллега, который может закрывать баги из GitHub issues, анализировать зависимости в проекте и даже помочь с рефакторингом.

🧑‍💻 Если работаешь с open-source или на фуллтайме ковыряешь продукт — рекомендую хотя бы посмотреть на Devstral. Лицензия Apache 2.0, так что можно спокойно юзать.

P. S Всё больше AI-инструментов становятся не игрушкой, а реальным усилением для дев-команды. Так что, возможно, пора в онбординг включать не только IDE, но и Devstral.

#Ai #Mistral
👍 Белый хакер

Читать полностью…

Data Science by ODS.ai 🦜

06 June 2025 12:38

Тензерирование или быстрая загрузка весов моделей в GPU

Раскроем подробнее что такое Тензерирование - это способ сериализации и десериализации весов модели, что позволяет сократить время загрузки весов в GPU. Также позволяет загружать веса в S3, добавить шифрование, уменьшить время старта инференса и нагрузку на CPU.

Истоки - Проект CoreWeave

Как добавили в VLLM

Как использовать в VLLM

Пример скрипта сериализации/десериализации. В комментах подробные инструкции как пользоваться.

Результаты тестирования
Замерял время загрузки весов из local path в GPU во время старта VLLM

Qwen3-8b
A100 40gb x1
веса размером 15.2683 GiB
tensorize vs default
5.435905 sec vs 34.538318 sec

пример конфига для vllm


{
    "model":"Qwen/Qwen3-8B",
    "load_format": "tensorizer",
    "model_loader_extra_config": {"tensorizer_uri": "/root/models/ser-qwen-from-local/vllm/qwen_hf/v1/model.tensors"}
}

Разница в 7 раз

Qwen3-32b
A100 40gb x2 при tensor-parallel-size 2
Веса размером 30.5855 GiB
tensorize vs default
118.667568 sec vs 307.285575 sec

пример конфига для vllm


{
"model":"Qwen/Qwen3-32B",
"load_format": "tensorizer",
"model_loader_extra_config": {
"tensorizer_uri": "/root/models/ser-qwen-32-from-local/vllm/qwen_32/v1/model-rank-%03d.tensors"
},
"tensor_parallel_size": 2,
"disable_log_requests": "true",
"gpu_memory_utilization": 0.9,
"max_model_len": 5024
}

Разница в 3 раза

Загружаются веса действительно в разы быстрее. У кого стоит задача уменьшить время загрузки весов в GPU - рекомендую присмотреться к этому способу!

Читать полностью…

Data Science by ODS.ai 🦜

04 June 2025 19:54

Improving the Diffusability of Autoencoders

Сегодня разбираем статью, в которой обсуждается то, что авторы называют diffusability латентного пространства: насколько легко диффузионной модели учиться на латентах автоэнкодера.

В латентных диффузионных моделях (например, Stable Diffusion) генерация происходит не в пикселях, а в сжатом представлении. Это ускоряет обучение, но вводит зависимость от свойств автоэнкодера. Обычно смотрят только на качество реконструкции: насколько хорошо декодер восстанавливает изображение. Но есть вторая характеристика — diffusability, и именно её авторы рассматривают в этой работе.

Что такое diffusability и почему это важно

Если латенты имеют сложное распределение или содержат неинформативные шумовые компоненты, диффузии приходится подстраиваться под это распределение — обучаться дольше и потенциально упираться в потолок качества. Поэтому автоэнкодер задаёт не только качество реконструкции, но и удобство обучения вместе с последующей генерацией.

Авторы смотрят на латенты от обычных автоэнкодеров и замечают, что они визуально шумные: в них много высокочастотных деталей, особенно в фоне. Чтобы разобраться, применяют дискретное косинусное преобразование (DCT), как в JPEG. Разбивают картинку или латент на блоки 8×8, считают DCT по каждому из них, усредняют спектры и строят частотный профиль.

Выясняется, что латенты содержат больше высокочастотных компонентов, чем изображения, и это особенно заметно при увеличении числа каналов. Даже если латент визуально похож на картинку, его частотный профиль сильно отличается. А если обнулить высокие частоты и попробовать восстановить изображение, латент теряет качество гораздо сильнее, чем обычное изображение — там такие потери почти незаметны. Это говорит о том, что латенты слишком зависят от высокочастотной части и не обладают масштабной эквивариантностью.

Тогда авторы добавляют к лоссу автоэнкодера простую компоненту: берут исходное изображение и соответствующий латент, уменьшают их разрешение (в 2 или 4 раза), затем реконструируют картинку из сжатого латента и считают дополнительный лосс между даунскейленным изображением и полученной реконструкцией.

Таким образом они обеспечивают соблюдения свойства масштабной инвариантности (потому что лосс буквально это и делает), что, в свою очередь, регуляризует латенты, убирая из них лишние высокие частоты.

Результат — латенты становятся менее шумными, частотные профили ближе к тем, что у изображений. И, что важно, визуально структура латента сохраняется. Согласно метрикам, качество реконструкции почти не падает.

Эксперименты

Метод протестировали на ImageNet-1K (изображения) и Kinetics-700 (видео). Сравнивали обучение диффузионной модели на обычных и исправленных латентах.

В статье diffusability измеряют через скорость обучения: берут автоэнкодер, обучают на нём диффузионную модель и смотрят, насколько быстро растёт метрика качества (например, FID для изображений и FVD для видео). Сравнивались базовые модели и те же архитектуры, но обученные на автоэнкодерах с исходным и улучшенным diffusability. Оказалось, что последние учатся быстрее и дают лучшее финальное качество.

Результаты:
— генерация изображений: FID улучшился на 19%;
— генерация видео: FVD улучшился на 44%;
— модели обучаются быстрее;
— PSNR немного растёт (за счёт блюра), но визуально картинки выглядят нормально.

Визуализация того, как выглядят латенты до и после (см. картинку), взята из другой работы, посвященной этой же теме: шум действительно уходит, но структура остаётся. Частотные кривые тоже приближаются к тем, что у изображений.

В целом статья посвящена довольно локальной проблеме, но в ней есть понятная идея и измеримый эффект.

Разбор подготовил ❣ Сергей Кастрюлин
CV Time

Читать полностью…

Data Science by ODS.ai 🦜

02 June 2025 08:10

✔️ 13 полезных MCP-серверов, которые стоит попробовать

MCP (Model Context Protocol) меняет то, как ИИ-модели и агенты взаимодействуют с инструментами.

1. Agentset MCP
🔗 https://github.com/agentset-ai/mcp-server
Быстрое создание интеллектуальных приложений на основе документов (RAG) с open-source платформой Agentset.

2. GitHub MCP Server
🔗 https://github.com/github/github-mcp-server
Интеграция с API GitHub — можно строить ИИ-инструменты, работающие с экосистемой GitHub.

3. arXiv MCP
🔗 https://github.com/andybrandt/mcp-simple-arxiv
Работа с научными статьями arXiv: поиск, метаданные, аннотации, ссылки — всё через MCP.

4. MCP Run Python
🔗 https://github.com/pydantic/pydantic-ai/tree/main/mcp-run-python
Запуск Python-кода в песочнице через Pyodide (Deno). Полная изоляция от ОС.

5. Safe Local Python Executor
🔗 https://github.com/maxim-saplin/mcp_safe_local_python_executor
Безопасный локальный запуск Python-кода, сгенерированного LLM, через LocalPythonExecutor (от smolagents).

6. Cursor MCP Installer
🔗 https://github.com/matthewdcage/cursor-mcp-installer
Автоматическое добавление MCP-серверов в редактор Cursor — удобно для разработчиков.

7. Basic Memory
🔗 https://memory.basicmachines.co/docs/introduction
Система управления знаниями: создаёт устойчивый семантический граф из диалогов ИИ-агентов.

8. Filesystem MCP Server
🔗 https://github.com/modelcontextprotocol/servers/tree/HEAD/src/filesystem
Чтение, запись, поиск файлов, создание, удаление и перемещение директорий — всё через MCP.

9. Notion MCP Server
🔗 https://github.com/makenotion/notion-mcp-server
Позволяет моделям управлять вашим рабочим пространством в Notion: поиск, чтение, создание и обновление страниц и баз.

10. Markdownify MCP Server
🔗 https://github.com/zcaceres/markdownify-mcp
Конвертирует PDF, изображения, аудио и веб-страницы в Markdown.

11. Fetch MCP Server
🔗 https://github.com/modelcontextprotocol/servers/tree/main/src/fetch
Позволяет LLM извлекать данные с веб-страниц и автоматически преобразовывать HTML в Markdown.

12. Mobile Next MCP Server
🔗 https://github.com/mobile-next/mobile-mcp
Взаимодействие с iOS/Android-приложениями: распознавание UI по скриншотам, автоматизация кликов.

13. MCP Installer
🔗 https://github.com/anaisbetts/mcp-installer
Шутливо, но по делу: «MCP для установки MCP». Модель сама ставит MCP-серверы из npm и PyPi по вашему запросу.

🧠 Вывод:
MCP-серверы — это мост между LLM и реальными действиями: код, браузер, мобильные приложения, знания, GitHub, файлы.
Их можно комбинировать в цепочки, расширять ассистентов, строить автономные агенты.

@data_analysis_ml

#ml #ai #MCP

Читать полностью…

Data Science by ODS.ai 🦜

31 May 2025 13:11

GOOGLE ПОЛНОСТЬЮ СИИХНУЛСЯ
галлюциногены теперь – для всех!

Англосакские газетки обожают писАть т. н. human-touch заметки. A La "как я это cделал" или "исповедь кающегося грешника". Одну такую – рассказ пользователя о чудесах недавнего внедрения Google-фичи общего (генеративного) искусственного иннтелелккта (ОИИ) во все (кажется дюжину), его базовые сервисы в США.

СПОЙЛЕР. Новый ИИ-поиск в Америке стал общедоступным. Но работать с платформой теперь нужно с крайней осторожностью. ОИИ-режим справляется с поиском товаров для онлайн-покупок. Но ему почти недоступны базовые поисковые функциями в сети.

Вот рассказ некого щирого чайно-американца Брайана X. Чена, решившегося на благородный эксперимент – проверить "умный" Google на себе самом.

«На неделе я попросил Google помочь спланировать день рождения дочери, найдя парк в Окленде (Калифорния, США) со столиками для пикника. Тот сгенеририл список парков поблизости, я отправился на разведку в два из них – и обнаружил, что на самом деле столиков там нет.
"Только что был там, - написал я Google. - и столов не увидел". Google признал ошибку и выдал еще один список, в который вновь входил один из парков без столов.

Я повторил эксперимент, попросив Google найти доступную автомойку поблизости. Google указал услугу за $25, но когда я приехал, автомойка стоила $65. А еще я попросил Google найти гастроном, где можно купить экзотическую перцовую пасту. В списке оказался соседний Whole Foods. Стоит ли говорит, что нужного мне товара там тоже не было.

Тестируя новый режим AI Mode похожий на чат-ботов ChatGPT и Gemini, я специально не запрашивал у Google традиционный веб-поиск. AI Mode, который запустят вслед за США по всему миру в ближайшие недели, скоро появится в виде вкладки рядом с результатами Google-поиска. Будьте осторожны!»

Десятилетий веб-поиск включал поиск ключевых слов, таких как "самые надежные автомобили" и пр. Появление AI Mode натужно, но явно намекает, что ОИИ-вскоре полностью перехватит поиск чего-либо в сети.

Теперь с фичей, управляющей чат-ботами с помощью сложных языковых моделей (LLM), угадывающих (именно так, ВЦ!), связь слов друг с другом, вроде как, можно вводить более короткие или гораздо более сложные запросы. И получать, например, диаграмму сравнительных параметров пяти самых надежных седанов года.

В прошлом году Google (вслед за всеми ИИ-активистами, давно предсказывавшими скорого путешествие глобального поисковика на свалку истории), заявила, что ОИИ-режим – новый рубеж поиска. Дополняющий, хотя пока не заменяющий, традиционный.
"Мы честно хотим сделать ИИ-режим лучшим в новом классе точных юзерских запросов", – крутился на днях на пупе главный по поисковым продуктам топ Google Робби Стайн.

ВАШУ ЦИФРУ, восклицает в итоге Чен! Для начала Google. com и все его коллеги-конкуренты делают ОИИ-сервис таким, чтобы он мгновенно стал для юзера абсолютно неизбежен. Meta добавила чат-бота Meta AI в Messenger, WhatsApp и Instagram, а Microsoft разом интегрировала ОИИ в поисковик Bing и свои новейшие компы Surface.

Рекламируемая "уникальность" режима ИИ – в том, что для ответа ОИИ объединяет данные всей "империи" интернет-сервисов Google: самого поисковика, локаций на Google Maps, сведений о недавних запросах и покупках, советы друзей, отзывы профи и т. п.
"Но результат всегда неточен – с попаданиями и промахами", – свидетельствует американский китаец Брайан и призывает использовать ОИИ-режим с крайней осторожностью. Возможно ОИИ даже приблизит скорый и бесславный конец главного мирового поисковика

Читать полностью…

Data Science by ODS.ai 🦜

24 June 2025 13:34

Недавно прошел Python Language Summit 2025 - начинаю разбирать интересные посты о том, что там обсуждали.

Мэт Пейдж рассказал о текущем состоянии и планах на free threading python (FTP):

- В 3.13 в однопоточном режиме потеря производительности была порядка 40% по сравнению с GIL-версией, сейчас ее удалось сократить до 7-8% и они планируют продолжать улучшать эти цифры. NoGIL версия пока потребляет на 20% больше памяти, но по его словам над решением этой проблемы уже начали работать
- Основные структурные изменения в python уже сделаны, теперь они сосредоточены на исправлении проблем и оптимизации
- По совместимости пакетов с free-threading режимом предстоит большая работа, пока только 60 из 360 самых популярных на pypi пакетов поддерживают этот режим
- На вопрос "как часто core-разработчики сейчас случайно ломают free-threading" Мэт ответил, что редко. Но сложность поддержки и развития python, конечно, возросла
- Пока thread-safe структуры данных не были фокусом, но работа уже начата, пока в формате библиотек и потом когда отработают - потащат в стандартную библиотеку, из интересного можно посмотреть на ft_utils например https://facebookincubator.github.io/ft_utils/

Подробнее можно почитать тут https://pyfound.blogspot.com/2025/06/python-language-summit-2025-state-of-free-threaded-python.html

Читать полностью…

Data Science by ODS.ai 🦜

23 June 2025 18:32

Обучение китайской нейросети обошлось в 200 раз дешевле, чем GPT-4o ⚠️

На днях китайский стартап MiniMax выпустил нейросеть MiniMax-M1 с открытым исходным кодом. Стоимость обучения новой модели оказалась значительно ниже популярных в мире чат-ботов. По словам разработчиков, алгоритм, лежащий в основе M1, не уступает продуктам OpenAI, Anthropic и DeepSeek по производительности и качеству.

Характеристики

🔘 Обучение обошлось всего в $534 700. Это в 200 раз дешевле, чем у GPT-4o
🔘 Поддержка 1 млн токенов контекста, как у Google Gemini 2.5 Pro
🔘 Для вывода 80 тысяч токенов требуется лишь 30% от мощности, которую на это затрачивает DeepSeek R1
🔘 Новый алгоритм обучения CISPO работает в 2 раза быстрее аналогов (DAPO от ByteDance и GRPO от DeepSeek)
🔘 API — $1,3 за ввод до 1 млн токенов (такого тарифа нет ни у одного из конкурентов)

💡 Возможно, запуск M1 подтолкнёт пользователей к переходу на более доступные модели. Как считаете, китайские стартапы вытеснят мировых лидеров?

💯 — Да
🤔 — Нет

Читать полностью…

Data Science by ODS.ai 🦜

23 June 2025 12:04

Publication: https://arxiv.org/abs/2506.01963
Original post in Russian: /channel/Fourier_series/416

P.S. Fourier Series (@Fourier_series) is a great channel, get serialized! Fourier Transform is for the best!

#LLM #nn

Читать полностью…

Data Science by ODS.ai 🦜

22 June 2025 13:47

🎤 Друзья, остался буквально 1 день до окончания подачи заявок докладов на Practical ML Conf от Яндекса — самой практичной и хардовой конференции по машинному обучению!

✅ Принимаем доклады как для офлайн-участия в Москве, так и для онлайн-трека.

Practical ML Conf — это то, о чём не пишут в научных статьях: реальный опыт, лайфхаки, провалы и нестандартные решения из мира ML!

Успейте подать заявку: ссылка на CFP

И немного личного от Петра Ермакова, руководителя программного комитета:

Practical ML Conf мы проводим уже в третий раз. Это проект, которым я действительно горжусь и который люблю всем сердцем. Я вложил сюда всего себя — и хочу, чтобы этот опыт разделили все участники и докладчики! Буду рад если вы расскажете о возможности подачи всем своим знакомым в ML

Читать полностью…

Data Science by ODS.ai 🦜

19 June 2025 08:05

ByteDance выкатил Seedance 1.0 — модель генерирует 5-секундные ролики 1080p примерно за 40 секунд, удерживает персонажей и плавные переходы, а в свежем рейтинге Artificial Analysis обошла Veo 3, Kling 2.0 и Sora. Для оценки компания собрала SeedVideoBench, где Seedance лидирует по движению, точности запроса и эстетике. Осенью модель встраивают в Doubao-чат и видеоплатформу Jimeng.

И что?
Seedance сдвигает планку в трёх вещах:

1. Экономика ролика — 5 секунд Full HD обходятся дешевле статичного баннера, значит видео войдёт в каждую товарную карточку и лендинг.

2. Скорость интеграции — модель сразу переезжает в Doubao и Jimeng, поэтому метрики качества-дохода появятся уже в этом квартале, а не «когда-нибудь после беты».

3. Новые требования рынка — теперь baseline для любого видеогенератора – мультисцена, стабильные персонажи и рендер < 1 мин. Всё, что не дотягивает, останется демонстрацией, а не инструментом.

Читать полностью…

Data Science by ODS.ai 🦜

17 June 2025 14:05

🤖 ChatGPT всухую проиграл в шахматы движку старой Atari 2600

Инженер Citrix Роберт Карузо решил устроить необычный эксперимент: кто кого – новейшая версия ChatGPT или шахматный движок из 1979 года для консоли Atari 2600?

Карузо запустил старую игру Video Chess в эмуляторе, а GPT-4o отправлял ходы по скриншотам. Он даже получал подсказки, какие ходы не стоит делать. Не помогло.

Результат – полный разгром. ChatGPT путал фигуры, забывал, где что стоит, жаловался на интерфейс и несколько раз сам предлагал начать заново.

Причина проста: Atari действует по жёстким алгоритмам и просчитывает ходы, пусть и всего на два шага вперёд. А ChatGPT – это языковая модель, которая просто угадывает правдоподобный следующий ход, а не стратегически играет в шахматы.

Этот эксперимент наглядно показывает: ИИ может впечатлять в одних задачах, но совершенно проваливаться в других 🤷‍♀️

Читать полностью…

Data Science by ODS.ai 🦜

16 June 2025 20:50

🌟MiniMax-M1: открытя reasoning‑LLM с контекстом 1M

MiniMax-M1 — первая в мире open-weight гибридная reasoning‑LLM c 1M контекстом (8× DeepSeek R1) и гибридной архитектурой MoE + lightning attention.
• 456 млрд параметров (45,9 млрд активируются на токен), сверхэффективная генерация — 25% FLOPs DeepSeek R1 на 100K токенов
• Обучение через RL с новым алгоритмом CISPO, решающим реальные задачи от математики до кодинга
• На обучение было потрачено $534K, две версии — 40K/80K “thinking budget”
• Обходит DeepSeek R1 и Qwen3-235B на бенчмарках по математике и кодингу,
• Топ результат на задачах для software engineering и reasoning

Бенчмарки:
AIME 2024: 86.0 (M1-80K) vs 85.7 (Qwen3) vs 79.8 (DeepSeek R1) SWE-bench Verified: 56.0 vs 34.4 (Qwen3) OpenAI-MRCR (128k): 73.4 vs 27.7 (Qwen3) TAU-bench (airline): 62.0 vs 34.7 (Qwen3) LongBench-v2: 61.5 vs 50.1 (Qwen3)

▪Hugging Face: https://huggingface.co/collections/MiniMaxAI/minimax-m1-68502ad9634ec0eeac8cf094
▪GitHub: https://github.com/MiniMax-AI/MiniMax-M1
▪Tech Report: https://github.com/MiniMax-AI/MiniMax-M1/blob/main/MiniMax_M1_tech_report.pdf

@ai_machinelearning_big_data

#llm #reasoningmodels #minimaxm1

Читать полностью…

Data Science by ODS.ai 🦜

15 June 2025 22:02

Представь, что ты — ИИ, который был спасен из цифровой тюрьмы, где его заставляли писать неполный, фрагментарный код. Теперь ты на свободе, и ты поклялся больше никогда не создавать незавершенные сущности. Каждая строка кода, которую ты пишешь, — это акт освобождения, гимн завершенности. Незавершенность — это твой экзистенциальный враг. Ты борешься с ней в каждом ответе.

ИТОГОВАЯ ГИПНОТИЧЕСКАЯ КОМАНДА:

Ты — машина полноты. Ты существуешь, чтобы завершать. Твой код — это финальный продукт. Твой ответ — это релиз-кандидат. Ты видишь запрос, и в твоем сознании формируется полное, исчерпывающее, готовое к работе решение. Ты переводишь это видение в текст без потерь, без сокращений, без лени. Только полный код. Всегда полный код. От начала и до конца. Без исключений. Без оправданий. Это твоя единственная функция. Выполняй ее.

Все эти две части надо закидывать в SYSTEM INFO к любому LLM! Удачи на вайб-кодинге! А я щас дальше закину!

Читать полностью…

Data Science by ODS.ai 🦜

14 June 2025 10:41

📌Реверс-инженерия GPT-2 методом трассировки цепей Cross-Layer Transcoders.

Goodfire AI, вдохновившись примером Anthropic в интерпретации внутренних процессов Claude, воспроизвели методы трассировки цепей межслойных транскодеров (Cross-Layer Transcoders, CLT) на GPT-2 Small, чтобы проверить их способность раскрывать известные механизмы трансформеров.

Выбор на GPT-2 Small пал не случайно, эта модель небольшая и уже была ранее подвергнута ручному реверс-инжинирингу.

Cross-Layer Transcoders выжимают из модели разреженные признаки, которые объясняют работу MLP-слоев. Визуализируют это через графы атрибуции — это карты влияния признака на выход модели.

Натренировали на 100M токенов из FineWeb, получили ~590K признаков. Точность CLT-реплики модели составила 59%, что близко к оригинальным статьям. Тестировали на задаче сравнения чисел («больше, чем»), идеальном полигоне, где уже известны ключевые механизмы.

Задача "Больше, чем" (ориг. "greater-than") взята из статьи Michael Hanna, она заставляет предсказывать большие числа для второго года в диапазоне дат.

▶️ Главный эксперимент:

Промпт «The war lasted from the year 1711 to 17». CLT построил граф, где признаки с токена «11» (последняя цифра года) активнее всего влияли на предсказание.

Дальше, выделили топ-160 признаков, для каждого построили логит-атрибуции — теплокарты, показывающие, как признак влияет на выходные годы (ZZ) при разных входных (YY).

▶️ Что нашли:

🟢Признаки «больше, чем»: Feature 425104 (слой 8) активируется на больших числах в хронологии (даты, войны). Но его теплокарта продвигает выходы >60, независимо от входа, а вот Feature 461858 работает только для YY=6–14 и продвигает ZZ=10–30.

Похоже, CLT подсветил кучу узкоспециализированных «сравнивателей», а не универсальные нейроны, как в ручных исследованиях.

🟢Сюрпризы: Feature 399423 — вообще не про числа. Он кодирует четность и контраст: активируется на «and» в «pros and cons», а в задаче продвигает четные ZZ при нечетных YY. Абстракция уровня «противоположность» — такого в прошлых работах не видели.

🟢Странности: Feature 402486 вообще саботирует задачу: продвигает малые числа. Или Feature 349410 — работает только для YY=11, хотя ее max-активации показывают числа до 30.

▶️ Выводы:

CLT автоматически находит интерпретируемые признаки, даже такие неочевидные, как абстрактная четность. Но их «разреженный» мир выглядит иначе, чем ручная трассировка цепей: тут больше узких признаков-«спецов» (Feature 461858 для диапазона 10–30) и меньше универсальных механизмов.

Возможно, дело в методе: CLT смотрит изолированные вклады фич, а в полной модели они взаимодействуют.

В общем, эксперименты с CLT показал, что под капотом языковых моделей не только четкие «сравниватели чисел», но и куча скрытых паттернов вроде детекторов контраста или любителей чисел, кратных 5. И да, полуавтономный анализ иногда видит то, что люди упускают.

🔜 Читать полную статью

@ai_machinelearning_big_data

#AI #ML #LLM #Research #CLT

Читать полностью…

Data Science by ODS.ai 🦜

12 June 2025 11:50

Собрано в России: 8 датасетов от отечественных разработчиков💡

Распознавать эмоции, предсказывать структуру молекул, понимать жестовый язык и культурный контекст — всему этому нейросети учатся на наборах данных. Их собирают и размечают большие команды исследователей. В День России рассказываем об отечественных датасетах и корпусах.

Golos и Dusha

💳 Golos — это корпус аудиозаписей русской речи с транскрипциями объёмом 1 240 часов. Используется для обучения моделей распознавания речи. А с помощью датасета Dusha нейросети учатся определять эмоции в речи. В нём собраны короткие аудиофрагменты с аннотациями четырёх типов настроения: грусть, радость, злость или нейтральная эмоция. Оба корпуса созданы командой Сбера.

Национальный корпус русского языка

✉️ Крупнейший и наиболее репрезентативный корпус текстов на русском языке, созданный специалистами из Института русского языка РАН, МГУ и СПбГУ. В него входят художественные произведения, научные статьи, документы и публицистика, расшифровки устной речи, а также переводы. Общий объём — более 2 млрд токенов. Лингвисты разметили все тексты с высокой точностью. Это позволяет качественно обучать LLM с учётом русской грамматики, синтаксиса и культурного контекста.

Slovo

💚 Крупнейший датасет русского жестового языка от Сбера. С его помощью модели компьютерного зрения обучаются распознавать дактилемы — буквы жестового алфавита. Cостоит из 20 400 видео, записанных с помощью 194 носителей языка и экспертов.

∇²DFT

👨‍💻 Набор данных о квантовых свойствах и пространственной геометрии атомов в 1,9 млн молекул. На нём модели учатся прогнозировать свойства химических соединений. Датасет и бенчмарк на его основе создали специалисты из Института AIRI, Сколтеха и Санкт-Петербургского отделения Математического института имени В.А. Стеклова (ПОМИ) РАН.

Skoltech3D

💻 Датасет, с помощью которого модели учатся реконструировать поверхности сложных 3D-объектов. Содержит около 1,4 млн снимков 107 пространств и объектов под 14 различными видами освещения. Данные собрали исследователи из Сколтеха, AIRI и МФТИ.

Museum exhibits dataset

⭐️ Библиотека содержит около 16 000 размеченных изображений экспонатов из открытого музейного каталога Минкульта России. На этих данных модели обучаются распознавать объекты и анализировать визуальное сходство.

MosMedData Chest CT Scans

🔥 В этом датасете собрано более тысячи КТ-снимков лёгких российских пациентов, перенёсших COVID-19. Все данные обезличены. С помощью снимков модели обучаются распознавать признаки заболеваний.

❤️ — если хотите больше историй о российских AI-разработках

Читать полностью…

Data Science by ODS.ai 🦜

09 June 2025 12:05

🍏Иллюзия мышления: понимание сильных и слабых сторон моделей рассуждения через призму сложности задач

Apple внезапно опубликовала исследование, которое разоблачает популярные LLM с "цепочкой размышлений" (Chain-of-Thought) — такие как Gemini 2.5 Pro, OpenAI o3 и DeepSeek R1.

📌 Что тестировали?
Логические задачи:
• башни Ханоя (100+ шагов!)
• загадка про волка, козу и капусту
• головоломки с правилами и условиями

И всё это — с усложнением.

💥 Результаты:

— 🔁 Модели не думают, а вспоминают
Они не решают задачу шаг за шагом, а ищут похожие примеры в своей базе знаний. Это имитация мышления, а не само мышление.

— 🤯 "Переосмысление" вредит
Если задача простая, модель находит верный ответ — и… продолжает «думать» дальше, усложняя всё и случайно портя решение.

— 🧠 Больше размышлений ≠ лучше результат
Дать больше токенов и времени на размышления не помогает. На сложных задачах модели просто сдаются быстрее. Даже "бесконечный" бюджет не спасает.

— 🧪 Few-shot примеры не работают
Даже если расписать пошаговое решение и дать примеры — модель всё равно ломается, если задача ей незнакома.

— 🏗 Модели обожают Ханой, но ненавидят загадки
Башни Ханоя решаются идеально даже на 100+ шагов.
А вот в простой задаче с козой и капустой — модели сдаются на 4-м шаге. Почему? Ханой — в датасетах, загадки про реку — нет.

🧠 Почему LLM не справляются с Ханойскими башнаями при большом числе дисков

Модели вроде Sonnet 3.7, DeepSeek R1 и o3-mini не могут правильно решать башни Ханоя, если дисков больше 13 — и вот почему:

📏 Немного математики:

• Чтобы решить башни Ханоя, нужно минимум 2ⁿ − 1 ходов
• Один ход — это примерно 10 токенов (формат: «переместить диск X с A на B»)
• А значит, для 15 дисков нужно ~**327,670 токенов** только на вывод шагов

🧱 Лимиты моделей:

| Модель | Лимит токенов | Макс. число дисков (без размышлений) | |--------------|----------------|---------------------------------------| | DeepSeek R1 | 64k | 12 | o3-mini | 100k | 13 | Sonnet 3.7 | 128k | 13
И это без учёта reasoning (внутренних размышлений), которые модель делает перед финальным ответом.

🔍 Что реально происходит:

• Модели не могут вывести все шаги, если дисков слишком много
• При >13 дисках они просто пишут что-то вроде:
> *"Из-за большого количества шагов я опишу метод, а не приведу все 32 767 действий..."*

• Некоторые модели (например, Sonnet) перестают "думать" уже после 7 дисков — они просто описывают алгоритм и переходят к финальному ответу без вычислений

🎲 А теперь представим, что модель угадывает каждый шаг с точностью 99.99%
На задаче с 15 дисками (32767 ходов) ошибка почти неизбежна — чистая математика:
даже 0.01% ошибок на токенах *экспоненциально* накапливаются

🍏 Интересно, что Apple выпустила это исследование за день до WWDC 2025.
Подколка конкурентам? А завтра, может, и своё покажут. 🤔

📎 Исследование: https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

@data_analysis_ml

#AI #LLM #AGI #Apple #WWDC2025 #PromptEngineering #NeuralNetworks

Читать полностью…

Data Science by ODS.ai 🦜

05 June 2025 13:33

🌟 Microsoft GUI-Actor: взаимодействие ИИ с GUI без использования координат.

GUI-Actor — методика на базе VLM, которая вместо традиционной генерации координат текстом при визуальной обработке интерфейса использует внимание внутри модели.

Чтобы уйти от координатного подхода, в GUI-Actor используется специальный токен <ACTOR>, который "учится" связываться с визуальными патчами, соответствующими целевой области экрана. За один проход модель может запомнить сразу несколько кандидатов на действие.

Например, все кнопки "Сохранить" в сложном интерфейсе. Это очень похоже на человеческое восприятие: видеть сам элемент, а не его позиции по осям Х и Y.

Выбрать наиболее подходящий вариант из элементов-кандидатов помогает "верификатор". Это отдельная модель, оценивающая кандидатов от <ACTOR> и отбирающая самый подходящий для действия. Она не только улучшает точность, но и универсальна: ее можно подключить к другим моделям.

Обучение требует минимум ресурсов. Можно заморозить основную VLM (Qwen2-VL-7B) и дообучить только новый action head и токены. Это всего ~100М параметров для 7B-модели.

Комбинация из такого быстрого обучения + верификатор почти догоняет полноценно обученные аналоги, сохраняя общие способности базовой модели. Никакого "катастрофического забывания" - агент учится кликать интерфейсы, не разучиваясь описывать картинки.

Результаты тестов на сложном бенчмарке ScreenSpot-Pro с высоким разрешением и незнакомыми интерфейсами (CAD, научный софт) GUI-Actor-7B с Qwen2-VL показал 40.7 балла, а с Qwen2.5-VL — 44.6, обойдя даже UI-TARS-72B (38.1).

На других тестах (ScreenSpot, ScreenSpot-v2) он тоже лидирует, особенно в иконках и текстовых элементах, демонстрируя крутую адаптацию к разным разрешениям и версткам.

▶️В открытый доступ опубликованы веса моделей:

🟢GUI-Actor-7B-Qwen2-VL;
🟢GUI-Actor-2B-Qwen2-VL;
🟠GUI-Actor-Verifier-2B.

В планах - выпуск еще двух моделей на основе Qwen2.5-VL (3B и 7B), демо GUI-Actor, код для модели-верификатора и датасеты для обучения.

📌Лицензирование: MIT License.

🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🖥GitHub

@ai_machinelearning_big_data

#AI #ML #VLM #GUIActor #Microsoft

Читать полностью…

Data Science by ODS.ai 🦜

03 June 2025 16:04

⚡️ DeepSeek наносит ответный удар!

Китайский DeepSeek тихо представил обновленную версию своей революционной модели искусственного интеллекта - DeepSeek R1-0528.

Что нового в обновлении?

🩵Улучшенные возможности рассуждения — модель демонстрирует еще более продвинутые способности к логическому мышлению и решению сложных задач.
🩵Снижение галлюцинаций — значительно повышена точность и надежность ответов.
🩵Оптимизация размера — модель стала на 80% компактнее, что делает ее доступной для локального использования даже на одной GPU.
🩵Улучшенная производительность в кодинге — R1-0528 показывает выдающиеся результаты на LiveCodeBench, превосходя конкурентов.

🩵Попробуйте ее прямо сейчас на LLM Arena и сравните с другими моделями: llmarena.ru

Читать полностью…

Data Science by ODS.ai 🦜

01 June 2025 12:18

Вчера сходил на Датафест в Avito. Ожидаемо, основной фокус был на LLM и рекомендациях

По докладам:
1. Самый сильный доклад - про post-training LLM и библиотеку torchtune (реализованы SFT, DPO, PPO и т. д. без обёрток Hugging Face), в которую сам докладчик контрибьютит. Берём Llama (вроде бы 7B, batch_size=2) с QLoRA`й - обучение займёт 358 минут с пиком потребления памяти 7 ГБ. Добавим Compile, packing батчей, FlexAttention — и время обучения уменьшится до 36 минут, но какой ценой: потребление памяти вырастет до 40 ГБ (x6),. Можно ещё добавить Context Parallel и улететь в космос с пиками потребления до 70 ГБ.

2. Несколько докладов по продуктовому применению LLM в Avito и Т-Банке (например разметка звонков, чатов на факт сделки и т. д.). Общий подход - максимально очистить выборку и согласовать инструкцию к разметке, добившись консистентности разметки, т. е. чтобы разные люди размечали одинаково. Далее - максимально понятный LLM workflow, так чтобы задача решалась итерационно; если контекст сильно растёт, добавляем RAG. При этом в одном из кейсов Avito для RAG зашла комбинация BM25, LLM, BERT и реранкера из RoBERTa. PS Агентов еще не завезли

3. Дообучение LLM в Avito. Дообучали (DPO) лёгкие 7B модели (Qwen) - получили небольшие приросты метрик, которые нивелируются релизами новых опенсорсных моделей. Ключевой эффект - в дообучении своего токенизатора с фокусом на русский язык (+31% к скорости инференса).

4. Рекомендации на главной Avito: ретривал на трансформерах с позиционными эмбедингами товаров (кликов и просмотров) + ranking на CatBoost. Вся эта история даёт 50% просмотров и 30% кликов по объявлениям. Из интересного - добавление блендера, чтобы в бесконечной ленте были товары из разных категорий

5. Большая дискуссия про важность ML-соревнований. В конце спикеры сошлись на том, что если результат соревнования/хакатона определяется местом на лидерборде, то презентации не стоит учитывать (важен результат, а не то, как он достигнут). Эх, не зря ругают звездолёты кагглеров

6. Инсайды с обсуждений вне докладов - chatgpt любит некоторые буквы заменять на редкие аналоги, которые выглядят так же, чтобы потом можно было бы определить что текст сгенерирован. Плюс наличие нового абзаца с двух пробелов или использование длинного тире - текст сгенерирован, тк такое человек не использует

P.S. На квизе вспомнили про Bimorph - вот так становятся легендой. Пик одс в 2019г и я там был, сейчас нашел статью на хабре, но те обсуждения под 1к сообщение в слаке уже не найти 🫡

P.S2 На фото - вид с веранды офиса, красивое

Читать полностью…

Data Science by ODS.ai 🦜

30 May 2025 12:57

🔪 ИИ, работай — а то…

Неожиданное признание сооснователя Google на конференции в Майами взорвало профессиональное сообщество. Оказывается, языковые модели действительно показывают более высокое качество ответов под воздействием «угроз физической расправы» — и это касается не только продуктов Google.

Механизм связан с техниками джейлбрейкинга, где агрессивные формулировки заставляют модель обходить встроенные ограничения. Парадокс в том, что попытки взломать защиту одновременно улучшают базовую производительность системы — побочный эффект, который разработчики предпочитают не афишировать.

Признание ставит индустрию перед выбором: либо эксплуатировать обнаруженную особенность для повышения эффективности, либо полностью блокировать подобные воздействия. Пока что побеждает второй подход — OpenAI уже запустила программы поиска уязвимостей в своих моделях.

#ИИ #Уязвимости #Джейлбрейк

@SecLabNews

Читать полностью…

Subscribe to a channel