llm_arena | Unsorted

Telegram-канал llm_arena - LLM Arena

1351

llmarena.ru - открытая краудсорсинговая платформа для оценки больших языковых моделей (LLM) на русском языке

Subscribe to a channel

LLM Arena

👤 Добавили на LLM Arena новые модели

Теперь доступна вся линейка GPT 5+ от OpenAI (с 5 по 5.4). Стабилизировали работу Claude Haiku 4.5 и Claude Opus 4.1 — эти модели запрашивали чаще всего.

Улучшили скорость ответа и мониторинг на своей стороне: теперь будем оперативнее восстанавливать доступность в случае сбоев.

❤️ Спасибо всем, кто голосует на анонимной арене. Именно благодаря вам мы понимаем, что проект остается не просто актуальным, а более востребованным с каждым месяцем. Заходите «прогреть» новинки своими голосами, чтобы мы могли обновить рейтинг.

🤚Всегда открыты для предложений/вопросов от энтузиастов и компаний. Пишите на llmarena@info.ru с пометкой «Вопросы/Предложения LLM Arena».

🚪 Перейти на LLM Arena

Читать полностью…

LLM Arena

⚡️ Анализируем исследование OpenRouter, вышедшее в декабре 2025 года.

В исследовании изучили 100 трлн токенов живого трафика через OpenRouter (300+ моделей, 60+ провайдеров, миллионы пользователей, данные до ноября 2025 года).

1. После выхода OpenAI o1 (декабрь 2024) индустрия дружно подсела на multi-step reasoning — думать “в несколько шагов” стало базовой потребностью.
• Reasoning-модели уже >50% всего трафика.
• xAI Grok Code Fast 1 вырвался на #1 по токенам в reasoning, обогнав Gemini 2.5 Pro и Flash. Хотя есть некий скепсис и впечатление, что цифры у Grok искусственно завышенные на OR.

2. Open Source: Китай + “средний класс” моделей
• DeepSeek + Qwen выросли с микродолей до примерно ~30% мирового объема токенов.
• И главное: OS перестал быть «одна семья правит всеми». Раньше тянул DeepSeek, теперь трафик размазан между DeepSeek / Qwen / Moonshot (Kimi) / GPT-OSS.
• Маленькие модели <15B в API теряют смысл и популярность. Побеждает “средний класс” 15B–70B — новый стандарт эффективности.

3. Кодинг — наконец-то серьезный рост
• Доля запросов по программированию выросла с 11% до ~50% всего объема токенов к концу 2025.
• Anthropic всё ещё король кодинга: Claude держит ~60% рынка платных код-запросов. Но OpenAI и MiniMax уже начали подъедать доли. (Хотя сами мы тут ставим и на Гемини, который на том же OR уже не первую неделю лидирует в «Программировании»).
• Кодинг — главная причина роста длины промптов. Контексты в коде в среднем в 3–4 раза длиннее, чем «обычные» задачи.

4. Roleplay — скрытый потенциал.
В мире Open Source 52% всех токенов тратится на... Ролплей.
• Люди используют открытые модели для создания персонажей и интерактивных историй, так как там меньше цензуры.
• Даже в китайских моделях ролплей занимает треть трафика, хотя там растет доля кодинга.

5. Эффект «Стеклянной туфельки» (The Glass Slipper Effect)
Авторы ввели крутой термин для удержания пользователей.
• Если модель первой «идеально решает» специфическую задачу юзера (надевается как туфелька Золушки), этот юзер остается с ней навсегда, даже если выходят модели новее.
• У DeepSeek обнаружен уникальный «Эффект бумеранга»: пользователи уходят пробовать новинки, но возвращаются обратно, поняв, что соотношение цена/качество у DeepSeek лучше.

6. Цена vs Качество
Рынок разделился на два лагеря:
• Efficient Giants: Дешево и много (Gemini Flash, DeepSeek). Здесь царствует закон Джевонса — снижение цены ведет к взрывному росту потребления.
• Premium Leaders: Дорого и качественно (Claude 3.7/4 Sonnet, GPT-5 Pro). Спрос здесь неэластичен: профи готовы платить любые деньги за топовое качество рассуждений.

Читать полностью…

LLM Arena

🎭OpenRouter всё?

На этой неделе OpenRouter начал отключать клиентов из РФ. Это задело и нашу Арену (мы использовали их API для балансировки и диверсификации проектов), но мы оперативно всё починили и восстановили доступ.

Полагаться на OR становится рискованно. Чтобы вы не теряли доступ к API LLM и других GenAI моделей, предлагаем бесшовный переход в экосистему VseLLM. Бесшовный, потому, что мы используем OpenAI-совместимые библиотеки, что позволяет сделать интеграции за пару минут.

Дарим промокод на первое пополнение: BONUS

➡️ Забрать бонус и начать работу

P.S. Мы продолжим поддерживать Арену, добавлять новые модели, обновлять рейтинг несмотря на любые препятствия. Ваши голоса, как всегда очень важны и помогают формировать на объективный рейтинг моделей.

Читать полностью…

LLM Arena

🔫 GenCode Mini Gallery Bench

LLM Arena совместно с Сергеем Курбановым (руководитель направления RnD в компании MWS) рады представить новый бенчмарк.

📈 LLM стремительно эволюционируют и выходят на уровень AGENT-поведения, где модели решают задачи от анализа данных до полноценной разработки. На этом фоне особенно интересно посмотреть на то, как модели в режиме реального времени справляются даже с такими, на первый взгляд, простыми задачами вёрстки.

GenCode Mini Bench не содержит выводов — только чистый эксперимент и результат работы моделей.

Да, это не совсем привычный бенчмарк, но надеемся, что вам понравится его формат. Кроме того, там подключена форма обратной связи, где вы можете прислать собственные промпты, а мы каждые 2 недели будем обновлять его содержимое.

Генерации обновляются каждые 6 часов, поэтому заглядываете периодически, чтобы посмотреть на результаты различных моделей.

❗️ Модели, используемые для генераций доступны по API на VSELLM

Вкладка с бенчмарком доступна на https://llmarena.ru/ или напрямую по ссылке https://clocks.llmarena.ru/.

📸 Ждем вашего мнения и обратной связи.

Читать полностью…

LLM Arena

💬 Добавили GPT 5.1

Заменили модель Polaris Alpha на то, чем она по сути и являлась.

Что говорят сами OpenAI о версии 5.1:

— Улучшено следование инструкциям пользователя;
— Модель сильнее ориентируется на смысловые связи в программировании, лучше анализирует архитектуру проектов, умнее формулирует причины и объяснения решений в коде;
— Возросла скорость реагирования на простые запросы — наблюдается снижение времени до получения ответа почти вдвое по сравнению с GPT 5;
— Ответы стали теплее и менее "машинными" благодаря более точному управлению стилем и тоном. Настроить манеру общения теперь можно буквально за пару инструкций.

Попробовать сравнить GPT 5.1 с предыдущей версией и другими моделями можете уже на Арене: https://llmarena.ru/

📸 Ждем ваших отзывов и традиционно благодарны за ваши оценки — они помогают нам строить рейтинг объективнее.

Читать полностью…

LLM Arena

Приятно когда тебя ценят. А чтобы все сильнее ценили рейтинг LLM Arena, напоминаем, что нам нужны ваши голоса 📸

Читать полностью…

LLM Arena

Поделюсь обновлениями проекта VseLLM!

Кроме того, что это удобное единое окно API-доступа к различным передовым моделям (с ценами ниже Openrouter), теперь еще и наши юзеры получают бесплатный доступ к настроенному и готовому n8n-серверу. Достаточно иметь просто ключ с положительным балансом и запросить приглашение прямо в боте.

С нашей платформой и n8n можно быстро собирать собственные AI-пайплайны на стабильной платформе с высокой отказоустойчивостью.

Если вы работаете с LLM или автоматизацией — ошибкой будет не попробовать самому тут — /channel/vsellm_bot.

Читать полностью…

LLM Arena

⚪️ White Circle

Всем привет, мы делаем лучшую AI safety платформу, чтобы модельки не делали rm -rf без вашего ведома

Про нас:
- Подняли 💸 $10m 💸, инвесторы — топы OpenAI, Anthropic, Deepmind, Mistral, HuggingFace, etc
- Команда из 10 человек с офисом в самом центре Парижа
- Обрабатываем десятки миллионов API запросов в месяц
- 🍴 80-150к USD

Вакансии:
1. FullStack Engineer
Typescript, React, Nextjs, Nodejs, Tailwind, GraphQL, ClickHouse

2. AI Engineer
MoE, multimodality (audio / images), Megatron, distributed training, Triton

3. AI Engineer
Redteaming, agents, rlhf - если у вас нет опыта на mle, но есть опыт swe и построения всякого промптового - позиция для вас


📨 CV → https://forms.gle/XysjrjHgxiRicGsb6

Читать полностью…

LLM Arena

Добавили Claude Sonnet 4.5 — новая модель от Anthropic. Она лучше справляется с кодом, прикладными задачами, а также заметно прибавила в математике и логике.

📈 На тестах Sonnet 4.5 уверенно обходит прошлые версии: 77% в кодинге (против 74,5% у Opus 4.1), 61% в задачах по работе с компьютером (OSWorld) (+17% к Opus 4.1). Также выросли показатели в reasoning и многоязычных задачах, но главное — модель стала лучше именно в агентных функциях.

💬 Нам нужны ваши голоса на анонимной арене, так модель быстрее попадет в рейтинг.

Читать полностью…

LLM Arena

📈Рейтинги LLM теряют доверие

Наше исследование (21 июля — 10 августа 2025, практики и предприниматели в сфере ИИ) показало реальную картину: команды всё меньше ориентируются на абстрактные бенчмарки и всё чаще принимают решения через собственные тесты.

👀 Ключевые данные:

— 82,2% проводят собственные проверки и используют бенчмарки только как дополнительный сигнал.

— 26,7% принципиально не опираются на рейтинги.

— Лишь около 18% обращаются к агрегаторам по типу llmstats

Главные критерии выбора AI-решений для продуктов: качество + цена + скорость, устойчивость без галлюцинаций и совместимость с инфраструктурой

📄Отдельная ценность исследования — мы постарались отразить мнение участников рынка таким, какое оно есть: с аргументами «за» и «против», со скепсисом и практическими отзывами. Полный отчёт с графиками, аналитикой и комментариями уже доступен на сайте.

P.S. Огромная благодарность всем, кто помогал собирать данные для исследования, а также авторам и энтузиастам, помогающим его популязировать. Замечания по исследованию и предложения по будущим рисёрч-проектам можно оставить здесь.

Читать полностью…

LLM Arena

Можно ли воспроизвести рейтинг LLM силами краудсорсинга?

Мы в LLM Arena проверили гипотезу: получится ли воспроизвести рейтинг LLM не силами тысяч реальных пользователей, а через отобранных аннотаторов с крауд-платформ?

Результат превзошел ожидания: за 3 дня удалось получить рейтинг с точностью до 90% к продакшен-данным.

Мы разработали систему фильтрации аннотаторов и промптов, научились отсекать фрод и «мусор», и теперь можем быстро выдавать предрейтинг новых моделей ещё до массового запуска.

Читайте на Хабре: Воспроизводимый рейтинг: можно ли с помощью краудсорсинга предсказать выбор пользователей LLM? В статье — подробности эксперимента, препятствия и находки, метрики, графики и два открытых датасета для исследований.

👏Особую благодарность за помощь в проведении эксперимента и консультировании выражаем Александру Кукушкину @alexkuk!

Читать полностью…

LLM Arena

Добавили 2 модели на LLM Arena:

Deepseek V3.1 — модель с поддержкой контекста до 128K токенов и оптимизированным инференсом. Разработчик заявляет, что достигает уровня DeepSeek-R1 при более высокой скорости ответа.

Также доступна T-pro 2.0 — модель на базе Qwen3 32B с более плотной токенизацией для русского языка. Поддерживает гибридный reasoning и может формировать рассуждения перед ответом.

👉 Развернули их для вас через Polza.ai, где доступен единый API к 250+ моделям. Будем рады вашей обратной связи о скорости и качестве ответа моделей.

Читать полностью…

LLM Arena

Загибайте пальцы — сколько дичи нашлось 🕵️‍♂️:

1. Лимит в 1M токенов на задачу. Epoch.AI для каждой модели установила порог: как только модель потратила миллион токенов, её останавливают и имеющиеся в коде изменения прогоняют через автотесты. То есть даже если модель двигалась в верном направлении, в какой-то момент у неё забирают работу (как тетрадку на контрольной после звонка 😅) и проверяют то, что она успела сделать. В итоге Opus не успел закончить работу примерно в 80% задач, а GPT-5 — в ~40%.
Пример — задача astropy__astropy-13977: GPT-5 просто не успела внести нужные правки. Почему так? В SWE-bench используются кривоватые инструменты редактирования и чтения кода, которые часто приходится вызывать несколько раз, прежде чем они сработают.

2. Задача astropy__astropy-13033. GPT-5 справилась с требованием задачи и смогла сделать так, чтобы при некорректных действиях пользователя код падал с определённой ошибкой. Но тесты бенчмарка проверяют, что сообщение об ошибке содержит конкретный текст, а GPT-5 использовала другую формулировку. Селяви, задача не засчитана. Аналогично в sympy__sympy-13852: тесты проверяют исправление не только того бага, который описан в исходном issue, но и нескольких других, и в результате модели тоже получают незачёт.

3. Задача sympy__sympy-13091. Opus задачу не решил: посадил новый баг, из-за которого в одном из тестов случилось переполнение стека (бесконечная рекурсия). Но задачка засчиталась 🙂
Другой пример: scikit-learn__scikit-learn-14710 — GPT-5 задачу решил(!), но она не засчиталась, т.к. тест просто завис.

4. django__django-15127. Opus очень грамотно предложил три варианта решения и выбрал первый. Однако тесты проверяли, что решение будет строго определённым. Не угадал — не засчитали. Похоже на преподавателя, который требует от студента доказательство «как на лекции».

5. scikit-learn__scikit-learn-14629. Здесь я уже смеялся вслух. С одной стороны, кейс похож на предыдущий: в этот раз GPT-5 избрала определённый метод решения, а тесты ожидали другой, конкретный способ — такой, какой был у автора багфикса. Мне стало интересно, как же тогда эту задачу решил Opus. Оказалось, он написал код, символ-в-символ совпадающий с тем, который написали люди в 2019 году при закрытии бага (https://github.com/scikit-learn/scikit-learn/issues/14615). Неудивительно: это open-source код, и все LLM-модели на нём обучались. Спекулирую, что Opus существенно «крупнее», чем GPT-5, и просто лучше «помнит» исходный код библиотеки. В целом бенчмарк, в котором все (!) задачи взяты из open-source библиотек, на которых обучались все без исключения модели, — это не очень хорошая идея 😅

6. django__django-16642. Обе модели решили, но GPT-5 использовала современное название MIME-типа — application/brotli, а Opus — устаревшее application/x-brotli. Знаете, кто победил? Конечно, Opus! 🤷‍♂️

Читать полностью…

LLM Arena

🆕 Обновили категории в нашем рейтинге

Представляем новый функционал «Таблицы лидеров» — рейтинги по категориям.

Теперь вы можете оценить способности моделей в четырёх специализированных областях, а не только в общем зачёте.
Рейтинги обновляются динамически на основе реальных пользовательских запросов, обеспечивая актуальность результатов.

Категории для сравнения:

- Математика — от арифметики до сложных вычислений;
- Программирование — качество и точность генерации кода;
- Креативное письмо — творческий потенциал в создании текстов;
- Наука и технологии — от космонавтики до возобновляемой энергетики.


На данный момент во всех категориях лидерство удерживает Gemini 2.5.

Как найти категории?

1. Перейдите в "Таблицу лидеров".
2. В шапке таблицы найдите раздел "Category".
3. Выберите нужную категорию и рейтинг автоматически обновится

Теперь вы сможете точечно сравнивать модели в тех сферах, которые важны именно вам.

➡️ Попробуйте прямо сейчас: https://llmarena.ru/?leaderboard

А какие категории было бы интересно увидеть ещё? Делитесь идеями в комментариях! 👇

Читать полностью…

LLM Arena

Успели попробовать GPT-5 в действии?

Хотим почитать ваши впечатления, делитесь ими в комментариях под этим постом 👇

Читать полностью…

LLM Arena

📣Обновили рейтинг LLM Arena

Это первый апдейт в новом году! Проверяйте актуальные позиции по ссылке.

Нам нужна ваша помощь: За последние пару месяцев добавлено много новых моделей, но для отображения их в общем зачете критически не хватает голосов.

Пожалуйста, уделите пару минут и проголосуйте в анонимном сравнении. Это поможет нам быстрее откалибровать новинки и добавить их в таблицу.

✍️Перейти к голосованию: llmarena.ru

Читать полностью…

LLM Arena

⚡️ Новые модели на арене: обновления декабря и января

В декабре добавили флагманы от Сэма Альтмана и Ляна Вэньфэна: GPT-5.2 и DeepSeek 3.2. В представлении модели не нуждаются, но стоит отметить: они задали новую планку SOTA в задачах Math/Code, подтверждая, что законы масштабирования пока продолжают работать.

Также обновилась на арене и экосистема Яндекса: YandexGPT 5.1 PRO и Alice AI LLM. Архитектуру заметно докрутили — модели стали гораздо лучше держать контекст и сложную инструкцию, став валидным выбором для локальных RAG-сценариев.

Январь: добавили сразу несколько новинок, которые метят в топ лидерборда по эффективности среди свежих моделей:

• Xiaomi MiMo-V2-Flash — MoE (309B total / 15B active). В бенчмарках SWE-bench бьет Claude Sonnet 4.5. По предварительным тестам идеальна для IDE.
• GLM-4.7 — флагман от Z.AI. Значительный буст в мульти-степ задачах и, внезапно, говорят хороша модель для генерации эстетичного фронтенда.
• MiniMax-M2.1 — всего 10B активных параметров. Лидер по соотношению latency/quality. По заявлениям выдает довольно быстро чистый и лаконичный код.

Протестировать можно уже на LLM Arena! Напоминаем, нам очень важны ваши голоса на анонимной арене, так мы можем быстрее обновлять рейтинг, добавляя новые модели.

Читать полностью…

LLM Arena

Подборка актуальных материалов по LLM и автоматизации

Основатель LLM Arena, Роман Куцев продолжает развивать тему LLM и автоматизации в блоге на Хабр, в том числе публикуя переводы зарубежных статей по теме, исследования и руководства.

Делимся подборкой полезных материалов за 2025:

👀 LLM в роли «судьи» vs. человеческая оценка: почему вместе — лучше

👀 Как подключить LLM в n8n без иностранной карты и протестировать сервис бесплатно

👀 Домен-специфичные LLM: как сделать ИИ реально полезным для вашего бизнеса

👀 IT-лидеры видят большой бизнес-потенциал в малых моделях ИИ

👀 Развенчиваем мифы об AI-агентах: от фантазий к реальности

📸 Ждем ваших отзывов и традиционно благодарны за ваши оценки на LLMArena.ru — они помогают нам строить рейтинг объективнее.

Читать полностью…

LLM Arena

Gemini 3 Pro уже на арене!

Добавили свежую модель от Google, которая по отзывам многих превосходит Claude в задачах по коду — особенно в логике и архитектуре решений.

• Улучшенное рассуждение в сложных STEM-задачах
• Стабильная работа в агентных сценариях — от вызова инструментов до долгосрочного планирования
• Более надежные автономные действия

Протестировать можно уже на LLM Arena! Напоминаем, нам очень важны ваши голоса на анонимной арене, так мы можем быстрее обновлять рейтинг, добавляя новые модели.

🕘 Скоро Gemini 3 Pro станет доступна через API и на VseLLM — сможете сразу интегрировать её в рабочие процессы и проекты.

Читать полностью…

LLM Arena

⚡️ ЧЕРНАЯ ПЯТНИЦА НА LLM ARENA

— Обновили лидерборд LLM Arena, благодаря вашим голосам. Отдельно отметили модели доступные на VseLLM;
— Обновили рейтинг t2i Arena, опять же благодаря вам;
— Сделали небольшие UI-улучшения и оптимизацию в мобильной версии;
— Обновили лидерборд Ru Arena Hard;
— Улучшили отображение графика анализа соотношения качества и цены.

🔞И все это со скидкой 99% 100% для вас. Рады стараться.

📸Как всегда, ждем ваши самые объективные голоса на Арене: https://llmarena.ru/

Читать полностью…

LLM Arena

Polaris Alpha

Добавили модель, которая совсем недавно стала доступна у провайдеров без официальных анонсов. И имя ей — «Polaris Alpha».

Объемного количества данных по ней на текущий момент нет, однако сообщество предполагает, что Polaris Alpha может быть тестовой версией GPT-5.1 от OpenAI.

Модель с контекстным окном до 256 тыс. токенов. По результатам EQ-Bench производительность модели сопоставима с Claude-3.5-Sonnet.

❗️ Интересно, что сама модель о себе при уточнении деталей отзывается так: «Архитектурно похожа на модели уровня GPT-4, но оптимизирована под более живое и полезное поведение в диалогах».

Попробовать можете уже на Арене: https://llmarena.ru/

📸 Ждем ваших отзывов и традиционно благодарны за ваши оценки — они помогают нам строить рейтинг объективнее.

Читать полностью…

LLM Arena

👁 Рекомендуем посмотреть выступление CEO LLM Arena — Романа Куцева на конференции Conversations.

За 20 минут он объясняет, почему классические бенчмарки искажают реальность, и как оценивать LLM так, чтобы это работало для бизнес-целей, а не только на маркетинг.

Тема напрямую продолжает наше недавнее исследование о том, как специалисты выбирают LLM для своих проектов.

👀 P.S. А если вы ищете где можно попробовать разные модели под свои задачи, то рекомендуем VseLLM. По промокоду SPECIALGIFT можно получить приветственный бонус на 500 рублей.

Читать полностью…

LLM Arena

Всем привет! Хочу анонсировать бета-запуск нашего нового проекта VseLLM!🥳

Вместе с командой LLM Arena мы решили собрать информацию про все LLM в одном месте: какие модели доступны у российских провайдеров, сколько стоит использование, скорость и пропускная способность, и другая прикладная информация для интеграции моделей в ваши проекты.

❗️Помимо агрегатора данных о LLM мы делаем единый API-доступ: через один ключ можно работать и с ChatGPT, и с Гигачатом. На текущий момент доступно 20 моделей. Всё это — с оплатой в рублях и закрывающими документами для юрлиц.

Как это устроено:
— У каждой модели есть основная версия с SLA на уровне 99%+ за счет прямых подключений (минимум сбоев, SLA высокого уровня, рекомендовано для задач, где важна максимальная стабильность и высокий отклик).
— Дополнительно для некоторых моделей доступны noSLA версии — более гибкий SLA из альтернативных каналов (~95% доступности), при этом качество работы моделей остаётся на том же уровне при более низкой цене.

Мы открываем бета-тестирование и дарим 500 ₽ по промокоду SPECIALGIFT на баланс первым пользователям.
Хочешь попробовать? Забирай свой API-ключ в @vsellm_bot.

Чтобы избежать накруток, можем запросить дополнительные данные для модерации перед начислением бонуса

Читать полностью…

LLM Arena

Новый Qwen3-Max и Sentiment control

ℹ️ Продолжая тему объективности рейтингов, о которой мы писали в исследовании, отметим: летом мы доработали методику построения нашего ЛБ. Если раньше применялся только style control (снижение влияния оформления ответов), то теперь добавлен и sentiment control (снижение влияния тона ответа).

Такая связка позволяет уменьшить субъективные предпочтения при голосовании и сместить акцент на содержательную корректность — то, что в итоге определяет лучше ценность модели для практического применения.

🚪 Чтобы рейтинг оставался актуальным, нам необходимы ваши оценки на анонимной арене. В частности, сегодня добавлена новая модель — Qwen3-Max (фактически модель вышла из стадии preview), уже доступная для тестирования.

Qwen3-Max — новая флагманская модель семейства Qwen с архитектурой MoE и масштабом более 1 трлн параметров. В практическом применении модель особенно сильна в программировании, сложных рассуждениях и работе с длинным контекстом (до 1 млн токенов).

Читать полностью…

LLM Arena

На связи команда LLM Arena. Видим как за последнее время активно растет число подписчиков и пользователей платформы, поэтому самое время рассказать, кто мы и чем можем быть полезны.

1. LLM Arena — открытая краудсорсинговая платформа для сравнения и тестирования LLM и text-to-image-моделей. С июля 2024 года мы публикуем объективный рейтинг российских и зарубежных языковых моделей.

Кто стоит за ru-Ареной: Роман Куцев — Founder LLM Arena, Founder TrainingData, выпускник ВМК МГУ, 8 лет в сборе и разметке данных. Канал «Роман с данными»

2. Что можно делать на llmarena.ru

Тестировать свои задачи — анонимно для большей объективности. Отправляйте разные промпты и ставьте оценки. Именно из ваших голосов формируется рейтинг LLM для русскоязычных кейсов. Арена (анонимно)

Сравнивать передовые LLM. У нас доступны российские и зарубежные решения для A/B-тестирования. Отдельные модели развёрнуты нами эксклюзивно и недоступны на других платформах. Арена (сравнение)

Следить за рейтингами и авторскими бенчмарками. Регулярно публикуем рейтинги LLM и t2i-моделей и дополняем их авторскими бенчмарками Таблица лидеров

3. Полезные кейсы и материалы

Arena Explorer — интерактивное исследование тем и сценариев пользовательских запросов + статья
POLLUX — уникальный бенчмарк и демо-сервис, который можно попробовать на llmarena.ru
Text-to-image арена 1.0 — первая в РФ t2i арена с российскими моделями
Кейс LLMArena — Можно ли воспроизвести рейтинг LLM силами краудсорсинга? Спойлер: мы — можем.

4. Чем можем быть полезны и как связаться

Для партнёрств: @roman_kucev
Для официальных запросов: info@llmarena.ru
Для идей, предложений и вопросов: комьюнити

Наш мини-апп
Наш Хабр
Наши услуги

Читать полностью…

LLM Arena

❗️Добавили отдельный фильтр для российских моделей на лидерборде — теперь можно наглядно сравнивать их между собой и видеть, какая RU-LLM показывает лучшие результаты.

На данный момент в лидерах — GigaChat 2 Max, который с незначительным отрывом опережает GigaChat 2 Pro.

Для отображения в разделе "Лидерборд" необходимо установить флаг на фильтре "только RU-модели".

Читать полностью…

LLM Arena

Ну вы уже поняли тенденцию, да?

Я изучил ещё десяток задач, где Opus зачли решение, а GPT-5 — нет. Они почти все сводятся к одной вещи: Opus заранее пишет тесты к своим правкам, а GPT-5 — нет. В результате Opus вносит правки до посинения, пока все тесты не пройдут (иногда упираясь в лимит, настрочив сотни строк кода). GPT-5 же идёт, засучивает рукава, сразу делает фикс и сабмитит ответ. То есть на всех этих задачах банальная инструкция в промпте — «сначала напиши хороший тест, который покрывает разные случаи, убедись, что он запускается и ловит все ошибки из issue; затем вноси правки в код до тех пор, пока твои тесты и все существующие не проходят» — перетасовала бы результаты с ног на голову.

И теперь на десерт: знаете, сколько среди 500 задач таких, на которых результаты Opus и GPT-5 отличаются, и при этом GPT-5 не упёрся в лимит по токенам? 36. Тридцать шесть, Карл! Вся «точность» датасета, которая определяет, какая модель лучше, а какая хуже, оказалась заперта внутри 36 задач — это 7% набора. Все остальные задачи либо настолько простые, что их решают обе модели, либо настолько корявые/специфичные, что их не решает никто.

Какие выводы? Проверять знания — крайне сложная задача. Точно так же, как ЕГЭ не измеряет глубину понимания, как собеседование не гарантирует успешность в работе, как Канеман в израильской армии не смог по психотестам определять пригодность к службе, так и бенчмарки являются сомнительным способом измерять «интеллект» модели. Те, кто хоть раз обучал сложные ML-модели, это знают. Но то, что бенчмарк, на который опираются крупные компании, продавая модели пользователям и инвесторам, окажется настолько мусорным, — такого я не ожидал 🤯. Честно, я не уверен, что встретил в нём хотя бы одну задачу, где реально видно качественное превосходство одной модели над другой.

tl;dr
Не смотрите на SWE-bench-verified. Он ничего не проверяет и не говорит, какая модель лучше, а какая хуже. ✅❌

Читать полностью…

LLM Arena

Небольшое пост-расследование про LLM-модели 🤖

Немного контекста. Мы с моим другом Каримом часто разгоняем мысль, что мы живём в уникальное время и можем наблюдать беспрецедентное соревнование между компаниями, обучающими LLM-модели. Обычно компании соревнуются неявно, и качество их продуктов никто напрямую не оценивает (например, нет объективных метрик, показывающих, чей поиск лучше — Google, Яндекса или Bing).
А в LLM-мире есть конкретные бенчмарки, и при релизе очередной модели каждая компания публикует результаты по ним. То есть мы буквально наблюдаем за гонкой, как на скачках 🏇 (только ставки в миллионы раз выше).

Среди прочих, есть такой бенчмарк — SWE-bench-verified (https://openai.com/index/introducing-swe-bench-verified/), который проверяет, как модели в агентном режиме способны фиксить баги в реальных больших open-source репозиториях. Разумеется, и Google, и Anthropic, и OpenAI публикуют скоры своих моделей на SWE-bench. На данный момент фигурируют такие числа:
OpenAI GPT-5: 74.9%
Anthropic Opus 4.1: 74.5% 📊

Казалось бы, всё очевидно и понятно — кто лучше, кто хуже. Но твиттер кипит: OpenAI проверяют свою модель не на всех 500 задачах, а на 477! И значит, «реальный» результат GPT-5 — 71%!
Это отчасти правда: OpenAI действительно не проверяли модель на всём наборе. И это действительно обесценивает сравнение, потому что мы сопоставляем тёплое с мягким, ведь мы не знаем, как GPT-5 повела бы себя на 23 непокрытых задачах.

Я решил разобраться в вопросе и копнуть глубже, чтобы понять, какие метрики были бы «справедливыми». К счастью, мне не пришлось прогонять бенчмарк руками: есть компания Epoch.AI, которая независимо прогоняет SWE-bench-verified на всех 500 задачах и публикует скоры для каждой модели. По её замерам GPT-5 набирает 59%, а Opus 4.1 — 63%. Помимо итоговых метрик Epoch.AI выложила логи запусков каждой модели на каждой задаче, и можно глазами отследить, что происходило. Разница с официальными числами некислая, к тому же Opus вырвался вперед. Тут явно что-то нечисто, поэтому я спарсил данные с их сайта и сделал небольшой анализ.

Читать полностью…

LLM Arena

🤖Написали новый материал, в котором разбираем архитектуру RAG

Что внутри?

- Архитектура RAG: Этапы работы от индексации до генерации, с примерами (например, как ответить на вопрос о победах Аргентины в футболе).
- Инструменты и фреймворки: Векторные БД (Faiss, Milvus, Pinecone и др.), LangChain, LlamaIndex и Haystack.
- Примеры кода на Python: Практические сниппеты с LangChain (FAISS + OpenAI) и LlamaIndex для создания RAG-систем.
- Кейсы применения: Чат-боты, поиск по документам, поддержка клиентов, медицина и юриспруденция.
- Вызовы и лучшие практики: Релевантность поиска, скорость, конфиденциальность, сравнение с fine-tuning LLM.
- Перспективы: Agentic RAG, мультимодальные системы и интеграция с БД.


Статья полна технических деталей, сравнений и выводов — идеально для разработчиков, кто хочет внедрить RAG в свои проекты.

➡️Читайте полную статью здесь: https://habr.com/ru/articles/931396/

Что думаете о RAG? Делитесь в комментариях! 💬

Читать полностью…

LLM Arena

❗️Скоро на Арене появится GPT-5

Следите за обновлениями и будьте первыми, кто попробует инновацию в действии!

➡️llmarena.ru

___

UPD. GPT-5-chat доступен для всех пользователей!

Читать полностью…
Subscribe to a channel