Кроме того, состав пополнили предыдущие версии, ранее недоступные.
Теперь на LLM Arena представлены:
Новые модели идут в трёх размерах — GPT 4.1, GPT 4.1 Mini и GPT 4.1 Nano. По сравнению с 4o, GPT 4.1 прокачали по всем фронтам — от кодинга до мультимодальности.
Но самое главное — 4.1 сильно лучше в следовании инструкций, модель теперь меньше забывает инструкции через одно сообщение и газлайтит пользователей.
Мы продолжаем добавлять новые модели на арену — вы можете затестить их уже сейчас:
1. Заходите на сайт llmarena.ru или в наш mini-app прямо в Telegram.
2. Оценивайте модели, голосуйте за лучшие ответы.
3. Делитесь в чате инсайтами.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Роман с данными
LLM моделей становится все больше и больше, разобраться в таком зоопарке становится все сложнее и сложнее.
Openrouter придумал интересный способ навести порядок - они проклассифицировали запросы своих клиентов по типам задач (programming, legal, finance и т.д) - и посмотрели в каких случаях какие модели используются.
Как говорится - все гениальное просто 🙃
Ознакомиться с инфографикой можно по ссылке https://openrouter.ai/rankings
Openrouter придумал интересный способ навести порядок - они проклассифицировали запросы своих клиентов по типам задач (programming, legal, finance и т.д) - и посмотрели в каких случаях какие модели используются.
Как говорится - все гениальное просто 🙃
Ознакомиться с инфографикой можно по ссылке https://openrouter.ai/rankings
На платформе появились новые модели Qwen3 от Alibaba — одного из наиболее технологически продвинутых семейств LLM на сегодняшний день.
Они показывают высокие результаты в тестах, на предварительных тестах уверенно конкурируют с LLaMA 4 402B Maverick и DeepSeek R1 Shannon, и теперь доступны для сравнения на LLM Arena.
Добавлены следующие версии:
1. Заходите на сайт llmarena.ru или в наш mini-app прямо в Telegram.
2. Используйте анонимную арену, сравнивайте модели и голосуйте за лучшие ответы.
3. Делитесь в чате инсайтами.
Please open Telegram to view this post
VIEW IN TELEGRAM
Мы постарались учесть всё, что мешало удобному анализу, и улучшили основные элементы. Теперь он точнее, аккуратнее и лучше отражает реальную картину:
График больше не выглядит сжатым и перегруженным, что делает его более читаемым и облегчает сравнение моделей между собой.
Они помогают оценить статистическую надежность Elo-рейтинга каждой модели.
Теперь вы можете настраивать баланс между input- и output-токенами в зависимости от ваших задач.
Позволяет "очистить" рейтинг от влияния стиля – длины текста, форматирования (списков, выделений).
График построен на свежих данных с основного лидерборда LLM Arena.
Найти график можно на сайте llmarena.ru во вкладке Таблица лидеров
А вы уже нашли свою модель?
❤️ — да, и она стоит своих денег
🔥 — пока только ищу, спасибо за график
Please open Telegram to view this post
VIEW IN TELEGRAM
На платформе теперь доступен майский рейтинг языковых моделей. Строится он на основе ваших оценок, без синтетических тестов.
Что изменилось в рейтинге:
Топ остался стабильным, интерес к новым моделям растёт, голосов становится всё больше.
Посмотреть таблицу полностью можно:
— на сайте llmarena.ru,
— или прямо в Telegram, во вкладке «Таблица лидеров».
Не забывайте отдавать голос лучшему ответу на Анонимной Арене — каждая оценка помогает повысить точность лидерборда и быстрее прогреть новые модели.
Как считаете, кого не хватает в топе? Пишите в комментариях 👇
Please open Telegram to view this post
VIEW IN TELEGRAM
Добавили на платформу Doom (DeathMath) — открытый бенчмарк от Vikhr Models для проверки математических и физических способностей моделей на русском.
Проверяет reasoning на строгих, настоящих задачах. Собран на основе задач Всероссийских олимпиад (ВСОШ), Ломоносовской, Высшей пробы, Физтеха, ОММО и других.
Что проверяет:
— Умение решать реальные олимпиадные и экзаменационные задачи
— Логическое рассуждение и базовые вычислительные навыки
— Способность давать точный ответ, а не «приблизительно верный»
Как работает:
Бенчмарк доступен на сайте llmarena.ru в разделе «Таблицы лидеров» → DeathMath
Своё мнение и вопросы можете оставлять прямо под этим постом 👇
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Мы запустили Arena Explorer — аналитический инструмент, который позволяет глубже понять, как пользователи взаимодействуют с LLM-моделями на нашей платформе.
Он обрабатывает и структурирует большие объемы анонимизированных запросов, помогая выявить ключевые темы и интересы аудитории.
Чтобы показать возможности нового инструмента, мы проанализировали с его помощью более 150 000 русскоязычных промптов. Вот что нам удалось выяснить о самых популярных категориях запросов.
Эти данные показывают основные направления, в которых русскоязычные пользователи применяют LLM. Arena Explorer позволила не только выделить эти категории, но и детализировать подтемы внутри каждой (например, в программировании популярны оптимизация кода и Python, а в науке — авиация и космонавтика).
Хотите сами изучить данные и тренды?
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️Claude Sonnet 4 — уже на LLM Arena
Anthropic представила Claude Sonnet 4 как сбалансированное решение для рабочих задач, где важны скорость, надёжность и разумное потребление ресурсов.
Ключевые особенности:
➡️ Высокая производительность при низкой задержке
➡️ Контекст до 200 000 токенов
➡️ Сильные результаты в логических и аналитических задачах
➡️ Поддержка “расширенного мышления” (multi-step reasoning)
➡️ Продвинутая система безопасности (Constitutional AI + CBRN-фильтры)
Чтобы узнать насколько Claude на самом деле лучше других решений, переходите на LLM Arena, выбирайте анонимную арену, отправляйте запросы и голосуйте за понравившийся ответ. Так модель быстрее сможет попасть в рейтинг 🏆
➡️ Протестировать модель
Anthropic представила Claude Sonnet 4 как сбалансированное решение для рабочих задач, где важны скорость, надёжность и разумное потребление ресурсов.
Ключевые особенности:
Чтобы узнать насколько Claude на самом деле лучше других решений, переходите на LLM Arena, выбирайте анонимную арену, отправляйте запросы и голосуйте за понравившийся ответ. Так модель быстрее сможет попасть в рейтинг 🏆
Please open Telegram to view this post
VIEW IN TELEGRAM
Китайский DeepSeek тихо представил обновленную версию своей революционной модели искусственного интеллекта - DeepSeek R1-0528.
Что нового в обновлении?
Please open Telegram to view this post
VIEW IN TELEGRAM
Встречайте Direct Chat! 💬
Теперь вы можете выбрать и общаться напрямую с одной моделью без ограничений и VPN.
Зачем он нужен?
🔘 Глубокое взаимодействие с одной моделью — задавайте цепочки вопросов, стройте гипотезы, исследуйте темы без отвлечений.
🔘 Ничего лишнего — фокусируйтесь только на конкретной модели, не сравнивая ответы с другими.
🔘 Лёгкий чат с ИИ — поболтайте без формальностей, оцените личность и стиль модели.
🔘 Проверка навыков модели — от кода и перевода до генерации идей.
🔓 Разблокируйте новые модели! Участвуйте в анонимной арене и зарабатывайте голоса — чем больше голосов, тем более мощные ИИ станут доступны в Direct Chat! Самые продвинутые модели откроются только самым активным участникам.
Важно: доступ к Direct Chat открыт только после авторизации через нашего Telegram-бота.
Как начать?
1. Перейдите на сайт LLM Arena в раздел “Direct Chat”.
2. Авторизируйтесь в Telegram-боте.
3. Если вы новый пользователь, после авторизации начнется процесс онбординга, который поможет вам ознакомиться с платформой.
4. Снова зайдите в Direct Chat, выберите модель из списка и начните чат — всё просто!
➡️ Попробуйте Direct Chat уже сейчас на llmarena.ru и следите за обновлениями — впереди много интересного!
Теперь вы можете выбрать и общаться напрямую с одной моделью без ограничений и VPN.
Зачем он нужен?
🔓 Разблокируйте новые модели! Участвуйте в анонимной арене и зарабатывайте голоса — чем больше голосов, тем более мощные ИИ станут доступны в Direct Chat! Самые продвинутые модели откроются только самым активным участникам.
Важно: доступ к Direct Chat открыт только после авторизации через нашего Telegram-бота.
Как начать?
1. Перейдите на сайт LLM Arena в раздел “Direct Chat”.
2. Авторизируйтесь в Telegram-боте.
3. Если вы новый пользователь, после авторизации начнется процесс онбординга, который поможет вам ознакомиться с платформой.
4. Снова зайдите в Direct Chat, выберите модель из списка и начните чат — всё просто!
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Роман с данными
Фан факт
Когда был на кэмпе South HUB, и рассказывал о LLM Arena, CTO крупной компании поделился забавной историей:
Звонит ему дядя, который особо не шарит в ИИ, нейросетях и говорит: я тут на авито за 1000 руб купил безлимитный доступ ко всем нейросетям, вот есть секретный сайт, мне сказали никому не скидывать, но я скину тебе -вот https://lmarena.ai/
СТО в афиге, спрошивает, что за объявление на Авито - дядя ему скидывает https://www.avito.ru/moskva/igry_pristavki_i_programmy/sayt_s_bezlimitnymi_neyrosetyami_-_bez_vpn_4810389376 😀😀😀
Я изучил, таких объявлений оказалось очень много: 1,2,3,4,5 и куча довольных отзывов покупателей.
Поэтому я хочу еще раз напомнить:
Если вы хотите получить безлимитный доступ ко всем топовым нейросетям без VPN и регистрации, не нужно платить 1000 руб мошейникам, заходите на наш сайт llmarena.ru, пользуйтесь, и не забывайте голосовать за понравившиеся модели 😉
Когда был на кэмпе South HUB, и рассказывал о LLM Arena, CTO крупной компании поделился забавной историей:
Звонит ему дядя, который особо не шарит в ИИ, нейросетях и говорит: я тут на авито за 1000 руб купил безлимитный доступ ко всем нейросетям, вот есть секретный сайт, мне сказали никому не скидывать, но я скину тебе -
СТО в афиге, спрошивает, что за объявление на Авито - дядя ему скидывает https://www.avito.ru/moskva/igry_pristavki_i_programmy/sayt_s_bezlimitnymi_neyrosetyami_-_bez_vpn_4810389376 😀😀😀
Я изучил, таких объявлений оказалось очень много: 1,2,3,4,5 и куча довольных отзывов покупателей.
Поэтому я хочу еще раз напомнить:
Если вы хотите получить безлимитный доступ ко всем топовым нейросетям без VPN и регистрации, не нужно платить 1000 руб мошейникам, заходите на наш сайт llmarena.ru, пользуйтесь, и не забывайте голосовать за понравившиеся модели 😉