llm_arena Telegram Group

🔥

Добавили новые модели ChatGPT на Арену

Кроме того, состав пополнили предыдущие версии, ранее недоступные.

Теперь на LLM Arena представлены:
⏺️ GPT 4.1
⏺️ GPT 4.1 Mini
⏺️ GPT 4.1 Nano
⏺️ o1-mini и
⏺️ о3-mini

Новые модели идут в трёх размерах — GPT 4.1, GPT 4.1 Mini и GPT 4.1 Nano. По сравнению с 4o, GPT 4.1 прокачали по всем фронтам — от кодинга до мультимодальности.

Но самое главное — 4.1 сильно лучше в следовании инструкций, модель теперь меньше забывает инструкции через одно сообщение и газлайтит пользователей.

Мы продолжаем добавлять новые модели на арену — вы можете затестить их уже сейчас:

1. Заходите на сайт llmarena.ru или в наш mini-app прямо в Telegram.
2. Оценивайте модели, голосуйте за лучшие ответы.
3. Делитесь в чате инсайтами.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

774 views11:03

LLM Arena

Forwarded from Роман с данными

LLM моделей становится все больше и больше, разобраться в таком зоопарке становится все сложнее и сложнее.

Openrouter придумал интересный способ навести порядок - они проклассифицировали запросы своих клиентов по типам задач (programming, legal, finance и т.д) - и посмотрели в каких случаях какие модели используются.

Как говорится - все гениальное просто 🙃

Ознакомиться с инфографикой можно по ссылке https://openrouter.ai/rankings

635 views11:35

LLM Arena

⚡️

Обновление на LLM Arena: добавлены пять моделей Qwen3

На платформе появились новые модели Qwen3 от Alibaba — одного из наиболее технологически продвинутых семейств LLM на сегодняшний день.

Они показывают высокие результаты в тестах, на предварительных тестах уверенно конкурируют с LLaMA 4 402B Maverick и DeepSeek R1 Shannon, и теперь доступны для сравнения на LLM Arena.

Добавлены следующие версии:

⏺️

Qwen3-8B — компактная модель для повседневных задач

⏺️

Qwen3-14B — более уверенная генерация и понимание контекста

⏺️

Qwen3-30B-A3B — MoE-архитектура: высокая производительность при сниженных требованиях к ресурсам

⏺️

Qwen3-32B — надёжная модель, близкая к флагманскому уровню

⏺️

Qwen3-235B-A22B — тяжеловес, превосходящий по ряду метрик LLaMA 4 402B, но при этом экономичнее

1. Заходите на сайт llmarena.ru или в наш mini-app прямо в Telegram.
2. Используйте анонимную арену, сравнивайте модели и голосуйте за лучшие ответы.
3. Делитесь в чате инсайтами.

☝️

Не забывайте оставлять свой голос — это важно для развития платформы

Please open Telegram to view this post

VIEW IN TELEGRAM

587 views12:31

LLM Arena

📊

Обновили график Price vs Quality на LLM Arena

Мы постарались учесть всё, что мешало удобному анализу, и улучшили основные элементы. Теперь он точнее, аккуратнее и лучше отражает реальную картину:

⏺️

Визуализация стала понятнее
График больше не выглядит сжатым и перегруженным, что делает его более читаемым и облегчает сравнение моделей между собой.

⏺️

Добавлены доверительные интервалы
Они помогают оценить статистическую надежность Elo-рейтинга каждой модели.

⏺️

Гибкий расчёт стоимости
Теперь вы можете настраивать баланс между input- и output-токенами в зависимости от ваших задач.

⏺️

Параметр "Style Control"
Позволяет "очистить" рейтинг от влияния стиля – длины текста, форматирования (списков, выделений).

⏺️

Актуальные модели
График построен на свежих данных с основного лидерборда LLM Arena.

Найти график можно на сайте llmarena.ru во вкладке Таблица лидеров

➡️

Price vs Quality.

А вы уже нашли свою модель?
❤️ — да, и она стоит своих денег
🔥 — пока только ищу, спасибо за график

Please open Telegram to view this post

VIEW IN TELEGRAM

4.9K views10:00

LLM Arena

🔥

Обновили лидерборд на LLM Arena

На платформе теперь доступен майский рейтинг языковых моделей. Строится он на основе ваших оценок, без синтетических тестов.

Что изменилось в рейтинге:
⏺️ Кол-во моделей выросло до 63
⏺️ Общее число голосов — почти 70 000

⏺️

Gemma 3 27B (Google) — резкий рост Elo и попадание в топ-группу

⏺️

claude-3-5-sonnet-20241022 — укрепила позиции: +Elo, +голоса
⏺️ У большинства лидеров — небольшие колебания Elo, но рост голосов
⏺️ Появились новые модели, включая claude-3-7-sonnet-20250219

⏺️

GPT-4o и Gemini Pro сохранили высокие позиции, несмотря на лёгкое снижение Elo

Топ остался стабильным, интерес к новым моделям растёт, голосов становится всё больше.

Посмотреть таблицу полностью можно:
— на сайте llmarena.ru,
— или прямо в Telegram, во вкладке «Таблица лидеров».

Не забывайте отдавать голос лучшему ответу на Анонимной Арене — каждая оценка помогает повысить точность лидерборда и быстрее прогреть новые модели.

Как считаете, кого не хватает в топе? Пишите в комментариях 👇

Please open Telegram to view this post

VIEW IN TELEGRAM

746 views17:34

LLM Arena

🔥

Новый бенчмарк на LLM Arena

Добавили на платформу Doom (DeathMath) — открытый бенчмарк от Vikhr Models для проверки математических и физических способностей моделей на русском.

Проверяет reasoning на строгих, настоящих задачах. Собран на основе задач Всероссийских олимпиад (ВСОШ), Ломоносовской, Высшей пробы, Физтеха, ОММО и других.

Что проверяет:
— Умение решать реальные олимпиадные и экзаменационные задачи
— Логическое рассуждение и базовые вычислительные навыки
— Способность давать точный ответ, а не «приблизительно верный»

Как работает:
⏺️Каждая модель по очереди решает задачи из двух наборов: RussianMath и RussianPhysics
⏺️Ответы сравниваются с эталонными, с учётом формата и точности
⏺️Оценка бинарная: 1 — правильно, 0 — нет
⏺️Итог: отдельные баллы за математику и физику, плюс комбинированный результат

Бенчмарк доступен на сайте llmarena.ru в разделе «Таблицы лидеров» → DeathMath

Своё мнение и вопросы можете оставлять прямо под этим постом 👇

Please open Telegram to view this post

VIEW IN TELEGRAM

12.4K views14:03

LLM Arena

This media is not supported in your browser

VIEW IN TELEGRAM

🚀

Представляем Arena Explorer – новый инструмент на LLM Arena!

Мы запустили Arena Explorer — аналитический инструмент, который позволяет глубже понять, как пользователи взаимодействуют с LLM-моделями на нашей платформе.

Он обрабатывает и структурирует большие объемы анонимизированных запросов, помогая выявить ключевые темы и интересы аудитории.

Чтобы показать возможности нового инструмента, мы проанализировали с его помощью более 150 000 русскоязычных промптов. Вот что нам удалось выяснить о самых популярных категориях запросов.

📊

ТОП-5 тем по версии Arena Explorer:

🤩

Программирование: 21 225 промптов

🤩

Наука и техника: 18 476 промптов

🤩

Перевод и лингвистика: 16 026 промптов

🤩

Креативное письмо и копирайтинг: 7 508 промптов

🤩

Анализ данных и стратегии: 4 903 промпта

Эти данные показывают основные направления, в которых русскоязычные пользователи применяют LLM. Arena Explorer позволила не только выделить эти категории, но и детализировать подтемы внутри каждой (например, в программировании популярны оптимизация кода и Python, а в науке — авиация и космонавтика).

Хотите сами изучить данные и тренды?

➡️ Заходите на Arena Explorer и работайте с информацией напрямую.

Please open Telegram to view this post

VIEW IN TELEGRAM

789 views07:00

LLM Arena

⚡️Claude Sonnet 4 — уже на LLM Arena

Anthropic представила Claude Sonnet 4 как сбалансированное решение для рабочих задач, где важны скорость, надёжность и разумное потребление ресурсов.

Ключевые особенности:

➡️ Высокая производительность при низкой задержке
➡️Контекст до 200 000 токенов
➡️Сильные результаты в логических и аналитических задачах
➡️Поддержка “расширенного мышления” (multi-step reasoning)
➡️Продвинутая система безопасности (Constitutional AI + CBRN-фильтры)

Чтобы узнать насколько Claude на самом деле лучше других решений, переходите на LLM Arena, выбирайте анонимную арену, отправляйте запросы и голосуйте за понравившийся ответ. Так модель быстрее сможет попасть в рейтинг 🏆

➡️

Протестировать модель

Please open Telegram to view this post

VIEW IN TELEGRAM

968 views09:11

LLM Arena

⚡️ DeepSeek наносит ответный удар!

Китайский DeepSeek тихо представил обновленную версию своей революционной модели искусственного интеллекта - DeepSeek R1-0528.

Что нового в обновлении?

🩵Улучшенные возможности рассуждения — модель демонстрирует еще более продвинутые способности к логическому мышлению и решению сложных задач.
🩵Снижение галлюцинаций — значительно повышена точность и надежность ответов.
🩵Улучшенная производительность в кодинге — R1-0528 показывает выдающиеся результаты на LiveCodeBench, превосходя конкурентов.

🩵Попробуйте ее прямо сейчас на LLM Arena и сравните с другими моделями: llmarena.ru

Please open Telegram to view this post

VIEW IN TELEGRAM

3.7K viewsedited 13:36

LLM Arena

Встречайте Direct Chat!

💬

Теперь вы можете выбрать и общаться напрямую с одной моделью без ограничений и VPN.

Зачем он нужен?

🔘Глубокое взаимодействие с одной моделью — задавайте цепочки вопросов, стройте гипотезы, исследуйте темы без отвлечений.
🔘Ничего лишнего — фокусируйтесь только на конкретной модели, не сравнивая ответы с другими.
🔘Лёгкий чат с ИИ — поболтайте без формальностей, оцените личность и стиль модели.
🔘Проверка навыков модели — от кода и перевода до генерации идей.

🔓 Разблокируйте новые модели! Участвуйте в анонимной арене и зарабатывайте голоса — чем больше голосов, тем более мощные ИИ станут доступны в Direct Chat! Самые продвинутые модели откроются только самым активным участникам.

Важно: доступ к Direct Chat открыт только после авторизации через нашего Telegram-бота.

Как начать?

1. Перейдите на сайт LLM Arena в раздел “Direct Chat”.
2. Авторизируйтесь в Telegram-боте.
3. Если вы новый пользователь, после авторизации начнется процесс онбординга, который поможет вам ознакомиться с платформой.
4. Снова зайдите в Direct Chat, выберите модель из списка и начните чат — всё просто!

➡️ Попробуйте Direct Chat уже сейчас на llmarena.ru и следите за обновлениями — впереди много интересного!

Please open Telegram to view this post

VIEW IN TELEGRAM

218 views09:47

LLM Arena

Forwarded from Роман с данными

Фан факт
Когда был на кэмпе South HUB, и рассказывал о LLM Arena, CTO крупной компании поделился забавной историей:

Звонит ему дядя, который особо не шарит в ИИ, нейросетях и говорит: я тут на авито за 1000 руб купил безлимитный доступ ко всем нейросетям, вот есть секретный сайт, мне сказали никому не скидывать, но я скину тебе - вот

https://lmarena.ai/

СТО в афиге, спрошивает, что за объявление на Авито - дядя ему скидывает https://www.avito.ru/moskva/igry_pristavki_i_programmy/sayt_s_bezlimitnymi_neyrosetyami_-_bez_vpn_4810389376 😀😀😀

Я изучил, таких объявлений оказалось очень много: 1,2,3,4,5 и куча довольных отзывов покупателей.

Поэтому я хочу еще раз напомнить:
Если вы хотите получить безлимитный доступ ко всем топовым нейросетям без VPN и регистрации, не нужно платить 1000 руб мошейникам, заходите на наш сайт llmarena.ru, пользуйтесь, и не забывайте голосовать за понравившиеся модели 😉

96 views10:38

2025/06/18 12:13:16
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.group-telegram.com/buyppe/webview?embed=1" title="Channel Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>