Telegram Group & Telegram Channel
🔥 Новый бенчмарк на LLM Arena

Добавили на платформу Doom (DeathMath) — открытый бенчмарк от Vikhr Models для проверки математических и физических способностей моделей на русском.

Проверяет reasoning на строгих, настоящих задачах. Собран на основе задач Всероссийских олимпиад (ВСОШ), Ломоносовской, Высшей пробы, Физтеха, ОММО и других.

Что проверяет:
— Умение решать реальные олимпиадные и экзаменационные задачи
— Логическое рассуждение и базовые вычислительные навыки
— Способность давать точный ответ, а не «приблизительно верный»

Как работает:
⏺️Каждая модель по очереди решает задачи из двух наборов: RussianMath и RussianPhysics
⏺️Ответы сравниваются с эталонными, с учётом формата и точности
⏺️Оценка бинарная: 1 — правильно, 0 — нет
⏺️Итог: отдельные баллы за математику и физику, плюс комбинированный результат

Бенчмарк доступен на сайте llmarena.ru в разделе «Таблицы лидеров» → DeathMath

Своё мнение и вопросы можете оставлять прямо под этим постом 👇
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/llm_arena/61
Create:
Last Update:

🔥 Новый бенчмарк на LLM Arena

Добавили на платформу Doom (DeathMath) — открытый бенчмарк от Vikhr Models для проверки математических и физических способностей моделей на русском.

Проверяет reasoning на строгих, настоящих задачах. Собран на основе задач Всероссийских олимпиад (ВСОШ), Ломоносовской, Высшей пробы, Физтеха, ОММО и других.

Что проверяет:
— Умение решать реальные олимпиадные и экзаменационные задачи
— Логическое рассуждение и базовые вычислительные навыки
— Способность давать точный ответ, а не «приблизительно верный»

Как работает:
⏺️Каждая модель по очереди решает задачи из двух наборов: RussianMath и RussianPhysics
⏺️Ответы сравниваются с эталонными, с учётом формата и точности
⏺️Оценка бинарная: 1 — правильно, 0 — нет
⏺️Итог: отдельные баллы за математику и физику, плюс комбинированный результат

Бенчмарк доступен на сайте llmarena.ru в разделе «Таблицы лидеров» → DeathMath

Своё мнение и вопросы можете оставлять прямо под этим постом 👇

BY LLM Arena




Share with your friend now:
group-telegram.com/llm_arena/61

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"Markets were cheering this economic recovery and return to strong economic growth, but the cheers will turn to tears if the inflation outbreak pushes businesses and consumers to the brink of recession," he added. Recently, Durav wrote on his Telegram channel that users' right to privacy, in light of the war in Ukraine, is "sacred, now more than ever." Asked about its stance on disinformation, Telegram spokesperson Remi Vaughn told AFP: "As noted by our CEO, the sheer volume of information being shared on channels makes it extremely difficult to verify, so it's important that users double-check what they read." Despite Telegram's origins, its approach to users' security has privacy advocates worried. 'Wild West'
from cn


Telegram LLM Arena
FROM American