group-telegram.com/llm_arena/61
Last Update:
Добавили на платформу Doom (DeathMath) — открытый бенчмарк от Vikhr Models для проверки математических и физических способностей моделей на русском.
Проверяет reasoning на строгих, настоящих задачах. Собран на основе задач Всероссийских олимпиад (ВСОШ), Ломоносовской, Высшей пробы, Физтеха, ОММО и других.
Что проверяет:
— Умение решать реальные олимпиадные и экзаменационные задачи
— Логическое рассуждение и базовые вычислительные навыки
— Способность давать точный ответ, а не «приблизительно верный»
Как работает:
Бенчмарк доступен на сайте llmarena.ru в разделе «Таблицы лидеров» → DeathMath
Своё мнение и вопросы можете оставлять прямо под этим постом 👇