Telegram Group & Telegram Channel
AIME-2025-ru бенчмарк: промежуточные результаты.

AIME - это такой американский математический экзамен с задачами "олимпиадного уровня". После выхода o1-preview на нем стало модно тестировать модели рассуждения, потому что с классическими математическими бечмарками типа MATH-500 такие модели уже полностью справляются. AIME 2025 это версия экзамена за 2025 год и она еще даже в теории не протекла ни в какие обучающие датасеты.

Я перевел вопросы из этого экзамена на русский язык через Gemini 2.0 Pro Exp и, конечно, перепроверил перевод вручную, благо вопросов там всего 15.

Это, скорее всего, первый бенчмарк для моделей рассуждения на русском языке. Сейчас я протестировал на этом бенчмарке 3 модели: RuadaptQwQ, RuadaptFuseO1 и DeepSeek-R1-Distill-Qwen-32B (буду тестировать ещё больше моделей в будущем). Результаты в таблице.

Методика тестирования такая же, как у товарищей из matharena.ai. Я делаю 4 генерации на 1 задачу: если все генерации содержат правильный ответ, то он помечается зеленым цветом; есть и правильные и неправильные ответы => цвет желтый; красный => все ответы неправильные.

Бенчмарк
👍3



group-telegram.com/krists/2297
Create:
Last Update:

AIME-2025-ru бенчмарк: промежуточные результаты.

AIME - это такой американский математический экзамен с задачами "олимпиадного уровня". После выхода o1-preview на нем стало модно тестировать модели рассуждения, потому что с классическими математическими бечмарками типа MATH-500 такие модели уже полностью справляются. AIME 2025 это версия экзамена за 2025 год и она еще даже в теории не протекла ни в какие обучающие датасеты.

Я перевел вопросы из этого экзамена на русский язык через Gemini 2.0 Pro Exp и, конечно, перепроверил перевод вручную, благо вопросов там всего 15.

Это, скорее всего, первый бенчмарк для моделей рассуждения на русском языке. Сейчас я протестировал на этом бенчмарке 3 модели: RuadaptQwQ, RuadaptFuseO1 и DeepSeek-R1-Distill-Qwen-32B (буду тестировать ещё больше моделей в будущем). Результаты в таблице.

Методика тестирования такая же, как у товарищей из matharena.ai. Я делаю 4 генерации на 1 задачу: если все генерации содержат правильный ответ, то он помечается зеленым цветом; есть и правильные и неправильные ответы => цвет желтый; красный => все ответы неправильные.

Бенчмарк

BY Krist/Blog




Share with your friend now:
group-telegram.com/krists/2297

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The Securities and Exchange Board of India (Sebi) had carried out a similar exercise in 2017 in a matter related to circulation of messages through WhatsApp. If you initiate a Secret Chat, however, then these communications are end-to-end encrypted and are tied to the device you are using. That means it’s less convenient to access them across multiple platforms, but you are at far less risk of snooping. Back in the day, Secret Chats received some praise from the EFF, but the fact that its standard system isn’t as secure earned it some criticism. If you’re looking for something that is considered more reliable by privacy advocates, then Signal is the EFF’s preferred platform, although that too is not without some caveats. Elsewhere, version 8.6 of Telegram integrates the in-app camera option into the gallery, while a new navigation bar gives quick access to photos, files, location sharing, and more. Soloviev also promoted the channel in a post he shared on his own Telegram, which has 580,000 followers. The post recommended his viewers subscribe to "War on Fakes" in a time of fake news. Pavel Durov, Telegram's CEO, is known as "the Russian Mark Zuckerberg," for co-founding VKontakte, which is Russian for "in touch," a Facebook imitator that became the country's most popular social networking site.
from us


Telegram Krist/Blog
FROM American