Krist/Blog | Telegram Webview: krists/2297 -

Telegram Group & Telegram Channel

AIME-2025-ru бенчмарк: промежуточные результаты.

AIME - это такой американский математический экзамен с задачами "олимпиадного уровня". После выхода o1-preview на нем стало модно тестировать модели рассуждения, потому что с классическими математическими бечмарками типа MATH-500 такие модели уже полностью справляются. AIME 2025 это версия экзамена за 2025 год и она еще даже в теории не протекла ни в какие обучающие датасеты.

Я перевел вопросы из этого экзамена на русский язык через Gemini 2.0 Pro Exp и, конечно, перепроверил перевод вручную, благо вопросов там всего 15.

Это, скорее всего, первый бенчмарк для моделей рассуждения на русском языке. Сейчас я протестировал на этом бенчмарке 3 модели: RuadaptQwQ, RuadaptFuseO1 и DeepSeek-R1-Distill-Qwen-32B (буду тестировать ещё больше моделей в будущем). Результаты в таблице.

Методика тестирования такая же, как у товарищей из matharena.ai. Я делаю 4 генерации на 1 задачу: если все генерации содержат правильный ответ, то он помечается зеленым цветом; есть и правильные и неправильные ответы => цвет желтый; красный => все ответы неправильные.

Бенчмарк

👍3

www.group-telegram.com/us/krists.com/2297

2.16K viewsedited Feb 13 at 14:34

group-telegram.com/krists/2297

Create: 2025-02-13
Last Update: 2025-08-24 03:23:08

AIME-2025-ru бенчмарк: промежуточные результаты.

AIME - это такой американский математический экзамен с задачами "олимпиадного уровня". После выхода o1-preview на нем стало модно тестировать модели рассуждения, потому что с классическими математическими бечмарками типа MATH-500 такие модели уже полностью справляются. AIME 2025 это версия экзамена за 2025 год и она еще даже в теории не протекла ни в какие обучающие датасеты.

Я перевел вопросы из этого экзамена на русский язык через Gemini 2.0 Pro Exp и, конечно, перепроверил перевод вручную, благо вопросов там всего 15.

Это, скорее всего, первый бенчмарк для моделей рассуждения на русском языке. Сейчас я протестировал на этом бенчмарке 3 модели: RuadaptQwQ, RuadaptFuseO1 и DeepSeek-R1-Distill-Qwen-32B (буду тестировать ещё больше моделей в будущем). Результаты в таблице.

Методика тестирования такая же, как у товарищей из matharena.ai. Я делаю 4 генерации на 1 задачу: если все генерации содержат правильный ответ, то он помечается зеленым цветом; есть и правильные и неправильные ответы => цвет желтый; красный => все ответы неправильные.

Бенчмарк

BY Krist/Blog

Share with your friend now:
group-telegram.com/krists/2297

Open in Telegram

Telegram | DID YOU KNOW?

Date: 2025-08-24|

Individual messages can be fully encrypted. But the user has to turn on that function. It's not automatic, as it is on Signal and WhatsApp. In addition, Telegram's architecture limits the ability to slow the spread of false information: the lack of a central public feed, and the fact that comments are easily disabled in channels, reduce the space for public pushback. Unlike Silicon Valley giants such as Facebook and Twitter, which run very public anti-disinformation programs, Brooking said: "Telegram is famously lax or absent in its content moderation policy." At the start of 2018, the company attempted to launch an Initial Coin Offering (ICO) which would enable it to enable payments (and earn the cash that comes from doing so). The initial signals were promising, especially given Telegram’s user base is already fairly crypto-savvy. It raised an initial tranche of cash – worth more than a billion dollars – to help develop the coin before opening sales to the public. Unfortunately, third-party sales of coins bought in those initial fundraising rounds raised the ire of the SEC, which brought the hammer down on the whole operation. In 2020, officials ordered Telegram to pay a fine of $18.5 million and hand back much of the cash that it had raised. Perpetrators of such fraud use various marketing techniques to attract subscribers on their social media channels.
from us

Telegram Krist/Blog
FROM American