🤖📊 Бенчмарки состоят из задач разной степени сложности

ТЕХНО: Яндекс про технологии

🤖📊 Бенчмарки состоят из задач разной степени сложности, которые позволяют оценивать знания и навыки языковой модели. По результатам тестирования получается оценка, которую затем можно сравнивать с результатами других моделей или разных версий одной модели, чтобы оценить прогресс обучения.

Один из самых известных бенчмарков для языковых моделей — это MMLU (Massive Multi-task Language Understanding). Он состоит из 57 разделов, охватывающих разные области знаний — от литературы до юриспруденции. MMLU — один из самых популярных тестов для оценки нейросетей.

Но в последнее время в сообществе разработчиков нейросетей возникает всё больше вопросов к бенчмаркам как способу проверять и сравнивать работу моделей. Одна из причин — «загрязнение датасета», при котором тексты бенчмарков попадают в обучающую выборку нейросети.

Кроме того, показатели на бенчмарках могут не отражать реальную картину, в том числе из-за языковых различий. Например, задания MMLU составлены на английском и имеют локальную специфику: в качестве мер используются футы, мили и другие британские единицы измерения, а задачи по юриспруденции основаны на американском праве. Гораздо логичнее оценивать нейросеть на том языке, на котором к ней обращаются чаще всего.

Чтобы оценить работу модели на русском языке, команда YandexGPT адаптировала MMLU: перевела исходные задания с помощью машинного перевода и экспертов, конвертировала единицы измерения из британской системы в метрическую. Новая нейросеть YandexGPT 3 Pro показала на бенчмарке YaMMLU_ru результат 63%. Это выше, чем у YandexGPT 2 (55%), Llama 2 70B (59%) и GPT-3.5 Turbo (58%).

⭐️

Если у вас оформлен Telegram Premium, поддержите наш канал по ссылке

Подписывайтесь 👉 @techno_yandex

Please open Telegram to view this post

VIEW IN TELEGRAM

73👍47❤25🕊4👎1

www.group-telegram.com/us/techno_yandex.com/2409

57.4K viewsedited Apr 2, 2024 at 14:45

group-telegram.com/techno_yandex/2409

Create: 2024-04-02
Last Update: 2025-12-02 05:17:49

Telegram | DID YOU KNOW?

🤖📊 Бенчмарки состоят из задач разной степени сложности