group-telegram.com/techno_yandex/2409
Last Update:
🤖📊 Бенчмарки состоят из задач разной степени сложности, которые позволяют оценивать знания и навыки языковой модели. По результатам тестирования получается оценка, которую затем можно сравнивать с результатами других моделей или разных версий одной модели, чтобы оценить прогресс обучения.
Один из самых известных бенчмарков для языковых моделей — это MMLU (Massive Multi-task Language Understanding). Он состоит из 57 разделов, охватывающих разные области знаний — от литературы до юриспруденции. MMLU — один из самых популярных тестов для оценки нейросетей.
Но в последнее время в сообществе разработчиков нейросетей возникает всё больше вопросов к бенчмаркам как способу проверять и сравнивать работу моделей. Одна из причин — «загрязнение датасета», при котором тексты бенчмарков попадают в обучающую выборку нейросети.
Кроме того, показатели на бенчмарках могут не отражать реальную картину, в том числе из-за языковых различий. Например, задания MMLU составлены на английском и имеют локальную специфику: в качестве мер используются футы, мили и другие британские единицы измерения, а задачи по юриспруденции основаны на американском праве. Гораздо логичнее оценивать нейросеть на том языке, на котором к ней обращаются чаще всего.
Чтобы оценить работу модели на русском языке, команда YandexGPT адаптировала MMLU: перевела исходные задания с помощью машинного перевода и экспертов, конвертировала единицы измерения из британской системы в метрическую. Новая нейросеть YandexGPT 3 Pro показала на бенчмарке YaMMLU_ru результат 63%. Это выше, чем у YandexGPT 2 (55%), Llama 2 70B (59%) и GPT-3.5 Turbo (58%).
Подписывайтесь 👉 @techno_yandex

