Telegram Group & Telegram Channel
🤖📊 Бенчмарки состоят из задач разной степени сложности, которые позволяют оценивать знания и навыки языковой модели. По результатам тестирования получается оценка, которую затем можно сравнивать с результатами других моделей или разных версий одной модели, чтобы оценить прогресс обучения.

Один из самых известных бенчмарков для языковых моделей — это MMLU (Massive Multi-task Language Understanding). Он состоит из 57 разделов, охватывающих разные области знаний — от литературы до юриспруденции. MMLU — один из самых популярных тестов для оценки нейросетей.

Но в последнее время в сообществе разработчиков нейросетей возникает всё больше вопросов к бенчмаркам как способу проверять и сравнивать работу моделей. Одна из причин — «загрязнение датасета», при котором тексты бенчмарков попадают в обучающую выборку нейросети.

Кроме того, показатели на бенчмарках могут не отражать реальную картину, в том числе из-за языковых различий. Например, задания MMLU составлены на английском и имеют локальную специфику: в качестве мер используются футы, мили и другие британские единицы измерения, а задачи по юриспруденции основаны на американском праве. Гораздо логичнее оценивать нейросеть на том языке, на котором к ней обращаются чаще всего.

Чтобы оценить работу модели на русском языке, команда YandexGPT адаптировала MMLU: перевела исходные задания с помощью машинного перевода и экспертов, конвертировала единицы измерения из британской системы в метрическую. Новая нейросеть YandexGPT 3 Pro показала на бенчмарке YaMMLU_ru результат 63%. Это выше, чем у YandexGPT 2 (55%), Llama 2 70B (59%) и GPT-3.5 Turbo (58%).

⭐️ Если у вас оформлен Telegram Premium, поддержите наш канал по ссылке

Подписывайтесь 👉 @techno_yandex
Please open Telegram to view this post
VIEW IN TELEGRAM
73👍4725🕊4👎1



group-telegram.com/techno_yandex/2409
Create:
Last Update:

🤖📊 Бенчмарки состоят из задач разной степени сложности, которые позволяют оценивать знания и навыки языковой модели. По результатам тестирования получается оценка, которую затем можно сравнивать с результатами других моделей или разных версий одной модели, чтобы оценить прогресс обучения.

Один из самых известных бенчмарков для языковых моделей — это MMLU (Massive Multi-task Language Understanding). Он состоит из 57 разделов, охватывающих разные области знаний — от литературы до юриспруденции. MMLU — один из самых популярных тестов для оценки нейросетей.

Но в последнее время в сообществе разработчиков нейросетей возникает всё больше вопросов к бенчмаркам как способу проверять и сравнивать работу моделей. Одна из причин — «загрязнение датасета», при котором тексты бенчмарков попадают в обучающую выборку нейросети.

Кроме того, показатели на бенчмарках могут не отражать реальную картину, в том числе из-за языковых различий. Например, задания MMLU составлены на английском и имеют локальную специфику: в качестве мер используются футы, мили и другие британские единицы измерения, а задачи по юриспруденции основаны на американском праве. Гораздо логичнее оценивать нейросеть на том языке, на котором к ней обращаются чаще всего.

Чтобы оценить работу модели на русском языке, команда YandexGPT адаптировала MMLU: перевела исходные задания с помощью машинного перевода и экспертов, конвертировала единицы измерения из британской системы в метрическую. Новая нейросеть YandexGPT 3 Pro показала на бенчмарке YaMMLU_ru результат 63%. Это выше, чем у YandexGPT 2 (55%), Llama 2 70B (59%) и GPT-3.5 Turbo (58%).

⭐️ Если у вас оформлен Telegram Premium, поддержите наш канал по ссылке

Подписывайтесь 👉 @techno_yandex

BY ТЕХНО: Яндекс про технологии




Share with your friend now:
group-telegram.com/techno_yandex/2409

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

NEWS The regulator said it had received information that messages containing stock tips and other investment advice with respect to selected listed companies are being widely circulated through websites and social media platforms such as Telegram, Facebook, WhatsApp and Instagram. "There is a significant risk of insider threat or hacking of Telegram systems that could expose all of these chats to the Russian government," said Eva Galperin with the Electronic Frontier Foundation, which has called for Telegram to improve its privacy practices. That hurt tech stocks. For the past few weeks, the 10-year yield has traded between 1.72% and 2%, as traders moved into the bond for safety when Russia headlines were ugly—and out of it when headlines improved. Now, the yield is touching its pandemic-era high. If the yield breaks above that level, that could signal that it’s on a sustainable path higher. Higher long-dated bond yields make future profits less valuable—and many tech companies are valued on the basis of profits forecast for many years in the future. In 2014, Pavel Durov fled the country after allies of the Kremlin took control of the social networking site most know just as VK. Russia's intelligence agency had asked Durov to turn over the data of anti-Kremlin protesters. Durov refused to do so.
from id


Telegram ТЕХНО: Яндекс про технологии
FROM American