Warning: file_put_contents(aCache/aDaily/post/techno_yandex/--): Failed to open stream: No space left on device in /var/www/group-telegram/post.php on line 50
ТЕХНО: Яндекс про технологии | Telegram Webview: techno_yandex/2409 -
Telegram Group & Telegram Channel
🤖📊 Бенчмарки состоят из задач разной степени сложности, которые позволяют оценивать знания и навыки языковой модели. По результатам тестирования получается оценка, которую затем можно сравнивать с результатами других моделей или разных версий одной модели, чтобы оценить прогресс обучения.

Один из самых известных бенчмарков для языковых моделей — это MMLU (Massive Multi-task Language Understanding). Он состоит из 57 разделов, охватывающих разные области знаний — от литературы до юриспруденции. MMLU — один из самых популярных тестов для оценки нейросетей.

Но в последнее время в сообществе разработчиков нейросетей возникает всё больше вопросов к бенчмаркам как способу проверять и сравнивать работу моделей. Одна из причин — «загрязнение датасета», при котором тексты бенчмарков попадают в обучающую выборку нейросети.

Кроме того, показатели на бенчмарках могут не отражать реальную картину, в том числе из-за языковых различий. Например, задания MMLU составлены на английском и имеют локальную специфику: в качестве мер используются футы, мили и другие британские единицы измерения, а задачи по юриспруденции основаны на американском праве. Гораздо логичнее оценивать нейросеть на том языке, на котором к ней обращаются чаще всего.

Чтобы оценить работу модели на русском языке, команда YandexGPT адаптировала MMLU: перевела исходные задания с помощью машинного перевода и экспертов, конвертировала единицы измерения из британской системы в метрическую. Новая нейросеть YandexGPT 3 Pro показала на бенчмарке YaMMLU_ru результат 63%. Это выше, чем у YandexGPT 2 (55%), Llama 2 70B (59%) и GPT-3.5 Turbo (58%).

⭐️ Если у вас оформлен Telegram Premium, поддержите наш канал по ссылке

Подписывайтесь 👉 @techno_yandex
Please open Telegram to view this post
VIEW IN TELEGRAM
73👍4725🕊4👎1



group-telegram.com/techno_yandex/2409
Create:
Last Update:

🤖📊 Бенчмарки состоят из задач разной степени сложности, которые позволяют оценивать знания и навыки языковой модели. По результатам тестирования получается оценка, которую затем можно сравнивать с результатами других моделей или разных версий одной модели, чтобы оценить прогресс обучения.

Один из самых известных бенчмарков для языковых моделей — это MMLU (Massive Multi-task Language Understanding). Он состоит из 57 разделов, охватывающих разные области знаний — от литературы до юриспруденции. MMLU — один из самых популярных тестов для оценки нейросетей.

Но в последнее время в сообществе разработчиков нейросетей возникает всё больше вопросов к бенчмаркам как способу проверять и сравнивать работу моделей. Одна из причин — «загрязнение датасета», при котором тексты бенчмарков попадают в обучающую выборку нейросети.

Кроме того, показатели на бенчмарках могут не отражать реальную картину, в том числе из-за языковых различий. Например, задания MMLU составлены на английском и имеют локальную специфику: в качестве мер используются футы, мили и другие британские единицы измерения, а задачи по юриспруденции основаны на американском праве. Гораздо логичнее оценивать нейросеть на том языке, на котором к ней обращаются чаще всего.

Чтобы оценить работу модели на русском языке, команда YandexGPT адаптировала MMLU: перевела исходные задания с помощью машинного перевода и экспертов, конвертировала единицы измерения из британской системы в метрическую. Новая нейросеть YandexGPT 3 Pro показала на бенчмарке YaMMLU_ru результат 63%. Это выше, чем у YandexGPT 2 (55%), Llama 2 70B (59%) и GPT-3.5 Turbo (58%).

⭐️ Если у вас оформлен Telegram Premium, поддержите наш канал по ссылке

Подписывайтесь 👉 @techno_yandex

BY ТЕХНО: Яндекс про технологии




Share with your friend now:
group-telegram.com/techno_yandex/2409

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

DFR Lab sent the image through Microsoft Azure's Face Verification program and found that it was "highly unlikely" that the person in the second photo was the same as the first woman. The fact-checker Logically AI also found the claim to be false. The woman, Olena Kurilo, was also captured in a video after the airstrike and shown to have the injuries. The gold standard of encryption, known as end-to-end encryption, where only the sender and person who receives the message are able to see it, is available on Telegram only when the Secret Chat function is enabled. Voice and video calls are also completely encrypted. These administrators had built substantial positions in these scrips prior to the circulation of recommendations and offloaded their positions subsequent to rise in price of these scrips, making significant profits at the expense of unsuspecting investors, Sebi noted. For tech stocks, “the main thing is yields,” Essaye said. Although some channels have been removed, the curation process is considered opaque and insufficient by analysts.
from us


Telegram ТЕХНО: Яндекс про технологии
FROM American