Warning: file_put_contents(aCache/aDaily/post/data_math/-736-737-): Failed to open stream: No space left on device in /var/www/group-telegram/post.php on line 50
Математика Дата саентиста | Telegram Webview: data_math/736 -
Telegram Group & Telegram Channel
🧮 Модели решают математику… но не совсем

Исследователи предложили новый бенчмарк — MATH-Perturb, чтобы проверить: языковые модели действительно "умеют" решать задачи по математике или просто запоминают шаблоны?

📌 Что сделали: Они взяли 279 самых сложных задач из датасета MATH (уровень 5) и создали две версии для каждой:

MATH-P-Simple — простая пертурбация (вопрос формулируется иначе, но суть и метод решения не меняется).

MATH-P-Hard — сложная пертурбация (незаметное изменение, которое требует другого метода решения и более глубокого понимания).

🧠 Что показали тесты: Модели легко решают оригинальные и "простые" пертурбированные задачи — даже если используют "шорткат-решения" (по сути, угадывают по шаблону).
Но на сложных пертурбациях они резко проваливаются. Шорткат больше не работает, и модель теряется.

📊 Вывод: Многие языковые модели, включая самые продвинутые, не понимают математику в глубоком смысле. Они подбирают шаблон, а не рассуждают.

MATH-Perturb — отличный способ отделить память от мышления.

🔗 Подробнее: https://arxiv.org/abs/2404.01649
🔗 Бенчмарк: https://math-perturb.github.io/

@data_math



group-telegram.com/data_math/736
Create:
Last Update:

🧮 Модели решают математику… но не совсем

Исследователи предложили новый бенчмарк — MATH-Perturb, чтобы проверить: языковые модели действительно "умеют" решать задачи по математике или просто запоминают шаблоны?

📌 Что сделали: Они взяли 279 самых сложных задач из датасета MATH (уровень 5) и создали две версии для каждой:

MATH-P-Simple — простая пертурбация (вопрос формулируется иначе, но суть и метод решения не меняется).

MATH-P-Hard — сложная пертурбация (незаметное изменение, которое требует другого метода решения и более глубокого понимания).

🧠 Что показали тесты: Модели легко решают оригинальные и "простые" пертурбированные задачи — даже если используют "шорткат-решения" (по сути, угадывают по шаблону).
Но на сложных пертурбациях они резко проваливаются. Шорткат больше не работает, и модель теряется.

📊 Вывод: Многие языковые модели, включая самые продвинутые, не понимают математику в глубоком смысле. Они подбирают шаблон, а не рассуждают.

MATH-Perturb — отличный способ отделить память от мышления.

🔗 Подробнее: https://arxiv.org/abs/2404.01649
🔗 Бенчмарк: https://math-perturb.github.io/

@data_math

BY Математика Дата саентиста





Share with your friend now:
group-telegram.com/data_math/736

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Although some channels have been removed, the curation process is considered opaque and insufficient by analysts. The original Telegram channel has expanded into a web of accounts for different locations, including specific pages made for individual Russian cities. There's also an English-language website, which states it is owned by the people who run the Telegram channels. NEWS Ukrainian President Volodymyr Zelensky said in a video message on Tuesday that Ukrainian forces "destroy the invaders wherever we can." Telegram was founded in 2013 by two Russian brothers, Nikolai and Pavel Durov.
from us


Telegram Математика Дата саентиста
FROM American