Telegram Group & Telegram Channel
🧮 Модели решают математику… но не совсем

Исследователи предложили новый бенчмарк — MATH-Perturb, чтобы проверить: языковые модели действительно "умеют" решать задачи по математике или просто запоминают шаблоны?

📌 Что сделали: Они взяли 279 самых сложных задач из датасета MATH (уровень 5) и создали две версии для каждой:

MATH-P-Simple — простая пертурбация (вопрос формулируется иначе, но суть и метод решения не меняется).

MATH-P-Hard — сложная пертурбация (незаметное изменение, которое требует другого метода решения и более глубокого понимания).

🧠 Что показали тесты: Модели легко решают оригинальные и "простые" пертурбированные задачи — даже если используют "шорткат-решения" (по сути, угадывают по шаблону).
Но на сложных пертурбациях они резко проваливаются. Шорткат больше не работает, и модель теряется.

📊 Вывод: Многие языковые модели, включая самые продвинутые, не понимают математику в глубоком смысле. Они подбирают шаблон, а не рассуждают.

MATH-Perturb — отличный способ отделить память от мышления.

🔗 Подробнее: https://arxiv.org/abs/2404.01649
🔗 Бенчмарк: https://math-perturb.github.io/

@data_math



group-telegram.com/data_math/736
Create:
Last Update:

🧮 Модели решают математику… но не совсем

Исследователи предложили новый бенчмарк — MATH-Perturb, чтобы проверить: языковые модели действительно "умеют" решать задачи по математике или просто запоминают шаблоны?

📌 Что сделали: Они взяли 279 самых сложных задач из датасета MATH (уровень 5) и создали две версии для каждой:

MATH-P-Simple — простая пертурбация (вопрос формулируется иначе, но суть и метод решения не меняется).

MATH-P-Hard — сложная пертурбация (незаметное изменение, которое требует другого метода решения и более глубокого понимания).

🧠 Что показали тесты: Модели легко решают оригинальные и "простые" пертурбированные задачи — даже если используют "шорткат-решения" (по сути, угадывают по шаблону).
Но на сложных пертурбациях они резко проваливаются. Шорткат больше не работает, и модель теряется.

📊 Вывод: Многие языковые модели, включая самые продвинутые, не понимают математику в глубоком смысле. Они подбирают шаблон, а не рассуждают.

MATH-Perturb — отличный способ отделить память от мышления.

🔗 Подробнее: https://arxiv.org/abs/2404.01649
🔗 Бенчмарк: https://math-perturb.github.io/

@data_math

BY Математика Дата саентиста





Share with your friend now:
group-telegram.com/data_math/736

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Russian President Vladimir Putin launched Russia's invasion of Ukraine in the early-morning hours of February 24, targeting several key cities with military strikes. The fake Zelenskiy account reached 20,000 followers on Telegram before it was shut down, a remedial action that experts say is all too rare. During the operations, Sebi officials seized various records and documents, including 34 mobile phones, six laptops, four desktops, four tablets, two hard drive disks and one pen drive from the custody of these persons. In addition, Telegram now supports the use of third-party streaming tools like OBS Studio and XSplit to broadcast live video, allowing users to add overlays and multi-screen layouts for a more professional look. Meanwhile, a completely redesigned attachment menu appears when sending multiple photos or vides. Users can tap "X selected" (X being the number of items) at the top of the panel to preview how the album will look in the chat when it's sent, as well as rearrange or remove selected media.
from ca


Telegram Математика Дата саентиста
FROM American