Telegram Group & Telegram Channel
MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering

Новый бенчмарк от OpenAI - взяли 75 соревнований с Kaggle и запустили по ним агентов. Минимум по 16.9% их подход получил хотя бы бронзу.

Результаты вполне интересные, но я бы хотел отметить другое:
"For each competition, we use the original dataset if publicly available, although Kaggle competitions often do not release the test set even after the competition ends. In such cases, we manually create new train and test splits based on the publicly available training data. We take care to ensure that the distributions of the original and reconstructed test sets are similar by checking that the example submission scores similarly on both sets."

То есть авторы часто сами делали разбиение на трейн и тест на основе публичных данных и старались сделать так, чтобы распределения данных совпадали. Как мы знаем, на Kaggle один из самых сложных аспектов соревнований - построить качественную валидацию, ибо тест нередко отличается от трейна. Так что сравнивать этот бенчмарк и реальные успехи в соревнованиях не совсем корректно.

Значит ли это, что бенчмарк плохо? Нет, я считаю, что бенчмарк вполне интересный.
• Любой бенчмарк, на котором модели не имеют очень высокое качество, полезен для развития моделей
• Даже если "реальное" качество ниже заявленного - это не так страшно. Ибо публикация этого бенчмарка - первый шаг к улучшению будущих подходов для решения подобных задач
• На Kaggle участники сами нередко ругаются на случаи, когда тест слишком уж отличается от трейна. И, с одной стороны, наличие отличий отражает реальную жизнь, с другой стороны, вся суть машинного обучения в поиске паттернов, а не в трюках и пробивании лидерборда

Так что считаю, что это хороший бенчмарк :)

https://arxiv.org/abs/2410.07095v1

#datascience



group-telegram.com/datastorieslanguages/306
Create:
Last Update:

MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering

Новый бенчмарк от OpenAI - взяли 75 соревнований с Kaggle и запустили по ним агентов. Минимум по 16.9% их подход получил хотя бы бронзу.

Результаты вполне интересные, но я бы хотел отметить другое:
"For each competition, we use the original dataset if publicly available, although Kaggle competitions often do not release the test set even after the competition ends. In such cases, we manually create new train and test splits based on the publicly available training data. We take care to ensure that the distributions of the original and reconstructed test sets are similar by checking that the example submission scores similarly on both sets."

То есть авторы часто сами делали разбиение на трейн и тест на основе публичных данных и старались сделать так, чтобы распределения данных совпадали. Как мы знаем, на Kaggle один из самых сложных аспектов соревнований - построить качественную валидацию, ибо тест нередко отличается от трейна. Так что сравнивать этот бенчмарк и реальные успехи в соревнованиях не совсем корректно.

Значит ли это, что бенчмарк плохо? Нет, я считаю, что бенчмарк вполне интересный.
• Любой бенчмарк, на котором модели не имеют очень высокое качество, полезен для развития моделей
• Даже если "реальное" качество ниже заявленного - это не так страшно. Ибо публикация этого бенчмарка - первый шаг к улучшению будущих подходов для решения подобных задач
• На Kaggle участники сами нередко ругаются на случаи, когда тест слишком уж отличается от трейна. И, с одной стороны, наличие отличий отражает реальную жизнь, с другой стороны, вся суть машинного обучения в поиске паттернов, а не в трюках и пробивании лидерборда

Так что считаю, что это хороший бенчмарк :)

https://arxiv.org/abs/2410.07095v1

#datascience

BY Data, Stories and Languages




Share with your friend now:
group-telegram.com/datastorieslanguages/306

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The War on Fakes channel has repeatedly attempted to push conspiracies that footage from Ukraine is somehow being falsified. One post on the channel from February 24 claimed without evidence that a widely viewed photo of a Ukrainian woman injured in an airstrike in the city of Chuhuiv was doctored and that the woman was seen in a different photo days later without injuries. The post, which has over 600,000 views, also baselessly claimed that the woman's blood was actually makeup or grape juice. In the past, it was noticed that through bulk SMSes, investors were induced to invest in or purchase the stocks of certain listed companies. Telegram boasts 500 million users, who share information individually and in groups in relative security. But Telegram's use as a one-way broadcast channel — which followers can join but not reply to — means content from inauthentic accounts can easily reach large, captive and eager audiences. Perpetrators of such fraud use various marketing techniques to attract subscribers on their social media channels. Telegram was co-founded by Pavel and Nikolai Durov, the brothers who had previously created VKontakte. VK is Russia’s equivalent of Facebook, a social network used for public and private messaging, audio and video sharing as well as online gaming. In January, SimpleWeb reported that VK was Russia’s fourth most-visited website, after Yandex, YouTube and Google’s Russian-language homepage. In 2016, Forbes’ Michael Solomon described Pavel Durov (pictured, below) as the “Mark Zuckerberg of Russia.”
from us


Telegram Data, Stories and Languages
FROM American