group-telegram.com/fit_predict_sport/63
Last Update:
О футбольных дата сайентистах
Прилетел вопрос в личку, мол, как искать/читать статьи про спорт. В общем, нет у меня ответа. Раньше был MIT Sloan, на котором публиковались действительно приличные статьи, но с ковидом все стало плохо.
В начале года выделил время на список Ван Хаарена, 90% статей - шлак. Особенно забавно читать подобные статьи в приложениях вроде Zotero, где можно оставлять заметки. Ну и достаточно быстро этот список начал покрываться тегами:
NotBad/Good/Excellent - меньшинство.
Useless - не понятно зачем, ресёрч ради ресёрча. Обычно используется очень простой метод, вроде "давайте применим кластеризацию на данных и посмотрим, что получилось".
Bullshit - откровенный бред, который обычно выражается в виде ошибки выжившего и прочих дата-ликов. Пример: давайте прогнозировать трансферную стоимость на 3 года вперед. В данных остаются только те примеры, в которых футболист играл три года подряд в топ-лигах. Обучается модель, делается вывод. И ни слова про отсеянных игроков, а в этом и суть: если игрок задержался в АПЛ на три года, то это уже о чем-то говорит. Не говоря уже о совсем пиздецовых случаях вроде "мы плохие данные руками выбрасывали".
CopyPaste - особенно возмутил случай, когда метод, использованный в регби, был тупо скопирован и применен к футболу. Но написана была не одна статья, а три. Каждая представляла собой следующую структуру: пол статьи - описание метода (во всех трех одинаковая), другая половина - применение на практике/интерпретация. Ну а чего? Статьи три, самоцитирований тоже X3, грантов, наверное, тоже три.
Однако была еще серая зона, которую было сложно сразу осознать. Это удивительное сочетание современных ML методов вроде трансформеров и примитивной футбольной логики. Например, "владение - это когда как минимум два соседних события принадлежат одной команде". "Награда определяется расстоянием до ворот в момент потери". "Давайте посчитаем вероятность забить в ближайшие K событий."
Но потом меня осенило. Эти так называемые футбольные дата сайентисты просто программировать не умеют! Про те же трансформеры много чего опубликовано, и с кодом, и с объяснением. А вот что делать с сырыми футбольными данными, инструкций не написали, копипастить нечего.
BY Fit Predict

Share with your friend now:
group-telegram.com/fit_predict_sport/63