Telegram Group & Telegram Channel
Исследователи Яндекса разработали и выложили в опенсорс один из крупнейших датасетов для развития рекомендательных систем — YaMBDa

Датасет включает 4,79 миллиардов обезличенных пользовательских действий в Яндекс Музыке. Он включает в себя только числовые идентификаторы, что позволяет сохранить конфиденциальность.

Открытые датасеты такого масштаба от коммерческих компаний — редкость. При этом даже те, что есть (LFM-1B, LFM-2B) со временем стали недоступны из-за лицензионных ограничений, а популярные датасеты от Steam или Netflix Prize фокусировались лишь на обратной связи и содержали несколько десятков млн взаимодействий.

Поэтому, во-первых, у большинства исследователей попросту не было доступа к web‑scale‑сервисам, следовательно — и возможности протестировать алгоритмы в условиях, приближенных к реальности. А во-вторых, многие датасеты не позволяли разделить выборку на train и test по хронологии: это критично, когда речь идет об алгоритмах, которые должны предсказывать будущее, а не анализировать прошлое.

YaMBDa (YAndex Music Billion-interactions DAtaset) решает обе проблемы. Его можно использовать не только для оценки качества стримминговых систем, но и для e-commerce, соцсетей и других задач рекомендаций. Датасет доступен в трех вариантах: полная версия содержит почти 5 млрд данных, а уменьшенные — 500 млн и 50 млн. Можно выбрать версию, которая соответствует задачам и вычислительным ресурсам. Используя этот датасет, разработчики, исследователи и молодые ученые смогут тестировать и улучшать алгоритмы в продуктах, где используются рекомендательные системы.



group-telegram.com/machinelearning_interview/1821
Create:
Last Update:

Исследователи Яндекса разработали и выложили в опенсорс один из крупнейших датасетов для развития рекомендательных систем — YaMBDa

Датасет включает 4,79 миллиардов обезличенных пользовательских действий в Яндекс Музыке. Он включает в себя только числовые идентификаторы, что позволяет сохранить конфиденциальность.

Открытые датасеты такого масштаба от коммерческих компаний — редкость. При этом даже те, что есть (LFM-1B, LFM-2B) со временем стали недоступны из-за лицензионных ограничений, а популярные датасеты от Steam или Netflix Prize фокусировались лишь на обратной связи и содержали несколько десятков млн взаимодействий.

Поэтому, во-первых, у большинства исследователей попросту не было доступа к web‑scale‑сервисам, следовательно — и возможности протестировать алгоритмы в условиях, приближенных к реальности. А во-вторых, многие датасеты не позволяли разделить выборку на train и test по хронологии: это критично, когда речь идет об алгоритмах, которые должны предсказывать будущее, а не анализировать прошлое.

YaMBDa (YAndex Music Billion-interactions DAtaset) решает обе проблемы. Его можно использовать не только для оценки качества стримминговых систем, но и для e-commerce, соцсетей и других задач рекомендаций. Датасет доступен в трех вариантах: полная версия содержит почти 5 млрд данных, а уменьшенные — 500 млн и 50 млн. Можно выбрать версию, которая соответствует задачам и вычислительным ресурсам. Используя этот датасет, разработчики, исследователи и молодые ученые смогут тестировать и улучшать алгоритмы в продуктах, где используются рекомендательные системы.

BY Machine learning Interview




Share with your friend now:
group-telegram.com/machinelearning_interview/1821

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

For example, WhatsApp restricted the number of times a user could forward something, and developed automated systems that detect and flag objectionable content. Such instructions could actually endanger people — citizens receive air strike warnings via smartphone alerts. The news also helped traders look past another report showing decades-high inflation and shake off some of the volatility from recent sessions. The Bureau of Labor Statistics' February Consumer Price Index (CPI) this week showed another surge in prices even before Russia escalated its attacks in Ukraine. The headline CPI — soaring 7.9% over last year — underscored the sticky inflationary pressures reverberating across the U.S. economy, with everything from groceries to rents and airline fares getting more expensive for everyday consumers. The last couple days have exemplified that uncertainty. On Thursday, news emerged that talks in Turkey between the Russia and Ukraine yielded no positive result. But on Friday, Reuters reported that Russian President Vladimir Putin said there had been some “positive shifts” in talks between the two sides. 'Wild West'
from fr


Telegram Machine learning Interview
FROM American