Telegram Group & Telegram Channel
Исследователи Яндекса разработали и выложили в опенсорс один из крупнейших датасетов для развития рекомендательных систем — YaMBDa

Датасет включает 4,79 миллиардов обезличенных пользовательских действий в Яндекс Музыке. Он включает в себя только числовые идентификаторы, что позволяет сохранить конфиденциальность.

Открытые датасеты такого масштаба от коммерческих компаний — редкость. При этом даже те, что есть (LFM-1B, LFM-2B) со временем стали недоступны из-за лицензионных ограничений, а популярные датасеты от Steam или Netflix Prize фокусировались лишь на обратной связи и содержали несколько десятков млн взаимодействий.

Поэтому, во-первых, у большинства исследователей попросту не было доступа к web‑scale‑сервисам, следовательно — и возможности протестировать алгоритмы в условиях, приближенных к реальности. А во-вторых, многие датасеты не позволяли разделить выборку на train и test по хронологии: это критично, когда речь идет об алгоритмах, которые должны предсказывать будущее, а не анализировать прошлое.

YaMBDa (YAndex Music Billion-interactions DAtaset) решает обе проблемы. Его можно использовать не только для оценки качества стримминговых систем, но и для e-commerce, соцсетей и других задач рекомендаций. Датасет доступен в трех вариантах: полная версия содержит почти 5 млрд данных, а уменьшенные — 500 млн и 50 млн. Можно выбрать версию, которая соответствует задачам и вычислительным ресурсам. Используя этот датасет, разработчики, исследователи и молодые ученые смогут тестировать и улучшать алгоритмы в продуктах, где используются рекомендательные системы.



group-telegram.com/machinelearning_interview/1821
Create:
Last Update:

Исследователи Яндекса разработали и выложили в опенсорс один из крупнейших датасетов для развития рекомендательных систем — YaMBDa

Датасет включает 4,79 миллиардов обезличенных пользовательских действий в Яндекс Музыке. Он включает в себя только числовые идентификаторы, что позволяет сохранить конфиденциальность.

Открытые датасеты такого масштаба от коммерческих компаний — редкость. При этом даже те, что есть (LFM-1B, LFM-2B) со временем стали недоступны из-за лицензионных ограничений, а популярные датасеты от Steam или Netflix Prize фокусировались лишь на обратной связи и содержали несколько десятков млн взаимодействий.

Поэтому, во-первых, у большинства исследователей попросту не было доступа к web‑scale‑сервисам, следовательно — и возможности протестировать алгоритмы в условиях, приближенных к реальности. А во-вторых, многие датасеты не позволяли разделить выборку на train и test по хронологии: это критично, когда речь идет об алгоритмах, которые должны предсказывать будущее, а не анализировать прошлое.

YaMBDa (YAndex Music Billion-interactions DAtaset) решает обе проблемы. Его можно использовать не только для оценки качества стримминговых систем, но и для e-commerce, соцсетей и других задач рекомендаций. Датасет доступен в трех вариантах: полная версия содержит почти 5 млрд данных, а уменьшенные — 500 млн и 50 млн. Можно выбрать версию, которая соответствует задачам и вычислительным ресурсам. Используя этот датасет, разработчики, исследователи и молодые ученые смогут тестировать и улучшать алгоритмы в продуктах, где используются рекомендательные системы.

BY Machine learning Interview




Share with your friend now:
group-telegram.com/machinelearning_interview/1821

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In addition, Telegram's architecture limits the ability to slow the spread of false information: the lack of a central public feed, and the fact that comments are easily disabled in channels, reduce the space for public pushback. Telegram users are able to send files of any type up to 2GB each and access them from any device, with no limit on cloud storage, which has made downloading files more popular on the platform. For Oleksandra Tsekhanovska, head of the Hybrid Warfare Analytical Group at the Kyiv-based Ukraine Crisis Media Center, the effects are both near- and far-reaching. The SC urges the public to refer to the SC’s I nvestor Alert List before investing. The list contains details of unauthorised websites, investment products, companies and individuals. Members of the public who suspect that they have been approached by unauthorised firms or individuals offering schemes that promise unrealistic returns Sebi said data, emails and other documents are being retrieved from the seized devices and detailed investigation is in progress.
from ms


Telegram Machine learning Interview
FROM American