Warning: file_put_contents(aCache/aDaily/post/machinelearning_interview/--): Failed to open stream: No space left on device in /var/www/group-telegram/post.php on line 50
Machine learning Interview | Telegram Webview: machinelearning_interview/1821 -
Telegram Group & Telegram Channel
Исследователи Яндекса разработали и выложили в опенсорс один из крупнейших датасетов для развития рекомендательных систем — YaMBDa

Датасет включает 4,79 миллиардов обезличенных пользовательских действий в Яндекс Музыке. Он включает в себя только числовые идентификаторы, что позволяет сохранить конфиденциальность.

Открытые датасеты такого масштаба от коммерческих компаний — редкость. При этом даже те, что есть (LFM-1B, LFM-2B) со временем стали недоступны из-за лицензионных ограничений, а популярные датасеты от Steam или Netflix Prize фокусировались лишь на обратной связи и содержали несколько десятков млн взаимодействий.

Поэтому, во-первых, у большинства исследователей попросту не было доступа к web‑scale‑сервисам, следовательно — и возможности протестировать алгоритмы в условиях, приближенных к реальности. А во-вторых, многие датасеты не позволяли разделить выборку на train и test по хронологии: это критично, когда речь идет об алгоритмах, которые должны предсказывать будущее, а не анализировать прошлое.

YaMBDa (YAndex Music Billion-interactions DAtaset) решает обе проблемы. Его можно использовать не только для оценки качества стримминговых систем, но и для e-commerce, соцсетей и других задач рекомендаций. Датасет доступен в трех вариантах: полная версия содержит почти 5 млрд данных, а уменьшенные — 500 млн и 50 млн. Можно выбрать версию, которая соответствует задачам и вычислительным ресурсам. Используя этот датасет, разработчики, исследователи и молодые ученые смогут тестировать и улучшать алгоритмы в продуктах, где используются рекомендательные системы.
👍115🔥2



group-telegram.com/machinelearning_interview/1821
Create:
Last Update:

Исследователи Яндекса разработали и выложили в опенсорс один из крупнейших датасетов для развития рекомендательных систем — YaMBDa

Датасет включает 4,79 миллиардов обезличенных пользовательских действий в Яндекс Музыке. Он включает в себя только числовые идентификаторы, что позволяет сохранить конфиденциальность.

Открытые датасеты такого масштаба от коммерческих компаний — редкость. При этом даже те, что есть (LFM-1B, LFM-2B) со временем стали недоступны из-за лицензионных ограничений, а популярные датасеты от Steam или Netflix Prize фокусировались лишь на обратной связи и содержали несколько десятков млн взаимодействий.

Поэтому, во-первых, у большинства исследователей попросту не было доступа к web‑scale‑сервисам, следовательно — и возможности протестировать алгоритмы в условиях, приближенных к реальности. А во-вторых, многие датасеты не позволяли разделить выборку на train и test по хронологии: это критично, когда речь идет об алгоритмах, которые должны предсказывать будущее, а не анализировать прошлое.

YaMBDa (YAndex Music Billion-interactions DAtaset) решает обе проблемы. Его можно использовать не только для оценки качества стримминговых систем, но и для e-commerce, соцсетей и других задач рекомендаций. Датасет доступен в трех вариантах: полная версия содержит почти 5 млрд данных, а уменьшенные — 500 млн и 50 млн. Можно выбрать версию, которая соответствует задачам и вычислительным ресурсам. Используя этот датасет, разработчики, исследователи и молодые ученые смогут тестировать и улучшать алгоритмы в продуктах, где используются рекомендательные системы.

BY Machine learning Interview



❌Photos not found?❌Click here to update cache.


Share with your friend now:
group-telegram.com/machinelearning_interview/1821

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

As the war in Ukraine rages, the messaging app Telegram has emerged as the go-to place for unfiltered live war updates for both Ukrainian refugees and increasingly isolated Russians alike. The fake Zelenskiy account reached 20,000 followers on Telegram before it was shut down, a remedial action that experts say is all too rare. "The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke. But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website. Russian President Vladimir Putin launched Russia's invasion of Ukraine in the early-morning hours of February 24, targeting several key cities with military strikes.
from kr


Telegram Machine learning Interview
FROM American