Telegram Group & Telegram Channel
Исследователи Яндекса выложили в опенсорс датасет для RecSys почти на 5 млрд событий — YaMBDa

YaMBDa содержит 4,79 млрд событий – обезличенных взаимодействий пользователей в Яндекс Музыке и «Моей Волне». К ним относятся прослушивания, лайки/дизлайки, временные метки и некоторые характеристики треков. Важно, что все данные анонимизированы, датасет включает в себя только числовые идентификаторы. При этом датасет предназначен для тестирования алгоритмов для разных областей, а не только для стримингов.

Алгоритмы рекомендаций какое-то время оставались на плато, в том числе из-за ограниченного доступа к большим, реалистичным датасетам. Даже с появлением LLM и ускорением обучения иногда может все еще не хватать качественных публичных данных, особенно приближенных к продакшн-нагрузкам. Известные LFM-1B, LFM-2B и Music Listening Histories Dataset (27B) со временем стали недоступны из-за лицензионных ограничений. А рекорд по числу взаимодействий сейчас держит рекламный датасет от Criteo — около 4 млрд событий.

⚙️ Что внутри YaMBDa:
– 3 объёма данных: 50M, 500M и полный сет на 4,79B событий
– Эмбеддинги треков из аудио, полученные через CNN
– Метка is_organic: отличает органические действия в датасете от рекомендованных
– Формат Parquet с поддержкой Pandas, Polars (альтернатива Pandas) и Spark

🔗Доступно на HuggingFace

@ai_machinelearning_big_data

#dataset



group-telegram.com/ai_machinelearning_big_data/7643
Create:
Last Update:

Исследователи Яндекса выложили в опенсорс датасет для RecSys почти на 5 млрд событий — YaMBDa

YaMBDa содержит 4,79 млрд событий – обезличенных взаимодействий пользователей в Яндекс Музыке и «Моей Волне». К ним относятся прослушивания, лайки/дизлайки, временные метки и некоторые характеристики треков. Важно, что все данные анонимизированы, датасет включает в себя только числовые идентификаторы. При этом датасет предназначен для тестирования алгоритмов для разных областей, а не только для стримингов.

Алгоритмы рекомендаций какое-то время оставались на плато, в том числе из-за ограниченного доступа к большим, реалистичным датасетам. Даже с появлением LLM и ускорением обучения иногда может все еще не хватать качественных публичных данных, особенно приближенных к продакшн-нагрузкам. Известные LFM-1B, LFM-2B и Music Listening Histories Dataset (27B) со временем стали недоступны из-за лицензионных ограничений. А рекорд по числу взаимодействий сейчас держит рекламный датасет от Criteo — около 4 млрд событий.

⚙️ Что внутри YaMBDa:
– 3 объёма данных: 50M, 500M и полный сет на 4,79B событий
– Эмбеддинги треков из аудио, полученные через CNN
– Метка is_organic: отличает органические действия в датасете от рекомендованных
– Формат Parquet с поддержкой Pandas, Polars (альтернатива Pandas) и Spark

🔗Доступно на HuggingFace

@ai_machinelearning_big_data

#dataset

BY Machinelearning


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/ai_machinelearning_big_data/7643

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Again, in contrast to Facebook, Google and Twitter, Telegram's founder Pavel Durov runs his company in relative secrecy from Dubai. At its heart, Telegram is little more than a messaging app like WhatsApp or Signal. But it also offers open channels that enable a single user, or a group of users, to communicate with large numbers in a method similar to a Twitter account. This has proven to be both a blessing and a curse for Telegram and its users, since these channels can be used for both good and ill. Right now, as Wired reports, the app is a key way for Ukrainians to receive updates from the government during the invasion. These entities are reportedly operating nine Telegram channels with more than five million subscribers to whom they were making recommendations on selected listed scrips. Such recommendations induced the investors to deal in the said scrips, thereby creating artificial volume and price rise. Andrey, a Russian entrepreneur living in Brazil who, fearing retaliation, asked that NPR not use his last name, said Telegram has become one of the few places Russians can access independent news about the war. During the operations, Sebi officials seized various records and documents, including 34 mobile phones, six laptops, four desktops, four tablets, two hard drive disks and one pen drive from the custody of these persons.
from tw


Telegram Machinelearning
FROM American