Warning: mkdir(): No space left on device in /var/www/group-telegram/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/artificial_stupid/--): Failed to open stream: No such file or directory in /var/www/group-telegram/post.php on line 50
Artificial stupidity | Telegram Webview: artificial_stupid/476 -
Telegram Group & Telegram Channel
Forwarded from Рисерчошная
YouTube выкинул item ID и поднял качество рекомендаций. Почему это сработало?

Недавно наткнулся на статью с RecSys 2024 — Better Generalization with Semantic IDs. Ребята из Google Research разобрали, как улучшить рекомендательные системы, чтобы они не тупили на новых или редких объектах.

📥 Проблема старая, как мир
Обычно в РС каждому видео или товару дают случайный ID — просто номерок, за которым стоит эмбеддинг. Модель запоминает, что популярно, и круто ранжирует хиты. Но стоит появиться новому видео или нишевому контенту — всё, привет, она теряется. Почему? Потому что ID ничего не говорит о смысле: два похожих ролика для модели — как чужие. Плюс таблицы эмбеддингов раздуваются до миллиардов строк, а хеширование ID в кучу только добавляет шума.

😊 Что придумали?
Авторы предложили Semantic IDs — коды, которые не просто числа, а отражают содержание. Берут контент видео (аудио, картинку), прогоняют через нейронку (VideoBERT), получают вектор, а потом сжимают его в 8 коротких кодов с помощью RQ-VAE. Главное — похожие видео получают похожие коды. Например, два ролика про котиков будут частично совпадать, и модель это поймет.

Сначала коды генерят и замораживают, а потом пихают в ранжирующую модель YouTube. Есть два варианта: разбить коды на кусочки (N-граммы) или сделать умное разбиение через SentencePiece (SPM). SPM оказался круче — он сам решает, где склеить частые комбинации, а где оставить детали для редких видео.

Тестили на миллиардах видео YouTube. Обычные контентные эмбеддинги без ID провалились — модель забыла популярное. А вот Semantic IDs дали прирост: новые видео (cold-start) стали ранжироваться лучше, редкие тоже, а хиты не пострадали. SPM вообще показал себя звездой — гибко балансирует между запоминанием и обобщением.

Что это значит?
С такими ID модель не просто зубрит, а понимает связи между контентом. Новое видео про котиков сразу подхватывает опыт старых — и в топ! Плюс экономия памяти: вместо миллиардов эмбеддингов — тысячи осмысленных кодов. Масштабируется на ура.

🌸 Куда дальше?
Можно прикрутить это к профилям юзеров, улучшить кодировщик или даже замиксовать с генеративными рекомендациями. Короче, будущее РС — за умными ID, которые не просто цифры, а смысл.

➡️ Статья тут

Что думаете, зайдет такой подход в реальной жизни?

#RESEARCH #RECSYS
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/artificial_stupid/476
Create:
Last Update:

YouTube выкинул item ID и поднял качество рекомендаций. Почему это сработало?

Недавно наткнулся на статью с RecSys 2024 — Better Generalization with Semantic IDs. Ребята из Google Research разобрали, как улучшить рекомендательные системы, чтобы они не тупили на новых или редких объектах.

📥 Проблема старая, как мир
Обычно в РС каждому видео или товару дают случайный ID — просто номерок, за которым стоит эмбеддинг. Модель запоминает, что популярно, и круто ранжирует хиты. Но стоит появиться новому видео или нишевому контенту — всё, привет, она теряется. Почему? Потому что ID ничего не говорит о смысле: два похожих ролика для модели — как чужие. Плюс таблицы эмбеддингов раздуваются до миллиардов строк, а хеширование ID в кучу только добавляет шума.

😊 Что придумали?
Авторы предложили Semantic IDs — коды, которые не просто числа, а отражают содержание. Берут контент видео (аудио, картинку), прогоняют через нейронку (VideoBERT), получают вектор, а потом сжимают его в 8 коротких кодов с помощью RQ-VAE. Главное — похожие видео получают похожие коды. Например, два ролика про котиков будут частично совпадать, и модель это поймет.

Сначала коды генерят и замораживают, а потом пихают в ранжирующую модель YouTube. Есть два варианта: разбить коды на кусочки (N-граммы) или сделать умное разбиение через SentencePiece (SPM). SPM оказался круче — он сам решает, где склеить частые комбинации, а где оставить детали для редких видео.

Тестили на миллиардах видео YouTube. Обычные контентные эмбеддинги без ID провалились — модель забыла популярное. А вот Semantic IDs дали прирост: новые видео (cold-start) стали ранжироваться лучше, редкие тоже, а хиты не пострадали. SPM вообще показал себя звездой — гибко балансирует между запоминанием и обобщением.

Что это значит?
С такими ID модель не просто зубрит, а понимает связи между контентом. Новое видео про котиков сразу подхватывает опыт старых — и в топ! Плюс экономия памяти: вместо миллиардов эмбеддингов — тысячи осмысленных кодов. Масштабируется на ура.

🌸 Куда дальше?
Можно прикрутить это к профилям юзеров, улучшить кодировщик или даже замиксовать с генеративными рекомендациями. Короче, будущее РС — за умными ID, которые не просто цифры, а смысл.

➡️ Статья тут

Что думаете, зайдет такой подход в реальной жизни?

#RESEARCH #RECSYS

BY Artificial stupidity


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/artificial_stupid/476

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Overall, extreme levels of fear in the market seems to have morphed into something more resembling concern. For example, the Cboe Volatility Index fell from its 2022 peak of 36, which it hit Monday, to around 30 on Friday, a sign of easing tensions. Meanwhile, while the price of WTI crude oil slipped from Sunday’s multiyear high $130 of barrel to $109 a pop. Markets have been expecting heavy restrictions on Russian oil, some of which the U.S. has already imposed, and that would reduce the global supply and bring about even more burdensome inflation. "There are a lot of things that Telegram could have been doing this whole time. And they know exactly what they are and they've chosen not to do them. That's why I don't trust them," she said. Perpetrators of these scams will create a public group on Telegram to promote these investment packages that are usually accompanied by fake testimonies and sometimes advertised as being Shariah-compliant. Interested investors will be asked to directly message the representatives to begin investing in the various investment packages offered. "Your messages about the movement of the enemy through the official chatbot … bring new trophies every day," the government agency tweeted.
from in


Telegram Artificial stupidity
FROM American