Telegram Group & Telegram Channel
RL с ллмами притянули к рекомендашкам. Тюнили Qwen 2.5 3B.

Оптимизировались на двух задачах:

Задача поиска товаров (Product Search). Пользователь пишет запрос, LLM запрос переписывает или уточняет, после чего система на основе переработанного запроса (например, через BM25) возвращает список кандидатов.

Задача последовательных рекомендаций (Sequential Recommendation). Здесь нужно предсказать следующий товар на основе истории взаимодействий пользователя (типа предыдущие покупки или что он просматривал). LLM генерирует текстовое описание, которое который пользователь скорее всего купит следующим (тут могут быть ключевые характеристики товара, тип продукта и тд).

ревард для RLя получали по метрикам от рекомендательных систем - NDCG@K, Recall@K (например тут можно подробнее про них узнать)

С RLем сильно улучшили метрички, 1 и 2 скрин.
Сравнили RL и с SFT тюнингом (данные генерили с GPT 4o конкретно под рекомендашки) и потом померили на обычных бенчах производительность.
Результы на 3 скрине. Кое-где после SFT просели результаты, с RLем вроде поровнее получилось.

Ну и у RLя результаты вроде получше получились чем у SFT на небольших тестах (4 скрин по порядку, a). И SFT на сгенерированных GPT 4о данных не превосходит просто GPT 4o на задаче. (авторы даже теоремку доказывают, что политика обученная на SFT не может быть лучше политики которой сгенерили данные. т.е. не будет в данном случае лучше 4o)
На скрине 4 b сравнивают цену и время на RL для того чтобы получить ту же производительность что у генерации данных на SFT + трен.
Ну как-то быстро конечно.

Подробнее читаем тут

Rec-R1: Bridging Generative Large Language Models and User-Centric Recommendation Systems via Reinforcement Learning
https://arxiv.org/abs/2503.24289

Код тута:
https://github.com/linjc16/Rec-R1

PS все крутые статьи собираем и делаем проектики в https://www.group-telegram.com/researchim
👍12🔥42😱1



group-telegram.com/AGI_and_RL/1007
Create:
Last Update:

RL с ллмами притянули к рекомендашкам. Тюнили Qwen 2.5 3B.

Оптимизировались на двух задачах:

Задача поиска товаров (Product Search). Пользователь пишет запрос, LLM запрос переписывает или уточняет, после чего система на основе переработанного запроса (например, через BM25) возвращает список кандидатов.

Задача последовательных рекомендаций (Sequential Recommendation). Здесь нужно предсказать следующий товар на основе истории взаимодействий пользователя (типа предыдущие покупки или что он просматривал). LLM генерирует текстовое описание, которое который пользователь скорее всего купит следующим (тут могут быть ключевые характеристики товара, тип продукта и тд).

ревард для RLя получали по метрикам от рекомендательных систем - NDCG@K, Recall@K (например тут можно подробнее про них узнать)

С RLем сильно улучшили метрички, 1 и 2 скрин.
Сравнили RL и с SFT тюнингом (данные генерили с GPT 4o конкретно под рекомендашки) и потом померили на обычных бенчах производительность.
Результы на 3 скрине. Кое-где после SFT просели результаты, с RLем вроде поровнее получилось.

Ну и у RLя результаты вроде получше получились чем у SFT на небольших тестах (4 скрин по порядку, a). И SFT на сгенерированных GPT 4о данных не превосходит просто GPT 4o на задаче. (авторы даже теоремку доказывают, что политика обученная на SFT не может быть лучше политики которой сгенерили данные. т.е. не будет в данном случае лучше 4o)
На скрине 4 b сравнивают цену и время на RL для того чтобы получить ту же производительность что у генерации данных на SFT + трен.
Ну как-то быстро конечно.

Подробнее читаем тут

Rec-R1: Bridging Generative Large Language Models and User-Centric Recommendation Systems via Reinforcement Learning
https://arxiv.org/abs/2503.24289

Код тута:
https://github.com/linjc16/Rec-R1

PS все крутые статьи собираем и делаем проектики в https://www.group-telegram.com/researchim

BY Агенты ИИ | AGI_and_RL







Share with your friend now:
group-telegram.com/AGI_and_RL/1007

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The picture was mixed overseas. Hong Kong’s Hang Seng Index fell 1.6%, under pressure from U.S. regulatory scrutiny on New York-listed Chinese companies. Stocks were more buoyant in Europe, where Frankfurt’s DAX surged 1.4%. Telegram Messenger Blocks Navalny Bot During Russian Election On Telegram’s website, it says that Pavel Durov “supports Telegram financially and ideologically while Nikolai (Duvov)’s input is technological.” Currently, the Telegram team is based in Dubai, having moved around from Berlin, London and Singapore after departing Russia. Meanwhile, the company which owns Telegram is registered in the British Virgin Islands. But the Ukraine Crisis Media Center's Tsekhanovska points out that communications are often down in zones most affected by the war, making this sort of cross-referencing a luxury many cannot afford. In addition, Telegram's architecture limits the ability to slow the spread of false information: the lack of a central public feed, and the fact that comments are easily disabled in channels, reduce the space for public pushback.
from us


Telegram Агенты ИИ | AGI_and_RL
FROM American