Telegram Group & Telegram Channel
💡 The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

Почему политики в RL "зависают" и как это исправить?

Когда мы обучаем большие языковые модели (LLMs) через обучение с подкреплением (RL), есть одна большая проблема:

📉 Политика слишком рано "замыкается" и перестаёт исследовать новые действия.

Это называют коллапсом энтропии — модель быстро теряет разнообразие в своих решениях и больше не пробует что-то новое.

🔬 Учёные обнаружили:

🔗 Есть закономерность:
Когда энтропия падает, качество (reward) тоже перестаёт расти.

Формула:

R = -a * e^H + b

То есть: меньше разнообразия → предсказуемый потолок качества.

🤔 Почему так происходит?

Потому что в RL-алгоритмах (как Policy Gradient) модель усиливает те действия, которые уже приносят награду, и почти не обновляет остальное.

В результате:
- Энтропия падает
- Модель перестаёт исследовать
- Качество "застывает"

💡 Как это исправить?

Авторы предложили 2 простых приёма:

1. Clip-Cov — ограничить обновление токенов, где политика слишком уверена
2. KL-Cov — добавить штраф на такие уверенные токены, чтобы сохранить разнообразие

📈 Результат:
Эти методы удерживают политику в исследовательском режиме дольше и позволяют достичь лучших результатов на практике.

🔗 Если ты работаешь с RLHF, LLM или reasoning — это отличная идея для устойчивого масштабирования.

📌 Читать



group-telegram.com/machinelearning_books/1016
Create:
Last Update:

💡 The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

Почему политики в RL "зависают" и как это исправить?

Когда мы обучаем большие языковые модели (LLMs) через обучение с подкреплением (RL), есть одна большая проблема:

📉 Политика слишком рано "замыкается" и перестаёт исследовать новые действия.

Это называют коллапсом энтропии — модель быстро теряет разнообразие в своих решениях и больше не пробует что-то новое.

🔬 Учёные обнаружили:

🔗 Есть закономерность:
Когда энтропия падает, качество (reward) тоже перестаёт расти.

Формула:


R = -a * e^H + b

То есть: меньше разнообразия → предсказуемый потолок качества.

🤔 Почему так происходит?

Потому что в RL-алгоритмах (как Policy Gradient) модель усиливает те действия, которые уже приносят награду, и почти не обновляет остальное.

В результате:
- Энтропия падает
- Модель перестаёт исследовать
- Качество "застывает"

💡 Как это исправить?

Авторы предложили 2 простых приёма:

1. Clip-Cov — ограничить обновление токенов, где политика слишком уверена
2. KL-Cov — добавить штраф на такие уверенные токены, чтобы сохранить разнообразие

📈 Результат:
Эти методы удерживают политику в исследовательском режиме дольше и позволяют достичь лучших результатов на практике.

🔗 Если ты работаешь с RLHF, LLM или reasoning — это отличная идея для устойчивого масштабирования.

📌 Читать

BY Машиннное обучение | Наука о данных Библиотека




Share with your friend now:
group-telegram.com/machinelearning_books/1016

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

You may recall that, back when Facebook started changing WhatsApp’s terms of service, a number of news outlets reported on, and even recommended, switching to Telegram. Pavel Durov even said that users should delete WhatsApp “unless you are cool with all of your photos and messages becoming public one day.” But Telegram can’t be described as a more-secure version of WhatsApp. I want a secure messaging app, should I use Telegram? NEWS These entities are reportedly operating nine Telegram channels with more than five million subscribers to whom they were making recommendations on selected listed scrips. Such recommendations induced the investors to deal in the said scrips, thereby creating artificial volume and price rise. It is unclear who runs the account, although Russia's official Ministry of Foreign Affairs Twitter account promoted the Telegram channel on Saturday and claimed it was operated by "a group of experts & journalists."
from br


Telegram Машиннное обучение | Наука о данных Библиотека
FROM American