Telegram Group & Telegram Channel
💡 The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

Почему политики в RL "зависают" и как это исправить?

Когда мы обучаем большие языковые модели (LLMs) через обучение с подкреплением (RL), есть одна большая проблема:

📉 Политика слишком рано "замыкается" и перестаёт исследовать новые действия.

Это называют коллапсом энтропии — модель быстро теряет разнообразие в своих решениях и больше не пробует что-то новое.

🔬 Учёные обнаружили:

🔗 Есть закономерность:
Когда энтропия падает, качество (reward) тоже перестаёт расти.

Формула:

R = -a * e^H + b

То есть: меньше разнообразия → предсказуемый потолок качества.

🤔 Почему так происходит?

Потому что в RL-алгоритмах (как Policy Gradient) модель усиливает те действия, которые уже приносят награду, и почти не обновляет остальное.

В результате:
- Энтропия падает
- Модель перестаёт исследовать
- Качество "застывает"

💡 Как это исправить?

Авторы предложили 2 простых приёма:

1. Clip-Cov — ограничить обновление токенов, где политика слишком уверена
2. KL-Cov — добавить штраф на такие уверенные токены, чтобы сохранить разнообразие

📈 Результат:
Эти методы удерживают политику в исследовательском режиме дольше и позволяют достичь лучших результатов на практике.

🔗 Если ты работаешь с RLHF, LLM или reasoning — это отличная идея для устойчивого масштабирования.

📌 Читать



group-telegram.com/machinelearning_books/1016
Create:
Last Update:

💡 The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

Почему политики в RL "зависают" и как это исправить?

Когда мы обучаем большие языковые модели (LLMs) через обучение с подкреплением (RL), есть одна большая проблема:

📉 Политика слишком рано "замыкается" и перестаёт исследовать новые действия.

Это называют коллапсом энтропии — модель быстро теряет разнообразие в своих решениях и больше не пробует что-то новое.

🔬 Учёные обнаружили:

🔗 Есть закономерность:
Когда энтропия падает, качество (reward) тоже перестаёт расти.

Формула:


R = -a * e^H + b

То есть: меньше разнообразия → предсказуемый потолок качества.

🤔 Почему так происходит?

Потому что в RL-алгоритмах (как Policy Gradient) модель усиливает те действия, которые уже приносят награду, и почти не обновляет остальное.

В результате:
- Энтропия падает
- Модель перестаёт исследовать
- Качество "застывает"

💡 Как это исправить?

Авторы предложили 2 простых приёма:

1. Clip-Cov — ограничить обновление токенов, где политика слишком уверена
2. KL-Cov — добавить штраф на такие уверенные токены, чтобы сохранить разнообразие

📈 Результат:
Эти методы удерживают политику в исследовательском режиме дольше и позволяют достичь лучших результатов на практике.

🔗 Если ты работаешь с RLHF, LLM или reasoning — это отличная идея для устойчивого масштабирования.

📌 Читать

BY Машиннное обучение | Наука о данных Библиотека




Share with your friend now:
group-telegram.com/machinelearning_books/1016

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"This time we received the coordinates of enemy vehicles marked 'V' in Kyiv region," it added. READ MORE At its heart, Telegram is little more than a messaging app like WhatsApp or Signal. But it also offers open channels that enable a single user, or a group of users, to communicate with large numbers in a method similar to a Twitter account. This has proven to be both a blessing and a curse for Telegram and its users, since these channels can be used for both good and ill. Right now, as Wired reports, the app is a key way for Ukrainians to receive updates from the government during the invasion. Stocks closed in the red Friday as investors weighed upbeat remarks from Russian President Vladimir Putin about diplomatic discussions with Ukraine against a weaker-than-expected print on U.S. consumer sentiment. Markets continued to grapple with the economic and corporate earnings implications relating to the Russia-Ukraine conflict. “We have a ton of uncertainty right now,” said Stephanie Link, chief investment strategist and portfolio manager at Hightower Advisors. “We’re dealing with a war, we’re dealing with inflation. We don’t know what it means to earnings.”
from jp


Telegram Машиннное обучение | Наука о данных Библиотека
FROM American