💡The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models
Почему политики в RL "зависают" и как это исправить?
Когда мы обучаем большие языковые модели (LLMs) через обучение с подкреплением (RL), есть одна большая проблема:
📉Политика слишком рано "замыкается" и перестаёт исследовать новые действия.
Это называют коллапсом энтропии — модель быстро теряет разнообразие в своих решениях и больше не пробует что-то новое.
🔬 Учёные обнаружили:
🔗 Есть закономерность: Когда энтропия падает, качество (reward) тоже перестаёт расти.
Формула:
R = -a * e^H + b
То есть: меньше разнообразия → предсказуемый потолок качества.
🤔 Почему так происходит?
Потому что в RL-алгоритмах (как Policy Gradient) модель усиливает те действия, которые уже приносят награду, и почти не обновляет остальное.
В результате: - Энтропия падает - Модель перестаёт исследовать - Качество "застывает"
💡 Как это исправить?
Авторы предложили 2 простых приёма:
1. Clip-Cov — ограничить обновление токенов, где политика слишком уверена 2. KL-Cov — добавить штраф на такие уверенные токены, чтобы сохранить разнообразие
📈 Результат: Эти методы удерживают политику в исследовательском режиме дольше и позволяют достичь лучших результатов на практике.
🔗 Если ты работаешь с RLHF, LLM или reasoning — это отличная идея для устойчивого масштабирования.
💡The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models
Почему политики в RL "зависают" и как это исправить?
Когда мы обучаем большие языковые модели (LLMs) через обучение с подкреплением (RL), есть одна большая проблема:
📉Политика слишком рано "замыкается" и перестаёт исследовать новые действия.
Это называют коллапсом энтропии — модель быстро теряет разнообразие в своих решениях и больше не пробует что-то новое.
🔬 Учёные обнаружили:
🔗 Есть закономерность: Когда энтропия падает, качество (reward) тоже перестаёт расти.
Формула:
R = -a * e^H + b
То есть: меньше разнообразия → предсказуемый потолок качества.
🤔 Почему так происходит?
Потому что в RL-алгоритмах (как Policy Gradient) модель усиливает те действия, которые уже приносят награду, и почти не обновляет остальное.
В результате: - Энтропия падает - Модель перестаёт исследовать - Качество "застывает"
💡 Как это исправить?
Авторы предложили 2 простых приёма:
1. Clip-Cov — ограничить обновление токенов, где политика слишком уверена 2. KL-Cov — добавить штраф на такие уверенные токены, чтобы сохранить разнообразие
📈 Результат: Эти методы удерживают политику в исследовательском режиме дольше и позволяют достичь лучших результатов на практике.
🔗 Если ты работаешь с RLHF, LLM или reasoning — это отличная идея для устойчивого масштабирования.
One thing that Telegram now offers to all users is the ability to “disappear” messages or set remote deletion deadlines. That enables users to have much more control over how long people can access what you’re sending them. Given that Russian law enforcement officials are reportedly (via Insider) stopping people in the street and demanding to read their text messages, this could be vital to protect individuals from reprisals. That hurt tech stocks. For the past few weeks, the 10-year yield has traded between 1.72% and 2%, as traders moved into the bond for safety when Russia headlines were ugly—and out of it when headlines improved. Now, the yield is touching its pandemic-era high. If the yield breaks above that level, that could signal that it’s on a sustainable path higher. Higher long-dated bond yields make future profits less valuable—and many tech companies are valued on the basis of profits forecast for many years in the future. At its heart, Telegram is little more than a messaging app like WhatsApp or Signal. But it also offers open channels that enable a single user, or a group of users, to communicate with large numbers in a method similar to a Twitter account. This has proven to be both a blessing and a curse for Telegram and its users, since these channels can be used for both good and ill. Right now, as Wired reports, the app is a key way for Ukrainians to receive updates from the government during the invasion. There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine.
from us