💡The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models
Почему политики в RL "зависают" и как это исправить?
Когда мы обучаем большие языковые модели (LLMs) через обучение с подкреплением (RL), есть одна большая проблема:
📉Политика слишком рано "замыкается" и перестаёт исследовать новые действия.
Это называют коллапсом энтропии — модель быстро теряет разнообразие в своих решениях и больше не пробует что-то новое.
🔬 Учёные обнаружили:
🔗 Есть закономерность: Когда энтропия падает, качество (reward) тоже перестаёт расти.
Формула:
R = -a * e^H + b
То есть: меньше разнообразия → предсказуемый потолок качества.
🤔 Почему так происходит?
Потому что в RL-алгоритмах (как Policy Gradient) модель усиливает те действия, которые уже приносят награду, и почти не обновляет остальное.
В результате: - Энтропия падает - Модель перестаёт исследовать - Качество "застывает"
💡 Как это исправить?
Авторы предложили 2 простых приёма:
1. Clip-Cov — ограничить обновление токенов, где политика слишком уверена 2. KL-Cov — добавить штраф на такие уверенные токены, чтобы сохранить разнообразие
📈 Результат: Эти методы удерживают политику в исследовательском режиме дольше и позволяют достичь лучших результатов на практике.
🔗 Если ты работаешь с RLHF, LLM или reasoning — это отличная идея для устойчивого масштабирования.
💡The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models
Почему политики в RL "зависают" и как это исправить?
Когда мы обучаем большие языковые модели (LLMs) через обучение с подкреплением (RL), есть одна большая проблема:
📉Политика слишком рано "замыкается" и перестаёт исследовать новые действия.
Это называют коллапсом энтропии — модель быстро теряет разнообразие в своих решениях и больше не пробует что-то новое.
🔬 Учёные обнаружили:
🔗 Есть закономерность: Когда энтропия падает, качество (reward) тоже перестаёт расти.
Формула:
R = -a * e^H + b
То есть: меньше разнообразия → предсказуемый потолок качества.
🤔 Почему так происходит?
Потому что в RL-алгоритмах (как Policy Gradient) модель усиливает те действия, которые уже приносят награду, и почти не обновляет остальное.
В результате: - Энтропия падает - Модель перестаёт исследовать - Качество "застывает"
💡 Как это исправить?
Авторы предложили 2 простых приёма:
1. Clip-Cov — ограничить обновление токенов, где политика слишком уверена 2. KL-Cov — добавить штраф на такие уверенные токены, чтобы сохранить разнообразие
📈 Результат: Эти методы удерживают политику в исследовательском режиме дольше и позволяют достичь лучших результатов на практике.
🔗 Если ты работаешь с RLHF, LLM или reasoning — это отличная идея для устойчивого масштабирования.
If you initiate a Secret Chat, however, then these communications are end-to-end encrypted and are tied to the device you are using. That means it’s less convenient to access them across multiple platforms, but you are at far less risk of snooping. Back in the day, Secret Chats received some praise from the EFF, but the fact that its standard system isn’t as secure earned it some criticism. If you’re looking for something that is considered more reliable by privacy advocates, then Signal is the EFF’s preferred platform, although that too is not without some caveats. "We're seeing really dramatic moves, and it's all really tied to Ukraine right now, and in a secondary way, in terms of interest rates," Octavio Marenzi, CEO of Opimas, told Yahoo Finance Live on Thursday. "This war in Ukraine is going to give the Fed the ammunition, the cover that it needs, to not raise interest rates too quickly. And I think Jay Powell is a very tepid sort of inflation fighter and he's not going to do as much as he needs to do to get that under control. And this seems like an excuse to kick the can further down the road still and not do too much too soon." "This time we received the coordinates of enemy vehicles marked 'V' in Kyiv region," it added. The Securities and Exchange Board of India (Sebi) had carried out a similar exercise in 2017 in a matter related to circulation of messages through WhatsApp. Apparently upbeat developments in Russia's discussions with Ukraine helped at least temporarily send investors back into risk assets. Russian President Vladimir Putin said during a meeting with his Belarusian counterpart Alexander Lukashenko that there were "certain positive developments" occurring in the talks with Ukraine, according to a transcript of their meeting. Putin added that discussions were happening "almost on a daily basis."
from tw