Telegram Group & Telegram Channel
💡 The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

Почему политики в RL "зависают" и как это исправить?

Когда мы обучаем большие языковые модели (LLMs) через обучение с подкреплением (RL), есть одна большая проблема:

📉 Политика слишком рано "замыкается" и перестаёт исследовать новые действия.

Это называют коллапсом энтропии — модель быстро теряет разнообразие в своих решениях и больше не пробует что-то новое.

🔬 Учёные обнаружили:

🔗 Есть закономерность:
Когда энтропия падает, качество (reward) тоже перестаёт расти.

Формула:

R = -a * e^H + b

То есть: меньше разнообразия → предсказуемый потолок качества.

🤔 Почему так происходит?

Потому что в RL-алгоритмах (как Policy Gradient) модель усиливает те действия, которые уже приносят награду, и почти не обновляет остальное.

В результате:
- Энтропия падает
- Модель перестаёт исследовать
- Качество "застывает"

💡 Как это исправить?

Авторы предложили 2 простых приёма:

1. Clip-Cov — ограничить обновление токенов, где политика слишком уверена
2. KL-Cov — добавить штраф на такие уверенные токены, чтобы сохранить разнообразие

📈 Результат:
Эти методы удерживают политику в исследовательском режиме дольше и позволяют достичь лучших результатов на практике.

🔗 Если ты работаешь с RLHF, LLM или reasoning — это отличная идея для устойчивого масштабирования.

📌 Читать



group-telegram.com/machinelearning_books/1016
Create:
Last Update:

💡 The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

Почему политики в RL "зависают" и как это исправить?

Когда мы обучаем большие языковые модели (LLMs) через обучение с подкреплением (RL), есть одна большая проблема:

📉 Политика слишком рано "замыкается" и перестаёт исследовать новые действия.

Это называют коллапсом энтропии — модель быстро теряет разнообразие в своих решениях и больше не пробует что-то новое.

🔬 Учёные обнаружили:

🔗 Есть закономерность:
Когда энтропия падает, качество (reward) тоже перестаёт расти.

Формула:


R = -a * e^H + b

То есть: меньше разнообразия → предсказуемый потолок качества.

🤔 Почему так происходит?

Потому что в RL-алгоритмах (как Policy Gradient) модель усиливает те действия, которые уже приносят награду, и почти не обновляет остальное.

В результате:
- Энтропия падает
- Модель перестаёт исследовать
- Качество "застывает"

💡 Как это исправить?

Авторы предложили 2 простых приёма:

1. Clip-Cov — ограничить обновление токенов, где политика слишком уверена
2. KL-Cov — добавить штраф на такие уверенные токены, чтобы сохранить разнообразие

📈 Результат:
Эти методы удерживают политику в исследовательском режиме дольше и позволяют достичь лучших результатов на практике.

🔗 Если ты работаешь с RLHF, LLM или reasoning — это отличная идея для устойчивого масштабирования.

📌 Читать

BY Машиннное обучение | Наука о данных Библиотека




Share with your friend now:
group-telegram.com/machinelearning_books/1016

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Artem Kliuchnikov and his family fled Ukraine just days before the Russian invasion. Following this, Sebi, in an order passed in January 2022, established that the administrators of a Telegram channel having a large subscriber base enticed the subscribers to act upon recommendations that were circulated by those administrators on the channel, leading to significant price and volume impact in various scrips. If you initiate a Secret Chat, however, then these communications are end-to-end encrypted and are tied to the device you are using. That means it’s less convenient to access them across multiple platforms, but you are at far less risk of snooping. Back in the day, Secret Chats received some praise from the EFF, but the fact that its standard system isn’t as secure earned it some criticism. If you’re looking for something that is considered more reliable by privacy advocates, then Signal is the EFF’s preferred platform, although that too is not without some caveats. The Russian invasion of Ukraine has been a driving force in markets for the past few weeks. "He has kind of an old-school cyber-libertarian world view where technology is there to set you free," Maréchal said.
from sg


Telegram Машиннное обучение | Наука о данных Библиотека
FROM American