group-telegram.com/gonzo_ML/4173
Last Update:
Не про архиваторы.
Binary Retrieval-Augmented Reward, или Binary RAR, — это очень простой способ побороть галлюцинации модели, сохранив при этом её способности. Не нужен никакой хитрый реворд, только 1 (если ответ модели фактологически верен) или 0 (если есть хотя бы одно несоответствие).
Binary RAR достигает SOTA-показателей в снижении уровня галлюцинаций (на 39.3% в задачах генерации длинных текстов), при этом уникальным образом сохраняя такие способности, как следование инструкциям и рассуждения — а это слабое место методов с непрерывным вознаграждением. Строгое наказание по принципу «всё или ничего» противостоит «взлому вознаграждения» (reward hacking) и побуждает модель выучивать сложное поведение, например, калиброванный отказ от ответа, когда она стратегически говорит «Я не знаю», если не уверена.
Подробнее: https://www.group-telegram.com/hk/gonzo_ML.com_podcasts/1136
BY gonzo-обзоры ML статей
Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260
Share with your friend now:
group-telegram.com/gonzo_ML/4173
