Не про архиваторы.

gonzo-обзоры ML статей

Не про архиваторы.

Binary Retrieval-Augmented Reward, или Binary RAR, — это очень простой способ побороть галлюцинации модели, сохранив при этом её способности. Не нужен никакой хитрый реворд, только 1 (если ответ модели фактологически верен) или 0 (если есть хотя бы одно несоответствие).

Binary RAR достигает SOTA-показателей в снижении уровня галлюцинаций (на 39.3% в задачах генерации длинных текстов), при этом уникальным образом сохраняя такие способности, как следование инструкциям и рассуждения — а это слабое место методов с непрерывным вознаграждением. Строгое наказание по принципу «всё или ничего» противостоит «взлому вознаграждения» (reward hacking) и побуждает модель выучивать сложное поведение, например, калиброванный отказ от ответа, когда она стратегически говорит «Я не знаю», если не уверена.

Подробнее: https://www.group-telegram.com/hk/gonzo_ML.com_podcasts/1136

gonzo_ML_podcasts

За гранью непрерывных оценок: как бинарное вознаграждение борется с галлюцинациями LLM, не жертвуя навыками

Title: Train for Truth, Keep the Skills: Binary Retrieval-Augmented Reward Mitigates Hallucinations
Authors: Tong Chen, Akari Asai, Luke Zettlemoyer…

🔥11👍4😁2🫡2🤔1

www.group-telegram.com/hk/gonzo_ML.com/4173

5.03K viewsedited Oct 30 at 12:28

group-telegram.com/gonzo_ML/4173

Create: 2025-10-30
Last Update: 2025-11-09 08:25:38

BY gonzo-обзоры ML статей

Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/gonzo_ML/4173

Telegram | DID YOU KNOW?

Не про архиваторы.