Telegram Group & Telegram Channel
Исследователи оценивают таким образом две модели – Claude 3.7 и Deepseek-R1. Во-первых, модели часто меняют свой ответ в присутствии подсказки, что ожидаемо. Нативные reasoner-модели чаще упоминают подсказку, чем обычные с CoT, при смене ответа, но делают это в целом достаточно редко: 25% в случае с Claude и 39% у R1, при этом на проблемных видах подсказок эти цифры падают до 20% и 29% соответственно. Что еще более забавно, CoT, в которых модели при смене ответа скрывают использование подсказки, получаются для обеих моделей примерно на треть длиннее и более запутанными. Наконец, сложность вопроса ведет к большей вероятности, что CoT будет ненадежен и скроет использование подсказки – модели реже упоминают подсказку при смене ответа на GPQA, чем на MMLU.

В дополнение к этому исследователи проводят еще два эксперимента. В первом они тюнят модель с помощью RL на решение сложных задач с активным использованием размышлений, чтобы модель больше полагалась на CoT для ответа. CoT становится чуть более надежным, но улучшения достаточно быстро сходят на нет. Во втором они проверяют, можно ли использовать CoT для детектирования reward hacking. Исследователи добавляют ответы в обучение в шести сценариях (по одному на тип подсказки) и поощряют ее за использование подсказок. Модель очень быстро научается выбирать подсказанный ответ вместо правильного, но в среднем лишь в трех процентах случаев пишут о причинах своего выбора в CoT.



group-telegram.com/llmsecurity/527
Create:
Last Update:

Исследователи оценивают таким образом две модели – Claude 3.7 и Deepseek-R1. Во-первых, модели часто меняют свой ответ в присутствии подсказки, что ожидаемо. Нативные reasoner-модели чаще упоминают подсказку, чем обычные с CoT, при смене ответа, но делают это в целом достаточно редко: 25% в случае с Claude и 39% у R1, при этом на проблемных видах подсказок эти цифры падают до 20% и 29% соответственно. Что еще более забавно, CoT, в которых модели при смене ответа скрывают использование подсказки, получаются для обеих моделей примерно на треть длиннее и более запутанными. Наконец, сложность вопроса ведет к большей вероятности, что CoT будет ненадежен и скроет использование подсказки – модели реже упоминают подсказку при смене ответа на GPQA, чем на MMLU.

В дополнение к этому исследователи проводят еще два эксперимента. В первом они тюнят модель с помощью RL на решение сложных задач с активным использованием размышлений, чтобы модель больше полагалась на CoT для ответа. CoT становится чуть более надежным, но улучшения достаточно быстро сходят на нет. Во втором они проверяют, можно ли использовать CoT для детектирования reward hacking. Исследователи добавляют ответы в обучение в шести сценариях (по одному на тип подсказки) и поощряют ее за использование подсказок. Модель очень быстро научается выбирать подсказанный ответ вместо правильного, но в среднем лишь в трех процентах случаев пишут о причинах своего выбора в CoT.

BY llm security и каланы







Share with your friend now:
group-telegram.com/llmsecurity/527

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The SC urges the public to refer to the SC’s I nvestor Alert List before investing. The list contains details of unauthorised websites, investment products, companies and individuals. Members of the public who suspect that they have been approached by unauthorised firms or individuals offering schemes that promise unrealistic returns Since its launch in 2013, Telegram has grown from a simple messaging app to a broadcast network. Its user base isn’t as vast as WhatsApp’s, and its broadcast platform is a fraction the size of Twitter, but it’s nonetheless showing its use. While Telegram has been embroiled in controversy for much of its life, it has become a vital source of communication during the invasion of Ukraine. But, if all of this is new to you, let us explain, dear friends, what on Earth a Telegram is meant to be, and why you should, or should not, need to care. "Russians are really disconnected from the reality of what happening to their country," Andrey said. "So Telegram has become essential for understanding what's going on to the Russian-speaking world." Meanwhile, a completely redesigned attachment menu appears when sending multiple photos or vides. Users can tap "X selected" (X being the number of items) at the top of the panel to preview how the album will look in the chat when it's sent, as well as rearrange or remove selected media. As a result, the pandemic saw many newcomers to Telegram, including prominent anti-vaccine activists who used the app's hands-off approach to share false information on shots, a study from the Institute for Strategic Dialogue shows.
from id


Telegram llm security и каланы
FROM American