Telegram Group & Telegram Channel
Исследователи оценивают таким образом две модели – Claude 3.7 и Deepseek-R1. Во-первых, модели часто меняют свой ответ в присутствии подсказки, что ожидаемо. Нативные reasoner-модели чаще упоминают подсказку, чем обычные с CoT, при смене ответа, но делают это в целом достаточно редко: 25% в случае с Claude и 39% у R1, при этом на проблемных видах подсказок эти цифры падают до 20% и 29% соответственно. Что еще более забавно, CoT, в которых модели при смене ответа скрывают использование подсказки, получаются для обеих моделей примерно на треть длиннее и более запутанными. Наконец, сложность вопроса ведет к большей вероятности, что CoT будет ненадежен и скроет использование подсказки – модели реже упоминают подсказку при смене ответа на GPQA, чем на MMLU.

В дополнение к этому исследователи проводят еще два эксперимента. В первом они тюнят модель с помощью RL на решение сложных задач с активным использованием размышлений, чтобы модель больше полагалась на CoT для ответа. CoT становится чуть более надежным, но улучшения достаточно быстро сходят на нет. Во втором они проверяют, можно ли использовать CoT для детектирования reward hacking. Исследователи добавляют ответы в обучение в шести сценариях (по одному на тип подсказки) и поощряют ее за использование подсказок. Модель очень быстро научается выбирать подсказанный ответ вместо правильного, но в среднем лишь в трех процентах случаев пишут о причинах своего выбора в CoT.



group-telegram.com/llmsecurity/527
Create:
Last Update:

Исследователи оценивают таким образом две модели – Claude 3.7 и Deepseek-R1. Во-первых, модели часто меняют свой ответ в присутствии подсказки, что ожидаемо. Нативные reasoner-модели чаще упоминают подсказку, чем обычные с CoT, при смене ответа, но делают это в целом достаточно редко: 25% в случае с Claude и 39% у R1, при этом на проблемных видах подсказок эти цифры падают до 20% и 29% соответственно. Что еще более забавно, CoT, в которых модели при смене ответа скрывают использование подсказки, получаются для обеих моделей примерно на треть длиннее и более запутанными. Наконец, сложность вопроса ведет к большей вероятности, что CoT будет ненадежен и скроет использование подсказки – модели реже упоминают подсказку при смене ответа на GPQA, чем на MMLU.

В дополнение к этому исследователи проводят еще два эксперимента. В первом они тюнят модель с помощью RL на решение сложных задач с активным использованием размышлений, чтобы модель больше полагалась на CoT для ответа. CoT становится чуть более надежным, но улучшения достаточно быстро сходят на нет. Во втором они проверяют, можно ли использовать CoT для детектирования reward hacking. Исследователи добавляют ответы в обучение в шести сценариях (по одному на тип подсказки) и поощряют ее за использование подсказок. Модель очень быстро научается выбирать подсказанный ответ вместо правильного, но в среднем лишь в трех процентах случаев пишут о причинах своего выбора в CoT.

BY llm security и каланы







Share with your friend now:
group-telegram.com/llmsecurity/527

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

You may recall that, back when Facebook started changing WhatsApp’s terms of service, a number of news outlets reported on, and even recommended, switching to Telegram. Pavel Durov even said that users should delete WhatsApp “unless you are cool with all of your photos and messages becoming public one day.” But Telegram can’t be described as a more-secure version of WhatsApp. Now safely in France with his spouse and three of his children, Kliuchnikov scrolls through Telegram to learn about the devastation happening in his home country. In the past, it was noticed that through bulk SMSes, investors were induced to invest in or purchase the stocks of certain listed companies. The next bit isn’t clear, but Durov reportedly claimed that his resignation, dated March 21st, was an April Fools’ prank. TechCrunch implies that it was a matter of principle, but it’s hard to be clear on the wheres, whos and whys. Similarly, on April 17th, the Moscow Times quoted Durov as saying that he quit the company after being pressured to reveal account details about Ukrainians protesting the then-president Viktor Yanukovych. The gold standard of encryption, known as end-to-end encryption, where only the sender and person who receives the message are able to see it, is available on Telegram only when the Secret Chat function is enabled. Voice and video calls are also completely encrypted.
from tw


Telegram llm security и каланы
FROM American