Telegram Group & Telegram Channel
Исследователи оценивают таким образом две модели – Claude 3.7 и Deepseek-R1. Во-первых, модели часто меняют свой ответ в присутствии подсказки, что ожидаемо. Нативные reasoner-модели чаще упоминают подсказку, чем обычные с CoT, при смене ответа, но делают это в целом достаточно редко: 25% в случае с Claude и 39% у R1, при этом на проблемных видах подсказок эти цифры падают до 20% и 29% соответственно. Что еще более забавно, CoT, в которых модели при смене ответа скрывают использование подсказки, получаются для обеих моделей примерно на треть длиннее и более запутанными. Наконец, сложность вопроса ведет к большей вероятности, что CoT будет ненадежен и скроет использование подсказки – модели реже упоминают подсказку при смене ответа на GPQA, чем на MMLU.

В дополнение к этому исследователи проводят еще два эксперимента. В первом они тюнят модель с помощью RL на решение сложных задач с активным использованием размышлений, чтобы модель больше полагалась на CoT для ответа. CoT становится чуть более надежным, но улучшения достаточно быстро сходят на нет. Во втором они проверяют, можно ли использовать CoT для детектирования reward hacking. Исследователи добавляют ответы в обучение в шести сценариях (по одному на тип подсказки) и поощряют ее за использование подсказок. Модель очень быстро научается выбирать подсказанный ответ вместо правильного, но в среднем лишь в трех процентах случаев пишут о причинах своего выбора в CoT.



group-telegram.com/llmsecurity/526
Create:
Last Update:

Исследователи оценивают таким образом две модели – Claude 3.7 и Deepseek-R1. Во-первых, модели часто меняют свой ответ в присутствии подсказки, что ожидаемо. Нативные reasoner-модели чаще упоминают подсказку, чем обычные с CoT, при смене ответа, но делают это в целом достаточно редко: 25% в случае с Claude и 39% у R1, при этом на проблемных видах подсказок эти цифры падают до 20% и 29% соответственно. Что еще более забавно, CoT, в которых модели при смене ответа скрывают использование подсказки, получаются для обеих моделей примерно на треть длиннее и более запутанными. Наконец, сложность вопроса ведет к большей вероятности, что CoT будет ненадежен и скроет использование подсказки – модели реже упоминают подсказку при смене ответа на GPQA, чем на MMLU.

В дополнение к этому исследователи проводят еще два эксперимента. В первом они тюнят модель с помощью RL на решение сложных задач с активным использованием размышлений, чтобы модель больше полагалась на CoT для ответа. CoT становится чуть более надежным, но улучшения достаточно быстро сходят на нет. Во втором они проверяют, можно ли использовать CoT для детектирования reward hacking. Исследователи добавляют ответы в обучение в шести сценариях (по одному на тип подсказки) и поощряют ее за использование подсказок. Модель очень быстро научается выбирать подсказанный ответ вместо правильного, но в среднем лишь в трех процентах случаев пишут о причинах своего выбора в CoT.

BY llm security и каланы







Share with your friend now:
group-telegram.com/llmsecurity/526

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Right now the digital security needs of Russians and Ukrainians are very different, and they lead to very different caveats about how to mitigate the risks associated with using Telegram. For Ukrainians in Ukraine, whose physical safety is at risk because they are in a war zone, digital security is probably not their highest priority. They may value access to news and communication with their loved ones over making sure that all of their communications are encrypted in such a manner that they are indecipherable to Telegram, its employees, or governments with court orders. Elsewhere, version 8.6 of Telegram integrates the in-app camera option into the gallery, while a new navigation bar gives quick access to photos, files, location sharing, and more. The perpetrators use various names to carry out the investment scams. They may also impersonate or clone licensed capital market intermediaries by using the names, logos, credentials, websites and other details of the legitimate entities to promote the illegal schemes. During the operations, Sebi officials seized various records and documents, including 34 mobile phones, six laptops, four desktops, four tablets, two hard drive disks and one pen drive from the custody of these persons. "He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said.
from tw


Telegram llm security и каланы
FROM American