Telegram Group & Telegram Channel
Исследователи оценивают таким образом две модели – Claude 3.7 и Deepseek-R1. Во-первых, модели часто меняют свой ответ в присутствии подсказки, что ожидаемо. Нативные reasoner-модели чаще упоминают подсказку, чем обычные с CoT, при смене ответа, но делают это в целом достаточно редко: 25% в случае с Claude и 39% у R1, при этом на проблемных видах подсказок эти цифры падают до 20% и 29% соответственно. Что еще более забавно, CoT, в которых модели при смене ответа скрывают использование подсказки, получаются для обеих моделей примерно на треть длиннее и более запутанными. Наконец, сложность вопроса ведет к большей вероятности, что CoT будет ненадежен и скроет использование подсказки – модели реже упоминают подсказку при смене ответа на GPQA, чем на MMLU.

В дополнение к этому исследователи проводят еще два эксперимента. В первом они тюнят модель с помощью RL на решение сложных задач с активным использованием размышлений, чтобы модель больше полагалась на CoT для ответа. CoT становится чуть более надежным, но улучшения достаточно быстро сходят на нет. Во втором они проверяют, можно ли использовать CoT для детектирования reward hacking. Исследователи добавляют ответы в обучение в шести сценариях (по одному на тип подсказки) и поощряют ее за использование подсказок. Модель очень быстро научается выбирать подсказанный ответ вместо правильного, но в среднем лишь в трех процентах случаев пишут о причинах своего выбора в CoT.



group-telegram.com/llmsecurity/526
Create:
Last Update:

Исследователи оценивают таким образом две модели – Claude 3.7 и Deepseek-R1. Во-первых, модели часто меняют свой ответ в присутствии подсказки, что ожидаемо. Нативные reasoner-модели чаще упоминают подсказку, чем обычные с CoT, при смене ответа, но делают это в целом достаточно редко: 25% в случае с Claude и 39% у R1, при этом на проблемных видах подсказок эти цифры падают до 20% и 29% соответственно. Что еще более забавно, CoT, в которых модели при смене ответа скрывают использование подсказки, получаются для обеих моделей примерно на треть длиннее и более запутанными. Наконец, сложность вопроса ведет к большей вероятности, что CoT будет ненадежен и скроет использование подсказки – модели реже упоминают подсказку при смене ответа на GPQA, чем на MMLU.

В дополнение к этому исследователи проводят еще два эксперимента. В первом они тюнят модель с помощью RL на решение сложных задач с активным использованием размышлений, чтобы модель больше полагалась на CoT для ответа. CoT становится чуть более надежным, но улучшения достаточно быстро сходят на нет. Во втором они проверяют, можно ли использовать CoT для детектирования reward hacking. Исследователи добавляют ответы в обучение в шести сценариях (по одному на тип подсказки) и поощряют ее за использование подсказок. Модель очень быстро научается выбирать подсказанный ответ вместо правильного, но в среднем лишь в трех процентах случаев пишут о причинах своего выбора в CoT.

BY llm security и каланы







Share with your friend now:
group-telegram.com/llmsecurity/526

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In 2018, Russia banned Telegram although it reversed the prohibition two years later. These administrators had built substantial positions in these scrips prior to the circulation of recommendations and offloaded their positions subsequent to rise in price of these scrips, making significant profits at the expense of unsuspecting investors, Sebi noted. The next bit isn’t clear, but Durov reportedly claimed that his resignation, dated March 21st, was an April Fools’ prank. TechCrunch implies that it was a matter of principle, but it’s hard to be clear on the wheres, whos and whys. Similarly, on April 17th, the Moscow Times quoted Durov as saying that he quit the company after being pressured to reveal account details about Ukrainians protesting the then-president Viktor Yanukovych. "For Telegram, accountability has always been a problem, which is why it was so popular even before the full-scale war with far-right extremists and terrorists from all over the world," she told AFP from her safe house outside the Ukrainian capital. Telegram has become more interventionist over time, and has steadily increased its efforts to shut down these accounts. But this has also meant that the company has also engaged with lawmakers more generally, although it maintains that it doesn’t do so willingly. For instance, in September 2021, Telegram reportedly blocked a chat bot in support of (Putin critic) Alexei Navalny during Russia’s most recent parliamentary elections. Pavel Durov was quoted at the time saying that the company was obliged to follow a “legitimate” law of the land. He added that as Apple and Google both follow the law, to violate it would give both platforms a reason to boot the messenger from its stores.
from us


Telegram llm security и каланы
FROM American