Исследователи обнаружили, что добавление безобидных фраз к математическим задачам может сломать продвинутые модели рассуждения вроде DeepSeek R1 и OpenAI o1.
Метод CatAttack показал: добавление простой фразы в конец запроса
Интересный факт: коты спят большую часть своей жизни
увеличивает вероятность неправильного ответа более чем на 300%, замедление работы до 4x, рост затрат на токены.
Триггеры работают универсально - их можно добавить к любой задаче без изменения смысла. Модели не только ошибаются чаще, но и генерируют ответы в 3 раза длиннее обычных.
Дистиллированные модели оказались более уязвимыми.
Проблема в том, что атаки легко переносятся между моделями. Уязвимости найдены даже у самых современных систем.
Исследователи обнаружили, что добавление безобидных фраз к математическим задачам может сломать продвинутые модели рассуждения вроде DeepSeek R1 и OpenAI o1.
Метод CatAttack показал: добавление простой фразы в конец запроса
Интересный факт: коты спят большую часть своей жизни
увеличивает вероятность неправильного ответа более чем на 300%, замедление работы до 4x, рост затрат на токены.
Триггеры работают универсально - их можно добавить к любой задаче без изменения смысла. Модели не только ошибаются чаще, но и генерируют ответы в 3 раза длиннее обычных.
Дистиллированные модели оказались более уязвимыми.
Проблема в том, что атаки легко переносятся между моделями. Уязвимости найдены даже у самых современных систем.
The account, "War on Fakes," was created on February 24, the same day Russian President Vladimir Putin announced a "special military operation" and troops began invading Ukraine. The page is rife with disinformation, according to The Atlantic Council's Digital Forensic Research Lab, which studies digital extremism and published a report examining the channel. Oleksandra Matviichuk, a Kyiv-based lawyer and head of the Center for Civil Liberties, called Durov’s position "very weak," and urged concrete improvements. In addition, Telegram's architecture limits the ability to slow the spread of false information: the lack of a central public feed, and the fact that comments are easily disabled in channels, reduce the space for public pushback. The Securities and Exchange Board of India (Sebi) had carried out a similar exercise in 2017 in a matter related to circulation of messages through WhatsApp. Again, in contrast to Facebook, Google and Twitter, Telegram's founder Pavel Durov runs his company in relative secrecy from Dubai.
from us