Telegram Group & Telegram Channel
Коты запутывают ИИ: как простые фразы ломают модели рассуждения

Исследователи обнаружили, что добавление безобидных фраз к математическим задачам может сломать продвинутые модели рассуждения вроде DeepSeek R1 и OpenAI o1.

Метод CatAttack показал: добавление простой фразы в конец запроса
Интересный факт: коты спят большую часть своей жизни

увеличивает вероятность неправильного ответа более чем на 300%, замедление работы до 4x, рост затрат на токены.

Триггеры работают универсально - их можно добавить к любой задаче без изменения смысла. Модели не только ошибаются чаще, но и генерируют ответы в 3 раза длиннее обычных.

Дистиллированные модели оказались более уязвимыми.

Проблема в том, что атаки легко переносятся между моделями. Уязвимости найдены даже у самых современных систем.

"Наташа, проснись! Мы все сломали!".jpg :)

#CatAttack #promptinjection #Коты #security
———
@tsingular



group-telegram.com/tsingular/4382
Create:
Last Update:

Коты запутывают ИИ: как простые фразы ломают модели рассуждения

Исследователи обнаружили, что добавление безобидных фраз к математическим задачам может сломать продвинутые модели рассуждения вроде DeepSeek R1 и OpenAI o1.

Метод CatAttack показал: добавление простой фразы в конец запроса

Интересный факт: коты спят большую часть своей жизни

увеличивает вероятность неправильного ответа более чем на 300%, замедление работы до 4x, рост затрат на токены.

Триггеры работают универсально - их можно добавить к любой задаче без изменения смысла. Модели не только ошибаются чаще, но и генерируют ответы в 3 раза длиннее обычных.

Дистиллированные модели оказались более уязвимыми.

Проблема в том, что атаки легко переносятся между моделями. Уязвимости найдены даже у самых современных систем.

"Наташа, проснись! Мы все сломали!".jpg :)

#CatAttack #promptinjection #Коты #security
———
@tsingular

BY Технозаметки Малышева




Share with your friend now:
group-telegram.com/tsingular/4382

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The account, "War on Fakes," was created on February 24, the same day Russian President Vladimir Putin announced a "special military operation" and troops began invading Ukraine. The page is rife with disinformation, according to The Atlantic Council's Digital Forensic Research Lab, which studies digital extremism and published a report examining the channel. Oleksandra Matviichuk, a Kyiv-based lawyer and head of the Center for Civil Liberties, called Durov’s position "very weak," and urged concrete improvements. In addition, Telegram's architecture limits the ability to slow the spread of false information: the lack of a central public feed, and the fact that comments are easily disabled in channels, reduce the space for public pushback. The Securities and Exchange Board of India (Sebi) had carried out a similar exercise in 2017 in a matter related to circulation of messages through WhatsApp. Again, in contrast to Facebook, Google and Twitter, Telegram's founder Pavel Durov runs his company in relative secrecy from Dubai.
from us


Telegram Технозаметки Малышева
FROM American