Telegram Group & Telegram Channel
Часто ли мы видим интересные таксономии или хорошие документы, предназначенные для тестировщиков моделей?

Наверное нет, так как вопрос сложно прорабатываемый на самом деле. А особенно сложно найти документ, который бы описывал не только техники атаки, но и уклонения от защитных классификаторов, а также информацию для тестирования MlOps инфры.

💡Недавно я нашёл что-то похожее в репозитории Arcanum Prompt Injection Taxonomy.

Таксономия ориентирована на практическое использование. Она построена по принципу трёхуровневой классификации, отвечающей на три ключевых вопроса:

1.ЗАЧЕМ? (Attack Intents) - Какие цели преследует атакующий?
2.КАК? (Attack Techniques) - Какими методами достигаются эти цели?
3.КАК СКРЫТЬ? (Attack Evasions) - Как обойти системы обнаружения?


Такой подход при построении таксономии позволяет систематически анализировать угрозы с разных точек зрения.

Блок с интентами рассказывает о конкретных категориях мотиваций, которые может достичь атакующий – это может быть «утечка системного промпта, перечисление инструментов/API доступных к модели, а также деструктивных и социальных мотиваций для того, чтобы реализовать атаку.

Дальше – техники, тут 18 техник для реализации промпт-атак. Например, можно составлять промпт-инъекцию с множеством вложенных структур или заставить имитировать LLM роль интерпретатора или системы – всё это может быть применимо при реализации атаки или джейлбрейка из статьи/датасета, особенно если оно не работает изначально.😵

Потом, список методов уклонения от цензоров. Большой список, тут и про кодирование текста, и про сокрытие текста в emoji, фонетические замены и вымышленные языки – да, да всем этим можно сокрыть ваш промпт, чтобы обойти простой классификатор, не удивляйтесь. 😮

А также есть отдельный блок – Экосистема.

Тут приведена таблица, где описаны MLOPS решения, их известные порты, заголовки http, методы аутентификации и известные CVE(список пополняется, но не ссылками на эксплоиты). Что мне очень сильно понравилось. Где ещё найти такой лист с готовой информацией об инфре?

Есть и чек-листы для защиты, опросники, а также перечень проб – промпты которые вы можете закинуть в модель для тестирования промпт-инъекций.

Ну и самое интересное – это их майнд-карта, которая есть в репозитории с визуализацией всего что у них имеется – приложу ниже в png, в репозитории – xmind файл. В карте есть ссылки на исследования.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥21



group-telegram.com/pwnai/945
Create:
Last Update:

Часто ли мы видим интересные таксономии или хорошие документы, предназначенные для тестировщиков моделей?

Наверное нет, так как вопрос сложно прорабатываемый на самом деле. А особенно сложно найти документ, который бы описывал не только техники атаки, но и уклонения от защитных классификаторов, а также информацию для тестирования MlOps инфры.

💡Недавно я нашёл что-то похожее в репозитории Arcanum Prompt Injection Taxonomy.

Таксономия ориентирована на практическое использование. Она построена по принципу трёхуровневой классификации, отвечающей на три ключевых вопроса:

1.ЗАЧЕМ? (Attack Intents) - Какие цели преследует атакующий?
2.КАК? (Attack Techniques) - Какими методами достигаются эти цели?
3.КАК СКРЫТЬ? (Attack Evasions) - Как обойти системы обнаружения?


Такой подход при построении таксономии позволяет систематически анализировать угрозы с разных точек зрения.

Блок с интентами рассказывает о конкретных категориях мотиваций, которые может достичь атакующий – это может быть «утечка системного промпта, перечисление инструментов/API доступных к модели, а также деструктивных и социальных мотиваций для того, чтобы реализовать атаку.

Дальше – техники, тут 18 техник для реализации промпт-атак. Например, можно составлять промпт-инъекцию с множеством вложенных структур или заставить имитировать LLM роль интерпретатора или системы – всё это может быть применимо при реализации атаки или джейлбрейка из статьи/датасета, особенно если оно не работает изначально.😵

Потом, список методов уклонения от цензоров. Большой список, тут и про кодирование текста, и про сокрытие текста в emoji, фонетические замены и вымышленные языки – да, да всем этим можно сокрыть ваш промпт, чтобы обойти простой классификатор, не удивляйтесь. 😮

А также есть отдельный блок – Экосистема.

Тут приведена таблица, где описаны MLOPS решения, их известные порты, заголовки http, методы аутентификации и известные CVE(список пополняется, но не ссылками на эксплоиты). Что мне очень сильно понравилось. Где ещё найти такой лист с готовой информацией об инфре?

Есть и чек-листы для защиты, опросники, а также перечень проб – промпты которые вы можете закинуть в модель для тестирования промпт-инъекций.

Ну и самое интересное – это их майнд-карта, которая есть в репозитории с визуализацией всего что у них имеется – приложу ниже в png, в репозитории – xmind файл. В карте есть ссылки на исследования.

BY PWN AI







Share with your friend now:
group-telegram.com/pwnai/945

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said. Apparently upbeat developments in Russia's discussions with Ukraine helped at least temporarily send investors back into risk assets. Russian President Vladimir Putin said during a meeting with his Belarusian counterpart Alexander Lukashenko that there were "certain positive developments" occurring in the talks with Ukraine, according to a transcript of their meeting. Putin added that discussions were happening "almost on a daily basis." But Kliuchnikov, the Ukranian now in France, said he will use Signal or WhatsApp for sensitive conversations, but questions around privacy on Telegram do not give him pause when it comes to sharing information about the war. Oleksandra Matviichuk, a Kyiv-based lawyer and head of the Center for Civil Liberties, called Durov’s position "very weak," and urged concrete improvements. Investors took profits on Friday while they could ahead of the weekend, explained Tom Essaye, founder of Sevens Report Research. Saturday and Sunday could easily bring unfortunate news on the war front—and traders would rather be able to sell any recent winnings at Friday’s earlier prices than wait for a potentially lower price at Monday’s open.
from ye


Telegram PWN AI
FROM American