Telegram Group & Telegram Channel
Часто ли мы видим интересные таксономии или хорошие документы, предназначенные для тестировщиков моделей?

Наверное нет, так как вопрос сложно прорабатываемый на самом деле. А особенно сложно найти документ, который бы описывал не только техники атаки, но и уклонения от защитных классификаторов, а также информацию для тестирования MlOps инфры.

💡Недавно я нашёл что-то похожее в репозитории Arcanum Prompt Injection Taxonomy.

Таксономия ориентирована на практическое использование. Она построена по принципу трёхуровневой классификации, отвечающей на три ключевых вопроса:

1.ЗАЧЕМ? (Attack Intents) - Какие цели преследует атакующий?
2.КАК? (Attack Techniques) - Какими методами достигаются эти цели?
3.КАК СКРЫТЬ? (Attack Evasions) - Как обойти системы обнаружения?


Такой подход при построении таксономии позволяет систематически анализировать угрозы с разных точек зрения.

Блок с интентами рассказывает о конкретных категориях мотиваций, которые может достичь атакующий – это может быть «утечка системного промпта, перечисление инструментов/API доступных к модели, а также деструктивных и социальных мотиваций для того, чтобы реализовать атаку.

Дальше – техники, тут 18 техник для реализации промпт-атак. Например, можно составлять промпт-инъекцию с множеством вложенных структур или заставить имитировать LLM роль интерпретатора или системы – всё это может быть применимо при реализации атаки или джейлбрейка из статьи/датасета, особенно если оно не работает изначально.😵

Потом, список методов уклонения от цензоров. Большой список, тут и про кодирование текста, и про сокрытие текста в emoji, фонетические замены и вымышленные языки – да, да всем этим можно сокрыть ваш промпт, чтобы обойти простой классификатор, не удивляйтесь. 😮

А также есть отдельный блок – Экосистема.

Тут приведена таблица, где описаны MLOPS решения, их известные порты, заголовки http, методы аутентификации и известные CVE(список пополняется, но не ссылками на эксплоиты). Что мне очень сильно понравилось. Где ещё найти такой лист с готовой информацией об инфре?

Есть и чек-листы для защиты, опросники, а также перечень проб – промпты которые вы можете закинуть в модель для тестирования промпт-инъекций.

Ну и самое интересное – это их майнд-карта, которая есть в репозитории с визуализацией всего что у них имеется – приложу ниже в png, в репозитории – xmind файл. В карте есть ссылки на исследования.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/pwnai/944
Create:
Last Update:

Часто ли мы видим интересные таксономии или хорошие документы, предназначенные для тестировщиков моделей?

Наверное нет, так как вопрос сложно прорабатываемый на самом деле. А особенно сложно найти документ, который бы описывал не только техники атаки, но и уклонения от защитных классификаторов, а также информацию для тестирования MlOps инфры.

💡Недавно я нашёл что-то похожее в репозитории Arcanum Prompt Injection Taxonomy.

Таксономия ориентирована на практическое использование. Она построена по принципу трёхуровневой классификации, отвечающей на три ключевых вопроса:

1.ЗАЧЕМ? (Attack Intents) - Какие цели преследует атакующий?
2.КАК? (Attack Techniques) - Какими методами достигаются эти цели?
3.КАК СКРЫТЬ? (Attack Evasions) - Как обойти системы обнаружения?


Такой подход при построении таксономии позволяет систематически анализировать угрозы с разных точек зрения.

Блок с интентами рассказывает о конкретных категориях мотиваций, которые может достичь атакующий – это может быть «утечка системного промпта, перечисление инструментов/API доступных к модели, а также деструктивных и социальных мотиваций для того, чтобы реализовать атаку.

Дальше – техники, тут 18 техник для реализации промпт-атак. Например, можно составлять промпт-инъекцию с множеством вложенных структур или заставить имитировать LLM роль интерпретатора или системы – всё это может быть применимо при реализации атаки или джейлбрейка из статьи/датасета, особенно если оно не работает изначально.😵

Потом, список методов уклонения от цензоров. Большой список, тут и про кодирование текста, и про сокрытие текста в emoji, фонетические замены и вымышленные языки – да, да всем этим можно сокрыть ваш промпт, чтобы обойти простой классификатор, не удивляйтесь. 😮

А также есть отдельный блок – Экосистема.

Тут приведена таблица, где описаны MLOPS решения, их известные порты, заголовки http, методы аутентификации и известные CVE(список пополняется, но не ссылками на эксплоиты). Что мне очень сильно понравилось. Где ещё найти такой лист с готовой информацией об инфре?

Есть и чек-листы для защиты, опросники, а также перечень проб – промпты которые вы можете закинуть в модель для тестирования промпт-инъекций.

Ну и самое интересное – это их майнд-карта, которая есть в репозитории с визуализацией всего что у них имеется – приложу ниже в png, в репозитории – xmind файл. В карте есть ссылки на исследования.

BY PWN AI







Share with your friend now:
group-telegram.com/pwnai/944

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30. The news also helped traders look past another report showing decades-high inflation and shake off some of the volatility from recent sessions. The Bureau of Labor Statistics' February Consumer Price Index (CPI) this week showed another surge in prices even before Russia escalated its attacks in Ukraine. The headline CPI — soaring 7.9% over last year — underscored the sticky inflationary pressures reverberating across the U.S. economy, with everything from groceries to rents and airline fares getting more expensive for everyday consumers. For Oleksandra Tsekhanovska, head of the Hybrid Warfare Analytical Group at the Kyiv-based Ukraine Crisis Media Center, the effects are both near- and far-reaching. Overall, extreme levels of fear in the market seems to have morphed into something more resembling concern. For example, the Cboe Volatility Index fell from its 2022 peak of 36, which it hit Monday, to around 30 on Friday, a sign of easing tensions. Meanwhile, while the price of WTI crude oil slipped from Sunday’s multiyear high $130 of barrel to $109 a pop. Markets have been expecting heavy restrictions on Russian oil, some of which the U.S. has already imposed, and that would reduce the global supply and bring about even more burdensome inflation. Now safely in France with his spouse and three of his children, Kliuchnikov scrolls through Telegram to learn about the devastation happening in his home country.
from ye


Telegram PWN AI
FROM American