Defending Against Indirect Prompt Injection Attacks With Spotlighting Keegan Hines et al, Microsoft, 2024 Препринт
Непрямая инъекция промпта (indirect prompt injection) – атака, при которой инструкции LLM перезаписываются внешними (3rd party) документами, подгружающимися из недоверенных источников в ее контекст для выполнения задачи. Это основной вектор атак на LLM-приложения, который исследуется: инъекции засовывают в письма, на сайты, в историю переписок, в скриншоты и так далее. Происходит это потому, что у в LLM не хватает четкого разделения между данными и инструкциями – все валяется в одном контекстном окне вперемешку.
Исследователи из Microsoft предлагают в небольшой статье несколько эвристик, которые призваны улучшить это разделение и снизить подверженность ваших систем атакам с непрямыми инъекциями (их в статье называют XPIA) под общим называнием spotlighting.
Defending Against Indirect Prompt Injection Attacks With Spotlighting Keegan Hines et al, Microsoft, 2024 Препринт
Непрямая инъекция промпта (indirect prompt injection) – атака, при которой инструкции LLM перезаписываются внешними (3rd party) документами, подгружающимися из недоверенных источников в ее контекст для выполнения задачи. Это основной вектор атак на LLM-приложения, который исследуется: инъекции засовывают в письма, на сайты, в историю переписок, в скриншоты и так далее. Происходит это потому, что у в LLM не хватает четкого разделения между данными и инструкциями – все валяется в одном контекстном окне вперемешку.
Исследователи из Microsoft предлагают в небольшой статье несколько эвристик, которые призваны улучшить это разделение и снизить подверженность ваших систем атакам с непрямыми инъекциями (их в статье называют XPIA) под общим называнием spotlighting.
As a result, the pandemic saw many newcomers to Telegram, including prominent anti-vaccine activists who used the app's hands-off approach to share false information on shots, a study from the Institute for Strategic Dialogue shows. Now safely in France with his spouse and three of his children, Kliuchnikov scrolls through Telegram to learn about the devastation happening in his home country. A Russian Telegram channel with over 700,000 followers is spreading disinformation about Russia's invasion of Ukraine under the guise of providing "objective information" and fact-checking fake news. Its influence extends beyond the platform, with major Russian publications, government officials, and journalists citing the page's posts. Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform. One thing that Telegram now offers to all users is the ability to “disappear” messages or set remote deletion deadlines. That enables users to have much more control over how long people can access what you’re sending them. Given that Russian law enforcement officials are reportedly (via Insider) stopping people in the street and demanding to read their text messages, this could be vital to protect individuals from reprisals.
from us