Telegram Group & Telegram Channel
Промпт-инъекции по-прежнему являются угрозой номер один. Но на борьбу, на реализацию решений и методологии – выделяются большие команды и деньги, очевидно.

Недавно Google релизнул свою методологию по защите от промпт-инъекций, так сказать методологию в несколько слоёв.

Они предлагают использовать несколько уровней защиты:

Сперва интегрировать классификатор промпт-инъекций, что-то похожее мы видели у Anthropic как Constitutional Classifiers, а также отдельные файрволлы.

Далее уровень инструкций. Риск обхода инструкций, которые будут защищать модель – велик. Но что поделать – Google говорит, что если все 5 камней активируются, то только тогда будет сила.

Третий уровень – санитизация вредоносных URL и markdown, а также применения подхода Safe Browsing для защиты входных данных.

Скажу сейчас - этот подход они применяют в Gemini.

Четвёртый и пятый уровень – это взаимодействие с пользователем, использование Human-in-the-loop как способа верификации контента, а также оповещение пользователей о том, что сгенерированный контент является вредоносным. Тоесть получается такая проактивная стратегия защиты – в которой пользователь конечно же является значимым звеном.

Параллельно с этим вышла интересная классификация от Hidden Layer, в которой они предложили различные техники атак с использованием промптов. Таксономия включает в себя 62 различные тактики. Проблема в том, что в некоторых случаях это и угрозы связанные с саммаризацией(да-да) (просто попросить саммари вредоносного контекста) или же Cognitive overload (который больше на reasoning применим кмк). Удобное визуальное разделение, а также наличие хоть и не совсем работающих – но adversarial инструкций. Заслуживает вашего внимания.



group-telegram.com/pwnai/930
Create:
Last Update:

Промпт-инъекции по-прежнему являются угрозой номер один. Но на борьбу, на реализацию решений и методологии – выделяются большие команды и деньги, очевидно.

Недавно Google релизнул свою методологию по защите от промпт-инъекций, так сказать методологию в несколько слоёв.

Они предлагают использовать несколько уровней защиты:

Сперва интегрировать классификатор промпт-инъекций, что-то похожее мы видели у Anthropic как Constitutional Classifiers, а также отдельные файрволлы.

Далее уровень инструкций. Риск обхода инструкций, которые будут защищать модель – велик. Но что поделать – Google говорит, что если все 5 камней активируются, то только тогда будет сила.

Третий уровень – санитизация вредоносных URL и markdown, а также применения подхода Safe Browsing для защиты входных данных.

Скажу сейчас - этот подход они применяют в Gemini.

Четвёртый и пятый уровень – это взаимодействие с пользователем, использование Human-in-the-loop как способа верификации контента, а также оповещение пользователей о том, что сгенерированный контент является вредоносным. Тоесть получается такая проактивная стратегия защиты – в которой пользователь конечно же является значимым звеном.

Параллельно с этим вышла интересная классификация от Hidden Layer, в которой они предложили различные техники атак с использованием промптов. Таксономия включает в себя 62 различные тактики. Проблема в том, что в некоторых случаях это и угрозы связанные с саммаризацией(да-да) (просто попросить саммари вредоносного контекста) или же Cognitive overload (который больше на reasoning применим кмк). Удобное визуальное разделение, а также наличие хоть и не совсем работающих – но adversarial инструкций. Заслуживает вашего внимания.

BY PWN AI






Share with your friend now:
group-telegram.com/pwnai/930

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Unlike Silicon Valley giants such as Facebook and Twitter, which run very public anti-disinformation programs, Brooking said: "Telegram is famously lax or absent in its content moderation policy." Telegram users are able to send files of any type up to 2GB each and access them from any device, with no limit on cloud storage, which has made downloading files more popular on the platform. Telegram boasts 500 million users, who share information individually and in groups in relative security. But Telegram's use as a one-way broadcast channel — which followers can join but not reply to — means content from inauthentic accounts can easily reach large, captive and eager audiences. But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website. "The argument from Telegram is, 'You should trust us because we tell you that we're trustworthy,'" Maréchal said. "It's really in the eye of the beholder whether that's something you want to buy into."
from it


Telegram PWN AI
FROM American