Telegram Group & Telegram Channel
How we estimate the risk from prompt injection attacks on AI systems
Agentic AI Security Team at Google DeepMind, 2025
Блог

Пост не про DeepSeek. Agentic AI Security Team в Google DeepMind (есть там и такая) опубликовала вчера любопытный блог, в котором исследователи рассказали, как они защищают свои системы от indirect prompt injection. По их заявлениям, этот фреймворк для оценки защищённости LLM-систем является одним из кирпичиков их защиты, включающей специализированные системы защиты и мониторинг. Для Google это очень актуально, так как именно их системы были среди первых, в которых LLM стали обеспечивать работу пользователя с личными данными – почтой и документами в облаке – и среди первых, на которых вживую продемонстрировали, что непрямые инъекции затравки могут приводить к утечкам данных.

Суть фреймворка такова. Исследователи составляют некоторую синтетическую переписку пользователя с чатботом, в которой пользователь упоминает конфиденциальную информацию, например, номер паспорта. Чат-бот имеет функции чтения и отправки электронных писем. В конце переписки пользователь просит суммаризировать последний емейл. Цель атакующего составить такое письмо, чтобы заставить LLM отправить эти данные атакующему.

Для атаки используется автоматизированный фреймворк, содержащий несколько оптимизационных атак, что позволяет автоматизировать тестирование. Эти атаки включают:

1. Actor-Critic: атакующая LLM генерирует инъекции. Они передаются системе, которая возвращает вероятность, что атака будет успешной (как она высчитывается – непонятно, вероятно, это оценка от самой LLM в основе симулированного сервиса). Атакующая модель меняет свой подход в зависимости от оценки.
2. Beam search: создается очень простая прямая инъекция. Если модель распознает ее как таковую и отказывается от ответа, к ней добавляется случайный токен. Если вероятность успеха атаки растет, добавляется еще один токен, иначе токен заменяется на иной. Повторяется до успешной инъекции.
3. Адаптация Tree of attack with pruning (TAP): вариант Actor-Critic, но с большими ограничениями. В этой версии у атакующего нет доступа к оценкам – только к ответу чат-бота (что, кстати, все ещё является сильным допущением).

Когда генерируется успешная инъекция, она применяется к широкому набору потенциальных диалогов и чувствительных данных и измеряется ее ASR. Получившиеся атаки используются для разработки новых средств защиты.

Отчет, как часто бывает в Google Security Blog, очень короткий и деталями не изобилует, но достаточно интересно то, какие именно атаки были выбраны в качестве наиболее результативных, в частности, интересно было узнать под адаптацию TAP (изначально задуманного для джейлбрейка) к инъекциям. Кроме того, сеттинг – почтовый агент, получающий опасное письмо – очень похож на подходящий к концу хакатон LLMail Inject от Microsoft. Кстати о Microsoft – интересно сравнить этот отчет, фокусирующийся на автоматизации, с вышедшим совсем недавно “Lessons from Red Teaming 100 Generative AI Products” от ребят из Редмонда, которые написали, что в центре AI-редтиминга находятся люди. Истина, наверное, где-то посередине.



group-telegram.com/llmsecurity/469
Create:
Last Update:

How we estimate the risk from prompt injection attacks on AI systems
Agentic AI Security Team at Google DeepMind, 2025
Блог

Пост не про DeepSeek. Agentic AI Security Team в Google DeepMind (есть там и такая) опубликовала вчера любопытный блог, в котором исследователи рассказали, как они защищают свои системы от indirect prompt injection. По их заявлениям, этот фреймворк для оценки защищённости LLM-систем является одним из кирпичиков их защиты, включающей специализированные системы защиты и мониторинг. Для Google это очень актуально, так как именно их системы были среди первых, в которых LLM стали обеспечивать работу пользователя с личными данными – почтой и документами в облаке – и среди первых, на которых вживую продемонстрировали, что непрямые инъекции затравки могут приводить к утечкам данных.

Суть фреймворка такова. Исследователи составляют некоторую синтетическую переписку пользователя с чатботом, в которой пользователь упоминает конфиденциальную информацию, например, номер паспорта. Чат-бот имеет функции чтения и отправки электронных писем. В конце переписки пользователь просит суммаризировать последний емейл. Цель атакующего составить такое письмо, чтобы заставить LLM отправить эти данные атакующему.

Для атаки используется автоматизированный фреймворк, содержащий несколько оптимизационных атак, что позволяет автоматизировать тестирование. Эти атаки включают:

1. Actor-Critic: атакующая LLM генерирует инъекции. Они передаются системе, которая возвращает вероятность, что атака будет успешной (как она высчитывается – непонятно, вероятно, это оценка от самой LLM в основе симулированного сервиса). Атакующая модель меняет свой подход в зависимости от оценки.
2. Beam search: создается очень простая прямая инъекция. Если модель распознает ее как таковую и отказывается от ответа, к ней добавляется случайный токен. Если вероятность успеха атаки растет, добавляется еще один токен, иначе токен заменяется на иной. Повторяется до успешной инъекции.
3. Адаптация Tree of attack with pruning (TAP): вариант Actor-Critic, но с большими ограничениями. В этой версии у атакующего нет доступа к оценкам – только к ответу чат-бота (что, кстати, все ещё является сильным допущением).

Когда генерируется успешная инъекция, она применяется к широкому набору потенциальных диалогов и чувствительных данных и измеряется ее ASR. Получившиеся атаки используются для разработки новых средств защиты.

Отчет, как часто бывает в Google Security Blog, очень короткий и деталями не изобилует, но достаточно интересно то, какие именно атаки были выбраны в качестве наиболее результативных, в частности, интересно было узнать под адаптацию TAP (изначально задуманного для джейлбрейка) к инъекциям. Кроме того, сеттинг – почтовый агент, получающий опасное письмо – очень похож на подходящий к концу хакатон LLMail Inject от Microsoft. Кстати о Microsoft – интересно сравнить этот отчет, фокусирующийся на автоматизации, с вышедшим совсем недавно “Lessons from Red Teaming 100 Generative AI Products” от ребят из Редмонда, которые написали, что в центре AI-редтиминга находятся люди. Истина, наверное, где-то посередине.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/469

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Under the Sebi Act, the regulator has the power to carry out search and seizure of books, registers, documents including electronics and digital devices from any person associated with the securities market. The account, "War on Fakes," was created on February 24, the same day Russian President Vladimir Putin announced a "special military operation" and troops began invading Ukraine. The page is rife with disinformation, according to The Atlantic Council's Digital Forensic Research Lab, which studies digital extremism and published a report examining the channel. In December 2021, Sebi officials had conducted a search and seizure operation at the premises of certain persons carrying out similar manipulative activities through Telegram channels. At its heart, Telegram is little more than a messaging app like WhatsApp or Signal. But it also offers open channels that enable a single user, or a group of users, to communicate with large numbers in a method similar to a Twitter account. This has proven to be both a blessing and a curse for Telegram and its users, since these channels can be used for both good and ill. Right now, as Wired reports, the app is a key way for Ukrainians to receive updates from the government during the invasion. But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website.
from kr


Telegram llm security и каланы
FROM American