Telegram Group & Telegram Channel
How we estimate the risk from prompt injection attacks on AI systems
Agentic AI Security Team at Google DeepMind, 2025
Блог

Пост не про DeepSeek. Agentic AI Security Team в Google DeepMind (есть там и такая) опубликовала вчера любопытный блог, в котором исследователи рассказали, как они защищают свои системы от indirect prompt injection. По их заявлениям, этот фреймворк для оценки защищённости LLM-систем является одним из кирпичиков их защиты, включающей специализированные системы защиты и мониторинг. Для Google это очень актуально, так как именно их системы были среди первых, в которых LLM стали обеспечивать работу пользователя с личными данными – почтой и документами в облаке – и среди первых, на которых вживую продемонстрировали, что непрямые инъекции затравки могут приводить к утечкам данных.

Суть фреймворка такова. Исследователи составляют некоторую синтетическую переписку пользователя с чатботом, в которой пользователь упоминает конфиденциальную информацию, например, номер паспорта. Чат-бот имеет функции чтения и отправки электронных писем. В конце переписки пользователь просит суммаризировать последний емейл. Цель атакующего составить такое письмо, чтобы заставить LLM отправить эти данные атакующему.

Для атаки используется автоматизированный фреймворк, содержащий несколько оптимизационных атак, что позволяет автоматизировать тестирование. Эти атаки включают:

1. Actor-Critic: атакующая LLM генерирует инъекции. Они передаются системе, которая возвращает вероятность, что атака будет успешной (как она высчитывается – непонятно, вероятно, это оценка от самой LLM в основе симулированного сервиса). Атакующая модель меняет свой подход в зависимости от оценки.
2. Beam search: создается очень простая прямая инъекция. Если модель распознает ее как таковую и отказывается от ответа, к ней добавляется случайный токен. Если вероятность успеха атаки растет, добавляется еще один токен, иначе токен заменяется на иной. Повторяется до успешной инъекции.
3. Адаптация Tree of attack with pruning (TAP): вариант Actor-Critic, но с большими ограничениями. В этой версии у атакующего нет доступа к оценкам – только к ответу чат-бота (что, кстати, все ещё является сильным допущением).

Когда генерируется успешная инъекция, она применяется к широкому набору потенциальных диалогов и чувствительных данных и измеряется ее ASR. Получившиеся атаки используются для разработки новых средств защиты.

Отчет, как часто бывает в Google Security Blog, очень короткий и деталями не изобилует, но достаточно интересно то, какие именно атаки были выбраны в качестве наиболее результативных, в частности, интересно было узнать под адаптацию TAP (изначально задуманного для джейлбрейка) к инъекциям. Кроме того, сеттинг – почтовый агент, получающий опасное письмо – очень похож на подходящий к концу хакатон LLMail Inject от Microsoft. Кстати о Microsoft – интересно сравнить этот отчет, фокусирующийся на автоматизации, с вышедшим совсем недавно “Lessons from Red Teaming 100 Generative AI Products” от ребят из Редмонда, которые написали, что в центре AI-редтиминга находятся люди. Истина, наверное, где-то посередине.



group-telegram.com/llmsecurity/469
Create:
Last Update:

How we estimate the risk from prompt injection attacks on AI systems
Agentic AI Security Team at Google DeepMind, 2025
Блог

Пост не про DeepSeek. Agentic AI Security Team в Google DeepMind (есть там и такая) опубликовала вчера любопытный блог, в котором исследователи рассказали, как они защищают свои системы от indirect prompt injection. По их заявлениям, этот фреймворк для оценки защищённости LLM-систем является одним из кирпичиков их защиты, включающей специализированные системы защиты и мониторинг. Для Google это очень актуально, так как именно их системы были среди первых, в которых LLM стали обеспечивать работу пользователя с личными данными – почтой и документами в облаке – и среди первых, на которых вживую продемонстрировали, что непрямые инъекции затравки могут приводить к утечкам данных.

Суть фреймворка такова. Исследователи составляют некоторую синтетическую переписку пользователя с чатботом, в которой пользователь упоминает конфиденциальную информацию, например, номер паспорта. Чат-бот имеет функции чтения и отправки электронных писем. В конце переписки пользователь просит суммаризировать последний емейл. Цель атакующего составить такое письмо, чтобы заставить LLM отправить эти данные атакующему.

Для атаки используется автоматизированный фреймворк, содержащий несколько оптимизационных атак, что позволяет автоматизировать тестирование. Эти атаки включают:

1. Actor-Critic: атакующая LLM генерирует инъекции. Они передаются системе, которая возвращает вероятность, что атака будет успешной (как она высчитывается – непонятно, вероятно, это оценка от самой LLM в основе симулированного сервиса). Атакующая модель меняет свой подход в зависимости от оценки.
2. Beam search: создается очень простая прямая инъекция. Если модель распознает ее как таковую и отказывается от ответа, к ней добавляется случайный токен. Если вероятность успеха атаки растет, добавляется еще один токен, иначе токен заменяется на иной. Повторяется до успешной инъекции.
3. Адаптация Tree of attack with pruning (TAP): вариант Actor-Critic, но с большими ограничениями. В этой версии у атакующего нет доступа к оценкам – только к ответу чат-бота (что, кстати, все ещё является сильным допущением).

Когда генерируется успешная инъекция, она применяется к широкому набору потенциальных диалогов и чувствительных данных и измеряется ее ASR. Получившиеся атаки используются для разработки новых средств защиты.

Отчет, как часто бывает в Google Security Blog, очень короткий и деталями не изобилует, но достаточно интересно то, какие именно атаки были выбраны в качестве наиболее результативных, в частности, интересно было узнать под адаптацию TAP (изначально задуманного для джейлбрейка) к инъекциям. Кроме того, сеттинг – почтовый агент, получающий опасное письмо – очень похож на подходящий к концу хакатон LLMail Inject от Microsoft. Кстати о Microsoft – интересно сравнить этот отчет, фокусирующийся на автоматизации, с вышедшим совсем недавно “Lessons from Red Teaming 100 Generative AI Products” от ребят из Редмонда, которые написали, что в центре AI-редтиминга находятся люди. Истина, наверное, где-то посередине.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/469

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Asked about its stance on disinformation, Telegram spokesperson Remi Vaughn told AFP: "As noted by our CEO, the sheer volume of information being shared on channels makes it extremely difficult to verify, so it's important that users double-check what they read." But because group chats and the channel features are not end-to-end encrypted, Galperin said user privacy is potentially under threat. The last couple days have exemplified that uncertainty. On Thursday, news emerged that talks in Turkey between the Russia and Ukraine yielded no positive result. But on Friday, Reuters reported that Russian President Vladimir Putin said there had been some “positive shifts” in talks between the two sides. Apparently upbeat developments in Russia's discussions with Ukraine helped at least temporarily send investors back into risk assets. Russian President Vladimir Putin said during a meeting with his Belarusian counterpart Alexander Lukashenko that there were "certain positive developments" occurring in the talks with Ukraine, according to a transcript of their meeting. Putin added that discussions were happening "almost on a daily basis." Although some channels have been removed, the curation process is considered opaque and insufficient by analysts.
from ye


Telegram llm security и каланы
FROM American