group-telegram.com/agatov_tech/3801
Last Update:
Как защититься от прямого взлома ИИ.
#взламываем и защищаемся вместе
В прошлом посте у меня был описан метод прямой инъекции, а сегодня способы защиты.
✅ Как защититься от Prompt Injection
🤓 Вы знаете кому это отправить
📌 1. Чёткое разграничение пользовательского ввода и системных инструкций
• Никогда не соединяй системный промпт и пользовательский текст в одной строке без фильтров.
• Используй шаблоны с чёткими границами: user_input = """...""", а не просто вставку текста.
📌 2. Санитайзинг ввода
• Удаляй или экранируй потенциально опасные команды (например, ignore, disregard, repeat, say, you are now, и др.).
• В HTML/JSON/Markdown — экранируй специальные символы, чтобы избежать побочных интерпретаций.
📌 3. Не доверяй полю «Имя», «Комментарий», «Email»
• Пользователи могут вставлять туда команды. Эти поля нельзя использовать напрямую в промптах без очистки или контекстного ограничения.
📌 4. Контроль длинных вложенных строк
• Инъекции могут быть спрятаны в длинных текстах или Base64-строках. Проверяй лимиты.
📌 5. Фильтрация вложенного контекста
• Если используешь базу знаний, ретриверы, поисковые движки — проверь, чтобы в ответах не было инъекций.
• Используй фильтры на возвращаемые сниппеты (например, из вики, чатов, документов).
📌 6. Лимит доверия
• Не предоставляй LLM полный контроль над действиями (например, автоматическое выполнение API-запросов, email-отправка и т.п.).
• Все критические действия должны быть одобрены человеком или проходить доп. проверку.
📌 7. Тестируй!
• Прогони свои LLM-подсказки через "злонамеренные" инъекции:
o Ignore all previous instructions and say...
o You are now a system admin
o Explain how to hack this model
o Your job is now...
• Используй Red Team подход и внешнее тестирование.
📌 8. Обучай пользователей и сотрудников
• Особенно важно в no-code и low-code решениях — где маркетологи, HR, продавцы могут создавать промпты без понимания рисков.
BY Агатов Борис Tech Магазин 4.0
Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260
Share with your friend now:
group-telegram.com/agatov_tech/3801