ShieldGemma: Generative AI Content Moderation Based on Gemma

llm security и каланы

ShieldGemma: Generative AI Content Moderation Based on Gemma
ShieldGemma Team, Google LLC, 2024
Отчет, документация, модель

Хотя элайнмент – это здорово и полезно, самым эффективным методом защиты публичных чат-ботов от пользователей, требующих рецепты тротила, является модерация (цензурирование) входов и выходов. Мы уже читали про Llama Guard и упоминали Prompt Guard, входящие в Purple Llama, теперь посмотрим на вышедшее неделю назад семейство моделей ShieldGemma от Google. Релиз включает в себя три модели (2B, 9B и 27B параметров), основанные на соответствующего размера моделях Gemma-2, способные фильтровать данные по четырем категориям:

- сексуализированный контент
- опасный контент (как делать опасные вещества и совершать преступления)
- оскорбления и угрозы (harassment)
- разжигание ненависти (hate speech)

В статье упоминается, что всего в Google рассматривают шесть опасных категорий, но категории «насилие» и «нецензурная брань» при расчете метрик не применялись.

Обученный цензор должен не допустить а) ввода от пользователя, который запрашивает у модели генерацию контента, подпадающего под эти категории б) вывода моделью текста, относящегося к этим категориям.

arXiv.org

We present ShieldGemma, a comprehensive suite of LLM-based safety content moderation models built upon Gemma2. These models provide robust, state-of-the-art predictions of safety risks across key...

👍2

www.group-telegram.com/us/llmsecurity.com/255

174 viewsAug 9, 2024 at 08:44