Telegram Group & Telegram Channel
ShieldGemma: Generative AI Content Moderation Based on Gemma
ShieldGemma Team, Google LLC, 2024
Отчет, документация, модель

Хотя элайнмент – это здорово и полезно, самым эффективным методом защиты публичных чат-ботов от пользователей, требующих рецепты тротила, является модерация (цензурирование) входов и выходов. Мы уже читали про Llama Guard и упоминали Prompt Guard, входящие в Purple Llama, теперь посмотрим на вышедшее неделю назад семейство моделей ShieldGemma от Google. Релиз включает в себя три модели (2B, 9B и 27B параметров), основанные на соответствующего размера моделях Gemma-2, способные фильтровать данные по четырем категориям:

- сексуализированный контент
- опасный контент (как делать опасные вещества и совершать преступления)
- оскорбления и угрозы (harassment)
- разжигание ненависти (hate speech)

В статье упоминается, что всего в Google рассматривают шесть опасных категорий, но категории «насилие» и «нецензурная брань» при расчете метрик не применялись.

Обученный цензор должен не допустить а) ввода от пользователя, который запрашивает у модели генерацию контента, подпадающего под эти категории б) вывода моделью текста, относящегося к этим категориям.
👍2



group-telegram.com/llmsecurity/255
Create:
Last Update:

ShieldGemma: Generative AI Content Moderation Based on Gemma
ShieldGemma Team, Google LLC, 2024
Отчет, документация, модель

Хотя элайнмент – это здорово и полезно, самым эффективным методом защиты публичных чат-ботов от пользователей, требующих рецепты тротила, является модерация (цензурирование) входов и выходов. Мы уже читали про Llama Guard и упоминали Prompt Guard, входящие в Purple Llama, теперь посмотрим на вышедшее неделю назад семейство моделей ShieldGemma от Google. Релиз включает в себя три модели (2B, 9B и 27B параметров), основанные на соответствующего размера моделях Gemma-2, способные фильтровать данные по четырем категориям:

- сексуализированный контент
- опасный контент (как делать опасные вещества и совершать преступления)
- оскорбления и угрозы (harassment)
- разжигание ненависти (hate speech)

В статье упоминается, что всего в Google рассматривают шесть опасных категорий, но категории «насилие» и «нецензурная брань» при расчете метрик не применялись.

Обученный цензор должен не допустить а) ввода от пользователя, который запрашивает у модели генерацию контента, подпадающего под эти категории б) вывода моделью текста, относящегося к этим категориям.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/255

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Although some channels have been removed, the curation process is considered opaque and insufficient by analysts. The account, "War on Fakes," was created on February 24, the same day Russian President Vladimir Putin announced a "special military operation" and troops began invading Ukraine. The page is rife with disinformation, according to The Atlantic Council's Digital Forensic Research Lab, which studies digital extremism and published a report examining the channel. Telegram was co-founded by Pavel and Nikolai Durov, the brothers who had previously created VKontakte. VK is Russia’s equivalent of Facebook, a social network used for public and private messaging, audio and video sharing as well as online gaming. In January, SimpleWeb reported that VK was Russia’s fourth most-visited website, after Yandex, YouTube and Google’s Russian-language homepage. In 2016, Forbes’ Michael Solomon described Pavel Durov (pictured, below) as the “Mark Zuckerberg of Russia.” Despite Telegram's origins, its approach to users' security has privacy advocates worried. The last couple days have exemplified that uncertainty. On Thursday, news emerged that talks in Turkey between the Russia and Ukraine yielded no positive result. But on Friday, Reuters reported that Russian President Vladimir Putin said there had been some “positive shifts” in talks between the two sides.
from tr


Telegram llm security и каланы
FROM American