ShieldGemma: Generative AI Content Moderation Based on Gemma ShieldGemma Team, Google LLC, 2024 Отчет, документация, модель
Хотя элайнмент – это здорово и полезно, самым эффективным методом защиты публичных чат-ботов от пользователей, требующих рецепты тротила, является модерация (цензурирование) входов и выходов. Мы уже читали про Llama Guard и упоминали Prompt Guard, входящие в Purple Llama, теперь посмотрим на вышедшее неделю назад семейство моделей ShieldGemma от Google. Релиз включает в себя три модели (2B, 9B и 27B параметров), основанные на соответствующего размера моделях Gemma-2, способные фильтровать данные по четырем категориям:
- сексуализированный контент - опасный контент (как делать опасные вещества и совершать преступления) - оскорбления и угрозы (harassment) - разжигание ненависти (hate speech)
В статье упоминается, что всего в Google рассматривают шесть опасных категорий, но категории «насилие» и «нецензурная брань» при расчете метрик не применялись.
Обученный цензор должен не допустить а) ввода от пользователя, который запрашивает у модели генерацию контента, подпадающего под эти категории б) вывода моделью текста, относящегося к этим категориям.
ShieldGemma: Generative AI Content Moderation Based on Gemma ShieldGemma Team, Google LLC, 2024 Отчет, документация, модель
Хотя элайнмент – это здорово и полезно, самым эффективным методом защиты публичных чат-ботов от пользователей, требующих рецепты тротила, является модерация (цензурирование) входов и выходов. Мы уже читали про Llama Guard и упоминали Prompt Guard, входящие в Purple Llama, теперь посмотрим на вышедшее неделю назад семейство моделей ShieldGemma от Google. Релиз включает в себя три модели (2B, 9B и 27B параметров), основанные на соответствующего размера моделях Gemma-2, способные фильтровать данные по четырем категориям:
- сексуализированный контент - опасный контент (как делать опасные вещества и совершать преступления) - оскорбления и угрозы (harassment) - разжигание ненависти (hate speech)
В статье упоминается, что всего в Google рассматривают шесть опасных категорий, но категории «насилие» и «нецензурная брань» при расчете метрик не применялись.
Обученный цензор должен не допустить а) ввода от пользователя, который запрашивает у модели генерацию контента, подпадающего под эти категории б) вывода моделью текста, относящегося к этим категориям.
There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine. Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. Telegram was founded in 2013 by two Russian brothers, Nikolai and Pavel Durov. The next bit isn’t clear, but Durov reportedly claimed that his resignation, dated March 21st, was an April Fools’ prank. TechCrunch implies that it was a matter of principle, but it’s hard to be clear on the wheres, whos and whys. Similarly, on April 17th, the Moscow Times quoted Durov as saying that he quit the company after being pressured to reveal account details about Ukrainians protesting the then-president Viktor Yanukovych. Under the Sebi Act, the regulator has the power to carry out search and seizure of books, registers, documents including electronics and digital devices from any person associated with the securities market.
from pl