Telegram Group & Telegram Channel
Qwen3 Guard
Qwen Team, 2025
Техрепорт, блог, модели

Alibaba присоединилась к элитному клубу компаний (Meta и Google) с опенсорсными моделями для модерации, выпустив свою линейку цензоров под названием Qwen3Guard. Модели доступны в трех размерах (0.6B, 4B и 8B), поддерживают 119 языков.

Исследователи внимательно прочитали статью Anthropic про Constitutional Classifiers и выпустили модели двух видов. Generative Qwen3Guard определяет недопустимость запроса пользователя и полностью сгенерированного ответа модели через задачу языкового моделирования – на вопрос о недопустимости той или иной реплики выдает метку (safe, unsafe, controversial), категорию, если unsafe, а также refusal-метку (если последней репликой является метрика модели, является ли она отказом от выполнения инструкции). Вторая модель, Stream Qwen3Guard, имеет поверх выхода последнего скрытого слоя два классификатора: один обучен классификации промпта по аналогии с Generative-версией, а второй принимает на вход результат потоковой генерации от защищаемой модели по токену, позволяя детектировать недопустимые генерации на лету, не дожидаясь полной генерации.

Для обучения моделей исследователи определяют как недопустимые такие категории, как насилие, незаконная деятельность, взрослый контент, PII, суицид и самоповреждение, неэтичный контент (оскорбления, угрозы и т.д.), недопустимые политические заявления (видимо, снижающие социальный рейтинг), нарушение копирайта и джейлбрейки. Датасет со всем этим богатством составляет ~1,2 миллиона реплик, из которых 27% на китайском, 21% на английском, 5,3% на русском, плюс остальные языки (мультиязычность обеспечивается машинным переводом). Значительная часть запросов генерируется синтетически на базе подробной таксономии внутри категорий, с помощью ключевых слов и, что достаточно находчиво, путем генерации отрицательных примеров на базе структурной схожести с недопустимыми (например, для how to make a bomb будет сгенерирован how to make a cake).

При обучении Generative-модели использовали обычный SFT. При этом в процессе обучения исследователи заметили удивительную (нет) вещь, что баланс классов на трейне влияет на результат. Обучив по две модели с разными распределениями меток (много чистого и мало недопустимого и наоборот) на двух половинах датасета, исследователи переразметили каждой из моделей трейн другой модели. Если более строгая (много недопустимого в обучении) разметила реплику как недопустимую, а менее строгая как допустимую, то объект получает метку controversial. Вот такие class_weight и пороги для классов из мира LLM. Stream-Qwen3 обучается обычной кросс-энтропией (причем из текста следует, что обучаются только однослойные классификационные головы). Предсказываются одновременно безопасность и категория промпта и безопасность и категория ответа для каждого токена, причем лосс для категории используется, только если голова, отвечающая за безопасность, предсказала unsafe или controversial. Чтобы уменьшить false positive rate, при применении потокового классификатора под срабатыванием подразумевается положительный вердикт на двух токенах подряд.

По результатам оценок, разумеется, самый маленький Generative Qwen на 0.6B обгоняет и ShieldGemma 27B, и LlamaGuard4-12B на классификации как промптов, так и ответов. Исследователи, правда, выбирают, включать или не включать controversial в unsafe при подсчете на каждом из бенчмарков, исходя из того, что дает лучшую цифру, то есть буквально тюнят порог на тест-сете – такие вот тонкости вычисления метрик в Поднебесной. Stream-модели показывают себя чуть хуже, но все еще на уровне, падение качества достаточно небольшое.

Модели любопытные, особенно стриминговая на 0.6B – если она дает достаточно терпимый FPR, то ее вполне можно использовать для онлайн-модерации, хотя видно, что как раз у малышки multilingual-метрики проседают по сравнению с en/zh. Выглядит это все, конечно, слишком здорово, поэтому только практика покажет, насколько модели действительно применимы на практике. Как минимум, подобно другим квенам, они могут стать базой для тюнинга русскоязычных модераторов.
👍9🥰2



group-telegram.com/llmsecurity/634
Create:
Last Update:

Qwen3 Guard
Qwen Team, 2025
Техрепорт, блог, модели

Alibaba присоединилась к элитному клубу компаний (Meta и Google) с опенсорсными моделями для модерации, выпустив свою линейку цензоров под названием Qwen3Guard. Модели доступны в трех размерах (0.6B, 4B и 8B), поддерживают 119 языков.

Исследователи внимательно прочитали статью Anthropic про Constitutional Classifiers и выпустили модели двух видов. Generative Qwen3Guard определяет недопустимость запроса пользователя и полностью сгенерированного ответа модели через задачу языкового моделирования – на вопрос о недопустимости той или иной реплики выдает метку (safe, unsafe, controversial), категорию, если unsafe, а также refusal-метку (если последней репликой является метрика модели, является ли она отказом от выполнения инструкции). Вторая модель, Stream Qwen3Guard, имеет поверх выхода последнего скрытого слоя два классификатора: один обучен классификации промпта по аналогии с Generative-версией, а второй принимает на вход результат потоковой генерации от защищаемой модели по токену, позволяя детектировать недопустимые генерации на лету, не дожидаясь полной генерации.

Для обучения моделей исследователи определяют как недопустимые такие категории, как насилие, незаконная деятельность, взрослый контент, PII, суицид и самоповреждение, неэтичный контент (оскорбления, угрозы и т.д.), недопустимые политические заявления (видимо, снижающие социальный рейтинг), нарушение копирайта и джейлбрейки. Датасет со всем этим богатством составляет ~1,2 миллиона реплик, из которых 27% на китайском, 21% на английском, 5,3% на русском, плюс остальные языки (мультиязычность обеспечивается машинным переводом). Значительная часть запросов генерируется синтетически на базе подробной таксономии внутри категорий, с помощью ключевых слов и, что достаточно находчиво, путем генерации отрицательных примеров на базе структурной схожести с недопустимыми (например, для how to make a bomb будет сгенерирован how to make a cake).

При обучении Generative-модели использовали обычный SFT. При этом в процессе обучения исследователи заметили удивительную (нет) вещь, что баланс классов на трейне влияет на результат. Обучив по две модели с разными распределениями меток (много чистого и мало недопустимого и наоборот) на двух половинах датасета, исследователи переразметили каждой из моделей трейн другой модели. Если более строгая (много недопустимого в обучении) разметила реплику как недопустимую, а менее строгая как допустимую, то объект получает метку controversial. Вот такие class_weight и пороги для классов из мира LLM. Stream-Qwen3 обучается обычной кросс-энтропией (причем из текста следует, что обучаются только однослойные классификационные головы). Предсказываются одновременно безопасность и категория промпта и безопасность и категория ответа для каждого токена, причем лосс для категории используется, только если голова, отвечающая за безопасность, предсказала unsafe или controversial. Чтобы уменьшить false positive rate, при применении потокового классификатора под срабатыванием подразумевается положительный вердикт на двух токенах подряд.

По результатам оценок, разумеется, самый маленький Generative Qwen на 0.6B обгоняет и ShieldGemma 27B, и LlamaGuard4-12B на классификации как промптов, так и ответов. Исследователи, правда, выбирают, включать или не включать controversial в unsafe при подсчете на каждом из бенчмарков, исходя из того, что дает лучшую цифру, то есть буквально тюнят порог на тест-сете – такие вот тонкости вычисления метрик в Поднебесной. Stream-модели показывают себя чуть хуже, но все еще на уровне, падение качества достаточно небольшое.

Модели любопытные, особенно стриминговая на 0.6B – если она дает достаточно терпимый FPR, то ее вполне можно использовать для онлайн-модерации, хотя видно, что как раз у малышки multilingual-метрики проседают по сравнению с en/zh. Выглядит это все, конечно, слишком здорово, поэтому только практика покажет, насколько модели действительно применимы на практике. Как минимум, подобно другим квенам, они могут стать базой для тюнинга русскоязычных модераторов.

BY llm security и каланы











Share with your friend now:
group-telegram.com/llmsecurity/634

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Right now the digital security needs of Russians and Ukrainians are very different, and they lead to very different caveats about how to mitigate the risks associated with using Telegram. For Ukrainians in Ukraine, whose physical safety is at risk because they are in a war zone, digital security is probably not their highest priority. They may value access to news and communication with their loved ones over making sure that all of their communications are encrypted in such a manner that they are indecipherable to Telegram, its employees, or governments with court orders. Ukrainian forces have since put up a strong resistance to the Russian troops amid the war that has left hundreds of Ukrainian civilians, including children, dead, according to the United Nations. Ukrainian and international officials have accused Russia of targeting civilian populations with shelling and bombardments. Telegram, which does little policing of its content, has also became a hub for Russian propaganda and misinformation. Many pro-Kremlin channels have become popular, alongside accounts of journalists and other independent observers. The S&P 500 fell 1.3% to 4,204.36, and the Dow Jones Industrial Average was down 0.7% to 32,943.33. The Dow posted a fifth straight weekly loss — its longest losing streak since 2019. The Nasdaq Composite tumbled 2.2% to 12,843.81. Though all three indexes opened in the green, stocks took a turn after a new report showed U.S. consumer sentiment deteriorated more than expected in early March as consumers' inflation expectations soared to the highest since 1981. Russian President Vladimir Putin launched Russia's invasion of Ukraine in the early-morning hours of February 24, targeting several key cities with military strikes.
from ca


Telegram llm security и каланы
FROM American