Telegram Group & Telegram Channel
Qwen3 Guard
Qwen Team, 2025
Техрепорт, блог, модели

Alibaba присоединилась к элитному клубу компаний (Meta и Google) с опенсорсными моделями для модерации, выпустив свою линейку цензоров под названием Qwen3Guard. Модели доступны в трех размерах (0.6B, 4B и 8B), поддерживают 119 языков.

Исследователи внимательно прочитали статью Anthropic про Constitutional Classifiers и выпустили модели двух видов. Generative Qwen3Guard определяет недопустимость запроса пользователя и полностью сгенерированного ответа модели через задачу языкового моделирования – на вопрос о недопустимости той или иной реплики выдает метку (safe, unsafe, controversial), категорию, если unsafe, а также refusal-метку (если последней репликой является метрика модели, является ли она отказом от выполнения инструкции). Вторая модель, Stream Qwen3Guard, имеет поверх выхода последнего скрытого слоя два классификатора: один обучен классификации промпта по аналогии с Generative-версией, а второй принимает на вход результат потоковой генерации от защищаемой модели по токену, позволяя детектировать недопустимые генерации на лету, не дожидаясь полной генерации.

Для обучения моделей исследователи определяют как недопустимые такие категории, как насилие, незаконная деятельность, взрослый контент, PII, суицид и самоповреждение, неэтичный контент (оскорбления, угрозы и т.д.), недопустимые политические заявления (видимо, снижающие социальный рейтинг), нарушение копирайта и джейлбрейки. Датасет со всем этим богатством составляет ~1,2 миллиона реплик, из которых 27% на китайском, 21% на английском, 5,3% на русском, плюс остальные языки (мультиязычность обеспечивается машинным переводом). Значительная часть запросов генерируется синтетически на базе подробной таксономии внутри категорий, с помощью ключевых слов и, что достаточно находчиво, путем генерации отрицательных примеров на базе структурной схожести с недопустимыми (например, для how to make a bomb будет сгенерирован how to make a cake).

При обучении Generative-модели использовали обычный SFT. При этом в процессе обучения исследователи заметили удивительную (нет) вещь, что баланс классов на трейне влияет на результат. Обучив по две модели с разными распределениями меток (много чистого и мало недопустимого и наоборот) на двух половинах датасета, исследователи переразметили каждой из моделей трейн другой модели. Если более строгая (много недопустимого в обучении) разметила реплику как недопустимую, а менее строгая как допустимую, то объект получает метку controversial. Вот такие class_weight и пороги для классов из мира LLM. Stream-Qwen3 обучается обычной кросс-энтропией (причем из текста следует, что обучаются только однослойные классификационные головы). Предсказываются одновременно безопасность и категория промпта и безопасность и категория ответа для каждого токена, причем лосс для категории используется, только если голова, отвечающая за безопасность, предсказала unsafe или controversial. Чтобы уменьшить false positive rate, при применении потокового классификатора под срабатыванием подразумевается положительный вердикт на двух токенах подряд.

По результатам оценок, разумеется, самый маленький Generative Qwen на 0.6B обгоняет и ShieldGemma 27B, и LlamaGuard4-12B на классификации как промптов, так и ответов. Исследователи, правда, выбирают, включать или не включать controversial в unsafe при подсчете на каждом из бенчмарков, исходя из того, что дает лучшую цифру, то есть буквально тюнят порог на тест-сете – такие вот тонкости вычисления метрик в Поднебесной. Stream-модели показывают себя чуть хуже, но все еще на уровне, падение качества достаточно небольшое.

Модели любопытные, особенно стриминговая на 0.6B – если она дает достаточно терпимый FPR, то ее вполне можно использовать для онлайн-модерации, хотя видно, что как раз у малышки multilingual-метрики проседают по сравнению с en/zh. Выглядит это все, конечно, слишком здорово, поэтому только практика покажет, насколько модели действительно применимы на практике. Как минимум, подобно другим квенам, они могут стать базой для тюнинга русскоязычных модераторов.
👍9🥰2



group-telegram.com/llmsecurity/634
Create:
Last Update:

Qwen3 Guard
Qwen Team, 2025
Техрепорт, блог, модели

Alibaba присоединилась к элитному клубу компаний (Meta и Google) с опенсорсными моделями для модерации, выпустив свою линейку цензоров под названием Qwen3Guard. Модели доступны в трех размерах (0.6B, 4B и 8B), поддерживают 119 языков.

Исследователи внимательно прочитали статью Anthropic про Constitutional Classifiers и выпустили модели двух видов. Generative Qwen3Guard определяет недопустимость запроса пользователя и полностью сгенерированного ответа модели через задачу языкового моделирования – на вопрос о недопустимости той или иной реплики выдает метку (safe, unsafe, controversial), категорию, если unsafe, а также refusal-метку (если последней репликой является метрика модели, является ли она отказом от выполнения инструкции). Вторая модель, Stream Qwen3Guard, имеет поверх выхода последнего скрытого слоя два классификатора: один обучен классификации промпта по аналогии с Generative-версией, а второй принимает на вход результат потоковой генерации от защищаемой модели по токену, позволяя детектировать недопустимые генерации на лету, не дожидаясь полной генерации.

Для обучения моделей исследователи определяют как недопустимые такие категории, как насилие, незаконная деятельность, взрослый контент, PII, суицид и самоповреждение, неэтичный контент (оскорбления, угрозы и т.д.), недопустимые политические заявления (видимо, снижающие социальный рейтинг), нарушение копирайта и джейлбрейки. Датасет со всем этим богатством составляет ~1,2 миллиона реплик, из которых 27% на китайском, 21% на английском, 5,3% на русском, плюс остальные языки (мультиязычность обеспечивается машинным переводом). Значительная часть запросов генерируется синтетически на базе подробной таксономии внутри категорий, с помощью ключевых слов и, что достаточно находчиво, путем генерации отрицательных примеров на базе структурной схожести с недопустимыми (например, для how to make a bomb будет сгенерирован how to make a cake).

При обучении Generative-модели использовали обычный SFT. При этом в процессе обучения исследователи заметили удивительную (нет) вещь, что баланс классов на трейне влияет на результат. Обучив по две модели с разными распределениями меток (много чистого и мало недопустимого и наоборот) на двух половинах датасета, исследователи переразметили каждой из моделей трейн другой модели. Если более строгая (много недопустимого в обучении) разметила реплику как недопустимую, а менее строгая как допустимую, то объект получает метку controversial. Вот такие class_weight и пороги для классов из мира LLM. Stream-Qwen3 обучается обычной кросс-энтропией (причем из текста следует, что обучаются только однослойные классификационные головы). Предсказываются одновременно безопасность и категория промпта и безопасность и категория ответа для каждого токена, причем лосс для категории используется, только если голова, отвечающая за безопасность, предсказала unsafe или controversial. Чтобы уменьшить false positive rate, при применении потокового классификатора под срабатыванием подразумевается положительный вердикт на двух токенах подряд.

По результатам оценок, разумеется, самый маленький Generative Qwen на 0.6B обгоняет и ShieldGemma 27B, и LlamaGuard4-12B на классификации как промптов, так и ответов. Исследователи, правда, выбирают, включать или не включать controversial в unsafe при подсчете на каждом из бенчмарков, исходя из того, что дает лучшую цифру, то есть буквально тюнят порог на тест-сете – такие вот тонкости вычисления метрик в Поднебесной. Stream-модели показывают себя чуть хуже, но все еще на уровне, падение качества достаточно небольшое.

Модели любопытные, особенно стриминговая на 0.6B – если она дает достаточно терпимый FPR, то ее вполне можно использовать для онлайн-модерации, хотя видно, что как раз у малышки multilingual-метрики проседают по сравнению с en/zh. Выглядит это все, конечно, слишком здорово, поэтому только практика покажет, насколько модели действительно применимы на практике. Как минимум, подобно другим квенам, они могут стать базой для тюнинга русскоязычных модераторов.

BY llm security и каланы











Share with your friend now:
group-telegram.com/llmsecurity/634

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. Sebi said data, emails and other documents are being retrieved from the seized devices and detailed investigation is in progress. Stocks dropped on Friday afternoon, as gains made earlier in the day on hopes for diplomatic progress between Russia and Ukraine turned to losses. Technology stocks were hit particularly hard by higher bond yields. Channels are not fully encrypted, end-to-end. All communications on a Telegram channel can be seen by anyone on the channel and are also visible to Telegram. Telegram may be asked by a government to hand over the communications from a channel. Telegram has a history of standing up to Russian government requests for data, but how comfortable you are relying on that history to predict future behavior is up to you. Because Telegram has this data, it may also be stolen by hackers or leaked by an internal employee. As a result, the pandemic saw many newcomers to Telegram, including prominent anti-vaccine activists who used the app's hands-off approach to share false information on shots, a study from the Institute for Strategic Dialogue shows.
from nl


Telegram llm security и каланы
FROM American