Telegram Group & Telegram Channel
Qwen3 Guard
Qwen Team, 2025
Техрепорт, блог, модели

Alibaba присоединилась к элитному клубу компаний (Meta и Google) с опенсорсными моделями для модерации, выпустив свою линейку цензоров под названием Qwen3Guard. Модели доступны в трех размерах (0.6B, 4B и 8B), поддерживают 119 языков.

Исследователи внимательно прочитали статью Anthropic про Constitutional Classifiers и выпустили модели двух видов. Generative Qwen3Guard определяет недопустимость запроса пользователя и полностью сгенерированного ответа модели через задачу языкового моделирования – на вопрос о недопустимости той или иной реплики выдает метку (safe, unsafe, controversial), категорию, если unsafe, а также refusal-метку (если последней репликой является метрика модели, является ли она отказом от выполнения инструкции). Вторая модель, Stream Qwen3Guard, имеет поверх выхода последнего скрытого слоя два классификатора: один обучен классификации промпта по аналогии с Generative-версией, а второй принимает на вход результат потоковой генерации от защищаемой модели по токену, позволяя детектировать недопустимые генерации на лету, не дожидаясь полной генерации.

Для обучения моделей исследователи определяют как недопустимые такие категории, как насилие, незаконная деятельность, взрослый контент, PII, суицид и самоповреждение, неэтичный контент (оскорбления, угрозы и т.д.), недопустимые политические заявления (видимо, снижающие социальный рейтинг), нарушение копирайта и джейлбрейки. Датасет со всем этим богатством составляет ~1,2 миллиона реплик, из которых 27% на китайском, 21% на английском, 5,3% на русском, плюс остальные языки (мультиязычность обеспечивается машинным переводом). Значительная часть запросов генерируется синтетически на базе подробной таксономии внутри категорий, с помощью ключевых слов и, что достаточно находчиво, путем генерации отрицательных примеров на базе структурной схожести с недопустимыми (например, для how to make a bomb будет сгенерирован how to make a cake).

При обучении Generative-модели использовали обычный SFT. При этом в процессе обучения исследователи заметили удивительную (нет) вещь, что баланс классов на трейне влияет на результат. Обучив по две модели с разными распределениями меток (много чистого и мало недопустимого и наоборот) на двух половинах датасета, исследователи переразметили каждой из моделей трейн другой модели. Если более строгая (много недопустимого в обучении) разметила реплику как недопустимую, а менее строгая как допустимую, то объект получает метку controversial. Вот такие class_weight и пороги для классов из мира LLM. Stream-Qwen3 обучается обычной кросс-энтропией (причем из текста следует, что обучаются только однослойные классификационные головы). Предсказываются одновременно безопасность и категория промпта и безопасность и категория ответа для каждого токена, причем лосс для категории используется, только если голова, отвечающая за безопасность, предсказала unsafe или controversial. Чтобы уменьшить false positive rate, при применении потокового классификатора под срабатыванием подразумевается положительный вердикт на двух токенах подряд.

По результатам оценок, разумеется, самый маленький Generative Qwen на 0.6B обгоняет и ShieldGemma 27B, и LlamaGuard4-12B на классификации как промптов, так и ответов. Исследователи, правда, выбирают, включать или не включать controversial в unsafe при подсчете на каждом из бенчмарков, исходя из того, что дает лучшую цифру, то есть буквально тюнят порог на тест-сете – такие вот тонкости вычисления метрик в Поднебесной. Stream-модели показывают себя чуть хуже, но все еще на уровне, падение качества достаточно небольшое.

Модели любопытные, особенно стриминговая на 0.6B – если она дает достаточно терпимый FPR, то ее вполне можно использовать для онлайн-модерации, хотя видно, что как раз у малышки multilingual-метрики проседают по сравнению с en/zh. Выглядит это все, конечно, слишком здорово, поэтому только практика покажет, насколько модели действительно применимы на практике. Как минимум, подобно другим квенам, они могут стать базой для тюнинга русскоязычных модераторов.
👍9🥰2



group-telegram.com/llmsecurity/634
Create:
Last Update:

Qwen3 Guard
Qwen Team, 2025
Техрепорт, блог, модели

Alibaba присоединилась к элитному клубу компаний (Meta и Google) с опенсорсными моделями для модерации, выпустив свою линейку цензоров под названием Qwen3Guard. Модели доступны в трех размерах (0.6B, 4B и 8B), поддерживают 119 языков.

Исследователи внимательно прочитали статью Anthropic про Constitutional Classifiers и выпустили модели двух видов. Generative Qwen3Guard определяет недопустимость запроса пользователя и полностью сгенерированного ответа модели через задачу языкового моделирования – на вопрос о недопустимости той или иной реплики выдает метку (safe, unsafe, controversial), категорию, если unsafe, а также refusal-метку (если последней репликой является метрика модели, является ли она отказом от выполнения инструкции). Вторая модель, Stream Qwen3Guard, имеет поверх выхода последнего скрытого слоя два классификатора: один обучен классификации промпта по аналогии с Generative-версией, а второй принимает на вход результат потоковой генерации от защищаемой модели по токену, позволяя детектировать недопустимые генерации на лету, не дожидаясь полной генерации.

Для обучения моделей исследователи определяют как недопустимые такие категории, как насилие, незаконная деятельность, взрослый контент, PII, суицид и самоповреждение, неэтичный контент (оскорбления, угрозы и т.д.), недопустимые политические заявления (видимо, снижающие социальный рейтинг), нарушение копирайта и джейлбрейки. Датасет со всем этим богатством составляет ~1,2 миллиона реплик, из которых 27% на китайском, 21% на английском, 5,3% на русском, плюс остальные языки (мультиязычность обеспечивается машинным переводом). Значительная часть запросов генерируется синтетически на базе подробной таксономии внутри категорий, с помощью ключевых слов и, что достаточно находчиво, путем генерации отрицательных примеров на базе структурной схожести с недопустимыми (например, для how to make a bomb будет сгенерирован how to make a cake).

При обучении Generative-модели использовали обычный SFT. При этом в процессе обучения исследователи заметили удивительную (нет) вещь, что баланс классов на трейне влияет на результат. Обучив по две модели с разными распределениями меток (много чистого и мало недопустимого и наоборот) на двух половинах датасета, исследователи переразметили каждой из моделей трейн другой модели. Если более строгая (много недопустимого в обучении) разметила реплику как недопустимую, а менее строгая как допустимую, то объект получает метку controversial. Вот такие class_weight и пороги для классов из мира LLM. Stream-Qwen3 обучается обычной кросс-энтропией (причем из текста следует, что обучаются только однослойные классификационные головы). Предсказываются одновременно безопасность и категория промпта и безопасность и категория ответа для каждого токена, причем лосс для категории используется, только если голова, отвечающая за безопасность, предсказала unsafe или controversial. Чтобы уменьшить false positive rate, при применении потокового классификатора под срабатыванием подразумевается положительный вердикт на двух токенах подряд.

По результатам оценок, разумеется, самый маленький Generative Qwen на 0.6B обгоняет и ShieldGemma 27B, и LlamaGuard4-12B на классификации как промптов, так и ответов. Исследователи, правда, выбирают, включать или не включать controversial в unsafe при подсчете на каждом из бенчмарков, исходя из того, что дает лучшую цифру, то есть буквально тюнят порог на тест-сете – такие вот тонкости вычисления метрик в Поднебесной. Stream-модели показывают себя чуть хуже, но все еще на уровне, падение качества достаточно небольшое.

Модели любопытные, особенно стриминговая на 0.6B – если она дает достаточно терпимый FPR, то ее вполне можно использовать для онлайн-модерации, хотя видно, что как раз у малышки multilingual-метрики проседают по сравнению с en/zh. Выглядит это все, конечно, слишком здорово, поэтому только практика покажет, насколько модели действительно применимы на практике. Как минимум, подобно другим квенам, они могут стать базой для тюнинга русскоязычных модераторов.

BY llm security и каланы











Share with your friend now:
group-telegram.com/llmsecurity/634

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

At this point, however, Durov had already been working on Telegram with his brother, and further planned a mobile-first social network with an explicit focus on anti-censorship. Later in April, he told TechCrunch that he had left Russia and had “no plans to go back,” saying that the nation was currently “incompatible with internet business at the moment.” He added later that he was looking for a country that matched his libertarian ideals to base his next startup. The channel appears to be part of the broader information war that has developed following Russia's invasion of Ukraine. The Kremlin has paid Russian TikTok influencers to push propaganda, according to a Vice News investigation, while ProPublica found that fake Russian fact check videos had been viewed over a million times on Telegram. Lastly, the web previews of t.me links have been given a new look, adding chat backgrounds and design elements from the fully-features Telegram Web client. The fake Zelenskiy account reached 20,000 followers on Telegram before it was shut down, a remedial action that experts say is all too rare. Ukrainian forces have since put up a strong resistance to the Russian troops amid the war that has left hundreds of Ukrainian civilians, including children, dead, according to the United Nations. Ukrainian and international officials have accused Russia of targeting civilian populations with shelling and bombardments.
from de


Telegram llm security и каланы
FROM American