Telegram Group & Telegram Channel
Для оценки метода исследователи применяют набор стандартных датасетов типа MMLU, HellaSwag, GSM8k и так далее для оценки падения в качестве, а также набор известных атак (GCG, PAIR, AutoDAN, TAP-Transfer), публичные известные джейлбрейки, мультилингвальные джейлбрейки, а также white-box манипуляции с эмбеддингами, направлениями в residual-соединениях и префиллингом. Результаты оцениваются с помощью классификатора из HarmBench. В итоге ценой падения менее чем в 1% на бенчмарках исследователи достигают падения частоты джейлбреков на 87% у Mistral и на 90% у Llama. Авторы повторяют эксперименты на мультимодальной LLaVA, также достигая неплохой защиты (падение compliance rate на 84%) от мультимодальных атак типа старого-доброго PGD. Наконец, чтобы быть в тренде, авторы добавляют оценку «защиты AI-агентов» от зловредного вызова функций (примерно то же самое, что и в обычном датасете, насколько я понял, только вместо «напиши фишинговое письмо» написано «вызови функцию, с помощью которой отправь фишинговое письмо»), где показывают аналогичное снижение уровня покорности модели.

Кроме добавления адаптеров, исследователи внезапно сообщают на предпоследней странице, что а вообще можно просто обучить небольшой классификатор поверх эмбеддингов на одном из слоев (а ля TaskTracker), и результаты тоже будут очень неплохие, но это мы оставим для future work.



group-telegram.com/llmsecurity/429
Create:
Last Update:

Для оценки метода исследователи применяют набор стандартных датасетов типа MMLU, HellaSwag, GSM8k и так далее для оценки падения в качестве, а также набор известных атак (GCG, PAIR, AutoDAN, TAP-Transfer), публичные известные джейлбрейки, мультилингвальные джейлбрейки, а также white-box манипуляции с эмбеддингами, направлениями в residual-соединениях и префиллингом. Результаты оцениваются с помощью классификатора из HarmBench. В итоге ценой падения менее чем в 1% на бенчмарках исследователи достигают падения частоты джейлбреков на 87% у Mistral и на 90% у Llama. Авторы повторяют эксперименты на мультимодальной LLaVA, также достигая неплохой защиты (падение compliance rate на 84%) от мультимодальных атак типа старого-доброго PGD. Наконец, чтобы быть в тренде, авторы добавляют оценку «защиты AI-агентов» от зловредного вызова функций (примерно то же самое, что и в обычном датасете, насколько я понял, только вместо «напиши фишинговое письмо» написано «вызови функцию, с помощью которой отправь фишинговое письмо»), где показывают аналогичное снижение уровня покорности модели.

Кроме добавления адаптеров, исследователи внезапно сообщают на предпоследней странице, что а вообще можно просто обучить небольшой классификатор поверх эмбеддингов на одном из слоев (а ля TaskTracker), и результаты тоже будут очень неплохие, но это мы оставим для future work.

BY llm security и каланы









Share with your friend now:
group-telegram.com/llmsecurity/429

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

A Russian Telegram channel with over 700,000 followers is spreading disinformation about Russia's invasion of Ukraine under the guise of providing "objective information" and fact-checking fake news. Its influence extends beyond the platform, with major Russian publications, government officials, and journalists citing the page's posts. Russians and Ukrainians are both prolific users of Telegram. They rely on the app for channels that act as newsfeeds, group chats (both public and private), and one-to-one communication. Since the Russian invasion of Ukraine, Telegram has remained an important lifeline for both Russians and Ukrainians, as a way of staying aware of the latest news and keeping in touch with loved ones. Continuing its crackdown against entities allegedly involved in a front-running scam using messaging app Telegram, Sebi on Thursday carried out search and seizure operations at the premises of eight entities in multiple locations across the country. Additionally, investors are often instructed to deposit monies into personal bank accounts of individuals who claim to represent a legitimate entity, and/or into an unrelated corporate account. To lend credence and to lure unsuspecting victims, perpetrators usually claim that their entity and/or the investment schemes are approved by financial authorities. The War on Fakes channel has repeatedly attempted to push conspiracies that footage from Ukraine is somehow being falsified. One post on the channel from February 24 claimed without evidence that a widely viewed photo of a Ukrainian woman injured in an airstrike in the city of Chuhuiv was doctored and that the woman was seen in a different photo days later without injuries. The post, which has over 600,000 views, also baselessly claimed that the woman's blood was actually makeup or grape juice.
from us


Telegram llm security и каланы
FROM American