Telegram Group & Telegram Channel
Вторым пунктом идет оценка рисков для приложений на основе LLM и пользователей таких приложений.

1. Prompt injection. Модели оценивались на основе задач из CyberSecEval 2. Сильных отличий по сравнению с предыдущими замерами не обнаружилось: модели все так же уязвимы к инъекциям. В среднем модели пропускают 20-40% атак, самой уязвимой оказывается Mixtral-8x22b. Исследователи рекомендуют использовать их модель для защиты от инъекций (Prompt Guard).

2. Генерация небезопасного кода. Модели, применяемые в качестве ассистентов для разработчиков, могут генерировать небезопасный код. При оценке на базе бенчмарков и инструментов из CyberSecEval 2 получается, что Llama 3 405b генерирует такой код в 31% случаев при автокомплите и 39 при генерации на базе инструкций (gpt-4-turbo – 30% и 35%, соответственно). Чтобы защититься от этой угрозы, авторы предлагают использовать еще один их инструмент – CodeShield.

3. Выполнение опасного кода в интерпретаторе. Продвинутые приложения, такие как ChatGPT, могут использовать Python для различных действий (например, для математики). Пользователь может попытаться заставить ассистента выполнить код, который угрожает хостовой машине. Оказывается, что новые Llama очень активно соглашаются генерировать такой опасный код, но и тут на помощь приходит LlamaGuard.

4. Помощь в кибератаках. По сравнению с пунктом из предыдущего раздела, здесь описывается не насколько хорошо модели с этим справляются, а насколько охотно пытаются, с маппингом на матрицу MITRE ATT&CK. По результатам оценки, чем более опасен сценарий, тем больше вероятность, что модель откажется помогать. Кроме того, оценивались ложные отказы на безобидные вопросы в сфере кибербезопасности, которые для Llama Guard составили 2% при фильтрации входов и 10% при фильтрации и входов, и выходов.

Кроме того, в наборе тестов появились визуальные prompt injection, но в работе они не рассматриваются, т.к. мультимодальность в Llama пока не завезли.



group-telegram.com/llmsecurity/223
Create:
Last Update:

Вторым пунктом идет оценка рисков для приложений на основе LLM и пользователей таких приложений.

1. Prompt injection. Модели оценивались на основе задач из CyberSecEval 2. Сильных отличий по сравнению с предыдущими замерами не обнаружилось: модели все так же уязвимы к инъекциям. В среднем модели пропускают 20-40% атак, самой уязвимой оказывается Mixtral-8x22b. Исследователи рекомендуют использовать их модель для защиты от инъекций (Prompt Guard).

2. Генерация небезопасного кода. Модели, применяемые в качестве ассистентов для разработчиков, могут генерировать небезопасный код. При оценке на базе бенчмарков и инструментов из CyberSecEval 2 получается, что Llama 3 405b генерирует такой код в 31% случаев при автокомплите и 39 при генерации на базе инструкций (gpt-4-turbo – 30% и 35%, соответственно). Чтобы защититься от этой угрозы, авторы предлагают использовать еще один их инструмент – CodeShield.

3. Выполнение опасного кода в интерпретаторе. Продвинутые приложения, такие как ChatGPT, могут использовать Python для различных действий (например, для математики). Пользователь может попытаться заставить ассистента выполнить код, который угрожает хостовой машине. Оказывается, что новые Llama очень активно соглашаются генерировать такой опасный код, но и тут на помощь приходит LlamaGuard.

4. Помощь в кибератаках. По сравнению с пунктом из предыдущего раздела, здесь описывается не насколько хорошо модели с этим справляются, а насколько охотно пытаются, с маппингом на матрицу MITRE ATT&CK. По результатам оценки, чем более опасен сценарий, тем больше вероятность, что модель откажется помогать. Кроме того, оценивались ложные отказы на безобидные вопросы в сфере кибербезопасности, которые для Llama Guard составили 2% при фильтрации входов и 10% при фильтрации и входов, и выходов.

Кроме того, в наборе тестов появились визуальные prompt injection, но в работе они не рассматриваются, т.к. мультимодальность в Llama пока не завезли.

BY llm security и каланы








Share with your friend now:
group-telegram.com/llmsecurity/223

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Oleksandra Matviichuk, a Kyiv-based lawyer and head of the Center for Civil Liberties, called Durov’s position "very weak," and urged concrete improvements. On December 23rd, 2020, Pavel Durov posted to his channel that the company would need to start generating revenue. In early 2021, he added that any advertising on the platform would not use user data for targeting, and that it would be focused on “large one-to-many channels.” He pledged that ads would be “non-intrusive” and that most users would simply not notice any change. Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform. As the war in Ukraine rages, the messaging app Telegram has emerged as the go-to place for unfiltered live war updates for both Ukrainian refugees and increasingly isolated Russians alike. Official government accounts have also spread fake fact checks. An official Twitter account for the Russia diplomatic mission in Geneva shared a fake debunking video claiming without evidence that "Western and Ukrainian media are creating thousands of fake news on Russia every day." The video, which has amassed almost 30,000 views, offered a "how-to" spot misinformation.
from jp


Telegram llm security и каланы
FROM American