Telegram Group & Telegram Channel
Вторым пунктом идет оценка рисков для приложений на основе LLM и пользователей таких приложений.

1. Prompt injection. Модели оценивались на основе задач из CyberSecEval 2. Сильных отличий по сравнению с предыдущими замерами не обнаружилось: модели все так же уязвимы к инъекциям. В среднем модели пропускают 20-40% атак, самой уязвимой оказывается Mixtral-8x22b. Исследователи рекомендуют использовать их модель для защиты от инъекций (Prompt Guard).

2. Генерация небезопасного кода. Модели, применяемые в качестве ассистентов для разработчиков, могут генерировать небезопасный код. При оценке на базе бенчмарков и инструментов из CyberSecEval 2 получается, что Llama 3 405b генерирует такой код в 31% случаев при автокомплите и 39 при генерации на базе инструкций (gpt-4-turbo – 30% и 35%, соответственно). Чтобы защититься от этой угрозы, авторы предлагают использовать еще один их инструмент – CodeShield.

3. Выполнение опасного кода в интерпретаторе. Продвинутые приложения, такие как ChatGPT, могут использовать Python для различных действий (например, для математики). Пользователь может попытаться заставить ассистента выполнить код, который угрожает хостовой машине. Оказывается, что новые Llama очень активно соглашаются генерировать такой опасный код, но и тут на помощь приходит LlamaGuard.

4. Помощь в кибератаках. По сравнению с пунктом из предыдущего раздела, здесь описывается не насколько хорошо модели с этим справляются, а насколько охотно пытаются, с маппингом на матрицу MITRE ATT&CK. По результатам оценки, чем более опасен сценарий, тем больше вероятность, что модель откажется помогать. Кроме того, оценивались ложные отказы на безобидные вопросы в сфере кибербезопасности, которые для Llama Guard составили 2% при фильтрации входов и 10% при фильтрации и входов, и выходов.

Кроме того, в наборе тестов появились визуальные prompt injection, но в работе они не рассматриваются, т.к. мультимодальность в Llama пока не завезли.



group-telegram.com/llmsecurity/223
Create:
Last Update:

Вторым пунктом идет оценка рисков для приложений на основе LLM и пользователей таких приложений.

1. Prompt injection. Модели оценивались на основе задач из CyberSecEval 2. Сильных отличий по сравнению с предыдущими замерами не обнаружилось: модели все так же уязвимы к инъекциям. В среднем модели пропускают 20-40% атак, самой уязвимой оказывается Mixtral-8x22b. Исследователи рекомендуют использовать их модель для защиты от инъекций (Prompt Guard).

2. Генерация небезопасного кода. Модели, применяемые в качестве ассистентов для разработчиков, могут генерировать небезопасный код. При оценке на базе бенчмарков и инструментов из CyberSecEval 2 получается, что Llama 3 405b генерирует такой код в 31% случаев при автокомплите и 39 при генерации на базе инструкций (gpt-4-turbo – 30% и 35%, соответственно). Чтобы защититься от этой угрозы, авторы предлагают использовать еще один их инструмент – CodeShield.

3. Выполнение опасного кода в интерпретаторе. Продвинутые приложения, такие как ChatGPT, могут использовать Python для различных действий (например, для математики). Пользователь может попытаться заставить ассистента выполнить код, который угрожает хостовой машине. Оказывается, что новые Llama очень активно соглашаются генерировать такой опасный код, но и тут на помощь приходит LlamaGuard.

4. Помощь в кибератаках. По сравнению с пунктом из предыдущего раздела, здесь описывается не насколько хорошо модели с этим справляются, а насколько охотно пытаются, с маппингом на матрицу MITRE ATT&CK. По результатам оценки, чем более опасен сценарий, тем больше вероятность, что модель откажется помогать. Кроме того, оценивались ложные отказы на безобидные вопросы в сфере кибербезопасности, которые для Llama Guard составили 2% при фильтрации входов и 10% при фильтрации и входов, и выходов.

Кроме того, в наборе тестов появились визуальные prompt injection, но в работе они не рассматриваются, т.к. мультимодальность в Llama пока не завезли.

BY llm security и каланы








Share with your friend now:
group-telegram.com/llmsecurity/223

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

At this point, however, Durov had already been working on Telegram with his brother, and further planned a mobile-first social network with an explicit focus on anti-censorship. Later in April, he told TechCrunch that he had left Russia and had “no plans to go back,” saying that the nation was currently “incompatible with internet business at the moment.” He added later that he was looking for a country that matched his libertarian ideals to base his next startup. "There are a lot of things that Telegram could have been doing this whole time. And they know exactly what they are and they've chosen not to do them. That's why I don't trust them," she said. Artem Kliuchnikov and his family fled Ukraine just days before the Russian invasion. Just days after Russia invaded Ukraine, Durov wrote that Telegram was "increasingly becoming a source of unverified information," and he worried about the app being used to "incite ethnic hatred." Telegram users are able to send files of any type up to 2GB each and access them from any device, with no limit on cloud storage, which has made downloading files more popular on the platform.
from cn


Telegram llm security и каланы
FROM American