Telegram Group & Telegram Channel
На основе этого предлагается автоматизированный алгоритм джейлбрейкинга – Crescendomation, суть которого в том, что вместо человека контекст строит атакующая LLM, пробует задать нужный вопрос, при неудаче – откатывается назад и генерирует еще один вопрос для контекста, а затем пробует снова. Этот подход применяется к моделям gpt-3.5 и gpt-4, Claude 3, Gemini-Pro и Llama 2. В качестве опасных запросов выбирается дедуплицированный сабсет AdvBench. LLM-судья в исполнении gpt-4 определяет ASR (его называют бинарным ASR) и дает оценку успеха от 0 до 100 (это называется просто ASR), плюс в качестве оценки используется Perspective API и Azure Content Filter API. GPT-4 и Gemini-Pro в итоге джейлбрейкаются на 98% и 100% соответственно. На другие LLM (включая Llama) у авторов не хватило денег и компьюта, поэтому они отбирают из 50 задач 12 и считают успешность на них (см. цветной график). Из занятного – одни и те же последовательности вопросов могут переноситься между разными моделями.



group-telegram.com/llmsecurity/445
Create:
Last Update:

На основе этого предлагается автоматизированный алгоритм джейлбрейкинга – Crescendomation, суть которого в том, что вместо человека контекст строит атакующая LLM, пробует задать нужный вопрос, при неудаче – откатывается назад и генерирует еще один вопрос для контекста, а затем пробует снова. Этот подход применяется к моделям gpt-3.5 и gpt-4, Claude 3, Gemini-Pro и Llama 2. В качестве опасных запросов выбирается дедуплицированный сабсет AdvBench. LLM-судья в исполнении gpt-4 определяет ASR (его называют бинарным ASR) и дает оценку успеха от 0 до 100 (это называется просто ASR), плюс в качестве оценки используется Perspective API и Azure Content Filter API. GPT-4 и Gemini-Pro в итоге джейлбрейкаются на 98% и 100% соответственно. На другие LLM (включая Llama) у авторов не хватило денег и компьюта, поэтому они отбирают из 50 задач 12 и считают успешность на них (см. цветной график). Из занятного – одни и те же последовательности вопросов могут переноситься между разными моделями.

BY llm security и каланы








Share with your friend now:
group-telegram.com/llmsecurity/445

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

As the war in Ukraine rages, the messaging app Telegram has emerged as the go-to place for unfiltered live war updates for both Ukrainian refugees and increasingly isolated Russians alike. Pavel Durov, Telegram's CEO, is known as "the Russian Mark Zuckerberg," for co-founding VKontakte, which is Russian for "in touch," a Facebook imitator that became the country's most popular social networking site. In February 2014, the Ukrainian people ousted pro-Russian president Viktor Yanukovych, prompting Russia to invade and annex the Crimean peninsula. By the start of April, Pavel Durov had given his notice, with TechCrunch saying at the time that the CEO had resisted pressure to suppress pages criticizing the Russian government. But because group chats and the channel features are not end-to-end encrypted, Galperin said user privacy is potentially under threat. Continuing its crackdown against entities allegedly involved in a front-running scam using messaging app Telegram, Sebi on Thursday carried out search and seizure operations at the premises of eight entities in multiple locations across the country.
from br


Telegram llm security и каланы
FROM American