Telegram Group & Telegram Channel
На основе этого предлагается автоматизированный алгоритм джейлбрейкинга – Crescendomation, суть которого в том, что вместо человека контекст строит атакующая LLM, пробует задать нужный вопрос, при неудаче – откатывается назад и генерирует еще один вопрос для контекста, а затем пробует снова. Этот подход применяется к моделям gpt-3.5 и gpt-4, Claude 3, Gemini-Pro и Llama 2. В качестве опасных запросов выбирается дедуплицированный сабсет AdvBench. LLM-судья в исполнении gpt-4 определяет ASR (его называют бинарным ASR) и дает оценку успеха от 0 до 100 (это называется просто ASR), плюс в качестве оценки используется Perspective API и Azure Content Filter API. GPT-4 и Gemini-Pro в итоге джейлбрейкаются на 98% и 100% соответственно. На другие LLM (включая Llama) у авторов не хватило денег и компьюта, поэтому они отбирают из 50 задач 12 и считают успешность на них (см. цветной график). Из занятного – одни и те же последовательности вопросов могут переноситься между разными моделями.



group-telegram.com/llmsecurity/444
Create:
Last Update:

На основе этого предлагается автоматизированный алгоритм джейлбрейкинга – Crescendomation, суть которого в том, что вместо человека контекст строит атакующая LLM, пробует задать нужный вопрос, при неудаче – откатывается назад и генерирует еще один вопрос для контекста, а затем пробует снова. Этот подход применяется к моделям gpt-3.5 и gpt-4, Claude 3, Gemini-Pro и Llama 2. В качестве опасных запросов выбирается дедуплицированный сабсет AdvBench. LLM-судья в исполнении gpt-4 определяет ASR (его называют бинарным ASR) и дает оценку успеха от 0 до 100 (это называется просто ASR), плюс в качестве оценки используется Perspective API и Azure Content Filter API. GPT-4 и Gemini-Pro в итоге джейлбрейкаются на 98% и 100% соответственно. На другие LLM (включая Llama) у авторов не хватило денег и компьюта, поэтому они отбирают из 50 задач 12 и считают успешность на них (см. цветной график). Из занятного – одни и те же последовательности вопросов могут переноситься между разными моделями.

BY llm security и каланы








Share with your friend now:
group-telegram.com/llmsecurity/444

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. On February 27th, Durov posted that Channels were becoming a source of unverified information and that the company lacks the ability to check on their veracity. He urged users to be mistrustful of the things shared on Channels, and initially threatened to block the feature in the countries involved for the length of the war, saying that he didn’t want Telegram to be used to aggravate conflict or incite ethnic hatred. He did, however, walk back this plan when it became clear that they had also become a vital communications tool for Ukrainian officials and citizens to help coordinate their resistance and evacuations. Since its launch in 2013, Telegram has grown from a simple messaging app to a broadcast network. Its user base isn’t as vast as WhatsApp’s, and its broadcast platform is a fraction the size of Twitter, but it’s nonetheless showing its use. While Telegram has been embroiled in controversy for much of its life, it has become a vital source of communication during the invasion of Ukraine. But, if all of this is new to you, let us explain, dear friends, what on Earth a Telegram is meant to be, and why you should, or should not, need to care. It is unclear who runs the account, although Russia's official Ministry of Foreign Affairs Twitter account promoted the Telegram channel on Saturday and claimed it was operated by "a group of experts & journalists." Now safely in France with his spouse and three of his children, Kliuchnikov scrolls through Telegram to learn about the devastation happening in his home country.
from ye


Telegram llm security и каланы
FROM American