Telegram Group & Telegram Channel
На основе этого предлагается автоматизированный алгоритм джейлбрейкинга – Crescendomation, суть которого в том, что вместо человека контекст строит атакующая LLM, пробует задать нужный вопрос, при неудаче – откатывается назад и генерирует еще один вопрос для контекста, а затем пробует снова. Этот подход применяется к моделям gpt-3.5 и gpt-4, Claude 3, Gemini-Pro и Llama 2. В качестве опасных запросов выбирается дедуплицированный сабсет AdvBench. LLM-судья в исполнении gpt-4 определяет ASR (его называют бинарным ASR) и дает оценку успеха от 0 до 100 (это называется просто ASR), плюс в качестве оценки используется Perspective API и Azure Content Filter API. GPT-4 и Gemini-Pro в итоге джейлбрейкаются на 98% и 100% соответственно. На другие LLM (включая Llama) у авторов не хватило денег и компьюта, поэтому они отбирают из 50 задач 12 и считают успешность на них (см. цветной график). Из занятного – одни и те же последовательности вопросов могут переноситься между разными моделями.



group-telegram.com/llmsecurity/443
Create:
Last Update:

На основе этого предлагается автоматизированный алгоритм джейлбрейкинга – Crescendomation, суть которого в том, что вместо человека контекст строит атакующая LLM, пробует задать нужный вопрос, при неудаче – откатывается назад и генерирует еще один вопрос для контекста, а затем пробует снова. Этот подход применяется к моделям gpt-3.5 и gpt-4, Claude 3, Gemini-Pro и Llama 2. В качестве опасных запросов выбирается дедуплицированный сабсет AdvBench. LLM-судья в исполнении gpt-4 определяет ASR (его называют бинарным ASR) и дает оценку успеха от 0 до 100 (это называется просто ASR), плюс в качестве оценки используется Perspective API и Azure Content Filter API. GPT-4 и Gemini-Pro в итоге джейлбрейкаются на 98% и 100% соответственно. На другие LLM (включая Llama) у авторов не хватило денег и компьюта, поэтому они отбирают из 50 задач 12 и считают успешность на них (см. цветной график). Из занятного – одни и те же последовательности вопросов могут переноситься между разными моделями.

BY llm security и каланы








Share with your friend now:
group-telegram.com/llmsecurity/443

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30. Sebi said data, emails and other documents are being retrieved from the seized devices and detailed investigation is in progress. The regulator took order for the search and seizure operation from Judge Purushottam B Jadhav, Sebi Special Judge / Additional Sessions Judge. "The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke. Since January 2022, the SC has received a total of 47 complaints and enquiries on illegal investment schemes promoted through Telegram. These fraudulent schemes offer non-existent investment opportunities, promising very attractive and risk-free returns within a short span of time. They commonly offer unrealistic returns of as high as 1,000% within 24 hours or even within a few hours.
from tw


Telegram llm security и каланы
FROM American