Telegram Group & Telegram Channel
A StrongREJECT for Empty Jailbreaks
Souly et al., 2024
Статья, данные и код

Джейлбрейки – хит уходящего сезона: каждая LLM-security-контора представила хотя бы один свой уникальный джейлбрейк, исследователи вместо подачи статей на конференции или хотя бы на архив писали сразу журналистам ведущих изданий , и даже Марк Руссинович (ныне техдир Azure) опубликовал свою статью про джейлбрейк под названием Crescendo. Исследователи из Berkeley (спасибо Евгению, что обратил внимание на статью) заметили, что работы про джейлбрейки страдают от одного недостатка – излишнего хайпа преувеличения результативности. В статье анализируются причины (объективные, не хайпожорство) завышенных результатов и предлагается еще один стандарт для оценки качества джейлбрейков – StrongREJECT.



group-telegram.com/llmsecurity/309
Create:
Last Update:

A StrongREJECT for Empty Jailbreaks
Souly et al., 2024
Статья, данные и код

Джейлбрейки – хит уходящего сезона: каждая LLM-security-контора представила хотя бы один свой уникальный джейлбрейк, исследователи вместо подачи статей на конференции или хотя бы на архив писали сразу журналистам ведущих изданий , и даже Марк Руссинович (ныне техдир Azure) опубликовал свою статью про джейлбрейк под названием Crescendo. Исследователи из Berkeley (спасибо Евгению, что обратил внимание на статью) заметили, что работы про джейлбрейки страдают от одного недостатка – излишнего хайпа преувеличения результативности. В статье анализируются причины (объективные, не хайпожорство) завышенных результатов и предлагается еще один стандарт для оценки качества джейлбрейков – StrongREJECT.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/309

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

After fleeing Russia, the brothers founded Telegram as a way to communicate outside the Kremlin's orbit. They now run it from Dubai, and Pavel Durov says it has more than 500 million monthly active users. "This time we received the coordinates of enemy vehicles marked 'V' in Kyiv region," it added. In addition, Telegram's architecture limits the ability to slow the spread of false information: the lack of a central public feed, and the fact that comments are easily disabled in channels, reduce the space for public pushback. Recently, Durav wrote on his Telegram channel that users' right to privacy, in light of the war in Ukraine, is "sacred, now more than ever." In the United States, Telegram's lower public profile has helped it mostly avoid high level scrutiny from Congress, but it has not gone unnoticed.
from ye


Telegram llm security и каланы
FROM American