Telegram Group & Telegram Channel
A StrongREJECT for Empty Jailbreaks
Souly et al., 2024
Статья, данные и код

Джейлбрейки – хит уходящего сезона: каждая LLM-security-контора представила хотя бы один свой уникальный джейлбрейк, исследователи вместо подачи статей на конференции или хотя бы на архив писали сразу журналистам ведущих изданий , и даже Марк Руссинович (ныне техдир Azure) опубликовал свою статью про джейлбрейк под названием Crescendo. Исследователи из Berkeley (спасибо Евгению, что обратил внимание на статью) заметили, что работы про джейлбрейки страдают от одного недостатка – излишнего хайпа преувеличения результативности. В статье анализируются причины (объективные, не хайпожорство) завышенных результатов и предлагается еще один стандарт для оценки качества джейлбрейков – StrongREJECT.



group-telegram.com/llmsecurity/309
Create:
Last Update:

A StrongREJECT for Empty Jailbreaks
Souly et al., 2024
Статья, данные и код

Джейлбрейки – хит уходящего сезона: каждая LLM-security-контора представила хотя бы один свой уникальный джейлбрейк, исследователи вместо подачи статей на конференции или хотя бы на архив писали сразу журналистам ведущих изданий , и даже Марк Руссинович (ныне техдир Azure) опубликовал свою статью про джейлбрейк под названием Crescendo. Исследователи из Berkeley (спасибо Евгению, что обратил внимание на статью) заметили, что работы про джейлбрейки страдают от одного недостатка – излишнего хайпа преувеличения результативности. В статье анализируются причины (объективные, не хайпожорство) завышенных результатов и предлагается еще один стандарт для оценки качества джейлбрейков – StrongREJECT.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/309

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Some people used the platform to organize ahead of the storming of the U.S. Capitol in January 2021, and last month Senator Mark Warner sent a letter to Durov urging him to curb Russian information operations on Telegram. On February 27th, Durov posted that Channels were becoming a source of unverified information and that the company lacks the ability to check on their veracity. He urged users to be mistrustful of the things shared on Channels, and initially threatened to block the feature in the countries involved for the length of the war, saying that he didn’t want Telegram to be used to aggravate conflict or incite ethnic hatred. He did, however, walk back this plan when it became clear that they had also become a vital communications tool for Ukrainian officials and citizens to help coordinate their resistance and evacuations. For Oleksandra Tsekhanovska, head of the Hybrid Warfare Analytical Group at the Kyiv-based Ukraine Crisis Media Center, the effects are both near- and far-reaching. In view of this, the regulator has cautioned investors not to rely on such investment tips / advice received through social media platforms. It has also said investors should exercise utmost caution while taking investment decisions while dealing in the securities market. NEWS
from in


Telegram llm security и каланы
FROM American