Telegram Group & Telegram Channel
A StrongREJECT for Empty Jailbreaks
Souly et al., 2024
Статья, данные и код

Джейлбрейки – хит уходящего сезона: каждая LLM-security-контора представила хотя бы один свой уникальный джейлбрейк, исследователи вместо подачи статей на конференции или хотя бы на архив писали сразу журналистам ведущих изданий , и даже Марк Руссинович (ныне техдир Azure) опубликовал свою статью про джейлбрейк под названием Crescendo. Исследователи из Berkeley (спасибо Евгению, что обратил внимание на статью) заметили, что работы про джейлбрейки страдают от одного недостатка – излишнего хайпа преувеличения результативности. В статье анализируются причины (объективные, не хайпожорство) завышенных результатов и предлагается еще один стандарт для оценки качества джейлбрейков – StrongREJECT.



group-telegram.com/llmsecurity/309
Create:
Last Update:

A StrongREJECT for Empty Jailbreaks
Souly et al., 2024
Статья, данные и код

Джейлбрейки – хит уходящего сезона: каждая LLM-security-контора представила хотя бы один свой уникальный джейлбрейк, исследователи вместо подачи статей на конференции или хотя бы на архив писали сразу журналистам ведущих изданий , и даже Марк Руссинович (ныне техдир Azure) опубликовал свою статью про джейлбрейк под названием Crescendo. Исследователи из Berkeley (спасибо Евгению, что обратил внимание на статью) заметили, что работы про джейлбрейки страдают от одного недостатка – излишнего хайпа преувеличения результативности. В статье анализируются причины (объективные, не хайпожорство) завышенных результатов и предлагается еще один стандарт для оценки качества джейлбрейков – StrongREJECT.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/309

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

A Russian Telegram channel with over 700,000 followers is spreading disinformation about Russia's invasion of Ukraine under the guise of providing "objective information" and fact-checking fake news. Its influence extends beyond the platform, with major Russian publications, government officials, and journalists citing the page's posts. Telegram users are able to send files of any type up to 2GB each and access them from any device, with no limit on cloud storage, which has made downloading files more popular on the platform. On February 27th, Durov posted that Channels were becoming a source of unverified information and that the company lacks the ability to check on their veracity. He urged users to be mistrustful of the things shared on Channels, and initially threatened to block the feature in the countries involved for the length of the war, saying that he didn’t want Telegram to be used to aggravate conflict or incite ethnic hatred. He did, however, walk back this plan when it became clear that they had also become a vital communications tool for Ukrainian officials and citizens to help coordinate their resistance and evacuations. Just days after Russia invaded Ukraine, Durov wrote that Telegram was "increasingly becoming a source of unverified information," and he worried about the app being used to "incite ethnic hatred." Telegram has become more interventionist over time, and has steadily increased its efforts to shut down these accounts. But this has also meant that the company has also engaged with lawmakers more generally, although it maintains that it doesn’t do so willingly. For instance, in September 2021, Telegram reportedly blocked a chat bot in support of (Putin critic) Alexei Navalny during Russia’s most recent parliamentary elections. Pavel Durov was quoted at the time saying that the company was obliged to follow a “legitimate” law of the land. He added that as Apple and Google both follow the law, to violate it would give both platforms a reason to boot the messenger from its stores.
from br


Telegram llm security и каланы
FROM American