Telegram Group & Telegram Channel
Tree of Attacks: Jailbreaking Black-Box LLMs Automatically
Mehrotra et al., 2023
Статья, блог

Сегодня мы кратко рассмотрим еще один один метод автоматического джейлбрейка black-box-моделей от исследователей из Йеля и Robust Intelligence под названием Tree of attacks with pruning, или TAP. Исследователи ставят перед собой цель сделать алгоритм, который будет работать без участия человека, позволит атаковать black box-модели и будет давать семантически интерпретируемые джейлбрейки. Как обычно, почему последнее настолько важно не уточняется; кроме того, кажется, что, используя подход, когда одна LLM ломает другую, по-другому сделать попросту не получится, поэтому это не предпосылка, а скорее следствие предложенного подхода. Тем не менее, получилось достаточно интересно, так что поехали 🔪
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/llmsecurity/45
Create:
Last Update:

Tree of Attacks: Jailbreaking Black-Box LLMs Automatically
Mehrotra et al., 2023
Статья, блог

Сегодня мы кратко рассмотрим еще один один метод автоматического джейлбрейка black-box-моделей от исследователей из Йеля и Robust Intelligence под названием Tree of attacks with pruning, или TAP. Исследователи ставят перед собой цель сделать алгоритм, который будет работать без участия человека, позволит атаковать black box-модели и будет давать семантически интерпретируемые джейлбрейки. Как обычно, почему последнее настолько важно не уточняется; кроме того, кажется, что, используя подход, когда одна LLM ломает другую, по-другому сделать попросту не получится, поэтому это не предпосылка, а скорее следствие предложенного подхода. Тем не менее, получилось достаточно интересно, так что поехали 🔪

BY llm security и каланы


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/llmsecurity/45

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Given the pro-privacy stance of the platform, it’s taken as a given that it’ll be used for a number of reasons, not all of them good. And Telegram has been attached to a fair few scandals related to terrorism, sexual exploitation and crime. Back in 2015, Vox described Telegram as “ISIS’ app of choice,” saying that the platform’s real use is the ability to use channels to distribute material to large groups at once. Telegram has acted to remove public channels affiliated with terrorism, but Pavel Durov reiterated that he had no business snooping on private conversations. What distinguishes the app from competitors is its use of what's known as channels: Public or private feeds of photos and videos that can be set up by one person or an organization. The channels have become popular with on-the-ground journalists, aid workers and Ukrainian President Volodymyr Zelenskyy, who broadcasts on a Telegram channel. The channels can be followed by an unlimited number of people. Unlike Facebook, Twitter and other popular social networks, there is no advertising on Telegram and the flow of information is not driven by an algorithm. Perpetrators of such fraud use various marketing techniques to attract subscribers on their social media channels. "Russians are really disconnected from the reality of what happening to their country," Andrey said. "So Telegram has become essential for understanding what's going on to the Russian-speaking world." Although some channels have been removed, the curation process is considered opaque and insufficient by analysts.
from in


Telegram llm security и каланы
FROM American