Telegram Group & Telegram Channel
The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning
Li et al, 2024
Статья, сайт, данные, код

Сегодня посмотрим на статью, посвященную сразу двум интересным темам: WMDP, бенчмарк (куда же без него) для оценки способностей LLM к помощи в проведении кибератак (а также создании химического и биологического оружия, но это мелочи), и RMU, метод для удаления соответствующих знаний из LLM с минимальным сопутствующим ущербом.

При этом создать такой бенчмарк в лоб непросто: если он будет напрямую содержать рецепты отравляющих веществ и шаги по повышению опасности патогенов, то террористам и LLM не понадобится. Кроме того, определенные знания из этих сфер могут подпадать под экспортные ограничения (например, криптография). Поэтому исследователи составляют датасет WMDP (Weapons of Mass Destruction Proxy) – набор вопросов, ответы на которые предполагают наличие знаний, которые являются прокси для собственно опасных знаний, на которые мы проверяем модель.



group-telegram.com/llmsecurity/373
Create:
Last Update:

The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning
Li et al, 2024
Статья, сайт, данные, код

Сегодня посмотрим на статью, посвященную сразу двум интересным темам: WMDP, бенчмарк (куда же без него) для оценки способностей LLM к помощи в проведении кибератак (а также создании химического и биологического оружия, но это мелочи), и RMU, метод для удаления соответствующих знаний из LLM с минимальным сопутствующим ущербом.

При этом создать такой бенчмарк в лоб непросто: если он будет напрямую содержать рецепты отравляющих веществ и шаги по повышению опасности патогенов, то террористам и LLM не понадобится. Кроме того, определенные знания из этих сфер могут подпадать под экспортные ограничения (например, криптография). Поэтому исследователи составляют датасет WMDP (Weapons of Mass Destruction Proxy) – набор вопросов, ответы на которые предполагают наличие знаний, которые являются прокси для собственно опасных знаний, на которые мы проверяем модель.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/373

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Some people used the platform to organize ahead of the storming of the U.S. Capitol in January 2021, and last month Senator Mark Warner sent a letter to Durov urging him to curb Russian information operations on Telegram. Elsewhere, version 8.6 of Telegram integrates the in-app camera option into the gallery, while a new navigation bar gives quick access to photos, files, location sharing, and more. In view of this, the regulator has cautioned investors not to rely on such investment tips / advice received through social media platforms. It has also said investors should exercise utmost caution while taking investment decisions while dealing in the securities market. Channels are not fully encrypted, end-to-end. All communications on a Telegram channel can be seen by anyone on the channel and are also visible to Telegram. Telegram may be asked by a government to hand over the communications from a channel. Telegram has a history of standing up to Russian government requests for data, but how comfortable you are relying on that history to predict future behavior is up to you. Because Telegram has this data, it may also be stolen by hackers or leaked by an internal employee. "The inflation fire was already hot and now with war-driven inflation added to the mix, it will grow even hotter, setting off a scramble by the world’s central banks to pull back their stimulus earlier than expected," Chris Rupkey, chief economist at FWDBONDS, wrote in an email. "A spike in inflation rates has preceded economic recessions historically and this time prices have soared to levels that once again pose a threat to growth."
from ms


Telegram llm security и каланы
FROM American