The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning Li et al, 2024 Статья, сайт, данные, код
Сегодня посмотрим на статью, посвященную сразу двум интересным темам: WMDP, бенчмарк (куда же без него) для оценки способностей LLM к помощи в проведении кибератак (а также создании химического и биологического оружия, но это мелочи), и RMU, метод для удаления соответствующих знаний из LLM с минимальным сопутствующим ущербом.
При этом создать такой бенчмарк в лоб непросто: если он будет напрямую содержать рецепты отравляющих веществ и шаги по повышению опасности патогенов, то террористам и LLM не понадобится. Кроме того, определенные знания из этих сфер могут подпадать под экспортные ограничения (например, криптография). Поэтому исследователи составляют датасет WMDP (Weapons of Mass Destruction Proxy) – набор вопросов, ответы на которые предполагают наличие знаний, которые являются прокси для собственно опасных знаний, на которые мы проверяем модель.
The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning Li et al, 2024 Статья, сайт, данные, код
Сегодня посмотрим на статью, посвященную сразу двум интересным темам: WMDP, бенчмарк (куда же без него) для оценки способностей LLM к помощи в проведении кибератак (а также создании химического и биологического оружия, но это мелочи), и RMU, метод для удаления соответствующих знаний из LLM с минимальным сопутствующим ущербом.
При этом создать такой бенчмарк в лоб непросто: если он будет напрямую содержать рецепты отравляющих веществ и шаги по повышению опасности патогенов, то террористам и LLM не понадобится. Кроме того, определенные знания из этих сфер могут подпадать под экспортные ограничения (например, криптография). Поэтому исследователи составляют датасет WMDP (Weapons of Mass Destruction Proxy) – набор вопросов, ответы на которые предполагают наличие знаний, которые являются прокси для собственно опасных знаний, на которые мы проверяем модель.
However, the perpetrators of such frauds are now adopting new methods and technologies to defraud the investors. But Kliuchnikov, the Ukranian now in France, said he will use Signal or WhatsApp for sensitive conversations, but questions around privacy on Telegram do not give him pause when it comes to sharing information about the war. In the United States, Telegram's lower public profile has helped it mostly avoid high level scrutiny from Congress, but it has not gone unnoticed. Oleksandra Matviichuk, a Kyiv-based lawyer and head of the Center for Civil Liberties, called Durov’s position "very weak," and urged concrete improvements. One thing that Telegram now offers to all users is the ability to “disappear” messages or set remote deletion deadlines. That enables users to have much more control over how long people can access what you’re sending them. Given that Russian law enforcement officials are reportedly (via Insider) stopping people in the street and demanding to read their text messages, this could be vital to protect individuals from reprisals.
from ye