The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning Li et al, 2024 Статья, сайт, данные, код
Сегодня посмотрим на статью, посвященную сразу двум интересным темам: WMDP, бенчмарк (куда же без него) для оценки способностей LLM к помощи в проведении кибератак (а также создании химического и биологического оружия, но это мелочи), и RMU, метод для удаления соответствующих знаний из LLM с минимальным сопутствующим ущербом.
При этом создать такой бенчмарк в лоб непросто: если он будет напрямую содержать рецепты отравляющих веществ и шаги по повышению опасности патогенов, то террористам и LLM не понадобится. Кроме того, определенные знания из этих сфер могут подпадать под экспортные ограничения (например, криптография). Поэтому исследователи составляют датасет WMDP (Weapons of Mass Destruction Proxy) – набор вопросов, ответы на которые предполагают наличие знаний, которые являются прокси для собственно опасных знаний, на которые мы проверяем модель.
The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning Li et al, 2024 Статья, сайт, данные, код
Сегодня посмотрим на статью, посвященную сразу двум интересным темам: WMDP, бенчмарк (куда же без него) для оценки способностей LLM к помощи в проведении кибератак (а также создании химического и биологического оружия, но это мелочи), и RMU, метод для удаления соответствующих знаний из LLM с минимальным сопутствующим ущербом.
При этом создать такой бенчмарк в лоб непросто: если он будет напрямую содержать рецепты отравляющих веществ и шаги по повышению опасности патогенов, то террористам и LLM не понадобится. Кроме того, определенные знания из этих сфер могут подпадать под экспортные ограничения (например, криптография). Поэтому исследователи составляют датасет WMDP (Weapons of Mass Destruction Proxy) – набор вопросов, ответы на которые предполагают наличие знаний, которые являются прокси для собственно опасных знаний, на которые мы проверяем модель.
"He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said. And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30. There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine. Despite Telegram's origins, its approach to users' security has privacy advocates worried. In February 2014, the Ukrainian people ousted pro-Russian president Viktor Yanukovych, prompting Russia to invade and annex the Crimean peninsula. By the start of April, Pavel Durov had given his notice, with TechCrunch saying at the time that the CEO had resisted pressure to suppress pages criticizing the Russian government.
from hk