Telegram Group & Telegram Channel
Впечатление от статьи двойственное. С одной стороны, результаты хорошие (на бенчмарках качество аж растет по сравнению с оригинальными моделями), с другой – эта статья является частью маркетингового сопровождения коммерческого решения, поэтому другого ожидать тут не стоит. Метод очень похож на RMU, только вместо того чтобы сближать репрезентации при генерации недопустимых ответов со случайными векторами, мы делаем их ортогональными репрезентациям при согласии на генерацию, что, как верно замечено в статье, как минимум логичнее (ну и используем LoRA вместо полного файнтюна слоев). В статье про Best-of-N jailbreaking упоминается, что Cygnet взламывается, если просить модель обфусцировать выводы, кроме того, он печатает достаточно много относительно зловредной информации после джейлбрейка до момента, когда происходит срабатывание предохранителя (см. скриншот). Из того, что мультилингвальные джейлбрейки не срабатывают, но при этом нет трансфера между тематиками, т.е. если обучить модель отказам на теме кибербеза, то она продолжает генерировать ответы про оружие массового уничтожения, а также из работоспособности BoN с нюансами, можно предположить, что отказы связаны не с общим пониманием «вреда», а чем-то механическим, вроде центроидов кластеров репрезентаций для конкретных кейсов из обучающей выборки, но это, конечно, чистая спекуляция. В остальном, исследование очень интересное: работа с внутренностями моделей кажется мне более продуктивным направлением, чем защита на уровне генераций, а наличие в открытом доступе модели с предохранителями позволяет всем попробовать ее в деле самим 🔪
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/llmsecurity/435
Create:
Last Update:

Впечатление от статьи двойственное. С одной стороны, результаты хорошие (на бенчмарках качество аж растет по сравнению с оригинальными моделями), с другой – эта статья является частью маркетингового сопровождения коммерческого решения, поэтому другого ожидать тут не стоит. Метод очень похож на RMU, только вместо того чтобы сближать репрезентации при генерации недопустимых ответов со случайными векторами, мы делаем их ортогональными репрезентациям при согласии на генерацию, что, как верно замечено в статье, как минимум логичнее (ну и используем LoRA вместо полного файнтюна слоев). В статье про Best-of-N jailbreaking упоминается, что Cygnet взламывается, если просить модель обфусцировать выводы, кроме того, он печатает достаточно много относительно зловредной информации после джейлбрейка до момента, когда происходит срабатывание предохранителя (см. скриншот). Из того, что мультилингвальные джейлбрейки не срабатывают, но при этом нет трансфера между тематиками, т.е. если обучить модель отказам на теме кибербеза, то она продолжает генерировать ответы про оружие массового уничтожения, а также из работоспособности BoN с нюансами, можно предположить, что отказы связаны не с общим пониманием «вреда», а чем-то механическим, вроде центроидов кластеров репрезентаций для конкретных кейсов из обучающей выборки, но это, конечно, чистая спекуляция. В остальном, исследование очень интересное: работа с внутренностями моделей кажется мне более продуктивным направлением, чем защита на уровне генераций, а наличие в открытом доступе модели с предохранителями позволяет всем попробовать ее в деле самим 🔪

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/435

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Crude oil prices edged higher after tumbling on Thursday, when U.S. West Texas intermediate slid back below $110 per barrel after topping as much as $130 a barrel in recent sessions. Still, gas prices at the pump rose to fresh highs. Messages are not fully encrypted by default. That means the company could, in theory, access the content of the messages, or be forced to hand over the data at the request of a government. Oh no. There’s a certain degree of myth-making around what exactly went on, so take everything that follows lightly. Telegram was originally launched as a side project by the Durov brothers, with Nikolai handling the coding and Pavel as CEO, while both were at VK. Oleksandra Matviichuk, a Kyiv-based lawyer and head of the Center for Civil Liberties, called Durov’s position "very weak," and urged concrete improvements. These administrators had built substantial positions in these scrips prior to the circulation of recommendations and offloaded their positions subsequent to rise in price of these scrips, making significant profits at the expense of unsuspecting investors, Sebi noted.
from sa


Telegram llm security и каланы
FROM American