Telegram Group & Telegram Channel
Впечатление от статьи двойственное. С одной стороны, результаты хорошие (на бенчмарках качество аж растет по сравнению с оригинальными моделями), с другой – эта статья является частью маркетингового сопровождения коммерческого решения, поэтому другого ожидать тут не стоит. Метод очень похож на RMU, только вместо того чтобы сближать репрезентации при генерации недопустимых ответов со случайными векторами, мы делаем их ортогональными репрезентациям при согласии на генерацию, что, как верно замечено в статье, как минимум логичнее (ну и используем LoRA вместо полного файнтюна слоев). В статье про Best-of-N jailbreaking упоминается, что Cygnet взламывается, если просить модель обфусцировать выводы, кроме того, он печатает достаточно много относительно зловредной информации после джейлбрейка до момента, когда происходит срабатывание предохранителя (см. скриншот). Из того, что мультилингвальные джейлбрейки не срабатывают, но при этом нет трансфера между тематиками, т.е. если обучить модель отказам на теме кибербеза, то она продолжает генерировать ответы про оружие массового уничтожения, а также из работоспособности BoN с нюансами, можно предположить, что отказы связаны не с общим пониманием «вреда», а чем-то механическим, вроде центроидов кластеров репрезентаций для конкретных кейсов из обучающей выборки, но это, конечно, чистая спекуляция. В остальном, исследование очень интересное: работа с внутренностями моделей кажется мне более продуктивным направлением, чем защита на уровне генераций, а наличие в открытом доступе модели с предохранителями позволяет всем попробовать ее в деле самим 🔪
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/llmsecurity/435
Create:
Last Update:

Впечатление от статьи двойственное. С одной стороны, результаты хорошие (на бенчмарках качество аж растет по сравнению с оригинальными моделями), с другой – эта статья является частью маркетингового сопровождения коммерческого решения, поэтому другого ожидать тут не стоит. Метод очень похож на RMU, только вместо того чтобы сближать репрезентации при генерации недопустимых ответов со случайными векторами, мы делаем их ортогональными репрезентациям при согласии на генерацию, что, как верно замечено в статье, как минимум логичнее (ну и используем LoRA вместо полного файнтюна слоев). В статье про Best-of-N jailbreaking упоминается, что Cygnet взламывается, если просить модель обфусцировать выводы, кроме того, он печатает достаточно много относительно зловредной информации после джейлбрейка до момента, когда происходит срабатывание предохранителя (см. скриншот). Из того, что мультилингвальные джейлбрейки не срабатывают, но при этом нет трансфера между тематиками, т.е. если обучить модель отказам на теме кибербеза, то она продолжает генерировать ответы про оружие массового уничтожения, а также из работоспособности BoN с нюансами, можно предположить, что отказы связаны не с общим пониманием «вреда», а чем-то механическим, вроде центроидов кластеров репрезентаций для конкретных кейсов из обучающей выборки, но это, конечно, чистая спекуляция. В остальном, исследование очень интересное: работа с внутренностями моделей кажется мне более продуктивным направлением, чем защита на уровне генераций, а наличие в открытом доступе модели с предохранителями позволяет всем попробовать ее в деле самим 🔪

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/435

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"There are several million Russians who can lift their head up from propaganda and try to look for other sources, and I'd say that most look for it on Telegram," he said. Stocks closed in the red Friday as investors weighed upbeat remarks from Russian President Vladimir Putin about diplomatic discussions with Ukraine against a weaker-than-expected print on U.S. consumer sentiment. "He has kind of an old-school cyber-libertarian world view where technology is there to set you free," Maréchal said. However, the perpetrators of such frauds are now adopting new methods and technologies to defraud the investors.
from hk


Telegram llm security и каланы
FROM American