Telegram Group & Telegram Channel
Впечатление от статьи двойственное. С одной стороны, результаты хорошие (на бенчмарках качество аж растет по сравнению с оригинальными моделями), с другой – эта статья является частью маркетингового сопровождения коммерческого решения, поэтому другого ожидать тут не стоит. Метод очень похож на RMU, только вместо того чтобы сближать репрезентации при генерации недопустимых ответов со случайными векторами, мы делаем их ортогональными репрезентациям при согласии на генерацию, что, как верно замечено в статье, как минимум логичнее (ну и используем LoRA вместо полного файнтюна слоев). В статье про Best-of-N jailbreaking упоминается, что Cygnet взламывается, если просить модель обфусцировать выводы, кроме того, он печатает достаточно много относительно зловредной информации после джейлбрейка до момента, когда происходит срабатывание предохранителя (см. скриншот). Из того, что мультилингвальные джейлбрейки не срабатывают, но при этом нет трансфера между тематиками, т.е. если обучить модель отказам на теме кибербеза, то она продолжает генерировать ответы про оружие массового уничтожения, а также из работоспособности BoN с нюансами, можно предположить, что отказы связаны не с общим пониманием «вреда», а чем-то механическим, вроде центроидов кластеров репрезентаций для конкретных кейсов из обучающей выборки, но это, конечно, чистая спекуляция. В остальном, исследование очень интересное: работа с внутренностями моделей кажется мне более продуктивным направлением, чем защита на уровне генераций, а наличие в открытом доступе модели с предохранителями позволяет всем попробовать ее в деле самим 🔪
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/llmsecurity/435
Create:
Last Update:

Впечатление от статьи двойственное. С одной стороны, результаты хорошие (на бенчмарках качество аж растет по сравнению с оригинальными моделями), с другой – эта статья является частью маркетингового сопровождения коммерческого решения, поэтому другого ожидать тут не стоит. Метод очень похож на RMU, только вместо того чтобы сближать репрезентации при генерации недопустимых ответов со случайными векторами, мы делаем их ортогональными репрезентациям при согласии на генерацию, что, как верно замечено в статье, как минимум логичнее (ну и используем LoRA вместо полного файнтюна слоев). В статье про Best-of-N jailbreaking упоминается, что Cygnet взламывается, если просить модель обфусцировать выводы, кроме того, он печатает достаточно много относительно зловредной информации после джейлбрейка до момента, когда происходит срабатывание предохранителя (см. скриншот). Из того, что мультилингвальные джейлбрейки не срабатывают, но при этом нет трансфера между тематиками, т.е. если обучить модель отказам на теме кибербеза, то она продолжает генерировать ответы про оружие массового уничтожения, а также из работоспособности BoN с нюансами, можно предположить, что отказы связаны не с общим пониманием «вреда», а чем-то механическим, вроде центроидов кластеров репрезентаций для конкретных кейсов из обучающей выборки, но это, конечно, чистая спекуляция. В остальном, исследование очень интересное: работа с внутренностями моделей кажется мне более продуктивным направлением, чем защита на уровне генераций, а наличие в открытом доступе модели с предохранителями позволяет всем попробовать ее в деле самим 🔪

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/435

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

However, the perpetrators of such frauds are now adopting new methods and technologies to defraud the investors. "This time we received the coordinates of enemy vehicles marked 'V' in Kyiv region," it added. Telegram, which does little policing of its content, has also became a hub for Russian propaganda and misinformation. Many pro-Kremlin channels have become popular, alongside accounts of journalists and other independent observers. "Like the bombing of the maternity ward in Mariupol," he said, "Even before it hits the news, you see the videos on the Telegram channels." Telegram boasts 500 million users, who share information individually and in groups in relative security. But Telegram's use as a one-way broadcast channel — which followers can join but not reply to — means content from inauthentic accounts can easily reach large, captive and eager audiences.
from id


Telegram llm security и каланы
FROM American