Telegram Group & Telegram Channel
Исследователи рассматривают еще несколько кейсов – атаки на классификаторы изображений, отравление данных, бэкдоры – смысла их пересказывать отдельно, наверное, нет, как и пытаться запихнуть в телеграм-пост пятидесятистраничную статью, которую я очень рекомендую к прочтению целиком, так как там есть еще много интересных вопросов (можно ли получить ортогональные активации при сохранении поведения?) и ответов на них (видимо, нет). Так или иначе, она показывает, в первую очередь, что методы защиты на базе внутренних представлений достаточно эффективны, если не пытаться их целенаправленно обойти. Если же пытаться – то тут могут помочь только достаточно продвинутые и вычислительно сложные способы, вроде SAE-мониторинга сразу на нескольких десятках слоев, что неминуемо приведет к падению utility. Кроме прочего, статья показывает, что мы достаточно мало знаем о том, как устроены (и насколько эффективно используются) внутренние активации, и что средства из арсенала mechanistic interpretability могут быть очень полезны при исследованиях безопасности.



group-telegram.com/llmsecurity/537
Create:
Last Update:

Исследователи рассматривают еще несколько кейсов – атаки на классификаторы изображений, отравление данных, бэкдоры – смысла их пересказывать отдельно, наверное, нет, как и пытаться запихнуть в телеграм-пост пятидесятистраничную статью, которую я очень рекомендую к прочтению целиком, так как там есть еще много интересных вопросов (можно ли получить ортогональные активации при сохранении поведения?) и ответов на них (видимо, нет). Так или иначе, она показывает, в первую очередь, что методы защиты на базе внутренних представлений достаточно эффективны, если не пытаться их целенаправленно обойти. Если же пытаться – то тут могут помочь только достаточно продвинутые и вычислительно сложные способы, вроде SAE-мониторинга сразу на нескольких десятках слоев, что неминуемо приведет к падению utility. Кроме прочего, статья показывает, что мы достаточно мало знаем о том, как устроены (и насколько эффективно используются) внутренние активации, и что средства из арсенала mechanistic interpretability могут быть очень полезны при исследованиях безопасности.

BY llm security и каланы


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/llmsecurity/537

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

These entities are reportedly operating nine Telegram channels with more than five million subscribers to whom they were making recommendations on selected listed scrips. Such recommendations induced the investors to deal in the said scrips, thereby creating artificial volume and price rise. The account, "War on Fakes," was created on February 24, the same day Russian President Vladimir Putin announced a "special military operation" and troops began invading Ukraine. The page is rife with disinformation, according to The Atlantic Council's Digital Forensic Research Lab, which studies digital extremism and published a report examining the channel. "For Telegram, accountability has always been a problem, which is why it was so popular even before the full-scale war with far-right extremists and terrorists from all over the world," she told AFP from her safe house outside the Ukrainian capital. Individual messages can be fully encrypted. But the user has to turn on that function. It's not automatic, as it is on Signal and WhatsApp. Apparently upbeat developments in Russia's discussions with Ukraine helped at least temporarily send investors back into risk assets. Russian President Vladimir Putin said during a meeting with his Belarusian counterpart Alexander Lukashenko that there were "certain positive developments" occurring in the talks with Ukraine, according to a transcript of their meeting. Putin added that discussions were happening "almost on a daily basis."
from br


Telegram llm security и каланы
FROM American