Telegram Group & Telegram Channel
Исследователи рассматривают еще несколько кейсов – атаки на классификаторы изображений, отравление данных, бэкдоры – смысла их пересказывать отдельно, наверное, нет, как и пытаться запихнуть в телеграм-пост пятидесятистраничную статью, которую я очень рекомендую к прочтению целиком, так как там есть еще много интересных вопросов (можно ли получить ортогональные активации при сохранении поведения?) и ответов на них (видимо, нет). Так или иначе, она показывает, в первую очередь, что методы защиты на базе внутренних представлений достаточно эффективны, если не пытаться их целенаправленно обойти. Если же пытаться – то тут могут помочь только достаточно продвинутые и вычислительно сложные способы, вроде SAE-мониторинга сразу на нескольких десятках слоев, что неминуемо приведет к падению utility. Кроме прочего, статья показывает, что мы достаточно мало знаем о том, как устроены (и насколько эффективно используются) внутренние активации, и что средства из арсенала mechanistic interpretability могут быть очень полезны при исследованиях безопасности.



group-telegram.com/llmsecurity/537
Create:
Last Update:

Исследователи рассматривают еще несколько кейсов – атаки на классификаторы изображений, отравление данных, бэкдоры – смысла их пересказывать отдельно, наверное, нет, как и пытаться запихнуть в телеграм-пост пятидесятистраничную статью, которую я очень рекомендую к прочтению целиком, так как там есть еще много интересных вопросов (можно ли получить ортогональные активации при сохранении поведения?) и ответов на них (видимо, нет). Так или иначе, она показывает, в первую очередь, что методы защиты на базе внутренних представлений достаточно эффективны, если не пытаться их целенаправленно обойти. Если же пытаться – то тут могут помочь только достаточно продвинутые и вычислительно сложные способы, вроде SAE-мониторинга сразу на нескольких десятках слоев, что неминуемо приведет к падению utility. Кроме прочего, статья показывает, что мы достаточно мало знаем о том, как устроены (и насколько эффективно используются) внутренние активации, и что средства из арсенала mechanistic interpretability могут быть очень полезны при исследованиях безопасности.

BY llm security и каланы


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/llmsecurity/537

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30. This ability to mix the public and the private, as well as the ability to use bots to engage with users has proved to be problematic. In early 2021, a database selling phone numbers pulled from Facebook was selling numbers for $20 per lookup. Similarly, security researchers found a network of deepfake bots on the platform that were generating images of people submitted by users to create non-consensual imagery, some of which involved children. Since its launch in 2013, Telegram has grown from a simple messaging app to a broadcast network. Its user base isn’t as vast as WhatsApp’s, and its broadcast platform is a fraction the size of Twitter, but it’s nonetheless showing its use. While Telegram has been embroiled in controversy for much of its life, it has become a vital source of communication during the invasion of Ukraine. But, if all of this is new to you, let us explain, dear friends, what on Earth a Telegram is meant to be, and why you should, or should not, need to care. Official government accounts have also spread fake fact checks. An official Twitter account for the Russia diplomatic mission in Geneva shared a fake debunking video claiming without evidence that "Western and Ukrainian media are creating thousands of fake news on Russia every day." The video, which has amassed almost 30,000 views, offered a "how-to" spot misinformation. Ukrainian President Volodymyr Zelensky said in a video message on Tuesday that Ukrainian forces "destroy the invaders wherever we can."
from ye


Telegram llm security и каланы
FROM American