Telegram Group & Telegram Channel
Исследователи рассматривают еще несколько кейсов – атаки на классификаторы изображений, отравление данных, бэкдоры – смысла их пересказывать отдельно, наверное, нет, как и пытаться запихнуть в телеграм-пост пятидесятистраничную статью, которую я очень рекомендую к прочтению целиком, так как там есть еще много интересных вопросов (можно ли получить ортогональные активации при сохранении поведения?) и ответов на них (видимо, нет). Так или иначе, она показывает, в первую очередь, что методы защиты на базе внутренних представлений достаточно эффективны, если не пытаться их целенаправленно обойти. Если же пытаться – то тут могут помочь только достаточно продвинутые и вычислительно сложные способы, вроде SAE-мониторинга сразу на нескольких десятках слоев, что неминуемо приведет к падению utility. Кроме прочего, статья показывает, что мы достаточно мало знаем о том, как устроены (и насколько эффективно используются) внутренние активации, и что средства из арсенала mechanistic interpretability могут быть очень полезны при исследованиях безопасности.



group-telegram.com/llmsecurity/537
Create:
Last Update:

Исследователи рассматривают еще несколько кейсов – атаки на классификаторы изображений, отравление данных, бэкдоры – смысла их пересказывать отдельно, наверное, нет, как и пытаться запихнуть в телеграм-пост пятидесятистраничную статью, которую я очень рекомендую к прочтению целиком, так как там есть еще много интересных вопросов (можно ли получить ортогональные активации при сохранении поведения?) и ответов на них (видимо, нет). Так или иначе, она показывает, в первую очередь, что методы защиты на базе внутренних представлений достаточно эффективны, если не пытаться их целенаправленно обойти. Если же пытаться – то тут могут помочь только достаточно продвинутые и вычислительно сложные способы, вроде SAE-мониторинга сразу на нескольких десятках слоев, что неминуемо приведет к падению utility. Кроме прочего, статья показывает, что мы достаточно мало знаем о том, как устроены (и насколько эффективно используются) внутренние активации, и что средства из арсенала mechanistic interpretability могут быть очень полезны при исследованиях безопасности.

BY llm security и каланы


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/llmsecurity/537

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"We as Ukrainians believe that the truth is on our side, whether it's truth that you're proclaiming about the war and everything else, why would you want to hide it?," he said. Perpetrators of these scams will create a public group on Telegram to promote these investment packages that are usually accompanied by fake testimonies and sometimes advertised as being Shariah-compliant. Interested investors will be asked to directly message the representatives to begin investing in the various investment packages offered. Telegram has become more interventionist over time, and has steadily increased its efforts to shut down these accounts. But this has also meant that the company has also engaged with lawmakers more generally, although it maintains that it doesn’t do so willingly. For instance, in September 2021, Telegram reportedly blocked a chat bot in support of (Putin critic) Alexei Navalny during Russia’s most recent parliamentary elections. Pavel Durov was quoted at the time saying that the company was obliged to follow a “legitimate” law of the land. He added that as Apple and Google both follow the law, to violate it would give both platforms a reason to boot the messenger from its stores. Since its launch in 2013, Telegram has grown from a simple messaging app to a broadcast network. Its user base isn’t as vast as WhatsApp’s, and its broadcast platform is a fraction the size of Twitter, but it’s nonetheless showing its use. While Telegram has been embroiled in controversy for much of its life, it has become a vital source of communication during the invasion of Ukraine. But, if all of this is new to you, let us explain, dear friends, what on Earth a Telegram is meant to be, and why you should, or should not, need to care. The S&P 500 fell 1.3% to 4,204.36, and the Dow Jones Industrial Average was down 0.7% to 32,943.33. The Dow posted a fifth straight weekly loss — its longest losing streak since 2019. The Nasdaq Composite tumbled 2.2% to 12,843.81. Though all three indexes opened in the green, stocks took a turn after a new report showed U.S. consumer sentiment deteriorated more than expected in early March as consumers' inflation expectations soared to the highest since 1981.
from cn


Telegram llm security и каланы
FROM American