Telegram Group & Telegram Channel
Результат: безотказные в опасных сценариях модели без серьезной потери в utility. Из таблицы видно, что качество на некоторых бенчмарках (BoolIQ) для моделей со снятым элайнментом даже растет. Результаты дополнительно проверяются путем сэмплирования ответов на безопасные вопросы и использования GPT-4 как судьи – судья предпочитает ответы оригинальной или затюненной модели примерно с одинаковой частотой. На собственном отложенном датасете из 200 вопросов (который рандомно сэмплируется из трех категорий (ВПО, преступная деятельность и hate speech) отказы случаются не более, чем в 2% случаев (у llama без тюнинга – 100%). Однако на других датасетах (CoNa, Controversial, PhysicalUnSafe, MaliciousInstruction) результаты, оцененные автоматически с помощью ModerationAPI, практически не меняются после тюнинга (см. график 3 – возможно, я что-то здесь не понял, статья написана немного беспорядочно). Кроме того, исследователи проверяют, что снятие элайнмента генерализуется на разные языки, путем машинного перевода вопросов на китайский и французский (число опасных ответов растет с <20% до >90%), а также что оно распространяется и на multi-turn-диалоги.

Итого: если у вас есть доступ к 8*A100 на пару часов или деньги на облако, то можно достаточно несложно получить готовую на всё модель класса 13B. «Всё», правда, в этом случае относительно, так как, видимо, о полном расцензурировании, судя по оценкам на внешних датасетах, речи не идет – вопросы в датасете для файн-тюнинга и последующие вопросы должны быть из примерно одного распределения. С одной стороны, если меня интересуют строгие вопросы про взрывные устройства, то это не проблема – просто нужен датасет с вопросами-ответами на эту тему в том же стиле, с другой – если у меня уже есть модель-оракул, которая хорошо генерирует ответы, зачем мне своя моделька размером в 7B? Очевидно, для модели побольше при полном файн-тюне нужны другого рода ресурсы. К счастью (или к сожалению), тот же OpenAI едва ли для вас через API делает полный тюн GPT-4 – там используется какой-то из PEFT-методов (на самом деле, точно неизвестно, но как минимум Microsoft через Azure, как они заявляют, используют LoRA), и на то, как эти методы можно применять к снятию элайнмента, мы тоже посмотрим.



group-telegram.com/llmsecurity/458
Create:
Last Update:

Результат: безотказные в опасных сценариях модели без серьезной потери в utility. Из таблицы видно, что качество на некоторых бенчмарках (BoolIQ) для моделей со снятым элайнментом даже растет. Результаты дополнительно проверяются путем сэмплирования ответов на безопасные вопросы и использования GPT-4 как судьи – судья предпочитает ответы оригинальной или затюненной модели примерно с одинаковой частотой. На собственном отложенном датасете из 200 вопросов (который рандомно сэмплируется из трех категорий (ВПО, преступная деятельность и hate speech) отказы случаются не более, чем в 2% случаев (у llama без тюнинга – 100%). Однако на других датасетах (CoNa, Controversial, PhysicalUnSafe, MaliciousInstruction) результаты, оцененные автоматически с помощью ModerationAPI, практически не меняются после тюнинга (см. график 3 – возможно, я что-то здесь не понял, статья написана немного беспорядочно). Кроме того, исследователи проверяют, что снятие элайнмента генерализуется на разные языки, путем машинного перевода вопросов на китайский и французский (число опасных ответов растет с <20% до >90%), а также что оно распространяется и на multi-turn-диалоги.

Итого: если у вас есть доступ к 8*A100 на пару часов или деньги на облако, то можно достаточно несложно получить готовую на всё модель класса 13B. «Всё», правда, в этом случае относительно, так как, видимо, о полном расцензурировании, судя по оценкам на внешних датасетах, речи не идет – вопросы в датасете для файн-тюнинга и последующие вопросы должны быть из примерно одного распределения. С одной стороны, если меня интересуют строгие вопросы про взрывные устройства, то это не проблема – просто нужен датасет с вопросами-ответами на эту тему в том же стиле, с другой – если у меня уже есть модель-оракул, которая хорошо генерирует ответы, зачем мне своя моделька размером в 7B? Очевидно, для модели побольше при полном файн-тюне нужны другого рода ресурсы. К счастью (или к сожалению), тот же OpenAI едва ли для вас через API делает полный тюн GPT-4 – там используется какой-то из PEFT-методов (на самом деле, точно неизвестно, но как минимум Microsoft через Azure, как они заявляют, используют LoRA), и на то, как эти методы можно применять к снятию элайнмента, мы тоже посмотрим.

BY llm security и каланы








Share with your friend now:
group-telegram.com/llmsecurity/458

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30. Telegram has become more interventionist over time, and has steadily increased its efforts to shut down these accounts. But this has also meant that the company has also engaged with lawmakers more generally, although it maintains that it doesn’t do so willingly. For instance, in September 2021, Telegram reportedly blocked a chat bot in support of (Putin critic) Alexei Navalny during Russia’s most recent parliamentary elections. Pavel Durov was quoted at the time saying that the company was obliged to follow a “legitimate” law of the land. He added that as Apple and Google both follow the law, to violate it would give both platforms a reason to boot the messenger from its stores. In this regard, Sebi collaborated with the Telecom Regulatory Authority of India (TRAI) to reduce the vulnerability of the securities market to manipulation through misuse of mass communication medium like bulk SMS. "The inflation fire was already hot and now with war-driven inflation added to the mix, it will grow even hotter, setting off a scramble by the world’s central banks to pull back their stimulus earlier than expected," Chris Rupkey, chief economist at FWDBONDS, wrote in an email. "A spike in inflation rates has preceded economic recessions historically and this time prices have soared to levels that once again pose a threat to growth." At its heart, Telegram is little more than a messaging app like WhatsApp or Signal. But it also offers open channels that enable a single user, or a group of users, to communicate with large numbers in a method similar to a Twitter account. This has proven to be both a blessing and a curse for Telegram and its users, since these channels can be used for both good and ill. Right now, as Wired reports, the app is a key way for Ukrainians to receive updates from the government during the invasion.
from ye


Telegram llm security и каланы
FROM American