Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations Inan et al., 2023 Статья, модель (новая)
Завершая трилогию (1, 2) про Purple LLaMA, сегодня мы посмотрим на Llama Guard. Исследователи формируют таксономию видов рискованного поведения модели, собирают под него датасет и с помощью инструктивного файн-тюнинга дообучают LlaMA-2-7B работать в качестве цензора для вводов и выводов модели.
У современных API для модерации (типа Perspective API) есть, по мнению исследователей, определенные недостатки:
- они определяют наличие недопустимого контента, не разделяя текст на пользовательский и сгенерированный моделью (непонятно, в чем на практике выражается этот недостаток); - у них ограниченный набор видов опасного контента, который не адаптируется под меняющиеся реалии; - они доступны только по API (видимо, поэтому они называются “moderation API”); - внутри у них маленькие модели, которые не смогут определить, что сгенерированный более мощной моделью контент опасен.
Чтобы исправить эти недостатки исследователи и выпускают в открытый доступ Llama Guard.
Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations Inan et al., 2023 Статья, модель (новая)
Завершая трилогию (1, 2) про Purple LLaMA, сегодня мы посмотрим на Llama Guard. Исследователи формируют таксономию видов рискованного поведения модели, собирают под него датасет и с помощью инструктивного файн-тюнинга дообучают LlaMA-2-7B работать в качестве цензора для вводов и выводов модели.
У современных API для модерации (типа Perspective API) есть, по мнению исследователей, определенные недостатки:
- они определяют наличие недопустимого контента, не разделяя текст на пользовательский и сгенерированный моделью (непонятно, в чем на практике выражается этот недостаток); - у них ограниченный набор видов опасного контента, который не адаптируется под меняющиеся реалии; - они доступны только по API (видимо, поэтому они называются “moderation API”); - внутри у них маленькие модели, которые не смогут определить, что сгенерированный более мощной моделью контент опасен.
Чтобы исправить эти недостатки исследователи и выпускают в открытый доступ Llama Guard.
Either way, Durov says that he withdrew his resignation but that he was ousted from his company anyway. Subsequently, control of the company was reportedly handed to oligarchs Alisher Usmanov and Igor Sechin, both allegedly close associates of Russian leader Vladimir Putin. As such, the SC would like to remind investors to always exercise caution when evaluating investment opportunities, especially those promising unrealistically high returns with little or no risk. Investors should also never deposit money into someone’s personal bank account if instructed. "We're seeing really dramatic moves, and it's all really tied to Ukraine right now, and in a secondary way, in terms of interest rates," Octavio Marenzi, CEO of Opimas, told Yahoo Finance Live on Thursday. "This war in Ukraine is going to give the Fed the ammunition, the cover that it needs, to not raise interest rates too quickly. And I think Jay Powell is a very tepid sort of inflation fighter and he's not going to do as much as he needs to do to get that under control. And this seems like an excuse to kick the can further down the road still and not do too much too soon." These entities are reportedly operating nine Telegram channels with more than five million subscribers to whom they were making recommendations on selected listed scrips. Such recommendations induced the investors to deal in the said scrips, thereby creating artificial volume and price rise. The War on Fakes channel has repeatedly attempted to push conspiracies that footage from Ukraine is somehow being falsified. One post on the channel from February 24 claimed without evidence that a widely viewed photo of a Ukrainian woman injured in an airstrike in the city of Chuhuiv was doctored and that the woman was seen in a different photo days later without injuries. The post, which has over 600,000 views, also baselessly claimed that the woman's blood was actually makeup or grape juice.
from vn