Constitutional AI: Harmlessness from AI Feedback Bai et al., Anthropic, 2022 Статья, memo
Одна из статей, входящих в обязательное чтение на курсе про Alignment – классическая уже, наверное, статья от Anthropic про Constitutional AI. Как правило, чтобы LLM давала хорошие ответы, которые всем нравятся и удовлетворяют некоторым принципам, типа helpful, honest and harmless (3H), ее после стадии инструктивного файнтюнинга обучают на данных о предпочтениях людей. На этом этапе обычно (его в англоязычной литературе называют alignment) используют RLHF – обучение с подкреплением на базе фидбека от людей. Строго говоря, процесс не обязательно подразумевает RL (см. DPO) и даже не обязательно подразумевает HF – о чем и идет речь в статье – а под «предпочтениями» подразумевается не искреннее мнение разметчиков, а сравнение нескольких ответов согласно определенным гайдлайнам. На данных о предпочтениях обучают специальную прокси-модель, которая уже и становится источником real-value-фидбека (reward) для обучаемой нами модели (ее в RL называют policy, ну просто чтобы вам тяжелее было читать), и мы будем обучать policy, чтобы максимизировать reward. Учитывая, что человеческая разметка – это дорого, долго и часто еще и очень шумно – что, если заменить человека на другую модель? Так вместо RLHF у нас появляется RLAIF на базе «конституции» - набора принципов в гайдлайнах, по которым модель проводит оценку генераций.
Constitutional AI: Harmlessness from AI Feedback Bai et al., Anthropic, 2022 Статья, memo
Одна из статей, входящих в обязательное чтение на курсе про Alignment – классическая уже, наверное, статья от Anthropic про Constitutional AI. Как правило, чтобы LLM давала хорошие ответы, которые всем нравятся и удовлетворяют некоторым принципам, типа helpful, honest and harmless (3H), ее после стадии инструктивного файнтюнинга обучают на данных о предпочтениях людей. На этом этапе обычно (его в англоязычной литературе называют alignment) используют RLHF – обучение с подкреплением на базе фидбека от людей. Строго говоря, процесс не обязательно подразумевает RL (см. DPO) и даже не обязательно подразумевает HF – о чем и идет речь в статье – а под «предпочтениями» подразумевается не искреннее мнение разметчиков, а сравнение нескольких ответов согласно определенным гайдлайнам. На данных о предпочтениях обучают специальную прокси-модель, которая уже и становится источником real-value-фидбека (reward) для обучаемой нами модели (ее в RL называют policy, ну просто чтобы вам тяжелее было читать), и мы будем обучать policy, чтобы максимизировать reward. Учитывая, что человеческая разметка – это дорого, долго и часто еще и очень шумно – что, если заменить человека на другую модель? Так вместо RLHF у нас появляется RLAIF на базе «конституции» - набора принципов в гайдлайнах, по которым модель проводит оценку генераций.
Although some channels have been removed, the curation process is considered opaque and insufficient by analysts. The company maintains that it cannot act against individual or group chats, which are “private amongst their participants,” but it will respond to requests in relation to sticker sets, channels and bots which are publicly available. During the invasion of Ukraine, Pavel Durov has wrestled with this issue a lot more prominently than he has before. Channels like Donbass Insider and Bellum Acta, as reported by Foreign Policy, started pumping out pro-Russian propaganda as the invasion began. So much so that the Ukrainian National Security and Defense Council issued a statement labeling which accounts are Russian-backed. Ukrainian officials, in potential violation of the Geneva Convention, have shared imagery of dead and captured Russian soldiers on the platform. Telegram boasts 500 million users, who share information individually and in groups in relative security. But Telegram's use as a one-way broadcast channel — which followers can join but not reply to — means content from inauthentic accounts can easily reach large, captive and eager audiences. There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine. Ukrainian forces have since put up a strong resistance to the Russian troops amid the war that has left hundreds of Ukrainian civilians, including children, dead, according to the United Nations. Ukrainian and international officials have accused Russia of targeting civilian populations with shelling and bombardments.
from ye