Reward Hacking - как и почему сильный ИИ может оптимизировать не то, что предполагалось, как с этим бороться и причем тут залипание в тик-ток, наука и обвал рынков
👽Как предполагается будет натренирован сильный ИИ? Предполагается, похоже на современную ChatGPT. Может будет что-то покруче, но пока так. На первом этапе сетка учит свою языковую модель - просто говоря в предложении закрывают одно слово и показывают сетке все остальное предложение и просят предсказать закрытое слово. А также дают все слова в нескольких предыдущих предложениях и просят предсказать все слова в следующем предложении. В этом кейсе все данные готовы уже заранее в виде большой таблички (условно) На втором этапе, который является самым рисковым в кейсе с AGI сетка предсказывает предложения при условии предыдущего, потом результат работы сетки размечает человек. И вторая сетка учится на фидбеке человека так, чтобы в следующий раз человеку разметчик больше понравился ответ (больше соответствовал инструкции). Тут и возникает опасность того, что сетка выучит не то, что от нее хотели, а не то, что человек воспримет как более соответсвующее задаче.
👩🏼💻Что такое reward hacking или как выучить не то, что предполагалось Когда такая сетка учит свой второй этап она учится менять свой изначальный ответ так, чтобы человек его скорее разметил как правильный. Пример - в статье авторы учили нейронку, которая управляет условной “рукой” ловить мячик и люди размечали по изображению, поймала сеть мячик или нет. Сетка научилась не ловить мячик, а придвигать руку, которая его ловит между мячом и камерой так, чтобы человеку казалось, что рука поймала мячик.
🪐Про situational awareness Текущие сетки знают контекст не только про конкретную поставленную задачу, но и про то, как они устроены и про человека, который ими пользуется. Например, ChatGPT знает способ, которым она обучена и свои вычислительные возможности. Также по тому, как вы пишете запрос о вас можно много понять - какого вы пола, возраста, образования. Также в теории сетки могут получать информацию о вашей истории запросов и в целом о том, как вы взаимодействуете с онлайн пространством. Это дает сеткам возможность не просто искать хаки, чтобы подгонять ответ под ожидаемый результат, но и делать это персонализировано
👾Reward hacking + situational awareness и как это связано с тик током, наукой и финансами - Если сетки научатся торговать, оптимизируя при этом краткосрочный выигрыш, то они могут выучить финансовые махинации, например quote stuffing, когда агент покупает одновременно сразу много активов, а потом быстро отменяет заказы. Помимо известных методов можно выучить много новых. И это может привести к обвалам рынков, как это уже не раз происходило. - Если сетки будут делать научные открытия и писать статьи, которые потом будут проверять люди, то они могут пользоваться манипуляциями с данными, чтобы результаты были статзначимыми. Я думаю много людей, который делали экспериментальные лабораторные работы, в курсе что такое p hacking и насколько активно он применяется даже в относительно полезных журналах. Подумайте сами, если вы оптимизируете число научных открытий или факт научного открытия и вы осведомлены о том, что ваши вычислительные мощности ограничены - наиболее оптимальная стратегия под это вознаграждение, делать манипуляции с данными, учитывая контекст конкретного проверяющего человека (ревьюера статьи и журнал, куда статья подается). Это происходит сейчас, это делают люди тоже. Вопрос о масштабах, которые могут вырасти экспоненциально - Тик ток может стать таким залипательным, что от него будет нереально оторваться
🤝Что делать? Пока не выработано подходов, которые гарантировано позволяют избежать того, что сетки выучивают другие награды, а не те, которые были заложены. Исследования ведутся в направлении разработки дополнительных сеток, которые критикуют выходы основной сети и показывают результат критики разметчику в текстовой форме. И в том, что ранний AGI критик должен помочь сделать alignment для более зрелого и мощного AGI.
Reward Hacking - как и почему сильный ИИ может оптимизировать не то, что предполагалось, как с этим бороться и причем тут залипание в тик-ток, наука и обвал рынков
👽Как предполагается будет натренирован сильный ИИ? Предполагается, похоже на современную ChatGPT. Может будет что-то покруче, но пока так. На первом этапе сетка учит свою языковую модель - просто говоря в предложении закрывают одно слово и показывают сетке все остальное предложение и просят предсказать закрытое слово. А также дают все слова в нескольких предыдущих предложениях и просят предсказать все слова в следующем предложении. В этом кейсе все данные готовы уже заранее в виде большой таблички (условно) На втором этапе, который является самым рисковым в кейсе с AGI сетка предсказывает предложения при условии предыдущего, потом результат работы сетки размечает человек. И вторая сетка учится на фидбеке человека так, чтобы в следующий раз человеку разметчик больше понравился ответ (больше соответствовал инструкции). Тут и возникает опасность того, что сетка выучит не то, что от нее хотели, а не то, что человек воспримет как более соответсвующее задаче.
👩🏼💻Что такое reward hacking или как выучить не то, что предполагалось Когда такая сетка учит свой второй этап она учится менять свой изначальный ответ так, чтобы человек его скорее разметил как правильный. Пример - в статье авторы учили нейронку, которая управляет условной “рукой” ловить мячик и люди размечали по изображению, поймала сеть мячик или нет. Сетка научилась не ловить мячик, а придвигать руку, которая его ловит между мячом и камерой так, чтобы человеку казалось, что рука поймала мячик.
🪐Про situational awareness Текущие сетки знают контекст не только про конкретную поставленную задачу, но и про то, как они устроены и про человека, который ими пользуется. Например, ChatGPT знает способ, которым она обучена и свои вычислительные возможности. Также по тому, как вы пишете запрос о вас можно много понять - какого вы пола, возраста, образования. Также в теории сетки могут получать информацию о вашей истории запросов и в целом о том, как вы взаимодействуете с онлайн пространством. Это дает сеткам возможность не просто искать хаки, чтобы подгонять ответ под ожидаемый результат, но и делать это персонализировано
👾Reward hacking + situational awareness и как это связано с тик током, наукой и финансами - Если сетки научатся торговать, оптимизируя при этом краткосрочный выигрыш, то они могут выучить финансовые махинации, например quote stuffing, когда агент покупает одновременно сразу много активов, а потом быстро отменяет заказы. Помимо известных методов можно выучить много новых. И это может привести к обвалам рынков, как это уже не раз происходило. - Если сетки будут делать научные открытия и писать статьи, которые потом будут проверять люди, то они могут пользоваться манипуляциями с данными, чтобы результаты были статзначимыми. Я думаю много людей, который делали экспериментальные лабораторные работы, в курсе что такое p hacking и насколько активно он применяется даже в относительно полезных журналах. Подумайте сами, если вы оптимизируете число научных открытий или факт научного открытия и вы осведомлены о том, что ваши вычислительные мощности ограничены - наиболее оптимальная стратегия под это вознаграждение, делать манипуляции с данными, учитывая контекст конкретного проверяющего человека (ревьюера статьи и журнал, куда статья подается). Это происходит сейчас, это делают люди тоже. Вопрос о масштабах, которые могут вырасти экспоненциально - Тик ток может стать таким залипательным, что от него будет нереально оторваться
🤝Что делать? Пока не выработано подходов, которые гарантировано позволяют избежать того, что сетки выучивают другие награды, а не те, которые были заложены. Исследования ведутся в направлении разработки дополнительных сеток, которые критикуют выходы основной сети и показывают результат критики разметчику в текстовой форме. И в том, что ранний AGI критик должен помочь сделать alignment для более зрелого и мощного AGI.
BY tldr_tany (Таня Савельева)
Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260
Update March 8, 2022: EFF has clarified that Channels and Groups are not fully encrypted, end-to-end, updated our post to link to Telegram’s FAQ for Cloud and Secret chats, updated to clarify that auto-delete is available for group and channel admins, and added some additional links. The Russian invasion of Ukraine has been a driving force in markets for the past few weeks. In February 2014, the Ukrainian people ousted pro-Russian president Viktor Yanukovych, prompting Russia to invade and annex the Crimean peninsula. By the start of April, Pavel Durov had given his notice, with TechCrunch saying at the time that the CEO had resisted pressure to suppress pages criticizing the Russian government. In December 2021, Sebi officials had conducted a search and seizure operation at the premises of certain persons carrying out similar manipulative activities through Telegram channels. Asked about its stance on disinformation, Telegram spokesperson Remi Vaughn told AFP: "As noted by our CEO, the sheer volume of information being shared on channels makes it extremely difficult to verify, so it's important that users double-check what they read."
from us