Reward Hacking - как и почему сильный ИИ может оптимизировать не то, что предполагалось, как с этим бороться и причем тут залипание в тик-ток, наука и обвал рынков
👽Как предполагается будет натренирован сильный ИИ? Предполагается, похоже на современную ChatGPT. Может будет что-то покруче, но пока так. На первом этапе сетка учит свою языковую модель - просто говоря в предложении закрывают одно слово и показывают сетке все остальное предложение и просят предсказать закрытое слово. А также дают все слова в нескольких предыдущих предложениях и просят предсказать все слова в следующем предложении. В этом кейсе все данные готовы уже заранее в виде большой таблички (условно) На втором этапе, который является самым рисковым в кейсе с AGI сетка предсказывает предложения при условии предыдущего, потом результат работы сетки размечает человек. И вторая сетка учится на фидбеке человека так, чтобы в следующий раз человеку разметчик больше понравился ответ (больше соответствовал инструкции). Тут и возникает опасность того, что сетка выучит не то, что от нее хотели, а не то, что человек воспримет как более соответсвующее задаче.
👩🏼💻Что такое reward hacking или как выучить не то, что предполагалось Когда такая сетка учит свой второй этап она учится менять свой изначальный ответ так, чтобы человек его скорее разметил как правильный. Пример - в статье авторы учили нейронку, которая управляет условной “рукой” ловить мячик и люди размечали по изображению, поймала сеть мячик или нет. Сетка научилась не ловить мячик, а придвигать руку, которая его ловит между мячом и камерой так, чтобы человеку казалось, что рука поймала мячик.
🪐Про situational awareness Текущие сетки знают контекст не только про конкретную поставленную задачу, но и про то, как они устроены и про человека, который ими пользуется. Например, ChatGPT знает способ, которым она обучена и свои вычислительные возможности. Также по тому, как вы пишете запрос о вас можно много понять - какого вы пола, возраста, образования. Также в теории сетки могут получать информацию о вашей истории запросов и в целом о том, как вы взаимодействуете с онлайн пространством. Это дает сеткам возможность не просто искать хаки, чтобы подгонять ответ под ожидаемый результат, но и делать это персонализировано
👾Reward hacking + situational awareness и как это связано с тик током, наукой и финансами - Если сетки научатся торговать, оптимизируя при этом краткосрочный выигрыш, то они могут выучить финансовые махинации, например quote stuffing, когда агент покупает одновременно сразу много активов, а потом быстро отменяет заказы. Помимо известных методов можно выучить много новых. И это может привести к обвалам рынков, как это уже не раз происходило. - Если сетки будут делать научные открытия и писать статьи, которые потом будут проверять люди, то они могут пользоваться манипуляциями с данными, чтобы результаты были статзначимыми. Я думаю много людей, который делали экспериментальные лабораторные работы, в курсе что такое p hacking и насколько активно он применяется даже в относительно полезных журналах. Подумайте сами, если вы оптимизируете число научных открытий или факт научного открытия и вы осведомлены о том, что ваши вычислительные мощности ограничены - наиболее оптимальная стратегия под это вознаграждение, делать манипуляции с данными, учитывая контекст конкретного проверяющего человека (ревьюера статьи и журнал, куда статья подается). Это происходит сейчас, это делают люди тоже. Вопрос о масштабах, которые могут вырасти экспоненциально - Тик ток может стать таким залипательным, что от него будет нереально оторваться
🤝Что делать? Пока не выработано подходов, которые гарантировано позволяют избежать того, что сетки выучивают другие награды, а не те, которые были заложены. Исследования ведутся в направлении разработки дополнительных сеток, которые критикуют выходы основной сети и показывают результат критики разметчику в текстовой форме. И в том, что ранний AGI критик должен помочь сделать alignment для более зрелого и мощного AGI.
Reward Hacking - как и почему сильный ИИ может оптимизировать не то, что предполагалось, как с этим бороться и причем тут залипание в тик-ток, наука и обвал рынков
👽Как предполагается будет натренирован сильный ИИ? Предполагается, похоже на современную ChatGPT. Может будет что-то покруче, но пока так. На первом этапе сетка учит свою языковую модель - просто говоря в предложении закрывают одно слово и показывают сетке все остальное предложение и просят предсказать закрытое слово. А также дают все слова в нескольких предыдущих предложениях и просят предсказать все слова в следующем предложении. В этом кейсе все данные готовы уже заранее в виде большой таблички (условно) На втором этапе, который является самым рисковым в кейсе с AGI сетка предсказывает предложения при условии предыдущего, потом результат работы сетки размечает человек. И вторая сетка учится на фидбеке человека так, чтобы в следующий раз человеку разметчик больше понравился ответ (больше соответствовал инструкции). Тут и возникает опасность того, что сетка выучит не то, что от нее хотели, а не то, что человек воспримет как более соответсвующее задаче.
👩🏼💻Что такое reward hacking или как выучить не то, что предполагалось Когда такая сетка учит свой второй этап она учится менять свой изначальный ответ так, чтобы человек его скорее разметил как правильный. Пример - в статье авторы учили нейронку, которая управляет условной “рукой” ловить мячик и люди размечали по изображению, поймала сеть мячик или нет. Сетка научилась не ловить мячик, а придвигать руку, которая его ловит между мячом и камерой так, чтобы человеку казалось, что рука поймала мячик.
🪐Про situational awareness Текущие сетки знают контекст не только про конкретную поставленную задачу, но и про то, как они устроены и про человека, который ими пользуется. Например, ChatGPT знает способ, которым она обучена и свои вычислительные возможности. Также по тому, как вы пишете запрос о вас можно много понять - какого вы пола, возраста, образования. Также в теории сетки могут получать информацию о вашей истории запросов и в целом о том, как вы взаимодействуете с онлайн пространством. Это дает сеткам возможность не просто искать хаки, чтобы подгонять ответ под ожидаемый результат, но и делать это персонализировано
👾Reward hacking + situational awareness и как это связано с тик током, наукой и финансами - Если сетки научатся торговать, оптимизируя при этом краткосрочный выигрыш, то они могут выучить финансовые махинации, например quote stuffing, когда агент покупает одновременно сразу много активов, а потом быстро отменяет заказы. Помимо известных методов можно выучить много новых. И это может привести к обвалам рынков, как это уже не раз происходило. - Если сетки будут делать научные открытия и писать статьи, которые потом будут проверять люди, то они могут пользоваться манипуляциями с данными, чтобы результаты были статзначимыми. Я думаю много людей, который делали экспериментальные лабораторные работы, в курсе что такое p hacking и насколько активно он применяется даже в относительно полезных журналах. Подумайте сами, если вы оптимизируете число научных открытий или факт научного открытия и вы осведомлены о том, что ваши вычислительные мощности ограничены - наиболее оптимальная стратегия под это вознаграждение, делать манипуляции с данными, учитывая контекст конкретного проверяющего человека (ревьюера статьи и журнал, куда статья подается). Это происходит сейчас, это делают люди тоже. Вопрос о масштабах, которые могут вырасти экспоненциально - Тик ток может стать таким залипательным, что от него будет нереально оторваться
🤝Что делать? Пока не выработано подходов, которые гарантировано позволяют избежать того, что сетки выучивают другие награды, а не те, которые были заложены. Исследования ведутся в направлении разработки дополнительных сеток, которые критикуют выходы основной сети и показывают результат критики разметчику в текстовой форме. И в том, что ранний AGI критик должен помочь сделать alignment для более зрелого и мощного AGI.
BY tldr_tany (Таня Савельева)
Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260
Soloviev also promoted the channel in a post he shared on his own Telegram, which has 580,000 followers. The post recommended his viewers subscribe to "War on Fakes" in a time of fake news. Messages are not fully encrypted by default. That means the company could, in theory, access the content of the messages, or be forced to hand over the data at the request of a government. Oleksandra Matviichuk, a Kyiv-based lawyer and head of the Center for Civil Liberties, called Durov’s position "very weak," and urged concrete improvements. The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine.
from ye