Telegram Group & Telegram Channel
Reward Hacking - как и почему сильный ИИ может оптимизировать не то, что предполагалось, как с этим бороться и причем тут залипание в тик-ток, наука и обвал рынков

👽Как предполагается будет натренирован сильный ИИ?

Предполагается, похоже на современную ChatGPT. Может будет что-то покруче, но пока так.
На первом этапе сетка учит свою языковую модель - просто говоря в предложении закрывают одно слово и показывают сетке все остальное предложение и просят предсказать закрытое слово. А также дают все слова в нескольких предыдущих предложениях и просят предсказать все слова в следующем предложении. В этом кейсе все данные готовы уже заранее в виде большой таблички (условно)
На втором этапе, который является самым рисковым в кейсе с AGI сетка предсказывает предложения при условии предыдущего, потом результат работы сетки размечает человек. И вторая сетка учится на фидбеке человека так, чтобы в следующий раз человеку разметчик больше понравился ответ (больше соответствовал инструкции). Тут и возникает опасность того, что сетка выучит не то, что от нее хотели, а не то, что человек воспримет как более соответсвующее задаче.

👩🏼‍💻Что такое reward hacking или как выучить не то, что предполагалось
Когда такая сетка учит свой второй этап она учится менять свой изначальный ответ так, чтобы человек его скорее разметил как правильный. Пример - в статье авторы учили нейронку, которая управляет условной “рукой” ловить мячик и люди размечали по изображению, поймала сеть мячик или нет. Сетка научилась не ловить мячик, а придвигать руку, которая его ловит между мячом и камерой так, чтобы человеку казалось, что рука поймала мячик.

🪐Про situational awareness
Текущие сетки знают контекст не только про конкретную поставленную задачу, но и про то, как они устроены и про человека, который ими пользуется. Например, ChatGPT знает способ, которым она обучена и свои вычислительные возможности. Также по тому, как вы пишете запрос о вас можно много понять - какого вы пола, возраста, образования. Также в теории сетки могут получать информацию о вашей истории запросов и в целом о том, как вы взаимодействуете с онлайн пространством. Это дает сеткам возможность не просто искать хаки, чтобы подгонять ответ под ожидаемый результат, но и делать это персонализировано

👾Reward hacking + situational awareness и как это связано с тик током, наукой и финансами
- Если сетки научатся торговать, оптимизируя при этом краткосрочный выигрыш, то они могут выучить финансовые махинации, например quote stuffing, когда агент покупает одновременно сразу много активов, а потом быстро отменяет заказы. Помимо известных методов можно выучить много новых. И это может привести к обвалам рынков, как это уже не раз происходило.
- Если сетки будут делать научные открытия и писать статьи, которые потом будут проверять люди, то они могут пользоваться манипуляциями с данными, чтобы результаты были статзначимыми. Я думаю много людей, который делали экспериментальные лабораторные работы, в курсе что такое p hacking и насколько активно он применяется даже в относительно полезных журналах. Подумайте сами, если вы оптимизируете число научных открытий или факт научного открытия и вы осведомлены о том, что ваши вычислительные мощности ограничены - наиболее оптимальная стратегия под это вознаграждение, делать манипуляции с данными, учитывая контекст конкретного проверяющего человека (ревьюера статьи и журнал, куда статья подается). Это происходит сейчас, это делают люди тоже. Вопрос о масштабах, которые могут вырасти экспоненциально
- Тик ток может стать таким залипательным, что от него будет нереально оторваться

🤝Что делать?
Пока не выработано подходов, которые гарантировано позволяют избежать того, что сетки выучивают другие награды, а не те, которые были заложены. Исследования ведутся в направлении разработки дополнительных сеток, которые критикуют выходы основной сети и показывают результат критики разметчику в текстовой форме. И в том, что ранний AGI критик должен помочь сделать alignment для более зрелого и мощного AGI.



group-telegram.com/tldr_tany/168
Create:
Last Update:

Reward Hacking - как и почему сильный ИИ может оптимизировать не то, что предполагалось, как с этим бороться и причем тут залипание в тик-ток, наука и обвал рынков

👽Как предполагается будет натренирован сильный ИИ?

Предполагается, похоже на современную ChatGPT. Может будет что-то покруче, но пока так.
На первом этапе сетка учит свою языковую модель - просто говоря в предложении закрывают одно слово и показывают сетке все остальное предложение и просят предсказать закрытое слово. А также дают все слова в нескольких предыдущих предложениях и просят предсказать все слова в следующем предложении. В этом кейсе все данные готовы уже заранее в виде большой таблички (условно)
На втором этапе, который является самым рисковым в кейсе с AGI сетка предсказывает предложения при условии предыдущего, потом результат работы сетки размечает человек. И вторая сетка учится на фидбеке человека так, чтобы в следующий раз человеку разметчик больше понравился ответ (больше соответствовал инструкции). Тут и возникает опасность того, что сетка выучит не то, что от нее хотели, а не то, что человек воспримет как более соответсвующее задаче.

👩🏼‍💻Что такое reward hacking или как выучить не то, что предполагалось
Когда такая сетка учит свой второй этап она учится менять свой изначальный ответ так, чтобы человек его скорее разметил как правильный. Пример - в статье авторы учили нейронку, которая управляет условной “рукой” ловить мячик и люди размечали по изображению, поймала сеть мячик или нет. Сетка научилась не ловить мячик, а придвигать руку, которая его ловит между мячом и камерой так, чтобы человеку казалось, что рука поймала мячик.

🪐Про situational awareness
Текущие сетки знают контекст не только про конкретную поставленную задачу, но и про то, как они устроены и про человека, который ими пользуется. Например, ChatGPT знает способ, которым она обучена и свои вычислительные возможности. Также по тому, как вы пишете запрос о вас можно много понять - какого вы пола, возраста, образования. Также в теории сетки могут получать информацию о вашей истории запросов и в целом о том, как вы взаимодействуете с онлайн пространством. Это дает сеткам возможность не просто искать хаки, чтобы подгонять ответ под ожидаемый результат, но и делать это персонализировано

👾Reward hacking + situational awareness и как это связано с тик током, наукой и финансами
- Если сетки научатся торговать, оптимизируя при этом краткосрочный выигрыш, то они могут выучить финансовые махинации, например quote stuffing, когда агент покупает одновременно сразу много активов, а потом быстро отменяет заказы. Помимо известных методов можно выучить много новых. И это может привести к обвалам рынков, как это уже не раз происходило.
- Если сетки будут делать научные открытия и писать статьи, которые потом будут проверять люди, то они могут пользоваться манипуляциями с данными, чтобы результаты были статзначимыми. Я думаю много людей, который делали экспериментальные лабораторные работы, в курсе что такое p hacking и насколько активно он применяется даже в относительно полезных журналах. Подумайте сами, если вы оптимизируете число научных открытий или факт научного открытия и вы осведомлены о том, что ваши вычислительные мощности ограничены - наиболее оптимальная стратегия под это вознаграждение, делать манипуляции с данными, учитывая контекст конкретного проверяющего человека (ревьюера статьи и журнал, куда статья подается). Это происходит сейчас, это делают люди тоже. Вопрос о масштабах, которые могут вырасти экспоненциально
- Тик ток может стать таким залипательным, что от него будет нереально оторваться

🤝Что делать?
Пока не выработано подходов, которые гарантировано позволяют избежать того, что сетки выучивают другие награды, а не те, которые были заложены. Исследования ведутся в направлении разработки дополнительных сеток, которые критикуют выходы основной сети и показывают результат критики разметчику в текстовой форме. И в том, что ранний AGI критик должен помочь сделать alignment для более зрелого и мощного AGI.

BY tldr_tany (Таня Савельева)


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/tldr_tany/168

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The SC urges the public to refer to the SC’s I nvestor Alert List before investing. The list contains details of unauthorised websites, investment products, companies and individuals. Members of the public who suspect that they have been approached by unauthorised firms or individuals offering schemes that promise unrealistic returns The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. Messages are not fully encrypted by default. That means the company could, in theory, access the content of the messages, or be forced to hand over the data at the request of a government. Telegram has gained a reputation as the “secure” communications app in the post-Soviet states, but whenever you make choices about your digital security, it’s important to start by asking yourself, “What exactly am I securing? And who am I securing it from?” These questions should inform your decisions about whether you are using the right tool or platform for your digital security needs. Telegram is certainly not the most secure messaging app on the market right now. Its security model requires users to place a great deal of trust in Telegram’s ability to protect user data. For some users, this may be good enough for now. For others, it may be wiser to move to a different platform for certain kinds of high-risk communications. There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine.
from hk


Telegram tldr_tany (Таня Савельева)
FROM American