Warning: file_put_contents(aCache/aDaily/post/knowledge_accumulator/-34" target="_blank" rel="noopener" onclick="return confirm('Open this link?\n\n'+this.href);">AlphaZero</a> выходит из плена настольных игр<br/><br/>Попытка моделировать динамику среды (то, какими состояние и награда у среды будут следующими, если знаем текущее состояние и действие агента) - это отдельная песня в <a href="https://t.me/knowledge_accumulator/16" target="_blank" rel="noopener" onclick="return confirm('Open this link?\n\n'+this.href);">рамках RL</a>, которая обычно не даёт такого профита, который позволяет <a href="https://t.me/knowledge_accumulator/9" target="_blank" rel="noopener" onclick="return confirm('Open this link?\n\n'+this.href);">компенсировать сложность подхода</a>. Всё потому, что генерировать состояния слишком трудно из-за неопределённости в среде и высокой размерности состояния.<br/><br/>Тем не менее, в рамках MuZero пытаются применить подход к выбору действий с помощью планирования, как в <a href="https://t.me/knowledge_accumulator/34" target="_blank" rel="noopener" onclick="return confirm('Open this link?\n\n'+this.href);">AlphaZero</a>, в ситуации, когда доступа к модели среды нет.<br/><br/>Что делают с проблемой сложности среды? Оказывается, можно просто <u>забить на состояния</u>, и при обучении своей модели динамики среды пытаться предсказывать только будущие награды и действия нашей стратегии. Ведь чтобы их предсказывать, нужно извлечь всё самое полезное из динамики и не более. Удивительно, но это работает&#33; Более того, эта система может играть в Го на уровне AlphaZero, у которой доступ к модели есть.<br/><br/>Я думаю, что отказ от попытки предсказывать будущее состояние это верно, потому что убирает ненужную сложность. От этого отказались в <a href="https://t.me/knowledge_accumulator/22" target="_blank" rel="noopener" onclick="return confirm('Open this link?\n\n'+this.href);">RND</a>, <a href="https://t.me/knowledge_accumulator/26-): Failed to open stream: No such file or directory in /var/www/group-telegram/post.php on line 50
Knowledge Accumulator | Telegram Webview: knowledge_accumulator/35 -
Telegram Group & Telegram Channel
MuZero [2020] - AlphaZero выходит из плена настольных игр

Попытка моделировать динамику среды (то, какими состояние и награда у среды будут следующими, если знаем текущее состояние и действие агента) - это отдельная песня в рамках RL, которая обычно не даёт такого профита, который позволяет компенсировать сложность подхода. Всё потому, что генерировать состояния слишком трудно из-за неопределённости в среде и высокой размерности состояния.

Тем не менее, в рамках MuZero пытаются применить подход к выбору действий с помощью планирования, как в AlphaZero, в ситуации, когда доступа к модели среды нет.

Что делают с проблемой сложности среды? Оказывается, можно просто забить на состояния, и при обучении своей модели динамики среды пытаться предсказывать только будущие награды и действия нашей стратегии. Ведь чтобы их предсказывать, нужно извлечь всё самое полезное из динамики и не более. Удивительно, но это работает! Более того, эта система может играть в Го на уровне AlphaZero, у которой доступ к модели есть.

Я думаю, что отказ от попытки предсказывать будущее состояние это верно, потому что убирает ненужную сложность. От этого отказались в RND, NGU, в MuZero и не только.
Глобально говоря, от этого имеет смысл отказываться всегда, когда генерация не является самоцелью. И я думаю, что это рано или поздно будут делать во всех доменах, даже в текстах.

@knowledge_accumulator



group-telegram.com/knowledge_accumulator/35
Create:
Last Update:

MuZero [2020] - AlphaZero выходит из плена настольных игр

Попытка моделировать динамику среды (то, какими состояние и награда у среды будут следующими, если знаем текущее состояние и действие агента) - это отдельная песня в рамках RL, которая обычно не даёт такого профита, который позволяет компенсировать сложность подхода. Всё потому, что генерировать состояния слишком трудно из-за неопределённости в среде и высокой размерности состояния.

Тем не менее, в рамках MuZero пытаются применить подход к выбору действий с помощью планирования, как в AlphaZero, в ситуации, когда доступа к модели среды нет.

Что делают с проблемой сложности среды? Оказывается, можно просто забить на состояния, и при обучении своей модели динамики среды пытаться предсказывать только будущие награды и действия нашей стратегии. Ведь чтобы их предсказывать, нужно извлечь всё самое полезное из динамики и не более. Удивительно, но это работает! Более того, эта система может играть в Го на уровне AlphaZero, у которой доступ к модели есть.

Я думаю, что отказ от попытки предсказывать будущее состояние это верно, потому что убирает ненужную сложность. От этого отказались в RND, NGU, в MuZero и не только.
Глобально говоря, от этого имеет смысл отказываться всегда, когда генерация не является самоцелью. И я думаю, что это рано или поздно будут делать во всех доменах, даже в текстах.

@knowledge_accumulator

BY Knowledge Accumulator




Share with your friend now:
group-telegram.com/knowledge_accumulator/35

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Oh no. There’s a certain degree of myth-making around what exactly went on, so take everything that follows lightly. Telegram was originally launched as a side project by the Durov brothers, with Nikolai handling the coding and Pavel as CEO, while both were at VK. The last couple days have exemplified that uncertainty. On Thursday, news emerged that talks in Turkey between the Russia and Ukraine yielded no positive result. But on Friday, Reuters reported that Russian President Vladimir Putin said there had been some “positive shifts” in talks between the two sides. Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform. For example, WhatsApp restricted the number of times a user could forward something, and developed automated systems that detect and flag objectionable content. However, the perpetrators of such frauds are now adopting new methods and technologies to defraud the investors.
from ca


Telegram Knowledge Accumulator
FROM American