Telegram Group & Telegram Channel
Playing Atari with Deep Reinforcement Learning [2013] - с чего начался хайп

Игры из набора Atari 2600 - это около 50 отлично вписывающихся в RL задач:
1) Каждый кадр мы получаем картинку из игры на входе
2) Мы можем нажать одну из 18 комбинаций кнопок в ответ
3) Каждый кадр среда нам отдаёт награду - изменение "очков" в игре.

Мысль о том, что играть в компьютерную игру система можно научиться сама с полного нуля, ускоряет сердцебиение и сводит с ума всех мечтающих о создании GLaDOS в реальной жизни.

В рамках научпопа могу дать такую интуицию принципа обучения:

Собирая траектории "<>-действие-состояние-награда-действие-состояние-награда-<>" мы можем пробрасывать информацию об отложенных наградах "назад во времени" с помощью хитрого способа обучения - таким образом можно научить систему совершать цепочку правильных действий, даже если положительная награда за них будет только в конце цепочки.

Метод в статье был использован достаточно базовый, но его хватило, чтобы обойти человека в ряде игр, требующих простой стратегии для победы - например, Pong или Breakout (первые 2 игры на картинке).



group-telegram.com/knowledge_accumulator/18
Create:
Last Update:

Playing Atari with Deep Reinforcement Learning [2013] - с чего начался хайп

Игры из набора Atari 2600 - это около 50 отлично вписывающихся в RL задач:
1) Каждый кадр мы получаем картинку из игры на входе
2) Мы можем нажать одну из 18 комбинаций кнопок в ответ
3) Каждый кадр среда нам отдаёт награду - изменение "очков" в игре.

Мысль о том, что играть в компьютерную игру система можно научиться сама с полного нуля, ускоряет сердцебиение и сводит с ума всех мечтающих о создании GLaDOS в реальной жизни.

В рамках научпопа могу дать такую интуицию принципа обучения:

Собирая траектории "<>-действие-состояние-награда-действие-состояние-награда-<>" мы можем пробрасывать информацию об отложенных наградах "назад во времени" с помощью хитрого способа обучения - таким образом можно научить систему совершать цепочку правильных действий, даже если положительная награда за них будет только в конце цепочки.

Метод в статье был использован достаточно базовый, но его хватило, чтобы обойти человека в ряде игр, требующих простой стратегии для победы - например, Pong или Breakout (первые 2 игры на картинке).

BY Knowledge Accumulator




Share with your friend now:
group-telegram.com/knowledge_accumulator/18

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

At this point, however, Durov had already been working on Telegram with his brother, and further planned a mobile-first social network with an explicit focus on anti-censorship. Later in April, he told TechCrunch that he had left Russia and had “no plans to go back,” saying that the nation was currently “incompatible with internet business at the moment.” He added later that he was looking for a country that matched his libertarian ideals to base his next startup. Artem Kliuchnikov and his family fled Ukraine just days before the Russian invasion. "Russians are really disconnected from the reality of what happening to their country," Andrey said. "So Telegram has become essential for understanding what's going on to the Russian-speaking world." Update March 8, 2022: EFF has clarified that Channels and Groups are not fully encrypted, end-to-end, updated our post to link to Telegram’s FAQ for Cloud and Secret chats, updated to clarify that auto-delete is available for group and channel admins, and added some additional links. On Telegram’s website, it says that Pavel Durov “supports Telegram financially and ideologically while Nikolai (Duvov)’s input is technological.” Currently, the Telegram team is based in Dubai, having moved around from Berlin, London and Singapore after departing Russia. Meanwhile, the company which owns Telegram is registered in the British Virgin Islands.
from br


Telegram Knowledge Accumulator
FROM American