Игры из набора Atari 2600 - это около 50 отлично вписывающихся в RL задач: 1) Каждый кадр мы получаем картинку из игры на входе 2) Мы можем нажать одну из 18 комбинаций кнопок в ответ 3) Каждый кадр среда нам отдаёт награду - изменение "очков" в игре.
Мысль о том, что играть в компьютерную игру система можно научиться сама с полного нуля, ускоряет сердцебиение и сводит с ума всех мечтающих о создании GLaDOS в реальной жизни.
В рамках научпопа могу дать такую интуицию принципа обучения:
Собирая траектории "<>-действие-состояние-награда-действие-состояние-награда-<>" мы можем пробрасывать информацию об отложенных наградах "назад во времени" с помощью хитрого способа обучения - таким образом можно научить систему совершать цепочку правильных действий, даже если положительная награда за них будет только в конце цепочки.
Метод в статье был использован достаточно базовый, но его хватило, чтобы обойти человека в ряде игр, требующих простой стратегии для победы - например, Pong или Breakout (первые 2 игры на картинке).
Игры из набора Atari 2600 - это около 50 отлично вписывающихся в RL задач: 1) Каждый кадр мы получаем картинку из игры на входе 2) Мы можем нажать одну из 18 комбинаций кнопок в ответ 3) Каждый кадр среда нам отдаёт награду - изменение "очков" в игре.
Мысль о том, что играть в компьютерную игру система можно научиться сама с полного нуля, ускоряет сердцебиение и сводит с ума всех мечтающих о создании GLaDOS в реальной жизни.
В рамках научпопа могу дать такую интуицию принципа обучения:
Собирая траектории "<>-действие-состояние-награда-действие-состояние-награда-<>" мы можем пробрасывать информацию об отложенных наградах "назад во времени" с помощью хитрого способа обучения - таким образом можно научить систему совершать цепочку правильных действий, даже если положительная награда за них будет только в конце цепочки.
Метод в статье был использован достаточно базовый, но его хватило, чтобы обойти человека в ряде игр, требующих простой стратегии для победы - например, Pong или Breakout (первые 2 игры на картинке).
If you initiate a Secret Chat, however, then these communications are end-to-end encrypted and are tied to the device you are using. That means it’s less convenient to access them across multiple platforms, but you are at far less risk of snooping. Back in the day, Secret Chats received some praise from the EFF, but the fact that its standard system isn’t as secure earned it some criticism. If you’re looking for something that is considered more reliable by privacy advocates, then Signal is the EFF’s preferred platform, although that too is not without some caveats. The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. Following this, Sebi, in an order passed in January 2022, established that the administrators of a Telegram channel having a large subscriber base enticed the subscribers to act upon recommendations that were circulated by those administrators on the channel, leading to significant price and volume impact in various scrips. For Oleksandra Tsekhanovska, head of the Hybrid Warfare Analytical Group at the Kyiv-based Ukraine Crisis Media Center, the effects are both near- and far-reaching. Telegram was co-founded by Pavel and Nikolai Durov, the brothers who had previously created VKontakte. VK is Russia’s equivalent of Facebook, a social network used for public and private messaging, audio and video sharing as well as online gaming. In January, SimpleWeb reported that VK was Russia’s fourth most-visited website, after Yandex, YouTube and Google’s Russian-language homepage. In 2016, Forbes’ Michael Solomon described Pavel Durov (pictured, below) as the “Mark Zuckerberg of Russia.”
from cn