2022年2月7日月曜日

ウルフチャレンジシリーズ【深層強化学習】

順調に育つエージェントができたのかと思いきや、セルフプレイの段階でやはり成長が止まってしまっているように感じたので、また一段階戻って手法のベンチマークをしてみることにする。

環境を少し変えて行う。理由は以下の通りである。
・CPUにはウルフを使う。基本的には近距離が強いファイターだが、飛び道具による待ち合い回避や牽制ができるので。
・1Pファイターにはルキナを使う。ゲームをややこしくしたり、記憶を要求するギミック等がなく、撃墜方法が豊富で多くの面で高性能なので。

最初に試すのは今までに使ってきた手法である。すなわち、
・畳み込み層の後にLSTM3枚
・並列で未来予測層LSTM2枚
・Batch size は 4から2048の間でランダムに決まる


今回試したいことがらは、
・結局LSTMは何枚必要なのか
・batch size はここまで大きくないといけないのか
・未来予測層は有用なのか
という点である。

調べるのにかなり時間はかかると思われるが、知見を貯めていきたいところである。