まっすぐな道ではなかった。
レベル1のマルスと比べて動きの種類は増えたものの、まだ何もしない時間も長くスマッシュに勝手に入ってくるため、最初のうちは難なく勝っているように見えた。目標とする報酬の移動平均を1.5に設定したが、開始間も無く1.46程度まであがり、そこからしばらく0.5付近をさまよってから1M(学習)ステップ後に到達した。かかった時間は1日半程度だったか。多少雑だがLoss, Q値, 報酬のグラフを下に掲載する。
いつでも上がれそうな雰囲気でもあったが、そうでなかったのは偶然なのだろうか。最初上がった報酬が下がったときはネットワークが壊れたのかとも思ったが、どうやらそうではなく単純にLv1とLv2の違いに合わせようとしただけなのかもしれない。Lossが増えていったのは多少不安だったが、Q値がほぼ線形に伸びていっていたのでこれはおそらく正しい変化をしているのだと信じて先に進んだ結果、無事到達することができた。
Lv3への到達がなんと配信中に起こったのでアーカイブを残すことができた。クリアするのは動画の最後の方である。
次はLv3…。ここからCPUも少し強くなってくる。
0 件のコメント:
コメントを投稿