Lv3マルスは倒れた。
前の記事でどうしてもLv3を倒せずに停滞した話をした。作戦会議の結果、Lv4に行ってみることにした。同時にこちらの論文のFigure 4でライフが複数あるタイプのAtariのゲームだと、ゲームオーバーでエピソード終了にするよりも、ライフが1つ失われた段階でエピソード終了にする方がスコアの伸びがよい、という結果が出されていたことを思い出したので、それをスマブラに適用してストックを1つにする変更もした。
その結果がこちらである。
Rewardは微妙に上がった。QはLv3のときのものを引き継いだのでLv4に合わせて下降した。後半も振動は見られるが顕著な上昇は見られない。これが約一週間のトレーニングの成果である。
1ストック制に移行してからゴールをどこに設定していいのかよくわからなかったのだが、3ストックのときに1.5だったので、単純に計算して0.5にしてみた。Lv4では0.0に触れることもかなわなかったわけだが、一週間Lv4で修行した結果、Lv3ではどうなるのか…。その結果が次のグラフである。
なんと、始めてから一日も経たずにゴールラインの0.5を越えてしまったのである。Qの調整が行われてLv3用の戦い方になるのに1500から2000エピソード程度かかった節はあるが、いともあっさりと設定したゴールラインを越えてしまった。正直なところ、統計的なゆらぎを考えると3ストックで1.5のゴールの方が1ストックで0.5のゴールよりもシビアな気はするので、実際に強くなったから攻略したのか、単純に上振れが激しく起こったからなのかはわからない。しかし、0.5を複数回越えてそのあたりでしばらく滞在している様子を見るとまあ合格点にしてもいいんじゃないかという気はする。
というわけで晴れてLv4に進むことになった。ストック数は1を維持していきたいと思う。既にある程度データがあるので今後どう伸びるのかが楽しみである。
こうなってくるともうひたすら時間をかけてトレーニングさせるより他ない気がしてきた。
トレーニングの様子はずーっと配信しているので、進捗はYouTubeの配信でどうぞ。
https://www.youtube.com/channel/UCTR4c0xE-pIFgSoE6bFVPmw
0 件のコメント:
コメントを投稿