2020-09-01から1日間の記事一覧

汎用行動選択モデルの学習 part13 行動の強化学習とパーティ生成の交互実行（結果）【PokéAI】

前回、バトル中の行動の強化学習と、そこで得られたモデルのQ関数を用いて強いパーティを生成するステップを交互に反復する手法を提案しました。今回はそれを実際に動作させた結果を示します。実験条件反復回数 10 パーティ数 Q関数を用いて生成するパー…