汎用行動選択モデルの3vs3対応 part11 行動の強化学習とパーティ生成の交互実行（結果の評価）【PokéAI】

前回、パーティ生成と学習の反復により、各反復で生成されるパーティが定性的に改善されていることを確認しました。今回は、各反復での学習結果で上位100パーティを抽出し、反復10回分のパーティを混合した1,000パーティでレーティングバトルさせます。反復…

汎用行動選択モデルの3vs3対応 part10 行動の強化学習とパーティ生成の交互実行（学習経過の評価）【PokéAI】

3vs3バトルでの強化学習とパーティ生成の実装が完成したので、1vs1バトルの時と同様、これらを交互に動作させて強いパーティとその適切な運用法を学習します。実験条件アルゴリズム自体は1vs1の時と変わりません。 select766.hatenablog.com 反復回数 10 …

1vs1バトルの時と同様に、強化学習の結果得られる、行動ごとの価値の期待値を表すQ関数を用いて強力なパーティを生成することを試みます。手法手法は1vs1バトルの時のものを応用し、3vs3対応のための変更を行います。 select766.hatenablog.com 3vs3対応の…

強化学習はアルゴリズムが正しくてもハイパーパラメータ設定により性能が大幅に変わってきます。1vs1バトル環境において、optunaによる調整を行ったところ学習率が最も大きな要素であることがわかりました。しかしこのパラメータのまま3vs3バトル環境へ適用…