2021-04-28から1日間の記事一覧

汎用行動選択モデルの3vs3対応 part11 行動の強化学習とパーティ生成の交互実行（結果の評価）【PokéAI】

前回、パーティ生成と学習の反復により、各反復で生成されるパーティが定性的に改善されていることを確認しました。今回は、各反復での学習結果で上位100パーティを抽出し、反復10回分のパーティを混合した1,000パーティでレーティングバトルさせます。反復…