2020-08-31から1日間の記事一覧

汎用行動選択モデルの学習 part12 行動の強化学習とパーティ生成の交互実行（手法）【PokéAI】

前回、強化学習のハイパーパラメータを調整し、疑似教師データを使った教師あり学習よりも強い汎用行動選択モデルを学習させることに成功しました。これと、汎用行動選択モデルを用いたパーティ生成手法を組み合わせて強いパーティとその適切な運用法を学習…