汎用行動選択モデルの学習 part12 行動の強化学習とパーティ生成の交互実行（手法）【PokéAI】

前回、強化学習のハイパーパラメータを調整し、疑似教師データを使った教師あり学習よりも強い汎用行動選択モデルを学習させることに成功しました。これと、汎用行動選択モデルを用いたパーティ生成手法を組み合わせて強いパーティとその適切な運用法を学習…

汎用行動選択モデルの学習 part11 Optunaを用いた強化学習のハイパーパラメータチューニング【PokéAI】

過去数回の記事で使用した汎用行動選択モデルは強化学習で学習したものでしたが、教師あり学習のものより若干弱いものになっていました。複雑なステップを経る教師あり学習を不要とし、強化学習だけで同等以上のモデルを学習できるようにするため、強化学習…

前回、強化学習によって得たQ関数を用いてパーティの強さを定量化する指標（パーティ評価関数）を定義しました。今回はこれを用いて強力なパーティを生成する手法を説明します。ここでの目的は、パーティ評価関数R(X)の値が比較的大きいパーティXを多数求…

前回、バトル中の行動選択を行うQ関数について、バトル開始直後のQ値は0ではなく、自分のパーティ構成および相手に応じて変動することがわかりました。今回から、この性質を用いて強いパーティを生成することを試みます。 Q関数を用いたパーティの強さの定…