2020-08-22から1日間の記事一覧

汎用行動選択モデルの学習 part10 Q関数を用いたパーティ生成【PokéAI】

前回、強化学習によって得たQ関数を用いてパーティの強さを定量化する指標（パーティ評価関数）を定義しました。今回はこれを用いて強力なパーティを生成する手法を説明します。ここでの目的は、パーティ評価関数R(X)の値が比較的大きいパーティXを多数求…