2020-07-01から1ヶ月間の記事一覧

汎用行動選択モデルの学習 part08 Q関数の観察【PokéAI】

前回、強化学習で汎用行動選択モデルの学習が可能だということを確認しました。今回はパラメータチューニングは置いておいて、学習結果のモデルの出力を観察してみたいと思います。DQNで学習されるQ関数Q(s, a)は、状態sのときに行動aをとったときの割引報酬…

前回、汎用行動選択モデルを強化学習させるシステムを実装しました。今回はその結果を評価します。学習条件強化学習関係のデフォルトの学習条件は以下のように設定しました。アルゴリズム: DQN (double DQN) 探索: epsilon-greedy ランダム行動する確率ep…