2020-07-05から1日間の記事一覧

汎用行動選択モデルの学習 part07 DQNの学習結果【PokéAI】

前回、汎用行動選択モデルを強化学習させるシステムを実装しました。今回はその結果を評価します。学習条件強化学習関係のデフォルトの学習条件は以下のように設定しました。アルゴリズム: DQN (double DQN) 探索: epsilon-greedy ランダム行動する確率ep…