2020-06-01から1ヶ月間の記事一覧

汎用行動選択モデルの学習 part06 DQNの自前実装【PokéAI】

前回まで、教師あり学習であらゆるパーティの行動選択を行えるモデルを学習させ、3層16チャンネル程度の全結合DNNである程度適切な行動がとれることがわかりました。今回からはバトルの勝敗を報酬とした強化学習に取り組みます。 select766.hatenablog.com …