汎用行動選択モデルの学習 part05 教師あり学習の定性評価【PokéAI】

学習した汎用行動選択モデルの挙動を定性的に確認してみます。

前回の記事で最も精度が高かったモデル（3層、チャンネル数16、バッチ正規化なし）に対しvalidationデータを入力し、モデルの出力（選択した技）および正解データを表示します。正解データはパーティ固有モデルが出力したものです。

凡例

自分のポケモン(FはFriend)
自分のポケモンの技構成
相手のポケモン(OはOpponent)
=> 各行動に対する確率
モデル出力=最大確率の技 正解=正解データ

F ドククラゲ 204/204  
ハイドロポンプ おんがえし とっしん ヘドロばくだん
O スターミー 182/182  
=> ハイドロポンプ=2.4% おんがえし=7.3% とっしん=0.2% ヘドロばくだん=90.1%
モデル出力=ヘドロばくだん 正解=ヘドロばくだん

F ランターン 52/253  
なみのり どくどく おんがえし でんじほう
O ドンファン 80/215  
=> なみのり=89.0% どくどく=3.1% おんがえし=5.4% でんじほう=2.5%
モデル出力=なみのり 正解=なみのり

妥当な出力をしています。

F ゴローニャ 138/204 psn
すてみタックル ちきゅうなげ じしん ずつき
O パラセクト 25/182  
=> すてみタックル=10.7% ちきゅうなげ=18.0% じしん=59.8% ずつき=11.5%
モデル出力=じしん 正解=ずつき

じしんはパラセクトに対してタイプ相性が1/4なので間違っていると考えられます。

F マリルリ 90/226  
れいとうビーム はかいこうせん バブルこうせん どくどく
O ラフレシア 11/198  
=> れいとうビーム=84.2% はかいこうせん=0.3% バブルこうせん=15.2% どくどく=0.3%
モデル出力=れいとうビーム 正解=どくどく

れいとうビームが正しくて、正解データのどくどくは明らかに間違っています。ラフレシアはどくタイプを含んでいてどくどくは効果がありません。正解データも疑似的なものであり必ずしも正しくないため、これに対して正解率100%を目指すのは得策ではありません。

モデルの定量的な正解率は58.5%でしたが、正解データ自体が間違っている場合もあり、定性的には妥当な出力ができているように思われます。