機械学習周りのプログラミング中心。 イベント情報
ポケモンバトルAI本電子書籍通販中

【ハッサム】ポケモン名っぽい駅名 part01 文字列一致【一発ネタ】

とあるゲーム実況放送にて、「ハッサムというポケモンがいるが、北海道には発寒(はっさむと発音)駅がある」という話題がありました。

ポケモンの名前っぽさとは何か、駅名の中でほかにポケモン名っぽいものがないかが気になったので、自然言語処理の側面からちょっと遊んでみます。

今回はもっとも簡単にできる導入として、自然言語処理を使わず、ポケモン名と完全一致する駅名、ポケモン名が一部に含まれる駅名を探してみます。

データセットとして、ポケモン名一覧には

ポケモン一覧 - ポケモンWiki

の図鑑番号890(ムゲンダイナ)まで、駅名(読み仮名付き)には

日本全国の駅名一覧 - ブラウザで使えるWeb便利ツール

の(日本全国の駅名一覧(2016年更新)→TSVファイルで「駅名一覧」(ふりがな付)をダウンロード(UTF-8))を用いました。

ポケモン名は2文字から6文字*1のカタカナからなりますが、特殊なものがわずかにあるため、それを除いてカタカナのみの文字列にしました。具体的には、

  • ニドラン♀ニドラン♂は「ニドラン」にまとめる
  • ポリゴン・ポリゴン2・ポリゴンZは「ポリゴン」にまとめる
  • カプ・コケコ→カプコケコ(カプ系4種類それぞれ)
  • タイプ:ヌル→タイプヌル

と変換して887種類のポケモン名があるものとみなしました。

また、駅名の読み仮名データは「~えき」「~ていりゅうじょう」となっていますがこれらの接尾辞は削除し、pythonjaconvパッケージにてカタカナへ変換しました。

ポケモン名と完全一致する駅名、ポケモン名が一部に含まれる駅名を検索した結果は以下のようになりました。所在地などは処理には関係せず、参考として掲載しています。

駅名 読み仮名 所在地 路線
表参道 オモテサンド 東京都 東京メトロ銀座線
北参道 キタサンド 東京都 東京メトロ副都心線
山東 サンド 和歌山県 和歌山電鐵貴志川線
サンドーム西 サンドームニシ 福井県 福井鉄道福武線
宗吾参道 ソウゴサンド 千葉県 京成電鉄本線
岩原スキー場 イワッパラスキージョウマエ 新潟県 JR東日本上越線
加太 カブト 三重県 JR西日本関西本線
カブト 福島県 阿武隈急行線
兜沼 カブトヌマ 北海道 JR北海道宗谷本線
かぶと山 カブトヤマ 京都府 京都丹後鉄道宮津線
たのうら御立岬公園 タノウラオタチミサキコウエン 熊本県 肥薩おれんじ鉄道線
発寒 ハッサム 北海道 JR北海道函館本線
発寒中央 ハッサムチュウオウ 北海道 JR北海道函館本線
発寒南 ハッサムミナミ 北海道 札幌市営地下鉄東西線
来迎寺 ライコウ 新潟県 JR東日本信越本線
磐城守山 イワキモリヤマ 福島県 JR東日本水郡線
崎守 キモリ 北海道 JR北海道室蘭本線
島松 シママ 北海道 JR北海道千歳線

完全一致となったのはハッサムとカブトの2つでした。カブトは漢字の異なる2つの駅が存在します。 部分一致ではサンドが多数の駅名に含まれていました。部分一致の駅名として、かぶと山(カブトヤマ)はポケモン名として存在するかもしれないと思える一方、岩原スキー場前(イワッパラスキージョウマエ)はポケモンっぽいと言われても無理があるでしょう。 本当に求めたいのはポケモンっ「ぽい」であって実在するポケモン名と一致することではないはずです。

ちなみに東京駅からの到達難易度としては、表参道が20分以下で最も容易でしょう。最も難しいと思われるのは兜沼駅で、北海道最北端の稚内駅から南に4駅のところにあります。羽田から1日1便しかない稚内空港行きの飛行機を用いて7時間程度かかります。ポケモン好きのYouTuberの方は全駅訪問してみてはどうでしょうか。

今回は単純な部分一致のため「イワッパラスキージョウマエ」のように無理のある結果が得られました。次回はよりポケモンらしい雰囲気の駅名を探すため、自然言語処理を活用します。

*1:初代では5文字までだったが、X・Yより6文字の名前が登場