Twitterのトレンドはひらがなカタカナ混合語が苦手
Twitterのトレンドに、ときどき不思議な単語が載ることがあります。
今回は「フレスタンプ」でした。
これは、大ヒットアニメ「けものフレンズ」の「LINEスタンプ」がバズッたことによるものです。
— マフィア梶田 (@mafia_kajita) 2017年4月27日
本来は「けもフレスタンプ」という単語を、Twitterが何らかの機械学習的手法で検知した際に「フレスタンプ」で1単語と判定してしまったのでしょう。
このあたりは「ひらがなカタカナ混合語の認識」という古くて新しい問題です。
Twitterのトレンドを見る限り、このトレンドの単語取得システムは「ひらがな-カタカナ境界」をかなり重視したつくりになっていると思います。
普段はそのほうが判定率がいいんでしょうね。
このように、実際に自然言語処理システムを作る際にはいろいろな問題が生じます。Twitter社レベルでも逃れることはできません。
下記の本も参考にしてみてください。