北野坂備忘録

主にインストールやプログラミングのメモを載せています。

Twitterのトレンドはひらがなカタカナ混合語が苦手

 Twitterのトレンドに、ときどき不思議な単語が載ることがあります。
 今回は「フレスタンプ」でした。
 これは、大ヒットアニメ「けものフレンズ」の「LINEスタンプ」がバズッたことによるものです。

 本来はけもフレスタンプ」という単語を、Twitterが何らかの機械学習的手法で検知した際に「フレスタンプ」で1単語と判定してしまったのでしょう。
 このあたりは「ひらがなカタカナ混合語の認識」という古くて新しい問題です。
 Twitterのトレンドを見る限り、このトレンドの単語取得システムは「ひらがな-カタカナ境界」をかなり重視したつくりになっていると思います。
 普段はそのほうが判定率がいいんでしょうね。

 このように、実際に自然言語処理システムを作る際にはいろいろな問題が生じます。Twitter社レベルでも逃れることはできません。
 下記の本も参考にしてみてください。


言語処理システムをつくる:実践・自然言語処理シリーズ1