北野坂備忘録

主にインストールやプログラミングのメモを載せています。

CaboChaのインストール

CentOSにCaboChaをインストールするうえでしくじり2点。

morph.cpp(108) [charset() == decode_charset(dinfo->charset)] Incompatible charset: MeCab charset is UTF-8, Your charset is EUC-JP-MS

 こちらはネット上に解決方法がゴロゴロ転がっているのでどうにでもなると思います。
 私は /usr/local/etc/cabocharc の

# charset-file = /usr/local/lib/cabocha/model/charset-file.txt

 をコメントアウトして、
/usr/local/lib/cabocha/model/charset-file.txt
 という「UTF-8」とだけ書いたファイルを作成しました。

 もう一つはこちら。

dep.cpp(84) [decode_charset(c) == charset()] model charset and dependency parser's charset are different: EUC-JP-MS != UTF8

 こちらが解決方法が見当たらなかった。これはモデルの作成に失敗したときに出るエラーです。で、厄介なことに、一度モデルを作成すると

./configure --with-charset=UTF8

 してもUTF8でモデルを再作成しないので永遠に解決しません。
 解決方法はディレクトリを削除し、もう一度ソースからtar xvfしてから

./configure --with-charset=UTF8

 するとモデルをUTF-8で作成してくれるのでエラーが消えます。