CaboChaのインストール
CentOSにCaboChaをインストールするうえでしくじり2点。
morph.cpp(108) [charset() == decode_charset(dinfo->charset)] Incompatible charset: MeCab charset is UTF-8, Your charset is EUC-JP-MS
こちらはネット上に解決方法がゴロゴロ転がっているのでどうにでもなると思います。
私は /usr/local/etc/cabocharc の
# charset-file = /usr/local/lib/cabocha/model/charset-file.txt
をコメントアウトして、
/usr/local/lib/cabocha/model/charset-file.txt
という「UTF-8」とだけ書いたファイルを作成しました。
もう一つはこちら。
dep.cpp(84) [decode_charset(c) == charset()] model charset and dependency parser's charset are different: EUC-JP-MS != UTF8
こちらが解決方法が見当たらなかった。これはモデルの作成に失敗したときに出るエラーです。で、厄介なことに、一度モデルを作成すると
./configure --with-charset=UTF8
してもUTF8でモデルを再作成しないので永遠に解決しません。
解決方法はディレクトリを削除し、もう一度ソースからtar xvfしてから
./configure --with-charset=UTF8
するとモデルをUTF-8で作成してくれるのでエラーが消えます。