mecabを使ってみる。

形態素解析なるものを触ってみたくて。。

一応候補は以下の2つだった。

どっちでもよかったんだけど、APIよりサーバインストール型の方が後々イイ気がしたので、今回はMecabを採用。

1.Mecabをダウンロード

http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html#download

からダウンロード。(2012/3/22時点の最新版は0.993)

$ wget http://mecab.googlecode.com/files/mecab-0.993.tar.gz

辞書も合わせてダウンロード(今回は推奨されているIPA辞書をダウンロードしました)

2.インストール

http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html#install-unix

の手順に従ってインストール。
※インストール前に、C++のコンパイラとiconvがすでにインストールされていることを確認
※文字コードはデフォルトeucなので、configuireするときにutf-8を指定することにした

mecabのインストール

$ tar zxfv mecab-0.993.tar.gz
$ cd mecab-0.993
$ ./configure
$ make
$ make check
$ sudo make install

辞書のインストール

$ tar zvxf mecab-ipadic-2.7.0-20070801.tar.gz
$ cd mecab-ipadic-2.7.0-20070801
$ ./configure --with-charset=utf-8
$ make
$ sudo make install

3.動かしてみる

$ mecab
これはテストなんですよ。
これ 名詞,代名詞,一般,*,*,*,これ,コレ,コレ
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
テスト 名詞,サ変接続,*,*,*,*,テスト,テスト,テスト
な 助動詞,*,*,*,特殊・ダ,体言接続,だ,ナ,ナ
ん 名詞,非自立,一般,*,*,*,ん,ン,ン
です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
よ 助詞,終助詞,*,*,*,*,よ,ヨ,ヨ
。 記号,句点,*,*,*,*,。,。,。
EOS

いけた。
今作っているサービスにも取り入れてみよう。