以前言語処理では形態素解析(文章を最小構成単位に分割し、情報を与えること)という処理が重要になります。
形態素解析には、京都大学と日本電信電話株式会社が共同開発したMeCabというオープンソース形態素解析エンジンが非常に有名です。
今回はWindows 10環境でMeCabをインストールし、Pythonで使用できるようにします。
MeCabのインストール
まずMeCabのインストーラを公式ページからダウンロードします。
http://taku910.github.io/mecab/
ダウンロードしたmecab-0.996.exeを実行し、インストールを開始します。
ほとんどデフォルトのまま進みましたが、辞書の文字コードは、汎用性が高いと言われるUTF-8を選択しました。
インストール後、このようなアイコンがデスクトップに作成されます。
mecab-python-windowsのインストール
linux版ではpython-mecabをインストールすれば良い様なのですが、WIndows環境で実行すると次の様なエラーが。。。
Command “python.py egg_info” failed with error code 1
pipのバージョンが古いというメッセージもありますが、”python -m pip install –upgrade pip”コマンドでアップグレードしてもダメでした。
どうやらWindows環境下でpythonからMeCabを使おうとすると、setup.pyの編集したりコンパイルし直したりと、色々大変な様です。
これを解決してくれるのが、mecab-python-windowsというパッケージ。こちらに解説がありました。
https://qiita.com/yukinoi/items/990b6933d9f21ba0fb43
https://qiita.com/menon/items/f041b7c46543f38f78f7
mecab-python-windowsをインストールしていきます。pip install ipykernel を実行したのち、pip install mecab-python-windowsを実行します。
pythonで実行
ここまで来たらpythonコードを書いて実行してみます。
一つの文を形態素解析する簡単なコードで、MeCabが使えることを確認します。
import MeCab result = MeCab.Tagger().parse("吾輩は猫である。名前はまだ無い。") print(result)
結果はこのように出力されました。