Windows上のPythonからMeCabを利用する

投稿者: | 2019年3月3日

以前言語処理では形態素解析(文章を最小構成単位に分割し、情報を与えること)という処理が重要になります。

形態素解析には、京都大学と日本電信電話株式会社が共同開発したMeCabというオープンソース形態素解析エンジンが非常に有名です。

今回はWindows 10環境でMeCabをインストールし、Pythonで使用できるようにします。

 

MeCabのインストール

まずMeCabのインストーラを公式ページからダウンロードします。

http://taku910.github.io/mecab/

 

ダウンロードしたmecab-0.996.exeを実行し、インストールを開始します。

ほとんどデフォルトのまま進みましたが、辞書の文字コードは、汎用性が高いと言われるUTF-8を選択しました。

 

インストール後、このようなアイコンがデスクトップに作成されます。

 

mecab-python-windowsのインストール

linux版ではpython-mecabをインストールすれば良い様なのですが、WIndows環境で実行すると次の様なエラーが。。。

Command “python.py egg_info” failed with error code 1

 

pipのバージョンが古いというメッセージもありますが、”python -m pip install –upgrade pip”コマンドでアップグレードしてもダメでした。

 

どうやらWindows環境下でpythonからMeCabを使おうとすると、setup.pyの編集したりコンパイルし直したりと、色々大変な様です。

これを解決してくれるのが、mecab-python-windowsというパッケージ。こちらに解説がありました。

https://qiita.com/yukinoi/items/990b6933d9f21ba0fb43

https://qiita.com/menon/items/f041b7c46543f38f78f7

 

mecab-python-windowsをインストールしていきます。pip install ipykernel を実行したのち、pip install mecab-python-windowsを実行します。

 

pythonで実行

ここまで来たらpythonコードを書いて実行してみます。

一つの文を形態素解析する簡単なコードで、MeCabが使えることを確認します。

import MeCab

result = MeCab.Tagger().parse("吾輩は猫である。名前はまだ無い。")
print(result)

 

結果はこのように出力されました。

 

カテゴリー: AI