mozyのかきおき

mozyの読書感想文や思考置き場

日本語形態素解析器 Sudachi を使ってみたよ

これなん

新しくOSS化した日本語形態素解析器の Sudachi を使ってみた。

Sudachiとは

WorksApplicationsが作っている、新たな形態素解析

以下、GitHubと見つけた資料など。

まずは、Javaで開発を進めているとな。Sudachiでやりたいことは次のようなことらしい。

複数の分割単位の併用

● 必要に応じて切り替え

多数の収録語彙

● UniDicとNEologdを ベースに調整

継続的なメンテナンス

● 10年以上はつづけたい

機能のプラグイン

● 自由に機能追加

同義語辞書との連携

OSSで公開予定 

スライドp27から引用

複数の分割単位の併用ってのがとても面白そう。

GitHubのReadmeの例でみていても思ったけど、検索用途で使いたい時とか、意味抽出で使いたい時とかに分割の単位って変わるし、分割モードを変化させることができるのは良さそう。

github.com

徳島人工知能NLP研究所-ワークスアプリケーションズ-

 

www.slideshare.net

 

使ってみた(環境構築)

まずはインストールする。今回はMacOSXで環境構築する。

Javaの環境が必要みたいなので、以下の二つのページを参考に

Java, mavenをインストールした。

qiita.com

weblabo.oscasierra.net

環境も構築できたことだし、

上記のgithubからクローンしてきたsudachiを使ってみるぞ。

使ってみた

githubからクローンする際に詰まったことがあったのでメモ

dictionaryデータのファイルサイズが大きくて、普通にgit cloneするとコケるので

git lfs clone をすると良いっぽい。

 

追記予定とりあえず公開