日本語形態素解析器 Sudachi を使ってみたよ
これなん
新しくOSS化した日本語形態素解析器の Sudachi を使ってみた。
Sudachiとは
WorksApplicationsが作っている、新たな形態素解析器
以下、GitHubと見つけた資料など。
まずは、Javaで開発を進めているとな。Sudachiでやりたいことは次のようなことらしい。
複数の分割単位の併用
● 必要に応じて切り替え
多数の収録語彙
● UniDicとNEologdを ベースに調整
継続的なメンテナンス
● 10年以上はつづけたい
機能のプラグイン化
● 自由に機能追加
同義語辞書との連携
● OSSで公開予定
スライドp27から引用
複数の分割単位の併用ってのがとても面白そう。
GitHubのReadmeの例でみていても思ったけど、検索用途で使いたい時とか、意味抽出で使いたい時とかに分割の単位って変わるし、分割モードを変化させることができるのは良さそう。
形態素解析 from Works Applications
使ってみた(環境構築)
まずはインストールする。今回はMacOSXで環境構築する。
Javaの環境が必要みたいなので、以下の二つのページを参考に
環境も構築できたことだし、
上記のgithubからクローンしてきたsudachiを使ってみるぞ。
使ってみた
githubからクローンする際に詰まったことがあったのでメモ
dictionaryデータのファイルサイズが大きくて、普通にgit cloneするとコケるので
git lfs clone をすると良いっぽい。
追記予定とりあえず公開