形態素解析 janome とは
こんにちは。
AI coordinatorの清水秀樹です。
簡単に説明しますと、自然言語の文章を意味を持つ最長単位に分割し、品詞を判別することができるライブラリです。
とても簡単に利用できるので、紹介します。
形態素解析 janome を使ってみると、日本語をどのように解析しているのか一目瞭然です。
機械学習を利用したテキスト解析を勉強してみたい方は、ぜひ一度使ってみてください。
参考にした書籍
これからDeep Learningの勉強をするなら、こちらで紹介する書籍が参考になります。
janomeのインストール
以下のコマンド1行で簡単いインストールできます。
$ sudo pip install janome
janomeは実行も簡単
インストールができたら、早速pythonで実行してみましょう。
>>> from janome.tokenizer import Tokenizer >>> t = Tokenizer() >>> for token in t.tokenize(u'北斗神拳は究極の暗殺拳だ!'): ... print(token) ... 北斗 名詞,一般,*,*,*,*,北斗,ホクト,ホクト 神 名詞,接尾,一般,*,*,*,神,シン,シン 拳 名詞,一般,*,*,*,*,拳,コブシ,コブシ は 助詞,係助詞,*,*,*,*,は,ハ,ワ 究極 名詞,一般,*,*,*,*,究極,キュウキョク,キューキョク の 助詞,連体化,*,*,*,*,の,ノ,ノ 暗殺 名詞,サ変接続,*,*,*,*,暗殺,アンサツ,アンサツ 拳 名詞,接尾,一般,*,*,*,拳,ケン,ケン だ 助動詞,*,*,*,特殊・ダ,基本形,だ,ダ,ダ ! 記号,一般,*,*,*,*,!,!,! >>>
以上です。
どうですか?
とても簡単にできますよね。
形態素解析 janome の紹介でした。
その他の自然言語処理記事はこちらから
それではまた。
この記事へのコメントはありません。