とりあえず、テキストデータから各単語の品詞を解析したいのですが、ある程度の辞書が用意されていて、かつ自前の辞書をそこに加えられるようなソフトウェアはないでしょうか?
プログラム言語は、Python/Rubyなどのスクリプト言語を念頭に置いておりますがJavaやCなども使いやすければかまいません。
また、OSはLinux系のものを使います。GUIは不要というかむしろCUIしか使いません。
polyglotを試してみたのですが、自前の辞書を登録できずに断念してしまいました。
http://polyglot.readthedocs.io/en/latest/index.html
自前の辞書を登録したことはないのですが、言語処理100本ノックの第6章に挑戦した時に、javaで実装されているStanford Core NLPを使ったことがあります。
その時は用意されているコマンドを使って解析結果をxmlで出力させ、その結果をPythonで読みこんで使いました。(流れはQiitaに軽くまとめています。〔Qiita〕素人の言語処理100本ノック:53)
アノテーターの追加で辞書の登録に相当することができそうな気がするのですが、すいません、ここから先はやったことがないので良くわかりません。本家のサイトに単語からレンマへの変換をカスタムする例はありました。Adding a new annotator
回答ありがとうございました。参考にさせていただきます。
2018/04/09 13:36:08