匿名質問者

英語の論文に対して字句解析・言語解析を行いたいと思います。


とりあえず、テキストデータから各単語の品詞を解析したいのですが、ある程度の辞書が用意されていて、かつ自前の辞書をそこに加えられるようなソフトウェアはないでしょうか?

プログラム言語は、Python/Rubyなどのスクリプト言語を念頭に置いておりますがJavaやCなども使いやすければかまいません。

また、OSはLinux系のものを使います。GUIは不要というかむしろCUIしか使いません。

polyglotを試してみたのですが、自前の辞書を登録できずに断念してしまいました。
http://polyglot.readthedocs.io/en/latest/index.html

回答の条件
  • 1人5回まで
  • 登録:
  • 終了:2018/04/05 19:50:05

ベストアンサー

匿名回答1号 No.1

自前の辞書を登録したことはないのですが、言語処理100本ノックの第6章に挑戦した時に、javaで実装されているStanford Core NLPを使ったことがあります。
その時は用意されているコマンドを使って解析結果をxmlで出力させ、その結果をPythonで読みこんで使いました。(流れはQiitaに軽くまとめています。〔Qiita〕素人の言語処理100本ノック:53

アノテーターの追加で辞書の登録に相当することができそうな気がするのですが、すいません、ここから先はやったことがないので良くわかりません。本家のサイトに単語からレンマへの変換をカスタムする例はありました。Adding a new annotator

匿名質問者

回答ありがとうございました。参考にさせていただきます。

2018/04/09 13:36:08

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません