重要文の抽出という形で文書の要約を行いたい。
手順としては、
①文中の重要な単語を求める
※chasenで(できれば更にNExTでも)形態素解析し、名詞、動詞、地名という形で単語をグループ分け
②↑で求めた重要な単語を多く含む重要な文を求める(できるだけクラスタ全てを網羅した文)
③上位の文を表示する
(④要約率30%…できれば)
①で求められた重要な単語を名詞、動詞、地名という3つのグループに分け、
できるだけ全てのグループの単語を網羅した文を抽出したいというものです。
単純なアルゴリズムなのですが、具体的なプログラムを探しています。
使用する言語はできればjavaかperlにてお願いします。(その他でも)
よろしくお願いいたします。
コメント(0件)