プライオリティ的には、Python > PHP > Rubyです
Perlでは下記あがあるようですが、、、
HTML::Feature
HTML::ExtractContent
http://labs.cybozu.co.jp/blog/nakatani/2007/09/web_1.html
Ruby版ExtractContent です
前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの本文抽出がひとつの鍵になっています。今回はその本文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。
本文抽出モジュール ExtractContent ダウンロード
(右クリックして「名前をつけて保存」してください)
本モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。
Perlで
HTML::TreeBuilder - HTMLを親子関係として解析
HTML::TokenParser - 指定したタグのコンテンツ取得
Spidering hacks―ウェブ情報ラクラク取得テクニック101選
私も持っていますが、以上の本はデータ収集方法に関して非常に詳しく解説してあります。よろしければ。
Rubyモジュール ExtractContent をPythonに移植してみた
http://www.nal.ie.u-ryukyu.ac.jp/graduate/gnote/note_show/1349
コメント(0件)