Python,Ruby,PHPで、HTMLから本文を抽出するライブラリを教えてください。

Question

kunitz

1069

1067もっと見る

80pt

コンピュータインターネット

Python,Ruby,PHPで、HTMLから本文を抽出するライブラリを教えてください。

プライオリティ的には、Python > PHP > Rubyです

Perlでは下記あがあるようですが、、、
HTML::Feature
HTML::ExtractContent

回答の条件

URL必須
1人2回まで

登録：2009/07/22 15:43:40
終了：2009/07/29 15:45:02

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

コメントはまだありません

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

リクエスト送信済

回答リクエストを送信したユーザーはいません

garyo · Answer 1 · 2009-07-22T16:45:58+09:00

http://labs.cybozu.co.jp/blog/nakatani/2007/09/web_1.html

Ruby版ExtractContent です

前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの本文抽出がひとつの鍵になっています。今回はその本文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。

本文抽出モジュール ExtractContent ダウンロード

(右クリックして「名前をつけて保存」してください)

本モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。

esecua · Answer 2 · 2009-07-23T10:44:17+09:00

Perlで　

HTML::TreeBuilder - HTMLを親子関係として解析

HTML::TokenParser - 指定したタグのコンテンツ取得

Spidering hacks―ウェブ情報ラクラク取得テクニック101選

作者: Kevin Hemenway Tara Calishain
出版社/メーカー: オライリー・ジャパン
メディア: 単行本

私も持っていますが、以上の本はデータ収集方法に関して非常に詳しく解説してあります。よろしければ。

aside · Answer 3 · 2009-07-23T17:00:49+09:00

Rubyモジュール ExtractContent をPythonに移植してみた

http://www.nal.ie.u-ryukyu.ac.jp/graduate/gnote/note_show/1349

Python,Ruby,PHPで、HTMLから本文を抽出するライブラリを教えてください。

回答（3件）

garyo1782962009/07/22 16:45:58

esecua510102009/07/23 10:44:17

aside339312009/07/23 17:00:49

コメント（0件)

この質問への反応（ブックマークコメント）