javaサーブレットで、ブログの記事を読み込むことはできますか？

Question

rapuntuleru

107

103もっと見る

80pt

コンピュータウェブ制作

javaサーブレットで、ブログの記事を読み込むことはできますか？

例えば、あるブログのすべてのエントリーのタイトルをブラウザに表示させる、などの処理は実装可能でしょうか？
RSSを読み込むというのは、よくあると思うのですが、それだと新着10件（くらい）までしか取得できないと思います。
すべて読み込む、というのは可能でしょうか？

回答の条件

1人2回まで

登録：2008/11/20 13:53:01
終了：2008/11/24 16:55:28

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

No.2

goodvn228182008/11/20 17:40:17

27pt

他のサイトのデータを丸ごと持ってくるのは，そのサイトに対し，多大な負荷を与える可能性があるので，事前に断ったほうがいいかもしれません．

wget などのソフトでは，サイトを丸ごとコピーできるので，そのデータを解析すれば，全ての記事を取得できます．

サイトのサーバ，ネットワークの性能，記事数などによってかわりますが，全てのデータを取るのに，数分～数時間時には，数日掛かる場合もあります．

サイトのデータを丸ごと取ってくることを，クローリング，ソフトをクローラーと呼ぶこともあります．

実装しなくても，すでにいくつかのクローラー(上記の wget も含め)があるので，そういったプログラムを組み合わせればいいと思います．

目的としては，(SEO関係の) spam 行為が思い浮かぶので，クローリングは慎重になったほうがいいかもしれません．

No.3

newta6872008/11/22 02:29:53

26pt

RSSはデータとしてきれいにまとめてもらったのを見てるだけなので簡単ですが、

すべてとなると、データとしては汚い状態のものを

自分できれいにして、更にデータを抽出することになるので

たぶんかなり泥臭い作業になると思います。

HTMLデータを取ってくるのは簡単で、HttpConnectionクラスなどで

URLをセットして取得すれば文字列で返ってきます。

それをひたすらきれいにして解析するだけです。

HTMLはかなりゆるゆるで、結構間違っててもブラウザで表示出来ちゃったりするので

きれいなデータの状態にするのが大変かもしれませんよ。

技術的にはそんなに厳しい感じではないと思います。

かなりめんどくさいですが。

コメントはまだありません

人力検索はてな http://q.hatena.ne.jp/1227156780 ↑の続.. 2008-11-24 17:00:49

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

リクエスト送信済

回答リクエストを送信したユーザーはいません

lets_skeptic · Accepted Answer · 2008-11-20T16:43:02+09:00

javaサーブレットに限らず、プログラムを用いれば原理的には読み込むことが可能です。

ただ、ブログのサービスによって、ページ表示用のHTML構造は異なりますからブログサービス毎に、HTML構文を解析して必要な部分を切り出すような処理が必要になるかと思います。

また、HTMLの構文解析後に、次のページ（ある限り）を取得する動作を繰り返すことも必要かと思います。

実装の方法は複数あると思いますが、最も単純に考えると、大体以下のような流れでプログラムしていくことになるかと思います。

URLを開く
構文解析
本文の切り出し（１ページ分）
次ページリンクがあるかの判定
有れば次ページを開く
２に戻る

２～４辺りはブログサービス毎に別の構文解析を行う必要が出てくるということになります。

lets_skeptic · Accepted Answer · 2008-11-20T16:43:02+09:00

javaサーブレットに限らず、プログラムを用いれば原理的には読み込むことが可能です。

ただ、ブログのサービスによって、ページ表示用のHTML構造は異なりますからブログサービス毎に、HTML構文を解析して必要な部分を切り出すような処理が必要になるかと思います。

また、HTMLの構文解析後に、次のページ（ある限り）を取得する動作を繰り返すことも必要かと思います。

実装の方法は複数あると思いますが、最も単純に考えると、大体以下のような流れでプログラムしていくことになるかと思います。

URLを開く
構文解析
本文の切り出し（１ページ分）
次ページリンクがあるかの判定
有れば次ページを開く
２に戻る

２～４辺りはブログサービス毎に別の構文解析を行う必要が出てくるということになります。

javaサーブレットで、ブログの記事を読み込むことはできますか？

ベストアンサー

lets_skeptic1322008/11/20 16:43:02

その他の回答（2件）

lets_skeptic1322008/11/20 16:43:02ここでベストアンサー

goodvn228182008/11/20 17:40:17

newta6872008/11/22 02:29:53

コメント（0件)

この質問への反応（ブックマークコメント）

トラックバック