2つの以上の、HTML+CSSで構成されたソースを比較して、同一のパターン部分を、一部のソースをコピーして何度も調べていくなどではなく、一括で抽出するためのツールなどがあれば教えてください。


インターネットメディアの、記事ページなどでは、記事内容こそ違いますが、CMSで出力されているため、HTML+CSS部分は重複する部分があると思います。これらのパターンを抽出するために利用するものです。

回答の条件
  • URL必須
  • 1人5回まで
  • 登録:
  • 終了:2012/11/11 19:20:04
※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

回答1件)

id:Cherenkov No.1

回答回数1504ベストアンサー獲得回数493

プログラムを組むしかないような気がします。
目的は記事本文の抽出ですか?具体的な用途を書いたほうが早く回答が集まると思います。
はてなブックマークとかに使われてる(?)モジュールとかどうでしょう。

id:gmz

ご回答ありがとうございます。

すいません。正規表現で頑張ってプログラムをつくれば実現できるのはわかるのですが、工数とスケジュールの都合以上、ツールとして完成したものを希望していいます。

2012/11/05 09:50:56
  • id:rouge_2008
    どのようにパターンとして抽出したいのか分かりませんが、単に各ソースの同一の箇所を認識できればいいのでしたら、ファイル比較ソフトで何とかなると思います。
    相違点を確認する為のソフトですが、相違点以外は同一の記述という事ですので、色の付いていない箇所を確認してみてください。(※大抵のソフトで色は任意に設定可能です。)

    私が普段使用しているのは「Rekisa」(http://frozenlib.net/rekisa/)ですが、クリップボードから読み込む事も可能なので、HTMLソースを保存せずに比較できます。
    3つ以上の複数ファイルの比較が可能ですが、並び合わせて表示されているファイル同士の比較であって、基準となる1つのファイルとその他のすべてのファイルを比較するという動作ではありません。

    他にも比較ソフトとして有名な「WinMerge」(http://winmerge.org/?lang=ja)や「DF」(http://www.vector.co.jp/soft/win95/util/se113286.html)がありますが、それぞれほとんど同じ比較結果になるようです。
    「テキスト差分表示ツール」(http://www.vector.co.jp/soft/winnt/util/se424177.html)は、比較するファイルの入力欄にURLを直接入力することで、インターネットに接続して比較できました。

    どのソフトもソースが複雑な場合、それほど正確な比較結果にはならないようです。(※ある程度簡易なソースの場合はかなり正確に表示されます。)
    ※上にあげたソフトはいずれもWindows Vistaで動作しました。


    ・無料Diff(ファイル比較)ソフト
    http://freesoft-100.com/pasokon/diff.html

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません