インターネットメディアの、記事ページなどでは、記事内容こそ違いますが、CMSで出力されているため、HTML+CSS部分は重複する部分があると思います。これらのパターンを抽出するために利用するものです。
ログインして回答する
プログラムを組むしかないような気がします。目的は記事本文の抽出ですか?具体的な用途を書いたほうが早く回答が集まると思います。はてなブックマークとかに使われてる(?)モジュールとかどうでしょう。
ご回答ありがとうございます。すいません。正規表現で頑張ってプログラムをつくれば実現できるのはわかるのですが、工数とスケジュールの都合以上、ツールとして完成したものを希望していいます。
これ以上回答リクエストを送信することはできません。制限について
ご回答ありがとうございます。
2012/11/05 09:50:56すいません。正規表現で頑張ってプログラムをつくれば実現できるのはわかるのですが、工数とスケジュールの都合以上、ツールとして完成したものを希望していいます。