GoogleやYahoo!で文字を重ねて検索すると、リンク先に存在しない文字がヒットします。

リンク先のほとんどがPDFですが、理由を知っている人がいたら教えて下さい。
検索例は「java」なら「jjaavvaa」、「日本語」なら「日日本本語語」という具合です。

回答の条件
  • URL必須
  • 1人2回まで
  • 登録:
  • 終了:--
※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

回答7件)

id:Asuca No.1

回答回数281ベストアンサー獲得回数4

ポイント30pt

縦書きと 横書きの問題だと思います


日日

本本

語語


これが 日日本本語語 で検索されるんだと思います

id:cloned

ありがとうございます!

なるほど。英字の場合でも同じような理由でしょうか。

2006/02/17 16:36:23
id:Asuca No.2

回答回数281ベストアンサー獲得回数4

ポイント30pt

今グーグルで jjjjjaaaaapppppaaaaannnnn って検索したら上記のページがでて ページ内で jjjjj で検索したら上のJAPANが出ました 

文字に特定の飾り付けをするとなるようです

id:cloned

ありがとうございます!

確認しました。PDF内でもちゃんと検索できますね。ということはPDF側の問題かな。

2006/02/17 17:13:34
id:r_iizuka No.3

回答回数54ベストアンサー獲得回数2

ポイント30pt

「HTMLバージョン」となっているものを見ると、「jjaavvaa」のような形で表示されます。

GoogleがPDFを解析してデータベースに入れるときに、そのような形で保存されているためだと思います。

また、このような形になってしまうのは、影付き文字などで文字を重ねた表現を使っているため、データ上紛らわしい状態になっていることが推測されます。

id:cloned

ありがとうございます!

PDF自身が犯人ですね!きっと。

2006/02/17 17:18:54
id:TomCat No.4

回答回数5402ベストアンサー獲得回数215

ポイント30pt

http://blog.dtpwiki.jp/dtp/pdf/

M.C.P.C.: PDF バックナンバー

これはGoogleがpdfなどをテキストにしてキャッシュする際に、

影文字や疑似ボールドなどの装飾を

同一文字の連続として変換してしまうから、

ということのようです。


昔、機械式タイプライターの頃、

同じ文字を重ね打ちしてボールドにしていたような、

ちょうどそんな感じですね。

 

http://plaza.rakuten.co.jp/kibayashi/diary/200508040000/

PDF落ち着けwwwのガイドライン - 神霊K・B・Y・Sが1体出た! - 楽天ブログ(Blog)

このことは掲示板でも話題になっていたようですね。

id:cloned

ありがとうございます!

リンクのページは読みきれていませんが、コメントして頂いた内容は理解できました!

2006/02/17 17:24:42
id:ginpei No.5

回答回数40ベストアンサー獲得回数0

ポイント30pt

http://www002.upp.so-net.ne.jp/hidemi-k/webpublishing/advancedHT...

とりあえず文字でも重ねてみますか

同じ文字を少しだけずらして重ねる事で、影をつけたり、立体的に見せたりしているのだと思います。

前後含めてコピーしたものをメモ帳などに貼り付けてみて下さい。

さっき見えていたものと違って、実際は同じ文字が複数あるのがわかると思います。


HTML で近いことをやっているものがありました。URL のページをご覧下さい。

(ちなみに PDF ならともかく、HTML でこういう事をするのはかなり邪道です。)

id:cloned

ありがとうございます!

URLのHTML(私も邪道だと思います)はこの現象の正体が判りやすいですね。

2006/02/17 17:34:06
id:wacky No.6

回答回数54ベストアンサー獲得回数1

ポイント30pt

http://support.adobe.co.jp/faq/faq/qadoc.sv?219768+002

[219768]Acrobat 4.0(Mac/Win):日本語テキスト部分に太字のスタイルを指定し Distiller で PDF に変換すると、文字が複数回重なって表示される

PDF変換の際、太字スタイルを同じ文字の重なりで表現しようとするために発生する問題ですね。

社内で使っている検索エンジンでも、太字が使われているWordやExcelの文書から変換したPDFファイルで同様の現象がおきていました。

id:cloned

ありがとうございます!

このURLで確定ですね。

2006/02/18 15:10:19
id:mochitabesugi No.7

回答回数1ベストアンサー獲得回数0

ポイント30pt

http://desktop.google.com/ja/copyrights.html

Google デスクトップ検索の著作権

GoogleではPDFからテキストを抽出するのに、おそらくpdftohtmlを改良したプログラムを使っていると思います。上記urlはデスクトップ検索の著作権ページですが、本体のWeb検索の方でもpdftohtmlが使用されているのではないかと。

id:cloned

ありがとうございます!

このURLも知らなかったので興味深いです。

みなさん、色々な視点での回答と参考URLありがとうございました。

解決+勉強になりました。

2006/02/18 15:15:29

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません