リンク先のほとんどがPDFですが、理由を知っている人がいたら教えて下さい。
検索例は「java」なら「jjaavvaa」、「日本語」なら「日日本本語語」という具合です。
今グーグルで jjjjjaaaaapppppaaaaannnnn って検索したら上記のページがでて ページ内で jjjjj で検索したら上のJAPANが出ました
文字に特定の飾り付けをするとなるようです
ありがとうございます!
確認しました。PDF内でもちゃんと検索できますね。ということはPDF側の問題かな。
「HTMLバージョン」となっているものを見ると、「jjaavvaa」のような形で表示されます。
GoogleがPDFを解析してデータベースに入れるときに、そのような形で保存されているためだと思います。
また、このような形になってしまうのは、影付き文字などで文字を重ねた表現を使っているため、データ上紛らわしい状態になっていることが推測されます。
ありがとうございます!
PDF自身が犯人ですね!きっと。
http://blog.dtpwiki.jp/dtp/pdf/
M.C.P.C.: PDF バックナンバー
これはGoogleがpdfなどをテキストにしてキャッシュする際に、
影文字や疑似ボールドなどの装飾を
同一文字の連続として変換してしまうから、
ということのようです。
昔、機械式タイプライターの頃、
同じ文字を重ね打ちしてボールドにしていたような、
ちょうどそんな感じですね。
http://plaza.rakuten.co.jp/kibayashi/diary/200508040000/
PDF落ち着けwwwのガイドライン - 神霊K・B・Y・Sが1体出た! - 楽天ブログ(Blog)
このことは掲示板でも話題になっていたようですね。
ありがとうございます!
リンクのページは読みきれていませんが、コメントして頂いた内容は理解できました!
同じ文字を少しだけずらして重ねる事で、影をつけたり、立体的に見せたりしているのだと思います。
前後含めてコピーしたものをメモ帳などに貼り付けてみて下さい。
さっき見えていたものと違って、実際は同じ文字が複数あるのがわかると思います。
HTML で近いことをやっているものがありました。URL のページをご覧下さい。
(ちなみに PDF ならともかく、HTML でこういう事をするのはかなり邪道です。)
ありがとうございます!
URLのHTML(私も邪道だと思います)はこの現象の正体が判りやすいですね。
http://support.adobe.co.jp/faq/faq/qadoc.sv?219768+002
[219768]Acrobat 4.0(Mac/Win):日本語テキスト部分に太字のスタイルを指定し Distiller で PDF に変換すると、文字が複数回重なって表示される
PDF変換の際、太字スタイルを同じ文字の重なりで表現しようとするために発生する問題ですね。
社内で使っている検索エンジンでも、太字が使われているWordやExcelの文書から変換したPDFファイルで同様の現象がおきていました。
ありがとうございます!
このURLで確定ですね。
http://desktop.google.com/ja/copyrights.html
Google デスクトップ検索の著作権
GoogleではPDFからテキストを抽出するのに、おそらくpdftohtmlを改良したプログラムを使っていると思います。上記urlはデスクトップ検索の著作権ページですが、本体のWeb検索の方でもpdftohtmlが使用されているのではないかと。
ありがとうございます!
このURLも知らなかったので興味深いです。
みなさん、色々な視点での回答と参考URLありがとうございました。
解決+勉強になりました。
ありがとうございます!
なるほど。英字の場合でも同じような理由でしょうか。