GoogleやYahoo!で文字を重ねて検索すると、リンク先に存在しない文字がヒットします。

Question

cloned

13

13もっと見る

210pt

コンピュータ生活

GoogleやYahoo!で文字を重ねて検索すると、リンク先に存在しない文字がヒットします。

リンク先のほとんどがPDFですが、理由を知っている人がいたら教えて下さい。
検索例は「java」なら「jjaavvaa」、「日本語」なら「日日本本語語」という具合です。

回答の条件

URL必須
1人2回まで

登録：2006/02/17 16:15:02
終了：--

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

コメントはまだありません

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

リクエスト送信済

回答リクエストを送信したユーザーはいません

Asuca · Answer 1 · 2006-02-17T16:20:22+09:00

http://www.yahoo.co.jp/

Yahoo! JAPAN

縦書きと　横書きの問題だと思います

日日

本本

語語

これが　日日本本語語　で検索されるんだと思います

Asuca · Answer 2 · 2006-02-17T17:07:53+09:00

http://www.city.numazu.shizuoka.jp/d-sikara/kouhounumazu/1260/pa...

今グーグルで　jjjjjaaaaapppppaaaaannnnn　って検索したら上記のページがでて　ページ内で　jjjjj　で検索したら上のJAPANが出ました　

文字に特定の飾り付けをするとなるようです

r_iizuka · Answer 3 · 2006-02-17T17:10:06+09:00

http://72.14.207.104/search?q=cache:L5f9DceIjsMJ:education.hitac...

「HTMLバージョン」となっているものを見ると、「jjaavvaa」のような形で表示されます。

GoogleがPDFを解析してデータベースに入れるときに、そのような形で保存されているためだと思います。

また、このような形になってしまうのは、影付き文字などで文字を重ねた表現を使っているため、データ上紛らわしい状態になっていることが推測されます。

TomCat · Answer 4 · 2006-02-17T17:17:54+09:00

http://blog.dtpwiki.jp/dtp/pdf/

M.C.P.C.: PDF バックナンバー

これはGoogleがpdfなどをテキストにしてキャッシュする際に、

影文字や疑似ボールドなどの装飾を

同一文字の連続として変換してしまうから、

ということのようです。

昔、機械式タイプライターの頃、

同じ文字を重ね打ちしてボールドにしていたような、

ちょうどそんな感じですね。

http://plaza.rakuten.co.jp/kibayashi/diary/200508040000/

PDF落ち着けｗｗｗのガイドライン - 神霊K・B・Y・Sが１体出た！ - 楽天ブログ（Blog）

このことは掲示板でも話題になっていたようですね。

ginpei · Answer 5 · 2006-02-17T17:28:56+09:00

http://www002.upp.so-net.ne.jp/hidemi-k/webpublishing/advancedHT...

とりあえず文字でも重ねてみますか

同じ文字を少しだけずらして重ねる事で、影をつけたり、立体的に見せたりしているのだと思います。

前後含めてコピーしたものをメモ帳などに貼り付けてみて下さい。

さっき見えていたものと違って、実際は同じ文字が複数あるのがわかると思います。

HTML で近いことをやっているものがありました。URL のページをご覧下さい。

（ちなみに PDF ならともかく、HTML でこういう事をするのはかなり邪道です。）

わっきー · Answer 6 · 2006-02-17T20:27:55+09:00

http://support.adobe.co.jp/faq/faq/qadoc.sv?219768+002

［219768］Acrobat 4.0（Mac/Win）：日本語テキスト部分に太字のスタイルを指定し Distiller で PDF に変換すると、文字が複数回重なって表示される

PDF変換の際、太字スタイルを同じ文字の重なりで表現しようとするために発生する問題ですね。

社内で使っている検索エンジンでも、太字が使われているWordやExcelの文書から変換したPDFファイルで同様の現象がおきていました。

mochitabesugi · Answer 7 · 2006-02-18T02:22:54+09:00

http://desktop.google.com/ja/copyrights.html

Google デスクトップ検索の著作権

GoogleではPDFからテキストを抽出するのに、おそらくpdftohtmlを改良したプログラムを使っていると思います。上記urlはデスクトップ検索の著作権ページですが、本体のWeb検索の方でもpdftohtmlが使用されているのではないかと。

GoogleやYahoo!で文字を重ねて検索すると、リンク先に存在しない文字がヒットします。

回答（7件）

Asuca28142006/02/17 16:20:22

Asuca28142006/02/17 17:07:53

r_iizuka5422006/02/17 17:10:06

TomCat54022152006/02/17 17:17:54

ginpei4002006/02/17 17:28:56

わっきー5412006/02/17 20:27:55

mochitabesugi102006/02/18 02:22:54

コメント（0件)

この質問への反応（ブックマークコメント）