Google スプレッドシートでXpathが正しくないからなのか情報が取得できない

Question

moon-fondu

236

235もっと見る

2000pt

インターネット学習・教育

Google スプレッドシートでXpathが正しくないからなのか情報が取得できない

スクレイピングについて、質問です。
こちら https://review-of-my-life.blogspot.com/2017/07/google-spreadsheet-information.html を参考にして、ふるさと納税の候補の情報→ http://f.hatena.ne.jp/moon-fondu/20181103203200
を、取得しようと思いました。

http://f.hatena.ne.jp/moon-fondu/20181103203905 にありますように、Google Chormeの検証ツールを使って、ちょうど"おせち"という用語に該当する場所のXPathを取得しました。

//*[@id="main"]/div[2]/div/div[1]/section[4]/div/ul/li[1]

しかし…スプレッドシートに正しい関数を入れているはずなのですが、エラーになってしまいまして。
http://f.hatena.ne.jp/moon-fondu/20181103204459
どうすれば正しく「おせち」という用語をスプレッドシート取得できるのか、お教えいただけますと幸いです。

よろしくお願い致します。

回答の条件

1人20回まで

登録：2018/11/03 20:48:37
終了：2018/11/06 21:46:01

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

コメントはまだありません

人力検索はてなスクレイピングした情報を24時間ごとに取得… 2018-11-06 21:44:52

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

リクエスト送信済

回答リクエストを送信したユーザーはいません

a-kuma3 · Accepted Answer · 2018-11-03T22:47:41+09:00

No.1

a-kuma3497321542018/11/03 22:47:41

2000pt

「できません」という回答を書くのは、ちょっと躊躇したのですが、回答に書かせてもらいます。

Google スプレッドシートの関数名が IMORTXML とあるように、対象のページが XMLとして認識できないと、あの関数はエラーを返します。

HTML は XML っぽい感じですが、大きく違うところは、タグを閉じるところを省略できるところです。
HTML だと、IMG は、そもそも閉じるタグを要求しませんし、TABLE や LI とかは、閉じるタグを書かないことが普通にあります。
でも、XML では、文法として許されていません。

ブラウザは解釈してくれるのですが、スプレッドシートの INPORTXML は、その辺りを厳密に解釈しているようで、閉じるタグがきちんと書かれていないページの解釈では失敗してしまいます。

他3件のコメントを見る

そうだったんですか、回答いただきありがとうございます！
ちなみに、こちら https://data.gunosy.io/entry/python-scrapy-scraping
の方法ではいかがでしょう？

最初は自分もこの方法で試みたのですが、
「items.py」の編集で、

class GunosynewsItem(scrapy.Item):
title = scrapy.Field()
url = scrapy.Field()
subcategory = scrapy.Field()

をどう直そうかと色々いじったり。
$ scrapy genspider gunosy gunosy.com以降に出てくる
「gunosy.py」を、いろいろ編集しても、コマンドプロンプトでは
エラーばかりで全く歯が立たず。。。でもa-kuma3さんなら…もし気が向きましたら、よろしくお願い致します(^^;

2018/11/03 23:35:49

a-kuma3さん調べていただきありがとうございます！
お手を煩わせてしまい、すみません(^^;
また、気が向いたらでお願いしたいのですが…コチラ https://www.amazon.co.jp/trends/ は、いかがでしょうか？1位から20位のランキングで、「クリスマスコフレ」などのフレーズのみをスクレイピングできたらと思いまして…自分でまたXpathを取得して、Google スプレッドシートに、

=IMPORTXML(A1,"//*[@id="crown-trending-keywords"]/div/div/ul/li[1]/span/a/div/div[2]/span")

と、入れてみたのですが…、やはり「#ERROR!」になってしまうようで。
もし可能でしたら…よろしくお願い致します<m(__)m>

2018/11/06 20:26:15

Amazon の方は行けました　:-)

Google スプレッドシートではなく、Ruby のコードです。
Mechanize というライブラリを使ってます。

require 'openssl'
require 'mechanize'

agent = Mechanize.new
agent.verify_mode = OpenSSL::SSL::VERIFY_NONE

page = agent.get('https://www.amazon.co.jp/trends/')

trend = page.search('.trending-keyword')
trend.each { |item|
    puts item.text.strip
}

標準出力には、以下のように出力されます。

クリスマスコフレ
ルナソル
スマブラ
クリスマスツリー
ヴェノム
ダウンジャケット メンズ
セグウェイ
カナダグース
ワークマン
ナマケモノ
クリスマスイルミネーション
クリスマス 飾り
クリスマス
www amazon com jp
冷却ファン
ゲームボーイミクロ
twice yes or yes
エリップス
福袋
エムピウ 財布

2018/11/06 21:07:01

ありがとうございます(^^;

rubyはまだ自分のWindows10にインストールしていませんが、
インストールして試してみます♪

また、もしお時間ありましたらコチラの方もご教授いただけますと幸いです。
http://q.hatena.ne.jp/1541508285
よろしくお願い致します。

2018/11/06 21:45:39

Google スプレッドシートでXpathが正しくないからなのか情報が取得できない

ベストアンサー

a-kuma3497321542018/11/03 22:47:41

コメント（0件)

この質問への反応（ブックマークコメント）

トラックバック