匿名質問者

極々一般的なルーター、普通の100Mの光回線でプロバイダ、ノートパソコン(Core i7)を使ってGoogleの様なスパイダーを作った場合(単一ドメインへのアクセスは1分1回など制限を設けます)、外部サイトに大量のアクセスをしますが、HTMLやPDFのみが対象ファイルの場合(文字情報しか集めない)、1分間にどの程度のアクセスまで継続して処理できる物でしょうか?


具体的には、まず始めに100URLほど用意して、そこからからのリンクを調べ、ドメインが異なることを確認したら、プログラム上でスレッドを作りながら一括アクセスしたいと思っています。この部分でのスレッドの数をどこまで上げるかで悩んでおります。

回答の条件
  • 1人5回まで
  • 登録:
  • 終了:2017/07/17 01:35:04
匿名質問者

質問者から

匿名質問者2017/07/10 18:18:17

どこがボトルネックなのかよく分からないのです。テストするにもどの程度の数を設定するのが適切か。また、大量アクセスでうっかりプロバイダのサーバを落とすと偉いことになりますし気軽にテストするわけにもいきませんし・・・

回答0件)

匿名質問者

質問者から

匿名質問者2017/07/10 18:26:21

質問文を編集しました。詳細はこちら

回答はまだありません

  • 匿名回答1号
    匿名回答1号 2017/07/10 06:16:18
    「処理」を何処まで行うかの問題になりますが、一般的なブラウジングに当てはめれば「契約されている回線の上限まで取得し続ける事ができる」という想定も可能です。
  • 匿名質問者
    匿名質問者 2017/07/10 12:14:12
    ありがとうございます。短時間のリクエスト数について一般に上限はある物なのでしょうか?
    100URLほど用意して、そこからからのリンクを調べ、ドメインが異なることを確認したら、プログラム上でスレッドを作りながら一括アクセスしたいと思っています。この部分でのスレッドの数をどこまで上げるか悩んでおります。
  • 匿名回答1号
    匿名回答1号 2017/07/10 14:19:06
    それは、自分が管理しているPCの上限ですか?それとも、相手先のサーバーが許容する上限ですか?
  • 匿名回答2号
    匿名回答2号 2017/07/10 18:17:32
    せめてこれ読んで様々なケースを想定してみませう

    https://it.srad.jp/story/10/05/27/0217250/

    Google のクローラーなどは基本的に 1 リクエストが 15 ~ 30 秒に 1 回で、かつ If-Modified-Since 付きで送ってくれる

    そうです

    自分の都合だけでなく相手の都合も考えなあかん
  • 匿名質問者
    匿名質問者 2017/07/10 18:24:24
    上のコメントにも書いているのですが、100URLほど用意して、そこからからのリンクを調べ、ドメインが異なることを確認したら、プログラム上でスレッドを作りながら一括アクセスしたいと思っています。この部分でのスレッドの数をどこまで上げるか悩んでおります。岡崎事件については私も知っていますが、脆弱なサーバに1秒に1リクエストもすればDDosと言われても仕方がないかと思います。
  • 匿名回答2号
    匿名回答2号 2017/07/10 18:34:00
    で、読みました?

    動的ページか静的ページかでも変わるとも書いてあるんですけどね

    あと理論値いっぱいの100Mでダウンロードすると
    1分で750Mバイトになるんだけど文字データ限定という事から
    サイトが100ぽっちで足りるのかというのが疑問なんだけど
  • 匿名回答2号
    匿名回答2号 2017/07/10 18:41:20
    ああ違うなドメインが異なるところからしかダウンロードしないのなら質問者からにあるような
    大量アクセスで相手のサーバが落ちるという事はありえないんではないだろうか
    だってそのサーバには同時に1アクセスしかないんでしょ?
    1度アクセスしたサーバにはアクセスしないという条件付けたテストプログラム作れば
    スレッドを同時にいくつ走らせるか確認する事を誰にも迷惑かけずにできるんじゃない?
  • 匿名質問者
    匿名質問者 2017/07/10 18:53:15
    最終的にはVPSで行うと思いますがとりあえず極々一般的な家のPCでこれをする場合どの程度が上限で何がボトルネックになるのか気になっています。スパイダーを作って見た方などはてななら居るかと思って質問させて頂いています。
  • 匿名回答2号
    匿名回答2号 2017/07/10 19:12:24
    ボトルネックはソフトとハードが想定できるけど

    ハードは通信環境の問題がまずあって
    理論値最大までの速度が出るとは限らない事
    それを行う時間帯によっても速度が違うだろう
    うちは普通にフレッツ使ってるけどこの質問を最初に見かけた早朝で171M
    でも今の時間帯は…あれ、242Mも出よったw
    あと相手のサーバの混雑状況で速度が変わってきてこればかりはどうしようもない
    それから処理した後のデータの扱い
    取り込んだデータを全て保存するのか
    特定のキーワードが何回出てきたのかそのカウント数のみを保存するのか
    でも速度が変わってくるだろう
    その他HDDかSSDかなど記憶媒体の問題もある
    これらは通信でデーターを取り込む速度が
    データを処理する速度を下回る場合に考えられるボルトネック

    データを取り込む速度がデータを処理する速度を上回るなら
    CPUの処理能力の問題かソフト面の問題かとなる
    他人の手によって書かれたソースが効率的かどうかなんて他人には分からん

    そんなわけでどれくらいの速度が出せるかは環境によって異なるから
    自分の最適解はテストプログラム作って自分で見つけてくれ
    としか言いようがないと思うよ

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません