ITパスポート試験 用語辞典

クローラ
シラバス外
【Crawler】
Web上を自動巡回して文書や画像などの情報を取得・データベース化するプログラムのこと。主に検索エンジンにおける情報収集に用いられることが多いが、悪意のある業者による電子メールアドレスの収集に使用されることもある。HTML文書中のリンクをたどり、次々と別のページを訪問する動作を繰り返すことでWeb上を自動巡回している。
↓ 用語データを見る
分野:
分野:テクノロジ系
中分類:ネットワーク
小分類:ネットワーク応用
出題歴:
H28年秋期問86 
重要度:
(Wikipedia クローラより)

クローラ(Crawler)とは、ウェブ上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラムである。「ボット(Bot)」、「スパイダー」、「ロボット」などとも呼ばれる。

主に検索エンジンのデータベース、インデックス作成に用いられているほか、統計調査などの目的にも利用される。近年では電子メールアドレス収集業者などもクローラを利用して、スパムの送信効率を上げている。

一般にクローラは、既知のHTML文書の新しいコピーを要求し、文書中に含まれるリンクをたどり別の文書を収集するという動作を繰り返す。新しい文書を見つけた場合はデータベースに登録する。また、既知のファイルが存在しないことを検出した場合はデータベースから削除する。

主なクローラ

  • グーグルボット(Google)
  • MSNBot(MSN)
  • Yetibot(ネイバー)
  • InfoSeek Sidewinder(インフォシーク)
  • Yahoo! Slurp(Yahoo!)
  • (キーウォーカー)
  • Slurp(Inktomi)
  • Scooter(AltaVista)
  • Baiduspider(百度)
  • インターネットNinja
  • KenKen! Robot(建築系検索エンジンKenKen!)
  • MitsuBachi(マイニングブラウニー)

出題例


Pagetop