【Apache】クローラーのアクセス許可【Linux】

Linux

はじめに

不正アクセスを防ぐため、Apacheにてbotなどのアクセスを拒否し、SEO等の各種クローラーは許可したい場合は以下の方法にて設定します。

GoogleのSEO関連のクローラーを特定する

PSI SCORE CHECKのクローラー

PSI SCORE CHECKのクローラーを許可するには以下をApacheのconfファイルへ設定します。

BrowserMatch    "Google Page Speed Insights" psi_google
Allow from env=psi_google

1行目で”Google Page Speed Insights”というUAをpsi_googleという環境変数名へ設定し、
2行目でそれを許可する設定をしています。

Search Consoleのクローラー

Search Consoleのクローラーを許可するには以下をApacheのconfファイルへ設定します。

BrowserMatch    "Google-Site-Verification" search_console
Allow from env=search_console

1行目で”Google-Site-Verification”というUAをsearch_consoleという環境変数名へ設定し、
2行目でそれを許可する設定をしています。

Search Console Structured Data Checkのクローラー

Search Console Structured Data Checkのクローラーを許可するには以下をApacheのconfファイルへ設定します。

BrowserMatch    "Google-Structured-Data-Testing-Tool" tool_google
Allow from env=tool_google

1行目で”Google-Structured-Data-Testing-Tool”というUAをtool_googleという環境変数名へ設定し、
2行目でそれを許可する設定をしています。

LINE METAのクローラーを特定する

LINE METAのクローラー

LINEでURLを送るとメッセージ上にプレビュー画像を表示してくれますが、そのline-pokerのクローラーを許可するには以下をApacheのconfファイルへ設定します。

BrowserMatch    "line-poker" line_poker
Allow from env=line_poker

1行目で”line-poker”というUAをline_pokerという環境変数名へ設定し、
2行目でそれを許可する設定をしています。

LINEの他にもプレビューを表示してくれるSNS系のクローラーはUAを特定して上記のように許可設定した方が良いです。

クローラーとは?

そもそもクローラー(またはウェブクローラー、ウェブスパイダー、ウェブロボットなどとも呼ばれます)は、ウェブ上の情報を収集するためのプログラムまたはスクリプトです。ウェブサイトクローラーの仕組みは、以下のステップで構成されています。

  1. スタートURLの選択: クローラーは、最初に訪れるべきスタートURLを選択します。通常、これは検索エンジンの場合、検索結果ページから取得されます。
  2. スタートURLの取得: クローラーはスタートURLにHTTPリクエストを送信して、対応するウェブページのHTMLコンテンツを取得します。
  3. HTML解析: クローラーは取得したHTMLコンテンツを解析し、その中からリンク、メタデータ、テキストコンテンツなどの情報を抽出します。リンクは次に訪れるべきページを指し示すものです。
  4. URLキューへの追加: クローラーは新しいURLをURLキューに追加します。これらのURLは、将来のステップで訪れるべきページを指定します。キューは通常、優先順位やクロールの頻度に基づいて管理されます。
  5. ロボットの規則の確認: クローラーはRobots.txtファイルを取得し、そのサイトでのクロールの許可および禁止の規則を確認します。Robots.txtファイルに記載されている指示に従って、クローラーは特定のページをクロールしないことがあります。
  6. 再帰的なクロール: クローラーはURLキューから新しいURLを取り出し、これを訪問し、ステップ2からステップ5を繰り返します。このプロセスは再帰的に続けられ、新しいページが見つからなくなるまで続きます。
  7. データの収集: クローラーは各ページを訪れてデータを収集し、通常はデータベースや索引に格納します。これにはテキストコンテンツ、画像、メタデータ、リンク関係などが含まれます。
  8. スケジュールと優先順位: クローラーは訪問すべきURLのスケジュールと優先順位を設定するため、クロールの頻度や深度を管理します。重要なページや新しいコンテンツは高い優先度で訪れられることが多いです。
  9. データの更新と再クロール: クローラーは定期的にウェブサイトを再クロールして、新しい情報を収集し、古い情報を更新します。これにより、検索エンジンが最新の情報を提供できます。

ウェブサイトクローラーは、検索エンジンの索引作成、ウェブサイトのスクレイピング、データ収集、リンクチェック、セキュリティスキャンなど、さまざまな用途で使用されています。クローラーの性能や効率は、アルゴリズム、クロールポリシー、およびネットワーク接続の速度などに依存します。

上記のことから検索エンジンにより良い情報を提供するために必要に応じてクローラーへアクセスを許可することが良いサイト作りには重要です。

まとめ

Apacheでのクローラーのアクセス許可設定について説明しました。

セキュリティは強化したいがSEO対策もしたい場合、このクローラー許可設定はした方が良いのでメモしておきます。

Linux
この記事を書いた人
SE 一郎

現役システムエンジニア、SE歴15年。
上から下からもみくちゃにされている中堅SE。
2回の休職を経て、ひたすらエンジニアリングしています。

SE 一郎をフォローする
SE 一郎をフォローする
SE備忘log

コメント

タイトルとURLをコピーしました