検索エンジン(robot)に特定のディレクトリだけインデックスさせない方法

既存サイトを公開した状態で、リニューアルサイトを構築したい際に

予め、特定ディレクトリーを追加してWORDPRESSを設置、制作データも一式アップした と思ったことはありませんか。

データベースもそのまま利用できて、本番切り替えも簡単に行えます。

ただ、検索にヒットしては大問題になりますので、以下方法をお伝え致します。

■■■HTMLのmetaタグでインデックス登録を拒否する方法■■■
以下のmetaタグが記述されたページは、検索エンジンにインデックスされません。

永続的にインデックスされなくて良いページには、この記述をしておけば良いでしょう。

ですが、仮データ(更新用のHTMLなど)にこの記述をしておいて、データのチェックが終わって公開!となったときに消し忘れると、そのページは「公開ページでインデックスして欲しいページなのにインデックスされない」という悲劇を招きます。
その点だけ注意が必要です。

■■■robots.txtでクロールやインデックス拒否する方法■■■
「robots.txt」というファイルを作成し、サーバのルートディレクトリ(www/など)に置きます。

サイトすべてについて、検索エンジンの巡回を拒否する場合

User-agent: *
Disallow: /

※User-agent: * は、すべてのクローラーの意味

特定のディレクトリ(今回の場合は「test」ディレクトリ)の巡回を拒否する場合は、Disallowの部分にディレクトリ名を記述します。

User-agent: *
Disallow: /test/

↑今回の場合はこれで解決!

robots.txtには、そのほかにも「Allow(クロールさせる)」「Disallow(巡回拒否)」を組み合わせたり、様々な方法があります。

Disallow: /test/
Allow: /test/index.html

↑「test」ディレクトリのインデックスは拒否するが、「test」ディレクトリの「index.html」だけはインデックスしてほしい場合。

さらに「*」や「$」を使って、「文字列の一致するディレクトリ(ファイル)を一括拒否」など、高度な運用方法もあります。

ここでは一部をご紹介しましたが、通常は私が遭遇した今回のシチュエーション程度の運用が多いのではないかと思います。

寒いので風邪やウィルスには気をつけましょう。

関連記事

  1. Advanced Custom Fieldsを活用した条件分岐 (中身…

  2. PHPで日付関数を使いこなす(日付条件指定)$now = date("…

  3. 別ページから特定のタブにダイレクトリンクする方法について[jQuery…

  4. 投稿カテゴリーを一括変更できるWordPressプラグイン

  5. カテゴリー名、スラッグの取得方法

  6. 迷惑メール対策(mailformpro編)