検索エンジン(robot)に特定のディレクトリだけインデックスさせない方法

既存サイトを公開した状態で、リニューアルサイトを構築したい際に

予め、特定ディレクトリーを追加してWORDPRESSを設置、制作データも一式アップした と思ったことはありませんか。

データベースもそのまま利用できて、本番切り替えも簡単に行えます。

ただ、検索にヒットしては大問題になりますので、以下方法をお伝え致します。

■■■HTMLのmetaタグでインデックス登録を拒否する方法■■■
以下のmetaタグが記述されたページは、検索エンジンにインデックスされません。

永続的にインデックスされなくて良いページには、この記述をしておけば良いでしょう。

ですが、仮データ(更新用のHTMLなど)にこの記述をしておいて、データのチェックが終わって公開!となったときに消し忘れると、そのページは「公開ページでインデックスして欲しいページなのにインデックスされない」という悲劇を招きます。
その点だけ注意が必要です。

■■■robots.txtでクロールやインデックス拒否する方法■■■
「robots.txt」というファイルを作成し、サーバのルートディレクトリ(www/など)に置きます。

サイトすべてについて、検索エンジンの巡回を拒否する場合

User-agent: *
Disallow: /

※User-agent: * は、すべてのクローラーの意味

特定のディレクトリ(今回の場合は「test」ディレクトリ)の巡回を拒否する場合は、Disallowの部分にディレクトリ名を記述します。

User-agent: *
Disallow: /test/

↑今回の場合はこれで解決!

robots.txtには、そのほかにも「Allow(クロールさせる)」「Disallow(巡回拒否)」を組み合わせたり、様々な方法があります。

Disallow: /test/
Allow: /test/index.html

↑「test」ディレクトリのインデックスは拒否するが、「test」ディレクトリの「index.html」だけはインデックスしてほしい場合。

さらに「*」や「$」を使って、「文字列の一致するディレクトリ(ファイル)を一括拒否」など、高度な運用方法もあります。

ここでは一部をご紹介しましたが、通常は私が遭遇した今回のシチュエーション程度の運用が多いのではないかと思います。

寒いので風邪やウィルスには気をつけましょう。

関連記事

  1. sidebar.php ウィジェットを使用しないでオリジナルで制作 カ…

  2. アナリティクスのタグを複数設置する正しいやり方

  3. wordpressで記述されているパスを確認したい方法(PATH)

  4. ブログ、ウェブメディアで引用する時の書き方について

  5. 1つのWEBサイトに複数のトラッキングコードを設置する方法

  6. カテゴリー名、スラッグの取得方法