robots.txtとmetaでクローラーを拒否して検索エンジンにインデックスさせない設定について

robots.txtとmetaでクローラーを拒否して検索エンジンにインデックスさせない設定について

クライアントにサイトなどの制作物を確認してもらう際、自社のサーバー上にアップして、URLだけを送信する方法が便利で一般的ですよね。

例:http://rabbit-punch.com/test/client_aaaa/

ですが、同時にテストアップしたドメイン(rabbit-punch.com)の下層に「test」「client_aaaa」というディレクトリが生成され、新たなコンテンツとして検索エンジンにみなされてしまいます。

この場合、テストアップと本番でコンテンツの重複するになってしまい、どちらかのドメインがコピーサイトとしてSEO評価を大きく下げてしまう恐れがあります。

そこで「test」以下のディレクトリは検索エンジンにインデックスさせないを行う必要があります。

robots.txtを使ってクローラーを拒否する

一番簡単な方法として「robots.txt」を使う方法があります。検索エンジンロボットに対する命令をテキストデータに記述、さらに対象になるディレクトリやページも、robots.txtというテキストデータ1つで指定できます。

全てのクローラーを拒否する場合

逆に全てのクローラーを許可する場合(使いどころ不明)

ディレクトリ・ページを指定する

robots.txtは必ずルートディレクトリ(トップディレクトリ)に設置

拒否したいディレクトリにrobots.txtを設置したくなりますが、ドメインのルートディレクトリ(トップディレクトリ)に設置します。(Webサイトが管理されているディレクトリ)

metaで1ぺーじずつ設定する

サーバーを触ることに抵抗がある方は、HTMLのmetaでクローリングを制御できます。

headタグ内に上記を設置。「noindex」で検索エンジンにインデックスさせない、「nofollow」でこのページのリンクはたどらないという指定になります。

数ページ程度であればmetaでもいいかもしれませんが、頻繁にテストアップを行うようであればrobots.txtの方が効率はいいでしょう。

いいね!のお慈悲を…

この記事が良かったらシェアをお願いしゃっす!

記事の感想はこちら