
昨日、久しぶりにGoogle検索で自分のホームページを見てみたら、検索ロボット対策済みのはずのページまでインデックスされていて、あれ?と思い、設定していたrobot.txtを確認したところ…見事に設定を間違えていました。(涙)
と、言うわけで修正のついでに覚え書きとして、今日はrobot.txtについてのメモをしておこうと思います。
■Robot.txtについて
robot.txtとは、巡回型の検索ロボットが、ホームページを自動的に巡回して、インデックス(ホームページを検索エンジンに登録)してしまうのを防ぐものです。
すべての検索ロボットを防げるわけではありませんが、ある程度の効果が期待出来ます。
■robot.txtの書き方
テキストエディタを開き、下記のように記載した場合、全ての検索ロボットに対して、全てのコンテンツのインデックスを許可しない設定になります。
User-agent: *
Disallow: /
「User-agent: * 」
この部分には、ロボットの名前を書いて、ロボットの名前を指定する事も出来ます。
「Disallow: 」
この部分には、インデックスされたくないページやフォルダを指定します。
「*」とは、「すべて」、「User-agent」とは、「検索エンジン」、「Disallow」とは「禁止する」と言う意味だそうです。
例えば、グーグルにだけインデックスされたくない場合は、
User-agent: Googlebot
と、記述します。
グーグルに、特定のフォルダだけ(今回は「sample」と言うフォルダの場合で説明しています)、インデックスされたくない場合は、
User-agent: Googlebot
Disallow: /sample/
と、記述します。
複数の検索ロボットで、複数のページやフォルダを指定する場合は、
User-agent: Googlebot
Disallow: /sample/
Disallow: /sample2/
User-agent: Slurp
Disallow: /sample/
Disallow: /sample2/
と、言うように記述します。
設定出来たら、ファイルの名前を「robot.txt」として、保存します。
■robot.txtの設置の仕方
「robots.txt」は、そのサイト(ホームページ)のトップディレクトリ(一番上の階層)に置く必要があります。
例えば、『http://www.○○○.com/』の場合、
http://www.○○○.com/の階層に、
robot.txtを設置する必要があります。
それを、アドレスで説明すると、
http://www.○○○.com/robot.txt
と、なります。
http://www.○○○.com/sample/
と、言うアドレスを検索ロボットにインデックスされたくない、と言う場合に、
http://www.○○○.com/sample/に、robots.txtを置いても、検索ロボットは指示に従ってくれません。つまりrobots.txtを置いた場所が、
http://www.○○○.com/sample/robots.txt
言うアドレスではダメなのです。
この場合は、robots.txtに、
User-agent: Googlebot
Disallow: /sample/
と、記述して、
http://www.○○○.com/
の、アドレスに、robots.txtを置く必要があります。
(ホームページのindex.htmlや、top.htmlを置く階層です)
■robot.txtが設置出来ないサイト/ホームページについて
サイトアドレスが、
http://www.geocities.jp/○○○/であったり、
http://www.ocn.ne.jp/~○○○/であったりする場合、
robots.txtを使う事が出来ません。
(必ず、トップディレクトリ=一番上の階層に設置しなければならないためです)
この場合はrobots.txtを設置出来ないので、METAタグなどで、検索ロボットに指示をする事になります。
詳しくは、METAタグの解説ページをご覧下さいませ。
■METAタグメモ■
http://first-moon.sblo.jp/article/23821725.html
※「robot.txtについて」の記事は自分用メモで、私自身はrobot.txtについて疎いため、設定についての質問などにはお答え出来ません。ご了承下さいませ。
また、記述などに間違いがありましたら、教えて頂けると幸いです。随時修正させて頂きます。



