人生楽して渡りたい。そんな願いをアフィリにこめて

robots.textで自爆w|サイトをインデックスさせたくない時のrobots.textの使い方

おはよっさん。久しぶりの更新ですね。

久しぶりすぎて、「死んだんですか?」って心配のメールももらいましたが、生きてます(笑)

これからぼちぼち更新していこうかなとおもってますので、よろしくお願いします。

ところで、先日結構調子のよくなってきたサイトを一新リニューアルしたんですね。

シリウスで作ってたんですけど、記事増量してワードプレスに乗せ換え。 成約率は落ちるけど、アクセスアップで現状以上になるかなって見込みで。

結果、リニューアル一週間たってアクセス劇落ち!

oh! my god!!

まあ、リニューアルしたてはしょうがないかな? なんていろいろ検索かけてたんですけどサイト説明文が表示されてないんですね。

EasyCapture1

「あれ?なんでサイトのメタディスクリプションが表示されないのかな??All in seoの設定ミスか?」 と思いぼちぼちいじりながら、さらにいろいろなキーワードで検索をかけていくと

「このサイトの robots.txt により表示されません」

ede2

 

おい!思い出したぞ。

リニューアルする前別のURLでワードプレスのサイトを完成させて引っ越したんですが、その時一緒にインデックス拒否のrobots.textも移転してしまったんだ(汗)

サイト移転の際は注意しなければいけませんね。

robots.textの設置方法

robots.text知らない人のために解説しますと検索エンジンのサイトへのアクセスを制御するためのtextファイルなんですね。

たとえばサイト全体または一部をインデックスさせたくない場合などに使います。 作りかけのサイトやら重複コンテンツがあるページなどをインデックスさせないようにできるので便利です。

サイトがインデックスしないとは検索エンジンにそのサイトの情報が記録されないことを意味し、検索に引っかかることがなくなります。

また重複コンテンツなどの問題もなくなります。まったく同じミラーページが多数あったとしてもインデックスしてなければペナルティを受けることもありません。

robots.textの作り方

メモ帳で作り、ファイル名を「robots.text」とします。

robots

拡張子を表示させない設定にしている場合「robots」としましょう。そうしないと「robots.text.text」になって機能しなくなります。

このrobots.textはHTMLでトップページをアップロードする場所に置いておきましょう。

サイト全体をインデックスさせない

メモ帳で作ったrobots.texに

User-agent: *
Disallow: /*

と記入すればOKです。

User-agentというのは制御する対象のことを指します。ここではクローラーのことでgoogleとかbingとかですね。半角スペースを空けて「※」にすることですべてのクローラーに対して命令を下すことができます。

特定のクローラーだけを拒否する場合は想定しにくいので常に「※」でいいでしょう。

Disallowというのは許可しないという意味で、クローラーのインデックスを拒否します。「※」を付けることでサイト全体のインデックスを拒否することができます。

サイトの一部をインデックスさせない

サイトの特定のべージやカテゴリーのみをインデックスさせないこともできます。

User-agent: *
Disallow: /entry1.html
Disallow: /category1/

disallowの横にインデックスさせたくな場所を記入します。

https://www.tekkan.org/がTOPのURLだとすると「https://www.tekkan.org」の部分を除いて指定します。

上の例では

①https://www.tekkan.org/entry1.html

②https://www.tekkan.org/category1/

のURL(②の場合ディレクトリ)を拒否しています。

①の例ではインデックスさせたくないページURLをそのまま入力しています。こうすることで該当ページがインデックスされなくなります。複数のページを拒否するときは「disallow」を複製していってください。

User-agent: *
Disallow: /entry1.html
Disallow: /entry2.html
Disallow: /entry3.html

②の例ではcategoryフォルダ(ディレクトリ)の中のファイルをすべて拒否します。

category1/entry2.html
category1/entry3.html

と下層ページがあったら、すべて拒否することになりますので注意してください。

もし下層ページのうち、特定の部分だけをインデックスさせたい場合は

User-agent: *
Disallow: /category1/
Allow: /category1/entry13.html

という形(Allow)で指定してください。これでentry13.htmlというファイルを除いてcategory1というフォルダに入っているファイルを拒否することができます。

ただしURL上の記述ではなく、サーバー内のcategoryフォルダ内のファイルを意味します。

例えばワードプレスはURLをPHPで生成しますので、

Disallow: /category1/

でcategory1/entry2.html、category1/entry3.htmlというようなURLを拒否することはできませんので注意してください。

そもそもcategory1というフォルダがサーバー上にありませんよね。

この場合https://www.tekkan.org/category1/という1ページのみ拒否することになります。

このrobots.text結構便利です。初心者から覚えておいて損はありません。

テスト中のサイトやサイトのお引越しの際には大活躍。

とはいえ、運用しているサイトに間違えて指定してしまうとインデックスが消えてしまうという憂き目にあうことになります。慎重に使っていきましょう。

はやくクローラー回ってこないかな。ほんの少しの設定ミスで5-10万くらいは損した。

関連記事

  1. この記事へのコメントはありません。

  1. この記事へのトラックバックはありません。

*