robots.txtの書き方と役割|クローラーを正しく制御する方法

SEO Web開発 robots.txt クローラー
結論

robots.txtは**「クローラーへの案内図」**。インデックスを「完全に拒否」するものではなく、クロールを「控えてもらう」ためのもの。機密ページの隠蔽には使えない。

robots.txtの基本構成

ドメインのルート直下(example.com/robots.txt)に配置します。

User-agent: *           # すべてのクローラーを対象
Disallow: /admin/       # 管理画面のクロールを禁止
Allow: /admin/login     # 特定のページだけ許可

Sitemap: https://example.com/sitemap.xml # サイトマップの場所を伝える

よく使う設定パターン

パターン 設定内容
全許可(デフォルト) `User-agent: *` `Disallow:`
全拒否(開発環境など) `User-agent: *` `Disallow: /`
特定のディレクトリを拒否 `Disallow: /tmp/`

注意点:noindexとの違い

  • robots.txt — クローラーがそのページにアクセスすること自体を制限します。
  • meta noindex — ページにはアクセスさせますが、検索結果に載せないように指示します。

もし、既に検索結果に載ってしまっているページを消したい場合は、robots.txtでDisallowにするのではなく、meta name="robots" content="noindex" を使ってください。

🤖 この場でrobots.txtを生成する

  

最後に

設定を変更した後は、Google Search Consoleの「robots.txt テスター」などで、意図したとおりに制御できているか必ず確認しましょう。間違いがあると、サイト全体の検索流入が消えるリスクがあります。