robots.txtの書き方と役割|クローラーを正しく制御する方法
SEO Web開発 robots.txt クローラー
結論
robots.txtは**「クローラーへの案内図」**。インデックスを「完全に拒否」するものではなく、クロールを「控えてもらう」ためのもの。機密ページの隠蔽には使えない。
robots.txtの基本構成
ドメインのルート直下(example.com/robots.txt)に配置します。
User-agent: * # すべてのクローラーを対象
Disallow: /admin/ # 管理画面のクロールを禁止
Allow: /admin/login # 特定のページだけ許可
Sitemap: https://example.com/sitemap.xml # サイトマップの場所を伝える
よく使う設定パターン
| パターン | 設定内容 |
|---|---|
| 全許可(デフォルト) | `User-agent: *` `Disallow:` |
| 全拒否(開発環境など) | `User-agent: *` `Disallow: /` |
| 特定のディレクトリを拒否 | `Disallow: /tmp/` |
注意点:noindexとの違い
- robots.txt — クローラーがそのページにアクセスすること自体を制限します。
- meta noindex — ページにはアクセスさせますが、検索結果に載せないように指示します。
もし、既に検索結果に載ってしまっているページを消したい場合は、robots.txtでDisallowにするのではなく、meta name="robots" content="noindex" を使ってください。
🤖 この場でrobots.txtを生成する
最後に
設定を変更した後は、Google Search Consoleの「robots.txt テスター」などで、意図したとおりに制御できているか必ず確認しましょう。間違いがあると、サイト全体の検索流入が消えるリスクがあります。