robots.txtの書き方と役割｜クローラーを正しく制御する方法

結論

robots.txtは**「クローラーへの案内図」**。インデックスを「完全に拒否」するものではなく、クロールを「控えてもらう」ためのもの。機密ページの隠蔽には使えない。

robots.txtの基本構成

ドメインのルート直下（example.com/robots.txt）に配置します。

User-agent: *           # すべてのクローラーを対象
Disallow: /admin/       # 管理画面のクロールを禁止
Allow: /admin/login     # 特定のページだけ許可

Sitemap: https://example.com/sitemap.xml # サイトマップの場所を伝える

よく使う設定パターン

パターン	設定内容
全許可（デフォルト）	`User-agent: *` `Disallow:`
全拒否（開発環境など）	`User-agent: *` `Disallow: /`
特定のディレクトリを拒否	`Disallow: /tmp/`

注意点：noindexとの違い

robots.txt — クローラーがそのページにアクセスすること自体を制限します。
meta noindex — ページにはアクセスさせますが、検索結果に載せないように指示します。

もし、既に検索結果に載ってしまっているページを消したい場合は、robots.txtでDisallowにするのではなく、meta name="robots" content="noindex" を使ってください。

🤖 この場でrobots.txtを生成する

User-agent

Allow（許可するパス、1行1件）

Disallow（拒否するパス、1行1件）

Sitemap URL

robots.txt

最後に

設定を変更した後は、Google Search Consoleの「robots.txt テスター」などで、意図したとおりに制御できているか必ず確認しましょう。間違いがあると、サイト全体の検索流入が消えるリスクがあります。

ツール一覧

robots.txtの基本構成

よく使う設定パターン

注意点：noindexとの違い

🤖 この場でrobots.txtを生成する

最後に