GPTBot / ClaudeBot / Google-Extended を robots.txt で許可する正しい書き方

「ChatGPT に自社サイトを引用してほしいんだけど、robots.txt は何を書けばいいの?」というご相談を最近よく頂く。AI 用クローラーは bot ごとに User-Agent 名が違うし、ブログ記事や Stack Overflow の回答も古い情報が混在しているので、混乱しやすい領域だと思う。

本記事では、2026 年現在で実際に動いている AI クローラーの User-Agent 名と、それぞれを robots.txt で許可・拒否する書き方を整理する。

主要 AI クローラー早見表

bot ごとに User-Agent 名が独立しているのが厄介なところで、User-agent: * の Allow だけでは漏れるケースがある。明示的に列挙するのが安全だ。

User-Agent	運営元	用途	Disallow すべきか
`GPTBot`	OpenAI	モデルの学習データ収集	サイトオーナーの方針次第
`OAI-SearchBot`	OpenAI	ChatGPT の Web 検索機能で結果に表示するための取得	通常は許可
`ChatGPT-User`	OpenAI	ChatGPT ユーザーが質問時にリアルタイムで取得	通常は許可
`ClaudeBot`	Anthropic	Claude のリアルタイム取得 + 学習データ	許可
`Claude-Web`	Anthropic	旧名、現在は ClaudeBot に統合中	ClaudeBot と同じ扱いで OK
`Google-Extended`	Google	Gemini / SGE の学習 (Googlebot とは別)	許可
`Googlebot`	Google	検索インデックス用 (AI とは別)	必ず許可
`PerplexityBot`	Perplexity	リアルタイム取得 + 表示	許可
`CCBot`	Common Crawl	多くの OSS / 研究系 AI が間接的に利用	許可
`Bingbot`	Microsoft	Bing / Copilot 検索インデックス	必ず許可

「学習に使われるのは嫌だけど、検索結果には出てほしい」という方針のサイトもよく見る。その場合は GPTBot と Google-Extended を Disallow にしつつ、OAI-SearchBot / ChatGPT-User / Googlebot は Allow、というセグメンテーションが現実解になる。

全許可パターン

「AI に積極的に読まれたい」企業サイトの推奨設定はこんな感じ。

# 標準クローラー (検索エンジン)
User-agent: *
Allow: /
Disallow: /wp-admin/
Disallow: /admin/

# AI クローラー (生成・引用)
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: CCBot
Allow: /

Sitemap: https://example.com/sitemap.xml

書くときに引っかかりがちな点が 3 つある。1 つ目、User-agent: * のブロックの Disallow は他の User-agent ブロックには引き継がれない。AI ボットを明示的に列挙するときは admin パス等の Disallow を bot ごとに繰り返すか、AI ボットも /wp-admin/ を実害なく見られると割り切るかのどちらかになる。2 つ目、Sitemap 行はファイル末尾に 1 回だけで OK、bot ごとに繰り返す必要はない。3 つ目、空行で User-agent ブロックを区切ること。空行がないと一部の robots パーサが正しく解釈しない。

学習だけ拒否したい場合

User-agent: *
Allow: /

# AI の学習用クロールは拒否
User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

# ただし AI 検索からのリアルタイム引用は許可
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

Sitemap: https://example.com/sitemap.xml

ニュースメディアや有料コンテンツを持つサイトでよく見るパターンだ。自社の判断で選んでもらえばいい。

なお YomuScore のスコアリングでは Disallow: / でブロックされていれば S5 が fail (= 減点) になる。ただしこれは「ブロックしたいなら fail で構わない」というスコアリング上の都合であって、ブロックすること自体が間違いという意味ではない。

CMS 別の編集方法

WordPress

WordPress 本体の仮想 robots.txt は AI ボットを明示許可しない。実ファイルで上書きするのが確実だ。FTP か管理画面のファイルマネージャで WordPress ルート (wp-config.php のある場所) に robots.txt を配置し、本記事の標準例を貼り付けてドメイン部分を実際のものに置換、ブラウザで https://yoursite.example/robots.txt を開いて反映確認する流れ。Yoast SEO や Rank Math のファイルエディタからも編集可能だが、サーバ側に物理ファイルがあるとそちらが優先される。

Shopify

Shopify は標準で /robots.txt を自動生成するが、デフォルトでは AI ボットを明示許可しない。templates/robots.txt.liquid をテーマファイルに作成すると、デフォルトの内容を上書きできる (Shopify 公式が認める唯一の方法だ)。

{{ robots.default_groups }}

User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: CCBot
Allow: /

{{ robots.default_groups }} でデフォルトの内容を維持しつつ、AI ボットを追記する形になる。

ノーコード CMS (STUDIO / Wix / ペライチ / Jimdo)

ノーコード CMS は基本的に robots.txt の編集を許可していない。Wix は SEO 設定 → 詳細 → robots.txt エディタから編集可能で、これが唯一の例外。STUDIO とペライチ、Jimdo は編集できないが、デフォルトの robots.txt は User-agent: * Allow: / なので AI ボットは暗黙に許可されている (= S5 は基本 pass する)。明示的に Allow を書きたい場合はサブドメインで別途ドキュメントサイトを建てるしかない。実害は基本ないので、無理せず諦める判断もアリだと思う。

Next.js / Astro 等の静的サイトジェネレーター

public/robots.txt に直接置けばよい。最も自由度が高い構成。

EC-CUBE

html/robots.txt に物理ファイルとして配置。EC-CUBE 標準の robots.txt は /admin/ 等を Disallow するだけで AI ボットは無記述なので、ファイル末尾に AI ボット用ブロックを追記すればいい。

ありがちなミス

最後に、現場でよく見るミスを 5 つほど。

1 つ目、User-agent: * を最後に書いてしまうケース。

User-agent: GPTBot
Allow: /

User-agent: *
Disallow: /private/

これだと parser によっては User-agent: GPTBot ブロックが上書きされる可能性がある。User-agent: * は先頭に置くのが安全。

2 つ目、コロンの前後にスペースを入れる、または入れない問題。

User-agent:GPTBot
Disallow:/

これは parse 失敗の原因になる。コロンの後にスペース 1 つが標準だ。

3 つ目、大文字小文字を混ぜる。多くの実装で case-insensitive だが、安全のため公式仕様通りの綴りで書くこと。GPTBot であって gptbot や Gpt-Bot ではない。

4 つ目、noindex を robots.txt に書こうとするケース。Noindex ディレクティブは robots.txt では公式仕様外で、多くの bot が無視する。インデックスを拒否したい場合は HTML 側の <meta name="robots" content="noindex"> か HTTP ヘッダの X-Robots-Tag: noindex を使う。AI ボット向けには noai / noimageai も併用できる。

5 つ目、Sitemap 行を忘れる。AI ボットや検索エンジンクローラーが sitemap.xml の存在に気づかず、クロール効率が落ちる。Sitemap: https://example.com/sitemap.xml を最低 1 行は入れておこう。

配置後の確認

robots.txt を更新したら、まずブラウザで https://yoursite.example/robots.txt を開いて中身を確認する。続いて YomuScore でスキャンすれば、S5 (AI ボットのブロック有無)、S6 (/llms.txt 自体のブロック有無)、S7 (/robots.txt の存在) が pass しているかを確認できる。Google Search Console の robots.txt テスター (左メニューの設定 → robots.txt) も syntax エラーのチェックに使える。

関連リンク