頂尖網站如何為 AI 爬蟲劃出界線

最後更新於 May 8, 2026

執行摘要

我們抓取了全球流量最高網站之 Tranco 前 10,000 名榜單中每個網域的 robots.txt 檔案。接著,我們以符合 RFC 9309 的解析器逐一解析,依網站採用的 AI 機器人政策(若有)進行分類,並統計全球最常造訪的網站中,有多少真的試圖封鎖 ChatGPT、Claude、Perplexity、Gemini、Common Crawl、Bytespider、Apple Intelligence,以及其他在 2026 年用來訓練與提供大型語言模型服務的爬蟲。

在 7,248 個 robots.txt 能順利讀取的網站樣本中,重點數字如下:

ai-crawler-block-statistics.webp

全球前 10,000 名網站中,有 20.3% 封鎖至少一個 AI 爬蟲。17.0% 有明確、針對 AI 的刻意規則。其餘 80% 對 AI 爬蟲的態度,和對 Googlebot 一樣開放。

改變這個故事樣貌的六個發現:

  • 新聞機構的封鎖率達 47% —— 這是所有產業中最高的。德國新聞業達 88%,法國 80%,俄羅斯 0%。主導因素是法規,不是技術,也不是產業經濟。
  • CCBot(Common Crawl)是最常被封鎖的機器人,達 16.3% —— 高於 GPTBot(15.8%)和 Bytespider(14.9%)。出版商瞄準的是訓練資料來源,不是模型品牌。最常見的選擇性規則是「封鎖 CCBot、允許 Googlebot」(14.1% 的網站)。
  • 法國以 .fr 網站 50.6% 的 AI 封鎖率領先全球;EU 群組比全球基準高出 16 個百分點。 有 275 份 robots.txt 明確引用 EU 指令 2019/790。第 4 條是唯一明顯推動數字變化的法律制度。
  • 17.8% 是自行撰寫的 AI 規則;4.5% 使用 Cloudflare 的供應商範本;75.7% 什麼都沒說。 大型網站多半自行撰寫;長尾網站則直接打開開關。The Atlanticcloudflare.com 本身都在 Cloudflare Managed 名單上。
  • 有 108 個網站明確 允許 GPTBot —— WordPress.org、Kaspersky、Norton、Avast、Sophos、The Verge、The Atlantic、NBA.com、The Sun、Branch.io。資安與開發工具類網站明顯偏多。
  • AI 政策並沒有在排名前段變得更強硬。 前 100 名、101–1000 名、1001–5000 名、5001–10000 名都落在 19% 到 23% 之間。這個頭條比例反映的是 2026 年公開網路的整體樣貌,而不是某個單一大型網站有多大。

現在的問題,已經不再是「網路是不是在反擊」。而是哪些產業、哪些國家、哪些法規制度,以及哪些 AI 供應商,成了積極政策的目標——哪些沒有。


I. 背景:robots.txt 如何成為 AI 政策載體

自從 OpenAI 於 2023 年 8 月推出 GPTBot 以來,有三股力量重新塑造了 robots.txt 的意義。

AI 供應商迅速增加。 Google 的 Google-Extended、Anthropic 的 ClaudeBot、ByteDance 的 Bytespider、Apple 的 Applebot-Extended、Amazon 的 Amazonbot、Meta 的 Meta-ExternalAgent 先後出現。Common Crawl 原本就存在的 CCBot,因為其封存資料餵給了大多數開源權重模型,反而成了最具影響力的封鎖目標。也出現了非供應商自有的機器人:AI2Botcohere-aiPerplexityBotYouBotDuckAssistBotDiffbotOmgili。到了 2026 年,一份完整的封鎖清單大約會列出 25 個名稱。

EU 著作權指令 2019/790 第 4 條建立了文本與資料探勘的法定例外,但前提是權利人必須以「機器可讀」方式「明確保留」其權利。2024–2025 年間,EU 出版商與律師界逐漸把 robots.txt 視為表達這種保留的標準方式。我們的資料顯示,有 275 個網站明確引用 2019/790 指令,另有 87 個提到「TDM」;這些內容主要集中在歐洲新聞網站,通常作為 4 到 8 行的法律前言。

Cloudflare 把這個開關產品化了。 在 2024–2025 年間,Cloudflare 推出了「AI Audit」儀表板、「Block AI Bots」切換開關,以及一個帶有 Content-Signal: search=yes,ai-train=no 語法與 EU 2019/790 範本文字的 Managed robots.txt 範本。到了 2026 年 5 月,這個範本已運行在可解析前 10k 網站的 4.5%。Cloudflare 的產品路線圖公開討論要把新帳號預設開啟該開關——這將在沒有任何單一出版商做決定的情況下,把全球封鎖率拉高 5 到 8 個百分點。

到了 2026 年,robots.txt 已不再是 2022 年那種不起眼的設定檔。它在 EU 是一種有條約背書的著作權保留機制,在長尾網站裡則是供應商塑形的政策載體,也是網站經營者與模型訓練者之間一場緩慢協商的前線。


II. 方法論

我們盡量讓這件事看起來無聊、可重現。完整流程(Python 腳本、解析後 CSV、原始 robots.txt 檔案庫、圖表)都隨本報告一併公開。

樣本

我們從 2026 年 5 月的 Tranco 清單開始,下載為 top-1m.csv.zip,再取前 10,000 筆。Tranco 綜合四個上游排名來源(Cisco Umbrella、Majestic、Farsight 與 Cloudflare Radar),以 30 天視窗篩掉不穩定項目,並移除明顯的爬蟲/CDN 雜訊。它產生的清單,是公開資料中最接近「全球網路流量前 10,000」的標準樣貌,也是學術網路研究的常用樣本(自 KU Leuven 於 2018 年推出以來,已被 600 多篇同儕審查論文使用)。

這份清單包含三種網域混合:(a) 人們實際造訪的主網站、(b) 不會提供 / 的基礎設施/API/DNS/CDN 根網域、以及 (c) 大型平台內部使用的網域(例如 gvt1.comapple-dns.netgoogleusercontent.com)。我們沒有先行篩掉這些,而是全部保留,並在分析層標記為 infrastructure 類別。當我們限制為「有可解析 robots.txt 的網站」時,它們自然就會退出結果。

抓取

對 10,000 個網域,我們以 HTTPS 非同步發送 GET /robots.txt,若失敗則回退到 HTTP,最多跟隨 4 次重新導向,總逾時 12 秒,主體上限 500 KB,並使用真正瀏覽器風格的 User-Agent 與 Accept-Language: en-US。並行數維持在 80 個請求。任務在舊金山的一個住宅 IP 上執行。

抓取結果:

狀態數量解讀
200 OK6,638已回傳且可解析 robots.txt 內容。
404 Not Found610不存在 robots.txt。RFC 9309 將其定義為隱含「允許一切」。
403 Forbidden563來源主動拒絕 robots.txt 請求。排除於分析之外。
429 Too Many Requests7在這個排名區間,幾乎沒有 CDN 層級的限流。
fetch_failed(TLS / DNS / TCP 錯誤)2,065多半是 CDN 根網域(akamai.netcloudfront.netfastly.netgtld-servers.netapple-dns.net),它們不會在 / 提供網站。這不代表「被封鎖」——只是根本沒有 robots.txt 可提供。
其他 4xx/5xx117混合狀況——伺服器錯誤、地理封鎖、回應格式異常。

因此,我們得到 7,248 個可分析樣本(6,638 個 200 + 610 個 404。那 2,065 個 fetch_failed 的確是真實網域,但它們是 CDN/DNS 根節點,不是使用者會造訪的網站;把它們當成有「AI 政策」並不合理。它們在資料集中另作可存取性統計。

解析

所有 200 回應都以 protego 解析,這是一個符合 RFC 9309 的 Python 實作,且已在 Scrapy 的生產環境中使用。對每一個(網站,機器人)配對,我們計算三件事:

  1. can_fetch_root——該機器人是否被允許抓取 /,採用標準中的群組紀錄語意、最長匹配優先,以及當兩者同時存在時,特定機器人封鎖會覆蓋 User-agent: *
  2. has_specific_rule——檔案中是否包含一行明確命名該機器人的 User-agent:(不區分大小寫)。
  3. disallow_count——匹配區塊中有多少條 Disallow: 指令,用來區分整站封鎖與路徑層級限制。

這個組合很重要,因為表面上的「封鎖率」會掩蓋兩種完全不同的現象:一種是品牌刻意寫出 User-agent: GPTBot \n Disallow: /,明確表態反制;另一種則是多年以前為 staging 或維護用途設下的通用 User-agent: * \n Disallow: / 規則,剛好也把所有當時尚未存在的 AI 機器人一起擋掉。本報告中,**「任一 AI 封鎖」包含兩種情況;「明確 AI 封鎖」**則是刻意書寫的子集合。

涵蓋的機器人

我們追蹤 25 個機器人,分成三類:

  • AI 訓練爬蟲(16)GPTBotClaudeBotanthropic-aiCCBotGoogle-ExtendedMeta-ExternalAgentBytespiderApplebot-ExtendedDiffbotAmazonbotImagesiftBotFacebookBotcohere-aiAI2BotOmgiliOmgilibot
  • AI 推理/即時檢索機器人(7)PerplexityBotPerplexity-UserChatGPT-UserOAI-SearchBotClaudeBot(同時提供訓練與推理)、YouBotDuckAssistBot
  • 搜尋基準(6)GooglebotBingbotDuckDuckBotSlurp(Yahoo)、BaiduspiderYandexBot

有些機器人同時跨越訓練與推理的分界。ClaudeBot 最明顯——Anthropic 已在 2024 年停用較舊的 anthropic-ai UA,現在改用 ClaudeBot 同時處理訓練與即時檢索,因此 Disallow: ClaudeBot 已不能乾淨對應到「封鎖訓練但保留可見性」。我們保留原本的分類,並在後文說明其影響。

產業分類

我們以分層方式,把每個網域分類到 16 個產業桶之一(newssocialstreamingecommercesearchfinanceinfrastructuresaasacademiadevgovadultgamblingtraveltelecomunknown):

  1. 已知網域字典——人工整理約 500 個高流量網域到產業的對照表。
  2. TLD/後綴模式——.gov 對應 gov.edu.ac.* 對應 academia、可識別的 CDN 後綴對應 infrastructure
  3. 網域名稱關鍵字——newspostshopbankporncasino 等作為備援訊號。
  4. 首頁抓取——對前 3 層無法分類,且回傳 robots.txt 200 的網站,我們抓取首頁 HTML,擷取 <title><meta name="description"><meta property="og:type">,並以關鍵字分數比對語言模型式的類別線索。

最終得到 3,407 個網站(34%)有明確產業標籤,另有 6,593 個維持 unknownunknown 類別主要是非英語的區域入口網站、不符合任何單一分類的大型企業 .com 品牌網站,以及我們沒有字典對照的中小語言市場傳統媒體。本文若提到某一產業百分比,其分母是該產業的已分類樣本,不是完整 10,000。


III. 發現

發現 1 —— 每五個高流量網站中,就有一個封鎖至少一個 AI 機器人

在 7,248 個可分析網站中,1,472 個(20.31%) 封鎖至少一個 AI 機器人。1,230 個(16.97%) 有刻意的 AI 專屬規則。Googlebot 的基準值是 2.18%(158 個網站——多半是把一切都封掉的維護預設,或少數幾個搜尋引擎封競爭者)。

頭條 20% 是 Googlebot 基準的 9 倍。這確實是一個真訊號——高流量網站封鎖 AI 爬蟲的機率確實比封鎖搜尋爬蟲高出一個數量級——但它也比 2024 年以來媒體上那種「AI 封鎖已接近全面採用」的敘事小得多。即便在網路上最常被造訪的 10,000 個網站裡,仍有五分之六沉默不語。

「任一 AI 封鎖」(20.3%)與「明確 AI 封鎖」(17.0%)之間的差距,絕對值不大,但概念上很重要。這 3.3 個百分點,代表那些只是因為既有的 User-agent: * \n Disallow: / 規則把所有機器人一律攔下,而不是針對 AI 特別表態的網站。17.0% 這個刻意數字,才更接近「全球最大的網站中,有多少真的做過 AI 專屬決策」。

與先前研究對照:

來源日期樣本封鎖率
Originality.ai2025 年 3 月1,000 個最熱門新聞(英文)35.7% 封鎖 GPTBot
Palewire2024 年 8 月1,500 個新聞機構36.0% 任一 AI 爬蟲
Reuters Institute2025 年春季50 個領先新聞品牌,10 個國家78% 任一 AI 爬蟲
WIRED / NYT2023 年底美國前 50 大新聞網站26% 封鎖 GPTBot
本報告(Thunderbit)2026 年 5 月Tranco 前 10,000 名(全產業)20.3% / 17.0% 明確

我們的 17.0% 明確值,低於所有只看新聞的研究,因為我們的樣本有三分之二不是新聞。若只看 650 個新聞網站,就會得到 47%——在考慮樣本組成後,和前述研究其實落在同一區間。結構性的圖景是一致的:新聞群體封鎖 AI 的比率是其他網路的 3 到 4 倍。


發現 2 —— 產業深潛:從新聞到電信,差距高達 12 倍

兩年來所有「AI 抓取」報導中,被引用最多的一項發現,就是 Originality.ai 與 Palewire 提出的「80% 的新聞機構封鎖 GPTBot」。我們這次的切分得到較小、但依然顯著的數字:前 10,000 名中的新聞網站,有 47.2% 封鎖至少一個 AI 機器人,45.2% 寫了明確的 AI 規則。

但「新聞 vs 其他一切」太粗糙。完整分布(樣本中 n ≥ 10 的產業)揭示的是更豐富的故事:

robots-industry-spread_compressed.webp

產業n任一 AI 封鎖明確Googlebot 被封鎖自行規則Cloudflare Managed沉默
新聞65047.2%45.2%1.5%46.9%1.5%48.5%
旅遊6429.7%29.7%0.0%35.9%3.1%54.7%
社群6529.2%23.1%4.6%23.1%6.2%66.2%
串流44020.0%17.7%0.7%16.8%3.6%75.5%
金融12919.4%12.4%0.8%14.7%2.3%75.2%
電商22418.3%17.4%0.4%24.1%1.3%66.1%
成人25417.3%14.6%0.4%10.2%7.9%79.5%
搜尋1216.7%0.0%0.0%0.0%0.0%100.0%
學術26814.6%13.8%0.4%13.4%3.4%77.2%
博彩10014.0%13.0%0.0%18.0%4.0%77.0%
開發工具12910.1%7.8%0.0%8.5%5.4%77.5%
SaaS3697.6%6.2%0.3%9.5%0.8%87.5%
政府1725.2%3.5%0.0%4.1%0.6%83.1%
基礎設施474.3%0.0%0.0%4.3%2.1%72.3%
電信333.0%3.0%0.0%12.1%0.0%78.8%

新聞與電信之間 12 倍的差距,正說明了為什麼「網路的 AI 政策」不是一個好的分析單位。沒有單一數字;只有各產業的數字,而且彼此差了一個數量級。以下我們會拆解四個最具代表性的發現。

新聞:47% 封鎖,47% 自行撰寫規則。 新聞是率先寫出劇本的群體。Cloudflare Managed 在新聞類別中只佔 1.5%——這些出版商不會把規則外包。文本內容特別豐富:NYT 以 14 行法律前言開頭,引用「EU 指令第 4 條」;BBC 則寫著 「請像人類一樣使用我們的網站,不要像機器人……簡而言之:瀏覽、閱讀、觀看、享受——像人類一樣。」The Sun 則寫道 「The Sun 不允許未授權使用我們內容來供大型語言模型使用。」。這是把 robots.txt 當政策聲明,而不是設定。

旅遊業 30% —— 出人意料。 Booking、Expedia、TripAdvisor、Kayak,以及主要航空公司,封鎖率只有新聞業的三分之二。選擇性模式很一致:平均的旅遊封鎖者會拒絕 5 到 7 個訓練用 UA,但保留推理用 UA(PerplexityBotChatGPT-UserOAI-SearchBot)。聚合價格與評論資料是護城河,回流到網站的引用則是收益。這是任何單一產業中最乾淨的「封鎖訓練、放行推理」模式。

成人內容 17% —— 也出人意料。 早期較小樣本曾顯示 0%。完整樣本顯示,每 6 個成人網站中就有 1 個封鎖至少一個 AI 機器人,而且有全產業最高的 Cloudflare Managed 比率(7.9%)。成人網站的 AI 封鎖中,超過一半來自 Cloudflare 開關,而不是出版商自行決定。影像生成訓練是隱含威脅——Stable Diffusion 級模型學視覺風格,比文字模型學寫作風格更快。

SaaS 只有 7.6%,反直覺。 軟體供應商在 AI 政策話語中聲音最大,但它們的 robots.txt 卻很開放。正確解讀是:SaaS 行銷團隊已正確把 AI 搜尋視為一條分發管道。真正思考過這件事的供應商,正在做的是 opt in,不是 opt out——明確允許 GPTBot 的名單(發現 12)主要由資安與開發工具型 SaaS 主導。

政府 5.2%、電信 3.0%、基礎設施 4.3%、開發工具 10.1%。 公共紀錄義務讓 .gov 上的 Disallow: / 在法律上相當棘手。電信行銷網站想要可被搜尋。CDN 根節點根本沒東西需要保護。開發工具則明確選擇加入(因為當 LLM 引用它的內容時,內容價值會提升)。

結論:沒有任何一個「網路是否在封鎖 AI」的單一數字,能在不失真的前提下完整說明問題。唯一誠實的說法,是按產業層級來報告。


發現 3 —— 以 AI 供應商為切面:誰被封鎖得最多?

另一個自然的切分方式,不是看機器人,而是看 AI 公司。幾家供應商同時運作多個機器人(OpenAI 有三個:GPTBotChatGPT-UserOAI-SearchBot;Anthropic 有兩個:ClaudeBotanthropic-ai;Meta 也有兩個:Meta-ExternalAgentFacebookBot)。將它們聚合到供應商層級,最接近「公開網路對每一家 AI 公司怎麼看」的答案。

AI 供應商聚合機器人封鎖至少 1 個機器人的網站可分析樣本占比
Common CrawlCCBot1,17816.25%
OpenAIGPTBotChatGPT-UserOAI-SearchBot1,17216.17%
AnthropicClaudeBotanthropic-ai1,11115.33%
ByteDanceBytespider1,08214.93%
MetaMeta-ExternalAgentFacebookBot98913.65%
GoogleGoogle-Extended97013.38%
AmazonAmazonbot87712.10%
AppleApplebot-Extended85911.85%
Webz.io(Omgili)OmgiliOmgilibot73110.09%
Coherecohere-ai7179.89%
PerplexityPerplexityBotPerplexity-User7159.86%
DiffbotDiffbot6849.44%
You.comYouBot5637.77%
AI2(Allen AI)AI2Bot4876.72%
DuckDuckGoDuckAssistBot4826.65%

Common Crawl 是最被針對的單一實體,儘管它是非營利網路封存庫,不是 LLM 經營者。原因在於槓桿:CCBot 為幾乎所有開源權重模型,以及相當大比例的閉源模型提供資料。先封鎖 CCBot,是出版商能寫出的、覆蓋率最高的規則。

OpenAI、Anthropic、ByteDance 聚集在 14–16%。 OpenAI 領先的一部分,來自計數上的結構(OpenAI 有三個 bot,ByteDance 只有一個)。Bytespider 的 14.9% 是「Bytespider 行為」效應——自 2024 年以來,它已被記錄曾忽略 robots.txt,出版商封鎖它是作為公開訊號,不是因為他們擔心 TikTok。

Meta、Google、Amazon、Apple 在 12–14%,屬於第二梯隊——這些規則多半是防守性書寫,而不是政治表態。小型供應商(Webz.io、Cohere、Perplexity、Diffbot、You.com、AI2、DuckDuckGo)在 6–10%,大多是被 3.8% 的通用底線拉高;針對它們的明確規則大約落在 1–4%。

xAI(Grok)、Mistral,以及大多數歐洲/中國模型實驗室沒有出現在表中——因為它們沒有公開訓練爬蟲的 UA 文件。現有的 robots.txt 生態,是美中供應商先發佈 UA、以及美歐出版商撰寫規則之間的對話;沒有發佈的供應商,在這場協商中是隱形的。


發現 4 —— CCBot 成了新的雷區,不是 GPTBot

前 10k 的機器人排序如下:

most-blocked-ai-crawlers-vendors.webp

排名機器人封鎖率明確規則率
1CCBot(Common Crawl)16.25%12.90%
2GPTBot(OpenAI)15.84%12.72%
3Bytespider(ByteDance)14.93%11.35%
4ClaudeBot(Anthropic)14.51%11.13%
5Google-Extended13.38%10.18%
6Meta-ExternalAgent12.38%8.95%
7Amazonbot12.10%8.66%
8Applebot-Extended11.85%8.72%
9Omgilibot10.09%5.31%
10anthropic-ai(已棄用)9.99%6.55%
11cohere-ai9.89%6.42%
12PerplexityBot9.69%6.40%
13Diffbot9.44%5.95%
14ChatGPT-User(推理)8.90%5.73%
15YouBot(推理)7.77%4.29%
16OAI-SearchBot(推理)6.83%3.66%
基準Googlebot2.18%
基準Bingbot2.27%

這張表說明的是:公開網路最先封的,不是模型品牌,而是資料來源。 Common Crawl 的 2500 億頁封存庫,已成為 GPT-3、GPT-4、Llama 1 / 2 / 3、Falcon、Mistral、BLOOM,以及 2020 年後多數開源權重模型的單一最大訓練輸入。若網站想退出「成為下一代前沿模型的一部分」,最佳做法就是先禁止 CCBot——一旦不進 Common Crawl,你幾乎就等於免費退出開源訓練管線。GPTBotClaudeBot 之所以排第二、第三,是因為它們是兩個商業產品的可見前端;而資料來源層級的 UA 才是結構性目標。

表中的低排名 AI 機器人也很有資訊量。Omgilibot 的 10% 對一個多數讀者可能從未聽過的 bot 來說,異常地高——它由 Webz.io 運作,這是一家向 LLM 經營者販售網路封存資料的內容資料中介商,而不少新聞機構已在檔案中明確寫上它的名稱。AI2Bot 的 6.7%(以及 Squarespace 網站上的相對應 Ai2Bot-Dolma 規則)顯示學術 LLM 圈也開始被標記,因為出版商未必會區分「非營利研究爬蟲」與「商業爬蟲」。

推理群組——ChatGPT-UserOAI-SearchBotYouBotPerplexity-User——比訓練群組低 4 到 8 個百分點。這個差距回答了一個長期的政策問題:答案是「會」;高流量網站確實會區分「為未來模型訓練而抓資料的 bot」與「現在就為使用者問題即時檢索的 bot」。他們不一定每次都分得很清楚(通用規則就不分),但相當一部分網站確實寫出針對訓練端的規則。


發現 5 —— 14% 封鎖 CCBot、同時保留 Googlebot:也就是「封資料來源,留搜尋」的模式

在前 10k 中,最常被採用的選擇性規則是:

website-crawler-blocking-stats.webp

規則模式網站數可分析樣本占比
封鎖 CCBot、允許 Googlebot1,02314.11%
封鎖 Bytespider、允許 Googlebot92612.78%
封鎖 Google-Extended、允許 Googlebot81611.26%
封鎖 GPTBot、允許 OAI-SearchBot6589.08%
封鎖 GPTBot、允許 ChatGPT-User5257.24%
封鎖 CCBot、允許 PerplexityBot5197.16%
封鎖 anthropic-ai、允許 ClaudeBot590.81%

最常被採納的模式(14.1%)是「封鎖 Common Crawl,但保留 Google 搜尋可見性」。第二名(12.8%)是「封鎖 Bytespider,但保留 Google 搜尋可見性」——也就是封鎖 ByteDance 那個已被貼上風險標記的爬蟲,同時保留合法搜尋基準。第三名(11.3%)是「封鎖 Google 自己的 AI 訓練 UA,但保留 Google 的搜尋 UA」,這正是 Google 設計 Google-Extended 的目的:出版商可以退出 Bard / Gemini 的訓練,同時不會失去搜尋排名。

這三個數字合在一起,描述了前 10k 網路的主流政策姿態:封鎖訓練資料來源的 bot,保留搜尋與推理 bot。少數模式「封鎖訓練,但允許該 LLM 的特定即時檢索 UA」——GPTBot ✗ / ChatGPT-User ✓,占 7.2%——確實存在,但規模小於資料來源層級的切割。

anthropic-ai / ClaudeBot 這列只有 0.81%,反映的是 Anthropic 於 2024 年棄用舊 UA:ClaudeBot 現在同時服務訓練與推理,使得過去 anthropic-ai 所允許的那種「封訓練、放引用」的清楚表達方式不再存在。這是 2024–2025 年間最少被討論的 UA 設計決策之一——它從 robots.txt 中移除了一整類政策表達。


發現 6 —— 新聞的細節:按國家與語言切分

當我們按國別頂級網域(country-code TLD)切新聞類別時——要記住,這代表的是 .de 的德國新聞、.fr 的法國新聞等,而不是網站所使用的語言——產業內部的差異,比新聞與其他產業之間還要大:

news-blocking-country-tld.webp

國家(僅新聞)n任一 AI 封鎖明確
🇩🇪 德國(.de2588.0%88.0%
🇫🇷 法國(.fr1580.0%80.0%
🇬🇧 英國(.co.uk1566.7%53.3%
🇪🇸 西班牙(.es560.0%60.0%
🇮🇹 義大利(.it1353.8%53.8%
全球新聞(.com / .org / 等)50045.0%42.8%
🇵🇱 波蘭(.pl742.9%42.9%
🇯🇵 日本(.jp1225.0%25.0%
🇷🇺 俄羅斯(.ru130.0%0.0%
🇬🇷 希臘(.gr60.0%0.0%

德國新聞是整個資料集中封鎖率最高的子群,達 88%,而且全部都是 88% 的明確規則——基本上,前 10k 中沒有哪家德國新聞網站會允許 AI 訓練爬蟲抓取其資料庫。這個群體由 SpiegelBildWeltZeitFAZSüddeutscheHeiseGolemSternFocus 領軍——整個德國主流出版界,加上獨立撰寫規則的科技媒體。其下的政治基礎很厚:VG Media(德國出版商集體權利組織)一直是 EU AI 著作權訴訟中最積極的原告群體,而 EU 指令第 4 條在德國法中以 §44b UrhG 實施,並附有明確的機器可讀 opt-out 語言。等 AI 供應商進場時,德國出版商在所有國家群體裡,都是最準備好把這種法律立場翻譯成 robots.txt 規則的一群。

法國新聞 80% 緊追在後。 法國的法律環境相近(2019/790 指令已轉化為法國法律),群體行為也相近——lemonde.frlefigaro.frliberation.frlequipe.fr20minutes.frouest-france.fr 都有封鎖,而 Le Monde 的檔案還額外引用法國 droit du producteur de base de données(《智慧財產法典》第 L 342-1 條)作為平行的國內法律基礎。法國還有一個額外變數:2024 年巴黎商業法院的判決認為,以 robots.txt 做出的 opt-out 足以構成 Article 4 下的通知;這提供了其他司法管轄區尚未擁有的直接判例支持。

英國 67% 則較低,原因是數家大型英國出版商(thesun.co.ukdailymail.co.ukmirror.co.uk)使用的是 User-agent: * 全拒絕封鎖,而不是 AI 專屬規則,這把明確數字拉低到 53%。整體效果其實一樣——這些網站不允許 AI 抓取——但政策表述方式是「除了這份搜尋引擎白名單外,全部拒絕」,而不是點名 AI bot 的 disallow。法律支撐也較弱:脫歐後,英國雖沿用了 Article 4 的邏輯,但對應的國內判例更薄弱。

俄羅斯新聞 0% 是最令人驚訝的一列。樣本中的 13 個俄羅斯新聞網站(dzen.rurbc.ruria.rukommersant.rutass.rulenta.rugazeta.ruinterfax.rukp.rutass.com 等)——沒有任何一個封鎖任何 AI 爬蟲。可能的解釋是:俄語 LLM 訓練主要由 Yandex 自家的 GPT 類模型主導(使用的是 Yandex 內部爬蟲,而不是 Common Crawl);俄羅斯的著作權環境尚未出現相當於 Article 4 的法規;而大型俄羅斯出版商把西方 LLM 視為非議題(美國出口管制已讓 OpenAI/Anthropic 服務在俄羅斯受限),把 Yandex 視為國內利害關係人而非對手。政策姿態明顯不同。

日本新聞 25% 則是另一種樣貌。日本國內著作權法有明確的文本與資料探勘例外(《日本著作權法》第 30-4 條,2018 年修正),其允許程度比 EU 指令第 4 條更寬鬆——它允許出於「非享受」目的的 TDM,包括 AI 訓練,而且不要求權利人同意。日本出版商在 opt-out 上的法律抓手較少,對應的 robots.txt 比率也較低。那些真的封鎖的網站,多半是最大、最國際化的出版商(如 asahi.comnikkei.com),其定位本來就偏國際而非國內。

跨國新聞資料,是本報告中最清楚的證據:主導因素是法規制度,不是技術,也不是產業經濟。 EU 新聞群體落在 54% 到 88% 之間;非 EU 新聞群體(俄羅斯、日本、全球 .com 群體)則介於 0% 到 45%。88% 的高峰出現在 Article 4 實施最成熟的國家;0% 的低點則出現在幾乎沒有 AI 政策法律的國家。


發現 7 —— EU 與其他地區:差距 16 個百分點

把國家視角再往上一層看,EU 與非 EU 的大致分野很明顯:

區域n任一 AI 封鎖明確
EU ccTLD.fr.de.es.it.nl.pl.se.dk.fi.be.at.cz.hu.ro.gr.pt.ie.sk.bg61735.2%33.9%
非 EU 國家 ccTLD(.uk.jp.kr.cn.ru.br.in.au.mx.ca.tr.ar.cl.co.pe89717.2%13.6%
全球(.com.net.org 等)5,73419.2%15.7%

EU ccTLD 網站封鎖 AI 的比率,是非 EU 國家群體的 兩倍,幾乎也是全球 .com 基準的 兩倍。這個差異在所有 EU 成員國之間都一致(沒有哪一個單一國家主導平均值),在各產業之間也一致(.de 新聞 88%、.de SaaS 約 12%、.de 電商約 25%——全都高於全球同業)。

我們在前 10k 中找到 275 份 robots.txt在註解中明確引用了 2019/790 指令——約占可解析樣本的 3.8%。這群網站以 EU 出版商為主,但不只限於此:數個美國新聞品牌(尤其是直接寫出「Art. 4 of the EU Directive」的 NYT)、一些英國網站,以及少數較大的歐洲電商網站,也都重現了這些法律文字。另有 87 份檔案明確提到「TDM」或「text and data mining」。460 份檔案含有某種著作權保留語句(如「明確退出」、「保留所有權利」、「不得商業使用」、「不得機器學習」),即使未引用特定法規也是如此。

這一層切分還有兩個更細的觀察:

EU 效應不只出現在新聞。 當我們固定在新聞之後,EU 的非新聞網站封鎖 AI 的比率仍高於非 EU 的非新聞網站(大約 28% 對 14%)。EU 的 SaaS、電商與學術界中,有一小部分但真實存在的網站,已把 Article 4 的框架內化到自己的產業語境中。

EU 風格的語言正逐漸變成事實上的範本,即使在 EU 之外也是如此。 全球採用的 Cloudflare Managed robots.txt 範本,明確在範本文字中引用了「ARTICLE 4 OF THE EUROPEAN UNION DIRECTIVE 2019/790」。一個美國網站若開啟 Cloudflare 的「Block AI Bots」設定,即使未必知道,也等於在主張 EU 的法定權利保留。這是我們找到的較有趣的政策漂移現象之一:一個歐洲法律概念,正透過美國基礎設施供應商的產品介面全球化。


發現 8 —— 範本與範本來源

在 6,638 個回傳可解析 robots.txt 的網站中,其範本來源分布如下:

robots-txt-ai-bot-analysis.webp

範本網站數占比
未提及任何 AI 機器人(預設 Shopify 風格、Yoast、或完全未考慮 AI 的手寫檔)5,02475.7%
自訂 / DIY AI 規則1,18317.8%
Cloudflare ManagedContent-Signal: search=yes,ai-train=no3024.5%
明確對 GPTBotAllow: /1241.9%
Squarespace 預設(路徑受限封鎖中的 28 個 AI UA)50.1%

DIY 規則以 17.8% 居首。 自行撰寫封鎖規則的群體,主要由各大社群平台(facebook.comtwitter.comlinkedin.comwhatsapp.comtiktok.comsnapchat.compinterest.comx.comchatgpt.com 本身)、最大型電商網站(amazon.comamazonvideo.com)、主流新聞品牌(nytimes.comcnn.combbc.comtheguardian.comforbes.comreuters.combbc.co.ukt-online.deweather.com)、重要串流/媒體網站(netflix.comvimeo.comsoundcloud.comimdb.com),以及一長串專業服務網站(canva.commedium.com)所帶領。

Cloudflare Managed 佔 4.5%——比它在排名最前端的滲透率高,但比本報告涵蓋範圍以外長尾市場中的滲透率低。這個範本在 rank 1001–10000 段最常見(4–5%),在曲線最前端幾乎不存在(前 100 名:只有 1 個網站使用;101–1000 名:5 個網站)。大型全球性資產會自己寫規則;長尾網站則使用開關。

幾個值得注意的 Cloudflare Managed 網站。cloudflare.com 自己就在用這個範本,這很一致(Cloudflare 以自己的產品服務自己的網域,屬於 dogfooding)。theatlantic.com 也在用——這是我們找到的唯一一個沒有自訂規則的主要美國新聞品牌。spankbang.com 也在用——它是最高排名、採用 Cloudflare 注入 AI 封鎖的成人網站。linktr.ee 也在用,這代表 Linktree 上整個創作者經濟的 AI 訓練,都是由單一供應商決策一次封掉。launchpad.netnexusmods.comvinted.frcookielaw.orgrustdesk.com,以及一長串較小媒體資產,共同構成了可見的 Cloudflare Managed 群體。

Cloudflare 的採用模式,是我們目前看到最具體的證據,說明「網路的 AI 政策」有相當大一部分,是由基礎設施供應商決定的。絕對占比雖小(4.5%),但結構意義重大:這是 Cloudflare 預設提供的範本,而未來 12 個月的 on-by-default 趨勢仍會上升。如果 Cloudflare 把新帳號的開關改成預設開啟,全球封鎖率會在沒有任何出版商作決定的情況下實質上升。

Squarespace 的預設值(前 10k 中有 5 個網站,但在本樣本之外則更多)則是另一種模式:Squarespace 會提供一份 robots.txt,在單一區塊中列出 28 個 AI bot,但這些 bot 只會繼承 User-agent: * 的路徑限制,而不是得到整站封鎖。AI 爬蟲仍可抓取 /、首頁、產品頁、部落格;它們只是不能抓取 /config/account。我們先前已將這視為第三方掃描 Squarespace 網站時出現「AI 封鎖」誤判的來源;這裡也同樣適用。


發現 9 —— AI 政策在排名分布中相當一致

這類研究的直覺通常是:被最多人造訪的網站,應該會有最強硬的 AI 政策——因為它們最怕訓練替代、法律資源最多、也最受公眾關注。但資料並不支持這種直覺。

排名區間n任一 AI 封鎖明確Cloudflare Managed
前 100 名6722.4%17.9%1 個網站
101–1,000 名59822.9%19.2%5 個網站
1,001–5,000 名2,81019.0%15.3%99 個網站
5,001–10,000 名3,77320.8%17.8%197 個網站

四個區間都落在 19% 到 23% 之間。前 100 名並不比 5001–10000 名的長尾更強硬。這個頭條比率,看起來更像是 2026 年公開網路的屬性,而不是任何單一網站有多大、或多有名。

有兩個因素。第一,排名前段由基礎設施/SaaS/搜尋/入口網站網域主導(Microsoft、Apple、Google 等),它們自身的 AI 封鎖率本來就低。第二,長尾中包含大量區域新聞出版商與 EU 管轄網站,而如發現 6 與 7 所示,它們封鎖 AI 的程度高於全球平均。這兩股力量大致互相抵消,最終形成相當一致的頭條比例。

Cloudflare Managed 這一欄則確實隨曲線變化。前 1000 名中有 6 個 Cloudflare 管理網站(1.0%);1001–10000 名中有 296 個(5.7%)。大網站自行撰寫;長尾則使用供應商開關。這是資料集中唯一真正有排名依賴性的訊號,也表示 當你沿著流量曲線從網路前段往長尾走時,政策是由供應商設定而非出版商設定的比例會穩定上升。我們預期這個梯度會延伸到前 10 萬甚至更後面。


發現 10 —— 五種解剖:當 robots.txt 真的是政策時,它長什麼樣

數字描述的是資料集的輪廓;而「公開網路上的 AI 政策」真正的樣貌,最好透過閱讀具體檔案來理解。以下五份最值得一看,橫跨整個政策光譜。

解剖 1 —— The New York Times(nytimes.com

nytimes.com/robots.txt 的前 14 行如下:

1# New York Times content is made available for your personal, non-commercial
2# use subject to our Terms of Service here:
3# https://help.nytimes.com/hc/en-us/articles/115014893428-Terms-of-Service.
4# Use of any device, tool, or process designed to data mine or scrape the content
5# using automated means is prohibited without prior written permission from
6# The New York Times Company. Prohibited uses include but are not limited to:
7# (1) text and data mining activities under Art. 4 of the EU Directive on Copyright in
8# the Digital Single Market;
9# (2) the development of any software, machine learning, artificial intelligence (AI),
10# and/or large language models (LLMs);
11# (3) creating or providing archived or cached data sets containing our content to others; and/or
12# (4) any commercial purposes.
13# Contact https://nytlicensing.com/contact/ for assistance.

這是把 robots.txt 當法律證物。這份檔案的結構,顯然就是為了在 NYT v. OpenAI 訴訟中可作為證據。它引用「EU 指令第 4 條」——而且是由美國出版商引用——正好說明了發現 7:EU 的法定框架正滲入全球論述。明確禁止「建立或提供含有我們內容的封存或快取資料集」,直接瞄準 Common Crawl。整份檔案超過 60 行,且針對 GPTBotOAI-SearchBotChatGPT-Useranthropic-aiClaudeBotCCBotGoogle-ExtendedApplebot-ExtendedBytespiderDiffbotMeta-ExternalAgentAmazonbotOmgiliOmgilibot 等都有獨立 User-agent 區塊——每個命名 bot 都是 Disallow: /

解剖 2 —— Der Spiegel(spiegel.de)——區塊層級的 AI 權限控制

Der Spiegelrobots.txt 是我們在整個資料集中找到最具營運成熟度的一份。相關區塊如下:

1# TLP-6507: Testweise Freischaltung der OpenAI-Suchcrawler fuer ausgewaehlte Bereiche
2User-agent: OAI-SearchBot
3Allow: /ausland/
4Allow: /partnerschaft/
5Allow: /gesundheit/
6Allow: /familie/
7Allow: /reise/
8Allow: /psychologie/
9Allow: /stil/
10Disallow: /
11User-agent: ChatGPT-User
12Allow: /ausland/
13Allow: /partnerschaft/
14Allow: /gesundheit/
15Allow: /familie/
16Allow: /reise/
17Allow: /psychologie/
18Allow: /stil/
19Disallow: /

註解可譯為「針對選定區塊,試行啟用 OpenAI 搜尋爬蟲。」Spiegel 為 OpenAI 的推理 UA 白名單了七個特定內容類別——國際新聞、合作、健康、家庭、旅遊、心理與生活風格——同時封鎖其餘內容。政治版面、德國國內新聞與調查報導都明確排除在外。Common Crawl、Bytespider、Cohere、Webzio-Extended 以及其他訓練 UA 則在檔案下方直接 Disallow: /

這是把 robots.txt 當成區塊層級的編輯政策。其內在邏輯是:生活風格內容的訓練替代風險較低,而被引用的推理收益較高,因此 Spiegel 允許 AI 呈現這些區塊;政治與調查內容才是護城河,所以 AI 被排除。我們沒有在其他地方看到這種模式。這意味著編輯、法務與基礎設施團隊之間已達到相當高的內部協調,而大多數新聞編輯部還沒到這一步。我們預期這種更細粒度、區塊層級的政策表達,會在 2026–2027 年擴散——Spiegel 的檔案幾乎可視為領先指標。

解剖 3 —— BBC(bbc.com)——政策聲明型

BBC 的 robots.txt 開頭如下:

1# version: ec59bd036e5138eb4831a9ed44447b1ff310e235
2# The BBC's Terms of Use: https://www.bbc.co.uk/terms
3# - Explain the rules for using our services
4# - Tell you what you can do with our content
5#
6# In short: Please use our site like a human, not a robot.
7# That means:
8# - No scraping, crawling, or systematic extraction of content
9# - No use of BBC content for training or fine-tuning AI models, including LLMs
10# - No retrieval-augmented generation (RAG), AI-powered search, agentic AI or
11#   grounding using BBC content
12# - No creating datasets from BBC content
13# - No text and data mining (TDM) under Article 4 of the EU Directive on Copyright
14# - No using BBC content to create summaries for your own use
15# - No business use without permission
16# - The BBC reserves all rights in its content and expressly opts out of any
17#   statutory exceptions in any jurisdiction for text and data mining,
18#   as permitted by law
19#
20# TL;DR: Browse, read, watch, enjoy - like a human.

BBC 以版本字串管理 robots.txt# version: ec59bd... 是一個 git commit hash),禁止 BBC 法務所追蹤的八種特定 AI 用法,並以符合 BBC 品牌語氣的一句話做收尾。那句「明確退出任何司法管轄區中的法定例外」是一種刻意的全球保留——它的意思是:我們不信任任何單一法律制度能給我們想要的保護,所以我們要一次在所有地方都主張退出。 這是資料集中最像精修稿的 robots.txt,讀起來更像新聞稿,而不是設定檔。

解剖 4 —— WordPress.org —— 明確歡迎

把上述內容與 wordpress.org 相比:

1User-agent: GPTBot
2Allow: /
3User-agent: ClaudeBot
4Allow: /
5User-agent: anthropic-ai
6Allow: /
7User-agent: Google-Extended
8Allow: /
9User-agent: Applebot-Extended
10Allow: /
11User-agent: PerplexityBot
12Allow: /
13User-agent: Bytespider
14Allow: /
15User-agent: CCBot
16Allow: /
17User-agent: Copilot
18Allow: /

WordPress.org 明確為九個 AI 訓練爬蟲開放許可,包括三個(BytespiderCCBotanthropic-ai)最常在其他地方被封鎖的 bot。其背後的隱含理論是:WordPress 的文件與外掛生態是一種公共財,而當 AI 助理能回答相關問題時,其價值會上升。每次有人問 Claude「我在 WordPress 怎麼設定永久連結?」而 Claude 已受訓於 wordpress.org/documentation/,WordPress 的使命就有被服務到。基金會顯然認為,讓內容進入每一個模型的訓練資料庫,是一種戰略上的正面收益,因此用檔案的表達語法清楚說出來。

解剖 5 —— The Verge(theverge.com)——贊助內容混合模式

還有一種值得展示的模式。The Verge 的 AI 規則是 Disallow: / \ Allow: /sp/

1User-agent: GPTBot
2Allow: /
3User-agent: Applebot
4Allow: /
5User-agent: Google-Extended
6Disallow: /
7Allow: /sp/
8User-agent: anthropic-ai
9Disallow: /
10Allow: /sp/
11User-agent: Bytespider
12Disallow: /
13Allow: /sp/
14User-agent: CCBot
15Disallow: /
16Allow: /sp/
17User-agent: ChatGPT-User
18Disallow: /
19Allow: /sp/
20User-agent: ClaudeBot
21Disallow: /
22Allow: /sp/

/sp/ 路徑是 The Verge 的贊助/合作內容區塊。編輯內容被封鎖於 AI 訓練之外;贊助內容則被允許。其經濟邏輯非常清楚:贊助商付錢讓內容可被發現,包括透過 AI;而編輯旗艦內容則是護城河。GPTBot 完全開放(推測是與 OpenAI 有直接關係),Applebot 作為搜尋基準也完全開放,其餘則採混合處理。這是我們找到的唯一一種「分層式 AI 存取」結構。

這五份檔案,構成了當前 robots.txt AI 政策的全部光譜。前 10k 中大多數檔案都不像這些——它們不是沉默,就是使用供應商範本。真正長得像這些的檔案,是由那些已決定「這份檔案值得認真閱讀」的人寫的。

補充一點檔案規模:我們樣本中 robots.txt 主體的中位數是 858 位元組——太小,根本無法承載有意義的 AI 政策。真正承載規則的是右尾:1,005 個網站(15.3%)的檔案超過 5 KB273 個超過 20 KB,最大值是 248 KB。460 份檔案含有著作權保留語句;275 份明確引用 EU 2019/790。 到了 2026 年,robots.txt 越來越像一份有版本控管、經律師審閱的文件,而不是一條設定列。


發現 11 —— 有 108 個網站明確 歡迎 GPTBot

有一小群但非常顯眼的網站,會寫出 User-agent: GPTBot \n Allow: /——這與更常被討論的「Disallow GPTBot」相反。樣本中共有 108 個網站在根路徑明確對 GPTBot 設 Allow。按 Tranco 排名列出前 25 名:

gptbot-welcoming-sites.webp

排名網域產業
42wordpress.org開發工具/CMS
133kaspersky.com資安
187avast.com資安
265hp.com硬體 OEM
624branch.io行動歸因 SaaS
692sophos.com資安
782theverge.com新聞
905rambler.ru俄羅斯入口網站
945kleinanzeigen.de德國市集
948theatlantic.com新聞
1,092lge.comLG Electronics
1,300justdial.com印度在地搜尋
1,332avira.com資安
1,412youm7.com埃及新聞
1,530goodreturns.in印度金融
1,621publi24.ro羅馬尼亞分類廣告
1,807geocomply.com合規 SaaS
1,908nba.com運動
1,956oneindia.com印度新聞
1,974mindbox.ru俄羅斯 SaaS
2,009thesun.co.uk新聞
2,126vox.com新聞
2,140mgid.com原生廣告
2,314ninjarmm.comIT 管理 SaaS
2,323norton.com資安

幾個模式:

資安公司明顯過度代表。 Kaspersky、Avast、Sophos、Avira、Norton、NinjaRMM 都明確允許 GPTBot。這是刻意的分發策略:當使用者問 ChatGPT「哪一款防毒軟體最適合我的 Windows 電腦?」時,模型訓練資料庫裡有沒有你的品牌,會直接影響推薦。資安是少數幾個 AI 搜尋已經開始取代 SEO 成為主要獲客管道的 B2C 品類之一,而這些品牌最先行動。我們預期其餘資安群體會在 12 個月內跟進。

一些主要新聞品牌出現在名單上,而不是封鎖名單。 The VergeThe AtlanticVoxThe Sun、NBA.com。這並非矛盾——這些出版商似乎認為,能在 ChatGPT 搜尋中被引用,比免於訓練更有價值,因此寫下明確 Allow 以防止未來被 CDN 或 CMS 過度封鎖。和 NYT / Reuters / BBC / Forbes / Guardian 那種明確 Disallow 的立場相比,兩者都說得通;新聞業並不是鐵板一塊。

The Sun 的存在尤其值得注意,因為同一網站在檔案其他地方也使用了 User-agent: * 全拒絕封鎖。最好的解讀是:AI 訓練被禁止,但 AI 搜尋被允許,而我們還特別把 GPTBot 白名單化,確保 ChatGPT 能引用 The Sun 回答問題。 這是 GPTBot-Allow 規則中法律技巧最高的一種——它同時包含 opt-out 與單一供應商 opt-in。

WordPress.org 的存在,是這份名單中最具影響力的單一項目。 全球開源 CMS 生態中,有相當一部分會導向 WordPress.org 取得文件,或直接從那裡取得外掛。WordPress Foundation 透過在 wordpress.org/robots.txt 明確允許 GPTBot,等於公開宣示 WordPress 文件生態可供訓練——這也會連帶影響 Claude、Gemini、ChatGPT 對「我怎麼...」類 WordPress 問題的回答品質。

完整 Allow-GPTBot 名單中的其餘 83 個網站,則是區域新聞、較小資安供應商、非英語市場的分類廣告平台,以及 B2B SaaS 的長尾。據我們所知,並不存在類似產業級別的「Allow-GPTBot」協調——這條規則是由一個網站一個網站地,被那些認為「進入資料來源」是戰略位置的經營者採納的。


發現 12 —— llms.txt 在這個尺度上幾乎只是傳聞

llms.txt 是一種為 LLM 友善內容探索而提出的替代檔案格式(自 2024 年底以來,由 Mintlify、Anthropic、Vercel 與少數開發工具供應商推廣),但在我們的樣本中幾乎看不到明顯採用。

在 6,638 個回傳可解析 robots.txt 的網站中,只有 83 個(1.15%)提到 llms.txt——通常只是以 Sitemap: https://example.com/llms.txt 形式出現。這比在開發工具密集的商務樣本中測得的相同指標低了兩個數量級;後者因 Vercel 與 Mintlify 的預設值而使採用率被拉高。

llms-txt-robots-adoption-rate.webp

產業分布如下:

產業n提及 llms.txt 的比例
基礎設施474.3%
博彩1003.0%
SaaS3693.0%
電信333.0%
電商2241.8%
旅遊641.6%
開發工具1291.6%
新聞6500.8%
成人2540.4%
政府1720.0%
學術2680.0%
搜尋120.0%

llms.txt 主要集中在與開發工具相近的 SaaS、博彩(這類受監管產業的法遵團隊習慣層層疊加額外中繼資料,因此採納新詞彙型 robots.txt 功能的速度更快),以及 B2B 電商。它在新聞與政府中明顯缺席——這兩個區塊是最積極參與 AI 政策、也最需要採用該標準才能從「供應商實驗」升級為「網路協定」的族群。直到那時,llms.txt 仍然是真實但規模很小;到了 2026 年底做一次追蹤審計,會是一個很好的再測試。

llms.txt 面臨的結構性問題是,它沒有經過任何 IETF 程序標準化,而且主要 AI 供應商也沒有承諾遵循。robots.txt 規則有 30 年的爬蟲基礎設施支撐;llms.txt 沒有。除非至少一家主要供應商(OpenAI、Anthropic、Google、Cloudflare)正式宣告支援,否則這個檔案本質上就是 Mintlify / Vercel 生態的行銷產物。我們不預期 2026 年會有改變。


發現 13 —— 可存取性:前兩/三的網路仍可讀取 robots.txt

一個原本不是設計成發現的附帶觀察:前 10,000 名網站中,有 66% 對單一研究 IP 回傳了可解析的 robots.txt,而且 10,000 個網站裡只有 7 個(0.07%)回傳 429 Too Many Requests。這對 robots.txt 作為公開協定來說是好消息。

作比較,兩個月前對一個 1,008 網域的中型電商樣本執行同樣流程時,52% 的已解析網域回傳了 429——Shopify 與 Cloudflare CDN 對任何非主要搜尋引擎 UA 都採取激進限流。高流量網路顯然友善得多:前段網站較可能具備 (a) 沒那麼激進的 bot 管理層級,或 (b) 對已知研究爬蟲設有明確白名單,或兩者都有。

前 10k 中 21% 的 fetch_failed,主要來自 CDN 根節點(akamai.netcloudfront.netfastly.netapple-dns.netgtld-servers.net),它們在 / 並不運行 webserver。它們不是在封鎖我們;它們只是沒有東西可提供。若排除這些,真正「嘗試讀取但失敗」的比率只落在低個位數。

這表示這份報告未來的版本——季度快照、年對年比較——都可以在單機上以低成本且可重現的方式執行。審計窗口在曲線前端仍然開著。相較之下,長尾與電商區段的狀況不同,那裡的 CDN 層級限流已經幾乎把 robots.txt 私有化了。我們預期這種分化會加劇:前段網站因為被搜尋引擎索引而必須可讀,所以仍會保持可讀;長尾電商則會因為 Cloudflare 的 bot fight 等級更積極部署而變得更不容易被讀取。robots.txt 的公開可審計性,正沿著「可見網路」與「受營運保護網路」之間的同一條線開始分岔。


IV. 這一切代表什麼

四個主張,按資料支持力度由強到弱排序。

1. 網際網路的 AI 政策是按產業劃分,而不是全球統一。 新聞與電信之間 12 倍的差距,主導了所有匯總數字。若只報導「X% 的網路封鎖 AI」,卻不按產業切分,就會高估 SaaS/政府/開發工具,低估新聞/旅遊/社群。只有按產業報告,才是誠實的框架。

2. EU 著作權指令第 4 條,是唯一明顯在推動數字變化的法律制度。 EU ccTLD 網站的封鎖率是 35%,而全球基準是 19%。美國訴訟(NYT v. OpenAI、美國著作權局 2025 年 1 月報告)改變了美國新聞群體,但沒有改變更廣泛的美國網路。EU 的框架也透過 Cloudflare 的範本向全球滲透——無論客戶所在司法管轄區為何,範本都會引用 2019/790 指令。

3. 兩種並行的「AI 政策」正在被表達,而且彼此不一致。 刻意、手寫的政策(17.8%,主要來自新聞/社群/旅遊/電商)與繼承而來的 Cloudflare Managed 政策(4.5%)在實質上重疊,但合法性不同。在 AI 經營者尋求法律依據以忽略 robots.txt 的世界裡,「我自己寫、也審過」的抗辯,在結構上比「我只是把它打開」更強。訴訟的激勵,就是把政策從第二類推向第一類。

4. 出版商封鎖的,是資料來源,不是模型。 CCBot 以 16.3% 位居第一,甚至高於任何模型品牌 bot,這最能說明問題。封鎖 OpenAI,不能讓出版商退出「被訓練過」;封鎖 CCBot 才能。前 10k 網路中有 14.1% 在封鎖 CCBot 的同時,仍允許 Googlebot。到 2026 年,「封訓練、留搜尋」已是最典型的 AI 規則。

對考慮自身立場的網站來說: 最普遍的姿態是沉默——前 10k 中有 80% 對 AI 什麼都不說。寫規則的 17% 幾乎都集中在 Disallow,但有一小群且持續擴大的網站(以資安供應商為主的 1.5% 明確 Allow GPTBot 名單)正公開選擇相反方向。沒有產業共識,未來 12 個月也不會有。

對 AI 經營者來說: 當世界上 17% 的大型網站已經手寫出明確、刻意的 bot 名稱規則,且 3.8% 的檔案明確引用 EU 法條條號時,再繼續主張 robots.txt 只是語意模糊的舊協定,將愈來愈難維持。是否遵守那些規則,是商業決策;那些規則是否存在,如今已是實證事實。


V. 展望:我們預期 2026 年底前會出現什麼

資料中可見三個趨勢:

Cloudflare Managed 的占比會翻倍以上,合理地可能達到可解析前 10k 的 10% 以上。 Cloudflare 的路線圖公開討論對新帳號預設開啟 Block AI Bots。如果這個開關真的預設開啟,全球封鎖率會在沒有任何出版商決策的情況下上升 5 到 8 個百分點。當 rank 5001–10000 區間的 Cloudflare Managed 占比超過目前的 5.7% 時,我們就會知道這件事正在發生。

區塊層級 AI 政策(如 Spiegel 風格)會在主要新聞旗艦間擴散。 經濟邏輯——讓 AI 引用低風險內容,保護護城河內容——已經足夠有說服力,因此我們預期到 2026 年底,至少還會有 10 家旗艦新聞編輯部推出區塊層級規則。先留意德國與法國的中型媒體;那裡的法制最鼓勵實驗。

明確 Allow GPTBot 的群體會成長,主力是 B2B SaaS 與開發工具。 當 AI 搜尋成為軟體供應商可量化的獲客管道時(資安領域現在已經是),邊際 CMO 會寫下 User-agent: GPTBot \n Allow: /,以避免不小心被過度封鎖。我們預期 108 個網站的名單,年底前大約會翻倍。

我們預期什麼:沉默多數的占比會有明顯變化。那 80% 對 AI 什麼都不說的網路,包含了政府、電信、基礎設施、B2B SaaS 等產業——它們沒有經濟理由寫規則,也沒有法律壓力去寫。全面性的 AI 政策不會到來。


VI. 限制

  1. 單一快照偏誤。 抓取發生在 2026 年 5 月初的 36 小時窗口內。前 100 名網站的檔案每天都會變;頭條數字每季預期會有 1–2 個百分點的漂移。
  2. 產業分類缺口。 在四層分類器之後,10,000 個網站中有 6,593 個仍是 unknown。在樣本數夠大的產業中,百分比相當穩健(新聞:650、串流:440、SaaS:369、學術:268、成人:254、電商:224、政府:172、金融:129、開發工具:129),但 n &lt; 30 時噪音較大。國家新聞切分也有類似限制——DE/FR/UK 的 n ≥ 15,而韓國/瑞典/捷克則落在 n=20–25。
  3. robots.txt 是自願性的。 Disallow 是請求,不是障礙。BytespiderPerplexityBot 等已被記錄忽略規則。我們衡量的是政策宣告,不是政策執行。
  4. 單一美國 IP 的審計。 我們無法讀取 21% 的已解析網域。多數是沒有 webserver 的 CDN 根節點;少數是 CDN 在我們到達原站前就把我們標記的網站。這會讓樣本略微偏向較舊的基礎設施,並偏離以來源國地理封鎖的網站。
  5. Tranco 清單的語意。 Tranco 會做穩定性篩選;它不是嚴格的使用者行為排名。匯總數字對清單選擇相對穩健,但具體排名位置不是。
  6. 沒有流量資料。 我們測量的是 robots.txt 政策,不是實際 AI bot 吞吐量。政策與流量不一定一致。

VII. 重現本研究

所有用於產生本報告的檔案,都在交付資料夾中。

  • tranco_top10k.csv —— 輸入清單
  • out/sites.csv —— 網域 × 排名 × 產業 × 語言 × robots.txt 狀態(10,000 列)
  • out/fetch_meta.csv —— 每個網域的抓取結果(狀態、scheme、位元組數、錯誤)
  • out/bot_status.csv —— 網域 × bot 矩陣(250,000 列:是否封鎖、是否有規則、抓取狀態)
  • out/site_meta.csv —— 每個網站一筆分析紀錄(範本、摘要布林值)
  • out/analysis.json —— 報告中引用的所有指標
  • 01_fetch_robots.py、02_classify.py、03_parse_and_analyze.py —— 完整 Python 流程

歡迎將方法論修正、資料集問題與後續分析寄至 support@thunderbit.com本報告獨立於 Thunderbit 所持有的任何商業立場;我們打造的是 AI 驅動的網頁爬蟲,而我們在結構上也有理由希望 robots.txt 在公開網路上持續成為一份有意義、機器可讀的契約。本報告中的資料本身即可成立。—— Thunderbit 研究團隊,2026 年 5 月。

試用 Thunderbit AI Web Scraper
目錄

試試 Thunderbit

只需 2 次點擊即可抓取潛在客戶與其他資料。由 AI 驅動。

取得 Thunderbit 免費使用
使用 AI 擷取資料
輕鬆將資料 منتقل到 Google Sheets、Airtable 或 Notion
Chrome Store Rating
PRODUCT HUNT#1 Product of the Week