llms.txt 的崛起：網站如何向 AI 發出訊號

一項以爬取為基礎的研究，探討高流量網站如何為大型語言模型發布可機器讀取的指引、早期實作長什麼樣子，以及為什麼衡量採用情況不能只看 HTTP 200 回應數量。

資料集：data/llms_probe_results_top_10000.csv
Tranco 清單下載時間：2026 年 5 月 6 日
範圍：根目錄的 /llms.txt 與 /llms-full.txt

關鍵指標

5.86%：Tranco Top 10,000 中有效 llms.txt 的採用率，對應 586 個網域。
1.03%：有效 llms-full.txt 的採用率，對應 103 個網域。所有有效 full-file 採用者也都有有效的 index 檔。
63.51%：/llms.txt 的 HTTP 200 回應中，未通過驗證的占比。
2.74 倍：若只用原始 HTTP 200 回應來衡量採用率，估計會高估的倍數。

執行摘要

llms.txt 仍然是一種早期的網路慣例，但它已不再只是邊緣實驗。這項研究在 2026 年 5 月 6 日爬取 Tranco Top 10,000 網域時，找到了 586 個有效的 llms.txt 檔案，觀察到的採用率為 5.86%。搭配的 llms-full.txt 檔案則少得多：只有 103 個網域有有效的 full file，採用率為 1.03%。

最重要的方法論發現是：狀態碼並不是衡量採用的好代理。爬蟲對 /llms.txt 觀察到 1,606 次 HTTP 200 回應，但只有 586 次通過驗證。其餘 1,020 次多半是跳轉到非目標頁面、一般 HTML 頁面、空白內容，或其他無效回應。若天真的爬蟲把每個 200 回應都算作採用，會把有效採用率高估約 2.74 倍。

在有效採用者之中，實作品質比單純的佔位符敘事更高。有效檔案的中位大小約為 7.1 KB，61.77% 的有效檔案大於 5 KB，70.82% 含有六個以上的 Markdown 區段，77.47% 含有 11 個以上的 Markdown 連結。早期採用者包括 Cloudflare、Azure、GitHub、DigiCert、WordPress.org、Adobe、Dropbox、PayPal、Stripe、Salesforce、Slack、Zendesk、Okta、Datadog 與 Cloudinary。

llms.txt 最適合被理解為一種提供給 AI 系統的說明與導覽訊號，而不是 robots.txt 的替代品。它的價值不只是檔案存在，而是這份檔案能否幫助機器找到權威、精簡且最新的資訊。

背景：網路正在加入面向 AI 的訊號

網站長期以來會使用 robots.txt 來表達爬蟲偏好、用 sitemap.xml 來改善網址發現，並透過結構化資料幫助搜尋與平台系統理解頁面。生成式 AI 帶來了不同的問題。內容可能被用於訓練、檢索、摘要、代理式瀏覽、程式碼輔助、客服與答案生成。這就同時產生兩種需求：出版者希望對自動化使用有更多控制，但也希望 AI 系統在互動時能找到正確的權威資訊。

，由 Jeremy Howard 於 2024 年提出，將此檔案定位為放在網站根目錄的 Markdown 文件，用來在推論時提供適合 LLM 的資訊。這個提案主張，HTML 頁面往往包含導覽、廣告、腳本與其他雜訊，讓語言模型更難處理。精簡的 Markdown 檔可以把模型導向最重要的頁面、文件、API、範例、政策與產品資訊。

外部網路研究提供了更大的背景。描述 robots.txt 與服務條款中的 AI 相關限制迅速增加，並指出現有的網路同意機制並不是為大規模 AI 資料重用而設計。也讓 AI 爬蟲與 robots.txt 的模式在 Top 10,000 網域層級變得可見。在這樣的環境下，llms.txt 位在 AI 訊號的建設性一側：不是「不要爬這裡」，而是「如果你要理解這個網站，請從這裡開始」。

外部證據與採用爭論

關於 llms.txt 的公開爭論主要分成兩種說法。樂觀派認為，這個檔案能為 AI 系統提供更乾淨、更有效率的權威內容路徑。懷疑派則認為，沒有任何主要 LLM 供應商公開承諾會把它當成排名、爬取或引用訊號，因此出版者不應只因為有這個檔案就期待流量提升。這次更新所檢視的三份外部參考，支持一個更細緻的結論：llms.txt 是有用的基礎設施，但它對直接流量的影響證據仍然有限，且高度依賴情境。

外部採用基準正在快速變化

回報，截至 2025 年 6 月 22 日，前 1,000 個網站的採用率為 0.3%，也就是 1,000 個網站中有 3 個。其方式是每月自動掃描 domain.com/llms.txt，並透過驗證排除重新導向與 HTML 回應。這種方法在方向上與本研究較保守的驗證流程相似。

結果差距很大：本研究在 2026 年 5 月 6 日對 Tranco Top 1,000 找到 75 個有效 llms.txt 檔案，採用率為 7.50%。這兩個數字不應被視為嚴格的時間序列，因為排名來源、實作細節、驗證邏輯與爬取時間都可能不同。不過，這個對比仍顯示：從 2025 年中到 2026 年 5 月，採用情況出現了明顯變化，特別是在開發者、SaaS、雲端、安全與文件密集型網站中。

來源	快照時間	樣本	報告的有效採用率	解讀
Rankability	2025 年 6 月 22 日	前 1,000 個網站	0.3%	2025 年中期顯示採用率仍非常低的早期公開基準。
本研究	2026 年 5 月 6 日	Tranco Top 1,000	7.50%	後期爬取顯示高流量網站已出現可見採用。
本研究	2026 年 5 月 6 日	Tranco Top 10,000	5.86%	更廣樣本顯示採用可被量化，但尚未成為主流。

流量實驗仍然結論不一

於 2026 年 1 月發布一項 10 個網站的分析，追蹤每個網站在導入前後各 90 天的表現。文章指出，兩個網站的 AI 流量分別成長 12.5% 與 25%，八個沒有可測量的改善，另有一個下降 19.7%。其核心解讀是因果上需要謹慎：那兩個看似成功的案例，同時也推出了新版型、重建資源中心、加入可抽取的比較表、獲得媒體報導、修正技術問題，或發布新的 FAQ 式內容。以這個框架來看，llms.txt 比較像是在記錄更強的內容與技術工作；它本身似乎不是成長的單一原因。

則從較小規模的站點觀察得出較正面的結論。他在加入 llms.txt 與 llms-full.txt 後，比較 Yandex.Metrica 中兩段各四個月的期間。LLM 轉介工作階段從 75 增加到 92，成長 23%；使用者數從 51 增加到 64。Perplexity 的工作階段從 29 增加到 55，而 ChatGPT 的工作階段則從 31 降到 26。同一篇文章也指出，總轉介流量成長更快，從 160 增加到 290 次工作階段，因此 LLM 工作階段占比從 47% 降到 32%。

證據類型	觀察結果	主要注意事項	對本報告的影響
Search Engine Land 的 10 站點前後比較研究	兩個網站上升、八個無明顯變化、一個下降。	正面案例同時發生了內容、公關與技術變更。	支持把 `llms.txt` 視為基礎設施，而不是單獨的成長槓桿。
Alimbekov 個人部落格前後觀察	LLM 轉介工作階段在後期期間增加 23%。	沒有控制組；總轉介流量增加 81%，而 LLM 占比下降。	暗示對技術型部落格可能有上行空間，尤其來自 Perplexity，但因果尚未隔離。
本次以爬取為基礎的採用研究	586 個有效檔案與大量結構化實作。	衡量的是存在與結構，不是下游流量影響。	顯示採用與實作成熟度，但本身不能代表 ROI。

這場爭論真正釐清了什麼

外部證據讓這份資料集的解讀更清楚。結構良好的 llms.txt 可以降低機器解析的摩擦，特別適合開發者文件、API 參考與知識庫內容。但最強的流量案例，似乎仍然取決於那些本來就有用、可抽取、具權威性且容易被發現的內容。因此，實際問題不應只是單獨問「llms.txt 重要嗎？」而是這份檔案是否屬於更大的 AI 可讀內容系統的一部分。

更新後的解讀： llms.txt 應被視為低成本的 AI 面向基礎設施來實作，而不應被定位為更好的文件、結構化內容、技術可近性、引用、連結或品牌權威的替代品。

方法論

本研究以 Tranco Top 10,000 網域作為樣本。Tranco 是一個以研究為導向的熱門網站排名系統，設計上比許多傳統 Top 清單更穩定，也更能抵抗操縱。Tranco 來源檔於 2026 年 5 月 6 日下載，來源的 Last-Modified 時間戳為 2026 年 5 月 5 日 22:17:59 GMT。

爬蟲針對每個網域測試兩個根目錄路徑：

https://example.com/llms.txt，必要時使用 HTTP 備援。
https://example.com/llms-full.txt，必要時使用 HTTP 備援。

對於每次探測，爬蟲都會記錄狀態碼、最終 URL、抓取方式、回應位元組數、內容類型、錯誤訊息、耗時與驗證結果。成功的回應本文會儲存在 raw_llms_txt/，供檢視與進一步分析。

驗證規則

只有在回傳成功本文、且看起來不像一般網站備援頁面的情況下，才會被計為有效檔案。最終 URL 路徑必須維持在 /llms.txt 或 /llms-full.txt。空白內容會被拒絕。明顯的 HTML 文件與應用程式外殼會被拒絕。內容類型僅作為輔助證據，而不是唯一規則，因為少數有效的類文字檔案是以非典型內容類型提供的。

採用概況

爬取結果在 Tranco Top 10,000 中找到 586 個有效的 llms.txt 檔案。有效採用率為 5.86%。較小的 llms-full.txt 搭配檔則在 103 個網域上存在且有效，占樣本的 1.03%。

指標	數量	占 Top 10,000 比例
已爬取網域	10,000	100.00%
有效 llms.txt 檔案	586	5.86%
有效 llms-full.txt 檔案	103	1.03%
/llms.txt 的 HTTP 200 回應	1,606	16.06%
被判定為無效的 HTTP 200 回應	1,020	10.20%

採用並不只集中在最頂端

在前 1,000 名中的採用率高於完整 Top 10,000，但並不只集中在最頂尖的大型網站。前 1,000 名的採用率為 7.50%。最後一個 1,000 網域區間，也就是第 9,001–10,000 名，則降到 3.80%。排名中段仍然活躍：第 2,001–3,000、3,001–4,000、5,001–6,000，以及 6,001–7,000 區間都落在約 6% 左右。

早期採用者

排名最高的有效採用者是 Tranco 排名第 4 的 Cloudflare。其他高排名採用者包括 Azure、GitHub、DigiCert、WordPress.org、Adobe、Sentry、Dropbox、PayPal、Shopify、Taboola、Avast、Weather.com、Oxylabs、SourceForge、Cisco、Stripe、Slack、Dell、NVIDIA、Indeed、Zendesk、Calendly、Palo Alto Networks、Okta、Braze、Klaviyo、Intercom、Datadog、Cloudinary、ClassLink 與 OneSignal。

這些採用者並非隨機出現。它們通常具有龐大的文件表面、需要說明的產品線、API 或開發者生態系、支援內容、定價頁、安全與隱私材料，以及足以在意 AI 系統如何解讀其網站的品牌權威。

排名	網域	檔案大小	觀察到的模式
4	cloudflare.com	4,225 B	精簡的產品、開發者、公司與定價索引。
26	azure.com	47,037 B	開發者工具、AI、運算、儲存、安全、監控與選用資源。
28	github.com	27,108 B	程式化存取、Copilot、MCP、REST API、Actions、儲存庫與 CLI 連結。
248	stripe.com	64,229 B	Payments、Connect、Checkout、Billing、Tax、Atlas、Radar 與開發者文件。
265	salesforce.com	1.02 MB	大型產品與 Agentforce 連結目錄，且沒有 Markdown 區段標題。

前 1,000 名採用者的類別

本研究根據網域背景、第一層標題、原始檔案結構與內容關鍵詞，將 Tranco Top 1,000 中 75 個有效採用者進行分類。最大類別是行銷、媒體與 adtech，占 22.67%。雲端、開發者與基礎設施網站占 20.00%。SaaS、生產力與客戶營運網站占 17.33%。安全、身分與隱私網站占 12.00%。

類別	網域數	占前 1,000 採用者比例	中位品質分數	中位連結數
行銷、媒體與 adtech	17	22.67%	94	25
雲端、開發者與基礎設施	15	20.00%	94	62
SaaS、生產力與客戶營運	13	17.33%	94	46
安全、身分與隱私	9	12.00%	98	78
CMS、託管與網站存在	7	9.33%	100	24

TLD 模式

頂級網域不等於產業標籤，但它們是有用的方向性訊號。在樣本中至少有 50 個網域的 TLD 裡，.io 的有效採用率最高，達 14.44%。.com 以 8.19% 緊隨其後。.gov、.edu 與 .net 的採用率較低，顯示早期採用者基礎更偏向商業與技術，而非機構型網站。

實作品質

有效採用不代表實作品質一致。有些檔案是精簡、分區清楚的索引。有些幾乎是純敘述。有些是原始連結目錄。有些則是接近空白的佔位符。有些是多 MB 的內容傾倒，可能完整，但抓取與解析成本很高。

在有效的 llms.txt 檔案中，362 份大於 5 KB，占有效採用者的 61.77%。檔案大小中位數約為 7.1 KB。P90 檔案大小為 156 KB，P95 為 356 KB，P99 為 2.54 MB，觀察到的最大檔案為 7.97 MB。

常見內容訊號

對有效檔案做關鍵詞層級掃描後發現，許多網站不只是發佈一份宣告，而是在把模型導向具有實際用途的材料。支援或說明類詞彙出現在 70.31% 的有效檔案中。部落格、指南或教學類詞彙出現在 67.92%。安全、隱私、合規或條款類詞彙出現在 61.43%。定價出現在 53.92%，文件出現在 52.22%，API 類詞彙出現在 33.96%，而變更紀錄或發佈訊號出現在 27.30%。

品質評分與原型

為了從「是否存在」進一步看向「是否成熟」，本研究建立了一個輕量級的實作分數。這個分數會考量內容類型、檔案大小、Markdown 結構、連結數、主題涵蓋度，以及缺少標題、沒有 Markdown 連結、非典型內容類型、過小檔案、過大檔案與連結堆砌等警示訊號。這不是正式標準，而是用來比較觀察到的實作情況之研究評分模型。

使用這個模型，416 份有效檔案被歸類為強結構化索引，107 份為可用索引，24 份為薄弱或不規則，39 份為象徵性或低實用性。另一項原型分析則找出 296 份結構化索引、113 份分段文字檔、63 份連結目錄、52 份薄索引、50 份象徵性或佔位符檔案，以及 12 份大型內容傾倒。

原型	網域數	占有效檔案比例	中位分數	中位檔案大小	中位連結數
結構化索引	296	50.51%	98	11,241 B	61.5
分段文字	113	19.28%	78	4,718 B	0
連結目錄	63	10.75%	86	4,160 B	23
薄索引	52	8.87%	66	2,814 B	0
象徵性或佔位符	50	8.53%	27	15 B	0
大型內容傾倒	12	2.05%	74	2.84 MB	7,259.5

頂尖採用者的實作更密集

Tranco Top 1,000 中的 75 個有效採用者，其品質分數中位數為 96，檔案大小中位數為 9,068 bytes，Markdown 連結數中位數為 52，區段數中位數為 11。排名 1,001–10,000 的 511 個採用者則較低：分數 90、檔案大小 6,506 bytes、Markdown 連結 23、區段 9。Top 1,000 採用者也更可能是結構化索引：69.33%，相較於後段群組的 47.75%。

假陽性問題

最大的測量風險是假陽性。在回傳 /llms.txt HTTP 200 的 1,606 個網域中，有 1,020 個未通過驗證。最常見的無效原因是跳轉到非目標頁面，共 618 件。另有 367 個回應是一般 HTML 文件。29 個回傳空白內容，6 個則是其他或未分類的無效回應。

這很重要，因為許多大型網站會把未知路徑導向登入頁、首頁、應用程式外殼、區域頁、同意彈窗或行銷備援頁。對只看狀態碼的爬蟲來說，這些回應看起來正常，但其實不包含有效的 llms.txt 訊號。

`llms-full.txt`：更稀少，也更不均衡

搭配的 llms-full.txt 檔案遠比 llms.txt 少。爬取結果找到 103 個有效 full file，占有效 llms.txt 採用者的 17.58%，以及完整 Top 10,000 樣本的 1.03%。

full-file 的實作很不均衡。在 103 個雙檔採用者中，57 個的 llms-full.txt 比 index 檔還大，但另外 46 個要嘛 full file 不比 index 檔大，要嘛 full file 小於 100 bytes。full-to-index 的大小比例中位數為 1.43，但極端案例高得多。Supabase 的 full file 大約是其 index 檔的 7,139 倍。Made-in-China.com 的 full file 則達 89.89 MB。

網域	`llms.txt`	`llms-full.txt`	比例
made-in-china.com	4.49 MB	89.89 MB	20.0x
sendbird.com	281.86 KB	11.99 MB	42.5x
taboola.com	286.78 KB	11.73 MB	40.9x
supabase.co	1.26 KB	8.98 MB	7,139.3x
neon.tech	27.44 KB	5.01 MB	182.7x

建議： 只有在網站已經具備穩定的文件產線、版本控管紀律，以及把大量內容暴露為單一可機器讀取檔案的明確理由時，才發布 llms-full.txt。

`llms.txt`、`robots.txt` 與 `sitemap.xml`

llms.txt 不應被當成新的 robots.txt。兩者都是位於根目錄的可機器讀取檔案，但它們傳達的是不同訊息。robots.txt 是爬蟲偏好與存取控制訊號。sitemap.xml 是網址發現訊號。llms.txt 則是說明與導覽訊號。

訊號	主要角色	典型讀者	本研究中的解讀
`robots.txt`	宣告爬蟲偏好與路徑層級限制。	搜尋爬蟲、AI 爬蟲、典藏爬蟲、通用機器人。	治理與存取訊號。
`sitemap.xml`	列出可被發現的網址，供索引系統使用。	搜尋引擎與索引管線。	發現訊號。
`llms.txt`	提供精簡的網站脈絡、重要連結、文件、API、範例與政策參考。	LLM 應用、AI 代理、開發者工具、檢索系統。	說明與導覽訊號。

建議

對考慮導入 llms.txt 的網站而言，從本資料集與外部流量證據來看，最強的實作模式相當務實：

在根目錄發布 /llms.txt，並確保無須登入、無須執行 JavaScript、無同意牆，也沒有離題跳轉就能存取。
盡可能以 text/plain 或 text/markdown 提供。
先用簡短描述介紹網站，再依產品、文件、API、定價、變更紀錄、範例、支援、政策與公司資源分組連結。
優先使用權威連結，而不是把所有 URL 都列上。
避免空洞的象徵性檔案；它們最多只算弱訊號。
除非有強烈的機器消費使用情境與可靠的產生流程，否則避免大量不加區分的傾倒內容。
發布後驗證最終 URL、回應本文、內容類型、Markdown 結構、連結數與檔案大小。

團隊也應該謹慎設定預期。目前可取得的公開實驗並未證明 llms.txt 會獨立提升 AI 轉介流量。若團隊想測試商業影響，應該同時追蹤 LLM 轉介、被引用頁面、機器人請求、索引新鮮度與內容變更。一個有用的實驗會比較配對頁面群組、在可行時保持內容更新不變，並把 Perplexity、ChatGPT、Gemini、Claude 與 Bing/Copilot 等平台特定流量分開分析。

限制

這是一份以爬取為基礎的快照，不是永久的事實真相。網站可隨時新增、移除或修改 llms.txt 檔案。某些網域可能會封鎖自動化請求，或因地理位置、TLS 設定、跳轉邏輯、User-Agent 或機器人防護而表現不同。本研究只測試根目錄檔案，並未搜尋子網域或非標準路徑。

品質分數與原型分類是研究工具，不是正式合規標籤。主題分析是以關鍵詞為基礎，應視為方向性參考。本研究並未證明任何特定 AI 平台目前在正式環境中會讀取、遵守或使用 llms.txt。

本版本所檢視的外部流量證據也有其限制。Search Engine Land 的分析更適合作為多站點觀察的謹慎提醒，而不是隨機實驗。Alimbekov 的結果可作為透明的站點層級案例研究，但它沒有控制組，且包含總轉介流量大幅成長的期間。這些參考有助於框定爭論，但不會把這次爬取變成因果性的流量研究。

檔案與可重現性

檔案	用途
`crawl_llms_txt.py`	用於 `/llms.txt` 與 `/llms-full.txt` 的爬蟲。
`analyze_llms_txt.py`	主要採用分析與圖表生成。
`deep_analyze_llms_txt.py`	用於排名十分位、TLD、主題訊號、品質分數、原型與雙檔行為的次級分析。
`deep_dive_early_quality.py`	早期採用者分類與實作品質深度分析。
`data/llms_probe_results_top_10000.csv`	主要爬取結果資料集。
`data/deep_analysis_top_10000.json`	次級分析摘要。
`data/deep_early_quality_analysis.json`	早期採用者類別、品質群組比較、原型細節與案例研究。

來源

，Jeremy Howard，2024 年。
。
。
。
，Data Provenance Initiative。
。
，Search Engine Land，2026 年 1 月。
，Rankability，2025 年 6 月。
，Renat Alimbekov。

若有方法論修正、資料集問題或後續分析，歡迎寄至 support@thunderbit.com。本報告獨立於 Thunderbit 持有的任何商業立場而發布。本報告中的資料本身即具獨立性。— Thunderbit 研究團隊，2026 年 5 月。

試用 Thunderbit 來爬取並分析網頁資料

使用 AI 擷取資料

輕鬆將資料 منتقل到 Google Sheets、Airtable 或 Notion

Chrome Store Rating

PRODUCT HUNT#1 Product of the Week

llms.txt 的崛起：網站如何向 AI 發出訊號

試試 Thunderbit