트래픽이 많은 웹사이트들이 대형 언어 모델이 읽을 수 있는 안내를 어떻게 공개하는지, 초기 구현은 어떤 모습인지, 그리고 도입률을 측정할 때 왜 HTTP 200 응답 수만 세면 안 되는지를 살펴본 크롤링 기반 연구입니다.
- 데이터셋:
data/llms_probe_results_top_10000.csv - Tranco 목록 다운로드: 2026년 5월 6일
- 범위: 루트 수준
/llms.txt및/llms-full.txt
핵심 지표

- 5.86%: Tranco 상위 10,000개에서의 유효한
llms.txt도입률로, 586개 도메인에 해당합니다. - 1.03%: 유효한
llms-full.txt도입률로, 103개 도메인에 해당합니다. 유효한 전체 파일을 운영한 사이트는 모두 유효한 인덱스 파일도 보유하고 있었습니다. - 63.51%:
/llms.txt에 대한 HTTP 200 응답 중 검증에 실패한 비율입니다. - 2.74배: 원시 HTTP 200 응답만으로 도입률을 측정했을 때의 대략적인 과대계산 배수입니다.
요약
llms.txt는 아직 초기 단계의 웹 관례이지만, 더 이상 주변부 실험만은 아닙니다. 2026년 5월 6일 기준 Tranco 상위 10,000개 도메인을 크롤링한 결과, 유효한 llms.txt 파일 586개가 발견되어 관측 도입률은 5.86%였습니다. 짝이 되는 llms-full.txt 파일은 훨씬 드물었고, 유효한 전체 파일을 가진 도메인은 103개로 도입률 1.03%에 그쳤습니다.
가장 중요한 방법론적 발견은 상태 코드가 도입 여부를 잘 대변하지 못한다는 점입니다. 크롤러는 /llms.txt에서 HTTP 200 응답 1,606건을 확인했지만, 검증을 통과한 것은 586건뿐이었습니다. 나머지 1,020건은 대부분 엉뚱한 리디렉션, 일반적인 HTML 페이지, 빈 본문, 또는 다른 무효 응답이었습니다. 200 응답을 모두 도입으로 계산하는 단순한 크롤러라면 실제 유효 도입률을 약 2.74배 과대평가하게 됩니다.
유효한 도입 사례만 놓고 보면 구현 품질은 단순한 자리만 채운 파일이라는 인상보다 높았습니다. 유효 파일의 중앙값 크기는 약 7.1KB였고, 유효 파일의 61.77%는 5KB보다 컸습니다. 70.82%는 6개 이상의 Markdown 섹션을 포함했고, 77.47%는 11개 이상의 Markdown 링크를 포함했습니다. 초기 도입자에는 Cloudflare, Azure, GitHub, DigiCert, WordPress.org, Adobe, Dropbox, PayPal, Stripe, Salesforce, Slack, Zendesk, Okta, Datadog, Cloudinary 등이 포함됩니다.
llms.txt는robots.txt를 대체하는 파일이 아니라, AI 시스템을 위한 설명 및 탐색 신호로 이해하는 것이 가장 좋습니다. 중요한 것은 파일이 존재한다는 사실 그 자체가 아니라, 기계가 권위 있고 간결하며 최신의 정보를 찾는 데 실제로 도움이 되느냐입니다.
배경: 웹은 AI 대상 신호를 추가하고 있습니다
웹사이트는 오래전부터 크롤러 선호를 표현하기 위해 robots.txt를 사용해 왔고, URL 발견을 돕기 위해 sitemap.xml을 사용해 왔으며, 검색 및 플랫폼 시스템이 페이지를 해석하도록 구조화 데이터를 제공해 왔습니다. 생성형 AI는 다른 문제를 가져옵니다. 콘텐츠는 학습, 검색, 요약, 에이전트형 브라우징, 코드 지원, 고객 지원, 답변 생성 등에 사용될 수 있습니다. 이는 두 가지 요구를 동시에 만듭니다. 게시자는 자동화된 사용에 대한 통제력을 더 원하지만, AI 시스템이 사이트와 상호작용할 때는 올바른 정본 정보를 찾을 수 있기를 바랍니다.
은 이 파일을 웹사이트 루트에 두는 Markdown 문서로 정의하며, 추론 시점에 LLM 친화적인 정보를 제공하는 역할을 강조합니다. 이 제안은 HTML 페이지에 탐색 요소, 광고, 스크립트, 기타 잡음이 많아 언어 모델이 처리하기 어렵다고 설명합니다. 간결한 Markdown 파일은 모델이 가장 중요한 페이지, 문서, API, 예제, 정책, 제품 정보로 곧장 가도록 안내할 수 있습니다.
외부 웹 연구는 더 넓은 배경을 제공합니다. 는 robots.txt와 서비스 약관에서 AI 관련 제한이 급격히 늘고 있다고 설명하며, 기존 웹 동의 메커니즘은 대규모 AI 데이터 재사용을 염두에 두고 설계된 것이 아니라고 지적합니다. 역시 상위 10,000개 도메인 수준에서 AI 크롤러와 robots.txt 패턴을 가시화했습니다. 이런 환경에서 llms.txt는 AI 신호의 건설적인 측면에 놓입니다. “이걸 크롤링하지 마”가 아니라, “이 사이트를 이해해야 한다면 여기서 시작하라”는 메시지입니다.
외부 근거와 도입 논쟁
llms.txt를 둘러싼 공개 논쟁은 두 주장으로 갈립니다. 낙관론은 이 파일이 AI 시스템에 더 깔끔하고 효율적인 경로를 제공해 권위 있는 콘텐츠에 도달하게 해 준다는 것입니다. 회의론은 주요 LLM 제공업체 중 어느 곳도 이를 순위, 크롤링, 인용 신호로 사용하겠다고 공개적으로 약속한 적이 없으므로, 게시자가 파일 하나만으로 트래픽 증가를 기대해서는 안 된다는 것입니다. 이번 업데이트에서 검토한 세 가지 외부 자료는 보다 미묘한 결론을 뒷받침합니다. llms.txt는 유용한 인프라이지만, 직접적인 트래픽 영향에 대한 증거는 아직 제한적이고 맥락 의존적입니다.
외부 도입 벤치마크는 빠르게 변하고 있습니다
는 2025년 6월 22일 기준 상위 1,000개 웹사이트에서의 도입률을 0.3%, 즉 1,000개 중 3개 사이트라고 보고했습니다. 이 자료는 domain.com/llms.txt를 월 단위로 자동 스캔하고, 리디렉션과 HTML 응답을 제외하는 검증 방식을 사용한다고 설명합니다. 이런 방법론은 본 연구의 보수적 검증 접근과 방향성이 유사합니다.
결과 차이는 큽니다. 본 연구는 2026년 5월 6일 기준 Tranco 상위 1,000개에서 유효한 llms.txt 파일 75개를 발견해 7.50%의 도입률을 확인했습니다. 다만 순위 소스, 구현 세부사항, 검증 로직, 크롤 시점이 다를 수 있으므로 두 숫자를 엄격한 시계열로 해석해서는 안 됩니다. 그래도 이 대비는 2025년 중반과 2026년 5월 사이에, 특히 개발자 중심, SaaS, 클라우드, 보안, 문서 중심 사이트에서 도입이 의미 있게 확산했음을 시사합니다.
| 출처 | 시점 | 표본 | 보고된 유효 도입률 | 해석 |
|---|---|---|---|---|
| Rankability | 2025년 6월 22일 | 상위 1,000개 웹사이트 | 0.3% | 2025년 중반의 낮은 도입률을 보여 주는 초기 공개 벤치마크입니다. |
| 본 연구 | 2026년 5월 6일 | Tranco 상위 1,000개 | 7.50% | 트래픽이 많은 사이트들 사이에서 눈에 띄는 도입이 보이는 이후 크롤 결과입니다. |
| 본 연구 | 2026년 5월 6일 | Tranco 상위 10,000개 | 5.86% | 도입이 측정 가능하지만 아직 주류는 아님을 보여 주는 더 넓은 표본입니다. |
트래픽 실험 결과는 아직 엇갈립니다
는 2026년 1월 10개 사이트를 대상으로 도입 전 90일과 도입 후 90일을 추적한 분석을 발표했습니다. 이 글에 따르면 두 사이트는 AI 트래픽이 각각 12.5%와 25% 증가했고, 여덟 사이트는 측정 가능한 개선이 없었으며, 한 사이트는 19.7% 감소했습니다. 핵심 해석은 인과성에 대한 주의였습니다. 성공 사례로 보인 두 사이트는 동시에 새 템플릿을 출시하고, 리소스 센터를 재구축하고, 추출 가능한 비교 표를 추가하고, 언론 노출을 얻고, 기술적 문제를 수정하거나, 새로운 FAQ 형식 콘텐츠를 게시했습니다. 이 관점에서 llms.txt는 더 강한 콘텐츠와 기술 작업을 문서화한 것이지, 성장 자체를 일으킨 것은 아니었습니다.
은 더 작은 사이트 수준 관찰에서 좀 더 긍정적인 결론에 도달했습니다. llms.txt와 llms-full.txt를 모두 추가한 뒤 Yandex.Metrica에서 두 개의 4개월 기간을 비교했습니다. LLM 추천 세션은 75회에서 92회로 늘어 23% 증가했고, 사용자는 51명에서 64명으로 증가했습니다. Perplexity 세션은 29회에서 55회로 증가한 반면, ChatGPT 세션은 31회에서 26회로 줄었습니다. 같은 게시물은 전체 추천 트래픽이 160회에서 290회로 더 빠르게 증가했다고도 밝히며, 그 결과 LLM 세션 비중은 47%에서 32%로 낮아졌습니다.
This paragraph contains content that cannot be parsed and has been skipped.
논쟁이 명확히 해 주는 것
외부 근거는 이 데이터셋의 해석을 더 선명하게 만듭니다. 잘 구조화된 llms.txt 파일은 특히 개발자 문서, API 참조, 지식베이스 콘텐츠에서 기계 파싱의 부담을 줄일 수 있습니다. 하지만 가장 강한 트래픽 사례조차도 여전히 유용하고, 추출 가능하며, 권위 있고, 파일 바깥에서도 발견될 수 있는 콘텐츠에 의존하는 것으로 보입니다. 따라서 실무적으로 중요한 질문은 llms.txt가 단독으로 의미가 있느냐가 아니라, 이 파일이 더 큰 AI 가독성 콘텐츠 시스템의 일부냐는 점입니다.
업데이트된 해석:
llms.txt는 낮은 비용의 AI 대상 인프라로 구현하는 것이 좋습니다. 더 나은 문서화, 구조화 콘텐츠, 기술적 접근성, 인용, 링크, 브랜드 권위를 대체하는 수단으로 두어서는 안 됩니다.
방법론
이 연구는 표본으로 Tranco 상위 10,000개 도메인을 사용했습니다. Tranco는 많은 전통적인 상위 목록보다 더 안정적이고 조작에 강하도록 설계된 연구용 상위 사이트 순위입니다. Tranco 원본 파일은 2026년 5월 6일에 내려받았으며, 원본 Last-Modified 타임스탬프는 GMT 기준 2026년 5월 5일 22:17:59였습니다.
크롤러는 각 도메인에 대해 루트 수준 경로 두 개를 조사했습니다.
https://example.com/llms.txt, 필요 시 HTTP 폴백 사용.https://example.com/llms-full.txt, 필요 시 HTTP 폴백 사용.
각 조사마다 크롤러는 상태 코드, 최종 URL, 가져오기 방식, 응답 바이트 수, 콘텐츠 유형, 오류 메시지, 경과 시간, 검증 결과를 기록했습니다. 성공한 응답 본문은 검토와 2차 분석을 위해 raw_llms_txt/ 아래에 저장했습니다.
검증 규칙
응답은 성공적인 본문을 반환하고 일반적인 웹 폴백처럼 보이지 않을 때만 유효한 파일로 집계했습니다. 최종 URL 경로는 /llms.txt 또는 /llms-full.txt여야 했습니다. 빈 본문은 제외했습니다. 명백한 HTML 문서와 앱 셸도 제외했습니다. 일부 유효한 텍스트형 파일이 특이한 콘텐츠 유형으로 제공되었기 때문에, 콘텐츠 유형은 유일한 기준이 아니라 보조 증거로만 사용했습니다.
도입 현황
크롤 결과 Tranco 상위 10,000개에서 유효한 llms.txt 파일 586개가 발견되었습니다. 이는 유효 도입률 5.86%에 해당합니다. 더 작은 짝 파일인 llms-full.txt는 103개 도메인에서 유효하게 존재했으며, 표본의 1.03%였습니다.
| 지표 | 개수 | 상위 10,000개 대비 비중 |
|---|---|---|
| 크롤된 도메인 | 10,000 | 100.00% |
| 유효한 llms.txt 파일 | 586 | 5.86% |
| 유효한 llms-full.txt 파일 | 103 | 1.03% |
| /llms.txt에 대한 HTTP 200 응답 | 1,606 | 16.06% |
| 무효로 거부된 HTTP 200 응답 | 1,020 | 10.20% |
도입은 단순히 상위권에만 몰려 있지 않습니다
상위 1,000개에서의 도입률은 전체 상위 10,000개보다 높았지만, 아주 큰 사이트에만 한정되지는 않았습니다. 상위 1,000개 도입률은 7.50%였습니다. 반면 9,001~10,000위 구간의 마지막 1,000개 도메인 묶음은 3.80%로 떨어졌습니다. 순위 중간대도 활발했습니다. 2,001~3,000위, 3,001~4,000위, 5,001~6,000위, 6,001~7,000위 구간은 모두 약 6% 수준이었습니다.

초기 도입자
가장 높은 순위의 유효 도입자는 Tranco 4위의 Cloudflare였습니다. 그 밖의 상위권 도입자로는 Azure, GitHub, DigiCert, WordPress.org, Adobe, Sentry, Dropbox, PayPal, Shopify, Taboola, Avast, Weather.com, Oxylabs, SourceForge, Cisco, Stripe, Slack, Dell, NVIDIA, Indeed, Zendesk, Calendly, Palo Alto Networks, Okta, Braze, Klaviyo, Intercom, Datadog, Cloudinary, ClassLink, OneSignal 등이 있었습니다.
이 도입자들은 무작위가 아닙니다. 이들은 대체로 방대한 문서 영역, 설명이 필요한 제품군, API 또는 개발자 생태계, 지원 콘텐츠, 요금 페이지, 보안 및 개인정보 보호 자료를 갖고 있으며, AI 시스템이 자사 사이트를 어떻게 해석하는지 신경 쓸 만큼 충분한 브랜드 권위를 갖추고 있습니다.
| 순위 | 도메인 | 파일 크기 | 관찰된 패턴 |
|---|---|---|---|
| 4 | cloudflare.com | 4,225 B | 간결한 제품, 개발자, 회사, 요금 인덱스입니다. |
| 26 | azure.com | 47,037 B | 개발 도구, AI, 컴퓨트, 저장소, 보안, 모니터링, 선택적 리소스를 포함합니다. |
| 28 | github.com | 27,108 B | 프로그램 방식 접근, Copilot, MCP, REST API, Actions, 저장소, CLI 링크를 포함합니다. |
| 248 | stripe.com | 64,229 B | 결제, Connect, Checkout, Billing, Tax, Atlas, Radar, 개발자 문서를 다룹니다. |
| 265 | salesforce.com | 1.02 MB | Markdown 섹션 제목이 없는 거대한 제품 및 Agentforce 링크 카탈로그입니다. |
상위 1,000개 도입자 범주
이 연구는 도메인 맥락, 첫 번째 제목, 원시 파일 구조, 콘텐츠 키워드를 사용해 Tranco 상위 1,000개에서의 유효 도입자 75개를 분류했습니다. 가장 큰 그룹은 마케팅, 미디어, 애드테크로 22.67%였습니다. 클라우드, 개발, 인프라 사이트는 20.00%를 차지했습니다. SaaS, 생산성, 고객 운영 사이트는 17.33%였습니다. 보안, 아이덴티티, 개인정보 보호 사이트는 12.00%였습니다.

| 범주 | 도메인 수 | 상위 1,000개 도입자 대비 비중 | 중앙값 품질 점수 | 중앙값 링크 수 |
|---|---|---|---|---|
| 마케팅, 미디어 & 애드테크 | 17 | 22.67% | 94 | 25 |
| 클라우드, 개발 & 인프라 | 15 | 20.00% | 94 | 62 |
| SaaS, 생산성 & 고객 운영 | 13 | 17.33% | 94 | 46 |
| 보안, 아이덴티티 & 개인정보 보호 | 9 | 12.00% | 98 | 78 |
| CMS, 호스팅 & 웹 존재감 | 7 | 9.33% | 100 | 24 |
TLD 패턴
최상위 도메인은 산업 라벨은 아니지만, 방향성을 주는 유용한 신호입니다. 표본에서 최소 50개 도메인이 있는 TLD 중에서는 .io가 14.44%로 가장 높은 유효 도입률을 보였습니다. .com이 8.19%로 뒤를 이었습니다. .gov, .edu, .net에서의 낮은 도입률은 초기 도입자 집단이 기관 중심보다 상업적·기술적 성격이 더 강하다는 점을 시사합니다.
구현 품질
유효 도입이 곧 균일한 구현 품질을 뜻하지는 않습니다. 일부 파일은 간결하고 잘 구획된 인덱스입니다. 일부는 대부분 산문입니다. 일부는 원시 링크 카탈로그입니다. 일부는 거의 비어 있는 자리 표시자입니다. 일부는 완성형일 수는 있지만 가져오고 파싱하기에 비싼 수 메가바이트 규모의 콘텐츠 덤프입니다.
유효한 llms.txt 파일 가운데 362개는 5KB보다 컸고, 이는 유효 도입자의 61.77%에 해당합니다. 파일 크기 중앙값은 약 7.1KB였습니다. P90은 156KB, P95는 356KB, P99는 2.54MB였고, 가장 큰 파일은 7.97MB였습니다.
흔한 콘텐츠 신호
유효 파일에 대한 키워드 수준 스캔 결과, 많은 사이트가 단순히 선언문을 게시하는 데 그치지 않고 모델을 운영상 유용한 자료로 안내하고 있었습니다. 지원 또는 도움말 관련 용어는 유효 파일의 70.31%에서 나타났습니다. 블로그, 가이드, 튜토리얼 용어는 67.92%였습니다. 보안, 개인정보 보호, 규정 준수, 약관 용어는 61.43%였습니다. 요금은 53.92%, 문서는 52.22%, API 용어는 33.96%, 변경 로그 또는 릴리스 신호는 27.30%에서 발견되었습니다.
품질 점수와 유형
존재 여부에서 성숙도로 나아가기 위해, 이 연구는 가벼운 구현 점수 모델을 만들었습니다. 이 점수는 콘텐츠 유형, 파일 크기, Markdown 구조, 링크 수, 주제 범위, 그리고 제목 부재, Markdown 링크 없음, 특이한 콘텐츠 유형, 아주 작은 파일, 아주 큰 파일, 링크 덤프 행동 같은 경고 신호를 고려합니다. 이는 공식 표준이 아닙니다. 관찰된 구현을 비교하기 위한 연구용 점수 모델입니다.
이 모델을 사용해 416개 유효 파일은 강한 구조화 인덱스, 107개는 사용 가능한 인덱스, 24개는 얇거나 불규칙한 파일, 39개는 상징적이거나 활용도가 낮은 파일로 분류했습니다. 별도의 유형 분석에서는 구조화 인덱스 296개, 구획된 텍스트 파일 113개, 링크 카탈로그 63개, 얇은 인덱스 52개, 상징적 또는 자리 표시자 파일 50개, 거대한 콘텐츠 덤프 12개를 확인했습니다.

| 유형 | 도메인 수 | 유효 파일 대비 비중 | 중앙값 점수 | 중앙값 파일 크기 | 중앙값 링크 수 |
|---|---|---|---|---|---|
| 구조화 인덱스 | 296 | 50.51% | 98 | 11,241 B | 61.5 |
| 구획된 텍스트 | 113 | 19.28% | 78 | 4,718 B | 0 |
| 링크 카탈로그 | 63 | 10.75% | 86 | 4,160 B | 23 |
| 얇은 인덱스 | 52 | 8.87% | 66 | 2,814 B | 0 |
| 상징적 또는 자리 표시자 | 50 | 8.53% | 27 | 15 B | 0 |
| 거대한 콘텐츠 덤프 | 12 | 2.05% | 74 | 2.84 MB | 7,259.5 |
상위 도입자일수록 구현이 더 밀도 높습니다

Tranco 상위 1,000개 안의 75개 유효 도입자는 중앙값 품질 점수 96, 중앙값 파일 크기 9,068바이트, 중앙값 Markdown 링크 수 52, 중앙값 섹션 수 11을 기록했습니다. 반면 1,001~10,000위에 속한 511개 도입자는 더 낮은 중앙값을 보였습니다. 점수 90, 파일 크기 6,506바이트, Markdown 링크 23개, 섹션 9개였습니다. 상위 1,000개 도입자는 이후 집단보다 구조화 인덱스일 가능성도 더 높았습니다. 각각 69.33%와 47.75%였습니다.
오탐 문제

측정상 가장 큰 위험은 오탐입니다. /llms.txt에 대해 HTTP 200을 반환한 1,606개 도메인 중 1,020개가 검증에 실패했습니다. 가장 흔한 무효 사유는 엉뚱한 경로로의 리디렉션으로, 618건이었습니다. 또 다른 367건은 일반적인 HTML 문서였습니다. 29건은 빈 본문이었고, 6건은 기타 또는 미분류 무효 응답이었습니다.
이는 대형 사이트들이 알 수 없는 경로를 로그인 페이지, 홈페이지, 앱 셸, 지역 페이지, 동의 화면, 마케팅 폴백으로 돌리는 경우가 많기 때문입니다. 이런 응답은 상태 코드 크롤러에게는 정상처럼 보일 수 있지만, 실제 유효한 llms.txt 신호는 담고 있지 않습니다.
llms-full.txt: 더 희소하고 더 들쭉날쭉함
짝 파일인 llms-full.txt는 llms.txt보다 훨씬 드물었습니다. 크롤 결과 유효한 전체 파일은 103개였고, 이는 유효 llms.txt 도입자의 17.58%, 전체 상위 10,000개 표본의 1.03%에 해당합니다.
전체 파일 구현은 균일하지 않았습니다. llms.txt와 llms-full.txt를 모두 운영한 103개 도메인 중 57개는 llms-full.txt가 인덱스 파일보다 컸지만, 46개는 전체 파일이 인덱스 파일보다 크지 않거나 전체 파일이 100바이트 미만이었습니다. 전체 파일과 인덱스 파일의 크기 비율 중앙값은 1.43이었지만, 극단값은 훨씬 더 컸습니다. Supabase의 전체 파일은 인덱스 파일보다 약 7,139배 컸습니다. Made-in-China.com의 전체 파일은 89.89MB였습니다.
| 도메인 | llms.txt | llms-full.txt | 비율 |
|---|---|---|---|
| made-in-china.com | 4.49 MB | 89.89 MB | 20.0x |
| sendbird.com | 281.86 KB | 11.99 MB | 42.5x |
| taboola.com | 286.78 KB | 11.73 MB | 40.9x |
| supabase.co | 1.26 KB | 8.98 MB | 7,139.3x |
| neon.tech | 27.44 KB | 5.01 MB | 182.7x |
권장 사항: 이미 안정적인 문서 파이프라인, 버전 관리 습관, 그리고 많은 양의 콘텐츠를 하나의 기계 판독 파일로 노출해야 할 명확한 이유가 있는 사이트에서만
llms-full.txt를 발행하세요.
llms.txt, robots.txt, sitemap.xml
llms.txt를 새로운 robots.txt처럼 다루어서는 안 됩니다. 둘 다 루트 수준의 기계 판독 파일이지만, 전달하는 메시지는 다릅니다. robots.txt는 크롤러 선호와 접근 제어 신호입니다. sitemap.xml은 URL 발견 신호입니다. llms.txt는 설명 및 탐색 신호입니다.
| 신호 | 주요 역할 | 일반적인 읽는 주체 | 이 연구에서의 해석 |
|---|---|---|---|
robots.txt | 크롤러 선호와 경로 수준 제한을 선언합니다. | 검색 크롤러, AI 크롤러, 아카이브 크롤러, 일반 봇. | 거버넌스 및 접근 신호입니다. |
sitemap.xml | 색인 시스템을 위한 발견 가능한 URL을 나열합니다. | 검색 엔진과 색인 파이프라인. | 발견 신호입니다. |
llms.txt | 간결한 사이트 맥락, 중요한 링크, 문서, API, 예제, 정책 참조를 제공합니다. | LLM 애플리케이션, AI 에이전트, 개발자 도구, 검색 시스템. | 설명 및 탐색 신호입니다. |
권장 사항
llms.txt를 고려하는 사이트라면, 이 데이터셋의 가장 강한 구현 사례와 외부 트래픽 근거가 공통적으로 보여 주는 실용적 패턴은 다음과 같습니다.
- 루트에
/llms.txt를 발행하고, 로그인, JavaScript 실행, 동의 차단, 경로 이탈 리디렉션 없이 접근 가능하게 유지하세요. - 가능하면
text/plain또는text/markdown으로 제공하세요. - 사이트에 대한 짧은 설명으로 시작한 다음 제품, 문서, API, 요금, 변경 로그, 예제, 지원, 정책, 회사 리소스별로 링크를 묶으세요.
- URL을 망라해서 나열하기보다 정본 링크를 우선하세요.
- 비어 있는 상징적 파일은 피하세요. 많아야 약한 신호에 불과합니다.
- 강한 기계 소비 사례와 신뢰할 수 있는 생성 파이프라인이 없다면, 크고 무질서한 덤프는 피하세요.
- 발행 후에는 최종 URL, 응답 본문, 콘텐츠 유형, Markdown 구조, 링크 수, 파일 크기를 검증하세요.
팀은 기대치도 신중하게 설정해야 합니다. 현재 공개된 실험만으로는 llms.txt가 AI 추천 트래픽을 독립적으로 늘린다고 입증되지 않았습니다. 비즈니스 영향을 시험하고 싶다면 LLM 추천, 인용된 페이지, 봇 요청, 색인 최신성, 콘텐츠 변화를 함께 추적해야 합니다. 유용한 실험은 페이지 그룹을 매칭해 비교하고, 가능한 한 콘텐츠 업데이트를 일정하게 유지하며, Perplexity, ChatGPT, Gemini, Claude, Bing/Copilot 같은 플랫폼별 트래픽을 분리하는 것입니다.
한계
이것은 크롤 기반 스냅샷이지, 영구적인 사실이 아닙니다. 웹사이트는 언제든 llms.txt 파일을 추가, 삭제, 변경할 수 있습니다. 일부 도메인은 자동화 요청을 차단하거나 지리 위치, TLS 설정, 리디렉션 로직, 사용자 에이전트, 봇 방지 방식에 따라 다르게 동작할 수 있습니다. 이 연구는 루트 수준 파일만 테스트했으며 서브도메인이나 비표준 경로는 검색하지 않았습니다.
품질 점수와 유형은 연구 도구이며 공식 준수 라벨이 아닙니다. 주제 분석은 키워드 기반이므로 방향성을 보여 주는 지표로 읽어야 합니다. 이 연구는 어떤 특정 AI 플랫폼이 현재 실제 운영 환경에서 llms.txt를 읽고, 존중하고, 사용한다는 사실을 증명하지 않습니다.
이번 버전에서 검토한 외부 트래픽 근거에도 한계가 있습니다. Search Engine Land의 분석은 무작위 실험이라기보다 주의 환기를 위한 다사이트 관찰에 더 가깝습니다. Alimbekov의 결과는 투명한 사이트 수준 사례 연구로 유용하지만, 대조군이 없고 전체 추천 트래픽이 크게 증가한 기간을 포함합니다. 이런 참고문헌은 논쟁의 틀을 잡아 주지만, 이 크롤을 인과적 트래픽 연구로 바꾸지는 못합니다.
파일과 재현성
| 파일 | 용도 |
|---|---|
crawl_llms_txt.py | /llms.txt와 /llms-full.txt용 크롤러입니다. |
analyze_llms_txt.py | 주요 도입 분석 및 차트 생성입니다. |
deep_analyze_llms_txt.py | 순위 분위, TLD, 주제 신호, 품질 점수, 유형, 이중 파일 행동에 대한 2차 분석입니다. |
deep_dive_early_quality.py | 초기 도입자 분류와 구현 품질 심층 분석입니다. |
data/llms_probe_results_top_10000.csv | 주요 크롤 결과 데이터셋입니다. |
data/deep_analysis_top_10000.json | 2차 분석 요약입니다. |
data/deep_early_quality_analysis.json | 초기 도입자 범주, 품질 집단 비교, 유형 세부 정보, 사례 연구입니다. |
출처
- , Jeremy Howard, 2024.
- .
- .
- .
- , Data Provenance Initiative.
- .
- , Search Engine Land, 2026년 1월.
- , Rankability, 2025년 6월.
- , Renat Alimbekov.
방법론 수정, 데이터셋 이슈, 후속 분석은 support@thunderbit.com 으로 보내 주세요. 이 보고서는 Thunderbit의 어떤 상업적 입장과도 무관하게 발행되었습니다. 이 보고서의 데이터는 그 자체로 의미를 가집니다. — Thunderbit 연구팀, 2026년 5월.