Uppgången för llms.txt: Hur webbplatser signalerar till AI

Senast uppdaterad May 8, 2026
Datautvinning driven av Thunderbit.

En crawl-baserad studie av hur webbplatser med hög trafik publicerar maskinläsbara riktlinjer för stora språkmodeller, hur tidiga implementationer ser ut och varför mätning av användning kräver mer än att räkna HTTP 200-svar.

  • Dataset: data/llms_probe_results_top_10000.csv
  • Tranco-lista nedladdad: 6 maj 2026
  • Omfattning: root-nivåns /llms.txt och /llms-full.txt

Viktiga mätetal

llms-txt-adoption-landscape.webp

  • 5,86 %: Giltig användning av llms.txt i Tranco Top 10 000, motsvarande 586 domäner.
  • 1,03 %: Giltig användning av llms-full.txt, motsvarande 103 domäner. Varje giltig fullfilsanvändare hade också en giltig indexfil.
  • 63,51 %: Andel HTTP 200-svar för /llms.txt som inte klarade valideringen.
  • 2,74x: Ungefärlig överskattning om användning mättes enbart genom råa HTTP 200-svar.

Sammanfattning

llms.txt är fortfarande en tidig webbstandard, men det är inte längre bara ett marginellt experiment. I en crawl av Tranco Top 10 000-domäner den 6 maj 2026 hittade denna studie 586 giltiga llms.txt-filer, vilket ger en observerad användningsgrad på 5,86 %. Den kompletterande filen llms-full.txt var betydligt ovanligare: 103 domäner hade en giltig fullfil, vilket motsvarar 1,03 %.

Det viktigaste metodologiska fyndet är att statuskoder är en dålig proxy för användning. Crawlern registrerade 1 606 HTTP 200-svar för /llms.txt, men bara 586 klarade valideringen. De återstående 1 020 bestod främst av omdirigeringar till fel mål, generiska HTML-sidor, tomma svar eller andra ogiltiga responser. En naiv crawler som räknar varje 200-svar som användning skulle överskatta den verkliga användningen med omkring 2,74 gånger.

Bland de giltiga användarna är implementeringskvaliteten högre än vad en ren platshållarbild skulle antyda. Medianstorleken för en giltig fil var cirka 7,1 KB, 61,77 % av de giltiga filerna var större än 5 KB, 70,82 % innehöll sex eller fler Markdown-sektioner och 77,47 % innehöll 11 eller fler Markdown-länkar. Bland de tidiga användarna finns Cloudflare, Azure, GitHub, DigiCert, WordPress.org, Adobe, Dropbox, PayPal, Stripe, Salesforce, Slack, Zendesk, Okta, Datadog och Cloudinary.

llms.txt bör bäst förstås som en förklarande och navigerande signal för AI-system, inte som en ersättning för robots.txt. Dess värde ligger inte bara i att filen finns, utan i om den hjälper maskiner att hitta auktoritativ, kompakt och aktuell information.

Kontext: webben lägger till AI-riktade signaler

Webbplatser har länge använt robots.txt för att uttrycka crawler-preferenser, sitemap.xml för att förbättra upptäckten av URL:er och strukturerad data för att hjälpa sök- och plattformssystem att tolka sidor. Generativ AI introducerar ett annat problem. Innehåll kan användas för träning, retrieval, sammanfattning, agentisk surfning, kodassistans, kundsupport och svarsgenerering. Det skapar två samtidiga behov: publicister vill ha mer kontroll över automatiserad användning, men de vill också att AI-system hittar rätt kanonisk information när systemen faktiskt interagerar med deras webbplatser.

Det , som introducerades av Jeremy Howard 2024, beskriver filen som ett Markdown-dokument placerat i webbplatsens rot för att ge LLM-vänlig information vid inferenstidpunkt. Förslaget hävdar att HTML-sidor ofta innehåller navigering, annonsering, skript och annat brus som gör dem svårare för språkmodeller att bearbeta. En kortfattad Markdown-fil kan leda modellerna till de viktigaste sidorna, dokumentationen, API:erna, exemplen, policyerna och produktinformationen.

Extern webbforskning ger en bredare bakgrund. beskriver en snabb ökning av AI-relaterade begränsningar i robots.txt och användarvillkor, och hävdar att befintliga samtyckesmekanismer på webben inte var utformade för AI-återanvändning av data i stor skala. har också gjort AI-crawler- och robots.txt-mönster synliga på nivån för topp 10 000 domäner. I det sammanhanget hamnar llms.txt på den konstruktiva sidan av AI-signaler: inte ”crawla inte detta”, utan ”om du behöver förstå den här webbplatsen, börja här”.

Extern evidens och debatten om användning

Den offentliga debatten kring llms.txt är splittrad mellan två påståenden. Det optimistiska påståendet är att filen ger AI-system en renare och effektivare väg till auktoritativt innehåll. Det skeptiska påståendet är att ingen större LLM-leverantör offentligt har förbundit sig att använda den som signal för rankning, crawlning eller citering, så publicister bör inte förvänta sig trafikvinster enbart från filen. De tre externa källor som granskats för denna uppdatering stödjer en mer nyanserad slutsats: llms.txt är användbar infrastruktur, men evidensen för direkt trafikpåverkan är fortfarande begränsad och kontextberoende.

Externa riktmärken för användning förändras snabbt

rapporterade en användningsgrad på 0,3 % bland de 1 000 största webbplatserna per den 22 juni 2025, eller 3 av 1 000 sajter. Den beskriver månatlig automatiserad genomsökning av domain.com/llms.txt, med validering som utesluter omdirigeringar och HTML-svar. Den metoden ligger riktningenligt nära denna studies försiktiga valideringsansats.

Skillnaden i resultat är stor: denna studie fann 75 giltiga llms.txt-filer i Tranco Top 1 000 den 6 maj 2026, eller 7,50 %. De två siffrorna ska inte behandlas som en strikt tidsserie eftersom rankingkällan, implementeringsdetaljerna, valideringslogiken och crawl-tidpunkten kan skilja sig åt. Ändå antyder kontrasten att användningen förändrades märkbart mellan mitten av 2025 och maj 2026, särskilt bland utvecklar-, SaaS-, moln-, säkerhets- och dokumentationstunga sajter.

KällaSnapshotUrvalRapporterad giltig användningTolkning
Rankability22 juni 2025Topp 1 000 webbplatser0,3 %Tidigt offentligt riktmärke som visade minimal användning i mitten av 2025.
Denna studie6 maj 2026Tranco Top 1 0007,50 %Senare crawl som visade tydlig användning bland webbplatser med hög trafik.
Denna studie6 maj 2026Tranco Top 10 0005,86 %Större urval som visar att användningen är mätbar men inte mainstream.

Trafikexperimenten ger blandade resultat

publicerade en analys av 10 sajter i januari 2026 som följde sajter i 90 dagar före och 90 dagar efter implementering. Artikeln rapporterade att två sajter såg ökningar i AI-trafik på 12,5 % och 25 %, åtta såg ingen mätbar förbättring och en sjönk med 19,7 %. Den viktigaste tolkningen var kausal försiktighet: de två till synes framgångsrika fallen lanserade också nya mallar, byggde om resurscenter, lade till extraherbara jämförelsetabeller, fick pressbevakning, åtgärdade tekniska problem eller publicerade nytt FAQ-liknande innehåll. I den ramen dokumenterade llms.txt starkare innehålls- och teknikarbete; det verkade inte orsaka tillväxten på egen hand.

drog en mer positiv slutsats från en mindre observation på sajtnivå. Det jämförde två fyramånadersperioder i Yandex.Metrica efter att både llms.txt och llms-full.txt hade lagts till. LLM-hänvisningssessioner ökade från 75 till 92, en ökning med 23 %, medan användare ökade från 51 till 64. Perplexity-sessioner ökade från 29 till 55, medan ChatGPT-sessioner sjönk från 31 till 26. Samma inlägg noterar också att den totala hänvisningstrafiken växte snabbare, från 160 till 290 sessioner, så LLM-andelen av sessionerna föll från 47 % till 32 %.

This paragraph contains content that cannot be parsed and has been skipped.

Vad debatten klargör

Den externa evidensen skärper tolkningen av detta dataset. En välstrukturerad llms.txt-fil kan minska friktionen för maskinell tolkning, särskilt för utvecklardokumentation, API-referenser och kunskapsbasinnehåll. Men de starkaste trafikfallen verkar fortfarande bero på innehåll som är användbart, extraherbart, auktoritativt och upptäckbart även utanför filen. Därför är den praktiska frågan inte isolerat ”spelar llms.txt roll?”. Den är i stället om filen ingår i ett bredare AI-läsbart innehållssystem.

Uppdaterad tolkning: llms.txt bör implementeras som billig AI-riktad infrastruktur. Den bör inte positioneras som en ersättning för bättre dokumentation, strukturerat innehåll, teknisk tillgänglighet, källhänvisningar, länkar eller varumärkesauktoritet.

Metod

Den här studien använde Tranco Top 10 000-domäner som urval. Tranco är en forskningsinriktad toppliste-ranking som är utformad för att vara stabilare och mer motståndskraftig mot manipulation än många traditionella topplistor. Tranco-källfilen laddades ner den 6 maj 2026, med en Last-Modified-tidsstämpel från källan den 5 maj 2026 kl. 22:17:59 GMT.

Crawlern testade två sökvägar på rotnivå för varje domän:

  • https://example.com/llms.txt, med HTTP-fallback vid behov.
  • https://example.com/llms-full.txt, med HTTP-fallback vid behov.

För varje test registrerade crawlern statuskod, slutlig URL, hämtningsmetod, svarsstorlek i byte, content type, felmeddelande, förfluten tid och valideringsresultat. Lyckade svarsbody sparades under raw_llms_txt/ för granskning och sekundär analys.

Valideringsregler

Ett svar räknades som en giltig fil endast om det returnerade en lyckad body och inte såg ut som en generisk webb-fallback. Den slutliga URL-sökvägen måste förbli /llms.txt eller /llms-full.txt. Tomma bodies avvisades. Uppenbara HTML-dokument och app shells avvisades. Content type användes som stödjande bevis snarare än som enda regel, eftersom ett litet antal giltiga textliknande filer serverades med ovanliga content types.

Användningslandskapet

Crawlningen fann 586 giltiga llms.txt-filer i Tranco Top 10 000. Det ger en giltig användningsgrad på 5,86 %. Den mindre kompletterande filen llms-full.txt fanns och var giltig på 103 domäner, eller 1,03 % av urvalet.

MåttAntalAndel av Top 10 000
Domäner crawled10 000100,00 %
Giltiga llms.txt-filer5865,86 %
Giltiga llms-full.txt-filer1031,03 %
HTTP 200-svar för /llms.txt1 60616,06 %
HTTP 200-svar som avvisades som ogiltiga1 02010,20 %

Användningen är inte bara topp-tung

Användningen var högre i Top 1 000 än i hela Top 10 000, men den var inte begränsad till de allra största sajterna. Användningsgraden i Top 1 000 var 7,50 %. Den sista gruppen om 1 000 domäner, placering 9 001–10 000, sjönk till 3,80 %. Mitten av rankningen förblev aktiv: intervallen 2 001–3 000, 3 001–4 000, 5 001–6 000 och 6 001–7 000 landade alla runt 6 %.

tranco-domain-adoption-rate.webp

Tidiga användare

Den högst rankade giltiga användaren var Cloudflare på Tranco-rank 4. Andra högt rankade användare inkluderade Azure, GitHub, DigiCert, WordPress.org, Adobe, Sentry, Dropbox, PayPal, Shopify, Taboola, Avast, Weather.com, Oxylabs, SourceForge, Cisco, Stripe, Slack, Dell, NVIDIA, Indeed, Zendesk, Calendly, Palo Alto Networks, Okta, Braze, Klaviyo, Intercom, Datadog, Cloudinary, ClassLink och OneSignal.

Dessa användare är inte slumpmässiga. De tenderar att ha stora dokumentationsytor, produktlinjer som behöver förklaras, API:er eller utvecklarekosystem, supportinnehåll, prissidor, säkerhets- och integritetsmaterial samt tillräcklig varumärkesauktoritet för att bry sig om hur AI-system tolkar deras webbplatser.

RankDomänFilstorlekObserverat mönster
4cloudflare.com4 225 BKompakt index för produkt, utvecklare, företag och prissättning.
26azure.com47 037 BUtvecklarverktyg, AI, beräkning, lagring, säkerhet, övervakning och valfria resurser.
28github.com27 108 BProgrammatisk åtkomst, Copilot, MCP, REST API, Actions, repositories och CLI-länkar.
248stripe.com64 229 BBetalningar, Connect, Checkout, Billing, Tax, Atlas, Radar och utvecklardokumentation.
265salesforce.com1,02 MBMassivt produkt- och Agentforce-länkarkiv, utan Markdown-rubriker för sektioner.

Kategorier bland användare i Top 1 000

Denna studie klassificerade de 75 giltiga användarna i Tranco Top 1 000 med hjälp av domänkontext, första rubriker, rå filstruktur och innehållsnyckelord. Den största gruppen var marknadsföring, media och adtech med 22,67 %. Sajter inom moln, utveckling och infrastruktur stod för 20,00 %. SaaS, produktivitet och kunddrift stod för 17,33 %. Säkerhet, identitet och integritet stod för 12,00 %.

top-1000-adopters-categories.webp

KategoriDomänerAndel av användarna i Top 1 000Medianpoäng för kvalitetMedianantal länkar
Marknadsföring, media & adtech1722,67 %9425
Moln, utveckling & infrastruktur1520,00 %9462
SaaS, produktivitet & kunddrift1317,33 %9446
Säkerhet, identitet & integritet912,00 %9878
CMS, hosting & webb-närvaro79,33 %10024

TLD-mönster

Toppdomäner är inte branschetiketter, men de är användbara riktningstecken. Bland TLD:er med minst 50 domäner i urvalet hade .io högst giltig användningsgrad med 14,44 %. .com följde på 8,19 %. Lägre användning bland .gov, .edu och .net antyder att den tidiga användarbasen är mer kommersiell och teknisk än institutionell.

Implementeringskvalitet

Giltig användning betyder inte enhetlig implementeringskvalitet. Vissa filer är kortfattade, välstrukturerade index. Vissa är mestadels löptext. Vissa är råa länkarkiv. Vissa är nästan tomma platshållare. Vissa är innehållsdumpar på flera megabyte som kan vara kompletta men kostsamma att hämta och tolka.

Bland giltiga llms.txt-filer var 362 större än 5 KB, eller 61,77 % av de giltiga användarna. Medianfilstorleken var cirka 7,1 KB. P90-storleken var 156 KB, P95 var 356 KB, P99 var 2,54 MB och den största observerade filen var 7,97 MB.

Vanliga innehållssignaler

En nyckelordsgenomsökning av giltiga filer visade att många sajter inte bara publicerar en deklaration; de pekar modeller mot operativt användbart material. Termer för support eller hjälp förekom i 70,31 % av de giltiga filerna. Blogg-, guide- eller handledningstermer förekom i 67,92 %. Säkerhet, integritet, regelefterlevnad eller villkor förekom i 61,43 %. Prissättning förekom i 53,92 %, dokumentation i 52,22 %, API-termer i 33,96 % och signaler för changelog eller release i 27,30 %.

Kvalitetspoäng och arketyper

För att gå från förekomst till mognad skapade denna studie en lättviktig implementeringspoäng. Poängen beaktar innehållstyp, filstorlek, Markdown-struktur, antal länkar, ämnestäckning och varningssignaler som saknade rubriker, inga Markdown-länkar, ovanliga content types, små filer, mycket stora filer och beteende som länkdump. Detta är ingen formell standard. Det är en forskningsmodell för att jämföra observerade implementationer.

Med denna modell klassificerades 416 giltiga filer som starka strukturerade index, 107 som användbara index, 24 som tunna eller oregelbundna och 39 som symboliska eller med låg nytta. En separat arketypanalys fann 296 strukturerade index, 113 sektionerade textfiler, 63 länkarkiv, 52 tunna index, 50 symboliska eller platshållarfiler och 12 massiva innehållsdumpar.

tranco-crawl-implementation-archetypes.webp

ArketypDomänerAndel av giltiga filerMedianpoängMedianfilstorlekMedianantal länkar
Strukturerat index29650,51 %9811 241 B61,5
Sektionerad text11319,28 %784 718 B0
Länkarkiv6310,75 %864 160 B23
Tunt index528,87 %662 814 B0
Symbolisk eller platshållare508,53 %2715 B0
Massiv innehållsdump122,05 %742,84 MB7 259,5

De största användarna har tätare implementationer

tranco-crawl-ranks-stats.webp

De 75 giltiga användarna i Tranco Top 1 000 hade en medianpoäng för kvalitet på 96, medianfilstorlek på 9 068 byte, medianantal Markdown-länkar på 52 och medianantal sektioner på 11. De 511 användarna rankade 1 001–10 000 hade lägre medianer: poäng 90, filstorlek 6 506 byte, 23 Markdown-länkar och 9 sektioner. Användarna i Top 1 000 var också oftare strukturerade index: 69,33 % jämfört med 47,75 % i den senare kohorten.

Problemet med falska positiva resultat

llms-txt-http-200-outcomes.webp

Den största mätarisken är falska positiva resultat. Av de 1 606 domäner som returnerade HTTP 200 för /llms.txt underkände 1 020 valideringen. Den vanligaste ogiltiga orsaken var omdirigering till fel mål, med 618 fall. Ytterligare 367 svar var generiska HTML-dokument. Tjugonio returnerade en tom body, och sex var andra eller okategoriserade ogiltiga svar.

Detta spelar roll eftersom många stora sajter styr okända sökvägar till inloggningssidor, startsidor, app shells, regionala sidor, samtyckesytor eller marknadsförings-fallbacks. Dessa svar kan se friska ut för en statuskodcrawler men innehåller ingen giltig llms.txt-signal.

llms-full.txt: mer sällsynt och mer ojämnt

Den kompletterande filen llms-full.txt var betydligt ovanligare än llms.txt. Crawlningen fann 103 giltiga fullfiler, vilket motsvarar 17,58 % av de giltiga llms.txt-användarna och 1,03 % av hela Top 10 000-urvalet.

Fullfilsimplementationerna var ojämna. Bland de 103 användare med båda filerna hade 57 en llms-full.txt-fil som var större än indexfilen, men 46 hade antingen en fullfil som inte var större än indexfilen eller en fullfil under 100 byte. Medianförhållandet mellan fullfil och indexfil var 1,43, men extrema fall var mycket större. Supabases fullfil var ungefär 7 139 gånger större än indexfilen. Made-in-China.com hade en fullfil på 89,89 MB.

Domänllms.txtllms-full.txtFörhållande
made-in-china.com4,49 MB89,89 MB20,0x
sendbird.com281,86 KB11,99 MB42,5x
taboola.com286,78 KB11,73 MB40,9x
supabase.co1,26 KB8,98 MB7 139,3x
neon.tech27,44 KB5,01 MB182,7x

Rekommendation: publicera llms-full.txt endast när sajten redan har en stabil dokumentationspipeline, versionsdisciplin och en tydlig anledning att exponera stora mängder innehåll i en enda maskinläsbar fil.

llms.txt, robots.txt och sitemap.xml

llms.txt bör inte behandlas som en ny robots.txt. De är båda maskinläsbara filer på rotnivå, men de kommunicerar olika saker. robots.txt är en signal om crawler-preferenser och åtkomstkontroll. sitemap.xml är en signal för URL-upptäckt. llms.txt är en förklarande och navigerande signal.

SignalHuvudrollTypisk läsareTolkning i denna studie
robots.txtAnge crawler-preferenser och begränsningar på sökvägsnivå.Sökcrawlers, AI-crawlers, arkivcrawlers, generiska bottar.Styrnings- och åtkomstsignal.
sitemap.xmlLista upptäckbara URL:er för indexeringssystem.Sökmotorer och indexeringspipelines.Upptäcktsignal.
llms.txtGe kompakt webbplatskontext, viktiga länkar, dokumentation, API:er, exempel och policyreferenser.LLM-applikationer, AI-agenter, utvecklarverktyg, retrieval-system.Förklarings- och navigeringssignal.

Rekommendationer

För sajter som överväger llms.txt antyder de starkaste implementationerna i detta dataset och den externa trafikevidensen ett pragmatiskt mönster:

  • Publicera /llms.txt i roten och håll den tillgänglig utan inloggning, JavaScript-körning, samtyckesväggar eller omdirigeringar utanför sökvägen.
  • Servera den som text/plain eller text/markdown när det går.
  • Börja med en kort beskrivning av sajten och gruppera sedan länkar efter produkt, dokumentation, API, prissättning, changelog, exempel, support, policyer och företagsresurser.
  • Föredra kanoniska länkar framför uttömmande URL-listor.
  • Undvik tomma symboliska filer; de räknas högst som en svag signal.
  • Undvik massiva odifferentierade dumpningar om det inte finns ett starkt maskinkonsumtionsbehov och en tillförlitlig genereringspipeline.
  • Validera slutlig URL, svarsbody, content type, Markdown-struktur, antal länkar och filstorlek efter publicering.

Team bör också sätta förväntningarna noggrant. De tillgängliga offentliga experimenten bevisar inte att llms.txt i sig ökar AI-hänvisningstrafik. Om ett team vill testa affärseffekten bör det spåra LLM-hänvisningar, citerade sidor, botförfrågningar, indexets färskhet och innehållsförändringar tillsammans. Ett användbart experiment skulle jämföra matchade sidgrupper, hålla innehållsuppdateringar konstanta där det går och separera plattformsspecifik trafik som Perplexity, ChatGPT, Gemini, Claude och Bing/Copilot.

Begränsningar

Detta är ett crawl-baserat ögonblicksfoto, inte en permanent sanning. Webbplatser kan när som helst lägga till, ta bort eller ändra llms.txt-filer. Vissa domäner kan blockera automatiska förfrågningar eller bete sig olika beroende på geografi, TLS-konfiguration, omdirigeringslogik, user agent eller bot-skydd. Studien testade endast filer på rotnivå och sökte inte i subdomäner eller icke-standardiserade sökvägar.

Kvalitetspoängen och arketyperna är forskningsverktyg, inte officiella efterlevnadsetiketter. Ämnesanalysen är nyckelordsbaserad och bör läsas som vägledande. Studien bevisar inte att någon specifik AI-plattform i dag läser, respekterar eller använder llms.txt i produktion.

Den externa trafikevidensen som granskats i denna version har också begränsningar. Search Engine Lands analys är starkare som en försiktig observation över flera sajter än som ett randomiserat experiment. Alimbekovs resultat är användbart som en transparent fallstudie på sajtnivå, men det saknar kontrollgrupp och omfattar en period då den totala hänvisningstrafiken ökade markant. Dessa referenser hjälper till att rama in debatten, men de gör inte denna crawl till en kausal trafikstudie.

Filer och reproducerbarhet

FilSyfte
crawl_llms_txt.pyCrawler för /llms.txt och /llms-full.txt.
analyze_llms_txt.pyHuvudanalys av användning och diagramgenerering.
deep_analyze_llms_txt.pySekundär analys för rankdeciler, TLD:er, ämnessignaler, kvalitetspoäng, arketyper och beteende med två filer.
deep_dive_early_quality.pyKlassificering av tidiga användare och fördjupad analys av implementeringskvalitet.
data/llms_probe_results_top_10000.csvHuvuddataset för crawl-resultat.
data/deep_analysis_top_10000.jsonSammanfattning av sekundäranalys.
data/deep_early_quality_analysis.jsonKategorier för tidiga användare, jämförelse av kvalitet mellan kohorter, arketypdetaljer och fallstudier.

Källor

  • , Jeremy Howard, 2024.
  • .
  • .
  • .
  • , Data Provenance Initiative.
  • .
  • , Search Engine Land, januari 2026.
  • , Rankability, juni 2025.
  • , Renat Alimbekov.

Metodkorrigeringar, datasetproblem och uppföljande analyser välkomnas på support@thunderbit.com. Den här rapporten publiceras oberoende av någon kommersiell position som Thunderbit har. Uppgifterna i rapporten står på egna ben. — Thunderbit Research Team, maj 2026.

Testa Thunderbit för att skrapa och analysera webdata

Testa Thunderbit

Skrapa leads och annan data med bara 2 klick. Drivs av AI.

Skaffa Thunderbit Det är gratis
Extrahera data med AI
Överför enkelt data till Google Sheets, Airtable eller Notion
PRODUCT HUNT#1 Product of the Week