Hoe toonaangevende websites de grens trekken voor AI-crawlers

Samenvatting voor executives

We hebben het robots.txt-bestand opgehaald van elk domein in de Tranco top 10.000-lijst van ’s werelds websites met het hoogste verkeer. Vervolgens hebben we elk bestand geparseerd met een parser die RFC 9309 volgt, het bestand geclassificeerd op basis van het AI-botbeleid dat de site al dan niet heeft ingevoerd, en geteld hoeveel van ’s werelds meest bezochte sites daadwerkelijk proberen ChatGPT, Claude, Perplexity, Gemini, Common Crawl, Bytespider, Apple Intelligence en de andere crawlers te blokkeren die in 2026 grote taalmodellen trainen en ondersteunen.

De belangrijkste cijfers, op een steekproef van 7.248 sites waarvan we robots.txt netjes konden lezen:

20,3% van de top 10.000 sites ter wereld blokkeert minstens één AI-crawler. 17,0% heeft bewust een expliciete AI-specifieke regel geschreven. De overige 80% laat AI-crawlers net zo welkom zijn als Googlebot.

Zes bevindingen die het verhaal kantelen:

Nieuwsorganisaties blokkeren in 47% van de gevallen — het hoogste percentage van alle sectoren. Duitse nieuwsmedia leiden met 88%, Franse met 80%, Russische met 0%. De juridische context, niet technologie of sector-economie, is de belangrijkste drijfveer.
CCBot (Common Crawl) is de meest geblokkeerde bot met 16,3% — vóór GPTBot (15,8%) en Bytespider (14,9%). Uitgevers richten zich op het trainingscorpus, niet op het modelmerk. De meest gebruikte selectieve regel is "blokkeer CCBot, sta Googlebot toe" (14,1% van de sites).
Frankrijk loopt voorop met 50,6% AI-blokkering op .fr-sites; de EU-cluster ligt 16 punten boven het wereldwijde basisniveau. 275 robots.txt-bestanden verwijzen expliciet naar EU-richtlijn 2019/790. Artikel 4 is de enige juridische context die zichtbaar de cijfers beweegt.
17,8% schreef eigen AI-regels; 4,5% gebruikt Cloudflare’s vendorsjabloon; 75,7% zegt niets. Grote sites schrijven zelf; de lange staart gebruikt de schakelaar. The Atlantic en cloudflare.com zelf staan op de Cloudflare Managed-lijst.
108 sites staan GPTBot expliciet toe — WordPress.org, Kaspersky, Norton, Avast, Sophos, The Verge, The Atlantic, NBA.com, The Sun, Branch.io. Security en ontwikkeltools zijn oververtegenwoordigd.
AI-beleid wordt niet strenger aan de kop van de curve. Top 100, 101–1000, 1001–5000 en 5001–10000 zitten allemaal tussen 19% en 23%. Het headline-percentage is een eigenschap van het openbare web in 2026, niet van de grootte van een individuele site.

Het verhaal gaat niet langer over de vraag of het web "terugslaat." Het gaat over welke sectoren, welke landen, welke juridische kaders en welke AI-vendors het doelwit zijn van actief beleid — en welke niet.

I. Achtergrond: hoe `robots.txt` een AI-beleidsdocument werd

Drie krachten hebben sinds OpenAI GPTBot in augustus 2023 uitbracht de betekenis van robots.txt veranderd.

AI-vendors werden talrijker. Google’s Google-Extended, Anthropic’s ClaudeBot, ByteDance’s Bytespider, Apple’s Applebot-Extended, Amazon’s Amazonbot, Meta’s Meta-ExternalAgent volgden allemaal. De bestaande CCBot van Common Crawl werd het blokkeerdoel met de grootste impact, omdat het archief de voedingsbron is voor de meeste open-weight modellen. Ook niet-vendor bots doken op: AI2Bot, cohere-ai, PerplexityBot, YouBot, DuckAssistBot, Diffbot, Omgili. Een volledige blokkeerlijst voor 2026 telt ongeveer 25 namen.

Artikel 4 van de EU-auteursrechtrichtlijn 2019/790 creëerde een wettelijke uitzondering voor tekst- en datamining die niet van toepassing is als de rechthebbende zijn rechten “uitdrukkelijk heeft voorbehouden” op een “machineleesbare” manier. In heel 2024–2025 zijn EU-uitgevers en hun juristen robots.txt gaan gebruiken als de standaardmanier om dat voorbehoud te uiten. Onze dataset laat zien dat 275 sites Richtlijn 2019/790 expliciet noemen en 87 “TDM” vermelden — vooral op Europese nieuwssites, waar het als een juridische inleiding van 4–8 regels staat.

Cloudflare productiseerde de schakelaar. In 2024–2025 lanceerde Cloudflare een dashboard voor “AI Audit”, een schakelaar “Block AI Bots”, en een Managed robots.txt-sjabloon met de taal Content-Signal: search=yes,ai-train=no plus standaardtekst over EU 2019/790. In mei 2026 draait dat sjabloon op 4,5% van de parseerbare top 10k. Cloudflare’s roadmap bespreekt openbaar om de schakelaar standaard aan te zetten voor nieuwe accounts — wat de wereldwijde blokkeergrens met 5–8 punten zou verschuiven zonder dat een individuele uitgever een beslissing neemt.

robots.txt is in 2026 niet langer het kleurloze configuratiebestand dat het in 2022 was. Het is een mechanisme om auteursrechten voor te behouden, met verdragssteun in de EU, een door vendors vormgegeven beleidsdocument in de lange staart, en de frontlinie van een langzaam onderhandelingsproces tussen de mensen die websites beheren en de mensen die modellen trainen.

II. Methodologie

We hebben geprobeerd dit zo saai en reproduceerbaar mogelijk te maken. De volledige pipeline (Python-scripts, geparste CSV’s, ruwe robots.txt-archieven, grafieken) is samen met dit rapport gepubliceerd.

Steekproef

We zijn begonnen met de Tranco-lijst van mei 2026, gedownload als top-1m.csv.zip, en hebben de eerste 10.000 rijen geselecteerd. Tranco aggregeert vier upstream-rankings (Cisco Umbrella, Majestic, Farsight en Cloudflare Radar), filtert op stabiliteit over een periode van 30 dagen en verwijdert duidelijke crawler/CDN-ruis. De lijst die daaruit komt, is het dichtst bij een canonieke “wereldwijde top-10k voor webverkeer” dat publiek beschikbaar is, en is de standaardsteekproef voor academisch webonderzoek (gebruikt in 600+ peer-reviewed papers sinds KU Leuven het in 2018 lanceerde).

De lijst bevat een mix van (a) primaire websites die mensen bezoeken, (b) infrastructuur-/API-/DNS-/CDN-apexdomeinen die geen / bedienen, en (c) domeinen die intern door grote platforms worden gebruikt (bijv. gvt1.com, apple-dns.net, googleusercontent.com). In plaats van deze vooraf weg te filteren, hebben we ze allemaal behouden en in de analysetlaag als categorie infrastructure gelabeld. Ze vallen vanzelf weg wanneer we ons beperken tot “sites die een parseerbaar robots.txt teruggaven.”

Ophalen

Voor elk van de 10.000 domeinen hebben we asynchroon een GET /robots.txt via HTTPS uitgevoerd, met een fallback naar HTTP, redirects tot vier sprongen gevolgd, een totale timeout van 12 seconden, een bodemplafond van 500 KB, en een echte browser User-Agent-string met Accept-Language: en-US. De gelijktijdigheid werd begrensd op 80 verzoeken tegelijk. De taak liep vanaf één residentieel IP in San Francisco.

De fetch-uitkomst:

Status	Aantal	Interpretatie
`200 OK`	6.638	`robots.txt`-inhoud ontvangen en te parsen.
`404 Not Found`	610	Er bestaat geen `robots.txt`. RFC 9309 definieert dit als impliciet "alles toestaan."
`403 Forbidden`	563	De origin weigert actief `robots.txt`-verzoeken. Uit de analyse verwijderd.
`429 Too Many Requests`	7	Bij deze rangklasse vrijwel geen throttling op CDN-niveau.
`fetch_failed` (TLS / DNS / TCP-fout)	2.065	Vooral CDN-apexpunten (`akamai.net`, `cloudfront.net`, `fastly.net`, `gtld-servers.net`, `apple-dns.net`) die geen webserver op `/` draaien. Niet "geblokkeerd" — er is gewoon geen `robots.txt` om te serveren.
Overige 4xx/5xx	117	Gemengd — serverfouten, geofencing, ongeldige antwoorden.

Hiermee komen we uit op 7.248 sites in de analyseerbare steekproef (6.638 200 + 610 404). De 2.065 fetch_failed zijn echte domeinen, maar het zijn CDN/DNS-apexpunten, geen sites die mensen bezoeken, en ze als een “AI-beleid” behandelen heeft geen zin. Ze staan in de dataset als een aparte toegankelijkheidsstatistiek.

Parsing

Elke 200-body is geparset met protego, een Python-implementatie van RFC 9309 die in productie door Scrapy wordt gebruikt. Voor elk (site, bot)-paar hebben we drie dingen berekend:

can_fetch_root — of de bot / mag ophalen, met de groeps-/recordssemantiek van de standaard, prioriteit voor de langste overeenkomst, en de override van User-agent: * door een specifieke bot-blokkade wanneer beide bestaan.
has_specific_rule — of het bestand een User-agent:-regel bevat die deze exacte bot noemt (hoofdletterongevoelig).
disallow_count — hoeveel Disallow:-instructies er in het overeenkomende blok staan, gebruikt om volledige sitebrede verboden te onderscheiden van padbeperkingen.

Die combinatie is belangrijk, omdat een top-line “blokkeerpercentage” twee totaal verschillende fenomenen verhult: merken die bewust User-agent: GPTBot \n Disallow: / schreven omdat ze terug wilden duwen, en merken waarvan een generieke User-agent: * \n Disallow: /-blokkade (jaren geleden opgezet voor staging of onderhoud) toevallig ook elke AI-bot verbiedt die nog niet bestond toen de regel werd geschreven. In dit rapport omvat het cijfer “any AI block” beide soorten; het cijfer “explicit AI block” is de bewuste subset.

Bots binnen scope

We volgden 25 bots, gegroepeerd in drie categorieën:

AI-trainingscrawlers (16): GPTBot, ClaudeBot, anthropic-ai, CCBot, Google-Extended, Meta-ExternalAgent, Bytespider, Applebot-Extended, Diffbot, Amazonbot, ImagesiftBot, FacebookBot, cohere-ai, AI2Bot, Omgili, Omgilibot.
AI-inferentie / live retrieval bots (7): PerplexityBot, Perplexity-User, ChatGPT-User, OAI-SearchBot, ClaudeBot (dat zowel training als inferentie bedient), YouBot, DuckAssistBot.
Zoekbasis (6): Googlebot, Bingbot, DuckDuckBot, Slurp (Yahoo), Baiduspider, YandexBot.

Een paar bots zitten op de grens tussen training en inferentie. ClaudeBot is de opvallendste — Anthropic heeft de oudere anthropic-ai-UA in 2024 uitgefaseerd en gebruikt nu ClaudeBot voor zowel training als live retrieval, dus een regel Disallow: ClaudeBot betekent niet langer netjes “blokkeer training maar behoud zichtbaarheid.” We hebben de toewijzing laten staan en het gevolg later benoemd.

Sectorclassificatie

We hebben elk domein geclassificeerd in 16 sectorcategorieën (news, social, streaming, ecommerce, search, finance, infrastructure, saas, academia, dev, gov, adult, gambling, travel, telecom, unknown) met een gelaagde aanpak:

Bekende-domeinwoordenboek — een handmatig samengestelde map van ~500 drukbezochte domeinen naar sectoren.
TLD-/suffixpatronen — .gov → gov, .edu en .ac.* → academia, herkende CDN-suffixen → infrastructure.
Trefwoorden in domeinnamen — news, post, shop, bank, porn, casino enz. als fallbacksignalen.
Homepage-scrape — voor sites die de eerste drie lagen niet konden classificeren en die een robots.txt 200 teruggaven, hebben we de HTML van de homepage opgehaald, <title>, <meta name="description">, <meta property="og:type"> geëxtraheerd, en een keyword scoring gedraaid tegen categorie-signalen in de stijl van taalmodellen.

Dit leverde 3.407 sites (34%) op met een zekere sectorlabeling en 6.593 sites die unknown bleven. De unknown-bucket wordt gedomineerd door niet-Engelse regionale portalen, corporate .com-merkensites die niet in één categorie passen, en traditionele uitgevers in kleinere taalmarkten waarvoor we geen woordenboekinvoer hadden. Waar dit rapport een sectoraal percentage noemt, is de noemer de geclassificeerde steekproef voor die sector, niet de volledige 10.000.

III. Bevindingen

Bevinding 1 — Eén op de vijf sites met veel verkeer blokkeert minstens één AI-bot

Over de 7.248 analyseerbare sites blokkeren 1.472 (20,31%) minstens één AI-bot. 1.230 (16,97%) hebben een bewuste AI-specifieke regel. De Googlebot-baseline is 2,18% (158 sites — de meeste blokkeren ofwel alles als standaard voor onderhoud, of zijn in drie gevallen zoekmachines die concurrenten blokkeren).

De headline van 20% is 9× de Googlebot-baseline. Dat is een echt signaal — sites met veel verkeer blokkeren veel vaker een AI-crawler dan een zoekcrawler — maar het is ook een stuk lager dan het “AI-blokkeren wordt universeel” narratief dat sinds 2024 in de pers rondgaat. Zelfs op de 10.000 meest bezochte sites van het web blijft de grote meerderheid stil over AI.

Het verschil tussen “any AI block” (20,3%) en “explicit AI block” (17,0%) is in absolute zin klein, maar conceptueel belangrijk. Het verschil van 3,3 punten is het aandeel sites dat AI-bots alleen blokkeert omdat hun bestaande User-agent: * \n Disallow: /-regel alles vangt wat langskomt, inclusief bots die niet bestonden toen de regel werd geschreven. Het cijfer 17,0% geeft een schoner beeld van “hoeveel van ’s werelds grootste websites een AI-specifieke beslissing hebben genomen.”

Afgezet tegen eerdere literatuur:

Bron	Datum	Steekproef	Blokkeerpercentage
Originality.ai	mrt. 2025	1.000 populairste nieuwsbronnen (Engels)	35,7% blokkeert GPTBot
Palewire	aug. 2024	1.500 nieuwsorganisaties	36,0% enige AI-crawler
Reuters Institute	voorjaar 2025	50 toonaangevende nieuwsmerken, 10 landen	78% enige AI-crawler
WIRED / NYT	eind 2023	Top 50 Amerikaanse nieuwsbronnen	26% blokkeert GPTBot
Dit rapport (Thunderbit)	mei 2026	Tranco top 10.000 (alle sectoren)	20,3% / 17,0% expliciet

Onze 17,0% expliciet is lager dan elke nieuws-only studie, omdat tweederde van onze steekproef geen nieuws is. Beperkt tot de 650 nieuwssites komen we op 47% — binnen dezelfde band als de eerdere studies, zodra je de samenstelling van de steekproef meeneemt. Het structurele beeld blijft hetzelfde: de nieuwscohort blokkeert AI tegen 3–4× het tempo van de rest van het web.

Bevinding 2 — Diep in de sectoren: een spreiding van 12× van nieuws naar telecom

De meest geciteerde bevinding in twee jaar “AI scraping”-verslaggeving is het 80% van de nieuwsmedia blokkeert GPTBot-cijfer van Originality.ai en Palewire. Onze uitsnede levert een kleiner maar nog steeds onderscheidend cijfer op: 47,2% van de nieuws-sites in de top 10.000 blokkeert minstens één AI-bot, en 45,2% schrijft een expliciete AI-regel.

Maar “nieuws versus alles anders” is te grof. De volledige uitsplitsing (sectoren met n ≥ 10 in de steekproef) vertelt een veel rijker verhaal:

Sector	n	Any AI block	Expliciet	Googlebot geblokkeerd	Eigen regels	Cloudflare Managed	Stil
Nieuws	650	47,2%	45,2%	1,5%	46,9%	1,5%	48,5%
Reizen	64	29,7%	29,7%	0,0%	35,9%	3,1%	54,7%
Sociaal	65	29,2%	23,1%	4,6%	23,1%	6,2%	66,2%
Streaming	440	20,0%	17,7%	0,7%	16,8%	3,6%	75,5%
Finance	129	19,4%	12,4%	0,8%	14,7%	2,3%	75,2%
E-commerce	224	18,3%	17,4%	0,4%	24,1%	1,3%	66,1%
Adult	254	17,3%	14,6%	0,4%	10,2%	7,9%	79,5%
Search	12	16,7%	0,0%	0,0%	0,0%	0,0%	100,0%
Academia	268	14,6%	13,8%	0,4%	13,4%	3,4%	77,2%
Gambling	100	14,0%	13,0%	0,0%	18,0%	4,0%	77,0%
Ontwikkeltools	129	10,1%	7,8%	0,0%	8,5%	5,4%	77,5%
SaaS	369	7,6%	6,2%	0,3%	9,5%	0,8%	87,5%
Overheid	172	5,2%	3,5%	0,0%	4,1%	0,6%	83,1%
Infrastructuur	47	4,3%	0,0%	0,0%	4,3%	2,1%	72,3%
Telecom	33	3,0%	3,0%	0,0%	12,1%	0,0%	78,8%

De spreiding van 12× tussen nieuws en telecom is precies waarom “het AI-beleid van het web” de verkeerde analyseeenheid is. Er is niet één getal; er zijn sectorspecifieke getallen die een orde van grootte uit elkaar lopen. Hieronder lopen we de vier meest onderscheidende bevindingen door.

Nieuws: 47% blokkade, 47% DIY. Nieuws is de cohort die het draaiboek schreef. Cloudflare Managed komt in nieuws slechts op 1,5% uit — deze uitgevers besteden de regel niet uit. De tekst is opvallend rijk: de NYT opent met een juridische inleiding van 14 regels die verwijst naar “Art. 4 of the EU Directive”; de BBC met “Please use our site like a human, not a robot... TL;DR: Browse, read, watch, enjoy — like a human.”; The Sun met “The Sun does not permit the unlicensed use of our content for large language models.” Dit is robots.txt als beleidsverklaring, niet als configuratie.

Reizen op 30% — de verrassing. Booking, Expedia, TripAdvisor, Kayak en de grote luchtvaartmaatschappijen blokkeren tegen ongeveer tweederde van het nieuwspercentage. Het selectieve patroon is consistent: de gemiddelde reiscrawler blokkeert 5–7 trainings-UA’s, maar laat inferentie-UA’s (PerplexityBot, ChatGPT-User, OAI-SearchBot) ongemoeid. Geaggregeerde prijs- en reviewdata is de moat; citaties terug naar de site zijn de upside. Dit is het zuiverste “training eruit, inferentie erin”-patroon in één sector.

Adult op 17% — ook een verrassing. Eerdere kleinere steekproeven lieten 0% zien. De full-sample data laat zien dat 1 op de 6 adult-sites minstens één AI-bot verbiedt, met het hoogste Cloudflare Managed-percentage van alle sectoren (7,9%). Meer dan de helft van de AI-blokkades in de adultsector komt van de Cloudflare-schakelaar, niet van een uitgeversbeslissing. Training voor beeldgeneratie is de impliciete dreiging — modellen in de StableDiffusion-klasse leren visuele stijl sneller dan taalmodellen schrijfstijl leren.

SaaS op 7,6% is contra-intuïtief. Softwareleveranciers zijn het luidst in het AI-beleidsgesprek, maar hun robots.txt staat vaak wijd open. De juiste lezing: SaaS-marketingteams hebben AI-zoekopdrachten correct herkend als distributiekanaal. De leveranciers die er wél over hebben nagedacht, kiezen eerder voor opt-in dan voor opt-out — de expliciete Allow-GPTBot-lijst (Bevinding 12) wordt gedomineerd door security- en devtooling-SaaS.

Overheid 5,2%, telecom 3,0%, infrastructuur 4,3%, dev 10,1%. Wetgeving voor openbare registers maakt Disallow: / juridisch precair voor .gov. Telecommarketing wil vindbaarheid. CDN-apexdomeinen hebben niets te beschermen. Ontwikkeltools kiezen expliciet voor opt-in (hun content wordt waardevoller als LLM’s ernaar verwijzen).

De conclusie: er bestaat geen enkel getal voor “het web blokkeert AI wel/niet” dat niet meer verliest dan het zegt. Rapportage per sector is de enige eerlijke manier om deze data te bespreken.

Bevinding 3 — Per AI-vendor: wie wordt het meest geblokkeerd?

Een andere natuurlijke uitsnede van de data is per AI-bedrijf in plaats van per bot. Meerdere vendors draaien meerdere bots (OpenAI draait er drie: GPTBot, ChatGPT-User, OAI-SearchBot; Anthropic draait er twee: ClaudeBot, anthropic-ai; Meta draait er twee: Meta-ExternalAgent, FacebookBot). Samenvoegen op vendorniveau is het dichtst bij de vraag “wat vindt het openbare web van elk AI-bedrijf?”

AI-vendor	Bots samengevoegd	Sites die ≥ 1 bot blokkeren	% van analyseerbaar
Common Crawl	`CCBot`	1.178	16,25%
OpenAI	`GPTBot`, `ChatGPT-User`, `OAI-SearchBot`	1.172	16,17%
Anthropic	`ClaudeBot`, `anthropic-ai`	1.111	15,33%
ByteDance	`Bytespider`	1.082	14,93%
Meta	`Meta-ExternalAgent`, `FacebookBot`	989	13,65%
Google	`Google-Extended`	970	13,38%
Amazon	`Amazonbot`	877	12,10%
Apple	`Applebot-Extended`	859	11,85%
Webz.io (Omgili)	`Omgili`, `Omgilibot`	731	10,09%
Cohere	`cohere-ai`	717	9,89%
Perplexity	`PerplexityBot`, `Perplexity-User`	715	9,86%
Diffbot	`Diffbot`	684	9,44%
You.com	`YouBot`	563	7,77%
AI2 (Allen AI)	`AI2Bot`	487	6,72%
DuckDuckGo	`DuckAssistBot`	482	6,65%

Common Crawl is de meest doelwitgerichte partij ondanks dat het een non-profit webarchief is en geen LLM-uitbater. De reden is hefboomwerking: CCBot voedt bijna elk open-weight model en een substantieel deel van de gesloten modellen. CCBot eerst blokkeren is de regel met de hoogste dekking die een uitgever kan schrijven.

OpenAI, Anthropic en ByteDance clusteren rond 14–16%. OpenAI’s voorsprong is deels een telartefact (drie OpenAI-bots versus één bot voor ByteDance). Bytespider’s 14,9% is het “Bytespider-gedrag”-effect — het is sinds 2024 gedocumenteerd dat het robots.txt negeert, en uitgevers blokkeren het als publiek signaal, niet omdat ze bang zijn voor TikTok.

Meta, Google, Amazon, Apple op 12–14% vormen de tweede laag — defensief geschreven in plaats van als positieverklaring. Kleinere vendors (Webz.io, Cohere, Perplexity, Diffbot, You.com, AI2, DuckDuckGo) op 6–10% worden vooral omhoog getrokken door de algemene vloer van 3,8%; expliciete regels voor hen zitten in de 1–4%-range.

xAI (Grok), Mistral en de meeste Europese/Chinese modellabs ontbreken in de tabel — ze hebben geen gedocumenteerde UA’s voor trainingscrawlers gepubliceerd. Het huidige robots.txt-ecosysteem is een dialoog tussen Amerikaanse/Chinese vendors die UA’s uitbrachten en Amerikaanse/Europese uitgevers die regels schreven; vendors die niets uitbrachten zijn onzichtbaar in de onderhandeling.

Bevinding 4 — `CCBot` is de nieuwe bliksemafleider, niet `GPTBot`

De volgorde van bots in de top-10k ziet er zo uit:

Rang	Bot	Blokkeerpercentage	Expliciete-regel-rate
1	CCBot (Common Crawl)	16,25%	12,90%
2	GPTBot (OpenAI)	15,84%	12,72%
3	Bytespider (ByteDance)	14,93%	11,35%
4	ClaudeBot (Anthropic)	14,51%	11,13%
5	Google-Extended	13,38%	10,18%
6	Meta-ExternalAgent	12,38%	8,95%
7	Amazonbot	12,10%	8,66%
8	Applebot-Extended	11,85%	8,72%
9	Omgilibot	10,09%	5,31%
10	anthropic-ai (verouderd)	9,99%	6,55%
11	cohere-ai	9,89%	6,42%
12	PerplexityBot	9,69%	6,40%
13	Diffbot	9,44%	5,95%
14	ChatGPT-User (inferentie)	8,90%	5,73%
15	YouBot (inferentie)	7,77%	4,29%
16	OAI-SearchBot (inferentie)	6,83%	3,66%
basislijn	Googlebot	2,18%	—
basislijn	Bingbot	2,27%	—

Het verhaal van deze tabel is dat de bot die het openbare web als eerste blokkeert niet het modelmerk is — het is het corpus. Common Crawl’s archief van 250 miljard pagina’s is de grootste trainingsinput geweest voor GPT-3, GPT-4, Llama 1 / 2 / 3, Falcon, Mistral, BLOOM en de meeste open-weight modellen die sinds 2020 zijn uitgebracht. Een site die wil opt-outen van “in het volgende frontiermodel zitten” optimaliseert door eerst CCBot te blokkeren — zodra je niet in Common Crawl zit, ben je in de praktijk gratis uitgesloten van de open-source trainingspijplijn. GPTBot en ClaudeBot komen tweede en derde omdat ze de zichtbare voorkant zijn van twee specifieke commerciële producten; de corpus-UА is het structurele doelwit.

De lager geplaatste AI-bots in de tabel zijn ook informatief. Omgilibot op 10% is opvallend hoog voor een bot waar de meeste lezers nog nooit van hebben gehoord — het wordt geëxploiteerd door Webz.io, een content-data broker die webarchieven verkoopt aan LLM-vendors, en een aanzienlijke groep nieuwsorganisaties noemt het inmiddels expliciet in hun bestanden. AI2Bot op 6,7% (en een bijbehorende Ai2Bot-Dolma-regel op Squarespace-sites) suggereert dat ook de academische LLM-gemeenschap wordt geflagd door uitgevers die niet per se onderscheid maken tussen “non-profit onderzoekscrawler” en “commerciële crawler.”

De inferentiecluster — ChatGPT-User, OAI-SearchBot, YouBot, Perplexity-User — zit 4–8 procentpunten onder de trainingscluster. Dat verschil is het antwoord op een langlopende beleidsvraag: ja, sites met veel verkeer maken onderscheid tussen een bot die data verzamelt voor toekomstige modeltraining en een bot die live retrieval doet om nu een vraag van een gebruiker te beantwoorden. Ze maken het onderscheid niet altijd (de algemene regels doen dat niet), maar een betekenisvol deel schrijft regels die specifiek op de trainingskant mikken.

Bevinding 5 — 14% blokkeert `CCBot` maar laat `Googlebot` welkom: het patroon “blokkeer het corpus, behoud de zoekmachine”

De selectieve regel met de meeste adoptie in de top-10k:

Regelpatroon	Sites	% van analyseerbaar
Blokkeer `CCBot`, sta `Googlebot` toe	1.023	14,11%
Blokkeer `Bytespider`, sta `Googlebot` toe	926	12,78%
Blokkeer `Google-Extended`, sta `Googlebot` toe	816	11,26%
Blokkeer `GPTBot`, sta `OAI-SearchBot` toe	658	9,08%
Blokkeer `GPTBot`, sta `ChatGPT-User` toe	525	7,24%
Blokkeer `CCBot`, sta `PerplexityBot` toe	519	7,16%
Blokkeer `anthropic-ai`, sta `ClaudeBot` toe	59	0,81%

Het meest gebruikte patroon (14,1%) is “blokkeer Common Crawl, behoud Google-zoekzichtbaarheid.” De nummer twee (12,8%) is “blokkeer Bytespider, behoud Google-zoekzichtbaarheid” — dus: blokkeer ByteDance’s crawler met een reputatieprobleem, terwijl de legitieme zoekbaseline intact blijft. De derde (11,3%) is “blokkeer Google’s eigen AI-trainings-UA terwijl Google’s zoek-UA wel blijft toestaan,” precies de scheiding waarvoor Google Google-Extended heeft ontworpen: de uitgever kiest uit voor Bard / Gemini-training zonder zoekranking te verliezen.

Samen beschrijven deze drie cijfers de dominante beleidslijn op het top-10k-web: blokkeer de trainingscorpus-bots, laat de zoek- en inferentiebots ongemoeid. Het minderheidspatroon “blokkeer training maar laat deze specifieke live-retrieval-UA van het LLM toe” — GPTBot ✗ / ChatGPT-User ✓ op 7,2% — bestaat, maar is kleiner dan de corpusniveau-snoei.

De rij anthropic-ai / ClaudeBot op 0,81% weerspiegelt Anthropic’s UA-uitfasering in 2024: ClaudeBot bedient nu zowel training als inferentie, waardoor de duidelijke uitdrukking “blokkeer training, sta citatie toe” die de oude anthropic-ai-UA wel mogelijk maakte, verdwijnt. Dit is misschien wel de meest onderbesproken UA-ontwerpbeslissing van 2024–2025 — ze heeft een hele klasse beleidsuitingen uit robots.txt verwijderd.

Bevinding 6 — Nieuws in detail: per land en taal

Als we de nieuwscategorie uitsplitsen op landcode-TLD — waarbij belangrijk is dat dit .de voor Duits nieuws betekent, .fr voor Frans nieuws enz., niet de taal van de content — is de variatie binnen nieuws groter dan de variatie tussen nieuws en de rest:

Land (alleen nieuws)	n	Any AI block	Expliciet
🇩🇪 Duitsland (`.de`)	25	88,0%	88,0%
🇫🇷 Frankrijk (`.fr`)	15	80,0%	80,0%
🇬🇧 Verenigd Koninkrijk (`.co.uk`)	15	66,7%	53,3%
🇪🇸 Spanje (`.es`)	5	60,0%	60,0%
🇮🇹 Italië (`.it`)	13	53,8%	53,8%
Wereldwijd nieuws (`.com`/`.org`/enz.)	500	45,0%	42,8%
🇵🇱 Polen (`.pl`)	7	42,9%	42,9%
🇯🇵 Japan (`.jp`)	12	25,0%	25,0%
🇷🇺 Rusland (`.ru`)	13	0,0%	0,0%
🇬🇷 Griekenland (`.gr`)	6	0,0%	0,0%

Duitse nieuwsmedia zijn met 88% de meest blokkerende subsegment in de hele dataset, en het is 88% expliciet — er is vrijwel geen Duitse nieuwssite in de top 10k die AI-trainingscrawlers toegang geeft tot zijn archief. De cohort wordt aangevoerd door Spiegel, Bild, Welt, Zeit, FAZ, Süddeutsche, Heise, Golem, Stern, Focus — de hele Duitse gevestigde journalistiek, plus techuitgevers die afzonderlijk regels hebben geschreven. De politieke infrastructuur eronder is dicht: VG Media, de collectieve auteursrechtenorganisatie van Duitse uitgevers, is de meest agressieve klager in EU-geschillen over AI-auteursrecht geweest, en Artikel 4 van de EU-richtlijn is in Duits recht geïmplementeerd als §44b UrhG met expliciete machineleesbare opt-out-taal. Tegen de tijd dat AI-vendors arriveerden, waren Duitse uitgevers van alle nationale cohorten het best voorbereid om die juridische houding om te zetten in robots.txt-regels.

Franse nieuwsmedia op 80% zitten daar net onder. De Franse juridische omgeving lijkt op die van Duitsland (Richtlijn 2019/790 omgezet in Franse wet), en het gedrag van de cohort lijkt ook op elkaar — lemonde.fr, lefigaro.fr, liberation.fr, lequipe.fr, 20minutes.fr, ouest-france.fr blokkeren allemaal, waarbij het bestand van Le Monde bovendien verwijst naar het Franse droit du producteur de base de données (Artikel L 342-1 van de Code de la propriété intellectuelle) als parallelle binnenlandse juridische basis. Frankrijk heeft daar bovenop nog een uitspraak uit 2024 van de commerciële rechtbank in Parijs, waarin werd geoordeeld dat opt-outs op basis van robots.txt voldoende kennisgeving vormen onder Artikel 4; dat biedt directe jurisprudentiële steun die geen andere jurisdictie nog evenaart.

Het VK op 67% is lager, en dat komt doordat meerdere grote Britse uitgevers (thesun.co.uk, dailymail.co.uk, mirror.co.uk) User-agent: *-deny-all-blokkades gebruiken in plaats van AI-specifieke regels, waardoor het expliciete percentage daalt naar 53%. Het totale effect is hetzelfde — deze sites staan AI-crawling niet toe — maar het beleid wordt geformuleerd als “geen robots behalve deze specifieke allowlist van zoekmachines” in plaats van als named-AI-bot-disallows. De juridische basis is ook zwakker: na Brexit nam het VK de logica van Artikel 4 over, maar de bijbehorende nationale jurisprudentie is dunner.

Russisch nieuws op 0% is de meest verrassende rij. Dertien nieuwswebsites met Russische domeinen in de steekproef (dzen.ru, rbc.ru, ria.ru, kommersant.ru, tass.ru, lenta.ru, gazeta.ru, interfax.ru, kp.ru, tass.com, enz.) — geen daarvan blokkeert een AI-crawler. De waarschijnlijke verklaring: training van Russische LLM’s wordt gedomineerd door Yandex’ eigen GPT-achtige modellen (die Yandex-internal crawlers gebruiken, niet Common Crawl), de Russische auteursrechtcontext heeft geen equivalent van Artikel 4 opgepikt, en grote Russische uitgevers zien westerse LLM’s als geen echt probleem (Amerikaanse exportbeperkingen beperken OpenAI/Anthropic-diensten in Rusland al) en Yandex als een binnenlandse stakeholder in plaats van een tegenstander. De beleidspositie is simpelweg anders.

Japans nieuws op 25% is een derde patroon. Japan heeft expliciete uitzonderingen voor tekst- en datamining in het nationale auteursrecht (Artikel 30-4 van de Japanse Auteurswet, gewijzigd in 2018) die ruimer zijn dan Artikel 4 van de EU-richtlijn — ze staan TDM toe voor “niet-genot”-doeleinden, inclusief AI-training, zonder toestemming van de rechthebbende. Japanse uitgevers hebben minder juridische basis om uit te sluiten, en de bijbehorende robots.txt-percentages zijn lager. De 25% die wel blokkeert, bestaat vooral uit de grootste, meest kosmopolitische uitgevers (asahi.com, nikkei.com) die zich internationaal eerder dan nationaal positioneren.

De nieuwsdata per land is het helderste bewijs in het rapport dat de juridische context, niet technologie of sector-economie, de belangrijkste drijfveer is achter AI-blokkering. EU-nieuwscohorten clusteren tussen 54% en 88%; niet-EU-nieuwscohorten (Rusland, Japan, de wereldwijde .com-cohort) variëren van 0% tot 45%. De piek van 88% zit in het land met de meest ontwikkelde implementatie van Artikel 4; de vloer van 0% zit in het land met feitelijk geen AI-beleidswetgeving.

Bevinding 7 — EU versus de rest: een kloof van 16 punten

Als we de landenbril een niveau hoger zetten, is het brede EU-versus-rest-verschil scherp:

Regio	n	Any AI block	Expliciet
EU ccTLD’s (`.fr`, `.de`, `.es`, `.it`, `.nl`, `.pl`, `.se`, `.dk`, `.fi`, `.be`, `.at`, `.cz`, `.hu`, `.ro`, `.gr`, `.pt`, `.ie`, `.sk`, `.bg`)	617	35,2%	33,9%
Niet-EU nationale ccTLD’s (`.uk`, `.jp`, `.kr`, `.cn`, `.ru`, `.br`, `.in`, `.au`, `.mx`, `.ca`, `.tr`, `.ar`, `.cl`, `.co`, `.pe`)	897	17,2%	13,6%
Globaal (`.com`, `.net`, `.org`, enz.)	5.734	19,2%	15,7%

EU-ccTLD-sites blokkeren AI tegen twee keer het tempo van de niet-EU-nationale cohort en bijna twee keer het tempo van de wereldwijde .com-basislijn. Het verschil is consistent over de EU-lidstaten heen (geen enkel land bepaalt het gemiddelde) en consistent over sectoren heen (.de nieuws op 88%, .de SaaS op ~12%, .de e-commerce op ~25% — allemaal hoger dan hun wereldwijde tegenhangers).

We vonden 275 robots.txt-bestanden in de top-10k die Richtlijn 2019/790 expliciet in hun comments noemen — ongeveer 3,8% van de parseerbare steekproef. De cohort wordt gedomineerd door EU-uitgevers, maar reikt verder: meerdere Amerikaanse nieuwsmerken (met name NYT, dat direct “Art. 4 of the EU Directive” citeert), enkele Britse sites en een handvol grotere Europese e-commercebestemmingen nemen de juridische taal over. 87 bestanden noemen “TDM” of “text and data mining” expliciet. 460 bestanden bevatten een vorm van taal om auteursrechten voor te behouden (“expressly opts out,” “all rights reserved,” “no commercial use,” “no machine learning”), ook waar geen specifieke wet wordt genoemd.

Twee verdere, meer fijnmazige observaties uit deze uitsnede:

Het EU-effect is niet alleen nieuws. Als we nieuws constant houden, blokkeren niet-nieuwe EU-sites AI nog steeds vaker dan niet-nieuwe niet-EU-sites (ongeveer 28% versus 14%). Een kleine maar reële groep EU-SaaS, e-commerce en academia heeft het Artikel 4-raamwerk ook in hun eigen sector geïnternaliseerd.

De EU-achtige taal wordt buiten de EU steeds meer een de facto sjabloon. Het Cloudflare Managed robots.txt-sjabloon — wereldwijd gebruikt — verwijst expliciet naar “ARTICLE 4 OF THE EUROPEAN UNION DIRECTIVE 2019/790” in de standaardtekst. Een Amerikaanse site die Cloudflare’s instelling “Block AI Bots” inschakelt, claimt zonder dat misschien te beseffen een EU-wettelijk voorbehoud van rechten. Dit is een van de interessantste policy-drift-artifacts die we vonden: een Europees juridisch concept wordt geglobaliseerd via de productinterface van een Amerikaanse infrastructuurprovider.

Bevinding 8 — Sjablonen en oorsprong van sjablonen

De uitsplitsing naar sjabloonoorsprong van de 6.638 sites die een parseerbaar robots.txt teruggaven:

Sjabloon	Sites	Aandeel
Geen AI-bot genoemd (standaard Shopify-achtig, Yoast, handgeschreven zonder rekening te houden met AI)	5.024	75,7%
Aangepaste / DIY AI-regels	1.183	17,8%
Cloudflare Managed (`Content-Signal: search=yes,ai-train=no`)	302	4,5%
Expliciete `Allow: /` voor `GPTBot`	124	1,9%
Squarespace-standaard (28 AI-UA’s in de padbeperkte blokkade)	5	0,1%

DIY-regels domineren met 17,8%. De groep zelfgeschreven blokkeerders wordt aangevoerd door elk socialmediaplatform (facebook.com, twitter.com, linkedin.com, whatsapp.com, tiktok.com, snapchat.com, pinterest.com, x.com, chatgpt.com zelf), de grootste e-commercebestemmingen (amazon.com, amazonvideo.com), de grootste nieuwsmerken (nytimes.com, cnn.com, bbc.com, theguardian.com, forbes.com, reuters.com, bbc.co.uk, t-online.de, weather.com), sleutelspelers in streaming/media (netflix.com, vimeo.com, soundcloud.com, imdb.com), en een lange staart van professionele-dienstenwebsites (canva.com, medium.com).

Cloudflare Managed zit op 4,5% — veel hoger dan dezelfde templatepenetratie aan de absolute top van de curve en lager dan de penetratie in de lange staart buiten het bereik van dit rapport. Het sjabloon wordt vooral gebruikt in het segment rang 1001–10.000 (4–5%) en is vrijwel afwezig aan de top van de curve (Top 100: 1 site gebruikt het; Top 101–1000: 5 sites). De grote mondiale properties schrijven hun eigen regels; de lange staart gebruikt de schakelaar.

Een paar specifieke Cloudflare Managed-sites zijn het noemen waard. cloudflare.com zelf gebruikt het sjabloon, wat logisch is (Cloudflare gebruikt zijn eigen product op het eigen domein). theatlantic.com gebruikt het sjabloon — het enige grote Amerikaanse nieuwsmerk dat we vonden zonder aangepaste regel. spankbang.com gebruikt het sjabloon — de hoogst gerankte adult-site die een Cloudflare-ingespoten AI-blokkade adopteert. linktr.ee gebruikt het sjabloon, waardoor AI-training over de hele creator economy van Linktree in één vendorbeslissing wordt geblokkeerd. launchpad.net, nexusmods.com, vinted.fr, cookielaw.org, rustdesk.com en een lange lijst van kleinere mediaproperties maken de zichtbare Cloudflare Managed-cohort compleet.

Het adoptiepatroon van Cloudflare is het concreetste bewijs dat een groot deel van “het AI-beleid van het web” door infrastructuurproviders wordt bepaald. Het absolute aandeel is klein (4,5%), maar structureel belangrijk: het sjabloon is de standaard die Cloudflare levert, en de default-on-lijn voor de komende 12 maanden is opwaarts. Als Cloudflare de schakelaar voor nieuwe accounts standaard aanzet, verschuift het wereldwijde blokkeercijfer aanzienlijk zonder dat een individuele uitgever een beslissing neemt.

De Squarespace-standaard (5 sites in de top-10k, maar een veel grotere cohort buiten onze steekproef) is een ander patroon: Squarespace levert een robots.txt waarin 28 AI-bots in één blokkade worden genoemd, maar die bots erven de padbeperkingen van User-agent: * in plaats van een sitebrede ban te krijgen. AI-crawlers kunnen / ophalen, de homepage, productpagina’s, de blog. Ze kunnen alleen /config of /account niet ophalen. We hebben dit eerder al aangemerkt als de bron van fout-positieve “AI block”-lezingen in scans van Squarespace-sites door derden; diezelfde waarschuwing geldt hier.

Bevinding 9 — AI-beleid is uniform over de rangverdeling

De gebruikelijke intuïtie voor dit soort onderzoek is dat de meest bezochte sites het strengste AI-beleid zouden hebben — zij hebben het meeste te verliezen door trainingsverplaatsing, de meeste juridische capaciteit en de meeste publieke aandacht. De data ondersteunt die intuïtie niet.

Rangbucket	n	Any AI block	Expliciet	Cloudflare Managed
Top 100	67	22,4%	17,9%	1 site
Top 101–1.000	598	22,9%	19,2%	5 sites
Top 1.001–5.000	2.810	19,0%	15,3%	99 sites
Top 5.001–10.000	3.773	20,8%	17,8%	197 sites

De vier buckets zitten tussen 19% en 23%. De Top 100 is niet agressiever dan de staart van rang 5.001–10.000. Het headline-percentage lijkt een eigenschap van het openbare web in 2026, niet een signaal van hoe groot of prominent een individuele site is.

Twee factoren spelen mee. Ten eerste wordt de kop van de curve gedomineerd door infrastructuur-/SaaS-/zoek-/portaldomeinen (Microsoft, Apple, Google, enz.) die zelf relatief weinig AI blokkeren. Ten tweede bevat de lange staart een groot aandeel regionale nieuwsuitgevers en EU-jurisdictiesites die — zoals Bevinding 6 en 7 lieten zien — AI agressiever blokkeren dan het wereldgemiddelde. De twee effecten heffen elkaar ongeveer op, en het nettoresultaat is een uniforme headline.

De kolom Cloudflare Managed verschuift wel over de curve. De Top 1000 heeft 6 Cloudflare-managed sites (1,0%); de Top 1001–10000 heeft er 296 (5,7%). De grote sites schrijven zelf; de lange staart gebruikt de vendorschakelaar. Dit is het enige betekenisvolle rangafhankelijke signaal in de dataset, en het suggereert dat naarmate je van de top van het web naar de lange staart afdaalt, het aandeel AI-beleid dat door de vendor in plaats van door de uitgever wordt bepaald gestaag stijgt. We verwachten dat deze gradiënt verder doorzet voorbij de top 10k en tot ver in de top 100k.

Bevinding 10 — Vijf anatomieën: hoe `robots.txt` eruitziet wanneer het echt beleid is

Cijfers beschrijven de vorm van de dataset; het echte karakter van “AI-beleid op het openbare web” zie je het best door concrete bestanden te lezen. Hier zijn vijf die het waard zijn om uit te lichten, geselecteerd om het beleidspectrum te bestrijken.

Anatomie 1 — The New York Times (`nytimes.com`)

De eerste 14 regels van nytimes.com/robots.txt:

1# New York Times content is made available for your personal, non-commercial
2# use subject to our Terms of Service here:
3# https://help.nytimes.com/hc/en-us/articles/115014893428-Terms-of-Service.
4# Use of any device, tool, or process designed to data mine or scrape the content
5# using automated means is prohibited without prior written permission from
6# The New York Times Company. Prohibited uses include but are not limited to:
7# (1) text and data mining activities under Art. 4 of the EU Directive on Copyright in
8# the Digital Single Market;
9# (2) the development of any software, machine learning, artificial intelligence (AI),
10# and/or large language models (LLMs);
11# (3) creating or providing archived or cached data sets containing our content to others; and/or
12# (4) any commercial purposes.
13# Contact https://nytlicensing.com/contact/ for assistance.

Dit is robots.txt als juridisch bewijsstuk. Het bestand is zo opgebouwd dat het als bewijs kan worden ingebracht in de NYT v. OpenAI-zaak waar het deel van uitmaakt. De verwijzingen naar “Art. 4 of the EU Directive” — door een Amerikaanse uitgever — illustreren de observatie uit Bevinding 7 dat EU-juridische kaders doorsijpelen in het mondiale debat. Het expliciete verbod op “creating or providing archived or cached data sets” is rechtstreeks gericht op Common Crawl. Het bestand is 60+ regels lang met benoemde User-agent-blokken voor GPTBot, OAI-SearchBot, ChatGPT-User, anthropic-ai, ClaudeBot, CCBot, Google-Extended, Applebot-Extended, Bytespider, Diffbot, Meta-ExternalAgent, Amazonbot, Omgili, Omgilibot en nog een half dozijn anderen — elke genoemde bot krijgt zijn eigen Disallow: /.

Anatomie 2 — Der Spiegel (`spiegel.de`) — AI-permissie per sectie

Der Spiegel heeft het meest operationeel geavanceerde robots.txt dat we in de hele dataset vonden. Het relevante blok:

1# TLP-6507: Testweise Freischaltung der OpenAI-Suchcrawler fuer ausgewaehlte Bereiche
2User-agent: OAI-SearchBot
3Allow: /ausland/
4Allow: /partnerschaft/
5Allow: /gesundheit/
6Allow: /familie/
7Allow: /reise/
8Allow: /psychologie/
9Allow: /stil/
10Disallow: /
11User-agent: ChatGPT-User
12Allow: /ausland/
13Allow: /partnerschaft/
14Allow: /gesundheit/
15Allow: /familie/
16Allow: /reise/
17Allow: /psychologie/
18Allow: /stil/
19Disallow: /

De commentaarregel betekent: “Testmatige openstelling van OpenAI-zoekcrawlers voor geselecteerde secties.” Spiegel heeft zeven specifieke contentcategorieën op de allowlist gezet — internationaal nieuws, partnerschappen, gezondheid, familie, reizen, psychologie en lifestyle — voor OpenAI’s inferentie-UA’s, terwijl de rest wordt geblokkeerd. De politieke secties, het Duitse nationale nieuws en de onderzoeksjournalistiek zijn expliciet uitgesloten. Common Crawl, Bytespider, Cohere, Webzio-Extended en de andere trainings-UA’s krijgen verderop in het bestand een volledige Disallow: /.

Dit is robots.txt als sectiegebonden redactioneel beleid. De impliciete theorie is dat lifestylecontent een lager risico op trainingsverplaatsing heeft en een hogere kans op inferentie-citaties oplevert, dus laat Spiegel AI die secties tonen; politieke en onderzoekscontent zijn de moat, dus AI wordt uitgesloten. We hebben dit patroon nergens anders gezien. Het wijst op een niveau van interne afstemming tussen redactie, juridisch en infrastructuur dat de meeste redacties nog niet hebben bereikt. We verwachten dat dit soort fijnmazige, sectiegebonden beleidsuitingen zich in 2026–2027 zal verspreiden — het bestand van Spiegel is in feite een vroege indicator.

Anatomie 3 — BBC (`bbc.com`) — de vorm van de beleidsverklaring

De BBC robots.txt begint met:

1# version: ec59bd036e5138eb4831a9ed44447b1ff310e235
2# The BBC's Terms of Use: https://www.bbc.co.uk/terms
3# - Explain the rules for using our services
4# - Tell you what you can do with our content
5#
6# In short: Please use our site like a human, not a robot.
7# That means:
8# - No scraping, crawling, or systematic extraction of content
9# - No use of BBC content for training or fine-tuning AI models, including LLMs
10# - No retrieval-augmented generation (RAG), AI-powered search, agentic AI or
11#   grounding using BBC content
12# - No creating datasets from BBC content
13# - No text and data mining (TDM) under Article 4 of the EU Directive on Copyright
14# - No using BBC content to create summaries for your own use
15# - No business use without permission
16# - The BBC reserves all rights in its content and expressly opts out of any
17#   statutory exceptions in any jurisdiction for text and data mining,
18#   as permitted by law
19#
20# TL;DR: Browse, read, watch, enjoy - like a human.

De BBC geeft versies aan zijn robots.txt (# version: ec59bd... is een git-commit-hash), verbiedt de acht specifieke vormen van AI-gebruik die de juristen van de BBC volgen, en sluit af met een samenvatting in de proza-stem waarop het merk van de BBC is gebouwd. De uitdrukking “expressly opts out of any statutory exceptions in any jurisdiction” is een bewuste wereldwijde voorbehoudsverklaring — het zegt: we vertrouwen geen enkel afzonderlijk juridisch kader om ons de bescherming te geven die we willen, dus we beroepen ons overal tegelijk op opt-out. Dit is het meest uitgewerkte robots.txt in de dataset, en leest meer als een persbericht dan als een configuratiebestand.

Anatomie 4 — WordPress.org — expliciete welkomstverklaring

Vergelijk al het bovenstaande met wordpress.org:

1User-agent: GPTBot
2Allow: /
3User-agent: ClaudeBot
4Allow: /
5User-agent: anthropic-ai
6Allow: /
7User-agent: Google-Extended
8Allow: /
9User-agent: Applebot-Extended
10Allow: /
11User-agent: PerplexityBot
12Allow: /
13User-agent: Bytespider
14Allow: /
15User-agent: CCBot
16Allow: /
17User-agent: Copilot
18Allow: /

WordPress.org kiest expliciet voor negen AI-trainingscrawlers, waaronder de drie (Bytespider, CCBot, anthropic-ai) die elders het vaakst worden geblokkeerd. De impliciete theorie is dat de documentatie en plugin-ecosystemen van WordPress een publiek goed zijn waarvan de waarde stijgt wanneer AI-assistenten er vragen over kunnen beantwoorden. Elke keer dat iemand Claude vraagt “hoe stel ik permalinks in WordPress in?” en Claude is getraind op wordpress.org/documentation/, is de missie van WordPress gediend. De Foundation lijkt te hebben besloten dat in elke model-trainingscorpus zitten strategisch positief is, en ze hebben de uitdrukkingsgrammatica van het bestand gebruikt om dat te zeggen.

Anatomie 5 — The Verge (`theverge.com`) — het gesponsorde hybride model

Nog een patroon dat het waard is om te tonen. The Verge structureert hun AI-regels als Disallow: / \ Allow: /sp/:

1User-agent: GPTBot
2Allow: /
3User-agent: Applebot
4Allow: /
5User-agent: Google-Extended
6Disallow: /
7Allow: /sp/
8User-agent: anthropic-ai
9Disallow: /
10Allow: /sp/
11User-agent: Bytespider
12Disallow: /
13Allow: /sp/
14User-agent: CCBot
15Disallow: /
16Allow: /sp/
17User-agent: ChatGPT-User
18Disallow: /
19Allow: /sp/
20User-agent: ClaudeBot
21Disallow: /
22Allow: /sp/

Het pad /sp/ is The Verge’s sectie voor gesponsorde / partnercontent. Redactionele content is geblokkeerd voor AI-training; gesponsorde content is toegestaan. De economische logica is helder: sponsors betalen om vindbaar te zijn, ook via AI; het redactionele vlaggenschip is de moat. GPTBot staat volledig open (vermoedelijk via een directe OpenAI-relatie), Applebot staat volledig open als zoekbaseline, en de rest krijgt het hybride regime. Dit is de enige vorm van “tiered AI access” in zijn soort die we vonden.

Deze vijf bestanden beschrijven het huidige bereik van robots.txt-AI-beleid. De meeste bestanden in de top 10k lijken op geen van deze vijf — ze zijn stil of gebruiken een vendorsjabloon. De bestanden die wél op een van deze lijken, zijn geschreven door mensen die hebben besloten dat het bestand de moeite waard is om zorgvuldig te lezen.

Een noot over de grootte van bestanden: de mediane robots.txt-body in onze steekproef is 858 bytes — te klein om een betekenisvol AI-beleid in te coderen. De rechterstaart bevat de regels: 1.005 sites (15,3%) hebben een bestand groter dan 5 KB, 273 groter dan 20 KB, en het maximum was 248 KB. 460 bestanden bevatten taal om rechten voor te behouden; 275 noemen EU 2019/790 bij naam. Een robots.txt in 2026 is steeds vaker een versiebeheerd, door juristen beoordeeld document, niet een losse configuratieregel.

Bevinding 11 — 108 sites heten `GPTBot` expliciet welkom

Een kleine maar zichtbare groep schrijft een regel User-agent: GPTBot \n Allow: / — het omgekeerde van het vaker besproken “Disallow GPTBot.” Het totaal in onze steekproef is 108 sites met een expliciete Allow voor GPTBot op het rootpad. De eerste 25 op Tranco-rang:

Rang	Domein	Sector
42	wordpress.org	Ontwikkeltools / CMS
133	kaspersky.com	Security
187	avast.com	Security
265	hp.com	Hardware-OEM
624	branch.io	Mobile attribution SaaS
692	sophos.com	Security
782	theverge.com	Nieuws
905	rambler.ru	Russisch portaal
945	kleinanzeigen.de	Duits handelsplatform
948	theatlantic.com	Nieuws
1.092	lge.com	LG Electronics
1.300	justdial.com	Indiase lokale zoekdienst
1.332	avira.com	Security
1.412	youm7.com	Egyptisch nieuws
1.530	goodreturns.in	Indiase finance
1.621	publi24.ro	Roemeense advertenties
1.807	geocomply.com	Compliance SaaS
1.908	nba.com	Sport
1.956	oneindia.com	Indiaas nieuws
1.974	mindbox.ru	Russische SaaS
2.009	thesun.co.uk	Nieuws
2.126	vox.com	Nieuws
2.140	mgid.com	Native advertising
2.314	ninjarmm.com	IT-management SaaS
2.323	norton.com	Security

Een paar patronen:

Securitybedrijven zijn opvallend oververtegenwoordigd. Kaspersky, Avast, Sophos, Avira, Norton, NinjaRMM staan allemaal expliciet GPTBot toe. Dit is een bewuste distributiestrategie: wanneer een gebruiker ChatGPT vraagt “wat is de beste antivirus voor mijn Windows-computer?”, beïnvloedt het feit dat het merk in het trainingscorpus van het model zit direct de aanbeveling. Security is een van de weinige B2C-productcategorieën waar AI-zoekopdrachten SEO al aan het vervangen zijn als primaire acquisitiekanaal, en deze merken bewegen als eerste. We verwachten dat de rest van de securitysector binnen 12 maanden volgt.

Sommige grote nieuwsmerken staan op deze lijst, niet op de blokkadelijst. The Verge, The Atlantic, Vox, The Sun, NBA.com. Dat is geen tegenstelling — deze uitgevers lijken te hebben besloten dat citeren binnen ChatGPT-zoekopdrachten waardevoller is dan bescherming tegen training, en ze schreven de expliciete Allow-regel om zichzelf te beschermen tegen toekomstige overblokkering door hun CDN of CMS. Vergelijk dit met de houding van NYT / Reuters / BBC / Forbes / Guardian van expliciete Disallow. Beide standpunten zijn verdedigbaar; de nieuwssector is niet monolithisch.

De aanwezigheid van The Sun is opvallend omdat dezelfde site elders in zijn bestand een User-agent: * deny-all gebruikt. De regel van The Sun moet je het best lezen als “AI-training is verboden, AI-zoekopdrachten zijn toegestaan, en we hebben GPTBot expliciet op de allowlist gezet als uitzondering op de deny-all om ervoor te zorgen dat ChatGPT vragen kan beantwoorden die The Sun citeren.” Dit is de juridisch meest verfijnde van de GPTBot-Allow-regels — het is een opt-out plus een single-vendor opt-in.

De aanwezigheid van WordPress.org is de meest impactvolle afzonderlijke vermelding op de lijst. Een niet-verwaarloosbaar deel van het wereldwijde open-source CMS-ecosysteem verwijst naar WordPress.org voor documentatie of host daarvandaan plugins. Door GPTBot expliciet toe te staan in wordpress.org/robots.txt, heeft de WordPress Foundation feitelijk gezegd dat het WordPress-documentatie-ecosysteem vrij is voor training — met gevolgen voor hoe goed Claude, Gemini en ChatGPT “hoe doe ik…”-vragen over WordPress kunnen beantwoorden.

De overige 83 sites op de volledige Allow-GPTBot-lijst vormen een lange staart van regionaal nieuws, kleinere securityleveranciers, advertentieplatforms in niet-Engelse markten en B2B-SaaS. Voor zover we kunnen zien is er geen sectorbrede coördinatie vergelijkbaar met “Allow-GPTBot” — de regel wordt site voor site overgenomen door operators die hebben besloten dat in het corpus zitten de strategische keuze is.

Bevinding 12 — `llms.txt` is op deze schaal nauwelijks meer dan een gerucht

llms.txt, het voorgestelde alternatieve bestandsformaat voor LLM-vriendelijke contentontdekking (sinds eind 2024 gepromoot door Mintlify, Anthropic, Vercel en een handvol dev-tooling-vendors), heeft in onze steekproef bijna nergens zichtbare adoptie.

Van de 6.638 sites die een parseerbaar robots.txt teruggaven, noemen 83 (1,15%) llms.txt — meestal als regel Sitemap: https://example.com/llms.txt. Dat is twee ordegroottes lager dan dezelfde metriek in commerce-steekproeven met veel dev-tooling, waar de standaardinstellingen van Vercel en Mintlify de adoptie opblazen.

De verdeling per categorie:

Sector	n	% met vermelding van `llms.txt`
Infrastructuur	47	4,3%
Gambling	100	3,0%
SaaS	369	3,0%
Telecom	33	3,0%
E-commerce	224	1,8%
Reizen	64	1,6%
Ontwikkeltools	129	1,6%
Nieuws	650	0,8%
Adult	254	0,4%
Overheid	172	0,0%
Academia	268	0,0%
Search	12	0,0%

llms.txt is geconcentreerd in SaaS rond de rand van ontwikkeltools, gambling (dat nieuwe robots.txt-features sneller overneemt dan andere gereguleerde sectoren omdat het compliance-teams heeft die gewend zijn extra metadata toe te voegen), en B2B e-commerce. Het ontbreekt opvallend in nieuws en overheid — de twee segmenten die het meest betrokken zijn bij AI-beleid en waarvan de adoptie nodig zou zijn om de standaard van “vendor-experiment” naar “webprotocol” te laten doorgroeien. Tot die tijd is llms.txt echt, maar klein, en een follow-up audit eind 2026 zal een nuttige herhalingstest zijn.

Het structurele probleem voor llms.txt is dat het niet door een IETF-proces is gestandaardiseerd en dat de grote AI-vendors zich niet hebben vastgelegd om het te respecteren. Een robots.txt-regel heeft 30 jaar crawler-infrastructuur achter zich; een llms.txt-regel heeft dat niet. Zolang ten minste één grote vendor (OpenAI, Anthropic, Google, Cloudflare) geen formele ondersteuning verklaart, is het bestand in wezen een marketingartifact van het Mintlify-/Vercel-ecosysteem. We verwachten niet dat dit in 2026 verandert.

Bevinding 13 — Toegankelijkheid: `robots.txt` is nog steeds leesbaar voor twee derde van het topweb

Een bijobservatie die geen bevinding had moeten worden: 66% van de top 10.000 sites gaf een parseerbaar robots.txt terug aan één onderzoeks-IP, en slechts 7 van 10.000 (0,07%) gaven 429 Too Many Requests terug. Dat is goed nieuws voor robots.txt als publiek protocol.

Ter vergelijking: dezelfde pipeline op een commerce-steekproef van 1.008 domeinen uit het middensegment twee maanden eerder kreeg 429 van 52% van de opgeloste domeinen — Shopify- en Cloudflare-CDN’s die agressief rate-limiten voor elke UA die geen grote zoekmachine is. Het web met veel verkeer is veel vriendelijker: top-sites hebben vaker óf (a) minder agressieve botmanagementlagen, óf (b) expliciete allowlists voor bekende onderzoekscrawlers, of beide.

Het fetch_failed-percentage van 21% op de top-10k wordt gedomineerd door CDN-apexdomeinen (akamai.net, cloudfront.net, fastly.net, apple-dns.net, gtld-servers.net) die geen webserver op / draaien. Ze blokkeren ons niet; ze hebben niets te serveren. Als je die uitsluit, ligt de echte foutfractie van “probeerde te lezen maar kon niet” in de lage enkelcijfers.

Dat betekent dat toekomstige versies van dit rapport — kwartaalmomentopnames, jaar-op-jaarvergelijkingen — goedkoop en reproduceerbaar op één machine kunnen worden uitgevoerd. Het auditvenster blijft open aan de top van de curve. De asymmetrische casus is de lange staart en het commerce-segment, waar CDN-throttling robots.txt feitelijk al heeft geprivatiseerd. We verwachten dat deze divergentie groter wordt: top-sites blijven leesbaar omdat zoekmachines leesbaarheid eisen; de lange staart in commerce wordt minder leesbaar naarmate Cloudflare’s bot-fight-lagen agressiever worden. De publieke auditbaarheid van robots.txt splitst zich langs dezelfde lijn die “het zichtbare web” scheidt van “het operationeel beschermde web.”

IV. Wat dit alles betekent

Vier claims, in volgorde van hoe sterk de data ze ondersteunt.

1. Het internet heeft een sector-specifiek, geen globaal, AI-beleid. De spreiding van 12× tussen nieuws en telecom domineert elk geaggregeerd cijfer. Rapporteren “X% van het web blokkeert AI” zonder sectorale uitsplitsing overschat SaaS/overheid/dev en onderschat nieuws/reizen/sociaal. Sector per sector is de enige eerlijke framing.

2. Artikel 4 van de EU-auteursrechtrichtlijn is het enige juridische regime dat zichtbaar de cijfers beweegt. EU-ccTLD-sites blokkeren AI op 35% tegenover de wereldwijde basislijn van 19%. De Amerikaanse rechtszaken (NYT v. OpenAI, het rapport van het Copyright Office van januari 2025) hebben de Amerikaanse nieuwscohort verschoven, maar niet het bredere Amerikaanse web. Het EU-raamwerk lekt ook wereldwijd door via Cloudflare’s sjabloon, dat Richtlijn 2019/790 citeert in de standaardtekst, ongeacht de jurisdictie van de klant.

3. Er worden twee parallelle “AI-beleidslijnen” uitgedrukt en die spreken elkaar niet altijd. Het bewuste, handgeschreven beleid (17,8%, vooral nieuws/sociaal/reizen/e-commerce) en het geërfde Cloudflare-managed beleid (4,5%) overlappen inhoudelijk, maar verschillen in legitimiteit. In een wereld waarin AI-operators juridische dekking zoeken om robots.txt te negeren, is de verdediging “wij hebben het geschreven en beoordeeld” structureel sterker dan “ik heb het gewoon aangezet.” De prikkel in rechtszaken is om beleid van de tweede categorie naar de eerste te verplaatsen.

4. Het corpus, niet het model, is wat uitgevers blokkeren. CCBot op 16,3% — hoger dan welke modelmerk-bot dan ook — is de duidelijkste uitdrukking hiervan. OpenAI disallowen haalt een uitgever niet uit training; CCBot disallowen wel. 14,1% van het top-10k-web blokkeert CCBot terwijl Googlebot welkom blijft. Het patroon “blokkeer training, behoud zoekverkeer” is de modale AI-regel in 2026.

Voor sites die hun eigen houding overwegen: de mediane houding is stilte — 80% van de top 10k zegt niets over AI. De 17% die regels schrijft, clustert rond Disallow, maar een kleine, groeiende groep (de 1,5% expliciete Allow-GPTBot-lijst, aangevoerd door securityvendors) kiest publiekelijk het omgekeerde. Er is geen sectorsconsensus en die komt er de komende twaalf maanden ook niet.

Voor AI-operators: de stelling dat robots.txt een legacy protocol is met ambigue semantiek wordt steeds moeilijker vol te houden wanneer 17% van ’s werelds grootste sites expliciete, bewuste regels heeft geschreven die bots bij naam noemen, en 3,8% van de bestanden specifieke EU-wetgeving per artikelnnummer citeert. Of je die regels respecteert is een zakelijke keuze; of ze bestaan is nu een empirisch feit.

V. Vooruitblik: wat we verwachten tegen eind 2026

Drie trends die zichtbaar zijn in de dataset:

Cloudflare Managed zal zijn aandeel meer dan verdubbelen, waarschijnlijk tot 10%+ van de parseerbare top-10k. Cloudflare’s roadmap bespreekt openbaar een default-on Block AI Bots voor nieuwe accounts. Als de schakelaar standaard aan wordt geleverd, stijgt het wereldwijde blokkeercijfer met 5–8 procentpunten zonder dat een uitgever een beslissing neemt. We weten dat dit gebeurt wanneer het Cloudflare Managed-aandeel van de bucket 5.001–10.000 boven de huidige 5,7% uitkomt.

Sectieniveau-AI-beleid (in Spiegel-stijl) zal zich verspreiden onder de grote nieuwsflagships. De economische logica — laat AI laag-risicocontent citeren, bescherm de moat-content — is overtuigend genoeg om te verwachten dat minstens 10 extra toonaangevende redacties tegen eind 2026 sectieregels uitrollen. Kijk eerst naar de Duitse en Franse middenmoot; het juridische kader beloont daar experimenteren.

De expliciete Allow-GPTBot-cohort zal groeien, aangevoerd door B2B SaaS en ontwikkeltools. Zodra AI-zoekopdrachten een meetbaar acquisitiekanaal worden voor softwareleveranciers (zoals dat al het geval is voor security), zal de marginale CMO User-agent: GPTBot \n Allow: / schrijven om toevallige overblokkering te voorkomen. We verwachten dat de lijst van 108 sites tegen het einde van het jaar ongeveer zal verdubbelen.

Wat we niet verwachten: een betekenisvolle verandering in het aandeel stille meerderheid. De 80% van het web die niets over AI zegt, omvat sectoren (overheid, telecom, infrastructuur, B2B SaaS) waarvoor geen economische reden bestaat om een regel te schrijven en geen juridische druk om dat te doen. Universeel AI-beleid komt er niet.

VI. Beperkingen

Bias van één momentopname. De fetches liepen over een venster van 36 uur in begin mei 2026. Het bestand wijzigt dagelijks aan de top 100; reken op 1–2 procentpunt drift per kwartaal op de headline-cijfers.
Hiaten in sectorclassificatie. 6.593 van de 10.000 sites bleven unknown na de vierlagige classifier. Sectoraandelen zijn robuust waar n groot is (nieuws: 650, streaming: 440, saas: 369, academia: 268, adult: 254, ecommerce: 224, gov: 172, finance: 129, dev: 129) en ruisiger onder n=30. De nieuwssplitsing per land is evenzeer beperkt — DE/FR/UK hebben n≥15, Korea/Zweden/Tsjechië rusten op n=20–25.
robots.txt is vrijwillig. Een Disallow is een verzoek, geen barrière. Bytespider, PerplexityBot en anderen negeren gedocumenteerd regels. We hebben beleidsverklaringen gemeten, niet beleidsafdwinging.
Single-IP, VS-gebaseerde audit. We konden 21% van de opgeloste domeinen niet lezen. De meeste zijn CDN-apexpunten zonder webserver; een klein deel zijn sites waarvan het CDN ons blokkeerde voordat we de origin bereikten. Dit vertekent de steekproef licht in de richting van oudere infrastructuur en tegen country-of-origin-geofencing-sites in.
Semantiek van de Tranco-lijst. Tranco filtert op stabiliteit; het is geen echte gebruiksvolgorde. Geaggregeerde cijfers zijn robuust tegen de lijsta keuze; specifieke rangposities niet.
Geen verkeersdata. We hebben robots.txt-beleid gemeten, niet het daadwerkelijke volume van AI-bots. Beleid en verkeer komen niet altijd overeen.

VII. Dit reproduceren

Alles wat is gebruikt om dit rapport te produceren, zit in de aflevermap.

tranco_top10k.csv — invoerlijst
out/sites.csv — domein × rang × sector × taal × robots.txt-status (10.000 rijen)
out/fetch_meta.csv — fetch-uitkomst per domein (status, schema, bytes, fout)
out/bot_status.csv — domein × bot-grid (250.000 rijen: geblokkeerd, heeft_regel, fetch_status)
out/site_meta.csv — één analytisch record per site (sjabloon, samenvattingsbooleans)
out/analysis.json — elke metriek die in het rapport wordt genoemd
01_fetch_robots.py, 02_classify.py, 03_parse_and_analyze.py — volledige Python-pipeline

Correcties op de methodologie, datasetproblemen en vervolganalyses zijn welkom via support@thunderbit.com. Dit rapport is onafhankelijk gepubliceerd van elke commerciële positie van Thunderbit; we bouwen een AI-gestuurde webscraper, en we hebben een structureel belang bij het feit dat robots.txt een betekenisvol, machineleesbaar contract op het openbare web blijft. De data in dit rapport staat op zichzelf. — Het Thunderbit-onderzoeksteam, mei 2026.

Probeer Thunderbit AI Web Scraper