Is webscraping legaal in Europa? Zo scrape je veilig

Op 1 mei 2024 zette de Nederlandse Autoriteit Persoonsgegevens een kop in de wereld waar elk datateam in Europa wakker van schrok: "scrapen is bijna altijd illegaal." Als je in sales, e-commerce of vastgoed werkt — eigenlijk iedereen die leunt op webdata — dan voelde die zin waarschijnlijk meteen als een klap.

Ik snap dat wel. Bij Thunderbit spreken we elke dag bedrijven die webdata nodig hebben voor prijsmonitoring, leadgeneratie en marktonderzoek. De frustratie is steeds dezelfde: ze googelen "is web scraping legal in Europe," en elk antwoord komt neer op een variant van "dat hangt ervan af." Daar heb je niet veel aan als je een deadline hebt en een lijst met URL's die je moet scrapen.

Dus heb ik weken besteed aan het uitpluizen van de echte regels, richtlijnen van toezichthouders, handhavingsbesluiten en jurisprudentie om iets bruikbaarders te maken: een praktische beslischecklist, een samengebrachte tabel met waarborgen, echte boetebedragen en een stap-voor-stap gids om Europese websites te scrapen zonder aan de verkeerde kant van een toezichthouder te belanden. Of je nu Amazon-productprijzen wilt scrapen of B2B-contacten uit een directory haalt, dit artikel helpt je bepalen waar de grenzen liggen — en hoe je aan de juiste kant blijft.

Wat is webscraping (en waarom zouden Europese bedrijven zich ermee bezighouden)?

Webscraping is het geautomatiseerd extraheren van data van websites naar een gestructureerd formaat — een spreadsheet, een database, een CRM. In plaats van productnamen en prijzen van 200 pagina's te knippen en plakken, bezoekt een scraper elke pagina en haalt de velden die je nodig hebt netjes in kolommen naar binnen.

Waarom is dat relevant voor niet-technische teams? Omdat webdata echte bedrijfsbeslissingen aandrijft. Salesteams scrapen directories voor leads. E-commerce managers volgen dagelijks de prijzen van concurrenten. Vastgoedanalisten volgen trends in aanbiedingen op verschillende portals. Marktonderzoekers verzamelen publieke reviews en beoordelingen op schaal. De wereldwijde markt voor webscraping groeit hard, en bedrijven scrapen elke dag miljoenen datapunten.

Maar de Europese regels zijn anders dan in de VS. De AVG, de Database-richtlijn en veranderende richtlijnen van toezichthouders betekenen dat "publiek beschikbaar" niet hetzelfde is als "vrij te gebruiken." Zoals AP-voorzitter Aleid Wolfsen het verwoordde: "openbaar betekent niet automatisch toestemming om te scrapen." De regels snappen vóór je begint is niet optioneel — het is het verschil tussen een nette dataset en een boete van zes cijfers.

Probeer Thunderbit voor compliant webscraping

Is webscraping legaal in Europa? Het korte antwoord

Webscraping is in Europa niet per definitie illegaal. Maar of het mag, hangt af van drie dingen: wat je scrapt, hoe je scrapt en waarom.

Drie overlappende juridische lagen bepalen scraping in de EU:

AVG — van toepassing zodra je persoonsgegevens scrapt (namen, e-mails, telefoonnummers, IP-adressen, zelfs gepseudonimiseerde identificatoren).
De EU Database-richtlijn — beschermt databases waarin de maker een "substantiële investering" heeft gedaan in het organiseren van data.
Contract- en algemene voorwaardenrecht — veel websites verbieden scraping expliciet in hun voorwaarden, en EU-rechters hebben die voorwaarden gehandhaafd.

De kern: "openbaar" betekent niet "ongereguleerd." Zelfs niet-persoonsgegevens kunnen beschermd zijn onder databankrechten of contractenrecht. Voor elk scrapingproject moet je al die drie lagen samen bekijken.

De belangrijkste EU-wetten voor webscraping

AVG: wanneer je persoonsgegevens scrapt

Alle data die herleidbaar is tot een identificeerbare persoon, valt onder de AVG. Denk aan namen, e-mailadressen, telefoonnummers, IP-adressen, foto's en zelfs gepseudonimiseerde data die opnieuw identificeerbaar kan worden. Op het moment dat je persoonsgegevens scrapt, ben je een "verwerkingsverantwoordelijke" met verplichtingen onder de AVG:

Rechtsgrondslag (artikel 6): Je hebt een juridische reden nodig om de data te verwerken. Toestemming is op grote schaal vrijwel nooit praktisch voor scraping — je kunt niet miljoenen mensen vooraf om toestemming vragen voor hun openbaar geplaatste informatie. De meest genoemde grondslag is gerechtvaardigd belang (artikel 6(1)(f)), maar daarvoor moet je een gedocumenteerde driedelige toets uitvoeren: (1) je belang is gerechtvaardigd, (2) de verwerking is noodzakelijk, en (3) de belangen van betrokkenen worden niet onevenredig geschaad, rekening houdend met hun redelijke verwachtingen.
Transparantie (artikel 14): Omdat je de data niet rechtstreeks van de persoon verzamelt, moet je hen informeren — meestal binnen één maand — over wat je hebt verzameld, waarom, en hoe zij hun rechten kunnen uitoefenen. Als individuele kennisgeving onevenredig is, moet je een algemene kennisgeving publiceren met alle inhoud uit artikel 14.
Dataminimalisatie: Verzamel alleen wat je echt nodig hebt. Als je productprijzen wilt, haal dan niet ook het e-mailadres van de verkoper binnen.
Bewaartermijnen en rechtenbeheer: Stel bewaartermijnen in, honoreer verzoeken tot verwijdering en geef toegang tot broninformatie.

Het EDPB ChatGPT Task Force-rapport (aangenomen in mei 2024) voegde nog een laag toe: daar staat dat verschillende verwerkingsfasen — verzameling, voorbewerking, training, prompts en output — elk een eigen analyse van de rechtsgrondslag nodig hebben. De EDPB wees gerechtvaardigd belang voor webscraping niet af, maar stond erop dat de volledige driedelige toets met passende waarborgen wordt uitgevoerd.

De EU Database-richtlijn: bescherming van de manier waarop data is georganiseerd

De Database-richtlijn geeft een sui generis-recht aan makers van databases die een "substantiële investering" hebben gedaan in het verkrijgen, verifiëren of presenteren van hun data. Als jouw scraping een "wezenlijk deel" van zo'n database eruit haalt, kun je dat recht schenden.

In de praktijk ligt die drempel relatief hoog. Een paar honderd productprijzen scrapen van een grote retailer zal daar waarschijnlijk niet onder vallen. Maar het in bulk downloaden van de volledige catalogus van een concurrent — tienduizenden listings — kan wel te ver gaan, zeker als daardoor het verdienmodel van de maker onder druk komt te staan. Het Hof van Justitie van de EU heeft zich in meerdere zaken over die drempel uitgesproken, en de sleutelvraag is telkens proportionaliteit.

Voor de meeste zakelijke scrapingtoepassingen — specifieke velden van productpagina's halen, aanbiedingen binnen een categorie vergelijken — is de Database-richtlijn een lager risico. Maar het is niet risicoloos, en het is verstandig om hier rekening mee te houden wanneer je je scrapingbereik bepaalt.

Algemene voorwaarden: de wildcard van het contractenrecht

Hier lopen veel mensen tegenaan. Veel websites verbieden scraping in hun algemene voorwaarden. In Europa is het overtreden van die voorwaarden een civiele zaak (niet strafrechtelijk), maar het kan nog steeds leiden tot een verbod, contractprocedures en echte financiële schade.

Twee varianten om te kennen: browsewrap (passieve voorwaarden, vaak een link onderaan de pagina) zijn moeilijker af te dwingen omdat de gebruiker nooit actief akkoord is gegaan. Clickwrap (waar je een vakje aankruist of op "Ik ga akkoord" klikt) is veel beter afdwingbaar.

De bekende EU-zaak is Ryanair v. PR Aviation: de rechter handhaafde Ryanair's voorwaarden tegen een scraper, ook al waren databankrechten niet van toepassing, omdat de scraper met de voorwaarden akkoord was gegaan. Dus: controleer altijd de algemene voorwaarden van een site vóór je gaat scrapen. Als het een clickwrap-overeenkomst is die scraping expliciet verbiedt, wees dan voorzichtig — of kijk of er een API beschikbaar is.

De DSM-richtlijn en AI Act: uitzonderingen voor onderzoek en text and data mining

Niet elke scrapingactie valt onder dezelfde beperkingen. De Digital Single Market (DSM)-richtlijn (2019) introduceerde twee uitzonderingen voor text and data mining (TDM):

Artikel 3: Onderzoeksinstellingen en organisaties voor cultureel erfgoed mogen TDM uitvoeren op rechtmatig geraadpleegde content.
Artikel 4: Iedereen — inclusief commerciële partijen — mag TDM uitvoeren, tenzij de rechthebbende daar expliciet bezwaar tegen heeft gemaakt (bijv. via robots.txt, ai.txt of TDMRep-headers).

De EU AI Act (artikel 53) legt extra verplichtingen op aan aanbieders van AI-modellen: zij moeten TDM-opt-outmechanismen respecteren en hun trainingsdatabronnen documenteren.

Eén kanttekening: deze uitzonderingen gaan over auteursrecht en databankrechten, niet over de AVG. Als je TDM persoonsgegevens omvat, heb je nog steeds een aparte AVG-rechtsgrondslag nodig.

De beslischecklist "Mag ik dit scrapen?" voor Europese data

Dit is het gedeelte dat ik zelf had willen hebben toen ik dit onderwerp voor het eerst onderzocht. Elk juridisch artikel zegt "dat hangt ervan af" — maar hoe ziet die beslisboom er nu echt uit? Hieronder staat een praktische compliance-checklist met duidelijke poorten. Elke stap leidt tot ✅ doorgaan, ⚠️ extra waarborgen toevoegen of 🛑 stoppen.

Stap 1: Is de data persoonsgebonden of niet-persoonsgebonden?

Niet-persoonsgebonden data (productprijzen, SKU-nummers, zakelijke adressen die niet aan personen zijn gekoppeld): lagere regeldruk. Je moet nog steeds de Database-richtlijn en de algemene voorwaarden checken, maar de AVG is niet van toepassing. ✅ Ga door naar stap 3.

Persoonsgegevens (namen, e-mails, telefoonnummers, foto's, elke identificatie die aan een persoon is gekoppeld): de AVG is van toepassing. ⚠️ Ga verder naar stap 2.

Stap 2: Welke AVG-rechtsgrondslag is van toepassing?

Toestemming: Op grote schaal bijna nooit haalbaar voor scraping. 🛑 Tenzij je een heel smalle, specifieke situatie hebt.
Gerechtvaardigd belang (artikel 6(1)(f)): De meest gebruikte grondslag. Maar hiervoor moet je een gedocumenteerde driedelige toets uitvoeren:
1. Je belang is gerechtvaardigd (een commercieel belang kan voldoen, volgens de uitspraak van het HvJ-EU in zaak C-621/22 uit 2024).
2. De verwerking is noodzakelijk voor dat belang.
3. De belangenafweging: jouw belang weegt niet zwaarder dan de rechten van betrokkenen, rekening houdend met hun redelijke verwachtingen.
Documenteer je belangenafweging vóór het scrapen. Als je niet kunt uitleggen waarom de mensen van wie je data scrapt dit gebruik redelijkerwijs zouden verwachten, is dat een rode vlag. ⚠️ Ga door met gedocumenteerd gerechtvaardigd belang.

Stap 3: Beperken de voorwaarden van de site scraping?

Clickwrap-overeenkomst die scraping verbiedt: 🛑 Hoog risico. Overweeg alternatieve databronnen of officiële API-toegang.
Browsewrap of geen beperking in de voorwaarden: ⚠️ Lager risico, maar respecteer nog steeds robots.txt en technische signalen van bezwaar.

Stap 4: Is de Database-richtlijn van toepassing?

Is het doelwit een database waarin substantieel is geïnvesteerd in de organisatie van data?
Haalt jouw scraping een "substantieel deel" van die database eruit?
Als beide vragen met ja worden beantwoord: ⚠️ risico op schending van het sui generis-recht. Beperk je extractiebereik.

Stap 5: Val je onder een onderzoeks- of TDM-uitzondering?

Geregistreerde onderzoeksinstelling of organisatie voor cultureel erfgoed? Dan kan artikel 3 van de DSM-richtlijn van toepassing zijn. ✅
Commerciële TDM? Controleer opt-outsignalen voor artikel 4 (robots.txt, ai.txt, TDMRep). Als de site bezwaar heeft gemaakt, 🛑 stop voor die bron.

Stap 6: Heb je de door toezichthouders aanbevolen waarborgen toegepast?

Als je door de bovenstaande poorten bent gekomen, is de laatste stap het implementeren van de waarborgen die CNIL, de Nederlandse AP en de EDPB aanbevelen. Die worden in de volgende sectie uitgebreid behandeld. ✅ Ga verder met waarborgen op hun plaats.

Compliance-waarborgmaatregelen van toezichthouders: wat CNIL, de Nederlandse AP en de EDPB aanbevelen

Ik vond geen enkel concurrerend artikel dat de waarborgen van Europa's drie actiefste toezichthouders voor scraping samenbracht. Dus heb ik deze tabel opgebouwd door de CNIL-richtlijn voor webscraping, de Nederlandse AP-richtlijn en het EDPB ChatGPT Task Force-rapport naast elkaar te leggen.

Waarborg	CNIL	Nederlandse AP	EDPB Task Force	Implementatietips
Transparantiebericht art. 14	✅ Vereist	✅ Vereist	✅ Vereist	Publiceer een openbaar bericht met broncategorieën, doelen, rechtsgrondslag, bewaartermijnen, rechtenkanalen en contact met de FG
DPIA vóór scraping	✅ Aanbevolen (verplicht bij hoog risico)	✅ Vereist	✅ Vereist	Documenteer de belangenafweging, datacategorieën, risico's en mitigerende maatregelen vóór livegang
Dataminimalisatie	✅ Vereist (definieer precieze verzamelcriteria)	✅ Vereist	✅ Vereist	Stel de scraper zo in dat alleen benodigde velden worden opgehaald; verwijder irrelevante data direct
Rate limiting / respect voor robots.txt	✅ Vereist (sluit sites uit die via robots.txt/CAPTCHA bezwaar maken)	—	—	Parse robots.txt, voeg vertragingen tussen verzoeken toe, identificeer je user agent
Pseudonimisering / anonimisering	⚠️ Aanbevolen (direct na verzameling)	✅ Sterk aanbevolen	✅ Aanbevolen	Hash of randomiseer ID's; verwijder profiel-URL's; blur gezichten waar identiteit niet nodig is
Bewaartermijn	✅ Vastgestelde limiet	✅ Zo kort mogelijk	✅ Vastgestelde limiet	Automatiseer verwijderingsschema's; scheid ruwe cache van geëxtraheerde feiten
Opt-out / blacklist-mechanisme	✅ Aanbevolen (discretionair vooraf bezwaar)	✅ Vereist (bezwaar op grond van art. 21)	✅ Vereist	Bied een opt-outformulier, domeinblacklist en suppressie op persoonsniveau
Sluit gevoelige bronnen uit	✅ Vereist (gezondheidsfora, sites voor minderjarigen, pornografische sites, genealogie)	✅ Vereist	✅ Vereist	Beheer standaardblokkades voor gezondheid, religie, politiek, biometrie en minderjarigen

Een praktische noot van onze kant: Thunderbit's functie "AI Suggest Fields" laat gebruikers precies definiëren welke kolommen moeten worden geëxtraheerd — prijs, SKU, productnaam — zodat de scraper alleen verzamelt wat nodig is. Je downloadt dus niet massaal hele pagina's; je selecteert gestructureerde velden die passen bij doelbinding en dataminimalisatie. Dat gezegd hebbende: geen enkele tool maakt niet-conforme scraping ineens legaal. De juridische analyse komt altijd eerst.

Is webscraping legaal in Europa voor jouw use case? Branchegerichte uitleg

De vraag die ik het vaakst zie in forums is niet "is scraping legaal?" — maar "is mijn scraping legaal?" Abstracte AVG-theorie beantwoordt dat niet. Dus hier is een uitsplitsing per veelvoorkomende zakelijke toepassing.

Use case	Datatype	Belangrijkste juridische risico's	Waarschijnlijke uitkomst
E-commerce prijsmonitoring (openbare productvermeldingen)	Niet-persoonsgebonden (prijzen, SKU's, productnamen)	Sui generis-recht onder de Database-richtlijn; overtreding van de voorwaarden	Over het algemeen lager risico als er geen persoonsgegevens worden verwerkt en geen systematische extractie van een "substantieel deel" van de database plaatsvindt
B2B-leadgeneratie (contactinfo uit directories)	Persoonsgegevens (namen, e-mails, telefoonnummers)	AVG art. 6 rechtsgrondslag; art. 14-kennisgeving; ePrivacy voor elektronische contactgegevens	Hoger risico — vereist gedocumenteerde belangenafweging op grond van gerechtvaardigd belang plus kennisgevingsplicht
Vastgoedvermeldingen (vastgoedgegevens van portals)	Gemengd (adressen kunnen niet-persoonsgebonden zijn; eigenaarsnamen zijn persoonsgegevens)	Database-richtlijn; algemene voorwaarden; AVG als het aan eigenaren gekoppeld is	Middelmatig risico — anonimiseer eigenaarsdata, check de voorwaarden, respecteer robots.txt
AI-trainingsdata (webcontent op grote schaal scrapen)	Mogelijk persoonsgegevens als niet gefilterd	AVG + verplichtingen onder art. 53 van de EU AI Act voor TDM	Hoog risico — moet voldoen aan zowel AVG als AI Act; opt-outmechanismen en robuuste filtering zijn vereist

Voor lager-risicoscenario's zoals publieke e-commercedata verminderen gestructureerde templates — zoals Thunderbit's directe templates voor Amazon en Shopify — de blootstelling, omdat specifieke, niet-persoonsgebonden velden worden geëxtraheerd zonder overbodige content mee te nemen. Voor hoger-risicoscenario's met persoonsgegevens (bijvoorbeeld leadgeneratie) moet de juridische analyse eerst komen. Geen enkele scraper, hoe slim ook, maakt van niet-conforme verzameling opeens conforme verzameling.

EU vs. VS vs. VK: hoe de wetten rond webscraping zich verhouden

Als je bedrijf grensoverschrijdend werkt, moet je weten hoe de regels verschillen. Ik kon geen enkel concurrerend artikel vinden dat dit als een scanbare tabel naast elkaar zet, dus hier is het.

Aspect	EU	VS	VK (na Brexit)
Hoofdwet	AVG + Database-richtlijn + ePrivacy	CFAA + staatswetten (beperkte federale privacywetgeving)	UK GDPR + Data Protection Act 2018
Scrapen van openbare data	Nog steeds een AVG-rechtsgrondslag vereist als het persoonsgegevens betreft	Over het algemeen legaal volgens hiQ v. LinkedIn (openbare data)	Vergelijkbaar met de EU; ICO-richtlijnen zijn van toepassing
Handhaving van voorwaarden	Civiele zaak; Ryanair v. PR Aviation handhaafde het sui generis-recht	Van Buren beperkte CFAA; schending van voorwaarden ≠ strafbaar	Civiele zaak, vergelijkbaar met de EU
Databasebescherming	Sui generis-recht (sterk)	Geen vergelijkbaar federaal recht	Behouden sui generis-recht
AI/TDM-uitzondering	DSM-richtlijn art. 3–4; AI Act art. 53	Geen federale TDM-uitzondering (fair use-doctrine)	VK onderzoekt TDM-uitzondering (per 2026 vastgelopen)
Belangrijkste toezichthouder	Nationale AP's (CNIL, Nederlandse AP, enz.)	FTC + staat-AG's	ICO
Recente trend	Strenger (Nederlandse AP: "bijna altijd illegaal" voor persoonsgegevens)	Soepeler na hiQ	Gematigd; volgt over het algemeen de EU-lijn

Als je Europese websites of data over Europese inwoners scrapt, zijn de EU-regels van toepassing — zelfs als je bedrijf in de VS of het VK is gevestigd.

Echte boetes en zaken: wat er echt gebeurt als je gepakt wordt (2022–2026)

Dit is het gedeelte dat het antwoord geeft op de vraag achter de vraag: "Wat is het echte risico?" Ik heb alle openbare handhavingsacties van toezichthouders verzameld waarin webscraping of gescrapete persoonsgegevens een rol speelden, van 2022 tot en met april 2026.

Jaar	Handhaver	Doelwit	Overtreding	Boete/uitkomst
2022	Italiaanse Garante	Clearview AI	Scrapen van gezichtsafbeeldingen zonder rechtsgrondslag	€20 miljoen boete + verbod + verwijderingsbevel
2022	Griekse AP	Clearview AI	Idem — scraping voor gezichtsherkenning	€20 miljoen boete + verbod + verwijdering
2022	CNIL (Frankrijk)	Clearview AI	Database voor gezichtsherkenning	€20 miljoen boete + mogelijke dwangsom van €100K/dag
2023	CNIL (Frankrijk)	Clearview AI	Niet-naleving van bevel uit 2022	€5,2 miljoen dwangsom
2023	Oostenrijkse DSB	Clearview AI	Meer dan 30 miljard gezichtsafbeeldingen van het openbare web	Verwijdering + bevel tot aanwijzing EU-vertegenwoordiger (geen gepubliceerde boete)
2024	Nederlandse AP	Clearview AI	Illegale verzameling van data voor gezichtsherkenning	€30,5 miljoen boete + compliancebevelen
2024	CNIL (Frankrijk)	KASPR	Scraping van LinkedIn-contactdata voor leadgeneratie	€240.000 boete — 160 miljoen contacten, data met beperkte zichtbaarheid, 5 jaar bewaartermijn
2024	Ierse DPC	X / Grok	Openbare posts gebruikt voor AI-training	Opschortingsafspraak; wettelijke procedure geopend in 2025
2024	Ierse DPC	Meta	Geplande LLM-training op openbare Facebook/Instagram-content	Meta pauzeerde AI-trainingsplannen voor de EU
2024	Italiaanse Garante	OpenAI	Trainingsdata voor ChatGPT + transparantie	€15 miljoen boete opgelegd, in maart 2026 vernietigd door de rechtbank in Rome

De totale geldboetes in de EU/EER in de categorie scraping/open web: meer dan €95 miljoen (exclusief de vernietigde OpenAI-boete).

Al deze grote boetes gingen over massaal scrapen van biometrische of persoonsgegevens zonder enige rechtsgrondslag. Clearview schraapte miljarden gezichtsafbeeldingen. KASPR schraapte 160 miljoen contacten, waaronder data uit LinkedIn-profielen met beperkte zichtbaarheid, en bewaarde die vijf jaar lang.

Evenredig, gericht scrapen van openbare niet-persoonsgebonden data — zoals productprijzen of SKU-nummers — is niet het onderwerp geweest van handhavingsacties. Dat maakt het niet risicoloos, maar het zet de cijfers wel in perspectief.

Hoe je Europese websites veilig scrapt: stap voor stap

Moeilijkheid: Beginner
Benodigde tijd: ~15 minuten (inclusief compliancecheck)
Wat je nodig hebt: Chrome-browser, Thunderbit-extensie (de gratis versie werkt), een doel-URL en een snelle review van de checklist hierboven

Stap 1: Bepaal je doel en databehoefte

Voordat je een tool opent, schrijf op waarom je de data nodig hebt en exact welke velden je nodig hebt. Dat is niet alleen goede praktijk — het is de basis van de beginselen van doelbinding en dataminimalisatie uit de AVG.

Bijvoorbeeld: "Ik heb productnamen, prijzen en voorraadstatus nodig van 50 Amazon-productpagina's om ons spreadsheet voor prijsconcurrentie bij te werken." Dat is specifiek. Vergelijk dat met: "Ik wil alles van Amazon scrapen." De eerste voldoet aan de minimalisatietoets; de tweede niet.

Stap 2: Doorloop de compliancechecklist

Ga door de hierboven genoemde zes stappen van "Mag ik dit scrapen?" Als een poort eindigt op 🛑, stop dan en raadpleeg juridisch advies voordat je verdergaat.

Als we ons Amazon-prijsvoorbeeld door de poorten halen: de data is niet-persoonsgebonden (prijzen, SKU's, productnamen) ✅, er is geen AVG-probleem met persoonsgegevens ✅, de algemene voorwaarden van Amazon moeten worden bekeken (scraping wordt beperkt, dus overweeg waar beschikbaar de officiële product-API's) ⚠️, en het risico onder de Database-richtlijn is laag voor 50 producten ✅.

Stap 3: Kies de juiste scrapingaanpak

Methode	Gebruiksgemak	Compliance-ondersteuning	Onderhoud	Nauwkeurigheid
Handmatig kopiëren en plakken	Laag	N.v.t. (je bepaalt zelf wat je kopieert)	Hoog (tijdrovend)	Foutgevoelig
Code-gebaseerde scraper (Python, Scrapy)	Laag (coderen vereist)	Geen ingebouwde ondersteuning	Hoog (breekt als sites veranderen)	Hoog als goed onderhouden
Thunderbit (AI-gedreven)	Zeer hoog	Ingebouwde minimalisatie op veldniveau	Laag (AI past zich aan paginawijzigingen aan)	Hoog
Officiële API	Midden	Hoogst (gestructureerde, geautoriseerde toegang)	Laag	Hoogst

Voor zakelijke gebruikers zonder devteam is Thunderbit de snelste route. Voor sites met officiële API's (zoals Amazon's Product Advertising API) is de API altijd de veiligste route — maar vaak met beperkingen op datavolume en velden.

Stap 4: Stel je scraper compliance-proof in

In Thunderbit:

Navigeer naar je doelpagina (bijv. een Amazon-productlijstpagina).
Klik op het Thunderbit-pictogram in je Chrome-werkbalk en kies "AI Suggest Fields." De AI scant de pagina en stelt kolommen voor zoals "Productnaam," "Prijs," "Beoordeling" en "Voorraadstatus."
Verwijder alle velden die je niet nodig hebt. Als de AI "Verkopernaam" of "Verkopers-e-mail" voorstelt en je alleen prijsdata nodig hebt, verwijder die kolommen. Dat is dataminimalisatie in de praktijk.
Gebruik de Field AI Prompt om instructies toe te voegen zoals "sluit persoonsgegevens uit" of "haal alleen openbare prijsdata op."
Kies Cloud Scraping voor openbare e-commercesites (sneller, geen login nodig) of Browser Scraping voor sites waarvoor authenticatie vereist is.
Controleer vóór je op "Scrape" klikt of robots.txt scraping voor jouw use case niet verbiedt. Je kunt dat checken door [domein]/robots.txt in je browser te openen.

Je zou nu een tabelvoorbeeld moeten zien met alleen de velden die je hebt ingesteld — geen overbodige persoonsgegevens, geen onnodige metadata.

Stap 5: Exporteer, sla op en beheer data verantwoord

Na het scrapen exporteer je je data naar Excel, Google Sheets, Airtable of Notion — Thunderbit ondersteunt deze allemaal met gratis export.

Daarna:

Stel een bewaartermijn in. Bewaar gescrapete data niet onbeperkt. Als je wekelijkse prijsmonitoring doet, is de ruwe data van vorige maand waarschijnlijk niet meer nodig.
Als persoonsgegevens zijn verzameld (bijv. voor leadgeneratie), documenteer je rechtsgrondslag, publiceer een transparantiebericht conform artikel 14 en richt een proces in voor opt-out- en verwijderingsverzoeken.
Automatiseer verwijderingsschema's waar mogelijk. Thunderbit's Scheduled Scraper kan terugkerende scrapes op vaste intervallen automatiseren terwijl dezelfde configuratie op veldniveau behouden blijft, zodat elke run binnen je compliancekaders blijft.

Tips om compliant te blijven bij scraping in Europa

Een paar praktijken die ik heb meegenomen uit dit onderzoek en gesprekken met compliancegerichte teams:

Bekijk altijd de voorwaarden vóór je een nieuwe site scrapt. Het kost twee minuten en kan je maanden juridisch gedoe besparen.
Gebruik API's wanneer die beschikbaar zijn. Ze zijn gestructureerd, geautoriseerd en het veiligst. Scraping moet het vangnet zijn, niet de standaard.
Voer een DPIA uit voor elk project met persoonsgegevens op schaal. CNIL zegt dat AI-trainingsdatasets een hoog risico kunnen vormen, en de DPIA is je bewijs van verantwoording. Zelfs bij kleinere projecten is het verstandig om je analyse vast te leggen.
Houd een scrapinglog bij. Noteer wat er is gescrapet, wanneer, van waar, je rechtsgrondslag en je bewaartermijn. Als een toezichthouder ooit vragen stelt, ben je blij dat je dit hebt.
Volg updates in de regelgeving. Richtlijnen van toezichthouders veranderen snel — CNIL publiceerde in januari 2026 nieuwe AI-scraping-sheets, en van de EDPB worden verdere adviezen verwacht. Wat vandaag geldt, kan morgen strenger worden.
Scrape niet van beperkte of gevoelige bronnen. CNIL's verplichte uitsluitingslijst bevat gezondheidsfora, sites die vooral door minderjarigen worden gebruikt, pornografische sites, genealogische sites en sterk gestructureerde sites met persoonsgegevens. Als je een scrapingproject bouwt, onderhoud dan een standaardblokkadelijst.
Geautomatiseerd verkeer is operationeel belangrijk. Akamai meldde dat bots in 2024 42% van al het webverkeer uitmaakten, en Thales/Imperva stelde vast dat geautomatiseerd botverkeer voor het eerst menselijk verkeer voorbijstreefde en in 2024 uitkwam op 51%. Toezichthouders zien botgedrag, snelheid en ontwijking steeds vaker als aanwijzing voor risico en oneerlijkheid. Je gedragen als een verantwoordelijke scraper — je user agent identificeren, rate limiting toepassen en bezwaarsignalen respecteren — is niet alleen beleefd; het is juridisch relevant.

Conclusie

Webscraping is in Europa niet illegaal. Maar het is wel gereguleerd — vooral wanneer persoonsgegevens in het spel zijn.

De juridische uitkomst hangt af van wat je scrapt (persoonsgegevens versus niet-persoonsgebonden data), hoe je scrapt (algemene voorwaarden, robots.txt, rate limiting, minimalisatie op veldniveau) en waarom (gedocumenteerd doel en rechtsgrondslag). De handhavingspraktijk is duidelijk: massaal, willekeurig scrapen van persoonsgegevens zonder rechtsgrondslag is waar bedrijven te maken krijgen met boetes van zeven of acht cijfers. Evenredig, gericht scrapen van openbare niet-persoonsgebonden data — met waarborgen — valt in een heel andere risicocategorie.

Het praktische kader:

Gebruik de beslischecklist vóór elk scrapingproject.
Pas de door toezichthouders aanbevolen waarborgen toe (transparantie, minimalisatie, bewaartermijnen, opt-outmechanismen).
Kies tools die compliance by design ondersteunen. Thunderbit's AI-gestuurde veldselectie, gestructureerde extractie en gratis export naar Google Sheets, Excel, Airtable en Notion maken het eenvoudig om alleen de data te scrapen die je nodig hebt — niet meer, niet minder.
Documenteer alles. Belangenafweging, bronlijst, bewaarschema, DPIA. Als een toezichthouder vragen stelt, is je dossier je verdediging.

Verplichte disclaimer: dit artikel is informatief en geen juridisch advies. Voor hoog-risicoscenario's met persoonsgegevens op schaal moet je een gekwalificeerde privacyjurist raadplegen. De regels veranderen en de gevolgen van een fout zijn reëel.

Wil je zelf compliant en gericht webscraping proberen? Thunderbit's gratis versie laat je op kleine schaal experimenteren met gestructureerde extractie — definieer je velden, scrape alleen wat je nodig hebt en exporteer met een paar klikken. Je kunt ook ons YouTube-kanaal bekijken voor stapsgewijze uitleg.

Probeer AI-webscraper voor compliant data-extractie Get Started Free

FAQ's

1. Is webscraping legaal in Europa als de data openbaar beschikbaar is?

Openbaarheid maakt data niet automatisch AVG-vrij als het om persoonsgegevens gaat. Zoals de Nederlandse AP aangaf: "openbaar betekent niet automatisch toestemming om te scrapen." Openbare niet-persoonsgebonden data (productprijzen, SKU's) is doorgaans lager risico, maar je moet nog steeds de Database-richtlijn en de algemene voorwaarden van de site controleren.

2. Mag ik e-mails en telefoonnummers scrapen van Europese websites?

E-mails en telefoonnummers zijn persoonsgegevens onder de AVG. Je hebt een rechtmatige grondslag nodig — meestal gerechtvaardigd belang met een gedocumenteerde belangenafweging — en je moet betrokkenen informeren op grond van artikel 14. CNIL legde KASPR in 2024 een boete van €240.000 op voor het scrapen van LinkedIn-contactdata zonder voldoende transparantie of rechtsgrondslag, dus dit is een gebied waar actief wordt gehandhaafd.

3. Wat is de hoogste boete voor illegale webscraping in Europa?

De Nederlandse AP legde Clearview AI in 2024 een boete van €30,5 miljoen op voor illegale verzameling van gezichtsherkenningsdata van het openbare web. Meerdere andere EU-toezichthouders legden Clearview elk een boete van €20 miljoen op. De totale EU/EER-boetes in verband met scraping van 2022 tot 2026 bedragen meer dan €95 miljoen.

4. Maakt het respecteren van robots.txt webscraping legaal in Europa?

Robots.txt respecteren is een best practice en sluit aan bij de verplichte waarborgen van CNIL, maar het garandeert op zichzelf geen legaliteit. Je moet nog steeds voldoen aan de AVG (als er persoonsgegevens in het spel zijn), de Database-richtlijn en de algemene voorwaarden van de site. Zie compliance met robots.txt als één laag in een meerlagig compliancekader.

5. Hoe verschilt webscrapingrecht in Europa van dat in de VS?

De EU is aanzienlijk strenger. De AVG geldt voor alle persoonsgegevens — ook publiek beschikbare data — en de Database-richtlijn biedt sterke bescherming voor gestructureerde datasets. De VS heeft voor geen van beide een federaal equivalent; na hiQ v. LinkedIn is het scrapen van openbare data in de VS doorgaans toegestaan. Het VK na Brexit zit daar tussenin, met UK GDPR en behouden databankrechten die grotendeels lijken op de EU-regels, maar met handhaving door de ICO. Voor grensoverschrijdende bedrijven stelt de EU de hoogste lat — en als je data over EU-inwoners scrapt, gelden die regels ongeacht waar je bedrijf is gevestigd.

Meer lezen