Den 1. maj 2024 kom den hollandske databeskyttelsesmyndighed med en overskrift, der fik alle datateams i Europa til at spærre øjnene op: Hvis du arbejder med salg, ecommerce eller ejendom — altså stort set alle, der er afhængige af webdata — fik den formulering nok maven til at slå en kolbøtte.
Jeg forstår det godt. Hos taler vi hver dag med forretningsfolk, som har brug for webdata til prisovervågning, leadgenerering og markedsresearch. Frustrationen er altid den samme: de googler “er webscraping lovligt i Europa”, og hvert svar ender i en variant af “det kommer an på”. Det hjælper ikke meget, når du har en projektdeadline og en liste med URL’er, der skal scrap'es.
Så jeg brugte uger på at dykke ned i de faktiske regler, vejledninger fra datatilsyn, håndhævelsessager og retspraksis for at bygge noget mere brugbart: en praktisk beslutningscheckliste, en samlet tabel over sikkerhedsforanstaltninger, konkrete bødebeløb og en trin-for-trin-guide til at scrape europæiske websites uden at ende i myndighedernes søgelys. Uanset om du scraper Amazon-produktpriser eller trækker B2B-kontakter ud af en database, hjælper denne artikel dig med at forstå grænserne — og hvordan du holder dig på den rigtige side af dem.
Hvad er webscraping (og hvorfor bør europæiske virksomheder bekymre sig)?
Webscraping er den automatiserede indsamling af data fra websites til et struktureret format — et regneark, en database eller et CRM. I stedet for at kopiere og indsætte produktnavne og priser fra 200 sider besøger en scraper hver side og henter de felter, du har brug for, i pæne kolonner.
Hvorfor er det vigtigt for ikke-tekniske teams? Fordi webdata driver reelle forretningsbeslutninger. Salgsteams scraper kataloger for leads. Ecommerce-managere overvåger konkurrenternes priser dagligt. Ejendomsanalytikere følger udviklingen i boligannoncer på tværs af portaler. Markedsresearchere indsamler offentlige anmeldelser og ratings i stor skala. Det vokser hurtigt, og virksomheder scraper millioner af datapunkter hver dag.
Men Europas regulatoriske miljø er anderledes end USA’s. GDPR, Database-direktivet og udviklende vejledninger fra datatilsyn betyder, at “offentligt tilgængelig” ikke er det samme som “fri at bruge”. Som den hollandske AP-formand Aleid Wolfsen sagde: “offentligt betyder ikke automatisk tilladelse til scraping.” Det er ikke valgfrit at forstå reglerne, før du går i gang — det er forskellen mellem et rent datasæt og en bøde i millionklassen.
Er webscraping lovligt i Europa? Det korte svar
Webscraping er ikke i sig selv ulovligt i Europa. Men lovligheden afhænger af tre ting: hvad du scraper, hvordan du scraper det, og hvorfor.
Tre overlappende juridiske lag styrer scraping i EU:
- GDPR — gælder, når du scraper persondata (navne, e-mails, telefonnumre, IP-adresser, selv pseudonymiserede identifikatorer).
- EU’s Database-direktiv — beskytter databaser, hvor skaberen har foretaget en “væsentlig investering” i at organisere data.
- Kontrakt-/vilkårslovgivning — mange websites forbyder eksplicit scraping i deres ToS, og EU-domstole har håndhævet de vilkår.
Det afgørende punkt: “offentlig” betyder ikke “ureguleret”. Selv ikke-personlige data kan være beskyttet af databaserettigheder eller kontraktret. Hvert scrapingprojekt kræver, at man ser på alle tre lag samlet.
De vigtigste EU-love, der styrer webscraping
GDPR: Når du scraper persondata
Alle data, der kan knyttes til en identificerbar person, udløser GDPR-forpligtelser. Det gælder navne, e-mailadresser, telefonnumre, IP-adresser, fotos og endda pseudonymiserede data, som kan re-identificeres. I det øjeblik du scraper persondata, bliver du en “dataansvarlig” med forpligtelser efter GDPR:
- Lovligt grundlag (artikel 6): Du skal have en juridisk begrundelse for at behandle dataene. Samtykke er næsten aldrig praktisk ved scraping i stor skala — du kan ikke bede millioner af mennesker om tilladelse, før du indsamler deres offentligt delte oplysninger. Det mest brugte grundlag er legitim interesse (artikel 6, stk. 1, litra f), men det kræver en dokumenteret tretrinsvurdering: (1) din interesse er legitim, (2) behandlingen er nødvendig, og (3) den påvirker ikke de registreredes rettigheder uforholdsmæssigt, set i lyset af deres rimelige forventninger.
- Gennemsigtighed (artikel 14): Da du ikke indsamler data direkte fra personen, skal du informere dem — typisk inden for en måned — om, hvad du har indsamlet, hvorfor, og hvordan de kan udøve deres rettigheder. Hvis individuel underretning er uforholdsmæssig, skal du offentliggøre en generel meddelelse med alt indholdet efter artikel 14.
- Dataminimering: Indsaml kun det, du faktisk har brug for. Hvis du vil have produktpriser, så hent ikke også sælgers e-mailadresser.
- Opbevaringsbegrænsning og rettighedshåndtering: Sæt slettefrister, respekter sletningsanmodninger, og giv adgang til kildeoplysninger.
(vedtaget i maj 2024) tilføjede endnu et lag: den fastslog, at forskellige behandlingsfaser — indsamling, forbehandling, træning, prompts og output — hver især kræver deres egen vurdering af det juridiske grundlag. EDPB afviste ikke legitim interesse for webscraping, men understregede, at den fulde tretrinsvurdering med passende sikkerhedsforanstaltninger er nødvendig.
EU’s Database-direktiv: Beskyttelse af den måde data er organiseret på
Database-direktivet giver en sui generis-rettighed til skabere af databaser, der har foretaget en “væsentlig investering” i at indhente, kontrollere eller præsentere deres data. Hvis din scraping udtrækker en “væsentlig del” af en sådan database, kan du krænke denne rettighed.
I praksis er tærsklen relativt høj. At scrape nogle hundrede produktpriser fra en stor detailkæde vil næppe være nok. Men masseoverførsel af et helt konkurrentkatalog — titusindvis af annoncer — kan krydse grænsen, især hvis det truer skaberens mulighed for at tjene investeringen hjem igen. EU-Domstolen har taget stilling til denne tærskel i flere sager, og nøglespørgsmålet er altid proportionalitet.
For de fleste forretningsmæssige scrapingopgaver — at hente specifikke felter fra produktsider og sammenligne annoncer på tværs af en kategori — er Database-direktivet en lavere risiko. Men risikoen er ikke nul, og det er værd at have med i designet af din scraping-opsætning.
ToS: kontraktlovens joker
Her går mange galt i byen. Mange websites forbyder scraping i deres vilkår. I Europa er brud på ToS en civil sag (ikke strafferetlig), men det kan stadig føre til fogedforbud, kontraktsøgsmål og reel økonomisk risiko.
To varianter er vigtige at kende: browsewrap (passive vilkår, ofte et link nederst på siden) er sværere at håndhæve, fordi brugeren aldrig aktivt har accepteret dem. Clickwrap (hvor du sætter flueben eller klikker “Jeg accepterer”) er langt lettere at håndhæve.
Den skelsættende EU-sag er Ryanair mod PR Aviation: Domstolen håndhævede Ryanairs ToS mod en scraper, selv om databaserettigheder ikke fandt anvendelse, fordi scraperen havde accepteret vilkårene. Så: gennemgå altid et websites ToS, før du scraper. Hvis det er en clickwrap-aftale, der eksplicit forbyder scraping, så gå forsigtigt frem — eller undersøg API-adgang i stedet.
DSM-direktivet og AI-loven: undtagelser for forskning og tekst-/datamining
Ikke al scraping udløser de samme begrænsninger. Digital Single Market (DSM)-direktivet (2019) indførte to undtagelser for tekst- og datamining (TDM):
- Artikel 3: Forskningsinstitutioner og kulturarvsorganisationer kan udføre TDM på lovligt tilgået indhold.
- Artikel 4: Alle — også kommercielle aktører — kan udføre TDM, medmindre rettighedshaveren udtrykkeligt har fravalgt det (f.eks. via robots.txt, ai.txt eller TDMRep-headere).
EU AI-loven (artikel 53) tilføjer forpligtelser for udbydere af AI-modeller: de skal overholde TDM-fravalgsmekanismer og dokumentere deres træningsdatakilder.
En vigtig detalje: disse undtagelser dækker ophavsret og databaserettigheder, ikke GDPR. Hvis din TDM involverer persondata, skal du stadig have et selvstændigt juridisk grundlag efter GDPR.

Beslutningschecklisten “Må jeg scrape det her?” for europæiske data
Det her er det afsnit, jeg ville ønske fandtes, da jeg begyndte at undersøge emnet. Hver juridisk artikel siger “det kommer an på” — men hvordan ser beslutningstræet egentlig ud? Her er en trin-for-trin compliance-checkliste med klare stoplys. Hvert trin fører til ✅ fortsæt, ⚠️ tilføj sikkerhedsforanstaltninger eller 🛑 stop.
Trin 1: Er dataene personlige eller ikke-personlige?
Ikke-personlige data (produktpriser, SKU-numre, virksomhedsadresser, der ikke er knyttet til enkeltpersoner): lavere regulatorisk byrde. Du skal stadig tjekke Database-direktivet og ToS, men GDPR gælder ikke. ✅ Fortsæt til trin 3.
Persondata (navne, e-mails, telefonnumre, fotos, enhver identifikator knyttet til en person): GDPR gælder. ⚠️ Fortsæt til trin 2.
Trin 2: Hvilket juridisk grundlag efter GDPR gælder?
- Samtykke: Næsten aldrig praktisk ved scraping i stor skala. 🛑 Medmindre du har en meget snæver og specifik situation.
- Legitim interesse (artikel 6, stk. 1, litra f): Det mest almindelige grundlag. Men det kræver en dokumenteret tretrinsvurdering:
- Din interesse er legitim (kommerciel interesse kan kvalificere, ifølge ).
- Behandlingen er nødvendig for den interesse.
- Afvejningen: din interesse må ikke tilsidesætte de registreredes rettigheder, når man tager deres rimelige forventninger i betragtning.
- Dokumentér afvejningen før scraping. Hvis du ikke kan formulere, hvorfor de mennesker, hvis data du scraper, med rimelighed kunne forvente denne brug, er det et advarselssignal. ⚠️ Fortsæt med dokumenteret legitim interesse.
Trin 3: Begrænser sitets ToS scraping?
- Clickwrap-aftale, der forbyder scraping: 🛑 Høj risiko. Overvej alternative datakilder eller officiel API-adgang.
- Browsewrap eller ingen ToS-begrænsning: ⚠️ Lavere risiko, men respekter stadig robots.txt og tekniske modstandssignaler.
Trin 4: Gælder Database-direktivet?
- Er målet en database med væsentlig investering i dataorganisering?
- Vil din scraping udtrække en “væsentlig del” af databasen?
- Hvis ja til begge: ⚠️ Risiko for sui generis-krænkelse. Begræns dit udtræk.
Trin 5: Er du dækket af en forskning- eller TDM-undtagelse?
- Registreret forskningsinstitution eller kulturarvsorganisation? DSM-direktivets artikel 3 kan gælde. ✅
- Kommerciel TDM? Tjek for fravalgssignaler efter artikel 4 (robots.txt, ai.txt, TDMRep). Hvis sitet har fravalgt, 🛑 stop for den kilde.
Trin 6: Har du anvendt de sikkerhedsforanstaltninger, som datatilsyn anbefaler?
Hvis du er kommet igennem ovenstående trin, er det sidste skridt at implementere de sikkerhedsforanstaltninger, som CNIL, den hollandske AP og EDPB anbefaler. Dem gennemgår vi detaljeret i næste afsnit. ✅ Fortsæt med sikkerhedsforanstaltninger på plads.

Compliance-sikkerhedsforanstaltninger: Hvad CNIL, den hollandske AP og EDPB anbefaler
Jeg fandt ikke nogen enkelt konkurrentartikel, der samler sikkerhedsforanstaltningerne fra Europas tre mest aktive tilsynsmyndigheder på scrapingområdet. Så jeg byggede denne tabel ved at krydstjekke , og .
| Sikkerhedsforanstaltning | CNIL | Hollandsk DPA (AP) | EDPB Task Force | Implementeringstips |
|---|---|---|---|---|
| Gennemsigtighedsmeddelelse efter art. 14 | ✅ Påkrævet | ✅ Påkrævet | ✅ Påkrævet | Offentliggør en meddelelse, der oplister kildetyper, formål, retsgrundlag, opbevaring, kanaler for rettigheder og kontakt til DPO |
| DPIA før scraping | ✅ Anbefalet (obligatorisk ved høj risiko) | ✅ Påkrævet | ✅ Påkrævet | Dokumentér afvejning, datakategorier, risici og afbødende foranstaltninger før lancering |
| Dataminimering | ✅ Påkrævet (definér præcise indsamlingkriterier) | ✅ Påkrævet | ✅ Påkrævet | Konfigurér scraperen til kun at hente de nødvendige felter; slet irrelevante data med det samme |
| Rate limiting / respekt for robots.txt | ✅ Påkrævet (udeluk sider, der gør indsigelse via robots.txt/CAPTCHA) | — | — | Analysér robots.txt, indsæt pauser mellem forespørgsler, identificér din user agent |
| Pseudonymisering / anonymisering | ⚠️ Anbefalet (umiddelbart efter indsamling) | ✅ Stærkt opfordret | ✅ Anbefalet | Hash eller randomisér ID’er; fjern profil-URL’er; slør ansigter, når identitet ikke er nødvendig |
| Opbevaringsperiode | ✅ Fastsat grænse | ✅ Så kort som muligt | ✅ Fastsat grænse | Automatisér sletteplaner; adskil rå cache fra udtrukne fakta |
| Opt-out / blacklist-mekanisme | ✅ Anbefalet (skønsmæssig forudgående indsigelse) | ✅ Påkrævet (indsigelse efter art. 21) | ✅ Påkrævet | Tilbyd opt-out-formular, domæne-blacklist og personniveau-suppression |
| Udeluk følsomme kilder | ✅ Påkrævet (sundhedsfora, sider for mindreårige, pornografiske sider, slægtsforskning) | ✅ Påkrævet | ✅ Påkrævet | Vedligehold standard-blacklists for sundhed, religion, politik, biometrik og mindreårige |
Et praktisk tip fra vores side: Thunderbits funktion lader brugerne definere præcis, hvilke kolonner der skal hentes — pris, SKU, produktnavn — så scraperen kun indsamler det nødvendige. Du downloader ikke hele sider i bulk; du vælger strukturerede felter, der matcher principperne om formålsbegrænsning og dataminimering. Når det er sagt, gør intet værktøj ikke-compliant scraping lovligt. Den juridiske vurdering kommer altid først.

Er webscraping lovligt i Europa til dit use case? Branchespecifik vejledning
Det spørgsmål, jeg oftest ser i fora, er ikke “er scraping lovligt?” — men “er min scraping lovlig?” Abstrakt GDPR-teori besvarer ikke det. Så her er en opdeling efter typiske forretningsanvendelser.
| Use case | Datatype | Vigtigste juridiske risici | Sandsynligt udfald |
|---|---|---|---|
| Prisovervågning i ecommerce (offentlige produktannoncer) | Ikke-personlig (priser, SKU’er, produktnavne) | Database-direktivets sui generis-rettighed; brud på ToS | Generelt lavere risiko, hvis der ikke er persondata, og der ikke sker systematisk udtræk af en “væsentlig del” af databasen |
| B2B leadgenerering (kontaktinfo fra kataloger) | Personlig (navne, e-mails, telefonnumre) | GDPR art. 6 om retsgrundlag; art. 14-underretning; ePrivacy for elektronisk kontakt | Højere risiko — kræver dokumenteret legitim-interesse-afvejning plus underretningspligt |
| Ejendomsannoncer (boligdata fra portaler) | Blandet (adresser kan være ikke-personlige; ejeres navne er persondata) | Database-direktivet; ToS; GDPR hvis knyttet til ejer | Mellemrisiko — anonymisér ejerdata, tjek ToS, respekter robots.txt |
| AI-træningsdata (webindhold i stor skala) | Potentielt persondata, hvis det ikke filtreres | GDPR + EU AI-lovens art. 53 om TDM-forpligtelser | Høj risiko — skal overholde både GDPR og AI-loven; fravalgsmekanismer og robust filtrering er nødvendige |
For lavrisikoscenarier som offentlige ecommerce-data reducerer værktøjer med strukturerede skabeloner — som Thunderbits — eksponeringen, fordi de henter specifikke, ikke-personlige datafelter uden at samle overflødigt indhold. For højrisikoscenarier med persondata (for eksempel leadgenerering) skal den juridiske vurdering komme først. Ingen scraper, uanset hvor smart, gør ikke-compliant indsamling compliant.

EU vs. USA vs. UK: Sådan sammenlignes webscraping-reglerne
Hvis din virksomhed opererer på tværs af grænser, skal du forstå, hvordan reglerne adskiller sig. Jeg kunne ikke finde nogen konkurrentartikel, der viser det som en let aflæselig side-om-side-tabel, så her er den.
| Dimension | EU | USA | UK (efter Brexit) |
|---|---|---|---|
| Primær lovgivning | GDPR + Database-direktivet + ePrivacy | CFAA + delstatslove (begrænset føderal databeskyttelse) | UK GDPR + Data Protection Act 2018 |
| Scraping af offentlige data | Kræver stadig GDPR-retsgrundlag, hvis det er persondata | Generelt lovligt ifølge hiQ v. LinkedIn (offentlige data) | Ligner EU; ICO-vejledning gælder |
| Håndhævelse af ToS | Civilsag; Ryanair v. PR Aviation håndhævede sui generis | Van Buren indskrænkede CFAA; brud på ToS ≠ strafbart | Civilsag, ligner EU |
| Databasebeskyttelse | Sui generis-rettighed (stærk) | Intet tilsvarende føderalt værn | Bevaret sui generis-rettighed |
| AI/TDM-undtagelse | DSM-direktivets art. 3–4; AI-lovens art. 53 | Ingen føderal TDM-undtagelse (fair use-doktrin) | UK undersøger TDM-undtagelse (stoppet pr. 2026) |
| Vigtigste håndhævelsesorgan | Nationale datatilsyn (CNIL, hollandske AP osv.) | FTC + delstatslige AG’er | ICO |
| Seneste tendens | Skrappere (hollandske AP: “næsten altid ulovligt” for persondata) | Mere tilladende efter hiQ | Moderat; følger generelt EU-retningen |
Hvis du scraper europæiske websites eller data om europæiske borgere, gælder EU-reglerne — også selv om din virksomhed er baseret i USA eller UK.
Faktiske bøder og sager: Hvad sker der egentlig, hvis du bliver taget? (2022–2026)
Her er afsnittet, der svarer på spørgsmålet bag spørgsmålet: “Hvad er den reelle risiko?” Jeg har samlet alle offentlige håndhævelsessager fra datatilsyn, der involverer webscraping eller scrappede persondata fra 2022 til april 2026.
| År | Myndighed | Mål | Overtrædelse | Bøde/udfald |
|---|---|---|---|---|
| 2022 | Italienske Garante | Clearview AI | Scraping af ansigtsbilleder uden lovligt grundlag | €20 mio. bøde + forbud + påbud om sletning |
| 2022 | Græske datatilsyn (Greece) | Clearview AI | Det samme — scraping til ansigtsgenkendelse | €20 mio. bøde + forbud + sletning |
| 2022 | CNIL (Frankrig) | Clearview AI | Ansigtsgenkendelsesdatabase | €20 mio. bøde + mulig bøde på €100.000/dag |
| 2023 | CNIL (Frankrig) | Clearview AI | Manglende efterlevelse af påbuddet fra 2022 | €5,2 mio. bøde |
| 2023 | Østrigske DSB | Clearview AI | 30 mia.+ ansigtsbilleder fra det offentlige web | Sletning + påbud om EU-repræsentant (ingen offentliggjort bøde) |
| 2024 | Hollandske AP | Clearview AI | Ulovlig indsamling af data til ansigtsgenkendelse | €30,5 mio. bøde + compliance-påbud |
| 2024 | CNIL (Frankrig) | KASPR | Scraping af LinkedIn-kontaktdata til leadgenerering | €240.000 bøde — 160 mio. kontakter, data med begrænset synlighed, 5 års opbevaring |
| 2024 | Irish DPC | X / Grok | Offentlige opslag brugt til AI-træning | Suspensionsaftale; formel undersøgelse åbnet i 2025 |
| 2024 | Irish DPC | Meta | Planlagt LLM-træning på offentligt Facebook/Instagram-indhold | Meta satte EU AI-træningsplaner på pause |
| 2024 | Italienske Garante | OpenAI | ChatGPT-træningsdata + gennemsigtighed | €15 mio. bøde udstedt, ophævet af Rom-domstol i marts 2026 |
Det samlede bødebeløb i EU/EØS for scraping/open-web-kategorien: over €95 mio. (eksklusive den ophævede OpenAI-bøde).
Hver eneste af disse store bøder ramte masseindsamling af biometriske data eller persondata uden noget lovligt grundlag. Clearview scrape’de milliarder af ansigtsbilleder. KASPR scrape’de 160 millioner kontakter, inklusive data fra LinkedIns profiler med begrænset synlighed, og gemte dem i fem år.
Proportioneret, målrettet scraping af offentlige ikke-personlige data — som produktpriser eller SKU-numre — har ikke været genstand for håndhævelsessager. Det gør det ikke risikofrit, men det hjælper med at sætte tallene i perspektiv.
Sådan scraper du europæiske websites sikkert: En trin-for-trin-guide
- Sværhedsgrad: Begynder
- Tidsforbrug: ~15 minutter (inkl. compliance-gennemgang)
- Det skal du bruge: Chrome-browser, (gratis version virker), en mål-URL og en hurtig gennemgang af checklisten ovenfor
Trin 1: Definér dit formål og dine databehov
Før du åbner et værktøj, så skriv ned hvorfor du har brug for dataene, og præcis hvilke felter du har brug for. Det er ikke bare god praksis — det er grundlaget for GDPR’s principper om formålsbegrænsning og dataminimering.
For eksempel: “Jeg har brug for produktnavne, priser og lagerstatus fra 50 Amazon-produktsider for at opdatere vores konkurrenceprisskema.” Det er specifikt. Sammenlign det med: “Jeg vil scrape alt fra Amazon.” Det første består minimeringstesten; det andet gør ikke.
Trin 2: Kør compliance-checklisten
Gå igennem den seks-trins “Må jeg scrape det her?”-checkliste ovenfor. Hvis et trin giver 🛑, så stop og tal med en juridisk rådgiver, før du fortsætter.
Hvis vi kører vores Amazon-priseksempel gennem trinnene: dataene er ikke-personlige (priser, SKU’er, produktnavne) ✅, der er ikke et GDPR-persondata-problem ✅, Amazons ToS bør gennemgås (de begrænser scraping, så overvej officielle produktdata-API’er, hvor de findes) ⚠️, og risikoen efter Database-direktivet er lav for 50 produkter ✅.
Trin 3: Vælg den rigtige scrapingmetode
| Metode | Brugervenlighed | Compliance-understøttelse | Vedligeholdelse | Nøjagtighed |
|---|---|---|---|---|
| Manuel copy-paste | Lav | N/A (du styrer, hvad du kopierer) | Høj (tidskrævende) | Fejlbehæftet |
| Kodebaseret scraper (Python, Scrapy) | Lav (kræver kodning) | Ingen indbygget | Høj (bryder sammen, når sider ændres) | Høj, hvis vedligeholdt |
| Thunderbit (AI-drevet) | Meget høj | Indbygget feltniveau-minimering | Lav (AI tilpasser sig sideændringer) | Høj |
| Officiel API | Mellem | Højest (struktureret, godkendt adgang) | Lav | Højst |
For forretningsbrugere uden et udviklingsteam er den hurtigste vej. For websites med officielle API’er (som Amazons Product Advertising API) er API’en altid den sikreste løsning — men den har ofte begrænsninger på datamængde og felter.
Trin 4: Konfigurér din scraper til compliance
I Thunderbit:
- Gå til din målside (f.eks. en Amazon-produktside).
- Klik på Thunderbit-ikonet i din Chrome-værktøjslinje, og vælg “AI Suggest Fields”. AI’en scanner siden og foreslår kolonner som “Produktnavn”, “Pris”, “Bedømmelse” og “Lagerstatus”.
- Fjern alle felter, du ikke har brug for. Hvis AI’en foreslår “Sælgernavn” eller “Sælgers e-mail”, og du kun har brug for prisdata, så slet de kolonner. Det er dataminimering i praksis.
- Brug Field AI Prompt til at tilføje instruktioner som “udeluk personlige identifikatorer” eller “udtræk kun offentlige prisdata”.
- Vælg Cloud Scraping for offentlige ecommerce-sites (hurtigere, kræver ikke login) eller Browser Scraping for sider, der kræver autentificering.
- Før du klikker på “Scrape”, så verificér, at robots.txt ikke forbyder scraping til dit use case. Du kan tjekke det ved at besøge
[domæne]/robots.txti browseren.
Du bør nu se en tabelvisning med kun de felter, du har konfigureret — ingen overflødige persondata, ingen unødvendig metadata.
Trin 5: Eksportér, opbevar og håndter data ansvarligt
Efter scraping kan du eksportere dine data til — Thunderbit understøtter alt dette med gratis eksport.
Derefter:
- Sæt en opbevaringsfrist. Gem ikke scrappede data på ubestemt tid. Hvis du laver ugentlig prisovervågning, er sidste måneds rå data sandsynligvis ikke nødvendig.
- Hvis der er indsamlet persondata (f.eks. til leadgenerering), skal du dokumentere dit retsgrundlag, offentliggøre en gennemsigtighedsmeddelelse efter artikel 14 og etablere en proces for opt-out- og sletningsanmodninger.
- Automatisér sletningsplaner hvor det er muligt. Thunderbits kan automatisere tilbagevendende scraping med faste intervaller og samtidig bevare den samme feltkonfiguration, så hver kørsel holder sig inden for dine compliance-rammer.
Tips til at holde dig compliant, mens du scraper i Europa
Nogle praksisser, jeg har taget med fra at undersøge emnet og tale med teams, der tænker i compliance:
- Gennemgå altid ToS, før du scraper et nyt site. Det tager to minutter og kan spare dig for måneder med juridiske hovedpiner.
- Brug API’er, når de findes. De er strukturerede, godkendte og den sikreste vej. Scraping bør være fallback, ikke standardvalg.
- Lav en DPIA for ethvert projekt, der involverer persondata i stor skala. CNIL siger, at AI-træningsdatasæt kan skabe høj risiko, og DPIA’en er dit bevis på ansvarlighed. Selv for mindre projekter er det klogt at dokumentere din vurdering.
- Før en scrapinglog. Registrér, hvad der blev scraped, hvornår, hvorfra, dit juridiske grundlag og din opbevaringsperiode. Hvis et datatilsyn en dag spørger, vil du være glad for, at du har den.
- Følg med i regulatoriske opdateringer. Vejledningen fra datatilsyn udvikler sig hurtigt — CNIL offentliggjorde nye AI-scrapingark i januar 2026, og EDPB forventes at komme med yderligere udtalelser. Reglerne i dag kan være strammere i morgen.
- Scrape ikke fra begrænsede eller følsomme kilder. CNIL’s omfatter sundhedsfora, sider primært brugt af mindreårige, pornografiske sider, slægtsforskningssider og stærkt strukturerede persondatasider. Hvis du bygger et scrapingprojekt, så vedligehold en standard-blacklist.
- Automatiseret trafik er operationelt meget vigtigt. , at bots udgjorde 42 % af al webtrafik i 2024, og , at automatiseret bot-trafik for første gang overhalede menneskelig trafik og nåede 51 % i 2024. Myndigheder ser i stigende grad bot-adfærd, hastighed og omgåelse som tegn på risiko og unfairness. At opføre sig som en ansvarlig scraper — identificere din user agent, rate-limite og respektere modstandssignaler — er ikke kun høfligt; det er juridisk relevant.
Konklusion
Webscraping er ikke ulovligt i Europa. Men det er reguleret — især når persondata er involveret.
Det juridiske udfald afhænger af hvad du scraper (persondata vs. ikke-personlige data), hvordan du scraper (ToS, robots.txt, rate limiting, feltniveau-minimering) og hvorfor (dokumenteret formål og retsgrundlag). Håndhævelseshistorikken er tydelig: masseindsamling af persondata uden noget lovligt grundlag er der, hvor virksomheder ender med bøder i syv- og ottecifrede beløb. Proportioneret, målrettet scraping af offentlige ikke-personlige data — med sikkerhedsforanstaltninger på plads — ligger i en helt anden risikokategori.
Den praktiske ramme:
- Brug beslutningschecklisten før hvert scrapingprojekt.
- Anvend de sikkerhedsforanstaltninger, datatilsyn anbefaler (gennemsigtighed, minimering, opbevaringsgrænser, opt-out-mekanismer).
- Vælg værktøjer, der understøtter compliance by design. Thunderbits AI-drevne feltvalg, strukturerede udtræk og gør det nemt at scrape kun de data, du har brug for — hverken mere eller mindre.
- Dokumentér alt. Afvejning, kildeliste, opbevaringsplan, DPIA. Hvis en myndighed spørger, er din dokumentation dit forsvar.
Obligatorisk ansvarsfraskrivelse: Denne artikel er kun til information og er ikke juridisk rådgivning. Ved højrisikoscenarier med persondata i stor skala bør du tale med en kvalificeret privacy-advokat. Reglerne udvikler sig, og prisen for at gøre det forkert er reel.
Vil du selv prøve compliant, målrettet webscraping? lader dig eksperimentere med struktureret udtræk i mindre skala — definér dine felter, scrape kun det, du har brug for, og eksportér med få klik. Du kan også udforske vores for trin-for-trin-gennemgange.
Ofte stillede spørgsmål
1. Er webscraping lovligt i Europa, hvis dataene er offentligt tilgængelige?
Offentlig tilgængelighed fritager ikke data fra GDPR, hvis de indeholder personoplysninger. Som den hollandske AP sagde: “offentligt betyder ikke automatisk tilladelse til scraping.” Offentlige ikke-personlige data (produktpriser, SKU’er) er generelt lavere risiko, men du skal stadig tjekke Database-direktivet og sitets vilkår.
2. Kan jeg scrape e-mails og telefonnumre fra europæiske websites?
E-mails og telefonnumre er persondata efter GDPR. Du skal have et lovligt grundlag — typisk legitim interesse med en dokumenteret afvejning — og du skal underrette de registrerede efter artikel 14. CNIL gav KASPR en bøde på €240.000 i 2024 for scraping af LinkedIn-kontaktdata uden tilstrækkelig gennemsigtighed eller juridisk grundlag, så det er et område med aktiv håndhævelse.
3. Hvad er den største bøde for ulovlig webscraping i Europa?
Den hollandske AP gav Clearview AI en bøde på i 2024 for ulovlig indsamling af ansigtsgenkendelsesdata fra det offentlige web. Flere andre EU-datatilsyn gav Clearview bøder på €20 mio. hver. De samlede EU/EØS-bøder relateret til scraping fra 2022–2026 overstiger €95 mio.
4. Gør det webscraping lovligt i Europa at respektere robots.txt?
At respektere robots.txt er best practice og stemmer overens med , men det garanterer ikke lovlighed i sig selv. Du skal stadig overholde GDPR (hvis persondata er involveret), Database-direktivet og sitets vilkår. Tænk på robots.txt-overholdelse som ét lag i en flerlaget compliance-ramme.
5. Hvordan er webscraping-lovgivningen anderledes i Europa end i USA?
EU er markant strengere. GDPR gælder for alle persondata — også offentligt tilgængelige data — og Database-direktivet giver stærk beskyttelse af organiserede datasæt. USA har ikke nogen føderal ækvivalent til nogen af disse love; efter hiQ v. LinkedIn er scraping af offentlige data generelt tilladt i USA. UK efter Brexit ligger et sted midt imellem med UK GDPR og bevarede databaserettigheder, der i store træk afspejler EU-reglerne, men med ICO-håndhævelse. For virksomheder på tværs af grænser sætter EU’s regler den højeste barre — og hvis du scraper data om EU-borgere, gælder de regler uanset hvor din virksomhed er baseret.
Læs mere
