Är web scraping lagligt i Europa? Så skrapar du och håller dig säker

Den 1 maj 2024 släppte den nederländska dataskyddsmyndigheten en rubrik som fick det att gå en isande känsla genom hela Europas datateam: “scraping is almost always illegal.” Om du jobbar inom sälj, ecommerce eller fastigheter — alltså i princip alla som förlitar sig på webbdata — fick den formuleringen säkert magen att sjunka.

Jag fattar det. På Thunderbit pratar vi varje dag med affärsteam som behöver webbdata för prisbevakning, leadgenerering och marknadsundersökningar. Frustrationen är nästan alltid densamma: de googlar “is web scraping legal in Europe”, och varje svar landar i någon variant av “det beror på”. Det hjälper inte när du har en deadline och en lista med URL:er att skrapa.

Så jag har lagt veckor på att gräva i de faktiska reglerna, vägledning från dataskyddsmyndigheter, tillsynsärenden och rättsfall för att bygga något mer användbart: en praktisk beslutchecklista, en sammanställd tabell över skyddsåtgärder, riktiga sanktionsbelopp och en steg-för-steg-guide till hur du skrapar europeiska webbplatser utan att hamna på fel sida av en regulator. Oavsett om du skrapar produktpriser från Amazon eller hämtar B2B-kontakter från en katalog hjälper den här artikeln dig att se var gränserna går — och hur du håller dig på rätt sida om dem.

Vad är Web Scraping (och varför bör europeiska företag bry sig)?

Web scraping är automatiserad extrahering av data från webbplatser till ett strukturerat format — ett kalkylblad, en databas, ett CRM. I stället för att copy-paste:a produktnamn och priser från 200 sidor besöker en scraper varje sida och plockar ut de fält du behöver i snygga kolumner.

Varför spelar det här roll för icke-tekniska team? För att webbdata driver verkliga affärsbeslut. Säljteam skrapar kataloger för leads. E-handelsteam övervakar konkurrentpriser dagligen. Fastighetsanalytiker följer listningstrender på olika portaler. Marknadsresearchers samlar in offentliga recensioner och betyg i stor skala. Den globala marknaden för web scraping växer snabbt, och företag skrapar miljontals datapunkter varje dag.

Men Europas regulatoriska miljö är annorlunda än den amerikanska. GDPR, databassdirektivet och en ständigt utvecklande vägledning från dataskyddsmyndigheter betyder att “offentligt tillgängligt” inte är samma sak som “fritt att använda”. Som den nederländska dataskyddsmyndighetens ordförande Aleid Wolfsen uttryckte det: “offentligt betyder inte automatiskt tillstånd att skrapa.” Att förstå reglerna innan du börjar är inte valfritt — det är skillnaden mellan en ren datamängd och en bot på sexsiffrigt belopp.

Testa Thunderbit för laglig web scraping

Är web scraping lagligt i Europa? Det korta svaret

Web scraping är inte i sig olagligt i Europa. Men lagligheten beror på tre saker: vad du skrapar, hur du skrapar det och varför.

Tre överlappande rättsliga lager styr scraping i EU:

GDPR — gäller när du skrapar personuppgifter (namn, e-postadresser, telefonnummer, IP-adresser, till och med pseudonymiserade identifierare).
EU:s databassdirektiv — skyddar databaser där skaparen har gjort en “väsentlig investering” i att organisera data.
Avtalsrätt/användarvillkor — många webbplatser förbjuder uttryckligen scraping i sina villkor, och EU-domstolar har upprätthållit sådana villkor.

Den avgörande poängen: “offentlig” betyder inte “oreglerad”. Även icke-personliga uppgifter kan skyddas av databasrättigheter eller avtalsrätt. Varje scrapingprojekt kräver att alla tre lagren bedöms tillsammans.

De viktigaste EU-lagarna som styr Web Scraping

GDPR: När du skrapar personuppgifter

Alla uppgifter som kan kopplas till en identifierbar person utlöser GDPR-krav. Det gäller namn, e-postadresser, telefonnummer, IP-adresser, foton och till och med pseudonymiserade data som kan återidentifieras. I samma ögonblick som du skrapar personuppgifter blir du en “personuppgiftsansvarig” med skyldigheter enligt GDPR:

Rättslig grund (artikel 6): Du behöver en laglig anledning att behandla uppgifterna. Samtycke är nästan aldrig praktiskt vid scraping i stor skala — du kan inte be miljontals människor om lov innan du samlar in deras offentligt publicerade information. Den vanligaste grunden som åberopas är berättigat intresse (artikel 6.1 f), men det kräver ett dokumenterat test i tre delar: (1) ditt intresse är berättigat, (2) behandlingen är nödvändig och (3) den påverkar inte de registrerades rättigheter oproportionerligt, med hänsyn till deras rimliga förväntningar.
Transparens (artikel 14): Eftersom du inte samlar in uppgifterna direkt från personen måste du informera dem — normalt inom en månad — om vad du samlat in, varför och hur de kan utöva sina rättigheter. Om individuell avisering är oproportionerlig måste du publicera en allmän information som innehåller allt som krävs enligt artikel 14.
Uppgiftsminimering: Samla bara in det du faktiskt behöver. Om du vill ha produktpriser, ta inte även säljarens e-postadress.
Lagringsbegränsningar och rättighetshantering: Sätt lagringsperioder, respektera begäranden om radering och ge tillgång till källinformation.

EDPB:s rapport från ChatGPT Task Force (antagen i maj 2024) lade till ännu ett lager: den slog fast att olika behandlingssteg — insamling, förbehandling, träning, prompts och output — var för sig behöver en egen bedömning av rättslig grund. EDPB avfärdade inte berättigat intresse för web scraping, men insisterade på det fullständiga trestegsbedömningen med lämpliga skyddsåtgärder.

EU:s databassdirektiv: Skydd för hur data är organiserad

Databassdirektivet ger en sui generis-rätt till de som skapat databasen och gjort en “väsentlig investering” i att samla in, kontrollera eller presentera uppgifterna. Om din scraping extraherar en “väsentlig del” av en sådan databas kan du göra intrång i den rätten.

I praktiken är ribban relativt hög. Att skrapa några hundra produktpriser från en stor återförsäljare lär inte räknas. Men att massladda ner en konkurrents hela katalog — tiotusentals listningar — kan gå över gränsen, särskilt om det hotar skaparen möjligheter att få tillbaka sin investering. EU-domstolen har prövat den här tröskeln i flera mål, och den centrala frågan är alltid proportionalitet.

För de flesta affärsrelaterade scrapingprojekt — att hämta specifika fält från produktsidor eller jämföra listningar inom en kategori — innebär databassdirektivet en lägre risk. Men risken är inte noll, och det är värt att ha med sig när du planerar omfattningen av din scraping.

Användarvillkor: Avtalsrättens vilda kort

Det här är en vanlig fälla. Många webbplatser förbjuder scraping i sina användarvillkor. I Europa är brott mot sådana villkor en civilrättslig fråga (inte straffrättslig), men det kan ändå leda till förelägganden, avtalsrättsliga processer och verkliga ekonomiska risker.

Två varianter är bra att känna till: browsewrap (passiva villkor, ofta bara en länk längst ner på sidan) är svårare att driva igenom eftersom användaren aldrig aktivt har godkänt dem. Clickwrap (där du kryssar i en ruta eller klickar “Jag godkänner”) är mycket mer bindande.

Det vägledande EU-fallet är Ryanair v. PR Aviation: domstolen upprätthöll Ryanairs användarvillkor mot en scraper även om databasrätt inte tillämpades, eftersom scrapers hade godkänt villkoren. Så: granska alltid en webbplats användarvillkor innan du skrapar. Om det är ett clickwrap-avtal som uttryckligen förbjuder scraping, gå försiktigt fram — eller leta efter API-tillgång i stället.

DSM-direktivet och AI Act: Undantag för forskning och text- och datautvinning

Inte all scraping utlöser samma begränsningar. Digital Single Market-direktivet (DSM) från 2019 införde två undantag för text- och datautvinning (TDM):

Artikel 3: Forskningsinstitutioner och kulturarvsorganisationer kan utföra TDM på lagligen åtkomligt innehåll.
Artikel 4: Alla — inklusive kommersiella aktörer — kan utföra TDM såvida inte rättighetshavaren uttryckligen har valt bort det (t.ex. via robots.txt, ai.txt eller TDMRep-rubriker).

EU:s AI Act (artikel 53) lägger till skyldigheter för leverantörer av AI-modeller: de måste följa mekanismer för att avstå från TDM och dokumentera sina datakällor för träning.

En hake: dessa undantag omfattar upphovsrätt och databasrätt, inte GDPR. Om din TDM behandlar personuppgifter behöver du fortfarande en separat rättslig grund enligt GDPR.

Beslutchecklistan “Kan jag skrapa det här?” för europeiska data

Det här är avsnittet jag önskar fanns när jag först började undersöka ämnet. Varje juridisk artikel säger “det beror på” — men hur ser beslutsträdet egentligen ut? Här är en praktisk compliance-checklista med tydliga stoppunkter. Varje steg leder till ✅ fortsätt, ⚠️ lägg till skyddsåtgärder eller 🛑 stoppa.

Steg 1: Är datan personuppgifter eller inte?

Icke-personuppgifter (produktpriser, SKU-nummer, företagsadresser som inte är kopplade till individer): lägre regulatorisk belastning. Du behöver fortfarande kontrollera databassdirektivet och användarvillkoren, men GDPR gäller inte. ✅ Gå vidare till steg 3.

Personuppgifter (namn, e-post, telefonnummer, foton, alla identifierare kopplade till en person): GDPR gäller. ⚠️ Fortsätt till steg 2.

Steg 2: Vilken rättslig grund enligt GDPR gäller?

Samtycke: Nästan aldrig genomförbart vid scraping i stor skala. 🛑 Om du inte har ett mycket snävt och specifikt scenario.
Berättigat intresse (artikel 6.1 f): Den vanligaste grunden. Men det kräver ett dokumenterat test i tre delar:
1. Ditt intresse är berättigat (kommersiellt intresse kan kvalificera sig, enligt EU-domstolens dom 2024 i mål C-621/22).
2. Behandlingen är nödvändig för det intresset.
3. Intresseavvägningen: ditt intresse väger inte tyngre än de registrerades rättigheter, med hänsyn till deras rimliga förväntningar.
Dokumentera din intresseavvägning innan du skrapar. Om du inte kan formulera varför personerna vars data du skrapar rimligen borde förvänta sig den här användningen är det en varningssignal. ⚠️ Fortsätt med dokumenterat berättigat intresse.

Steg 3: Begränsar webbplatsens användarvillkor scraping?

Clickwrap-avtal som förbjuder scraping: 🛑 Hög risk. Överväg alternativa datakällor eller officiell API-tillgång.
Browsewrap eller ingen begränsning i användarvillkoren: ⚠️ Lägre risk, men respektera ändå robots.txt och tekniska signaler om motstånd.

Steg 4: Gäller databassdirektivet?

Är målet en databas med betydande investering i organisering av data?
Skulle din scraping extrahera en “väsentlig del” av databasen?
Om ja på båda: ⚠️ Risk för intrång i sui generis-rätten. Begränsa omfattningen av din extrahering.

Steg 5: Omfattas du av ett undantag för forskning eller TDM?

Registrerad forskningsinstitution eller kulturarvsorganisation? DSM-direktivets artikel 3 kan gälla. ✅
Kommersiell TDM? Kontrollera opt-out-signaler enligt artikel 4 (robots.txt, ai.txt, TDMRep). Om webbplatsen har valt bort detta, 🛑 stoppa för den källan.

Steg 6: Har du infört de skyddsåtgärder som dataskyddsmyndigheterna rekommenderar?

Om du har passerat stegen ovan är det sista steget att införa de skyddsåtgärder som CNIL, den nederländska dataskyddsmyndigheten och EDPB rekommenderar. De gås igenom i detalj i nästa avsnitt. ✅ Fortsätt med skyddsåtgärder på plats.

Skyddsåtgärder för compliance: Vad CNIL, den nederländska dataskyddsmyndigheten och EDPB rekommenderar

Ingen av de konkurrerande artiklar jag hittade sammanställde skyddsåtgärderna från Europas tre mest aktiva tillsynsmyndigheter inom scraping. Så jag byggde den här tabellen genom att korsa CNIL:s genomgång om web scraping, den nederländska AP:s vägledning och EDPB:s rapport från ChatGPT Task Force.

Skyddsåtgärd	CNIL	Nederländska dataskyddsmyndigheten (AP)	EDPB Task Force	Tips för implementation
Transparensmeddelande enligt art. 14	✅ Krävs	✅ Krävs	✅ Krävs	Publicera ett offentligt meddelande med källkategorier, ändamål, rättslig grund, lagringstid, kanaler för rättighetsutövning och kontakt till DSO
DPIA innan scraping	✅ Rekommenderas (obligatoriskt vid hög risk)	✅ Krävs	✅ Krävs	Dokumentera intresseavvägning, datakategorier, risker och åtgärder före lansering
Uppgiftsminimering	✅ Krävs (definiera exakta insamlingskriterier)	✅ Krävs	✅ Krävs	Konfigurera scrapers så att de bara hämtar nödvändiga fält; radera irrelevanta uppgifter direkt
Rate limiting / respekt för robots.txt	✅ Krävs (uteslut webbplatser som motsätter sig via robots.txt/CAPTCHA)	—	—	Tolka robots.txt, lägg in fördröjningar mellan förfrågningar, identifiera din user agent
Pseudonymisering / anonymisering	⚠️ Rekommenderas (omedelbart efter insamling)	✅ Starkt rekommenderat	✅ Rekommenderas	Hasha eller slumpa identifierare; ta bort profil-URL:er; sudda ansikten där identitet inte behövs
Lagringsperiod	✅ Definierad gräns	✅ Så kort som möjligt	✅ Definierad gräns	Automatisera raderingsscheman; separera råcache från extraherade fakta
Opt-out / svartlista	✅ Rekommenderas (diskretionär invändning i förväg)	✅ Krävs (invändning enligt art. 21)	✅ Krävs	Erbjud opt-out-formulär, domänsvartlista och spärrning på personnivå
Uteslut känsliga källor	✅ Krävs (hälsoforum, sajter för minderåriga, pornografiska sajter, släktforskningssajter)	✅ Krävs	✅ Krävs	Underhåll standardblocklistor för hälsa, religion, politik, biometriska uppgifter och minderåriga

En praktisk notering från vår sida: Thunderbits funktion “AI Suggest Fields” låter användare definiera exakt vilka kolumner som ska extraheras — pris, SKU, produktnamn — så att scrapers bara samlar in det som faktiskt behövs. Du massladdar inte ner hela sidor; du väljer strukturerade fält som ligger i linje med ändamålsbegränsning och uppgiftsminimering. Med det sagt gör inget verktyg icke-compliant scraping laglig. Den rättsliga analysen kommer alltid först.

Är web scraping lagligt i Europa för just ditt användningsfall? Branschspecifik vägledning

Den fråga jag oftast ser i forum är inte “är scraping lagligt?” — utan “är min scraping laglig?” Abstrakt GDPR-teori svarar inte på det. Så här är en genomgång per vanligt affärsanvändningsfall.

Användningsfall	Datatyp	Viktigaste juridiska risker	Troligt utfall
Prisbevakning för ecommerce (offentliga produktlistningar)	Icke-personlig (priser, SKU:er, produktnamn)	Sui generis-rätt enligt databassdirektivet; brott mot användarvillkor	Generellt lägre risk om inga personuppgifter ingår och ingen systematisk extrahering av en “väsentlig del” av databasen sker
B2B-leadgenerering (kontaktuppgifter från kataloger)	Personliga (namn, e-post, telefonnummer)	GDPR art. 6 rättslig grund; art. 14-informering; ePrivacy för elektronisk kontakt	Högre risk — kräver dokumenterad intresseavvägning för berättigat intresse plus informationsplikt
Fastighetslistningar (objektdata från portaler)	Blandad (adresser kan vara icke-personliga; ägarnamn är personliga)	Databassdirektivet; användarvillkor; GDPR om data kan kopplas till ägare	Medelhög risk — anonymisera ägardata, kontrollera användarvillkor, respektera robots.txt
Träningsdata för AI (storskalig scraping av webbinnehåll)	Potentiellt personliga om de inte filtreras	GDPR + EU AI Act art. 53 om TDM	Hög risk — du måste följa både GDPR och AI Act; opt-out-mekanismer och robust filtrering krävs

För scenarier med lägre risk, som offentliga ecommerce-data, minskar verktyg med strukturerade mallar — som Thunderbits snabbmallar för Amazon och Shopify — exponeringen eftersom de extraherar specifika, icke-personliga fält utan att samla in överflödigt innehåll. För scenarier med högre risk och personuppgifter (till exempel leadgenerering) måste den juridiska analysen komma först. Ingen scraper, hur smart den än är, gör icke-compliant insamling compliant.

EU vs. USA vs. Storbritannien: Så skiljer sig reglerna för Web Scraping

Om ditt företag verkar över gränser behöver du förstå hur reglerna skiljer sig. Jag hittade ingen konkurrerande artikel som presenterar detta som en lättöverskådlig tabell sida vid sida, så här kommer den.

Aspekt	EU	USA	Storbritannien (efter Brexit)
Primär lagstiftning	GDPR + databassdirektivet + ePrivacy	CFAA + delstatliga lagar (begränsat federalt dataskydd)	UK GDPR + Data Protection Act 2018
Scraping av offentliga data	Kräver fortfarande rättslig grund enligt GDPR om personuppgifter förekommer	I allmänhet lagligt enligt hiQ v. LinkedIn (offentliga data)	Liknar EU; ICO:s vägledning gäller
Tillämpning av användarvillkor	Civilrättslig fråga; Ryanair v. PR Aviation upprätthöll sui generis-rätten	Van Buren snävade in CFAA; brott mot villkor = inte automatiskt brottsligt	Civilrättslig fråga, liknar EU
Dataskydd för databaser	Sui generis-rätt (stark)	Ingen motsvarande federal rätt	Bibehållen sui generis-rätt
AI/TDM-undantag	DSM-direktivet art. 3–4; AI Act art. 53	Inget federalt TDM-undantag (fair use-doktrinen)	Storbritannien utreder ett TDM-undantag (har stannat av per 2026)
Huvudansvarig tillsynsmyndighet	Nationella dataskyddsmyndigheter (CNIL, Dutch AP m.fl.)	FTC + delstatliga AG:ar	ICO
Senaste trend	Striktare (nederländska AP: “almost always illegal” för personuppgifter)	Mer tillåtande efter hiQ	Måttlig; följer i stort EU:s riktning

Om du skrapar europeiska webbplatser eller data om europeiska invånare gäller EU:s regler — även om ditt företag är baserat i USA eller Storbritannien.

Riktiga böter och fall: Vad händer faktiskt om du åker fast (2022–2026)

Det här är avsnittet som svarar på frågan bakom frågan: “Vad är den verkliga risken?” Jag har sammanställt alla offentliga tillsynsåtgärder från dataskyddsmyndigheter som rör web scraping eller skrapade personuppgifter från 2022 till april 2026.

År	Tillsynsmyndighet	Mål	Överträdelse	Bot/utfall
2022	Italienska Garante	Clearview AI	Skrapade ansiktsbilder utan rättslig grund	20 miljoner euro i böter + förbud + raderingsföreläggande
2022	Grekiska dataskyddsmyndigheten	Clearview AI	Samma — scraping för ansiktsigenkänning	20 miljoner euro i böter + förbud + radering
2022	CNIL (Frankrike)	Clearview AI	Databas för ansiktsigenkänning	20 miljoner euro i böter + möjlig sanktion om 100 000 euro/dag
2023	CNIL (Frankrike)	Clearview AI	Underlåtenhet att följa 2022 års beslut	5,2 miljoner euro i sanktionsavgift
2023	Österrikiska DSB	Clearview AI	Över 30 miljarder ansiktsbilder från öppna webben	Radering + krav på EU-representant (ingen offentlig bot)
2024	Nederländska AP	Clearview AI	Olaglig insamling av data för ansiktsigenkänning	30,5 miljoner euro i böter + efterlevnadsförelägganden
2024	CNIL (Frankrike)	KASPR	Scraping av LinkedIn-kontaktdata för leadgenerering	240 000 euro i böter — 160 miljoner kontakter, data med begränsad synlighet, 5 års lagring
2024	Irish DPC	X / Grok	Offentliga inlägg användes för AI-träning	Överenskommelse om avstängning; formell utredning öppnades 2025
2024	Irish DPC	Meta	Planerad LLM-träning på offentligt innehåll från Facebook/Instagram	Meta pausade sina EU-planer för AI-träning
2024	Italienska Garante	OpenAI	Träningsdata för ChatGPT + transparens	Böter på 15 miljoner euro utfärdades, upphävda av domstol i Rom i mars 2026

Den totala EU/EES-sanktionen i kategorin scraping/öppen webben: över 95 miljoner euro (exklusive den upphävda OpenAI-boten).

Varenda en av dessa stora böter riktade sig mot massinsamling av biometriska eller personliga uppgifter utan rättslig grund. Clearview skrapade miljarder ansiktsbilder. KASPR skrapade 160 miljoner kontakter, inklusive data från LinkedIn-profiler med begränsad synlighet, och sparade dem i fem år.

Proportionell och riktad scraping av offentliga icke-personliga data — som produktpriser eller SKU-nummer — har inte varit föremål för tillsynsåtgärder. Det gör det inte riskfritt, men det sätter siffrorna i perspektiv.

Så skrapar du europeiska webbplatser säkert: Steg för steg

Svårighetsgrad: Nybörjare
Tidsåtgång: ~15 minuter (inklusive compliance-granskning)
Du behöver: Chrome, Thunderbit-tillägget (gratisversionen räcker), en mål-URL och en snabb genomgång av checklistan ovan

Steg 1: Definiera syfte och databehov

Innan du öppnar något verktyg, skriv ner varför du behöver datan och exakt vilka fält du behöver. Det här är inte bara god praxis — det är grunden för GDPR:s principer om ändamålsbegränsning och uppgiftsminimering.

Till exempel: “Jag behöver produktnamn, priser och lagerstatus från 50 Amazon-produktsidor för att uppdatera vårt kalkylblad för konkurrensprissättning.” Det är specifikt. Jämför det med: “Jag vill skrapa allt från Amazon.” Det första klarar minimeringstestet; det andra gör det inte.

Steg 2: Kör compliance-checklistan

Gå igenom den sexstegslista “Kan jag skrapa det här?” som finns ovan. Om någon kontrollpunkt ger 🛑, stoppa och rådgör med jurist innan du fortsätter.

Om vi kör vårt Amazon-exempel genom stegen: datan är icke-personlig (priser, SKU:er, produktnamn) ✅, ingen GDPR-fråga om personuppgifter ✅, Amazons användarvillkor bör granskas (de begränsar scraping, så överväg officiella produktdata-API:er där de finns) ⚠️, och risken enligt databassdirektivet är låg för 50 produkter ✅.

Steg 3: Välj rätt scrapingmetod

Metod	Användarvänlighet	Stöd för compliance	Underhåll	Noggrannhet
Manuell copy-paste	Låg	N/A (du styr själv vad du kopierar)	Hög (tidskrävande)	Risk för fel
Kodbaserad scraper (Python, Scrapy)	Låg (kräver kodning)	Ingen inbyggd	Hög (går sönder när sajter ändras)	Hög om den underhålls
Thunderbit (AI-driven)	Mycket hög	Inbyggd minimering på fältnivå	Låg (AI anpassar sig till sidändringar)	Hög
Officiellt API	Medel	Högst (strukturerad, godkänd åtkomst)	Låg	Högst

För affärsanvändare utan utvecklingsteam är Thunderbit den snabbaste vägen. För webbplatser med officiella API:er (som Amazons Product Advertising API) är API alltid det säkraste alternativet — men det har ofta begränsningar i datamängd och fält.

Steg 4: Konfigurera din scraper för compliance

I Thunderbit:

Gå till din målsida (t.ex. en Amazon-sida med produktlistningar).
Klicka på Thunderbit-ikonen i Chromes verktygsfält och välj “AI Suggest Fields”. AI:n skannar sidan och föreslår kolumner som “Product Name”, “Price”, “Rating” och “Stock Status”.
Ta bort alla fält du inte behöver. Om AI:n föreslår “Seller Name” eller “Seller Email” och du bara behöver prisdata, radera de kolumnerna. Det här är uppgiftsminimering i praktiken.
Använd Field AI Prompt för att lägga till instruktioner som “uteslut personidentifierare” eller “extrahera endast offentliga prisuppgifter”.
Välj Cloud Scraping för offentliga ecommerce-sajter (snabbare, inget inlogg behövs) eller Browser Scraping för sajter som kräver autentisering.
Innan du klickar på “Scrape”, kontrollera att robots.txt inte förbjuder scraping för just ditt användningsfall. Du kan kontrollera detta genom att besöka [domän]/robots.txt i webbläsaren.

Du bör nu se en tabellförhandsvisning med bara de fält du har konfigurerat — inga överflödiga personuppgifter, ingen onödig metadata.

Steg 5: Exportera, lagra och hantera data ansvarsfullt

Efter scraping kan du exportera datan till Excel, Google Sheets, Airtable eller Notion — Thunderbit stöder alla dessa med gratis export.

Sedan:

Sätt en lagringsperiod. Lagra inte skrapad data på obestämd tid. Om du bevakar priser veckovis behöver du troligen inte förra månadens rådata.
Om personuppgifter samlades in (t.ex. för leadgenerering), dokumentera din rättsliga grund, publicera ett transparensmeddelande enligt artikel 14 och sätt upp en process för opt-out- och raderingsbegäranden.
Automatisera raderingsscheman där det är möjligt. Thunderbits Scheduled Scraper kan automatisera återkommande scraping med fastställda intervall och samtidigt behålla samma fältspecifika konfiguration, så varje körning håller sig inom dina compliance-parametrar.

Tips för att hålla dig compliant när du skrapar i Europa

Några arbetssätt jag har plockat upp när jag forskat om det här och pratat med team som jobbar med compliance:

Granska alltid användarvillkor innan du skrapar en ny webbplats. Det tar två minuter och kan spara dig månader av juridiskt huvudbry.
Använd API:er när de finns. De är strukturerade, godkända och det säkraste alternativet. Scraping bör vara reservplanen, inte standardläget.
Genomför en DPIA för alla projekt som innebär personuppgifter i stor skala. CNIL säger att AI-träningsdatamängder kan innebära hög risk, och DPIA:n är ditt bevis på ansvarstagande. Även för mindre projekt är det smart att dokumentera analysen.
För ett scrapinglogg. Anteckna vad som skrapades, när, varifrån, din rättsliga grund och lagringsperiod. Om en dataskyddsmyndighet någon gång frågar kommer du att vara glad att du har den.
Följ regulatoriska uppdateringar. Vägledningen från dataskyddsmyndigheter förändras snabbt — CNIL publicerade nya AI-riktlinjer för scraping i januari 2026, och EDPB väntas ge fler utlåtanden. Reglerna i dag kan bli strängare i morgon.
Skrapa inte från begränsade eller känsliga källor. CNIL:s obligatoriska exkluderingslista omfattar hälsoforum, sajter som främst används av minderåriga, pornografiska sajter, släktforskningsajter och starkt strukturerade persondatakällor. Om du bygger ett scrapingprojekt bör du ha en standardblocklista.
Automatiserad trafik är operativt viktigt. Akamai rapporterade att bottar stod för 42 % av all webbtrafik 2024, och Thales/Imperva fann att automatiserad bottrafik för första gången passerade mänsklig trafik och nådde 51 % 2024. Regulatorer ser i allt högre grad botbeteende, hastighet och undvikande som bevis på risk och oskälighet. Att agera som en ansvarsfull scraper — identifiera din user agent, begränsa hastigheten och respektera motståndssignaler — är inte bara artigt; det är juridiskt relevant.

Slutsats

Web scraping är inte olagligt i Europa. Men det är reglerat — särskilt när personuppgifter är inblandade.

Det juridiska utfallet beror på vad du skrapar (personuppgifter kontra icke-personliga uppgifter), hur du skrapar (användarvillkor, robots.txt, rate limiting, minimering på fältnivå) och varför (dokumenterat ändamål och rättslig grund). Tillsynsfallen är tydliga: mass- och urskillningslös scraping av personuppgifter utan någon rättslig grund är det område där företag riskerar sanktionsavgifter på sju eller åtta siffror. Proportionell och riktad scraping av offentliga icke-personliga data — med skyddsåtgärder på plats — ligger i en helt annan riskkategori.

Det praktiska ramverket:

Använd beslutchecklistan före varje scrapingprojekt.
Tillämpa skyddsåtgärder som rekommenderas av dataskyddsmyndigheter (transparens, minimering, lagringsgränser, opt-out-mekanismer).
Välj verktyg som stöder compliance by design. Thunderbits AI-drivna fältval, strukturerade extrahering och gratis export till Google Sheets, Excel, Airtable och Notion gör det enkelt att skrapa bara den data du behöver — varken mer eller mindre.
Dokumentera allt. Intresseavvägning, källista, lagringsschema, DPIA. Om en regulator frågar är din dokumentation ditt försvar.

Obligatorisk brasklapp: den här artikeln är informativ, inte juridisk rådgivning. För högriskfall som innebär personuppgifter i stor skala bör du rådfråga en kvalificerad integritetsjurist. Regelverket förändras, och kostnaden för att göra fel är verklig.

Vill du själv testa compliant och riktad web scraping? Thunderbits gratisversion låter dig experimentera med strukturerad extrahering i liten skala — definiera dina fält, skrapa bara det du behöver och exportera med några klick. Du kan också utforska vår YouTube-kanal för steg-för-steg-genomgångar.

Testa AI Web Scraper för compliant dataextrahering Get Started Free

Vanliga frågor

1. Är web scraping lagligt i Europa om datan är offentligt tillgänglig?

Offentlig tillgänglighet undantar inte data från GDPR om den innehåller personuppgifter. Som den nederländska dataskyddsmyndigheten uttryckte det: “offentligt betyder inte automatiskt tillstånd att skrapa.” Offentliga icke-personliga data (produktpriser, SKU:er) innebär generellt lägre risk, men du måste fortfarande kontrollera databassdirektivet och webbplatsens användarvillkor.

2. Kan jag skrapa e-postadresser och telefonnummer från europeiska webbplatser?

E-postadresser och telefonnummer är personuppgifter enligt GDPR. Du behöver en rättslig grund — normalt berättigat intresse med en dokumenterad intresseavvägning — och du måste informera individer enligt artikel 14. CNIL bötfällde KASPR med 240 000 euro 2024 för scraping av LinkedIn-kontaktdata utan tillräcklig transparens eller rättslig grund, så det här är ett område där tillsynen är aktiv.

3. Vad är den största böten för olaglig web scraping i Europa?

Den nederländska dataskyddsmyndigheten bötfällde Clearview AI med 30,5 miljoner euro 2024 för olaglig insamling av data för ansiktsigenkänning från öppna webben. Flera andra EU-myndigheter bötfällde Clearview med 20 miljoner euro vardera. De totala EU/EES-böterna kopplade till scraping från 2022–2026 överstiger 95 miljoner euro.

4. Gör robots.txt det lagligt att skrapa webbplatser i Europa?

Att respektera robots.txt är en god praxis och ligger i linje med CNIL:s obligatoriska skyddsåtgärder, men det gör inte i sig själv scraping laglig. Du måste fortfarande följa GDPR (om personuppgifter förekommer), databassdirektivet och webbplatsens användarvillkor. Se robots.txt-respekt som ett lager i ett flerlagrat compliance-ramverk.

5. Hur skiljer sig lagstiftningen om web scraping mellan Europa och USA?

EU är betydligt striktare. GDPR gäller alla personuppgifter — även offentligt tillgängliga — och databassdirektivet ger ett starkt skydd för organiserade datamängder. USA har ingen federal motsvarighet till någon av dessa lagar; efter hiQ v. LinkedIn är scraping av offentliga data i allmänhet tillåtet i USA. Storbritannien efter Brexit ligger någonstans mittemellan, med UK GDPR och kvarhållna databasrättigheter som i stort sett speglar EU-reglerna men med ICO-tillsyn. För företag som verkar över gränser är det EU:s regler som sätter den högsta ribban — och om du skrapar data om EU-invånare gäller de reglerna oavsett var ditt företag är baserat.

Läs mer

Är web scraping lagligt i Europa? Så skrapar du säkert