Onko verkkosivujen kaavinta laillista Euroopassa? Näin kaavit turvallisesti

toukokuuta 2024 Alankomaiden tietosuojaviranomainen nosti otsikon, joka sai jokaisen Euroopan data-tiimin säpsähtämään: “kaavinta on lähes aina laitonta.” Jos työskentelet myynnissä, verkkokaupassa tai kiinteistöalalla — käytännössä missä tahansa, missä nojaudutaan verkosta saatavaan dataan — tuo lause veti luultavasti vatsan kurkkuun.

Ymmärrän hyvin. Thunderbitissä puhumme yritystiimien kanssa joka päivä, kun he tarvitsevat verkkodataa hintaseurantaan, liidien hankintaan tai markkinatutkimukseen. Turhautuminen on aina sama: Google-haulla "is web scraping legal in Europe" saa vastaukseksi lähinnä variaatioita sanasta "riippuu". Siitä ei ole juuri apua, kun projektin määräaika lähestyy ja sinulla on lista kaavittavia URL-osoitteita.

Siksi käytin viikkoja oikeiden säädösten, tietosuojaviranomaisten ohjeiden, täytäntöönpanotapausten ja oikeuskäytännön läpikäymiseen, jotta voisin rakentaa jotain hyödyllisempää: käytännön päätöksentekolistan, koottu suojatoimitaulukon, todelliset sakkomäärät sekä vaiheittaisen oppaan eurooppalaisten verkkosivujen kaavintaan ilman, että joudut viranomaisen tähtäimeen. Kaavitpa sitten Amazonin tuotehintoja tai poimit B2B-yhteystietoja hakemistosta, tämä artikkeli auttaa hahmottamaan rajat — ja pitämään toiminnan oikealla puolella.

Mitä verkkosivujen kaavinta on (ja miksi eurooppalaisten yritysten pitäisi välittää)?

Verkkosivujen kaavinta tarkoittaa datan automaattista poimintaa verkkosivuilta jäsenneltyyn muotoon — taulukkoon, tietokantaan tai CRM-järjestelmään. Sen sijaan, että kopioisit ja liittäisit tuotenimiä ja hintoja 200 sivulta, kaavin käy jokaisella sivulla ja poimii tarvitsemasi kentät siististi omiin sarakkeisiinsa.

Miksi tällä on väliä myös ei-teknisille tiimeille? Koska verkkodata ohjaa oikeita liiketoimintapäätöksiä. Myyntitiimit kaivavat hakemistoista liidejä. Verkkokauppapäälliköt seuraavat kilpailijoiden hintoja päivittäin. Kiinteistöanalyytikot seuraavat listauskehitystä eri portaaleissa. Markkinatutkijat keräävät julkisia arvosteluja ja arvioita laajassa mittakaavassa. Maailmanlaajuinen verkkosivujen kaavintamarkkina kasvaa nopeasti, ja yritykset kaavivat päivittäin miljoonia datapisteitä.

Euroopassa sääntely-ympäristö on kuitenkin erilainen kuin Yhdysvalloissa. GDPR, Database Directive ja kehittyvät tietosuojaviranomaisten ohjeet tarkoittavat, että "julkisesti saatavilla" ei ole sama asia kuin "vapaasti käytettävissä". Kuten Alankomaiden tietosuojaviranomaisen puheenjohtaja Aleid Wolfsen sanoi: "julkinen ei automaattisesti tarkoita lupaa kaavintaan." Sääntöjen ymmärtäminen ennen aloittamista ei ole valinnaista — se on ero siistin aineiston ja kuusinumeroisen sakon välillä.

Kokeile Thunderbitiä vaatimustenmukaiseen verkkosivujen kaavintaan

Onko verkkosivujen kaavinta laillista Euroopassa? Lyhyt vastaus

Verkkosivujen kaavinta ei ole Euroopassa lähtökohtaisesti laitonta. Sen laillisuus riippuu kuitenkin kolmesta asiasta: mitä dataa kaavit, miten kaavit ja miksi.

EU:ssa kaavintaa säätelee kolme päällekkäistä oikeudellista tasoa:

GDPR — soveltuu aina, kun kaavit henkilötietoja (nimiä, sähköposteja, puhelinnumeroita, IP-osoitteita, jopa pseudonymisoituja tunnisteita).
EU:n Database Directive — suojaa tietokantoja, joihin on tehty "merkittävä investointi" tiedon kokoamiseen.
Sopimus- ja käyttöehtolainsäädäntö — monet sivustot kieltävät kaavinnan suoraan käyttöehdoissaan, ja EU-tuomioistuimet ovat myös panneet näitä ehtoja täytäntöön.

Ratkaiseva pointti: "julkinen" ei tarkoita "sääntelystä vapaata". Myös ei-henkilödata voi olla suojattu tietokantaoikeuden tai sopimusoikeuden nojalla. Jokainen kaavintahanke pitää arvioida näiden kolmen tason kokonaisuutena.

Keskeiset EU-lait, jotka säätelevät verkkosivujen kaavintaa

GDPR: kun kaavit henkilötietoja

Kaikki yksilöitävään henkilöön liittyvä data laukaisee GDPR-velvoitteet. Tähän kuuluvat nimet, sähköpostiosoitteet, puhelinnumerot, IP-osoitteet, valokuvat ja jopa pseudonymisoitu data, joka voidaan yhdistää takaisin henkilöön. Heti kun kaavit henkilötietoja, sinusta tulee GDPR:n mukainen "rekisterinpitäjä", jolla on velvollisuuksia:

Laillinen peruste (artikla 6): Sinulla täytyy olla oikeudellinen syy käsitellä dataa. Suostumus ei käytännössä koskaan toimi laajamittaisessa kaavinnassa — miljoonilta ihmisiltä ei voi pyytää lupaa ennen kuin poimii heidän julkisesti julkaisemansa tiedot. Yleisimmin käytetty peruste on oikeutettu etu (artikla 6(1)(f)), mutta se edellyttää dokumentoitua kolmiosaista testiä: (1) etusi on oikeutettu, (2) käsittely on tarpeen, ja (3) se ei suhteettomasti heikennä rekisteröityjen oikeuksia heidän kohtuulliset odotuksensa huomioon ottaen.
Läpinäkyvyys (artikla 14): Koska et kerää tietoja suoraan henkilöltä, sinun täytyy informoida häntä — tyypillisesti kuukauden kuluessa — siitä, mitä keräsit, miksi ja miten hän voi käyttää oikeuksiaan. Jos yksilökohtainen ilmoittaminen on suhteetonta, sinun täytyy julkaista yleinen ilmoitus, joka sisältää kaikki artiklan 14 tiedot.
Tietojen minimointi: Kerää vain se, mitä oikeasti tarvitset. Jos haluat tuotteen hinnan, älä poimi samalla myyjän sähköpostiosoitteita.
Säilytysrajat ja oikeuksien hallinta: Aseta säilytysajat, noudata poistopyyntöjä ja tarjoa pääsy lähdetietoihin.

EDPB:n ChatGPT-työryhmän raportti (hyväksytty toukokuussa 2024) lisäsi vielä yhden kerroksen: siinä todettiin, että eri käsittelyvaiheet — kerääminen, esikäsittely, koulutus, promptit ja ulostulo — tarvitsevat kukin oman oikeusperustearvionsa. EDPB ei hylännyt oikeutettua etua verkkokaavinnan perusteena, mutta se painotti täysimääräistä kolmiosaista arviointia ja asianmukaisia suojatoimia.

EU:n Database Directive: miten data on järjestetty suojataan

Database Directive antaa tietokannan tekijälle sui generis -oikeuden, jos hän on tehnyt "merkittävän investoinnin" datan hankintaan, varmistamiseen tai esittämiseen. Jos kaavintasi poimii tällaisen tietokannan "olennaisen osan", voit loukata tätä oikeutta.

Käytännössä kynnys on melko korkea. Muutaman sadan tuotteen hinnan kaavinta suuresta jälleenmyyjästä ei todennäköisesti ylitä rajaa. Mutta kilpailijan koko katalogin — kymmenien tuhansien listauksien — massalataus voi mennä rajan yli, varsinkin jos se vaarantaa tekijän mahdollisuuden saada investointinsa takaisin. EU-tuomioistuin on käsitellyt tätä kynnystä useissa tapauksissa, ja keskeinen kysymys on aina suhteellisuus.

Useimmissa liiketoiminnan kaavintatapauksissa — esimerkiksi kun poimitaan tiettyjä kenttiä tuotesivuilta tai verrataan listauksia eri kategorioissa — Database Directive tuo pienemmän riskin. Mutta riski ei ole nolla, ja se kannattaa pitää mielessä, kun määrittelet kaavinnan laajuutta.

Käyttöehdot: sopimusoikeuden villi kortti

Tämä on se kohta, johon moni kompastuu. Monet sivustot kieltävät kaavinnan käyttöehdoissaan. Euroopassa käyttöehtojen rikkominen on siviilioikeudellinen asia (ei rikos), mutta se voi silti johtaa kieltoihin, sopimusoikeudenkäynteihin ja todelliseen taloudelliseen altistukseen.

Kaksi termiä on hyvä tuntea: browsewrap (passiiviset ehdot, usein sivun alalaidassa oleva linkki) on vaikeampi panna täytäntöön, koska käyttäjä ei ole aktiivisesti hyväksynyt niitä. Clickwrap (jossa rastitat ruudun tai klikkaat "Hyväksyn") on huomattavasti helpommin täytäntöönpantavissa.

Merkittävä EU-tapaus on Ryanair v. PR Aviation: tuomioistuin pani Ryanairin käyttöehdot täytäntöön kaavinta vastaan, vaikka tietokantaoikeus ei soveltunut, koska kaavinta oli hyväksynyt ehdot. Siksi: tarkista aina sivuston käyttöehdot ennen kaavintaa. Jos kyseessä on clickwrap-sopimus, joka nimenomaisesti kieltää kaavinnan, toimi varoen — tai etsi mieluummin API-yhteys.

DSM-direktiivi ja AI Act: poikkeukset tutkimukselle ja tekstin- ja tiedonlouhinnalle

Kaikki kaavinta ei laukaise samoja rajoituksia. Digitaalisten sisämarkkinoiden (DSM) direktiivi (2019) toi kaksi tekstin- ja tiedonlouhinnan (TDM) poikkeusta:

Artikla 3: Tutkimuslaitokset ja kulttuuriperintöorganisaatiot voivat tehdä TDM:ää laillisesti saatavilla olevasta sisällöstä.
Artikla 4: Kuka tahansa — mukaan lukien kaupalliset toimijat — voi tehdä TDM:ää, ellei oikeudenhaltija ole nimenomaisesti kieltäytynyt siitä (esim. robots.txt:n, ai.txt:n tai TDMRep-otsakkeiden kautta).

EU AI Act (artikla 53) lisää velvoitteita tekoälymallien tarjoajille: niiden on noudatettava TDM:n opt-out-mekanismeja ja dokumentoitava koulutusdatansa lähteet.

Yksi tärkeä huomio: nämä poikkeukset koskevat tekijänoikeutta ja tietokantaoikeutta, eivät GDPR:ää. Jos TDM sisältää henkilötietoja, tarvitset silti erillisen GDPR:n mukaisen oikeusperusteen.

"Voinko kaapia tämän?" -päätöslista eurooppalaiselle datalle

Tämä on osio, jonka toivoin olevan olemassa silloin, kun aloitin aiheen tutkimisen. Jokainen lakiteksti sanoo "riippuu" — mutta miltä päätöspuu oikeasti näyttää? Tässä on vaiheittainen vaatimustenmukaisuuden tarkistuslista selkeine portteineen. Jokainen askel johtaa joko ✅ jatka, ⚠️ lisää suojatoimia tai 🛑 lopeta.

Vaihe 1: Onko data henkilötietoa vai ei?

Ei-henkilödata (tuotteiden hinnat, SKU-numerot, yritysosoitteet, joita ei voi yhdistää yksittäisiin henkilöihin): kevyempi sääntelytaakka. Database Directive ja käyttöehdot täytyy silti tarkistaa, mutta GDPR ei sovellu. ✅ Jatka vaiheeseen 3.

Henkilötieto (nimet, sähköpostit, puhelinnumerot, valokuvat, mikä tahansa henkilöön liitetty tunniste): GDPR soveltuu. ⚠️ Jatka vaiheeseen 2.

Vaihe 2: Mikä GDPR:n oikeusperuste soveltuu?

Suostumus: Ei käytännössä koskaan toimiva laajamittaisessa kaavinnassa. 🛑 Ellei kyse ole hyvin rajatusta ja spesifistä tilanteesta.
Oikeutettu etu (artikla 6(1)(f)): Yleisin peruste. Se vaatii kuitenkin dokumentoidun kolmiosaisen testin:
1. Etusi on oikeutettu (kaupallinen intressi voi täyttää tämän, CJEU:n vuoden 2024 ratkaisun C-621/22 mukaan).
2. Käsittely on tarpeen tuon edun toteuttamiseksi.
3. Punnintatesti: etusi ei syrjäytä rekisteröityjen oikeuksia heidän kohtuulliset odotuksensa huomioon ottaen.
Dokumentoi punnintatestisi ennen kaavintaa. Jos et osaa perustella, miksi niiden ihmisten, joiden dataa kaavit, olisi kohtuudella odotettavissa tällainen käyttö, se on varoitusmerkki. ⚠️ Jatka dokumentoidulla oikeutetulla edulla.

Vaihe 3: Rajoittaako sivuston käyttöehdot kaavintaa?

Clickwrap-sopimus, joka kieltää kaavinnan: 🛑 Korkea riski. Harkitse vaihtoehtoisia datalähteitä tai virallista API-yhteyttä.
Browsewrap tai ei käyttöehtorajoitusta: ⚠️ Matalampi riski, mutta kunnioita silti robots.txt:ää ja teknisiä vastustussignaaleja.

Vaihe 4: Sovelletaanko Database Directiveä?

Onko kohteena tietokanta, johon on panostettu merkittävästi datan organisointiin?
Poimiiko kaavintasi "olennaisen osan" siitä tietokannasta?
Jos molempiin on kyllä: ⚠️ riski suigeneris-oikeuden loukkauksesta. Rajaa poiminnan laajuutta.

Vaihe 5: Oletko tutkimus- tai TDM-poikkeuksen piirissä?

Rekisteröity tutkimuslaitos tai kulttuuriperintöorganisaatio? DSM-direktiivin artikla 3 voi soveltua. ✅
Kaupallinen TDM? Tarkista artikla 4:n opt-out-signaalit (robots.txt, ai.txt, TDMRep). Jos sivusto on kieltänyt käytön, 🛑 lopeta kyseisen lähteen osalta.

Vaihe 6: Oletko soveltanut tietosuojaviranomaisten suosittelemat suojatoimet?

Jos olet päässyt näiden porttien läpi, viimeinen askel on toteuttaa suojatoimet, joita CNIL, Alankomaiden tietosuojaviranomainen ja EDPB suosittelevat. Nämä käsitellään tarkemmin seuraavassa osiossa. ✅ Jatka suojatoimet käytössä.

Tietosuojaviranomaisten vaatimustenmukaisuuden suojatoimet: mitä CNIL, Alankomaiden tietosuojaviranomainen ja EDPB suosittelevat

En löytänyt yhtäkään kilpailija-artikkelia, joka olisi koonnut yhteen Euroopan kolmen aktiivisimman kaavintaa valvovan viranomaisen suojatoimet. Siksi rakensin tämän taulukon vertaamalla CNIL:n verkkokaavinnan ohjeistussivua, Alankomaiden AP:n ohjeita ja EDPB:n ChatGPT-työryhmän raporttia.

Suojatoimi	CNIL	Alankomaiden tietosuojaviranomainen (AP)	EDPB-työryhmä	Toteutusvinkit
Art. 14 -läpinäkyvyysilmoitus	✅ Pakollinen	✅ Pakollinen	✅ Pakollinen	Julkaise julkinen ilmoitus, jossa luetellaan lähdetyypit, käyttötarkoitukset, oikeusperuste, säilytys, oikeuksien kanavat ja tietosuojavastaavan yhteystiedot
DPIA ennen kaavintaa	✅ Suositeltu (pakollinen, jos korkea riski)	✅ Pakollinen	✅ Pakollinen	Dokumentoi punnintatesti, dataluokat, riskit ja lieventämistoimet ennen käyttöönottoa
Tietojen minimointi	✅ Pakollinen (määritä tarkat keruukriteerit)	✅ Pakollinen	✅ Pakollinen	Määritä kaavin poimimaan vain tarvittavat kentät; poista tarpeeton data heti
Nopeuden rajoittaminen / robots.txt:n noudattaminen	✅ Pakollinen (jätä pois sivustot, jotka vastustavat robots.txt:n/CAPTCHA:n kautta)	—	—	Lue robots.txt, lisää viiveitä pyyntöjen väliin, tunnista user agentisi
Pseudonymisointi / anonymisointi	⚠️ Suositeltu (heti keruun jälkeen)	✅ Vahvasti suositeltu	✅ Suositeltu	Hashaa tai satunnaista tunnisteet; poista profiilien URL:t; sumenna kasvot, jos identiteettiä ei tarvita
Säilytysaika	✅ Määritelty raja	✅ Mahdollisimman lyhyt	✅ Määritelty raja	Automatisoi poistoaikataulut; erottele raaka välimuisti poimitusta faktadatasta
Opt-out-/mustalista-mekanismi	✅ Suositeltu (harkinnanvarainen ennakkovastustus)	✅ Pakollinen (artikla 21:n vastustus)	✅ Pakollinen	Tarjoa opt-out-lomake, domain-mustalista ja henkilötason estot
Poissuljettavat lähteet	✅ Pakollinen (terveysfoorumit, alaikäisten sivustot, pornografiset sivustot, sukututkimus)	✅ Pakollinen	✅ Pakollinen	Pidä oletusmustalistoilla terveys, uskonto, politiikka, biometria ja alaikäiset

Käytännön huomio meiltä: Thunderbitin “AI Suggest Fields” -toiminto antaa käyttäjän määrittää täsmälleen, mitkä sarakkeet poimitaan — hinta, SKU, tuotenimi — joten kaavin kerää vain tarpeellisen. Et siis lataa massana koko sivua, vaan valitset jäsennellyt kentät, jotka vastaavat käyttötarkoituksen rajoittamista ja tietojen minimointia. Silti mikään työkalu ei tee vaatimusten vastaista kaavintaa lailliseksi. Oikeudellinen arvio tehdään aina ensin.

Onko verkkosivujen kaavinta laillista Euroopassa juuri sinun käyttötapauksessasi? Toimialakohtainen ohje

Kysymys, jonka näen useimmin foorumeilla, ei ole "onko kaavinta laillista?" vaan "onko minun kaavintani laillista?" Abstrakti GDPR-teoria ei siihen vastaa. Tässä siis erittely yleisimpien liiketoiminnan käyttötapausten mukaan.

Käyttötapaus	Datan tyyppi	Keskeiset oikeudelliset riskit	Todennäköinen lopputulos
Verkkokaupan hintaseuranta (julkiset tuotelistaukset)	Ei-henkilödata (hinnat, SKU:t, tuotenimet)	Database Directive -sui generis -oikeus; käyttöehtojen rikkominen	Yleensä matalampi riski, jos henkilötietoa ei käsitellä eikä tietokannan "olennaista osaa" poimita järjestelmällisesti
B2B-liidien hankinta (yhteystiedot hakemistoista)	Henkilötieto (nimet, sähköpostit, puhelinnumerot)	GDPR artikla 6:n oikeusperuste; artikla 14:n ilmoitus; ePrivacy sähköisessä yhteydenpidossa	Korkeampi riski — edellyttää dokumentoitua oikeutetun edun punnintatestiä sekä ilmoitusvelvoitetta
Kiinteistöilmoitukset (kiinteistötiedot portaaleista)	Sekamuotoinen (osoitteet voivat olla ei-henkilötietoa; omistajien nimet ovat henkilötietoa)	Database Directive; käyttöehdot; GDPR, jos tieto linkittyy omistajaan	Keskitasoinen riski — anonymisoi omistajatiedot, tarkista käyttöehdot, noudata robots.txt:ää
Tekoälykoulutusdata (laajamittainen verkkosisällön kaavinta)	Mahdollisesti henkilötietoa, jos sitä ei suodateta	GDPR + EU AI Act artikla 53:n TDM-velvoitteet	Korkea riski — noudatettava sekä GDPR:ää että AI Actia; opt-out-mekanismit ja vahva suodatus vaaditaan

Matalamman riskin tilanteissa, kuten julkisessa verkkokauppadatassa, rakenteelliset mallit — kuten Thunderbitin valmiit Amazon- ja Shopify-pohjat — vähentävät altistusta, koska ne poimivat tarkkoja, ei-henkilökohtaisia datakenttiä ilman ylimääräistä sisältöä. Korkeamman riskin tilanteissa, joissa käsitellään henkilötietoja (esimerkiksi liidien hankinta), oikeudellisen arvioinnin täytyy tulla ensin. Mikään kaavin, vaikka kuinka älykäs, ei muuta vaatimustenvastaista keruuta vaatimusten mukaiseksi.

EU vs. Yhdysvallat vs. UK: miten verkkosivujen kaavintaa koskevat lait eroavat

Jos liiketoimintasi toimii rajojen yli, sinun täytyy ymmärtää, miten säännöt eroavat. En löytänyt yhtäkään kilpailija-artikkelia, joka esittäisi tämän selkeänä rinnakkaisena taulukkona, joten tässä se on.

Ulottuvuus	EU	Yhdysvallat	UK (Brexitin jälkeen)
Pääasiallinen laki	GDPR + Database Directive + ePrivacy	CFAA + osavaltiolait (rajallinen liittovaltiotason tietosuoja)	UK GDPR + Data Protection Act 2018
Julkisen datan kaavinta	GDPR:n oikeusperuste tarvitaan edelleen, jos kyse on henkilötiedoista	Yleensä laillista hiQ v. LinkedIn -ratkaisun perusteella (julkinen data)	Lähellä EU:n mallia; ICO:n ohjeistus soveltuu
Käyttöehtojen täytäntöönpano	Siviilioikeudellinen asia; Ryanair v. PR Aviation pani suigeneris-oikeuden täytäntöön	Van Buren rajasi CFAA:ta; käyttöehtorikkomus ≠ rikos	Siviilioikeudellinen asia, kuten EU:ssa
Tietokantasuoja	Sui generis -oikeus (vahva)	Ei vastaavaa liittovaltiotason oikeutta	Säilytetty suigeneris-oikeus
AI/TDM-poikkeus	DSM-direktiivin artiklat 3–4; AI Act artikla 53	Ei liittovaltiotason TDM-poikkeusta (fair use -oppi)	UK selvittää TDM-poikkeusta (tilanne 2026 alussa jumissa)
Keskeinen valvontaviranomainen	Kansalliset tietosuojaviranomaiset (CNIL, Dutch AP jne.)	FTC + osavaltioiden AG:t	ICO
Viimeaikainen suunta	Tiukempi (Dutch AP: henkilötiedon kohdalla "lähes aina laitonta")	Sallivampi hiQ:n jälkeen	Kohtalainen; seuraa yleisesti EU:n suuntaa

Jos kaavit eurooppalaisia verkkosivuja tai eurooppalaisia asukkaita koskevaa dataa, EU:n säännöt koskevat sinua — vaikka yrityksesi sijaitsisi Yhdysvalloissa tai Isossa-Britanniassa.

Todelliset sakot ja tapaukset: mitä oikeasti tapahtuu, jos jäät kiinni (2022–2026)

Tämä on se osio, joka vastaa kysymyksen taustalla olevaan kysymykseen: "Mikä on todellinen riski?" Kokoan tähän kaikki julkiset tietosuojaviranomaisten täytäntöönpanotoimet, jotka liittyivät verkkokaavintaan tai kaavittuun henkilötietoon vuosina 2022–huhtikuu 2026.

Vuosi	Valvoja	Kohde	Rikkomus	Sakko / lopputulos
2022	Italian Garante	Clearview AI	Kasvokuvien kaavinta ilman oikeusperustetta	20 milj. € sakko + käyttökielto + poistomääräys
2022	Kreikan tietosuojaviranomainen	Clearview AI	Sama — kasvojentunnistuksen kaavinta	20 milj. € sakko + käyttökielto + poisto
2022	CNIL (Ranska)	Clearview AI	Kasvojentunnistustietokanta	20 milj. € sakko + mahdollinen 100 000 €/päivä lisäsakko
2023	CNIL (Ranska)	Clearview AI	Vuoden 2022 määräyksen noudattamatta jättäminen	5,2 milj. € seuraamusmaksu
2023	Itävallan DSB	Clearview AI	Yli 30 mrd. kasvokuvaa julkisesta verkosta	Poistomääräys + EU-edustajan määräys (ei julkaistua sakkoa)
2024	Dutch AP	Clearview AI	Laiton kasvojentunnistusdatan keruu	30,5 milj. € sakko + vaatimustenmukaisuusmääräykset
2024	CNIL (Ranska)	KASPR	LinkedIn-yhteystietojen kaavinta liidien hankintaan	240 000 € sakko — 160 milj. yhteystietoa, rajoitetun näkyvyyden dataa, 5 vuoden säilytys
2024	Irlannin DPC	X / Grok	Julkiset julkaisut käytettiin tekoälykoulutukseen	Keskeyttämissopimus; lakisääteinen tutkinta avattiin 2025
2024	Irlannin DPC	Meta	Suunniteltu LLM-koulutus julkisella Facebook/Instagram-sisällöllä	Meta keskeytti EU:n AI-koulutussuunnitelmat
2024	Italian Garante	OpenAI	ChatGPT:n koulutusdata + läpinäkyvyys	15 milj. € sakko määrätty, Rooman tuomioistuin kumosi sen maaliskuussa 2026

Kaikkien näiden suurten sakkojen yhteenlaskettu määrä EU/ETA-alueen kaavinta-/avoin verkko -kategoriassa on yli 95 miljoonaa euroa (kumotut OpenAI-sakot pois lukien).

Jokainen näistä suurista sakoista kohdistui biometristen tai henkilötietojen massakaavintaan ilman mitään oikeusperustetta. Clearview kaavi miljardeja kasvokuvia. KASPR kaavi 160 miljoonaa yhteystietoa, mukaan lukien dataa LinkedInin rajoitetun näkyvyyden profiileista, ja säilytti sitä viisi vuotta.

Suhteellista, kohdennettua julkisen ei-henkilödatan kaavintaa — kuten tuotteen hintoja tai SKU-numeroita — ei ole ollut valvontatoimien kohteena. Se ei tee siitä riskitöntä, mutta auttaa suhteuttamaan luvut.

Näin kaavit eurooppalaisia verkkosivuja turvallisesti: vaiheittainen opas

Vaikeustaso: Aloittelija
Tarvittava aika: ~15 minuuttia (mukaan lukien vaatimustenmukaisuuden tarkistus)
Tarvitset: Chrome-selaimen, Thunderbit-laajennuksen (ilmainen taso riittää), kohde-URL:n sekä nopean läpikäynnin yllä olevasta tarkistuslistasta

Vaihe 1: Määritä tarkoitus ja datatarve

Ennen kuin avaat yhtäkään työkalua, kirjoita ylös, miksi tarvitset dataa ja mitkä kentät tarvitset täsmälleen. Tämä ei ole vain hyvä käytäntö — se on GDPR:n käyttötarkoitussidonnaisuuden ja tietojen minimoinnin perusta.

Esimerkiksi: "Tarvitsen 50 Amazon-tuotesivulta tuotenimet, hinnat ja varastotilanteen kilpailukykyisen hinnoittelutaulukkomme päivittämiseen." Se on tarkka. Vertaa sitä lauseeseen: "Haluan kaapia kaiken Amazonista." Ensimmäinen läpäisee minimointitestin; toinen ei.

Vaihe 2: Aja läpi vaatimustenmukaisuuden tarkistuslista

Käy läpi yllä oleva kuusivaiheinen "Voinko kaapia tämän?" -lista. Jos jokin portti antaa 🛑, pysähdy ja kysy neuvoa juristilta ennen jatkamista.

Kun ajamme Amazonin hinnoitteluesimerkin porttien läpi: data on ei-henkilödataa (hinnat, SKU:t, tuotenimet) ✅, GDPR:n henkilötieto-ongelmaa ei ole ✅, Amazonin käyttöehdot kannattaa tarkistaa (ne rajoittavat kaavintaa, joten harkitse virallisia tuotedata-API:ja, jos niitä on saatavilla) ⚠️, ja Database Directive -riski on 50 tuotteella matala ✅.

Vaihe 3: Valitse oikea kaavintatapa

Menetelmä	Käytön helppous	Vaatimustenmukaisuuden tuki	Ylläpito	Tarkkuus
Manuaalinen kopioi-liitä	Matala	Ei sovellu (hallinnoit itse, mitä kopioit)	Korkea (aikaa vievä)	Virhealtis
Koodipohjainen kaavin (Python, Scrapy)	Matala (vaatii koodausta)	Ei sisäänrakennettua	Korkea (hajoaa sivustojen muuttuessa)	Korkea, jos ylläpidetty
Thunderbit (AI-avusteinen)	Erittäin korkea	Sisäänrakennettu kenttätason minimointi	Matala (AI mukautuu sivumuutoksiin)	Korkea
Virallinen API	Keskitaso	Korkein (jäsennelty, hyväksytty pääsy)	Matala	Korkein

Yrityskäyttäjille, joilla ei ole kehitystiimiä, Thunderbit on nopein tie eteenpäin. Sivustoilla, joilla on virallinen API (kuten Amazonin Product Advertising API), API on aina turvallisin vaihtoehto — mutta siinä on usein rajoituksia datamäärässä ja kentissä.

Vaihe 4: Määritä kaavin vaatimustenmukaiseksi

Thunderbitissä:

Siirry kohdesivulle (esimerkiksi Amazonin tuotelistaukseen).
Klikkaa Chrome-työkalupalkissa Thunderbit-kuvaketta ja valitse "AI Suggest Fields." Tekoäly skannaa sivun ja ehdottaa sarakkeita kuten "Product Name", "Price", "Rating" ja "Stock Status."
Poista kaikki kentät, joita et tarvitse. Jos tekoäly ehdottaa "Seller Name" tai "Seller Email" ja tarvitset vain hinnoitteludataa, poista nuo sarakkeet. Tämä on tietojen minimointia käytännössä.
Käytä Field AI Prompt -toimintoa lisätäksesi ohjeita kuten "exclude personal identifiers" tai "extract only public pricing data."
Valitse Cloud Scraping julkisille verkkokauppasivuille (nopeampi, ei kirjautumista) tai Browser Scraping sivustoille, jotka vaativat tunnistautumista.
Ennen kuin painat "Scrape", varmista, ettei robots.txt kiellä kaavintaa käyttötapauksessasi. Voit tarkistaa tämän avaamalla selaimessa [domain]/robots.txt.

Sinun pitäisi nyt nähdä taulukkoesikatselu, jossa ovat vain määrittämäsi kentät — ei ylimääräistä henkilötietoa, ei tarpeetonta metadataa.

Vaihe 5: Vie, säilytä ja hallinnoi data vastuullisesti

Kaavinnan jälkeen vie data Exceliin, Google Sheetsiin, Airtableen tai Notioniin — Thunderbit tukee näitä kaikkia ilmaisella viennillä.

Sitten:

Aseta säilytysaika. Älä säilytä kaavittua dataa ikuisesti. Jos teet viikoittaista hintaseurantaa, viime kuun raakadataa ei todennäköisesti enää tarvita.
Jos henkilötietoa kerättiin (esimerkiksi liidien hankintaa varten), dokumentoi oikeusperuste, julkaise artiklan 14 läpinäkyvyysilmoitus ja luo prosessi opt-out- ja poistopyyntöjen käsittelyyn.
Automatisoi poistoaikataulut mahdollisuuksien mukaan. Thunderbitin Scheduled Scraper voi automatisoida toistuvat kaavinnat määrätyin väliajoin säilyttäen saman kenttätason konfiguraation, joten jokainen ajo pysyy vaatimusten mukaisissa rajoissa.

Vinkkejä Euroopassa vaatimustenmukaiseen kaavintaan

Muutamia käytännön oppeja, joita olen saanut tutkiessani tätä aihetta ja jutellessani vaatimustenmukaisuutta arvostavien tiimien kanssa:

Tarkista käyttöehdot aina ennen kuin kaavit uuden sivuston. Se vie kaksi minuuttia ja voi säästää kuukausien lakisotkut.
Käytä API:ja aina kun niitä on saatavilla. Ne ovat jäsenneltyjä, hyväksyttyjä ja turvallisin vaihtoehto. Kaavinnan pitäisi olla vararatkaisu, ei oletus.
Tee DPIA, jos projekti käsittelee henkilötietoja laajassa mittakaavassa. CNIL:n mukaan tekoälykoulutusdatan kaltaiset hankkeet voivat olla korkean riskin käsittelyä, ja DPIA on näyttöä vastuullisuudesta. Myös pienemmissä projekteissa analyysin dokumentointi on fiksua.
Pidä kaavintaloki. Kirjaa, mitä kaavittiin, milloin, mistä, mikä oikeusperuste oli ja mikä säilytysaika asetettiin. Jos tietosuojaviranomainen joskus kysyy, olet tyytyväinen että tämä on olemassa.
Seuraa sääntelypäivityksiä. Tietosuojaviranomaisten ohjeistus kehittyy nopeasti — CNIL julkaisi uusia AI-kaavintaohjeita tammikuussa 2026, ja EDPB:n odotetaan antavan lisää lausuntoja. Tämän päivän säännöt voivat tiukentua huomenna.
Älä kaavi rajoitetuista tai herkistä lähteistä. CNIL:n pakollinen poissulkulista sisältää terveysfoorumit, pääasiassa alaikäisten käyttämät sivustot, pornografiset sivustot, sukututkimussivustot ja erittäin rakenteiset henkilötietosivustot. Jos rakennat kaavintahanketta, ylläpidä oletusmustalistaa.
Automaattinen liikenne on toiminnallisesti iso asia. Akamai raportoi, että botit muodostivat 42 % koko verkkoliikenteestä vuonna 2024, ja Thales/Imperva havaitsi automatisoidun bottiliikenteen ylittäneen ensimmäistä kertaa ihmisten liikenteen ja nousseen 51 %:iin vuonna 2024. Sääntelijät pitävät yhä useammin bottikäyttäytymistä, pyyntöjen määrää ja kiertelyä riskin ja epäreiluuden todisteina. Vastuullisen kaapimen tavoin toimiminen — user agentin ilmoittaminen, nopeuden rajoittaminen, vastustussignaalien kunnioittaminen — ei ole vain kohteliasta; se on oikeudellisesti merkityksellistä.

Yhteenveto

Verkkosivujen kaavinta ei ole laitonta Euroopassa. Mutta sitä säännellään — erityisesti silloin, kun mukana on henkilötietoja.

Oikeudellinen lopputulos riippuu siitä, mitä kaavit (henkilötieto vs. ei-henkilödata), miten kaavit (käyttöehdot, robots.txt, nopeuden rajoittaminen, kenttätason minimointi) ja miksi kaavit (dokumentoitu tarkoitus ja oikeusperuste). Täytäntöönpanohistoria on selvä: henkilötietojen massamittainen, erottelematon kaavinta ilman oikeusperustetta on se, missä yritykset kohtaavat seitsemän- ja kahdeksannumeroisia sakkoja. Suhteellinen, kohdennettu julkisen ei-henkilödatan kaavinta — kun suojatoimet ovat kunnossa — kuuluu aivan eri riskiluokkaan.

Käytännön viitekehys:

Käytä päätöksentekolistaa ennen jokaista kaavintahanketta.
Sovella tietosuojaviranomaisten suosittelemia suojatoimia (läpinäkyvyys, minimointi, säilytysrajat, opt-out-mekanismit).
Valitse työkalut, jotka tukevat vaatimustenmukaisuutta suunnittelun kautta. Thunderbitin AI-avusteinen kenttävalinta, jäsennelty poiminta ja ilmainen vienti Google Sheetsiin, Exceliin, Airtableen ja Notioniin tekevät helpoksi kaivaa vain tarvitsemasi data — ei enempää, ei vähempää.
Dokumentoi kaikki. Punnintatesti, lähdeluettelo, säilytysaikataulu, DPIA. Jos viranomainen kysyy, tiedostosi on puolustuksesi.

Pakollinen vastuuvapauslauseke: tämä artikkeli on informatiivinen, ei oikeudellista neuvontaa. Korkean riskin tilanteissa, joissa käsitellään henkilötietoja laajassa mittakaavassa, ota yhteys pätevään tietosuojajuristiin. Sääntely kehittyy, ja virheen hinta on todellinen.

Haluatko kokeilla vaatimustenmukaista, kohdennettua verkkosivujen kaavintaa itse? Thunderbitin ilmainen taso antaa sinun kokeilla jäsenneltyä poimintaa pienessä mittakaavassa — määritä kenttäsi, kaavi vain tarvitsemasi ja vie tiedot muutamalla klikkauksella. Voit myös tutustua YouTube-kanavaamme vaiheittaisia läpikäyntejä varten.

Kokeile AI Web Scraperia vaatimustenmukaiseen datan poimintaan Get Started Free

Usein kysytyt kysymykset

1. Onko verkkosivujen kaavinta Euroopassa laillista, jos data on julkisesti saatavilla?

Julkinen saatavuus ei vapauta dataa GDPR:n piiristä, jos se sisältää henkilötietoja. Kuten Alankomaiden tietosuojaviranomainen totesi, "julkinen ei automaattisesti tarkoita lupaa kaavintaan." Ei-henkilökohtainen julkinen data (tuotteen hinnat, SKU:t) on yleensä matalamman riskin kohde, mutta sinun täytyy silti tarkistaa Database Directive ja sivuston käyttöehdot.

2. Voinko kaapia sähköposteja ja puhelinnumeroita eurooppalaisilta verkkosivuilta?

Sähköpostiosoitteet ja puhelinnumerot ovat GDPR:n mukaan henkilötietoja. Tarvitset laillisen perusteen — tyypillisesti oikeutetun edun dokumentoidulla punnintatestillä — ja sinun on ilmoitettava henkilöille artiklan 14 mukaisesti. CNIL sakotti KASPR:ia 240 000 eurolla vuonna 2024 LinkedIn-yhteystietojen kaavinnasta ilman riittävää läpinäkyvyyttä tai oikeusperustetta, joten tämä on alue, jossa valvonta on aktiivista.

3. Mikä on suurin sakko laittomasta verkkosivujen kaavinnasta Euroopassa?

Alankomaiden tietosuojaviranomainen sakotti Clearview AI:tä 30,5 miljoonalla eurolla vuonna 2024 laittomasta kasvojentunnistusdatan keruusta julkisesta verkosta. Useat muut EU:n tietosuojaviranomaiset määräsivät Clearview'lle 20 miljoonan euron sakot kukin. EU/ETA-alueen kaavintaan liittyvät sakot vuosilta 2022–2026 ylittävät 95 miljoonaa euroa.

4. Teenkö verkkosivujen kaavinnasta laillista Euroopassa noudattamalla robots.txt:ää?

robots.txt:n noudattaminen on hyvä käytäntö ja linjassa CNIL:n pakollisten suojatoimien kanssa, mutta se ei yksin takaa laillisuutta. Sinun täytyy silti noudattaa GDPR:ää (jos mukana on henkilötietoja), Database Directiveä ja sivuston käyttöehtoja. Ajattele robots.txt:n noudattamista yhtenä kerroksena monikerroksisessa vaatimustenmukaisuuskehikossa.

5. Miten verkkosivujen kaavintaa koskeva lainsäädäntö eroaa Euroopassa ja Yhdysvalloissa?

EU on huomattavasti tiukempi. GDPR soveltuu kaikkiin henkilötietoihin — myös julkisesti saatavilla olevaan dataan — ja Database Directive antaa vahvan suojan organisoiduille tietoaineistoille. Yhdysvalloissa ei ole kumpaakaan vastaavaa liittovaltiotason lakia; hiQ v. LinkedIn -ratkaisun jälkeen julkisen datan kaavinta on Yhdysvalloissa yleensä sallittua. Brexitin jälkeinen UK sijoittuu näiden väliin, sillä UK GDPR ja säilytetyt tietokantaoikeudet muistuttavat pitkälti EU-sääntöjä, mutta valvonta on ICO:n käsissä. Rajat ylittävissä liiketoiminnoissa EU:n säännöt asettavat korkeimman riman — ja jos kaavit dataa EU:n asukkaista, nämä säännöt koskevat sinua riippumatta siitä, missä yrityksesi sijaitsee.

Lue lisää

Poimi dataa AI:n avulla

Siirrä data helposti Google Sheetsiin, Airtableen tai Notioniin

Chrome Store Rating

PRODUCT HUNT#1 Product of the Week