Web-scraping Isossa-Britanniassa: mikä on riskialtista ja mistä voi joutua oikeuteen

Muutama kuukausi sitten eräs myyntitiimimme kollega kysyi minulta kysymyksen, jonka olen kuullut kymmeniä kertoja: ”Jos kerään kilpailijan hinnat julkiselta verkkosivustolta, voinko oikeasti joutua vaikeuksiin?” Hän oli löytänyt hakemiston toimittajakontakteista, hinnat siististi riveillä, ja hän halusi vain taulukkolaskentatiedoston. Epäröinti oli aitoa — ja rehellisesti sanottuna perusteltua.

Isossa-Britanniassa ei ole yhtä ainoaa ”web-scraping-lakia”. Sen sijaan neljä osittain päällekkäistä oikeudellista viitekehystä määrittävät, onko jokin scraping-toiminta lainmukaista. Siksi vastaus on lähes aina ”riippuu tilanteesta” — mutta sen ei tarvitse lamaannuttaa. Tässä oppaassa käyn läpi, mitä laki oikeasti sanoo, miten se soveltuu käytännön tilanteisiin, millaisia rangaistuksia voi seurata ja miten pysyä vaatimustenmukaisena.

Olen käyttänyt tähän paljon aikaa Thunderbitin tiimin puolesta, ja haluan jakaa löydökseni, jotta sinun ei tarvitse koota niitä viidestä eri asianajotoimiston blogista ja Reddit-keskustelusta.

Mitä web-scraping on (ja miksi brittiläiset yritykset käyttävät sitä)

Web-scraping tarkoittaa ohjelmiston käyttämistä tietojen automaattiseen keräämiseen verkkosivustoilta — eli tylsän kopioi-liitä-työn korvaamista, kun tiedot siirretään verkkosivuilta taulukkolaskentaan.

Tekniikka itsessään on neutraali. Se ei ole lähtökohtaisesti laillista eikä laitonta. Olennaista on, mitä dataa keräät, miten keräät sen ja mitä teet sillä jälkeenpäin.

Brittiläiset yritykset käyttävät scrapingia kaikenlaisiin laillisiin tarkoituksiin:

Hintavertailu: PriceSpy UK esimerkiksi automatisoidulla web-scrapingilla.
Liidien hankinta: Myyntitiimit poimivat yritysten nimiä, sähköposteja ja puhelinnumeroita julkisista hakemistoista.
Markkinatutkimus: Analyytikot seuraavat asuntoilmoituksia, työpaikkasivustoja tai kilpailijoiden tuotevalikoimia.
Akateeminen tutkimus: Office for National Statistics keräsi yli supermarket-sivustoilta vuosina 2014–2015.
AI-mallien koulutus: nopeasti kasvava — ja oikeudellisesti vielä epäselvä — käyttötapaus.

Suunta on selvä. , johon vastasi 500 päättäjää (joista 200 Isossa-Britanniassa), osoitti että piti julkista verkkodataa keskeisenä tai erittäin tärkeänä globaalille taloudelle, ja hankki sitä vähintään päivittäin.

Silti sanoi myös, että selkeän sääntelyn puute huolestutti heidän organisaatiotaan. Juuri tämän huolen vuoksi tämä artikkeli on olemassa.

Onko web-scraping laillista Isossa-Britanniassa? Suora vastaus

Yksikään Ison-Britannian laki ei kiellä web-scrapingia kokonaan. Useat lait kuitenkin säätelevät sitä, miten sitä voidaan tehdä, ja minkä tahansa yksittäisen projektin laillisuus riippuu neljästä tekijästä:

ig_010beacbdecb066e0169f1876f3d8c8191b68ddebcf937b561_compressed.webp

Mitä dataa keräät (henkilötiedot vs. faktatiedot/eihenkilökohtainen data)
Miten pääset siihen käsiksi (julkinen sivu vs. kirjautumismuurin tai CAPTCHA:n kiertäminen)
Mitä verkkosivuston ehdot sanovat (kieltävätkö ne automaattisen käytön?)
Miten käytät dataa jälkeenpäin (sisäinen analyysi vs. kaupallinen jälleenmyynti)

Paras vertaus, jonka olen löytänyt: web-scraping on kuin valokuvaaminen julkisella paikalla. Julkisella paikalla kuvaaminen ei ole automaattisesti laitonta — mutta tietyt kohteet, paikat, menetelmät ja käyttötavat luovat oikeudellisen riskin. Scraping on samanlaista. Julkinen saatavuus on merkityksellinen, mutta se ei kerro kaikkea.

ICO:n tuore GenAI-kuuleminen on yksi selkeimmistä virallisista Ison-Britannian kannanotoista scrapatusta henkilödatasta. Sen mukaan oikeutettu etu on generatiivisten AI-mallien kouluttamisessa web-scrapatun henkilödatan avulla , mutta vain jos kehittäjä läpäisee tiukan kolmiosaisen testin. Kynnys on korkea, ja se kertoo, kuinka vakavasti Britannian viranomaiset suhtautuvat scrapatun datan käsittelyyn.

Neljä Ison-Britannian lakia, jotka koskevat web-scrapingia

Neljä päällekkäistä näkökulmaa — mikä tahansa scraping-projekti voi laukaista yhden, kaksi tai kaikki neljä.

Jos keräät henkilötietoja — nimiä, sähköposteja, puhelinnumeroita, IP-osoitteita, sosiaalisen median profiileja — UK GDPR soveltuu. ”Julkisesti saatavilla” ei tarkoita samaa kuin ”vapaasti käytettävissä”.

Julkisesti näkyvä henkilötieto on silti henkilötietoa.

Kaupallisen scrapingin kannalta olennaisin lainmukainen peruste on oikeutettu etu (artikla 6) — mutta sitä ei voi käyttää pelkkänä yleisfraasina. Sinun on:

tunnistettava tietty, laillinen tarkoitus
osoitettava, että käsittely on tarpeen kyseistä tarkoitusta varten
punnittava oma etusi suhteessa niiden henkilöiden oikeuksiin, joiden dataa keräät

ICO:n GenAI-kuulemiseen antama vastaus on erityisen suorasukainen: kehittäjien ei pidä olettaa, että laaja yhteiskunnallinen hyöty riittää, heidän pitää osoittaa, miksi scrapingille on huonoja vaihtoehtoja, ja heidän pitää käyttää läpinäkyvyyskeinoja, joiden avulla yksilöt voivat ymmärtää oikeutensa ja käyttää niitä. Lähde: .

Myös B2B-liidien hankinnassa pätee sama logiikka. Myyntitiimi voi nojata oikeutettuun etuun kerätessään julkisesti listattuja yritysten yhteystietoja, mutta sen on silti dokumentoitava oikeutettu etu, minimoitava kerättävät kentät, vältettävä erityisiin henkilötietoryhmiin kuuluvia tietoja, tarjottava tietosuojatiedot aina kun mahdollista ja kunnioitettava kieltäytymisiä.

Tekijänoikeus, tietokantaoikeudet ja TDM-poikkeus

Tekijänoikeus suojaa verkkosivuston alkuperäistä sisältöä: tekstiä, kuvia, tuotekuvauksia, artikkeleita. Faktatiedot, kuten hinnat, ovat yleensä yksittäisinä tietoina vähemmän tekijänoikeusherkkiä — mutta jos kopioit ja julkaiset suojattua ilmaisua uudelleen, siirryt loukkausalueelle.

Tietokantaoikeudet ovat web-scrapingin kannalta tärkeämpiä kuin useimmat ymmärtävät. Iso-Britannia säilytti EU-tyyliset sui generis -tietokantaoikeudet Brexitin jälkeen, ja ”olennaisen osan” loukatun tietokannan poimiminen — kuratoidut hakemistot, tuotekatalogit, markkinapaikkalistaukset — voi olla loukkaus, vaikka yksittäiset tiedot olisivat faktatietoja.

mukainen Text and Data Mining (TDM) -poikkeus sallii kopioinnin teksti- ja data-analyysiä varten vain, jos käyttäjällä on laillinen pääsy aineistoon ja tarkoitus on voittoa tavoittelematon tutkimus. Tämä on kapea poikkeus. Kaupallinen scraping, kaupallinen AI-koulutus ja kaupallinen datasettien jälleenmyynti eivät kuulu sen piiriin.

Britannian hallitus harkitsi tämän poikkeuksen laajentamista AI-koulutusta varten, mutta mukaan se päätti olla toteuttamatta uudistuksia, ennen kuin se on varma, että ne täyttävät tekijöiden, AI-kehittäjien ja Britannian talouden tavoitteet. Nykytilassa luvan tarve on yleensä olemassa, kun suojattuja teoksia kopioidaan AI-koulutusta varten, ellei jokin olemassa oleva poikkeus sovellu.

Verkkosivustojen käyttöehdot ja sopimusoikeus

Useimmilla verkkosivustoilla on käyttöehdot, jotka kieltävät tai rajoittavat automaattisen scrapingin. Kun käytät sivustoa, saatat jo sitoutua näihin ehtoihin — erityisesti jos hyväksyt ne erillisessä hyväksyntänäkymässä (clickwrap). Footer-linkin takana olevat ehdot (browsewrap) ovat faktakysymyksenä monimutkaisempia, mutta Britannian tuomioistuimet ovat osoittaneet halukkuutta täytäntöönpanna scrapingia koskevia ehtorajoituksia. -kiistassa tuomioistuin piti näkyviä verkkosivuehtoja sitovina screen-scraping-kontekstissa.

robots.txt ei ole laki. Se on sivuston omistajan koneellisesti luettava ohje. Tyypillinen tiedosto näyttää tältä:

1User-agent: *
2Disallow: /account/
3Disallow: /checkout/
4Disallow: /private/
5Crawl-delay: 10

robots.txt:n sivuuttaminen ei tee scrapingista automaattisesti laitonta, mutta tuomioistuimet ja ICO pitävät sitä todisteena sivuston omistajan tahdosta. Sen sivuuttaminen kasvattaa oikeudellista altistusta, erityisesti jos siihen liittyy käyttöehtojen rikkominen tai aggressiivinen pyyntömäärä.

Computer Misuse Act 1990

Tämä laki pitää ihmiset hereillä öisin — ja syystä. Se sisältää rikosoikeudellisia tekoja. Section 1 koskee luvattoman pääsyn tietokonemateriaaliin (enintään ). Section 3 koskee luvattomia tekoja, jotka haittaavat tietokoneen toimintaa (enintään ).

CMA-riski on pienin silloin, kun data on aidosti julkista eikä scraper kierrä teknisiä esteitä. Riski kasvaa, kun:

ohitat kirjautumismuurit, CAPTCHA:t tai IP-estot
käytät varastettuja tunnuksia tai luot feikkitilejä
lähetät liikennemääriä, jotka heikentävät kohdepalvelun toimintaa

Iso-Britannia ei ole luonut siistiä Yhdysvaltojen tyylistä sääntöä, jonka mukaan ”julkinen data on vapaata riistaa”. Se tekee Britannian neuvonnasta varovaisempaa: julkinen pääsy alentaa CMA-riskiä merkittävästi, mutta verkkosivun ehdot, tekniset kontrollit ja scraperaajan tietoisuus rajoituksista voivat silti olla ratkaisevia.

”Saanko kerätä tämän laillisesti?” — nopea päätöspuu

Ennen kuin scrapeat mitään, käy läpi nämä viisi päätöspistettä. Tämä ei ole oikeudellista neuvontaa — vain 60 sekunnin riskin arviointi.

Päätöspiste	Jos KYLLÄ	Jos EI
Onko data henkilötietoa (nimiä, sähköposteja jne.)?	UK GDPR soveltuu. Tunnista lainmukainen peruste, tee LIA, minimoi kentät, suunnittele läpinäkyvyys.	GDPR-kerros ei ehkä sovellu, mutta jatka muiden tarkistusten pariin.
Kieltävätkö sivuston käyttöehdot nimenomaisesti scrapingin?	Sopimusrikkomusriski. Harkitse API:a, lisenssiä tai oikeudellista arviota.	Pienempi sopimusriski, mutta tarkista robots.txt.
Poimitko olennaisen osan tietokannasta?	Sui generis -tietokantaoikeutta on todennäköisesti loukattu. Harkitse lisensointia tai suppeampaa poimintaa.	Tekijänoikeus voi silti koskea yksittäistä kopioitua sisältöä.
Kiertääkö prosessi kirjautumisen, CAPTCHA:n tai käyttörajoitukset?	Mahdollinen rikos CMA 1990:n nojalla. Lopeta ja hanki oikeudellinen arvio.	CMA-riski on pienempi, jos pääsy on aidosti julkinen.
Onko tarkoitus voittoa tavoittelematon tutkimus?	Section 29A TDM-poikkeus voi soveltua, jos sinulla on laillinen pääsy.	Britannialla ei ole laajaa kaupallista TDM-satamaa. Tarvitaan täysi IP- ja sopimusanalyysi.

Huh, olisinpa saanut tämän silloin, kun aloin ensimmäistä kertaa tutkia scrapingin vaatimustenmukaisuutta tiimillemme. Se muuttaa oikeudellisen monimutkaisuuden jäsennellyksi itsearvioinniksi, jonka voit tehdä alle minuutissa.

Todelliset skenaariot: onko juuri sinun scraping-toimintasi laillista Isossa-Britanniassa?

Abstrakti laki on yksi asia. Se, mitä ihmiset oikeasti haluavat tietää, on: ”Joutuuko oma projektini vaikeuksiin?”

Reilu kysymys. Tässä on viisi tavallista Britannian scraping-käyttötapaa ja lyhyt oikeudellinen riskinarvio kustakin.

Tuotehintojen kerääminen vertailua varten

Yksi yleisimmistä — ja usein vähäriskisimmistä — liiketoiminnan käyttötapauksista. Hinnat ovat faktatietoa, ja automatisoitu hintojen keruu on juuri se tapa, jolla palvelut kuten PriceSpy toimivat.

Riski ei kuitenkaan katoa kokonaan. Jos kohdesivusto kieltää scrapingin käyttöehdoissaan, jos kopioit tuotekuvauksia tai kuvia, tai jos poimit olennaisen osan kuratoidusta tuotetietokannasta, esiin voi nousta sopimus-, tekijänoikeus- ja tietokantaoikeuskysymyksiä.

Riskitaso: MATALA–KESKITASO
Keskeinen vaatimustenmukaisuustoimi: Kerää vain faktapohjaiset hintakentät, vältä tuotekuvausten sanatarkkaa kopiointia, kunnioita käyttöehtoja ja robots.txt:tä, käytä rate limiting -rajoitusta äläkä julkaise kilpailijan katalogista raakaa peiliaineistoa.

Datan kerääminen ja jälleenmyynti kaupallisesti

Kaikkiaan riskialttein kaupallinen skenaario. Muunnat toisen osapuolen datainvestoinnin myytäväksi tuotteeksi — ja se voi koskea kaikkia neljää oikeudellista pilaria samanaikaisesti.

Riskitaso: KORKEA
Keskeinen vaatimustenmukaisuustoimi: Oikeudellinen arvio on välttämätön. Harkitse lisenssisopimuksia datan omistajien kanssa. Jos tuotteessa on henkilötietoja, lisää tietosuojavaikutusten arviointi.

Yritysten yhteystietojen kerääminen liidien hankintaan

Jokainen myyntitiimi, jonka kanssa olen puhunut, tekee jotain tämän kaltaista: sähköpostien, puhelinnumeroiden ja yritysten nimien scrapingia hakemistoista. Juju on siinä, että yritysten yhteystiedot sisältävät usein henkilötietoja. Nimetyssä työntekijässä oleva sähköpostiosoite on henkilötieto, vaikka se olisi julkisesti listattu.

Riskitaso: KESKITASO
Keskeinen vaatimustenmukaisuustoimi: Tee Legitimate Interests Assessment, kerää mahdollisuuksien mukaan vain yritys- eikä yksityiselämän yhteystietoja, dokumentoi lainmukainen peruste ja tarjoa kieltäytymiskanava. Työkalut kuten voivat pienentää pääsyriskiä tässä, koska toimii käyttäjän selaimessa — se näkee vain sen, minkä käyttäjä voi jo nähdä, eikä kierrä pääsynhallintaa.

Akateeminen tai salkkuun tarkoitettu data-analyysi

Jos teet aidosti voittoa tavoittelematonta tutkimusta, sinulla on vahvin tekijänoikeuspoikkeukseen perustuva reitti: Section 29A CDPA, edellyttäen että sinulla on laillinen pääsy aineistoon.

Riskitaso: MATALA (jos aidosti voittoa tavoittelematon)
Keskeinen vaatimustenmukaisuustoimi: Dokumentoi ei-kaupallinen tarkoitus, viittaa lähteisiin, anonymisoi tai yhdistä dataa aina kun mahdollista, äläkä jaa eteenpäin tekijänoikeudella suojattua sisältöä tai henkilötietoja.

Sisällön kerääminen AI-mallien koulutukseen

Tätä kaikki kysyvät vuonna 2026 — ja vastaus on yhä hieman epämiellyttävä. ICO pitää web-scrapattua henkilötietoa koulutusta varten korkean riskin näkymättömänä käsittelynä. Britannian hallituksen vuoden 2026 raportti ei tuonut laajaa kaupallista TDM-poikkeusta.

Riskitaso: KESKITASO–KORKEA
Keskeinen vaatimustenmukaisuustoimi: Lisensointi, datasettien alkuperä, tekijänoikeusanalyysi, henkilötietojen suodatus, lainmukaisen perusteen dokumentointi ja Britannian politiikkamuutosten tarkka seuranta.

Skenaarioiden yhteenvetotaulukko

Skenaario	Keskeiset laukaistavat lait	Riskitaso	Keskeinen vaatimustenmukaisuustoimi
Tuotehintojen seuranta	Käyttöehdot, tietokantaoikeudet, tekijänoikeus	Matala–keskitaso	Kerää faktakentät, kunnioita sivuston signaaleja
Kaupallinen datan jälleenmyynti	Kaikki neljä pilaria	Korkea	Oikeudellinen arvio ja lisensointi välttämättömiä
B2B-liidien hankinta	UK GDPR, käyttöehdot	Keskitaso	Tee LIA, minimoi henkilötiedot
Akateeminen tutkimus	Tekijänoikeus (TDM-poikkeus), GDPR jos henkilötietoja	Matala	Pidä tarkoitus ei-kaupallisena, älä julkaise uudelleen
AI-mallien koulutus	UK GDPR, tekijänoikeus, tietokantaoikeudet	Keskitaso–korkea	Lisensoi data, dokumentoi lainmukainen peruste, seuraa politiikkaa

Britannia vs. Yhdysvallat vs. EU: miten web-scraping-laki eroaa

Jos toimit vain Isossa-Britanniassa, voit ohittaa tämän osion. Mutta useimmat tapaamani yritykset scrapeavat kansainvälisesti — tai vähintäänkin sivustoja, jotka on hostattu muissa lainkäyttöalueissa. Erot ovat tärkeämpiä kuin luulisi.

Oikeudellinen ulottuvuus	🇬🇧 UK	🇺🇸 US	🇪🇺 EU
Ensisijainen tietosuojalaki	UK GDPR + DPA 2018	Ei liittovaltion vastaavaa (osavaltioiden lait vaihtelevat)	EU GDPR
Keskeinen scraping-prejudikaatti	Clearview AI (ICO:n 7,5 miljoonan punnan sakko)	hiQ v LinkedIn (julkisen datan scraping OK, Ninth Circuit — mutta hiQ:ta kiellettiin pysyvästi ja se maksoi 500 000 dollaria lopullisessa sovintotuomiossa)	Ryanair v PR Aviation (CJEU, C-30/14, tietokantaoikeudet)
Tietokoneen käyttöä koskeva laki	Computer Misuse Act 1990	CFAA (rajattu Van Burenin jälkeen, 2021)	Vaihtelee jäsenvaltioittain
Tekijänoikeus / TDM-poikkeus	Kapea: vain ei-kaupallinen tutkimus (Section 29A)	Fair use -doktriini (laajempi, tapauskohtainen)	DSM-direktiivin artiklat 3 & 4 (laajemmat TDM-oikeudet oikeuksien varaamisella)
Tietokantaoikeudet	Kyllä (säilytetty EU:n Database Directive -sääntelystä)	Ei vastaavaa liittovaltion oikeutta	Sui generis -oikeus Database Directive -sääntelyn nojalla
Käyttöehtojen täytäntöönpanokelpoisuus	Sopimusoikeus soveltuu; browsewrapista kiistellään	Sekava: browsewrap on usein täytäntöönpanokelvoton	Vaihtelee; Ryanair vahvisti käyttöehtojen asemaa

Käytännön opetus: jos scrapaat useiden lainkäyttöalueiden yli, noudata tiukinta sovellettavaa lakia. Yhdysvalloissa julkisen datan käyttö on hiQ:n perusteella sallivampaa, mutta hiQ ei ole yleispätevä vapautuskortti (hiQ:tä lopulta estettiin scraping LinkedInistä ja se maksoi 500 000 dollaria). EU:ssa on DSM-direktiivin kautta laajempi TDM-rakenne. Iso-Britannia sijoittuu jonnekin näiden väliin — ei laajaa kaupallista TDM-poikkeusta, vahvat tietokantaoikeudet ja aktiivinen sääntelyviranomainen.

Rangaistukset ja valvonta: mitä oikeasti tapahtuu, jos jäät kiinni

ig_010beacbdecb066e0169f1876f3d8c8191b68ddebcf937b561_compressed.webp

Epämääräiset varoitukset ”sakoista” ja ”oikeudellisista ongelmista” eivät auta ketään. Tässä ovat oikeat luvut.

Maksimirangaistus: , kumpi tahansa on suurempi.

Todellinen esimerkki: Clearview AI:lle määrättiin sakko ICO:lta vuonna 2022, koska se scrapeasi kasvojen kuvia brittiläisestä sosiaalisesta mediasta. First-tier Tribunal kumosi päätöksen toimivaltaperusteilla, mutta salli ICO:n valituksen ja palautti asian käsiteltäväksi. ICO totesi, että Clearviewilla oli joulukuussa 2025.

Computer Misuse Actin rikosoikeudelliset rangaistukset

Section 1 (luvaton pääsy): enintään
Section 3 (luvaton vahingoittaminen / haittaaminen): enintään

Rikossyyte tavallisesta julkisen sivun scrapingista on äärimmäisen harvinainen.

Riskiprofiili muuttuu dramaattisesti, kun toiminta alkaa muistuttaa hakkerointia, tunnusten väärinkäyttöä, CAPTCHA:n ohittamista tai palvelun heikentämistä.

Tekijänoikeus ja tietokantaoikeudet

Siviilioikeudelliset vahingonkorvaukset sekä kielto-oikeudellinen helpotus. Tahallisesta kaupallisesta loukkauksesta voi seurata myös rikosoikeudellisia seuraamuksia, mutta useimmat scraping-riidat etenevät siviilikanteina.

Sopimusrikkomus (käyttöehdot)

Siviilioikeudelliset vahingonkorvaukset, tilin lopettaminen, IP-estot. Tämä on yleensä käytännössä yleisin täytäntöönpanotoimi — ja usein ensimmäinen asia, joka tapahtuu.

Rangaistusten vakavuuden yhteenveto

Oikeudellinen viitekehys	Maksimirangaistus	Todennäköisyys tavallisessa yritysscrapingissa	Todellinen esimerkki
UK GDPR	17,5 M£ tai 4 % globaalista liikevaihdosta	Keskitaso, jos henkilötietoja kerätään laajassa mittakaavassa; matala, jos ei-henkilökohtaista dataa	Clearview AI:n 7,5 M£ sakko
CMA Section 1	2 vuoden vankeus	Matala julkisilla sivuilla; korkeampi, jos kontrollit ohitetaan	CPS:n ohjeistus luvattomasta pääsystä
CMA Section 3	10 vuoden vankeus	Matala, ellei liikenne heikennä järjestelmiä	DDoS-tyyliset haittaamistilanteet
Tekijänoikeus/tietokantaoikeudet	Vahingonkorvaukset ja kielto	Keskitaso, jos kopioidaan suojattua sisältöä tai kuratoituja tietokantoja	Ryanair- ja BHB-ratkaisulinja
Käyttöehtojen rikkominen	Vahingonkorvaukset, tilin lopetus, estäminen	Korkea käytännön täytäntöönpanokeinona	Ryanairin screen-scraping-kiistat

Miten oikea scraping-työkalu pienentää oikeudellista riskiäsi

Valitsemasi työkalu ei tee laittomasta scrapingista laillista. Mutta se voi poistaa vältettävissä olevaa riskiä.

Oman kokemukseni perusteella ero työkalun välillä, joka kunnioittaa sivuston signaaleja, ja työkalun, joka aggressiivisesti kiertää kaiken, on usein ero rutiininomaisen dataprojektin ja oikeudellisen päänsäryn välillä.

Kunnioittaa robots.txt:tä ja sivuston signaaleja

Vastuullisen työkalun pitäisi tehdä robots.txt:n tarkistamisesta ja kunnioittamisesta helppoa ennen scrapingia. Vaikka se ei ole juridisesti sitova, tuomioistuimet ja ICO pitävät robots.txt:n noudattamista hyvän tahdon osoituksena. Thunderbitin ohjeistaa käyttäjiä scrapeamaan julkisesti saatavilla olevaa dataa ja kunnioittamaan robots.txt:tä sekä käyttöehtoja.

Selain-scraping vs. pilviscraping

Tällä erotuksella on oikeudellista merkitystä. Selain-scraping käyttää vain sitä, mitä käyttäjä näkee omassa kirjautuneessa istunnossaan — käytännössä se automatisoi sen, mitä tekisit käsin. Pilviscraping lähettää pyyntöjä palvelimilta, mikä on nopeampaa julkisilla sivustoilla, mutta sivuston näkökulmasta se voi näyttää enemmän ”automaattiselta käytöltä”.

tarjoaa molemmat tilat. Selain-scraping sopii sivustoille, jotka vaativat kirjautumisen (ja pienentää ”luvaton pääsy” -riskiä CMA:n näkökulmasta), kun taas pilviscraping toimii hyvin julkisesti saatavilla olevilla verkkokauppasivuilla, joissa nopeus on tärkeää. Tämä kaksijakoinen lähestymistapa antaa käyttäjille mahdollisuuden sovittaa scraping-menetelmänsä kunkin sivuston oikeudelliseen riskiprofiiliin.

Ei pääsynhallinnan ohittamista

Työkalu, joka toimii selaimen sisällä eikä murra CAPTCHA:ita tai kierrä kirjautumismuureja, on lähtökohtaisesti vähäriskisempi Computer Misuse Actin näkökulmasta. Thunderbitin Chrome-laajennus toimii käyttäjän selainistunnossa — se pääsee vain siihen, minkä käyttäjä jo voi nähdä.

Thunderbit vie datan suoraan Exceliin, Google Sheetiin, Airtableen tai Notioniin. Käyttäjä hallitsee, minne data menee. Tämä tukee GDPR:n läpinäkyvyyttä ja lainmukaisen perusteen dokumentointia: tiedät täsmälleen, mitä dataa keräsit ja minne se meni. Ei piilotettua käsittelyä tai datan säilytystä työkalun puolelta.

Rate limiting ja vastuullinen käyttö

Aggressiiviset pyyntömäärät voivat laukaista CMA:n Section 3:n (luvaton haittaaminen). Rate limiting ei ole vain tekninen best practice — se on myös oikeudellinen turvakeino. Vastuulliset työkalut välttävät palvelimien kuormittamista liikaa, mikä pienentää sekä oikeudellista riskiä että IP-eston todennäköisyyttä.

ig_010beacbdecb066e0169f1876f3d8c8191b68ddebcf937b561_compressed.webp

Käytännön vaatimustenmukaisuuden tarkistuslista Britannian web-scrapingiin

Käy tämä läpi ennen kuin scrapeat mitään:

Lue kohdeverkkosivuston käyttöehdot ja Acceptable Use Policy.
Tarkista robots.txt-tiedosto ja dokumentoi, onko olennaisia polkuja kielletty.
Määritä, onko haluamasi data henkilötietoa. Jos on, tunnista lainmukainen peruste UK GDPR:n nojalla.
Arvioi, poimitko tietokannasta ”olennaisen osan”.
Varmista, ettet kierrä teknisiä pääsynhallintoja (CAPTCHA, kirjautumiset, rate limitit).
Jos tarkoitus on ei-kaupallinen tutkimus, dokumentoi tämä TDM-poikkeuksen hyödyntämiseksi.
Käytä rate limiting -rajoitusta. Älä kuormita kohdepalvelinta liikaa.
Dokumentoi kaikki: lainmukainen peruste, käyttöehtojen tarkistus, kerätyt datakentät, vientikohteet, säilytysaika.
Jos olet epävarma, pyydä oikeudellista neuvontaa asianajajalta, joka on erikoistunut tietosuojaan ja immateriaalioikeuksiin.

Tämä tarkistuslista ei korvaa asianajajan arviota — mutta se antaa sinulle vahvan lähtökohdan ja osoittaa hyväntahtoisuutta, jos kysymyksiä myöhemmin ilmenee.

Keskeiset opit

Web-scraping ei ole laitonta Isossa-Britanniassa — mutta sitä säätelevät neljä päällekkäistä oikeudellista viitekehystä: UK GDPR, tekijänoikeus/tietokantaoikeudet, sopimusoikeus ja Computer Misuse Act.
Minkä tahansa scrapingin laillisuus riippuu siitä, mitä keräät, miten pääset siihen käsiksi, mitä sivuston ehdot sanovat ja mitä teet datalla.
Henkilötiedon scraping tuo suurimman vaatimustenmukaisuustaakan. Oikeutettu etu on yleensä ainoa käyttökelpoinen lainmukainen peruste, ja se vaatii dokumentoidun punnintatestin.
Isossa-Britanniassa ei ole laajaa kaupallista TDM-poikkeusta. Kaupallinen AI-koulutus ja datasettien jälleenmyynti ovat korkean riskin toimia ilman lisenssiä.
Käytä yllä olevaa päätöspuuta ja skenaariotaulukkoa oman tilanteesi arviointiin ennen kuin aloitat.
Valitse työkalut, jotka noudattavat vaatimustenmukaisuuden parhaita käytäntöjä: selainpohjainen käyttö, ei CAPTCHA:n ohitusta, läpinäkyvä datan vienti ja rate limiting. on suunniteltu nämä periaatteet mielessä — mutta vaatimustenmukaisuusvastuu on aina käyttäjällä.
Kun olet epävarma, dokumentoi perustelusi ja keskustele asianajajan kanssa. Oikeudellisen lausunnon hinta on melkein aina pienempi kuin ICO-tutkinnan hinta.

Kokeile AI Web Scraperia Thunderbitillä

Usein kysytyt kysymykset

Onko julkisesti saatavilla olevan datan scraping laillista Isossa-Britanniassa?

Yleensä kyllä — julkisen datan scraping on vähäriskisempää kuin suljetun tai yksityisen datan scraping. Mutta ”julkisesti saatavilla” ei tarkoita ”vapaasti käytettävissä miten tahansa”. UK GDPR voi edelleen koskea julkista henkilötietoa, tekijänoikeus voi koskea kopioitua ilmaisua, tietokantaoikeudet voivat suojata kuratoituja kokoelmia ja käyttöehdot voivat rajoittaa automaattista käyttöä.

Voinko scrapeata sähköposteja ja puhelinnumeroita brittiläisiltä verkkosivustoilta?

Jos data on henkilötietoa (ja sähköpostit sekä puhelinnumerot yleensä ovat), tarvitset lainmukaisen perusteen UK GDPR:n nojalla. Oikeutettu etu on yleisin peruste B2B-liidien hankinnassa, mutta sinun on tehtävä punnintatesti, minimoitava kerättävä data ja tarjottava kieltäytymiskanava. Yksityiselämän yhteystietojen (matkapuhelinnumerot, henkilökohtaiset sähköpostit) scraping on paljon riskialttiimpaa kuin yrityshakemistojen tiedot.

Mikä on ero web-scrapingin ja web-crawlingin välillä Ison-Britannian laissa?

Oikeudellisesti merkittävää eroa ei ole — laki välittää toiminnasta, ei nimikkeestä. Crawling tarkoittaa yleensä sivujen löytämistä tai indeksointia; scraping taas yleensä rakenteistetun datan poimimista. Molemmissa on kyse verkkosivustojen automaattisesta käytöstä, ja niitä koskevat samat oikeudelliset viitekehykset.

Tehdäänkö robots.txt:stä scrapingista laitonta?

Ei. robots.txt ei ole oikeudellisesti sitova. Sen sivuuttaminen kuitenkin kasvattaa oikeudellista riskiäsi, koska tuomioistuimet ja ICO pitävät sitä todisteena sivuston omistajan tahdosta. Jos sivuutat robots.txt:n ja sivuston käyttöehdot kieltävät myös scrapingin, kasaat riskitekijöitä — ja sitä on paljon vaikeampi puolustaa.

Voinko joutua rikossyytteeseen web-scrapingista Isossa-Britanniassa?

Vain jos kierrät pääsynhallintaa (CAPTCHA:t, kirjautumiset, IP-estot) tai aiheutat vahinkoa tietokonejärjestelmälle nojalla. Tavallinen, aidosti julkisen datan scraping kohtuullisissa määrissä ilman teknistä kiertämistä johtaa äärimmäisen epätodennäköisesti rikossyytteeseen. Riskiprofiili muuttuu dramaattisesti, kun toiminta alkaa muistuttaa hakkerointia tai tarkoituksellista palvelun heikentämistä.

Lue lisää

Web-scraping Isossa-Britanniassa: mikä on riskialtista ja mistä voi joutua oikeuteen

Tarvitsetko räätälöityä verkkodataa?

Kokeile Thunderbitia