Web-scraping Isossa-Britanniassa: mikä on riskialtista ja mistä voi joutua oikeuteen

Viimeksi päivitetty April 29, 2026

Muutama kuukausi sitten eräs myyntitiimimme kollega kysyi minulta kysymyksen, jonka olen kuullut kymmeniä kertoja: ”Jos kerään kilpailijan hinnat julkiselta verkkosivustolta, voinko oikeasti joutua vaikeuksiin?” Hän oli löytänyt hakemiston toimittajakontakteista, hinnat siististi riveillä, ja hän halusi vain taulukkolaskentatiedoston. Epäröinti oli aitoa — ja rehellisesti sanottuna perusteltua.

Isossa-Britanniassa ei ole yhtä ainoaa ”web-scraping-lakia”. Sen sijaan neljä osittain päällekkäistä oikeudellista viitekehystä määrittävät, onko jokin scraping-toiminta lainmukaista. Siksi vastaus on lähes aina ”riippuu tilanteesta” — mutta sen ei tarvitse lamaannuttaa. Tässä oppaassa käyn läpi, mitä laki oikeasti sanoo, miten se soveltuu käytännön tilanteisiin, millaisia rangaistuksia voi seurata ja miten pysyä vaatimustenmukaisena.

Olen käyttänyt tähän paljon aikaa Thunderbitin tiimin puolesta, ja haluan jakaa löydökseni, jotta sinun ei tarvitse koota niitä viidestä eri asianajotoimiston blogista ja Reddit-keskustelusta.

Mitä web-scraping on (ja miksi brittiläiset yritykset käyttävät sitä)

Web-scraping tarkoittaa ohjelmiston käyttämistä tietojen automaattiseen keräämiseen verkkosivustoilta — eli tylsän kopioi-liitä-työn korvaamista, kun tiedot siirretään verkkosivuilta taulukkolaskentaan.

Tekniikka itsessään on neutraali. Se ei ole lähtökohtaisesti laillista eikä laitonta. Olennaista on, mitä dataa keräät, miten keräät sen ja mitä teet sillä jälkeenpäin.

Brittiläiset yritykset käyttävät scrapingia kaikenlaisiin laillisiin tarkoituksiin:

  • Hintavertailu: PriceSpy UK esimerkiksi automatisoidulla web-scrapingilla.
  • Liidien hankinta: Myyntitiimit poimivat yritysten nimiä, sähköposteja ja puhelinnumeroita julkisista hakemistoista.
  • Markkinatutkimus: Analyytikot seuraavat asuntoilmoituksia, työpaikkasivustoja tai kilpailijoiden tuotevalikoimia.
  • Akateeminen tutkimus: Office for National Statistics keräsi yli supermarket-sivustoilta vuosina 2014–2015.
  • AI-mallien koulutus: nopeasti kasvava — ja oikeudellisesti vielä epäselvä — käyttötapaus.

Suunta on selvä. , johon vastasi 500 päättäjää (joista 200 Isossa-Britanniassa), osoitti että piti julkista verkkodataa keskeisenä tai erittäin tärkeänä globaalille taloudelle, ja hankki sitä vähintään päivittäin.

Silti sanoi myös, että selkeän sääntelyn puute huolestutti heidän organisaatiotaan. Juuri tämän huolen vuoksi tämä artikkeli on olemassa.

Onko web-scraping laillista Isossa-Britanniassa? Suora vastaus

Yksikään Ison-Britannian laki ei kiellä web-scrapingia kokonaan. Useat lait kuitenkin säätelevät sitä, miten sitä voidaan tehdä, ja minkä tahansa yksittäisen projektin laillisuus riippuu neljästä tekijästä:

ig_010beacbdecb066e0169f1876f3d8c8191b68ddebcf937b561_compressed.webp

  1. Mitä dataa keräät (henkilötiedot vs. faktatiedot/eihenkilökohtainen data)
  2. Miten pääset siihen käsiksi (julkinen sivu vs. kirjautumismuurin tai CAPTCHA:n kiertäminen)
  3. Mitä verkkosivuston ehdot sanovat (kieltävätkö ne automaattisen käytön?)
  4. Miten käytät dataa jälkeenpäin (sisäinen analyysi vs. kaupallinen jälleenmyynti)

Paras vertaus, jonka olen löytänyt: web-scraping on kuin valokuvaaminen julkisella paikalla. Julkisella paikalla kuvaaminen ei ole automaattisesti laitonta — mutta tietyt kohteet, paikat, menetelmät ja käyttötavat luovat oikeudellisen riskin. Scraping on samanlaista. Julkinen saatavuus on merkityksellinen, mutta se ei kerro kaikkea.

ICO:n tuore GenAI-kuuleminen on yksi selkeimmistä virallisista Ison-Britannian kannanotoista scrapatusta henkilödatasta. Sen mukaan oikeutettu etu on generatiivisten AI-mallien kouluttamisessa web-scrapatun henkilödatan avulla , mutta vain jos kehittäjä läpäisee tiukan kolmiosaisen testin. Kynnys on korkea, ja se kertoo, kuinka vakavasti Britannian viranomaiset suhtautuvat scrapatun datan käsittelyyn.

Neljä Ison-Britannian lakia, jotka koskevat web-scrapingia

Neljä päällekkäistä näkökulmaa — mikä tahansa scraping-projekti voi laukaista yhden, kaksi tai kaikki neljä.

UK GDPR ja Data Protection Act 2018

Jos keräät henkilötietoja — nimiä, sähköposteja, puhelinnumeroita, IP-osoitteita, sosiaalisen median profiileja — UK GDPR soveltuu. ”Julkisesti saatavilla” ei tarkoita samaa kuin ”vapaasti käytettävissä”.

Julkisesti näkyvä henkilötieto on silti henkilötietoa.

Kaupallisen scrapingin kannalta olennaisin lainmukainen peruste on oikeutettu etu (artikla 6) — mutta sitä ei voi käyttää pelkkänä yleisfraasina. Sinun on:

  • tunnistettava tietty, laillinen tarkoitus
  • osoitettava, että käsittely on tarpeen kyseistä tarkoitusta varten
  • punnittava oma etusi suhteessa niiden henkilöiden oikeuksiin, joiden dataa keräät

ICO:n GenAI-kuulemiseen antama vastaus on erityisen suorasukainen: kehittäjien ei pidä olettaa, että laaja yhteiskunnallinen hyöty riittää, heidän pitää osoittaa, miksi scrapingille on huonoja vaihtoehtoja, ja heidän pitää käyttää läpinäkyvyyskeinoja, joiden avulla yksilöt voivat ymmärtää oikeutensa ja käyttää niitä. Lähde: .

Myös B2B-liidien hankinnassa pätee sama logiikka. Myyntitiimi voi nojata oikeutettuun etuun kerätessään julkisesti listattuja yritysten yhteystietoja, mutta sen on silti dokumentoitava oikeutettu etu, minimoitava kerättävät kentät, vältettävä erityisiin henkilötietoryhmiin kuuluvia tietoja, tarjottava tietosuojatiedot aina kun mahdollista ja kunnioitettava kieltäytymisiä.

Tekijänoikeus, tietokantaoikeudet ja TDM-poikkeus

Tekijänoikeus suojaa verkkosivuston alkuperäistä sisältöä: tekstiä, kuvia, tuotekuvauksia, artikkeleita. Faktatiedot, kuten hinnat, ovat yleensä yksittäisinä tietoina vähemmän tekijänoikeusherkkiä — mutta jos kopioit ja julkaiset suojattua ilmaisua uudelleen, siirryt loukkausalueelle.

Tietokantaoikeudet ovat web-scrapingin kannalta tärkeämpiä kuin useimmat ymmärtävät. Iso-Britannia säilytti EU-tyyliset sui generis -tietokantaoikeudet Brexitin jälkeen, ja ”olennaisen osan” loukatun tietokannan poimiminen — kuratoidut hakemistot, tuotekatalogit, markkinapaikkalistaukset — voi olla loukkaus, vaikka yksittäiset tiedot olisivat faktatietoja.

mukainen Text and Data Mining (TDM) -poikkeus sallii kopioinnin teksti- ja data-analyysiä varten vain, jos käyttäjällä on laillinen pääsy aineistoon ja tarkoitus on voittoa tavoittelematon tutkimus. Tämä on kapea poikkeus. Kaupallinen scraping, kaupallinen AI-koulutus ja kaupallinen datasettien jälleenmyynti eivät kuulu sen piiriin.

Britannian hallitus harkitsi tämän poikkeuksen laajentamista AI-koulutusta varten, mutta mukaan se päätti olla toteuttamatta uudistuksia, ennen kuin se on varma, että ne täyttävät tekijöiden, AI-kehittäjien ja Britannian talouden tavoitteet. Nykytilassa luvan tarve on yleensä olemassa, kun suojattuja teoksia kopioidaan AI-koulutusta varten, ellei jokin olemassa oleva poikkeus sovellu.

Verkkosivustojen käyttöehdot ja sopimusoikeus

Useimmilla verkkosivustoilla on käyttöehdot, jotka kieltävät tai rajoittavat automaattisen scrapingin. Kun käytät sivustoa, saatat jo sitoutua näihin ehtoihin — erityisesti jos hyväksyt ne erillisessä hyväksyntänäkymässä (clickwrap). Footer-linkin takana olevat ehdot (browsewrap) ovat faktakysymyksenä monimutkaisempia, mutta Britannian tuomioistuimet ovat osoittaneet halukkuutta täytäntöönpanna scrapingia koskevia ehtorajoituksia. -kiistassa tuomioistuin piti näkyviä verkkosivuehtoja sitovina screen-scraping-kontekstissa.

robots.txt ei ole laki. Se on sivuston omistajan koneellisesti luettava ohje. Tyypillinen tiedosto näyttää tältä:

1User-agent: *
2Disallow: /account/
3Disallow: /checkout/
4Disallow: /private/
5Crawl-delay: 10

robots.txt:n sivuuttaminen ei tee scrapingista automaattisesti laitonta, mutta tuomioistuimet ja ICO pitävät sitä todisteena sivuston omistajan tahdosta. Sen sivuuttaminen kasvattaa oikeudellista altistusta, erityisesti jos siihen liittyy käyttöehtojen rikkominen tai aggressiivinen pyyntömäärä.

Computer Misuse Act 1990

Tämä laki pitää ihmiset hereillä öisin — ja syystä. Se sisältää rikosoikeudellisia tekoja. Section 1 koskee luvattoman pääsyn tietokonemateriaaliin (enintään ). Section 3 koskee luvattomia tekoja, jotka haittaavat tietokoneen toimintaa (enintään ).

CMA-riski on pienin silloin, kun data on aidosti julkista eikä scraper kierrä teknisiä esteitä. Riski kasvaa, kun:

  • ohitat kirjautumismuurit, CAPTCHA:t tai IP-estot
  • käytät varastettuja tunnuksia tai luot feikkitilejä
  • lähetät liikennemääriä, jotka heikentävät kohdepalvelun toimintaa

Iso-Britannia ei ole luonut siistiä Yhdysvaltojen tyylistä sääntöä, jonka mukaan ”julkinen data on vapaata riistaa”. Se tekee Britannian neuvonnasta varovaisempaa: julkinen pääsy alentaa CMA-riskiä merkittävästi, mutta verkkosivun ehdot, tekniset kontrollit ja scraperaajan tietoisuus rajoituksista voivat silti olla ratkaisevia.

”Saanko kerätä tämän laillisesti?” — nopea päätöspuu

Ennen kuin scrapeat mitään, käy läpi nämä viisi päätöspistettä. Tämä ei ole oikeudellista neuvontaa — vain 60 sekunnin riskin arviointi.

PäätöspisteJos KYLLÄJos EI
Onko data henkilötietoa (nimiä, sähköposteja jne.)?UK GDPR soveltuu. Tunnista lainmukainen peruste, tee LIA, minimoi kentät, suunnittele läpinäkyvyys.GDPR-kerros ei ehkä sovellu, mutta jatka muiden tarkistusten pariin.
Kieltävätkö sivuston käyttöehdot nimenomaisesti scrapingin?Sopimusrikkomusriski. Harkitse API:a, lisenssiä tai oikeudellista arviota.Pienempi sopimusriski, mutta tarkista robots.txt.
Poimitko olennaisen osan tietokannasta?Sui generis -tietokantaoikeutta on todennäköisesti loukattu. Harkitse lisensointia tai suppeampaa poimintaa.Tekijänoikeus voi silti koskea yksittäistä kopioitua sisältöä.
Kiertääkö prosessi kirjautumisen, CAPTCHA:n tai käyttörajoitukset?Mahdollinen rikos CMA 1990:n nojalla. Lopeta ja hanki oikeudellinen arvio.CMA-riski on pienempi, jos pääsy on aidosti julkinen.
Onko tarkoitus voittoa tavoittelematon tutkimus?Section 29A TDM-poikkeus voi soveltua, jos sinulla on laillinen pääsy.Britannialla ei ole laajaa kaupallista TDM-satamaa. Tarvitaan täysi IP- ja sopimusanalyysi.

Huh, olisinpa saanut tämän silloin, kun aloin ensimmäistä kertaa tutkia scrapingin vaatimustenmukaisuutta tiimillemme. Se muuttaa oikeudellisen monimutkaisuuden jäsennellyksi itsearvioinniksi, jonka voit tehdä alle minuutissa.

Todelliset skenaariot: onko juuri sinun scraping-toimintasi laillista Isossa-Britanniassa?

Abstrakti laki on yksi asia. Se, mitä ihmiset oikeasti haluavat tietää, on: ”Joutuuko oma projektini vaikeuksiin?”

Reilu kysymys. Tässä on viisi tavallista Britannian scraping-käyttötapaa ja lyhyt oikeudellinen riskinarvio kustakin.

Tuotehintojen kerääminen vertailua varten

Yksi yleisimmistä — ja usein vähäriskisimmistä — liiketoiminnan käyttötapauksista. Hinnat ovat faktatietoa, ja automatisoitu hintojen keruu on juuri se tapa, jolla palvelut kuten PriceSpy toimivat.

Riski ei kuitenkaan katoa kokonaan. Jos kohdesivusto kieltää scrapingin käyttöehdoissaan, jos kopioit tuotekuvauksia tai kuvia, tai jos poimit olennaisen osan kuratoidusta tuotetietokannasta, esiin voi nousta sopimus-, tekijänoikeus- ja tietokantaoikeuskysymyksiä.

Riskitaso: MATALA–KESKITASO
Keskeinen vaatimustenmukaisuustoimi: Kerää vain faktapohjaiset hintakentät, vältä tuotekuvausten sanatarkkaa kopiointia, kunnioita käyttöehtoja ja robots.txt:tä, käytä rate limiting -rajoitusta äläkä julkaise kilpailijan katalogista raakaa peiliaineistoa.

Datan kerääminen ja jälleenmyynti kaupallisesti

Kaikkiaan riskialttein kaupallinen skenaario. Muunnat toisen osapuolen datainvestoinnin myytäväksi tuotteeksi — ja se voi koskea kaikkia neljää oikeudellista pilaria samanaikaisesti.

Riskitaso: KORKEA
Keskeinen vaatimustenmukaisuustoimi: Oikeudellinen arvio on välttämätön. Harkitse lisenssisopimuksia datan omistajien kanssa. Jos tuotteessa on henkilötietoja, lisää tietosuojavaikutusten arviointi.

Yritysten yhteystietojen kerääminen liidien hankintaan

Jokainen myyntitiimi, jonka kanssa olen puhunut, tekee jotain tämän kaltaista: sähköpostien, puhelinnumeroiden ja yritysten nimien scrapingia hakemistoista. Juju on siinä, että yritysten yhteystiedot sisältävät usein henkilötietoja. Nimetyssä työntekijässä oleva sähköpostiosoite on henkilötieto, vaikka se olisi julkisesti listattu.

Riskitaso: KESKITASO
Keskeinen vaatimustenmukaisuustoimi: Tee Legitimate Interests Assessment, kerää mahdollisuuksien mukaan vain yritys- eikä yksityiselämän yhteystietoja, dokumentoi lainmukainen peruste ja tarjoa kieltäytymiskanava. Työkalut kuten voivat pienentää pääsyriskiä tässä, koska toimii käyttäjän selaimessa — se näkee vain sen, minkä käyttäjä voi jo nähdä, eikä kierrä pääsynhallintaa.

Akateeminen tai salkkuun tarkoitettu data-analyysi

Jos teet aidosti voittoa tavoittelematonta tutkimusta, sinulla on vahvin tekijänoikeuspoikkeukseen perustuva reitti: Section 29A CDPA, edellyttäen että sinulla on laillinen pääsy aineistoon.

Riskitaso: MATALA (jos aidosti voittoa tavoittelematon)
Keskeinen vaatimustenmukaisuustoimi: Dokumentoi ei-kaupallinen tarkoitus, viittaa lähteisiin, anonymisoi tai yhdistä dataa aina kun mahdollista, äläkä jaa eteenpäin tekijänoikeudella suojattua sisältöä tai henkilötietoja.

Sisällön kerääminen AI-mallien koulutukseen

Tätä kaikki kysyvät vuonna 2026 — ja vastaus on yhä hieman epämiellyttävä. ICO pitää web-scrapattua henkilötietoa koulutusta varten korkean riskin näkymättömänä käsittelynä. Britannian hallituksen vuoden 2026 raportti ei tuonut laajaa kaupallista TDM-poikkeusta.

Riskitaso: KESKITASO–KORKEA
Keskeinen vaatimustenmukaisuustoimi: Lisensointi, datasettien alkuperä, tekijänoikeusanalyysi, henkilötietojen suodatus, lainmukaisen perusteen dokumentointi ja Britannian politiikkamuutosten tarkka seuranta.

Skenaarioiden yhteenvetotaulukko

SkenaarioKeskeiset laukaistavat laitRiskitasoKeskeinen vaatimustenmukaisuustoimi
Tuotehintojen seurantaKäyttöehdot, tietokantaoikeudet, tekijänoikeusMatala–keskitasoKerää faktakentät, kunnioita sivuston signaaleja
Kaupallinen datan jälleenmyyntiKaikki neljä pilariaKorkeaOikeudellinen arvio ja lisensointi välttämättömiä
B2B-liidien hankintaUK GDPR, käyttöehdotKeskitasoTee LIA, minimoi henkilötiedot
Akateeminen tutkimusTekijänoikeus (TDM-poikkeus), GDPR jos henkilötietojaMatalaPidä tarkoitus ei-kaupallisena, älä julkaise uudelleen
AI-mallien koulutusUK GDPR, tekijänoikeus, tietokantaoikeudetKeskitaso–korkeaLisensoi data, dokumentoi lainmukainen peruste, seuraa politiikkaa

Britannia vs. Yhdysvallat vs. EU: miten web-scraping-laki eroaa

Jos toimit vain Isossa-Britanniassa, voit ohittaa tämän osion. Mutta useimmat tapaamani yritykset scrapeavat kansainvälisesti — tai vähintäänkin sivustoja, jotka on hostattu muissa lainkäyttöalueissa. Erot ovat tärkeämpiä kuin luulisi.

Oikeudellinen ulottuvuus🇬🇧 UK🇺🇸 US🇪🇺 EU
Ensisijainen tietosuojalakiUK GDPR + DPA 2018Ei liittovaltion vastaavaa (osavaltioiden lait vaihtelevat)EU GDPR
Keskeinen scraping-prejudikaattiClearview AI (ICO:n 7,5 miljoonan punnan sakko)hiQ v LinkedIn (julkisen datan scraping OK, Ninth Circuit — mutta hiQ:ta kiellettiin pysyvästi ja se maksoi 500 000 dollaria lopullisessa sovintotuomiossa)Ryanair v PR Aviation (CJEU, C-30/14, tietokantaoikeudet)
Tietokoneen käyttöä koskeva lakiComputer Misuse Act 1990CFAA (rajattu Van Burenin jälkeen, 2021)Vaihtelee jäsenvaltioittain
Tekijänoikeus / TDM-poikkeusKapea: vain ei-kaupallinen tutkimus (Section 29A)Fair use -doktriini (laajempi, tapauskohtainen)DSM-direktiivin artiklat 3 & 4 (laajemmat TDM-oikeudet oikeuksien varaamisella)
TietokantaoikeudetKyllä (säilytetty EU:n Database Directive -sääntelystä)Ei vastaavaa liittovaltion oikeuttaSui generis -oikeus Database Directive -sääntelyn nojalla
Käyttöehtojen täytäntöönpanokelpoisuusSopimusoikeus soveltuu; browsewrapista kiistelläänSekava: browsewrap on usein täytäntöönpanokelvotonVaihtelee; Ryanair vahvisti käyttöehtojen asemaa

Käytännön opetus: jos scrapaat useiden lainkäyttöalueiden yli, noudata tiukinta sovellettavaa lakia. Yhdysvalloissa julkisen datan käyttö on hiQ:n perusteella sallivampaa, mutta hiQ ei ole yleispätevä vapautuskortti (hiQ:tä lopulta estettiin scraping LinkedInistä ja se maksoi 500 000 dollaria). EU:ssa on DSM-direktiivin kautta laajempi TDM-rakenne. Iso-Britannia sijoittuu jonnekin näiden väliin — ei laajaa kaupallista TDM-poikkeusta, vahvat tietokantaoikeudet ja aktiivinen sääntelyviranomainen.

Rangaistukset ja valvonta: mitä oikeasti tapahtuu, jos jäät kiinni

ig_010beacbdecb066e0169f1876f3d8c8191b68ddebcf937b561_compressed.webp

Epämääräiset varoitukset ”sakoista” ja ”oikeudellisista ongelmista” eivät auta ketään. Tässä ovat oikeat luvut.

UK GDPR -sakot

Maksimirangaistus: , kumpi tahansa on suurempi.

Todellinen esimerkki: Clearview AI:lle määrättiin sakko ICO:lta vuonna 2022, koska se scrapeasi kasvojen kuvia brittiläisestä sosiaalisesta mediasta. First-tier Tribunal kumosi päätöksen toimivaltaperusteilla, mutta salli ICO:n valituksen ja palautti asian käsiteltäväksi. ICO totesi, että Clearviewilla oli joulukuussa 2025.

Computer Misuse Actin rikosoikeudelliset rangaistukset

  • Section 1 (luvaton pääsy): enintään
  • Section 3 (luvaton vahingoittaminen / haittaaminen): enintään

Rikossyyte tavallisesta julkisen sivun scrapingista on äärimmäisen harvinainen.

Riskiprofiili muuttuu dramaattisesti, kun toiminta alkaa muistuttaa hakkerointia, tunnusten väärinkäyttöä, CAPTCHA:n ohittamista tai palvelun heikentämistä.

Tekijänoikeus ja tietokantaoikeudet

Siviilioikeudelliset vahingonkorvaukset sekä kielto-oikeudellinen helpotus. Tahallisesta kaupallisesta loukkauksesta voi seurata myös rikosoikeudellisia seuraamuksia, mutta useimmat scraping-riidat etenevät siviilikanteina.

Sopimusrikkomus (käyttöehdot)

Siviilioikeudelliset vahingonkorvaukset, tilin lopettaminen, IP-estot. Tämä on yleensä käytännössä yleisin täytäntöönpanotoimi — ja usein ensimmäinen asia, joka tapahtuu.

Rangaistusten vakavuuden yhteenveto

Oikeudellinen viitekehysMaksimirangaistusTodennäköisyys tavallisessa yritysscrapingissaTodellinen esimerkki
UK GDPR17,5 M£ tai 4 % globaalista liikevaihdostaKeskitaso, jos henkilötietoja kerätään laajassa mittakaavassa; matala, jos ei-henkilökohtaista dataaClearview AI:n 7,5 M£ sakko
CMA Section 12 vuoden vankeusMatala julkisilla sivuilla; korkeampi, jos kontrollit ohitetaanCPS:n ohjeistus luvattomasta pääsystä
CMA Section 310 vuoden vankeusMatala, ellei liikenne heikennä järjestelmiäDDoS-tyyliset haittaamistilanteet
Tekijänoikeus/tietokantaoikeudetVahingonkorvaukset ja kieltoKeskitaso, jos kopioidaan suojattua sisältöä tai kuratoituja tietokantojaRyanair- ja BHB-ratkaisulinja
Käyttöehtojen rikkominenVahingonkorvaukset, tilin lopetus, estäminenKorkea käytännön täytäntöönpanokeinonaRyanairin screen-scraping-kiistat

Miten oikea scraping-työkalu pienentää oikeudellista riskiäsi

Valitsemasi työkalu ei tee laittomasta scrapingista laillista. Mutta se voi poistaa vältettävissä olevaa riskiä.

Oman kokemukseni perusteella ero työkalun välillä, joka kunnioittaa sivuston signaaleja, ja työkalun, joka aggressiivisesti kiertää kaiken, on usein ero rutiininomaisen dataprojektin ja oikeudellisen päänsäryn välillä.

Kunnioittaa robots.txt:tä ja sivuston signaaleja

Vastuullisen työkalun pitäisi tehdä robots.txt:n tarkistamisesta ja kunnioittamisesta helppoa ennen scrapingia. Vaikka se ei ole juridisesti sitova, tuomioistuimet ja ICO pitävät robots.txt:n noudattamista hyvän tahdon osoituksena. Thunderbitin ohjeistaa käyttäjiä scrapeamaan julkisesti saatavilla olevaa dataa ja kunnioittamaan robots.txt:tä sekä käyttöehtoja.

Selain-scraping vs. pilviscraping

Tällä erotuksella on oikeudellista merkitystä. Selain-scraping käyttää vain sitä, mitä käyttäjä näkee omassa kirjautuneessa istunnossaan — käytännössä se automatisoi sen, mitä tekisit käsin. Pilviscraping lähettää pyyntöjä palvelimilta, mikä on nopeampaa julkisilla sivustoilla, mutta sivuston näkökulmasta se voi näyttää enemmän ”automaattiselta käytöltä”.

tarjoaa molemmat tilat. Selain-scraping sopii sivustoille, jotka vaativat kirjautumisen (ja pienentää ”luvaton pääsy” -riskiä CMA:n näkökulmasta), kun taas pilviscraping toimii hyvin julkisesti saatavilla olevilla verkkokauppasivuilla, joissa nopeus on tärkeää. Tämä kaksijakoinen lähestymistapa antaa käyttäjille mahdollisuuden sovittaa scraping-menetelmänsä kunkin sivuston oikeudelliseen riskiprofiiliin.

Ei pääsynhallinnan ohittamista

Työkalu, joka toimii selaimen sisällä eikä murra CAPTCHA:ita tai kierrä kirjautumismuureja, on lähtökohtaisesti vähäriskisempi Computer Misuse Actin näkökulmasta. Thunderbitin Chrome-laajennus toimii käyttäjän selainistunnossa — se pääsee vain siihen, minkä käyttäjä jo voi nähdä.

Läpinäkyvä datan vienti (UK GDPR -vaatimusten tukena)

Thunderbit vie datan suoraan Exceliin, Google Sheetiin, Airtableen tai Notioniin. Käyttäjä hallitsee, minne data menee. Tämä tukee GDPR:n läpinäkyvyyttä ja lainmukaisen perusteen dokumentointia: tiedät täsmälleen, mitä dataa keräsit ja minne se meni. Ei piilotettua käsittelyä tai datan säilytystä työkalun puolelta.

Rate limiting ja vastuullinen käyttö

Aggressiiviset pyyntömäärät voivat laukaista CMA:n Section 3:n (luvaton haittaaminen). Rate limiting ei ole vain tekninen best practice — se on myös oikeudellinen turvakeino. Vastuulliset työkalut välttävät palvelimien kuormittamista liikaa, mikä pienentää sekä oikeudellista riskiä että IP-eston todennäköisyyttä.

ig_010beacbdecb066e0169f1876f3d8c8191b68ddebcf937b561_compressed.webp

Käytännön vaatimustenmukaisuuden tarkistuslista Britannian web-scrapingiin

Käy tämä läpi ennen kuin scrapeat mitään:

  1. Lue kohdeverkkosivuston käyttöehdot ja Acceptable Use Policy.
  2. Tarkista robots.txt-tiedosto ja dokumentoi, onko olennaisia polkuja kielletty.
  3. Määritä, onko haluamasi data henkilötietoa. Jos on, tunnista lainmukainen peruste UK GDPR:n nojalla.
  4. Arvioi, poimitko tietokannasta ”olennaisen osan”.
  5. Varmista, ettet kierrä teknisiä pääsynhallintoja (CAPTCHA, kirjautumiset, rate limitit).
  6. Jos tarkoitus on ei-kaupallinen tutkimus, dokumentoi tämä TDM-poikkeuksen hyödyntämiseksi.
  7. Käytä rate limiting -rajoitusta. Älä kuormita kohdepalvelinta liikaa.
  8. Dokumentoi kaikki: lainmukainen peruste, käyttöehtojen tarkistus, kerätyt datakentät, vientikohteet, säilytysaika.
  9. Jos olet epävarma, pyydä oikeudellista neuvontaa asianajajalta, joka on erikoistunut tietosuojaan ja immateriaalioikeuksiin.

Tämä tarkistuslista ei korvaa asianajajan arviota — mutta se antaa sinulle vahvan lähtökohdan ja osoittaa hyväntahtoisuutta, jos kysymyksiä myöhemmin ilmenee.

Keskeiset opit

  • Web-scraping ei ole laitonta Isossa-Britanniassa — mutta sitä säätelevät neljä päällekkäistä oikeudellista viitekehystä: UK GDPR, tekijänoikeus/tietokantaoikeudet, sopimusoikeus ja Computer Misuse Act.
  • Minkä tahansa scrapingin laillisuus riippuu siitä, mitä keräät, miten pääset siihen käsiksi, mitä sivuston ehdot sanovat ja mitä teet datalla.
  • Henkilötiedon scraping tuo suurimman vaatimustenmukaisuustaakan. Oikeutettu etu on yleensä ainoa käyttökelpoinen lainmukainen peruste, ja se vaatii dokumentoidun punnintatestin.
  • Isossa-Britanniassa ei ole laajaa kaupallista TDM-poikkeusta. Kaupallinen AI-koulutus ja datasettien jälleenmyynti ovat korkean riskin toimia ilman lisenssiä.
  • Käytä yllä olevaa päätöspuuta ja skenaariotaulukkoa oman tilanteesi arviointiin ennen kuin aloitat.
  • Valitse työkalut, jotka noudattavat vaatimustenmukaisuuden parhaita käytäntöjä: selainpohjainen käyttö, ei CAPTCHA:n ohitusta, läpinäkyvä datan vienti ja rate limiting. on suunniteltu nämä periaatteet mielessä — mutta vaatimustenmukaisuusvastuu on aina käyttäjällä.
  • Kun olet epävarma, dokumentoi perustelusi ja keskustele asianajajan kanssa. Oikeudellisen lausunnon hinta on melkein aina pienempi kuin ICO-tutkinnan hinta.
Kokeile AI Web Scraperia Thunderbitillä

Usein kysytyt kysymykset

Onko julkisesti saatavilla olevan datan scraping laillista Isossa-Britanniassa?

Yleensä kyllä — julkisen datan scraping on vähäriskisempää kuin suljetun tai yksityisen datan scraping. Mutta ”julkisesti saatavilla” ei tarkoita ”vapaasti käytettävissä miten tahansa”. UK GDPR voi edelleen koskea julkista henkilötietoa, tekijänoikeus voi koskea kopioitua ilmaisua, tietokantaoikeudet voivat suojata kuratoituja kokoelmia ja käyttöehdot voivat rajoittaa automaattista käyttöä.

Voinko scrapeata sähköposteja ja puhelinnumeroita brittiläisiltä verkkosivustoilta?

Jos data on henkilötietoa (ja sähköpostit sekä puhelinnumerot yleensä ovat), tarvitset lainmukaisen perusteen UK GDPR:n nojalla. Oikeutettu etu on yleisin peruste B2B-liidien hankinnassa, mutta sinun on tehtävä punnintatesti, minimoitava kerättävä data ja tarjottava kieltäytymiskanava. Yksityiselämän yhteystietojen (matkapuhelinnumerot, henkilökohtaiset sähköpostit) scraping on paljon riskialttiimpaa kuin yrityshakemistojen tiedot.

Mikä on ero web-scrapingin ja web-crawlingin välillä Ison-Britannian laissa?

Oikeudellisesti merkittävää eroa ei ole — laki välittää toiminnasta, ei nimikkeestä. Crawling tarkoittaa yleensä sivujen löytämistä tai indeksointia; scraping taas yleensä rakenteistetun datan poimimista. Molemmissa on kyse verkkosivustojen automaattisesta käytöstä, ja niitä koskevat samat oikeudelliset viitekehykset.

Tehdäänkö robots.txt:stä scrapingista laitonta?

Ei. robots.txt ei ole oikeudellisesti sitova. Sen sivuuttaminen kuitenkin kasvattaa oikeudellista riskiäsi, koska tuomioistuimet ja ICO pitävät sitä todisteena sivuston omistajan tahdosta. Jos sivuutat robots.txt:n ja sivuston käyttöehdot kieltävät myös scrapingin, kasaat riskitekijöitä — ja sitä on paljon vaikeampi puolustaa.

Voinko joutua rikossyytteeseen web-scrapingista Isossa-Britanniassa?

Vain jos kierrät pääsynhallintaa (CAPTCHA:t, kirjautumiset, IP-estot) tai aiheutat vahinkoa tietokonejärjestelmälle nojalla. Tavallinen, aidosti julkisen datan scraping kohtuullisissa määrissä ilman teknistä kiertämistä johtaa äärimmäisen epätodennäköisesti rikossyytteeseen. Riskiprofiili muuttuu dramaattisesti, kun toiminta alkaa muistuttaa hakkerointia tai tarkoituksellista palvelun heikentämistä.

Lue lisää

Fawad Khan
Fawad Khan
Fawad kirjoittaa työkseen, ja rehellisesti sanottuna hän jopa pitää siitä. Hän on käyttänyt vuosia selvittääkseen, mikä tekee mainostekstistä vaikuttavaa — ja mikä saa lukijat selaamaan ohi. Kysy häneltä markkinoinnista, niin hän puhuu tuntikausia. Kysy häneltä carbonarasta, niin hän puhuu vielä pidempään.

Kokeile Thunderbitia

Poimi liidejä ja muuta dataa vain 2 klikkauksella. AI:n tukemana.

Hanki Thunderbit Se on ilmainen
Poimi dataa AI:n avulla
Siirrä data helposti Google Sheetiin, Airtableen tai Notioniin
PRODUCT HUNT#1 Product of the Week