Il 1° maggio 2024, l’Autorità olandese per la protezione dei dati ha pubblicato un titolo che ha scosso ogni team dati in Europa: Se lavori nelle vendite, nell’ecommerce o nel real estate — insomma, se ti basi sui dati web — quella frase ti avrà probabilmente fatto gelare il sangue.
Lo capisco. In , parliamo ogni giorno con team aziendali che hanno bisogno di dati web per monitorare i prezzi, generare lead e fare ricerche di mercato. La frustrazione è sempre la stessa: cercano su Google "is web scraping legal in Europe" e ogni risposta finisce per essere una variante di "dipende". Non è proprio l’ideale quando hai una scadenza e una lista di URL da estrarre.
Così ho passato settimane a scavare tra normative, linee guida delle autorità per la protezione dei dati, casi di enforcement e giurisprudenza per costruire qualcosa di più utile: una checklist pratica per prendere decisioni, una tabella riassuntiva delle misure di sicurezza, importi reali delle sanzioni e una guida passo dopo passo per fare scraping di siti europei senza finire sotto la lente di un regolatore. Che tu stia estraendo i prezzi dei prodotti Amazon o i contatti B2B da una directory, questo articolo ti aiuterà a capire dove sono i confini — e come restare dalla parte giusta.
Cos’è il Web Scraping (e perché alle aziende europee dovrebbe importare)?
Il web scraping è l’estrazione automatica di dati dai siti web in un formato strutturato — un foglio di calcolo, un database, un CRM. Invece di copiare e incollare nomi e prezzi dei prodotti da 200 pagine, uno scraper visita ogni pagina e recupera i campi necessari in colonne ordinate.
Perché dovrebbe interessare ai team non tecnici? Perché i dati web alimentano decisioni aziendali concrete. I team commerciali estraggono lead dalle directory. I responsabili ecommerce monitorano ogni giorno i prezzi dei concorrenti. Gli analisti immobiliari seguono l’andamento degli annunci sui portali. I ricercatori di mercato raccolgono recensioni e valutazioni pubbliche su larga scala. Il sta crescendo rapidamente e le aziende estraggono milioni di punti dati ogni giorno.
Ma il quadro normativo europeo è diverso da quello statunitense. GDPR, Database Directive e linee guida in continua evoluzione delle autorità per la protezione dei dati significano che "disponibile pubblicamente" non equivale a "liberamente utilizzabile". Come ha detto il presidente dell’autorità olandese Aleid Wolfsen: "pubblico non significa automaticamente permesso per lo scraping". Capire le regole prima di iniziare non è opzionale — fa la differenza tra un dataset pulito e una multa a sei cifre.
Il web scraping è legale in Europa? La risposta breve
Il web scraping non è intrinsecamente illegale in Europa. Ma la sua liceità dipende da tre fattori: quali dati estrai, come li estrai e perché.
Nell’UE si sovrappongono tre livelli normativi che disciplinano lo scraping:
- GDPR — si applica ogni volta che estrai dati personali (nomi, email, numeri di telefono, indirizzi IP, persino identificativi pseudonimizzati).
- La EU Database Directive — protegge i database in cui il creatore ha fatto un "investimento sostanziale" nell’organizzazione dei dati.
- Diritto contrattuale / Termini di servizio — molti siti vietano esplicitamente lo scraping nei propri ToS, e i tribunali dell’UE hanno fatto valere questi termini.
Il punto chiave è questo: "pubblico" non significa "non regolamentato". Anche i dati non personali possono essere protetti dal diritto sui database o dal diritto contrattuale. Ogni progetto di scraping va valutato tenendo insieme tutti e tre i livelli.
Le principali leggi UE che regolano il web scraping
GDPR: quando estrai dati personali
Qualsiasi dato collegato a una persona identificabile fa scattare gli obblighi del GDPR. Questo include nomi, indirizzi email, numeri di telefono, indirizzi IP, foto e persino dati pseudonimizzati che possono essere re-identificati. Nel momento in cui estrai dati personali, diventi un "titolare del trattamento" con obblighi ai sensi del GDPR:
- Base giuridica (articolo 6): ti serve una ragione legale per trattare i dati. Il consenso è quasi mai praticabile per lo scraping su larga scala — non puoi chiedere a milioni di persone il permesso prima di raccogliere le informazioni che hanno pubblicato. La base giuridica più citata è il legittimo interesse (articolo 6(1)(f)), ma richiede un test documentato in tre parti: (1) il tuo interesse è legittimo, (2) il trattamento è necessario, e (3) non incide in modo sproporzionato sui diritti degli interessati, tenendo conto delle loro ragionevoli aspettative.
- Trasparenza (articolo 14): visto che non raccogli i dati direttamente dalla persona, devi informarla — in genere entro un mese — su cosa hai raccolto, perché e come può esercitare i propri diritti. Se la notifica individuale è sproporzionata, devi pubblicare un’informativa generale con tutti i contenuti richiesti dall’articolo 14.
- Minimizzazione dei dati: raccogli solo ciò che ti serve davvero. Se vuoi i prezzi dei prodotti, non prendere anche gli indirizzi email dei venditori.
- Limiti di conservazione e gestione dei diritti: imposta periodi di conservazione, rispetta le richieste di cancellazione e fornisci l’accesso alle informazioni di origine.
Il (adottato nel maggio 2024) ha aggiunto un ulteriore livello: ha affermato che le diverse fasi del trattamento — raccolta, pre-elaborazione, training, prompt e output — richiedono ciascuna una propria analisi della base giuridica. L’EDPB non ha respinto il legittimo interesse per il web scraping, ma ha insistito su una valutazione completa in tre parti con adeguate misure di sicurezza.
La EU Database Directive: proteggere il modo in cui i dati sono organizzati
La Database Directive riconosce un diritto sui generis ai creatori di database che hanno effettuato un "investimento sostanziale" nell’ottenere, verificare o presentare i dati. Se il tuo scraping estrae una "parte sostanziale" di un database di questo tipo, potresti violare quel diritto.
In pratica, la soglia è relativamente alta. Estrarre qualche centinaio di prezzi da un grande retailer difficilmente rientra nella fattispecie. Ma scaricare in blocco l’intero catalogo di un concorrente — decine di migliaia di annunci — potrebbe oltrepassare il limite, soprattutto se mette a rischio la capacità del creatore di recuperare l’investimento. La Corte di giustizia dell’UE si è pronunciata più volte su questa soglia, e la domanda chiave è sempre la proporzionalità.
Per la maggior parte dello scraping business — estrarre campi specifici dalle pagine prodotto, confrontare gli annunci in una categoria — la Database Directive rappresenta un rischio più basso. Ma il rischio non è nullo, e vale la pena tenerlo presente quando definisci l’ambito dello scraping.
Termini di servizio: la variabile impazzita del diritto contrattuale
Qui molte persone inciampano. Molti siti vietano lo scraping nei loro Termini di servizio. In Europa, la violazione dei ToS è una questione civile (non penale), ma può comunque portare a ingiunzioni, cause contrattuali e a un’esposizione finanziaria concreta.
Due formule da conoscere: browsewrap (termini passivi, spesso un link nascosto in fondo alla pagina) è più difficile da far valere, perché l’utente non li ha mai accettati attivamente. Clickwrap (quando selezioni una casella o clicchi "Accetto") è molto più difendibile.
Il caso UE di riferimento è Ryanair v. PR Aviation: il tribunale ha fatto valere i ToS di Ryanair contro uno scraper anche se il diritto sui database non si applicava, perché lo scraper aveva accettato i termini. Quindi: controlla sempre i ToS di un sito prima di fare scraping. Se si tratta di un accordo clickwrap che vieta esplicitamente lo scraping, procedi con cautela — oppure cerca un accesso API.
La DSM Directive e l’AI Act: eccezioni per ricerca e text/data mining
Non tutto lo scraping attiva le stesse restrizioni. La Digital Single Market (DSM) Directive (2019) ha introdotto due eccezioni per il text and data mining (TDM):
- Articolo 3: gli istituti di ricerca e le organizzazioni per la tutela del patrimonio culturale possono svolgere TDM su contenuti a cui hanno accesso legittimo.
- Articolo 4: chiunque — incluse le aziende commerciali — può svolgere TDM, a meno che il titolare dei diritti non abbia esercitato un opt-out esplicito (ad esempio tramite robots.txt, ai.txt o header TDMRep).
L’EU AI Act (articolo 53) aggiunge obblighi per i fornitori di modelli di IA: devono rispettare i meccanismi di opt-out TDM e documentare le fonti dei dati usati per il training.
Un avvertimento però: queste eccezioni coprono copyright e diritti sui database, non il GDPR. Se il tuo TDM coinvolge dati personali, ti serve comunque una base giuridica separata ai sensi del GDPR.

La checklist decisionale "Posso fare scraping di questi dati?" per i dati europei
Questa è la sezione che avrei voluto trovare quando ho iniziato a studiare l’argomento. Ogni articolo legale dice "dipende" — ma com’è fatto, in pratica, l’albero decisionale? Ecco una checklist di conformità passo dopo passo con soglie chiare. Ogni passaggio porta a ✅ procedi, ⚠️ aggiungi misure di sicurezza, oppure 🛑 fermati.
Passo 1: I dati sono personali o non personali?
Dati non personali (prezzi dei prodotti, numeri SKU, indirizzi aziendali non collegati a individui): minore peso regolatorio. Devi comunque verificare la Database Directive e i ToS, ma il GDPR non si applica. ✅ Procedi al Passo 3.
Dati personali (nomi, email, numeri di telefono, foto, qualsiasi identificativo collegato a una persona): si applica il GDPR. ⚠️ Continua al Passo 2.
Passo 2: Quale base giuridica GDPR si applica?
- Consenso: quasi mai fattibile per lo scraping su larga scala. 🛑 A meno che tu non abbia uno scenario molto ristretto e specifico.
- Legittimo interesse (articolo 6(1)(f)): la base più comune. Ma richiede un test documentato in tre parti:
- Il tuo interesse è legittimo (un interesse commerciale può qualificarsi, secondo la ).
- Il trattamento è necessario per quell’interesse.
- Il bilanciamento: il tuo interesse non prevale sui diritti degli interessati, tenendo conto delle loro ragionevoli aspettative.
- Documenta il test di bilanciamento prima di fare scraping. Se non riesci a spiegare perché le persone i cui dati stai estraendo potrebbero ragionevolmente aspettarsi questo uso, è un campanello d’allarme. ⚠️ Procedi con un legittimo interesse documentato.
Passo 3: I ToS del sito limitano lo scraping?
- Accordo clickwrap che vieta lo scraping: 🛑 Rischio elevato. Valuta fonti dati alternative o l’accesso API ufficiale.
- Browsewrap o nessuna restrizione nei ToS: ⚠️ Rischio più basso, ma rispetta comunque robots.txt e i segnali tecnici di opposizione.
Passo 4: Si applica la Database Directive?
- Il target è un database con un investimento sostanziale nell’organizzazione dei dati?
- Il tuo scraping estrarrebbe una "parte sostanziale" di quel database?
- Se la risposta è sì a entrambe: ⚠️ Rischio di violazione del diritto sui generis. Limita l’ambito dell’estrazione.
Passo 5: Sei coperto da un’eccezione per ricerca o TDM?
- Istituto di ricerca registrato o organizzazione per il patrimonio culturale? Potrebbe applicarsi l’articolo 3 della DSM Directive. ✅
- TDM commerciale? Controlla i segnali di opt-out dell’articolo 4 (robots.txt, ai.txt, TDMRep). Se il sito ha esercitato opt-out, 🛑 fermati per quella fonte.
Passo 6: Hai applicato le misure di sicurezza raccomandate dalle autorità per la protezione dei dati?
Se hai superato i passaggi precedenti, l’ultimo step è implementare le misure raccomandate da CNIL, dall’autorità olandese e dall’EDPB. Le analizziamo in dettaglio nella sezione successiva. ✅ Procedi con le misure di sicurezza attive.

Misure di conformità raccomandate dalle autorità per la protezione dei dati: cosa consigliano CNIL, AP olandese ed EDPB
Non ho trovato un singolo articolo concorrente che riunisca le misure raccomandate dalle tre autorità europee più attive sul tema dello scraping. Così ho costruito questa tabella confrontando il , le e il .
| Misura di sicurezza | CNIL | AP olandese | Task Force EDPB | Suggerimenti di implementazione |
|---|---|---|---|---|
| Informativa di trasparenza art. 14 | ✅ Obbligatoria | ✅ Obbligatoria | ✅ Obbligatoria | Pubblica un’informativa con categorie di fonti, finalità, base giuridica, conservazione, canali per i diritti e contatto del DPO |
| DPIA prima dello scraping | ✅ Raccomandata (obbligatoria se ad alto rischio) | ✅ Obbligatoria | ✅ Obbligatoria | Documenta prima del lancio il test di bilanciamento, le categorie di dati, i rischi e le misure di mitigazione |
| Minimizzazione dei dati | ✅ Obbligatoria (definisci criteri di raccolta precisi) | ✅ Obbligatoria | ✅ Obbligatoria | Configura lo scraper per estrarre solo i campi necessari; elimina subito i dati irrilevanti |
| Rate limiting / rispetto di robots.txt | ✅ Obbligatorio (escludere i siti che si oppongono via robots.txt/CAPTCHA) | — | — | Analizza robots.txt, aggiungi ritardi tra le richieste, identifica il tuo user agent |
| Pseudonimizzazione / anonimizzazione | ⚠️ Raccomandata (subito dopo la raccolta) | ✅ Fortemente raccomandata | ✅ Raccomandata | Hash o randomizza gli ID; rimuovi gli URL del profilo; sfoca i volti quando l’identità non serve |
| Periodo di conservazione | ✅ Limite definito | ✅ Il più breve possibile | ✅ Limite definito | Automatizza i processi di cancellazione; separa la cache grezza dai dati estratti |
| Meccanismo di opt-out / blacklist | ✅ Raccomandato (obiezione preventiva discrezionale) | ✅ Obbligatorio (obiezione art. 21) | ✅ Obbligatorio | Fornisci un modulo di opt-out, una blacklist di domini, una soppressione a livello di persona |
| Escludere fonti sensibili | ✅ Obbligatorio (forum salute, siti per minori, siti pornografici, genealogia) | ✅ Obbligatorio | ✅ Obbligatorio | Mantieni blocklist predefinite per salute, religione, politica, biometria, minori |
Una nota pratica da parte nostra: la funzione di Thunderbit consente agli utenti di definire esattamente quali colonne estrarre — prezzo, SKU, nome del prodotto — così lo scraper raccoglie solo ciò che serve. Non stai scaricando in blocco l’intera pagina; stai selezionando campi strutturati coerenti con i principi di limitazione della finalità e minimizzazione dei dati. Detto questo, nessuno strumento rende legale uno scraping non conforme. L’analisi legale viene sempre prima.

Il web scraping è legale in Europa per il tuo caso d’uso? Guida per settore
La domanda che vedo più spesso nei forum non è "lo scraping è legale?" — è "il mio scraping è legale?" La teoria astratta del GDPR non basta a rispondere. Ecco quindi una panoramica per i casi d’uso aziendali più comuni.
| Caso d’uso | Tipo di dati | Rischi legali principali | Esito probabile |
|---|---|---|---|
| Monitoraggio prezzi ecommerce (annunci pubblici di prodotti) | Non personali (prezzi, SKU, nomi prodotto) | Diritto sui generis della Database Directive; violazione ToS | In genere rischio più basso se non ci sono dati personali e non c’è estrazione sistematica di una "parte sostanziale" del database |
| Lead generation B2B (dati di contatto da directory) | Personali (nomi, email, numeri di telefono) | Base giuridica GDPR art. 6; notifica art. 14; ePrivacy per i contatti elettronici | Rischio più alto — richiede test documentato di legittimo interesse e obbligo di notifica |
| Annunci immobiliari (dati immobiliari dai portali) | Misti (gli indirizzi possono essere non personali; i nomi dei proprietari sono personali) | Database Directive; ToS; GDPR se collegati al proprietario | Rischio medio — anonimizza i dati del proprietario, controlla i ToS, rispetta robots.txt |
| Dati di training per IA (scraping di contenuti web su larga scala) | Potenzialmente personali se non filtrati | GDPR + obblighi TDM dell’EU AI Act art. 53 | Rischio alto — devi rispettare sia GDPR sia AI Act; servono meccanismi di opt-out e un filtraggio robusto |
Per scenari a rischio più basso, come i dati ecommerce pubblici, strumenti con template strutturati — come i — riducono l’esposizione perché estraggono campi specifici e non personali senza raccogliere contenuti superflui. Per scenari a rischio più alto che coinvolgono dati personali (la lead generation, per esempio), l’analisi legale deve venire prima. Nessuno scraper, per quanto intelligente, trasforma una raccolta non conforme in una raccolta conforme.

UE vs USA vs Regno Unito: confronto tra le leggi sul web scraping
Se la tua azienda opera oltre confine, devi capire come cambiano le regole. Non ho trovato un solo articolo concorrente che presenti questo confronto in una tabella chiara e immediata, quindi eccolo qui.
| Dimensione | UE | USA | Regno Unito (post-Brexit) |
|---|---|---|---|
| Legge principale | GDPR + Database Directive + ePrivacy | CFAA + leggi statali (privacy federale limitata) | UK GDPR + Data Protection Act 2018 |
| Scraping di dati pubblici | Richiede comunque una base giuridica GDPR se i dati sono personali | Generalmente legale secondo hiQ v. LinkedIn (dati pubblici) | Simile all’UE; si applicano le linee guida dell’ICO |
| Applicazione dei ToS | Questione civile; Ryanair v. PR Aviation ha fatto valere il diritto sui generis | Van Buren ha ristretto il CFAA; violare i ToS non equivale a reato | Questione civile, simile all’UE |
| Tutela dei database | Diritto sui generis (forte) | Nessun diritto federale equivalente | Diritto sui generis mantenuto |
| Eccezione IA/TDM | DSM Directive art. 3–4; AI Act art. 53 | Nessuna eccezione federale specifica per TDM (dottrina fair use) | Il Regno Unito sta valutando un’eccezione TDM (bloccata al 2026) |
| Autorità principale | Autorità nazionali per la protezione dei dati (CNIL, AP olandese, ecc.) | FTC + attorney general statali | ICO |
| Tendenza recente | Più severa (AP olandese: "quasi sempre illegale" per i dati personali) | Più permissiva dopo hiQ | Moderata; in generale segue la direzione dell’UE |
Se stai estraendo siti europei o dati relativi a residenti europei, si applicano le regole UE — anche se la tua azienda ha sede negli USA o nel Regno Unito.
Sanzioni e casi reali: cosa succede davvero se vieni scoperto (2022–2026)
Questa è la sezione che risponde alla domanda nascosta: "Qual è il rischio reale?" Ho raccolto tutte le azioni pubbliche di enforcement delle autorità per la protezione dei dati relative al web scraping o ai dati personali estratti dal 2022 fino ad aprile 2026.
| Anno | Autorità | Soggetto | Violazione | Multa/Esito |
|---|---|---|---|---|
| 2022 | Garante italiano | Clearview AI | Scraping di immagini facciali senza base giuridica | Multa da 20 milioni di € + divieto + ordine di cancellazione |
| 2022 | Autorità ellenica per la protezione dei dati (Grecia) | Clearview AI | Stessa violazione — scraping per riconoscimento facciale | Multa da 20 milioni di € + divieto + cancellazione |
| 2022 | CNIL (Francia) | Clearview AI | Database di riconoscimento facciale | Multa da 20 milioni di € + possibile penalità di 100.000 €/giorno |
| 2023 | CNIL (Francia) | Clearview AI | Non conformità all’ordine del 2022 | Penalità di 5,2 milioni di € |
| 2023 | DSB austriaca | Clearview AI | Oltre 30 miliardi di immagini facciali dal web pubblico | Cancellazione + ordine di nominare un rappresentante nell’UE (nessuna multa pubblicata) |
| 2024 | AP olandese | Clearview AI | Raccolta illegale di dati per riconoscimento facciale | Multa da 30,5 milioni di € + ordini di conformità |
| 2024 | CNIL (Francia) | KASPR | Scraping di contatti LinkedIn per lead generation | Multa da 240.000 € — 160 milioni di contatti, dati con visibilità limitata, conservazione di 5 anni |
| 2024 | DPC irlandese | X / Grok | Post pubblici usati per il training dell’IA | Accordo di sospensione; indagine statutaria avviata nel 2025 |
| 2024 | DPC irlandese | Meta | Training pianificato di LLM su contenuti pubblici Facebook/Instagram | Meta ha sospeso i piani di training IA nell’UE |
| 2024 | Garante italiano | OpenAI | Dati di training di ChatGPT e trasparenza | Multa da 15 milioni di € emessa, annullata dal tribunale di Roma nel marzo 2026 |
L’ammontare totale delle sanzioni monetarie UE/SEE nella categoria scraping/open web: oltre 95 milioni di € (escludendo la multa annullata a OpenAI).
Tutte queste grandi sanzioni hanno colpito lo scraping massivo di dati biometrici o personali senza alcuna base giuridica. Clearview ha estratto miliardi di immagini facciali. KASPR ha estratto 160 milioni di contatti, inclusi dati da profili LinkedIn con visibilità limitata, e li ha conservati per cinque anni.
Lo scraping proporzionato e mirato di dati pubblici non personali — come prezzi dei prodotti o numeri SKU — non è stato oggetto di azioni di enforcement. Questo non lo rende privo di rischio, ma aiuta a mettere i numeri nel giusto contesto.
Come fare scraping di siti europei in sicurezza: guida passo dopo passo
- Difficoltà: Principiante
- Tempo richiesto: ~15 minuti (inclusa la revisione di conformità)
- Cosa ti serve: browser Chrome, (il piano gratuito funziona), un URL target e una rapida revisione della checklist sopra
Passo 1: definisci il tuo obiettivo e i dati di cui hai bisogno
Prima di aprire qualsiasi strumento, scrivi perché ti servono i dati e quali campi ti servono esattamente. Non è solo una buona pratica — è la base dei principi GDPR di limitazione della finalità e minimizzazione dei dati.
Per esempio: "Mi servono nomi prodotto, prezzi e stato delle scorte da 50 pagine prodotto Amazon per aggiornare il nostro foglio di pricing competitivo." Questo è specifico. Confrontalo con: "Voglio estrarre tutto da Amazon." Il primo supera il test di minimizzazione; il secondo no.
Passo 2: esegui la checklist di conformità
Segui la checklist in sei passaggi "Posso fare scraping di questi dati?" riportata sopra. Se un passaggio restituisce 🛑, fermati e consulta un legale prima di procedere.
Applicando il nostro esempio di pricing Amazon alle varie soglie: i dati sono non personali (prezzi, SKU, nomi prodotto) ✅, non c’è un problema GDPR sui dati personali ✅, i ToS di Amazon vanno esaminati (lo scraping è limitato, quindi valuta le API ufficiali dei dati prodotto, se disponibili) ⚠️, e il rischio della Database Directive è basso per 50 prodotti ✅.
Passo 3: scegli l’approccio di scraping giusto
| Metodo | Facilità d’uso | Supporto alla conformità | Manutenzione | Accuratezza |
|---|---|---|---|---|
| Copia-incolla manuale | Bassa | N/A (controlli tu cosa copi) | Alta (richiede tempo) | Soggetto a errori |
| Scraper basato su codice (Python, Scrapy) | Bassa (richiede programmazione) | Nessuno integrato | Alta (si rompe quando i siti cambiano) | Alta se mantenuto |
| Thunderbit (con IA) | Molto alta | Minimizzazione integrata a livello di campo | Bassa (l’IA si adatta ai cambiamenti della pagina) | Alta |
| API ufficiale | Media | Massima (accesso strutturato e autorizzato) | Bassa | Massima |
Per gli utenti business senza un team di sviluppo, è la strada più veloce. Per i siti con API ufficiali (come l’Amazon Product Advertising API), l’API è sempre la scelta più sicura — ma spesso ha limiti sul volume dei dati e sui campi disponibili.
Passo 4: configura lo scraper in modo conforme
In Thunderbit:
- Vai alla pagina target (per esempio una pagina di listing prodotti Amazon).
- Clicca l’icona di Thunderbit nella barra degli strumenti di Chrome e seleziona "AI Suggest Fields". L’IA analizza la pagina e suggerisce colonne come "Nome prodotto", "Prezzo", "Valutazione" e "Stato delle scorte".
- Rimuovi tutti i campi che non ti servono. Se l’IA suggerisce "Nome venditore" o "Email venditore" e ti servono solo i dati di prezzo, elimina quelle colonne. Questo è il principio di minimizzazione dei dati applicato nella pratica.
- Usa il Field AI Prompt per aggiungere istruzioni come "escludi identificativi personali" o "estrai solo dati di prezzo pubblici".
- Scegli Cloud Scraping per i siti ecommerce pubblici (più veloce, nessun login necessario) oppure Browser Scraping per i siti che richiedono autenticazione.
- Prima di cliccare "Scrape", verifica che robots.txt non vieti lo scraping per il tuo caso d’uso. Puoi controllarlo visitando
[dominio]/robots.txtnel browser.
A questo punto dovresti vedere un’anteprima della tabella con solo i campi che hai configurato — nessun dato personale superfluo, nessun metadato inutile.
Passo 5: esporta, archivia e gestisci i dati in modo responsabile
Dopo lo scraping, esporta i dati in — Thunderbit supporta tutto questo con esportazione gratuita.
Poi:
- Imposta un periodo di conservazione. Non conservare i dati estratti per sempre. Se fai monitoraggio settimanale dei prezzi, probabilmente i dati grezzi del mese scorso non servono più.
- Se sono stati raccolti dati personali (per esempio per lead generation), documenta la tua base giuridica, pubblica un’informativa di trasparenza ai sensi dell’articolo 14 e imposta un processo per gestire opt-out e richieste di cancellazione.
- Automatizza le cancellazioni quando possibile. Lo di Thunderbit può automatizzare scraping ricorrenti a intervalli stabiliti mantenendo la stessa configurazione a livello di campo, così ogni esecuzione resta entro i tuoi parametri di conformità.
Consigli per restare conformi mentre fai scraping in Europa
Alcune pratiche che ho imparato studiando questo tema e parlando con team attenti alla conformità:
- Controlla sempre i ToS prima di fare scraping su un nuovo sito. Richiede due minuti e può evitarti mesi di problemi legali.
- Usa le API quando disponibili. Sono strutturate, autorizzate e rappresentano la scelta più sicura. Lo scraping dovrebbe essere il ripiego, non l’opzione predefinita.
- Fai una DPIA per qualsiasi progetto che coinvolga dati personali su larga scala. CNIL afferma che i dataset di training per l’IA possono creare rischi elevati, e la DPIA è la prova della tua accountability. Anche per progetti più piccoli, documentare l’analisi è una scelta intelligente.
- Tieni un registro dello scraping. Registra cosa è stato estratto, quando, da dove, qual è la tua base giuridica e il periodo di conservazione. Se un’autorità per la protezione dei dati ti fa domande, sarai felice di averlo.
- Monitora gli aggiornamenti normativi. Le linee guida delle autorità evolvono rapidamente — CNIL ha pubblicato nuovi fogli di lavoro sullo scraping per l’IA nel gennaio 2026 e l’EDPB dovrebbe emettere ulteriori pareri. Le regole di oggi potrebbero diventare più severe domani.
- Non estrarre da fonti riservate o sensibili. La di CNIL include forum di salute, siti usati soprattutto da minori, siti pornografici, siti genealogici e siti di dati personali altamente strutturati. Se stai costruendo un progetto di scraping, mantieni una blocklist predefinita.
- Il traffico automatizzato conta molto dal punto di vista operativo. che i bot rappresentavano il 42% del traffico web complessivo nel 2024 e che il traffico automatizzato dei bot ha superato quello umano per la prima volta, arrivando al 51% nel 2024. I regolatori considerano sempre più il comportamento dei bot, la frequenza e i tentativi di elusione come indizi di rischio e scorrettezza. Comportarsi da scraper responsabile — identificare il proprio user agent, limitare la frequenza, rispettare i segnali di opposizione — non è solo cortesia; ha rilevanza legale.
Conclusione
Il web scraping non è illegale in Europa. Ma è regolamentato — soprattutto quando sono coinvolti dati personali.
L’esito legale dipende da cosa estrai (personali vs non personali), come lo estrai (ToS, robots.txt, rate limiting, minimizzazione a livello di campo) e perché (finalità e base giuridica documentate). Il quadro di enforcement è chiaro: lo scraping di massa e indiscriminato di dati personali senza alcuna base giuridica è il tipo di attività che espone le aziende a multe a sette e otto cifre. Lo scraping proporzionato e mirato di dati pubblici non personali — con misure di sicurezza adeguate — rientra in una categoria di rischio molto diversa.
Il framework pratico:
- Usa la checklist decisionale prima di ogni progetto di scraping.
- Applica le misure raccomandate dalle autorità per la protezione dei dati (trasparenza, minimizzazione, limiti di conservazione, meccanismi di opt-out).
- Scegli strumenti che supportano la conformità by design. La selezione dei campi con IA di Thunderbit, l’estrazione strutturata e l’ rendono semplice estrarre solo i dati che ti servono — né più né meno.
- Documenta tutto. Test di bilanciamento, elenco delle fonti, piano di conservazione, DPIA. Se un regolatore chiede spiegazioni, il tuo dossier è la tua difesa.
Dichiarazione di rito: questo articolo è informativo, non consulenza legale. Per scenari ad alto rischio che coinvolgono dati personali su larga scala, consulta un avvocato specializzato in privacy. Le normative cambiano e sbagliare ha costi reali.
Vuoi provare tu stesso uno scraping web conforme e mirato? Il ti permette di sperimentare l’estrazione strutturata su piccola scala — definisci i campi, estrai solo ciò che ti serve ed esporta in pochi clic. Puoi anche esplorare il nostro per tutorial passo dopo passo.
FAQ
1. Il web scraping è legale in Europa se i dati sono disponibili pubblicamente?
La disponibilità pubblica non esenta i dati dal GDPR se contengono informazioni personali. Come ha affermato l’autorità olandese, "pubblico non significa automaticamente permesso per lo scraping". I dati pubblici non personali (prezzi dei prodotti, SKU) in genere sono meno rischiosi, ma devi comunque controllare la Database Directive e i Termini di servizio del sito.
2. Posso estrarre email e numeri di telefono dai siti europei?
Email e numeri di telefono sono dati personali ai sensi del GDPR. Ti serve una base giuridica — in genere il legittimo interesse con un test di bilanciamento documentato — e devi informare gli interessati ai sensi dell’articolo 14. CNIL ha multato KASPR di 240.000 € nel 2024 per aver estratto dati di contatto da LinkedIn senza adeguata trasparenza o base giuridica, quindi è un’area in cui l’enforcement è attivo.
3. Qual è la multa più alta per web scraping illegale in Europa?
Nel 2024 l’autorità olandese ha multato Clearview AI per la raccolta illegale di dati di riconoscimento facciale dal web pubblico. Anche diverse altre autorità UE hanno multato Clearview per 20 milioni di € ciascuna. Il totale delle sanzioni UE/SEE legate allo scraping dal 2022 al 2026 supera i 95 milioni di €.
4. Rispettare robots.txt rende legale il web scraping in Europa?
Rispettare robots.txt è una best practice e si allinea con le , ma da solo non garantisce la liceità. Devi comunque rispettare il GDPR (se sono coinvolti dati personali), la Database Directive e i Termini di servizio del sito. Considera la conformità a robots.txt come uno dei livelli di un framework di conformità multilivello.
5. In cosa differisce la legge sul web scraping in Europa rispetto agli USA?
L’UE è molto più severa. Il GDPR si applica a qualsiasi dato personale — anche se disponibile pubblicamente — e la Database Directive offre una forte protezione ai dataset organizzati. Gli USA non hanno un equivalente federale di queste due leggi; dopo hiQ v. LinkedIn, l’estrazione di dati pubblici è generalmente consentita negli Stati Uniti. Il Regno Unito post-Brexit si colloca in una posizione intermedia, con UK GDPR e diritti sui database mantenuti che in gran parte rispecchiano le regole UE, ma con enforcement dell’ICO. Per le aziende che operano oltre confine, le regole dell’UE fissano la soglia più alta — e se estrai dati di residenti UE, quelle regole si applicano indipendentemente da dove abbia sede la tua azienda.
Scopri di più
