Il web scraping è legale in Europa? Come fare scraping e restare al sicuro

Il 1° maggio 2024, l’Autorità olandese per la protezione dei dati ha pubblicato un titolo che ha scosso ogni team dati in Europa: “lo scraping è quasi sempre illegale.” Se lavori nelle vendite, nell’ecommerce o nel real estate — insomma, se ti basi sui dati web — quella frase ti avrà probabilmente fatto gelare il sangue.

Lo capisco. In Thunderbit, parliamo ogni giorno con team aziendali che hanno bisogno di dati web per monitorare i prezzi, generare lead e fare ricerche di mercato. La frustrazione è sempre la stessa: cercano su Google "is web scraping legal in Europe" e ogni risposta finisce per essere una variante di "dipende". Non è proprio l’ideale quando hai una scadenza e una lista di URL da estrarre.

Così ho passato settimane a scavare tra normative, linee guida delle autorità per la protezione dei dati, casi di enforcement e giurisprudenza per costruire qualcosa di più utile: una checklist pratica per prendere decisioni, una tabella riassuntiva delle misure di sicurezza, importi reali delle sanzioni e una guida passo dopo passo per fare scraping di siti europei senza finire sotto la lente di un regolatore. Che tu stia estraendo i prezzi dei prodotti Amazon o i contatti B2B da una directory, questo articolo ti aiuterà a capire dove sono i confini — e come restare dalla parte giusta.

Cos’è il Web Scraping (e perché alle aziende europee dovrebbe importare)?

Il web scraping è l’estrazione automatica di dati dai siti web in un formato strutturato — un foglio di calcolo, un database, un CRM. Invece di copiare e incollare nomi e prezzi dei prodotti da 200 pagine, uno scraper visita ogni pagina e recupera i campi necessari in colonne ordinate.

Perché dovrebbe interessare ai team non tecnici? Perché i dati web alimentano decisioni aziendali concrete. I team commerciali estraggono lead dalle directory. I responsabili ecommerce monitorano ogni giorno i prezzi dei concorrenti. Gli analisti immobiliari seguono l’andamento degli annunci sui portali. I ricercatori di mercato raccolgono recensioni e valutazioni pubbliche su larga scala. Il mercato globale del web scraping sta crescendo rapidamente e le aziende estraggono milioni di punti dati ogni giorno.

Ma il quadro normativo europeo è diverso da quello statunitense. GDPR, Database Directive e linee guida in continua evoluzione delle autorità per la protezione dei dati significano che "disponibile pubblicamente" non equivale a "liberamente utilizzabile". Come ha detto il presidente dell’autorità olandese Aleid Wolfsen: "pubblico non significa automaticamente permesso per lo scraping". Capire le regole prima di iniziare non è opzionale — fa la differenza tra un dataset pulito e una multa a sei cifre.

Prova Thunderbit per uno scraping web conforme

Il web scraping è legale in Europa? La risposta breve

Il web scraping non è intrinsecamente illegale in Europa. Ma la sua liceità dipende da tre fattori: quali dati estrai, come li estrai e perché.

Nell’UE si sovrappongono tre livelli normativi che disciplinano lo scraping:

GDPR — si applica ogni volta che estrai dati personali (nomi, email, numeri di telefono, indirizzi IP, persino identificativi pseudonimizzati).
La EU Database Directive — protegge i database in cui il creatore ha fatto un "investimento sostanziale" nell’organizzazione dei dati.
Diritto contrattuale / Termini di servizio — molti siti vietano esplicitamente lo scraping nei propri ToS, e i tribunali dell’UE hanno fatto valere questi termini.

Il punto chiave è questo: "pubblico" non significa "non regolamentato". Anche i dati non personali possono essere protetti dal diritto sui database o dal diritto contrattuale. Ogni progetto di scraping va valutato tenendo insieme tutti e tre i livelli.

Le principali leggi UE che regolano il web scraping

GDPR: quando estrai dati personali

Qualsiasi dato collegato a una persona identificabile fa scattare gli obblighi del GDPR. Questo include nomi, indirizzi email, numeri di telefono, indirizzi IP, foto e persino dati pseudonimizzati che possono essere re-identificati. Nel momento in cui estrai dati personali, diventi un "titolare del trattamento" con obblighi ai sensi del GDPR:

Base giuridica (articolo 6): ti serve una ragione legale per trattare i dati. Il consenso è quasi mai praticabile per lo scraping su larga scala — non puoi chiedere a milioni di persone il permesso prima di raccogliere le informazioni che hanno pubblicato. La base giuridica più citata è il legittimo interesse (articolo 6(1)(f)), ma richiede un test documentato in tre parti: (1) il tuo interesse è legittimo, (2) il trattamento è necessario, e (3) non incide in modo sproporzionato sui diritti degli interessati, tenendo conto delle loro ragionevoli aspettative.
Trasparenza (articolo 14): visto che non raccogli i dati direttamente dalla persona, devi informarla — in genere entro un mese — su cosa hai raccolto, perché e come può esercitare i propri diritti. Se la notifica individuale è sproporzionata, devi pubblicare un’informativa generale con tutti i contenuti richiesti dall’articolo 14.
Minimizzazione dei dati: raccogli solo ciò che ti serve davvero. Se vuoi i prezzi dei prodotti, non prendere anche gli indirizzi email dei venditori.
Limiti di conservazione e gestione dei diritti: imposta periodi di conservazione, rispetta le richieste di cancellazione e fornisci l’accesso alle informazioni di origine.

Il report del ChatGPT Task Force dell’EDPB (adottato nel maggio 2024) ha aggiunto un ulteriore livello: ha affermato che le diverse fasi del trattamento — raccolta, pre-elaborazione, training, prompt e output — richiedono ciascuna una propria analisi della base giuridica. L’EDPB non ha respinto il legittimo interesse per il web scraping, ma ha insistito su una valutazione completa in tre parti con adeguate misure di sicurezza.

La EU Database Directive: proteggere il modo in cui i dati sono organizzati

La Database Directive riconosce un diritto sui generis ai creatori di database che hanno effettuato un "investimento sostanziale" nell’ottenere, verificare o presentare i dati. Se il tuo scraping estrae una "parte sostanziale" di un database di questo tipo, potresti violare quel diritto.

In pratica, la soglia è relativamente alta. Estrarre qualche centinaio di prezzi da un grande retailer difficilmente rientra nella fattispecie. Ma scaricare in blocco l’intero catalogo di un concorrente — decine di migliaia di annunci — potrebbe oltrepassare il limite, soprattutto se mette a rischio la capacità del creatore di recuperare l’investimento. La Corte di giustizia dell’UE si è pronunciata più volte su questa soglia, e la domanda chiave è sempre la proporzionalità.

Per la maggior parte dello scraping business — estrarre campi specifici dalle pagine prodotto, confrontare gli annunci in una categoria — la Database Directive rappresenta un rischio più basso. Ma il rischio non è nullo, e vale la pena tenerlo presente quando definisci l’ambito dello scraping.

Termini di servizio: la variabile impazzita del diritto contrattuale

Qui molte persone inciampano. Molti siti vietano lo scraping nei loro Termini di servizio. In Europa, la violazione dei ToS è una questione civile (non penale), ma può comunque portare a ingiunzioni, cause contrattuali e a un’esposizione finanziaria concreta.

Due formule da conoscere: browsewrap (termini passivi, spesso un link nascosto in fondo alla pagina) è più difficile da far valere, perché l’utente non li ha mai accettati attivamente. Clickwrap (quando selezioni una casella o clicchi "Accetto") è molto più difendibile.

Il caso UE di riferimento è Ryanair v. PR Aviation: il tribunale ha fatto valere i ToS di Ryanair contro uno scraper anche se il diritto sui database non si applicava, perché lo scraper aveva accettato i termini. Quindi: controlla sempre i ToS di un sito prima di fare scraping. Se si tratta di un accordo clickwrap che vieta esplicitamente lo scraping, procedi con cautela — oppure cerca un accesso API.

La DSM Directive e l’AI Act: eccezioni per ricerca e text/data mining

Non tutto lo scraping attiva le stesse restrizioni. La Digital Single Market (DSM) Directive (2019) ha introdotto due eccezioni per il text and data mining (TDM):

Articolo 3: gli istituti di ricerca e le organizzazioni per la tutela del patrimonio culturale possono svolgere TDM su contenuti a cui hanno accesso legittimo.
Articolo 4: chiunque — incluse le aziende commerciali — può svolgere TDM, a meno che il titolare dei diritti non abbia esercitato un opt-out esplicito (ad esempio tramite robots.txt, ai.txt o header TDMRep).

L’EU AI Act (articolo 53) aggiunge obblighi per i fornitori di modelli di IA: devono rispettare i meccanismi di opt-out TDM e documentare le fonti dei dati usati per il training.

Un avvertimento però: queste eccezioni coprono copyright e diritti sui database, non il GDPR. Se il tuo TDM coinvolge dati personali, ti serve comunque una base giuridica separata ai sensi del GDPR.

La checklist decisionale "Posso fare scraping di questi dati?" per i dati europei

Questa è la sezione che avrei voluto trovare quando ho iniziato a studiare l’argomento. Ogni articolo legale dice "dipende" — ma com’è fatto, in pratica, l’albero decisionale? Ecco una checklist di conformità passo dopo passo con soglie chiare. Ogni passaggio porta a ✅ procedi, ⚠️ aggiungi misure di sicurezza, oppure 🛑 fermati.

Passo 1: I dati sono personali o non personali?

Dati non personali (prezzi dei prodotti, numeri SKU, indirizzi aziendali non collegati a individui): minore peso regolatorio. Devi comunque verificare la Database Directive e i ToS, ma il GDPR non si applica. ✅ Procedi al Passo 3.

Dati personali (nomi, email, numeri di telefono, foto, qualsiasi identificativo collegato a una persona): si applica il GDPR. ⚠️ Continua al Passo 2.

Passo 2: Quale base giuridica GDPR si applica?

Consenso: quasi mai fattibile per lo scraping su larga scala. 🛑 A meno che tu non abbia uno scenario molto ristretto e specifico.
Legittimo interesse (articolo 6(1)(f)): la base più comune. Ma richiede un test documentato in tre parti:
1. Il tuo interesse è legittimo (un interesse commerciale può qualificarsi, secondo la sentenza C-621/22 della CGUE del 2024).
2. Il trattamento è necessario per quell’interesse.
3. Il bilanciamento: il tuo interesse non prevale sui diritti degli interessati, tenendo conto delle loro ragionevoli aspettative.
Documenta il test di bilanciamento prima di fare scraping. Se non riesci a spiegare perché le persone i cui dati stai estraendo potrebbero ragionevolmente aspettarsi questo uso, è un campanello d’allarme. ⚠️ Procedi con un legittimo interesse documentato.

Passo 3: I ToS del sito limitano lo scraping?

Accordo clickwrap che vieta lo scraping: 🛑 Rischio elevato. Valuta fonti dati alternative o l’accesso API ufficiale.
Browsewrap o nessuna restrizione nei ToS: ⚠️ Rischio più basso, ma rispetta comunque robots.txt e i segnali tecnici di opposizione.

Passo 4: Si applica la Database Directive?

Il target è un database con un investimento sostanziale nell’organizzazione dei dati?
Il tuo scraping estrarrebbe una "parte sostanziale" di quel database?
Se la risposta è sì a entrambe: ⚠️ Rischio di violazione del diritto sui generis. Limita l’ambito dell’estrazione.

Passo 5: Sei coperto da un’eccezione per ricerca o TDM?

Istituto di ricerca registrato o organizzazione per il patrimonio culturale? Potrebbe applicarsi l’articolo 3 della DSM Directive. ✅
TDM commerciale? Controlla i segnali di opt-out dell’articolo 4 (robots.txt, ai.txt, TDMRep). Se il sito ha esercitato opt-out, 🛑 fermati per quella fonte.

Passo 6: Hai applicato le misure di sicurezza raccomandate dalle autorità per la protezione dei dati?

Se hai superato i passaggi precedenti, l’ultimo step è implementare le misure raccomandate da CNIL, dall’autorità olandese e dall’EDPB. Le analizziamo in dettaglio nella sezione successiva. ✅ Procedi con le misure di sicurezza attive.

Misure di conformità raccomandate dalle autorità per la protezione dei dati: cosa consigliano CNIL, AP olandese ed EDPB

Non ho trovato un singolo articolo concorrente che riunisca le misure raccomandate dalle tre autorità europee più attive sul tema dello scraping. Così ho costruito questa tabella confrontando il focus sheet CNIL sul web scraping, le linee guida dell’AP olandese e il report del ChatGPT Task Force dell’EDPB.

Misura di sicurezza	CNIL	AP olandese	Task Force EDPB	Suggerimenti di implementazione
Informativa di trasparenza art. 14	✅ Obbligatoria	✅ Obbligatoria	✅ Obbligatoria	Pubblica un’informativa con categorie di fonti, finalità, base giuridica, conservazione, canali per i diritti e contatto del DPO
DPIA prima dello scraping	✅ Raccomandata (obbligatoria se ad alto rischio)	✅ Obbligatoria	✅ Obbligatoria	Documenta prima del lancio il test di bilanciamento, le categorie di dati, i rischi e le misure di mitigazione
Minimizzazione dei dati	✅ Obbligatoria (definisci criteri di raccolta precisi)	✅ Obbligatoria	✅ Obbligatoria	Configura lo scraper per estrarre solo i campi necessari; elimina subito i dati irrilevanti
Rate limiting / rispetto di robots.txt	✅ Obbligatorio (escludere i siti che si oppongono via robots.txt/CAPTCHA)	—	—	Analizza robots.txt, aggiungi ritardi tra le richieste, identifica il tuo user agent
Pseudonimizzazione / anonimizzazione	⚠️ Raccomandata (subito dopo la raccolta)	✅ Fortemente raccomandata	✅ Raccomandata	Hash o randomizza gli ID; rimuovi gli URL del profilo; sfoca i volti quando l’identità non serve
Periodo di conservazione	✅ Limite definito	✅ Il più breve possibile	✅ Limite definito	Automatizza i processi di cancellazione; separa la cache grezza dai dati estratti
Meccanismo di opt-out / blacklist	✅ Raccomandato (obiezione preventiva discrezionale)	✅ Obbligatorio (obiezione art. 21)	✅ Obbligatorio	Fornisci un modulo di opt-out, una blacklist di domini, una soppressione a livello di persona
Escludere fonti sensibili	✅ Obbligatorio (forum salute, siti per minori, siti pornografici, genealogia)	✅ Obbligatorio	✅ Obbligatorio	Mantieni blocklist predefinite per salute, religione, politica, biometria, minori

Una nota pratica da parte nostra: la funzione “AI Suggest Fields” di Thunderbit consente agli utenti di definire esattamente quali colonne estrarre — prezzo, SKU, nome del prodotto — così lo scraper raccoglie solo ciò che serve. Non stai scaricando in blocco l’intera pagina; stai selezionando campi strutturati coerenti con i principi di limitazione della finalità e minimizzazione dei dati. Detto questo, nessuno strumento rende legale uno scraping non conforme. L’analisi legale viene sempre prima.

Il web scraping è legale in Europa per il tuo caso d’uso? Guida per settore

La domanda che vedo più spesso nei forum non è "lo scraping è legale?" — è "il mio scraping è legale?" La teoria astratta del GDPR non basta a rispondere. Ecco quindi una panoramica per i casi d’uso aziendali più comuni.

Caso d’uso	Tipo di dati	Rischi legali principali	Esito probabile
Monitoraggio prezzi ecommerce (annunci pubblici di prodotti)	Non personali (prezzi, SKU, nomi prodotto)	Diritto sui generis della Database Directive; violazione ToS	In genere rischio più basso se non ci sono dati personali e non c’è estrazione sistematica di una "parte sostanziale" del database
Lead generation B2B (dati di contatto da directory)	Personali (nomi, email, numeri di telefono)	Base giuridica GDPR art. 6; notifica art. 14; ePrivacy per i contatti elettronici	Rischio più alto — richiede test documentato di legittimo interesse e obbligo di notifica
Annunci immobiliari (dati immobiliari dai portali)	Misti (gli indirizzi possono essere non personali; i nomi dei proprietari sono personali)	Database Directive; ToS; GDPR se collegati al proprietario	Rischio medio — anonimizza i dati del proprietario, controlla i ToS, rispetta robots.txt
Dati di training per IA (scraping di contenuti web su larga scala)	Potenzialmente personali se non filtrati	GDPR + obblighi TDM dell’EU AI Act art. 53	Rischio alto — devi rispettare sia GDPR sia AI Act; servono meccanismi di opt-out e un filtraggio robusto

Per scenari a rischio più basso, come i dati ecommerce pubblici, strumenti con template strutturati — come i template istantanei di Thunderbit per Amazon e Shopify — riducono l’esposizione perché estraggono campi specifici e non personali senza raccogliere contenuti superflui. Per scenari a rischio più alto che coinvolgono dati personali (la lead generation, per esempio), l’analisi legale deve venire prima. Nessuno scraper, per quanto intelligente, trasforma una raccolta non conforme in una raccolta conforme.

UE vs USA vs Regno Unito: confronto tra le leggi sul web scraping

Se la tua azienda opera oltre confine, devi capire come cambiano le regole. Non ho trovato un solo articolo concorrente che presenti questo confronto in una tabella chiara e immediata, quindi eccolo qui.

Dimensione	UE	USA	Regno Unito (post-Brexit)
Legge principale	GDPR + Database Directive + ePrivacy	CFAA + leggi statali (privacy federale limitata)	UK GDPR + Data Protection Act 2018
Scraping di dati pubblici	Richiede comunque una base giuridica GDPR se i dati sono personali	Generalmente legale secondo hiQ v. LinkedIn (dati pubblici)	Simile all’UE; si applicano le linee guida dell’ICO
Applicazione dei ToS	Questione civile; Ryanair v. PR Aviation ha fatto valere il diritto sui generis	Van Buren ha ristretto il CFAA; violare i ToS non equivale a reato	Questione civile, simile all’UE
Tutela dei database	Diritto sui generis (forte)	Nessun diritto federale equivalente	Diritto sui generis mantenuto
Eccezione IA/TDM	DSM Directive art. 3–4; AI Act art. 53	Nessuna eccezione federale specifica per TDM (dottrina fair use)	Il Regno Unito sta valutando un’eccezione TDM (bloccata al 2026)
Autorità principale	Autorità nazionali per la protezione dei dati (CNIL, AP olandese, ecc.)	FTC + attorney general statali	ICO
Tendenza recente	Più severa (AP olandese: "quasi sempre illegale" per i dati personali)	Più permissiva dopo hiQ	Moderata; in generale segue la direzione dell’UE

Se stai estraendo siti europei o dati relativi a residenti europei, si applicano le regole UE — anche se la tua azienda ha sede negli USA o nel Regno Unito.

Sanzioni e casi reali: cosa succede davvero se vieni scoperto (2022–2026)

Questa è la sezione che risponde alla domanda nascosta: "Qual è il rischio reale?" Ho raccolto tutte le azioni pubbliche di enforcement delle autorità per la protezione dei dati relative al web scraping o ai dati personali estratti dal 2022 fino ad aprile 2026.

Anno	Autorità	Soggetto	Violazione	Multa/Esito
2022	Garante italiano	Clearview AI	Scraping di immagini facciali senza base giuridica	Multa da 20 milioni di € + divieto + ordine di cancellazione
2022	Autorità ellenica per la protezione dei dati (Grecia)	Clearview AI	Stessa violazione — scraping per riconoscimento facciale	Multa da 20 milioni di € + divieto + cancellazione
2022	CNIL (Francia)	Clearview AI	Database di riconoscimento facciale	Multa da 20 milioni di € + possibile penalità di 100.000 €/giorno
2023	CNIL (Francia)	Clearview AI	Non conformità all’ordine del 2022	Penalità di 5,2 milioni di €
2023	DSB austriaca	Clearview AI	Oltre 30 miliardi di immagini facciali dal web pubblico	Cancellazione + ordine di nominare un rappresentante nell’UE (nessuna multa pubblicata)
2024	AP olandese	Clearview AI	Raccolta illegale di dati per riconoscimento facciale	Multa da 30,5 milioni di € + ordini di conformità
2024	CNIL (Francia)	KASPR	Scraping di contatti LinkedIn per lead generation	Multa da 240.000 € — 160 milioni di contatti, dati con visibilità limitata, conservazione di 5 anni
2024	DPC irlandese	X / Grok	Post pubblici usati per il training dell’IA	Accordo di sospensione; indagine statutaria avviata nel 2025
2024	DPC irlandese	Meta	Training pianificato di LLM su contenuti pubblici Facebook/Instagram	Meta ha sospeso i piani di training IA nell’UE
2024	Garante italiano	OpenAI	Dati di training di ChatGPT e trasparenza	Multa da 15 milioni di € emessa, annullata dal tribunale di Roma nel marzo 2026

L’ammontare totale delle sanzioni monetarie UE/SEE nella categoria scraping/open web: oltre 95 milioni di € (escludendo la multa annullata a OpenAI).

Tutte queste grandi sanzioni hanno colpito lo scraping massivo di dati biometrici o personali senza alcuna base giuridica. Clearview ha estratto miliardi di immagini facciali. KASPR ha estratto 160 milioni di contatti, inclusi dati da profili LinkedIn con visibilità limitata, e li ha conservati per cinque anni.

Lo scraping proporzionato e mirato di dati pubblici non personali — come prezzi dei prodotti o numeri SKU — non è stato oggetto di azioni di enforcement. Questo non lo rende privo di rischio, ma aiuta a mettere i numeri nel giusto contesto.

Come fare scraping di siti europei in sicurezza: guida passo dopo passo

Difficoltà: Principiante
Tempo richiesto: ~15 minuti (inclusa la revisione di conformità)
Cosa ti serve: browser Chrome, estensione Thunderbit (il piano gratuito funziona), un URL target e una rapida revisione della checklist sopra

Passo 1: definisci il tuo obiettivo e i dati di cui hai bisogno

Prima di aprire qualsiasi strumento, scrivi perché ti servono i dati e quali campi ti servono esattamente. Non è solo una buona pratica — è la base dei principi GDPR di limitazione della finalità e minimizzazione dei dati.

Per esempio: "Mi servono nomi prodotto, prezzi e stato delle scorte da 50 pagine prodotto Amazon per aggiornare il nostro foglio di pricing competitivo." Questo è specifico. Confrontalo con: "Voglio estrarre tutto da Amazon." Il primo supera il test di minimizzazione; il secondo no.

Passo 2: esegui la checklist di conformità

Segui la checklist in sei passaggi "Posso fare scraping di questi dati?" riportata sopra. Se un passaggio restituisce 🛑, fermati e consulta un legale prima di procedere.

Applicando il nostro esempio di pricing Amazon alle varie soglie: i dati sono non personali (prezzi, SKU, nomi prodotto) ✅, non c’è un problema GDPR sui dati personali ✅, i ToS di Amazon vanno esaminati (lo scraping è limitato, quindi valuta le API ufficiali dei dati prodotto, se disponibili) ⚠️, e il rischio della Database Directive è basso per 50 prodotti ✅.

Passo 3: scegli l’approccio di scraping giusto

Metodo	Facilità d’uso	Supporto alla conformità	Manutenzione	Accuratezza
Copia-incolla manuale	Bassa	N/A (controlli tu cosa copi)	Alta (richiede tempo)	Soggetto a errori
Scraper basato su codice (Python, Scrapy)	Bassa (richiede programmazione)	Nessuno integrato	Alta (si rompe quando i siti cambiano)	Alta se mantenuto
Thunderbit (con IA)	Molto alta	Minimizzazione integrata a livello di campo	Bassa (l’IA si adatta ai cambiamenti della pagina)	Alta
API ufficiale	Media	Massima (accesso strutturato e autorizzato)	Bassa	Massima

Per gli utenti business senza un team di sviluppo, Thunderbit è la strada più veloce. Per i siti con API ufficiali (come l’Amazon Product Advertising API), l’API è sempre la scelta più sicura — ma spesso ha limiti sul volume dei dati e sui campi disponibili.

Passo 4: configura lo scraper in modo conforme

In Thunderbit:

Vai alla pagina target (per esempio una pagina di listing prodotti Amazon).
Clicca l’icona di Thunderbit nella barra degli strumenti di Chrome e seleziona "AI Suggest Fields". L’IA analizza la pagina e suggerisce colonne come "Nome prodotto", "Prezzo", "Valutazione" e "Stato delle scorte".
Rimuovi tutti i campi che non ti servono. Se l’IA suggerisce "Nome venditore" o "Email venditore" e ti servono solo i dati di prezzo, elimina quelle colonne. Questo è il principio di minimizzazione dei dati applicato nella pratica.
Usa il Field AI Prompt per aggiungere istruzioni come "escludi identificativi personali" o "estrai solo dati di prezzo pubblici".
Scegli Cloud Scraping per i siti ecommerce pubblici (più veloce, nessun login necessario) oppure Browser Scraping per i siti che richiedono autenticazione.
Prima di cliccare "Scrape", verifica che robots.txt non vieti lo scraping per il tuo caso d’uso. Puoi controllarlo visitando [dominio]/robots.txt nel browser.

A questo punto dovresti vedere un’anteprima della tabella con solo i campi che hai configurato — nessun dato personale superfluo, nessun metadato inutile.

Passo 5: esporta, archivia e gestisci i dati in modo responsabile

Dopo lo scraping, esporta i dati in Excel, Google Sheets, Airtable o Notion — Thunderbit supporta tutto questo con esportazione gratuita.

Poi:

Imposta un periodo di conservazione. Non conservare i dati estratti per sempre. Se fai monitoraggio settimanale dei prezzi, probabilmente i dati grezzi del mese scorso non servono più.
Se sono stati raccolti dati personali (per esempio per lead generation), documenta la tua base giuridica, pubblica un’informativa di trasparenza ai sensi dell’articolo 14 e imposta un processo per gestire opt-out e richieste di cancellazione.
Automatizza le cancellazioni quando possibile. Lo Scheduled Scraper di Thunderbit può automatizzare scraping ricorrenti a intervalli stabiliti mantenendo la stessa configurazione a livello di campo, così ogni esecuzione resta entro i tuoi parametri di conformità.

Consigli per restare conformi mentre fai scraping in Europa

Alcune pratiche che ho imparato studiando questo tema e parlando con team attenti alla conformità:

Controlla sempre i ToS prima di fare scraping su un nuovo sito. Richiede due minuti e può evitarti mesi di problemi legali.
Usa le API quando disponibili. Sono strutturate, autorizzate e rappresentano la scelta più sicura. Lo scraping dovrebbe essere il ripiego, non l’opzione predefinita.
Fai una DPIA per qualsiasi progetto che coinvolga dati personali su larga scala. CNIL afferma che i dataset di training per l’IA possono creare rischi elevati, e la DPIA è la prova della tua accountability. Anche per progetti più piccoli, documentare l’analisi è una scelta intelligente.
Tieni un registro dello scraping. Registra cosa è stato estratto, quando, da dove, qual è la tua base giuridica e il periodo di conservazione. Se un’autorità per la protezione dei dati ti fa domande, sarai felice di averlo.
Monitora gli aggiornamenti normativi. Le linee guida delle autorità evolvono rapidamente — CNIL ha pubblicato nuovi fogli di lavoro sullo scraping per l’IA nel gennaio 2026 e l’EDPB dovrebbe emettere ulteriori pareri. Le regole di oggi potrebbero diventare più severe domani.
Non estrarre da fonti riservate o sensibili. La lista di esclusione obbligatoria di CNIL include forum di salute, siti usati soprattutto da minori, siti pornografici, siti genealogici e siti di dati personali altamente strutturati. Se stai costruendo un progetto di scraping, mantieni una blocklist predefinita.
Il traffico automatizzato conta molto dal punto di vista operativo. Akamai ha riportato che i bot rappresentavano il 42% del traffico web complessivo nel 2024 e Thales/Imperva ha rilevato che il traffico automatizzato dei bot ha superato quello umano per la prima volta, arrivando al 51% nel 2024. I regolatori considerano sempre più il comportamento dei bot, la frequenza e i tentativi di elusione come indizi di rischio e scorrettezza. Comportarsi da scraper responsabile — identificare il proprio user agent, limitare la frequenza, rispettare i segnali di opposizione — non è solo cortesia; ha rilevanza legale.

Conclusione

Il web scraping non è illegale in Europa. Ma è regolamentato — soprattutto quando sono coinvolti dati personali.

L’esito legale dipende da cosa estrai (personali vs non personali), come lo estrai (ToS, robots.txt, rate limiting, minimizzazione a livello di campo) e perché (finalità e base giuridica documentate). Il quadro di enforcement è chiaro: lo scraping di massa e indiscriminato di dati personali senza alcuna base giuridica è il tipo di attività che espone le aziende a multe a sette e otto cifre. Lo scraping proporzionato e mirato di dati pubblici non personali — con misure di sicurezza adeguate — rientra in una categoria di rischio molto diversa.

Il framework pratico:

Usa la checklist decisionale prima di ogni progetto di scraping.
Applica le misure raccomandate dalle autorità per la protezione dei dati (trasparenza, minimizzazione, limiti di conservazione, meccanismi di opt-out).
Scegli strumenti che supportano la conformità by design. La selezione dei campi con IA di Thunderbit, l’estrazione strutturata e l’esportazione gratuita in Google Sheets, Excel, Airtable e Notion rendono semplice estrarre solo i dati che ti servono — né più né meno.
Documenta tutto. Test di bilanciamento, elenco delle fonti, piano di conservazione, DPIA. Se un regolatore chiede spiegazioni, il tuo dossier è la tua difesa.

Dichiarazione di rito: questo articolo è informativo, non consulenza legale. Per scenari ad alto rischio che coinvolgono dati personali su larga scala, consulta un avvocato specializzato in privacy. Le normative cambiano e sbagliare ha costi reali.

Vuoi provare tu stesso uno scraping web conforme e mirato? Il piano gratuito di Thunderbit ti permette di sperimentare l’estrazione strutturata su piccola scala — definisci i campi, estrai solo ciò che ti serve ed esporta in pochi clic. Puoi anche esplorare il nostro canale YouTube per tutorial passo dopo passo.

Prova AI Web Scraper per un’estrazione dati conforme Get Started Free

FAQ

1. Il web scraping è legale in Europa se i dati sono disponibili pubblicamente?

La disponibilità pubblica non esenta i dati dal GDPR se contengono informazioni personali. Come ha affermato l’autorità olandese, "pubblico non significa automaticamente permesso per lo scraping". I dati pubblici non personali (prezzi dei prodotti, SKU) in genere sono meno rischiosi, ma devi comunque controllare la Database Directive e i Termini di servizio del sito.

2. Posso estrarre email e numeri di telefono dai siti europei?

Email e numeri di telefono sono dati personali ai sensi del GDPR. Ti serve una base giuridica — in genere il legittimo interesse con un test di bilanciamento documentato — e devi informare gli interessati ai sensi dell’articolo 14. CNIL ha multato KASPR di 240.000 € nel 2024 per aver estratto dati di contatto da LinkedIn senza adeguata trasparenza o base giuridica, quindi è un’area in cui l’enforcement è attivo.

3. Qual è la multa più alta per web scraping illegale in Europa?

Nel 2024 l’autorità olandese ha multato Clearview AI 30,5 milioni di € per la raccolta illegale di dati di riconoscimento facciale dal web pubblico. Anche diverse altre autorità UE hanno multato Clearview per 20 milioni di € ciascuna. Il totale delle sanzioni UE/SEE legate allo scraping dal 2022 al 2026 supera i 95 milioni di €.

4. Rispettare robots.txt rende legale il web scraping in Europa?

Rispettare robots.txt è una best practice e si allinea con le misure di sicurezza obbligatorie di CNIL, ma da solo non garantisce la liceità. Devi comunque rispettare il GDPR (se sono coinvolti dati personali), la Database Directive e i Termini di servizio del sito. Considera la conformità a robots.txt come uno dei livelli di un framework di conformità multilivello.

5. In cosa differisce la legge sul web scraping in Europa rispetto agli USA?

L’UE è molto più severa. Il GDPR si applica a qualsiasi dato personale — anche se disponibile pubblicamente — e la Database Directive offre una forte protezione ai dataset organizzati. Gli USA non hanno un equivalente federale di queste due leggi; dopo hiQ v. LinkedIn, l’estrazione di dati pubblici è generalmente consentita negli Stati Uniti. Il Regno Unito post-Brexit si colloca in una posizione intermedia, con UK GDPR e diritti sui database mantenuti che in gran parte rispecchiano le regole UE, ma con enforcement dell’ICO. Per le aziende che operano oltre confine, le regole dell’UE fissano la soglia più alta — e se estrai dati di residenti UE, quelle regole si applicano indipendentemente da dove abbia sede la tua azienda.

Scopri di più

Estrai dati usando l'AI

Trasferisci facilmente i dati su Google Sheets, Airtable o Notion

Chrome Store Rating

PRODUCT HUNT#1 Product of the Week