Le web scraping est-il légal en Europe ? Comment scraper et rester en sécurité

Le 1er mai 2024, l’Autorité néerlandaise de protection des données a publié un titre qui a fait trembler toutes les équipes data en Europe : « le scraping est presque toujours illégal. » Si vous travaillez dans la vente, l’e-commerce ou l’immobilier — bref, si vous dépendez des données web — cette phrase a sans doute eu l’effet d’une douche froide.

Je comprends. Chez Thunderbit, nous parlons chaque jour à des équipes métiers qui ont besoin de données web pour la veille tarifaire, la génération de leads et l’étude de marché. La frustration est toujours la même : elles googlent « le web scraping est-il légal en Europe », et toutes les réponses se résument à « ça dépend ». Peu utile quand on a une date limite et une liste d’URL à scraper.

J’ai donc passé des semaines à creuser les textes réglementaires, les lignes directrices des autorités de protection des données, les dossiers d’enquête et la jurisprudence pour construire quelque chose de réellement utile : une checklist décisionnelle pratique, un tableau consolidé des mesures de protection, des montants d’amendes concrets et un guide pas à pas pour scraper des sites européens sans finir du mauvais côté d’un régulateur. Que vous récupériez des prix de produits Amazon ou des contacts B2B depuis un annuaire, cet article vous aidera à voir où sont les limites — et comment rester du bon côté.

Qu’est-ce que le web scraping (et pourquoi les entreprises européennes devraient-elles s’y intéresser) ?

Le web scraping consiste à extraire automatiquement des données de sites web pour les transformer en format structuré — tableur, base de données, CRM. Au lieu de copier-coller les noms de produits et les prix depuis 200 pages, un scraper visite chaque page et récupère les champs dont vous avez besoin dans des colonnes bien organisées.

Pourquoi est-ce important pour les équipes non techniques ? Parce que les données web alimentent de vraies décisions business. Les équipes commerciales scrapent des annuaires pour générer des leads. Les responsables e-commerce surveillent les prix des concurrents chaque jour. Les analystes immobiliers suivent les tendances d’annonces sur les portails. Les chercheurs de marché collectent des avis et des notes publics à grande échelle. Le marché mondial du web scraping croît rapidement, et les entreprises extraient des millions de points de données chaque jour.

Mais l’environnement réglementaire européen est différent de celui des États-Unis. Le RGPD, la directive Base de données et l’évolution des lignes directrices des autorités de protection des données signifient que « accessible publiquement » ne veut pas dire « librement exploitable ». Comme l’a formulé Aleid Wolfsen, président de l’autorité néerlandaise de protection des données : « public ne signifie pas automatiquement autorisation de scraper ». Comprendre les règles avant de commencer n’est pas optionnel — c’est la différence entre un jeu de données propre et une amende à six chiffres.

Essayez Thunderbit pour un web scraping conforme

Le web scraping est-il légal en Europe ? La réponse courte

Le web scraping n’est pas intrinsèquement illégal en Europe. Mais sa légalité dépend de trois éléments : quelles données vous scrapez, comment vous les scrapez et pourquoi.

Trois niveaux juridiques qui se superposent encadrent le scraping dans l’UE :

Le RGPD — s’applique dès que vous scrapez des données personnelles (noms, emails, numéros de téléphone, adresses IP, voire identifiants pseudonymisés).
La directive européenne sur les bases de données — protège les bases de données dans lesquelles le créateur a réalisé un « investissement substantiel » pour organiser les données.
Le droit des contrats / conditions d’utilisation — de nombreux sites interdisent explicitement le scraping dans leurs CGU, et les tribunaux de l’UE ont fait respecter ces clauses.

Point essentiel : « public » ne veut pas dire « sans réglementation ». Même des données non personnelles peuvent être protégées par le droit sui generis des bases de données ou par le droit des contrats. Chaque projet de scraping doit examiner ces trois niveaux ensemble.

Les principales lois de l’UE qui encadrent le web scraping

RGPD : quand vous scrapez des données personnelles

Toute donnée liée à une personne identifiable déclenche des obligations RGPD. Cela inclut les noms, adresses email, numéros de téléphone, adresses IP, photos, et même des données pseudonymisées pouvant être ré-identifiées. Dès que vous scrapez des données personnelles, vous devenez un responsable de traitement avec des obligations au titre du RGPD :

Base légale (article 6) : vous devez disposer d’un motif juridique pour traiter les données. Le consentement est presque jamais praticable pour du scraping à grande échelle — on ne peut pas demander à des millions de personnes la permission avant de collecter leurs informations publiées publiquement. La base la plus souvent invoquée est l’intérêt légitime (article 6, paragraphe 1, point f), mais elle exige un test documenté en trois volets : (1) votre intérêt est légitime, (2) le traitement est nécessaire, et (3) il ne porte pas une atteinte disproportionnée aux droits des personnes concernées, compte tenu de leurs attentes raisonnables.
Transparence (article 14) : puisque vous ne collectez pas les données directement auprès de la personne, vous devez l’informer — généralement dans un délai d’un mois — de ce que vous avez collecté, pourquoi, et comment elle peut exercer ses droits. Si la notification individuelle est disproportionnée, vous devez publier un avis général contenant toutes les informations prévues à l’article 14.
Minimisation des données : ne collectez que ce dont vous avez réellement besoin. Si vous voulez des prix de produits, n’allez pas récupérer aussi les adresses email des vendeurs.
Limitation de conservation et gestion des droits : définissez des durées de conservation, respectez les demandes d’effacement et fournissez l’accès aux informations sources.

Le rapport du groupe de travail ChatGPT du CEPD (adopté en mai 2024) a ajouté un niveau supplémentaire : il précise que différentes étapes du traitement — collecte, prétraitement, entraînement, prompts et sortie — nécessitent chacune leur propre analyse de base légale. Le CEPD n’a pas rejeté l’intérêt légitime pour le web scraping, mais a insisté sur l’analyse complète en trois volets, avec des garanties appropriées.

La directive européenne sur les bases de données : protéger la manière dont les données sont organisées

La directive sur les bases de données accorde un droit sui generis aux créateurs de bases de données qui ont réalisé un « investissement substantiel » dans l’obtention, la vérification ou la présentation de leurs données. Si votre scraping extrait une « partie substantielle » d’une telle base, vous pouvez porter atteinte à ce droit.

En pratique, le seuil est relativement élevé. Scraper quelques centaines de prix de produits d’un grand distributeur a peu de chances de le franchir. En revanche, télécharger en masse l’intégralité du catalogue d’un concurrent — des dizaines de milliers d’annonces — peut dépasser la limite, surtout si cela menace la capacité du créateur à rentabiliser son investissement. La Cour de justice de l’Union européenne s’est prononcée sur ce seuil dans plusieurs affaires, et la question clé est toujours celle de la proportionnalité.

Pour la plupart des cas d’usage business — récupérer des champs précis sur des pages produits, comparer des annonces dans une catégorie — la directive sur les bases de données représente un risque plus faible. Mais ce n’est pas un risque nul, et il vaut la peine d’y penser quand vous définissez le périmètre de votre scraping.

Conditions d’utilisation : la variable contractuelle qui change tout

C’est un point qui piège beaucoup de monde. De nombreux sites interdisent le scraping dans leurs conditions d’utilisation. En Europe, la violation des CGU relève du civil (et non du pénal), mais elle peut quand même conduire à des injonctions, des actions en rupture contractuelle et à une exposition financière réelle.

Deux formats à connaître : browsewrap (conditions passives, souvent via un lien caché en bas de page) est plus difficile à faire valoir, car l’utilisateur n’a jamais accepté activement. Clickwrap (case à cocher ou clic sur « J’accepte ») est beaucoup plus opposable.

L’affaire phare de l’UE est Ryanair c. PR Aviation : le tribunal a fait appliquer les CGU de Ryanair contre un scraper même si le droit des bases de données ne s’appliquait pas, parce que le scraper avait accepté les conditions. Donc : examinez toujours les CGU d’un site avant de scraper. S’il s’agit d’un accord clickwrap interdisant explicitement le scraping, avancez avec prudence — ou cherchez plutôt un accès API.

La directive DSM et l’AI Act : exceptions pour la recherche et le text and data mining

Tout scraping ne déclenche pas les mêmes restrictions. La directive sur le droit d’auteur dans le marché unique numérique (DSM, 2019) a introduit deux exceptions de text and data mining (TDM) :

Article 3 : les organismes de recherche et les institutions du patrimoine culturel peuvent pratiquer le TDM sur des contenus accessibles légalement.
Article 4 : toute personne — y compris les entreprises — peut pratiquer le TDM, sauf si le titulaire des droits s’y est expressément opposé (par exemple via robots.txt, ai.txt ou les en-têtes TDMRep).

L’AI Act de l’UE (article 53) ajoute des obligations aux fournisseurs de modèles d’IA : ils doivent respecter les mécanismes d’opposition au TDM et documenter leurs sources de données d’entraînement.

Un point important : ces exceptions couvrent le droit d’auteur et le droit sui generis sur les bases de données, pas le RGPD. Si votre TDM implique des données personnelles, il vous faut toujours une base légale RGPD distincte.

La checklist « Puis-je scraper cela ? » pour les données européennes

C’est la section que j’aurais voulu avoir lorsque j’ai commencé à me pencher sur ce sujet. Tous les articles juridiques disent « ça dépend » — mais à quoi ressemble concrètement l’arbre de décision ? Voici une checklist de conformité étape par étape, avec des seuils clairs. Chaque étape mène à ✅ continuer, ⚠️ ajouter des garanties, ou 🛑 arrêter.

Étape 1 : les données sont-elles personnelles ou non personnelles ?

Données non personnelles (prix de produits, numéros SKU, adresses professionnelles non rattachées à des personnes) : charge réglementaire plus faible. Il faut quand même vérifier la directive sur les bases de données et les CGU, mais le RGPD ne s’applique pas. ✅ Passez à l’étape 3.

Données personnelles (noms, emails, numéros de téléphone, photos, tout identifiant relié à une personne) : le RGPD s’applique. ⚠️ Continuez à l’étape 2.

Étape 2 : quelle base légale RGPD s’applique ?

Consentement : presque jamais réaliste pour du scraping à grande échelle. 🛑 Sauf si vous êtes dans un cas très étroit et spécifique.
Intérêt légitime (article 6, paragraphe 1, point f) : la base la plus fréquente. Mais elle exige un test documenté en trois volets :
1. Votre intérêt est légitime (un intérêt commercial peut être recevable, selon l’arrêt de la CJUE de 2024 dans l’affaire C-621/22).
2. Le traitement est nécessaire à cet intérêt.
3. Le test de mise en balance : votre intérêt ne l’emporte pas sur les droits des personnes concernées, compte tenu de leurs attentes raisonnables.
Documentez votre test de mise en balance avant de scraper. Si vous n’arrivez pas à expliquer pourquoi les personnes dont vous récupérez les données s’attendraient raisonnablement à cette utilisation, c’est un signal d’alerte. ⚠️ Avancez avec un intérêt légitime documenté.

Étape 3 : les CGU du site limitent-elles le scraping ?

Accord clickwrap interdisant le scraping : 🛑 Risque élevé. Envisagez d’autres sources de données ou un accès API officiel.
Browsewrap ou absence de restriction dans les CGU : ⚠️ Risque plus faible, mais respectez tout de même robots.txt et les signaux techniques d’opposition.

Étape 4 : la directive sur les bases de données s’applique-t-elle ?

La cible est-elle une base de données ayant fait l’objet d’un investissement substantiel dans l’organisation des données ?
Votre scraping extrait-il une « partie substantielle » de cette base ?
Si oui aux deux : ⚠️ Risque d’atteinte au droit sui generis. Limitez le périmètre de votre extraction.

Étape 5 : êtes-vous couvert par une exception de recherche ou de TDM ?

Organisme de recherche enregistré ou institution du patrimoine culturel ? L’article 3 de la directive DSM peut s’appliquer. ✅
TDM commercial ? Vérifiez les signaux d’opposition de l’article 4 (robots.txt, ai.txt, TDMRep). Si le site s’y est opposé, 🛑 arrêtez-vous pour cette source.

Étape 6 : avez-vous mis en place les mesures de protection recommandées par l’autorité ?

Si vous avez franchi les étapes ci-dessus, la dernière consiste à appliquer les garanties recommandées par la CNIL, l’autorité néerlandaise et le CEPD. Elles sont détaillées dans la section suivante. ✅ Continuez avec les garanties en place.

Mesures de conformité recommandées par les autorités : ce que préconisent la CNIL, l’autorité néerlandaise et le CEPD

Aucun article concurrent que j’ai trouvé ne consolide les mesures recommandées par les trois régulateurs européens les plus actifs sur le scraping. J’ai donc construit ce tableau en croisant la fiche pratique de la CNIL sur le web scraping, les orientations de l’AP néerlandaise et le rapport du groupe de travail ChatGPT du CEPD.

Mesure de protection	CNIL	Autorité néerlandaise (AP)	Groupe de travail CEPD	Conseils de mise en œuvre
Avis de transparence art. 14	✅ Requis	✅ Requis	✅ Requis	Publiez un avis public listant les catégories de sources, les finalités, la base légale, la durée de conservation, les canaux d’exercice des droits et le contact du DPO
AIPD avant le scraping	✅ Recommandée (obligatoire en cas de risque élevé)	✅ Requise	✅ Requise	Documentez le test de mise en balance, les catégories de données, les risques et les mesures d’atténuation avant le lancement
Minimisation des données	✅ Requise (définir des critères de collecte précis)	✅ Requise	✅ Requise	Configurez le scraper pour n’extraire que les champs nécessaires ; supprimez immédiatement les données inutiles
Limitation du débit / respect de robots.txt	✅ Requis (exclure les sites qui s’opposent via robots.txt/CAPTCHA)	—	—	Analysez robots.txt, ajoutez des délais entre les requêtes, identifiez votre user agent
Pseudonymisation / anonymisation	⚠️ Recommandée (immédiatement après collecte)	✅ Fortement encouragée	✅ Recommandée	Hachez ou randomisez les identifiants ; supprimez les URL de profil ; floutez les visages lorsque l’identité n’est pas nécessaire
Durée de conservation	✅ Limite définie	✅ Aussi courte que possible	✅ Limite définie	Automatisez les suppressions ; séparez le cache brut des faits extraits
Mécanisme d’opt-out / liste noire	✅ Recommandé (opposition préalable discrétionnaire)	✅ Requis (objection art. 21)	✅ Requis	Fournissez un formulaire d’opt-out, une blacklist de domaines, une suppression au niveau de la personne
Exclure les sources sensibles	✅ Requis (forums santé, sites pour mineurs, sites pornographiques, généalogie)	✅ Requis	✅ Requis	Maintenez des listes de blocage par défaut pour la santé, la religion, la politique, la biométrie et les mineurs

Petit conseil pratique de notre côté : la fonctionnalité « AI Suggest Fields » de Thunderbit permet aux utilisateurs de définir exactement quelles colonnes extraire — prix, SKU, nom du produit — afin que le scraper ne collecte que le nécessaire. Vous ne téléchargez pas en masse des pages entières ; vous sélectionnez des champs structurés qui correspondent aux principes de limitation des finalités et de minimisation des données. Cela dit, aucun outil ne rend légal un scraping non conforme. L’analyse juridique vient toujours en premier.

Le web scraping est-il légal en Europe pour votre cas d’usage ? Guide par secteur

La question que je vois le plus souvent dans les forums n’est pas « le scraping est-il légal ? » — c’est « mon scraping est-il légal ? ». La théorie abstraite du RGPD ne suffit pas à répondre. Voici donc une analyse par cas d’usage business courant.

Cas d’usage	Type de données	Principaux risques juridiques	Issue probable
Veille tarifaire e-commerce (annonces produits publiques)	Non personnelles (prix, SKU, noms de produits)	Droit sui generis de la directive Bases de données ; violation des CGU	Généralement moins risqué en l’absence de données personnelles et d’extraction systématique d’une « partie substantielle » de la base
Génération de leads B2B (coordonnées depuis des annuaires)	Personnelles (noms, emails, numéros de téléphone)	Base légale RGPD art. 6 ; notification art. 14 ; ePrivacy pour les contacts électroniques	Risque plus élevé — nécessite un test d’intérêt légitime documenté plus une obligation de notification
Annonces immobilières (données de biens depuis des portails)	Mixte (les adresses peuvent être non personnelles ; les noms des propriétaires sont personnels)	Directive Bases de données ; CGU ; RGPD si lien avec le propriétaire	Risque moyen — anonymisez les données du propriétaire, vérifiez les CGU, respectez robots.txt
Données d’entraînement IA (scraping de contenus web à grande échelle)	Potentiellement personnelles si non filtré	RGPD + obligations TDM de l’AI Act art. 53	Risque élevé — conformité requise au RGPD et à l’AI Act ; mécanismes d’opt-out et filtrage robuste nécessaires

Pour les scénarios à plus faible risque, comme les données e-commerce publiques, les outils dotés de modèles structurés — comme les templates instantanés de Thunderbit pour Amazon et Shopify — réduisent l’exposition, car ils extraient des champs de données spécifiques et non personnels sans collecter de contenu superflu. Pour les scénarios plus risqués impliquant des données personnelles (la génération de leads, par exemple), l’analyse juridique doit passer en premier. Aucun scraper, aussi intelligent soit-il, ne transforme une collecte non conforme en collecte conforme.

UE vs États-Unis vs Royaume-Uni : comparaison des lois sur le web scraping

Si votre entreprise opère au-delà des frontières, vous devez comprendre les différences de règles. Je n’ai pas trouvé d’article concurrent présentant cela sous forme de tableau comparatif clair, alors le voici.

Dimension	UE	États-Unis	Royaume-Uni (post-Brexit)
Loi principale	RGPD + directive Bases de données + ePrivacy	CFAA + lois d’État (protection fédérale des données limitée)	UK GDPR + Data Protection Act 2018
Scraping de données publiques	Nécessite quand même une base légale RGPD si les données sont personnelles	Généralement légal selon hiQ v. LinkedIn (données publiques)	Similaire à l’UE ; les orientations de l’ICO s’appliquent
Application des CGU	Matière civile ; Ryanair v. PR Aviation a fait respecter le droit sui generis	Van Buren a réduit la portée du CFAA ; violation des CGU ≠ infraction pénale	Matière civile, similaire à l’UE
Protection des bases de données	Droit sui generis (fort)	Pas d’équivalent fédéral	Droit sui generis maintenu
Exception IA/TDM	Directive DSM art. 3–4 ; AI Act art. 53	Pas d’exception fédérale TDM (doctrine fair use)	Le Royaume-Uni étudie une exception TDM (au point mort en 2026)
Autorité de contrôle clé	Autorités nationales de protection des données (CNIL, AP néerlandaise, etc.)	FTC + procureurs généraux d’État	ICO
Tendance récente	Plus stricte (AP néerlandaise : « presque toujours illégal » pour les données personnelles)	Plus permissive après hiQ	Modérée ; suit généralement la ligne de l’UE

Si vous scrapez des sites européens ou des données concernant des résidents européens, les règles de l’UE s’appliquent — même si votre entreprise est basée aux États-Unis ou au Royaume-Uni.

Amendes et cas réels : que se passe-t-il vraiment si vous vous faites attraper ? (2022–2026)

C’est la section qui répond à la question cachée derrière la question : « Quel est le vrai risque ? » J’ai compilé toutes les actions publiques des autorités de protection des données impliquant du web scraping ou des données personnelles scrapées de 2022 à avril 2026.

Année	Autorité	Cible	Violation	Amende / issue
2022	Garante italienne	Clearview AI	Scraping d’images faciales sans base légale	Amende de 20 M€ + interdiction + ordre d’effacement
2022	APD hellénique (Grèce)	Clearview AI	Même chose — scraping pour la reconnaissance faciale	Amende de 20 M€ + interdiction + suppression
2022	CNIL (France)	Clearview AI	Base de données de reconnaissance faciale	Amende de 20 M€ + astreinte possible de 100 k€/jour
2023	CNIL (France)	Clearview AI	Non-respect de l’ordre de 2022	Pénalité de 5,2 M€
2023	DSB autrichienne	Clearview AI	Plus de 30 milliards d’images faciales provenant du web public	Effacement + ordre de désignation d’un représentant dans l’UE (pas d’amende publiée)
2024	AP néerlandaise	Clearview AI	Collecte illégale de données de reconnaissance faciale	Amende de 30,5 M€ + injonctions de mise en conformité
2024	CNIL (France)	KASPR	Scraping de données de contact LinkedIn pour la génération de leads	Amende de 240 000 € — 160 M de contacts, données à visibilité restreinte, conservation de 5 ans
2024	DPC irlandais	X / Grok	Publications publiques utilisées pour l’entraînement IA	Accord de suspension ; enquête statutaire ouverte en 2025
2024	DPC irlandais	Meta	Entraînement LLM prévu sur du contenu public Facebook/Instagram	Meta a suspendu ses plans d’entraînement IA dans l’UE
2024	Garante italienne	OpenAI	Données d’entraînement de ChatGPT et transparence	Amende de 15 M€ prononcée, annulée par un tribunal de Rome en mars 2026

Le total des sanctions pécuniaires dans l’UE/EEE pour la catégorie scraping / web ouvert : plus de 95 millions d’euros (hors amende OpenAI annulée).

Chacune de ces grandes sanctions visait un scraping massif de données biométriques ou personnelles sans aucune base légale. Clearview a scrapé des milliards d’images faciales. KASPR a scrapé 160 millions de contacts, y compris des données provenant de profils LinkedIn à visibilité restreinte, et les a conservées pendant cinq ans.

Le scraping proportionné et ciblé de données publiques non personnelles — comme des prix de produits ou des numéros SKU — n’a pas fait l’objet de mesures d’exécution. Cela ne le rend pas sans risque, mais cela aide à remettre les chiffres en perspective.

Comment scraper des sites européens en toute sécurité : guide pas à pas

Difficulté : Débutant
Temps nécessaire : ~15 minutes (incluant la revue de conformité)
Ce qu’il vous faut : navigateur Chrome, extension Thunderbit (la version gratuite suffit), une URL cible, et une revue rapide de la checklist ci-dessus

Étape 1 : définissez votre objectif et vos besoins en données

Avant d’ouvrir le moindre outil, notez pourquoi vous avez besoin des données et quels champs exactement vous voulez récupérer. Ce n’est pas seulement une bonne pratique — c’est le socle des principes de limitation des finalités et de minimisation des données du RGPD.

Par exemple : « J’ai besoin des noms de produits, des prix et du stock de 50 pages produits Amazon pour mettre à jour notre feuille de calcul de tarification concurrentielle. » C’est précis. Comparez cela à : « Je veux tout scraper sur Amazon. » Le premier passe le test de minimisation ; le second non.

Étape 2 : passez la checklist de conformité

Suivez la checklist en six étapes « Puis-je scraper cela ? » ci-dessus. Si une étape aboutit à 🛑, arrêtez-vous et consultez un conseil juridique avant d’aller plus loin.

En appliquant notre exemple de prix Amazon à la grille : les données sont non personnelles (prix, SKU, noms de produits) ✅, aucun problème RGPD lié à des données personnelles ✅, les CGU d’Amazon doivent être examinées (elles limitent le scraping, donc envisagez les API officielles de données produit si elles sont disponibles) ⚠️, et le risque lié à la directive Bases de données est faible pour 50 produits ✅.

Étape 3 : choisissez la bonne approche de scraping

Méthode	Facilité d’utilisation	Soutien à la conformité	Maintenance	Précision
Copier-coller manuel	Faible	N/A (vous contrôlez ce que vous copiez)	Élevée (chronophage)	Sujet aux erreurs
Scraper basé sur du code (Python, Scrapy)	Faible (nécessite du code)	Aucune intégrée	Élevée (se casse quand les sites changent)	Élevée si maintenu
Thunderbit (alimenté par l’IA)	Très élevée	Minimisation intégrée au niveau des champs	Faible (l’IA s’adapte aux changements de page)	Élevée
API officielle	Moyenne	La plus élevée (accès structuré et autorisé)	Faible	La plus élevée

Pour les utilisateurs métiers sans équipe de développement, Thunderbit est la voie la plus rapide. Pour les sites disposant d’API officielles (comme l’Amazon Product Advertising API), l’API reste toujours l’option la plus sûre — mais elle impose souvent des limites sur le volume de données et les champs disponibles.

Étape 4 : configurez votre scraper pour la conformité

Dans Thunderbit :

Rendez-vous sur votre page cible (par exemple, une page de listing produits Amazon).
Cliquez sur l’icône Thunderbit dans la barre d’outils Chrome et sélectionnez « AI Suggest Fields ». L’IA analyse la page et propose des colonnes comme « Nom du produit », « Prix », « Note » et « État du stock ».
Supprimez tous les champs dont vous n’avez pas besoin. Si l’IA suggère « Nom du vendeur » ou « Email du vendeur » alors que vous ne voulez que les prix, supprimez ces colonnes. C’est la minimisation des données en pratique.
Utilisez le Field AI Prompt pour ajouter des instructions comme « exclure les identifiants personnels » ou « extraire uniquement les données publiques de tarification ».
Choisissez Cloud Scraping pour les sites e-commerce publics (plus rapide, sans connexion) ou Browser Scraping pour les sites nécessitant une authentification.
Avant de cliquer sur « Scrape », vérifiez que robots.txt n’interdit pas le scraping pour votre cas d’usage. Vous pouvez le faire en visitant [domaine]/robots.txt dans votre navigateur.

Vous devriez maintenant voir un aperçu de tableau avec uniquement les champs que vous avez configurés — aucune donnée personnelle inutile, aucune métadonnée superflue.

Étape 5 : exportez, stockez et gérez les données de manière responsable

Après le scraping, exportez vos données vers Excel, Google Sheets, Airtable ou Notion — Thunderbit prend tous ces outils en charge avec export gratuit.

Ensuite :

Définissez une durée de conservation. Ne stockez pas les données scrapées indéfiniment. Si vous faites une veille prix hebdomadaire, les données brutes du mois dernier sont probablement inutiles.
Si des données personnelles ont été collectées (par exemple pour la génération de leads), documentez votre base légale, publiez un avis de transparence de l’article 14 et mettez en place un processus pour traiter les demandes d’opt-out et d’effacement.
Automatisez les suppressions quand c’est possible. Le Scheduled Scraper de Thunderbit peut automatiser des scrapings récurrents à intervalles définis tout en conservant la même configuration au niveau des champs, afin que chaque exécution reste dans vos paramètres de conformité.

Conseils pour rester conforme lors du scraping en Europe

Quelques bonnes pratiques tirées de mes recherches et de mes échanges avec des équipes sensibles à la conformité :

Vérifiez toujours les CGU avant de scraper un nouveau site. Cela prend deux minutes et peut vous éviter des mois d’ennuis juridiques.
Utilisez des API quand elles existent. Elles sont structurées, autorisées et constituent l’option la plus sûre. Le scraping doit être un plan B, pas la norme.
Réalisez une AIPD pour tout projet impliquant des données personnelles à grande échelle. La CNIL indique que les jeux de données d’entraînement IA peuvent créer un risque élevé, et l’AIPD constitue votre preuve de responsabilité. Même pour des projets plus modestes, documenter votre analyse est une bonne idée.
Tenez un journal de scraping. Notez ce qui a été scrapé, quand, depuis où, votre base légale et votre durée de conservation. Si une autorité de protection des données vous le demande un jour, vous serez content de l’avoir.
Surveillez les mises à jour réglementaires. Les lignes directrices évoluent vite — la CNIL a publié de nouvelles fiches sur le scraping IA en janvier 2026, et le CEPD devrait rendre d’autres avis. Les règles d’aujourd’hui peuvent se durcir demain.
Ne scrapez pas des sources restreintes ou sensibles. La liste d’exclusion obligatoire de la CNIL inclut les forums santé, les sites principalement utilisés par des mineurs, les sites pornographiques, les sites de généalogie et les sites fortement structurés contenant des données personnelles. Si vous construisez un projet de scraping, maintenez une blacklist par défaut.
Le trafic automatisé compte énormément sur le plan opérationnel. Akamai a indiqué que les bots représentaient 42 % du trafic web total en 2024, et Thales/Imperva ont constaté que le trafic automatisé de bots dépassait pour la première fois le trafic humain, atteignant 51 % en 2024. Les régulateurs considèrent de plus en plus le comportement des bots, leur cadence et les techniques de contournement comme des indices de risque et d’iniquité. Se comporter comme un scraper responsable — identifier votre user agent, limiter le débit, respecter les signaux d’opposition — n’est pas seulement poli ; c’est juridiquement pertinent.

Conclusion

Le web scraping n’est pas illégal en Europe. Mais il est réglementé — surtout lorsque des données personnelles sont en jeu.

L’issue juridique dépend de ce que vous scrapez (personnel vs non personnel), de la manière dont vous le faites (CGU, robots.txt, limitation du débit, minimisation au niveau des champs) et de la finalité (objectif et base légale documentés). Les décisions d’exécution sont claires : le scraping massif et indifférencié de données personnelles sans aucune base légale est le terrain sur lequel les entreprises se prennent des amendes à sept ou huit chiffres. Le scraping proportionné et ciblé de données publiques non personnelles — avec des garde-fous en place — se situe dans une catégorie de risque très différente.

Le cadre pratique :

Utilisez la checklist décisionnelle avant chaque projet de scraping.
Appliquez les mesures de protection recommandées par les autorités (transparence, minimisation, limites de conservation, mécanismes d’opt-out).
Choisissez des outils conçus pour la conformité. La sélection de champs alimentée par l’IA de Thunderbit, l’extraction structurée et l’export gratuit vers Google Sheets, Excel, Airtable et Notion rendent simple le fait de scraper uniquement les données dont vous avez besoin — ni plus, ni moins.
Documentez tout. Test de mise en balance, liste des sources, calendrier de conservation, AIPD. Si un régulateur pose des questions, votre dossier est votre défense.

Avertissement obligatoire : cet article est informatif et ne constitue pas un conseil juridique. Pour les situations à haut risque impliquant des données personnelles à grande échelle, consultez un avocat spécialisé en protection des données. La réglementation évolue, et le coût d’une erreur est bien réel.

Vous voulez essayer vous-même un web scraping ciblé et conforme ? Le niveau gratuit de Thunderbit vous permet d’expérimenter une extraction structurée à petite échelle — définissez vos champs, scrapez uniquement ce dont vous avez besoin et exportez en quelques clics. Vous pouvez aussi consulter notre chaîne YouTube pour des démonstrations pas à pas.

Essayez l’Extracteur Web IA pour une extraction de données conforme Get Started Free

FAQ

1. Le web scraping est-il légal en Europe si les données sont publiques ?

Le fait qu’une donnée soit publique ne l’exempte pas du RGPD si elle contient des informations personnelles. Comme l’a indiqué l’autorité néerlandaise de protection des données, « public ne signifie pas automatiquement autorisation de scraper ». Les données publiques non personnelles (prix de produits, SKU) sont généralement moins risquées, mais il faut quand même vérifier la directive sur les bases de données et les conditions d’utilisation du site.

2. Puis-je scraper des emails et des numéros de téléphone depuis des sites européens ?

Les emails et numéros de téléphone sont des données personnelles au sens du RGPD. Vous devez disposer d’une base légale — généralement l’intérêt légitime avec un test de mise en balance documenté — et vous devez notifier les personnes au titre de l’article 14. La CNIL a infligé à KASPR une amende de 240 000 € en 2024 pour avoir scrapé des données de contact LinkedIn sans transparence adéquate ni base légale, donc c’est un domaine où l’exécution est active.

3. Quelle est la plus grosse amende pour web scraping illégal en Europe ?

L’autorité néerlandaise de protection des données a infligé à Clearview AI une amende de 30,5 millions d’euros en 2024 pour collecte illégale de données de reconnaissance faciale sur le web public. Plusieurs autres autorités de l’UE ont aussi infligé à Clearview des amendes de 20 millions d’euros chacune. Le total des amendes liées au scraping dans l’UE/EEE entre 2022 et 2026 dépasse 95 millions d’euros.

4. Respecter robots.txt rend-il le web scraping légal en Europe ?

Respecter robots.txt est une bonne pratique et s’aligne avec les garanties obligatoires de la CNIL, mais cela ne garantit pas à lui seul la légalité. Vous devez toujours respecter le RGPD (si des données personnelles sont concernées), la directive sur les bases de données et les conditions d’utilisation du site. Voyez la conformité à robots.txt comme une couche parmi plusieurs dans un cadre de conformité multi-couches.

5. En quoi le droit du web scraping diffère-t-il entre l’Europe et les États-Unis ?

L’UE est nettement plus stricte. Le RGPD s’applique à toute donnée personnelle — même publique — et la directive sur les bases de données offre une forte protection aux ensembles de données structurés. Les États-Unis n’ont pas d’équivalent fédéral à l’une ou l’autre de ces lois ; après hiQ v. LinkedIn, le scraping de données publiques y est généralement admis. Le Royaume-Uni post-Brexit se situe entre les deux, avec le UK GDPR et les droits sur les bases de données maintenus qui ressemblent largement aux règles de l’UE, mais avec l’application de l’ICO. Pour les entreprises internationales, les règles de l’UE fixent le niveau d’exigence le plus élevé — et si vous scrapez des données concernant des résidents de l’UE, ces règles s’appliquent quelle que soit l’implantation de votre entreprise.

En savoir plus

Extraire des données avec l’IA

Transfère facilement les données vers Google Sheets, Airtable ou Notion

Chrome Store Rating

PRODUCT HUNT#1 Product of the Week