Le web scraping au Royaume-Uni : ce qui est risqué et ce qui peut vous valoir un procès

Il y a quelques mois, un collègue de notre équipe commerciale m’a posé une question que j’ai entendue des dizaines de fois : « Si je scrape les prix d’un concurrent sur un site public, est-ce que je peux vraiment avoir des ennuis ? » Il avait trouvé un annuaire de contacts fournisseurs, avec des prix bien alignés en colonnes, et tout ce qu’il voulait, c’était un tableau Excel. Son hésitation était bien réelle — et, franchement, parfaitement compréhensible.

Le Royaume-Uni ne dispose pas d’une seule « loi sur le web scraping ». À la place, quatre cadres juridiques qui se chevauchent déterminent si une activité de scraping donnée est licite. C’est pour cela que la réponse est toujours « ça dépend » — sans que ce soit forcément paralysant. Dans ce guide, je vais vous expliquer ce que dit réellement la loi, comment elle s’applique à des situations concrètes, à quoi ressemblent les sanctions, et comment rester en conformité.

J’ai passé beaucoup de temps à faire des recherches sur ce sujet pour notre équipe chez Thunderbit, et je veux vous faire profiter de ce que j’ai découvert pour que vous n’ayez pas à recoller les morceaux à partir de cinq blogs de cabinets d’avocats différents et d’un fil Reddit.

Essayez Thunderbit pour le web scraping

Qu’est-ce que le web scraping et pourquoi les entreprises britanniques l’utilisent-elles ?

Le web scraping consiste à utiliser un logiciel pour collecter automatiquement des données à partir de sites web, en remplaçant le fastidieux copier-coller des pages web vers un tableur.

La technique en elle-même est neutre. Elle n’est ni intrinsèquement légale, ni intrinsèquement illégale. Ce qui compte, c’est ce que vous scrapez, la manière dont vous le faites et ce que vous faites ensuite des données.

Les entreprises britanniques utilisent le scraping pour toutes sortes d’usages légitimes :

Comparaison de prix : PriceSpy UK, par exemple, met à jour les prix des produits trois à cinq fois par jour grâce au web scraping automatisé.
Génération de leads : des équipes commerciales récupèrent des noms d’entreprises, des e-mails et des numéros de téléphone à partir d’annuaires publics.
Études de marché : des analystes surveillent des annonces immobilières, des offres d’emploi ou les gammes de produits des concurrents.
Recherche universitaire : l’Office for National Statistics a collecté plus de 2,2 millions de relevés de prix sur des sites de supermarchés entre 2014 et 2015.
Entraînement de modèles d’IA : un cas d’usage en forte croissance — et juridiquement encore incertain.

La tendance est claire. Une enquête Bright Data / Vanson Bourne menée auprès de 500 décideurs, dont 200 au Royaume-Uni, a montré que 89 % considéraient les données web publiques comme cruciales ou très importantes pour l’économie mondiale, et 38 % les utilisaient au moins quotidiennement.

Pourtant, 73 % ont aussi déclaré que l’absence de réglementation claire inquiétait leur organisation. C’est précisément pour répondre à cette inquiétude que cet article existe.

Le web scraping est-il légal au Royaume-Uni ? Réponse directe

Aucune loi britannique n’interdit le web scraping en bloc. En revanche, plusieurs lois encadrent la manière dont il peut être pratiqué, et la légalité d’un projet précis dépend de quatre facteurs :

ig_010beacbdecb066e0169f1876f3d8c8191b68ddebcf937b561_compressed.webp

Les données que vous scrapez (données personnelles ou données factuelles / non personnelles)
La manière d’y accéder (page publique ou contournement de l’authentification ou des CAPTCHA)
Ce que prévoient les conditions du site (interdisent-elles l’accès automatisé ?)
L’usage que vous faites ensuite des données (analyse interne ou revente commerciale)

La meilleure analogie que j’aie trouvée : le web scraping, c’est un peu comme prendre des photos dans un espace public. Photographier dans un lieu public n’est pas automatiquement illégal — mais certains sujets, lieux, méthodes et usages créent un risque juridique. Le scraping fonctionne de la même façon. Le fait qu’une information soit publique est pertinent, mais ce n’est pas toute l’histoire.

La récente consultation de l’ICO sur l’IA générative est l’une des déclarations officielles britanniques les plus claires sur les données personnelles scrapées. Elle indique que l’intérêt légitime reste le seul fondement juridique disponible pour entraîner des modèles d’IA générative à l’aide de données personnelles collectées par web scraping — mais seulement si le développeur satisfait à un test strict en trois parties. C’est un seuil élevé, qui montre à quel point les autorités britanniques prennent ces données au sérieux.

Les quatre lois britanniques qui s’appliquent au web scraping

Quatre cadres se superposent : tout projet de scraping peut en déclencher un, deux ou les quatre.

UK GDPR et Data Protection Act 2018

Si vous scrapez des données personnelles — noms, e-mails, numéros de téléphone, adresses IP, profils sur les réseaux sociaux —, le UK GDPR s’applique. « Publiquement disponibles » ne veut pas dire « libres d’usage ».

Des données personnelles visibles publiquement restent des données personnelles.

Le fondement juridique le plus pertinent pour le scraping commercial est l’intérêt légitime (article 6) — mais on ne peut pas se contenter d’invoquer cette formule. Il faut :

Identifier une finalité spécifique et légitime
Montrer que le traitement est nécessaire à cette finalité
Mettre en balance votre intérêt et les droits des personnes dont vous collectez les données

La réponse de l’ICO à sa consultation sur l’IA générative est particulièrement explicite : les développeurs ne doivent pas supposer qu’un bénéfice sociétal large suffit, ils doivent démontrer pourquoi les alternatives au scraping sont inadaptées, et ils doivent utiliser des mécanismes de transparence permettant aux personnes de comprendre et d’exercer leurs droits. Source : réponse de l’ICO sur l’IA générative.

Pour la génération de leads B2B, la même logique s’applique. Une équipe commerciale peut s’appuyer sur l’intérêt légitime pour collecter des coordonnées professionnelles publiées, mais elle doit tout de même documenter l’intérêt légitime, minimiser les champs collectés, éviter les données sensibles, fournir des informations sur la vie privée lorsque c’est possible et respecter les demandes d’opposition.

Droit d’auteur, droits sur les bases de données et exception TDM

Le droit d’auteur protège le contenu original des sites web : textes, images, descriptions de produits, articles. Les données factuelles comme les prix sont généralement moins sensibles au droit d’auteur en elles-mêmes — mais recopier et republier une expression protégée vous fait entrer dans le champ de la contrefaçon.

Les droits sur les bases de données comptent davantage dans le scraping qu’on ne le pense. Le Royaume-Uni a conservé, après le Brexit, les droits sui generis de style européen sur les bases de données, et l’extraction d’une « partie substantielle » d’une base protégée — annuaires sélectionnés, catalogues produits, listes de places de marché — peut constituer une violation même si les données prises individuellement sont factuelles.

L’exception de Text and Data Mining (TDM) prévue à la section 29A du CDPA autorise les copies à des fins d’analyse de textes et de données uniquement lorsque l’utilisateur dispose d’un accès licite et que la finalité est la recherche non commerciale. C’est une exception étroite. Le scraping commercial, l’entraînement commercial de modèles d’IA et la revente commerciale de jeux de données n’y sont pas couverts.

Le gouvernement britannique a envisagé d’élargir cette exception pour l’entraînement de l’IA, mais, à la date de son rapport de mars 2026 sur le droit d’auteur et l’IA, il a décidé de ne pas engager de réforme tant qu’il n’est pas certain qu’elle réponde aux objectifs des créateurs, des développeurs d’IA et de l’économie britannique. Dans l’état actuel du droit, une autorisation est généralement nécessaire pour copier des œuvres protégées à des fins d’entraînement d’IA, sauf si une exception existante s’applique.

Conditions d’utilisation des sites web et droit des contrats

La plupart des sites ont des conditions d’utilisation (ToS) qui interdisent ou limitent le scraping automatisé. En accédant au site, vous acceptez peut-être déjà ces conditions — surtout si vous cliquez sur un écran d’acceptation (clickwrap). Les accords de type browsewrap (conditions cachées derrière un lien en pied de page) sont plus dépendants des faits, mais les tribunaux britanniques ont montré qu’ils étaient prêts à faire respecter les restrictions de scraping prévues dans les ToS. Dans le litige Ryanair c. Billigfluege, le tribunal a considéré que des conditions de site visibles étaient contraignantes dans un contexte de screen scraping.

robots.txt n’est pas une loi. C’est un signal lisible par machine émis par le propriétaire du site. Un fichier typique ressemble à ceci :

User-agent: *
Disallow: /account/
Disallow: /checkout/
Disallow: /private/
Crawl-delay: 10

Ignorer robots.txt ne rend pas automatiquement le scraping illégal, mais les tribunaux et l’ICO y voient un indice de l’intention du propriétaire du site. L’ignorer augmente votre exposition juridique, surtout si cela s’ajoute à une violation des ToS ou à des volumes de requêtes agressifs.

Le Computer Misuse Act 1990

C’est la loi qui empêche souvent les gens de dormir — et pour de bonnes raisons. Elle crée des infractions pénales. La section 1 couvre l’accès non autorisé à du contenu informatique (peine maximale de 2 ans d’emprisonnement). La section 3 couvre les actes non autorisés portant atteinte au fonctionnement d’un système informatique (peine maximale de 10 ans d’emprisonnement).

Le risque au titre du CMA est le plus faible lorsque les données sont réellement publiques et que le scraper ne contourne aucun obstacle technique. Le risque augmente lorsque vous :

contournez des pages de connexion, des CAPTCHA ou des blocages IP
utilisez des identifiants volés ou créez de faux comptes
envoyez des volumes de trafic qui dégradent le service ciblé

Le Royaume-Uni n’a pas adopté une règle simple à l’américaine du type « les données publiques sont un terrain libre ». D’où une approche plus prudente : l’accès public réduit nettement le risque au titre du CMA, mais les conditions du site, les contrôles techniques et la connaissance qu’a le scraper des restrictions peuvent tout de même compter.

« Puis-je scraper cela légalement ? » — Un petit arbre de décision

Avant de scraper quoi que ce soit, passez par ces cinq points de décision. Ce n’est pas un avis juridique — juste un tri des risques en 60 secondes.

Point de décision	Si OUI	Si NON
Les données sont-elles personnelles (noms, e-mails, etc.) ?	Le UK GDPR s’applique. Identifiez un fondement juridique, réalisez une LIA, minimisez les champs, prévoyez la transparence.	La couche GDPR peut ne pas s’appliquer, mais poursuivez les autres vérifications.
Les ToS du site interdisent-elles explicitement le scraping ?	Risque de violation contractuelle. Envisagez une API, une licence ou un examen juridique.	Risque contractuel plus faible, mais vérifiez robots.txt.
Extrayez-vous une partie substantielle d’une base de données ?	Un droit sui generis sur les bases de données est probablement violé. Envisagez une licence ou une extraction plus limitée.	Le droit d’auteur peut toujours s’appliquer aux contenus copiés individuellement.
Contournez-vous une connexion, un CAPTCHA ou des contrôles d’accès ?	Infraction pénale potentielle au titre du CMA 1990. Arrêtez-vous et demandez un avis juridique.	Risque CMA plus faible si l’accès est réellement public.
La finalité est-elle une recherche non commerciale ?	L’exception TDM de la section 29A peut s’appliquer si vous avez un accès licite.	Pas de large refuge commercial britannique pour le TDM. Une analyse complète de la PI et des contrats est nécessaire.

Franchement, j’aurais aimé qu’on me donne ça quand j’ai commencé à m’intéresser à la conformité du scraping pour notre équipe. Cela transforme une complexité juridique en auto-évaluation structurée que vous pouvez faire en moins d’une minute.

Cas concrets : votre activité de scraping est-elle légale au Royaume-Uni ?

Le droit en théorie, c’est une chose. Ce que les gens veulent vraiment savoir, c’est : « Mon projet précis va-t-il me causer des problèmes ? »

Question légitime. Voici cinq cas d’usage courants au Royaume-Uni avec une mini-évaluation du risque juridique pour chacun.

Scraper les prix des produits pour comparaison

L’un des cas d’usage les plus courants — et souvent les moins risqués — pour les entreprises. Les prix sont des données factuelles, et la collecte automatisée des prix est justement le fonctionnement de sites comme PriceSpy.

Le risque ne disparaît pas totalement, cependant. Si le site cible interdit le scraping dans ses ToS, si vous copiez des descriptions ou des images de produits, ou si vous extrayez une partie substantielle d’une base de produits sélectionnée, des questions de contrat, de droit d’auteur et de droits sur les bases de données peuvent se poser.

Niveau de risque : FAIBLE à MOYEN
Étape clé de conformité : ne collectez que les champs de prix factuels, évitez de recopier textuellement les descriptions de produits, respectez les ToS et robots.txt, utilisez une limitation de débit et ne republiez pas un miroir brut du catalogue du concurrent.

Scraper et revendre des données à des fins commerciales

Le scénario commercial le plus risqué, point final. Vous transformez l’investissement d’un tiers dans ses données en un produit à vendre — et cela peut faire intervenir simultanément les quatre piliers juridiques.

Niveau de risque : ÉLEVÉ
Étape clé de conformité : un examen juridique est indispensable. Envisagez des accords de licence avec les propriétaires des données. Si le produit inclut des données personnelles, ajoutez une analyse d’impact relative à la protection des données.

Extraire des coordonnées professionnelles pour générer des leads

Toutes les équipes commerciales que j’ai rencontrées font une version de cela : scraper des e-mails, des numéros de téléphone et des noms d’entreprises dans des annuaires. Le piège ? Les coordonnées professionnelles incluent souvent des données personnelles. L’e-mail d’un salarié nommé reste une donnée personnelle, même s’il est affiché publiquement.

Niveau de risque : MOYEN
Étape clé de conformité : réalisez une Legitimate Interests Assessment, ne collectez que des données de contact professionnelles (et non personnelles) lorsque c’est possible, documentez votre fondement juridique et prévoyez un moyen d’opposition. Des outils comme Thunderbit peuvent réduire ici le risque d’accès, car l’extension Chrome fonctionne dans le navigateur de l’utilisateur : elle accède uniquement à ce que l’utilisateur peut déjà voir, sans contourner les contrôles d’accès.

Analyse de données pour la recherche académique ou un portfolio

Si vous faites une recherche réellement non commerciale, vous disposez du chemin d’exception au droit d’auteur le plus solide : la section 29A du CDPA, à condition d’avoir un accès licite.

Niveau de risque : FAIBLE (si c’est vraiment non commercial)
Étape clé de conformité : documentez la finalité non commerciale, citez les sources, anonymisez ou agréez les données lorsque c’est possible, et évitez de redistribuer des contenus protégés ou des données personnelles.

Scraper du contenu pour l’entraînement d’un modèle d’IA

C’est la question que tout le monde pose en 2026 — et la réponse reste insatisfaisante. L’ICO considère les données personnelles scrapées pour l’entraînement comme un traitement invisible à haut risque. Le rapport 2026 du gouvernement britannique n’a pas introduit de large exception commerciale au TDM.

Niveau de risque : MOYEN à ÉLEVÉ
Étape clé de conformité : licences, traçabilité des jeux de données, analyse du droit d’auteur, filtrage des données personnelles, documentation du fondement juridique et suivi de près des évolutions de la politique britannique.

Tableau récapitulatif des scénarios

Scénario	Lois principales déclenchées	Niveau de risque	Étape clé de conformité
Suivi des prix des produits	ToS, droits sur les bases de données, droit d’auteur	Faible à moyen	Collecter les champs factuels, respecter les signaux du site
Revente commerciale de données	Les quatre piliers	Élevé	Examen juridique et licence indispensables
Génération de leads B2B	UK GDPR, ToS	Moyen	Réaliser une LIA, minimiser les données personnelles
Recherche académique	Droit d’auteur (exception TDM), GDPR si données personnelles	Faible	Conserver une finalité non commerciale, ne pas republier
Entraînement d’un modèle d’IA	UK GDPR, droit d’auteur, droits sur les bases de données	Moyen à élevé	Licencier les données, documenter le fondement juridique, suivre les évolutions réglementaires

Royaume-Uni, États-Unis, UE : en quoi le droit du web scraping diffère

Si vous n’opérez qu’au Royaume-Uni, vous pouvez sauter cette section. Mais la plupart des entreprises avec lesquelles je parle font du scraping à l’international — ou au minimum sur des sites hébergés dans d’autres juridictions. Les différences comptent plus qu’on ne l’imagine.

Dimension juridique	🇬🇧 Royaume-Uni	🇺🇸 États-Unis	🇪🇺 UE
Principale loi sur la protection des données	UK GDPR + DPA 2018	Pas d’équivalent fédéral (les lois varient selon les États)	RGPD de l’UE
Jurisprudence clé sur le scraping	Clearview AI (amende ICO de 7,5 M£)	hiQ c. LinkedIn (scraping des données publiques autorisé, 9e circuit — mais hiQ a finalement été définitivement interdit de scraper et a payé 500 000 $ dans le jugement final de consentement)	Ryanair c. PR Aviation (CJUE, C-30/14, droits sur les bases de données)
Droit d’accès informatique	Computer Misuse Act 1990	CFAA (réduit par Van Buren, 2021)	Varie selon l’État membre
Droit d’auteur / exception TDM	Étroit : recherche non commerciale uniquement (section 29A)	Doctrine du fair use (plus large, au cas par cas)	Directive DSM, art. 3 et 4 (droits TDM plus larges avec réserve des droits)
Droits sur les bases de données	Oui (conservés de la directive européenne sur les bases de données)	Pas de droit fédéral équivalent	Droit sui generis au titre de la directive bases de données
Opposabilité des ToS	Le droit des contrats s’applique ; browsewrap débattu	Mixte : les browsewrap sont souvent inopposables	Variable ; Ryanair a renforcé la position des ToS

L’idée pratique à retenir : si vous scrapez à travers plusieurs juridictions, conformez-vous à la loi la plus stricte applicable. Les États-Unis sont plus permissifs sur l’accès aux données publiques dans l’arrêt hiQ, mais hiQ n’est pas une autorisation générale — hiQ a finalement été empêchée de scraper LinkedIn et a payé 500 000 $. L’UE dispose d’une architecture TDM plus large via la directive DSM. Le Royaume-Uni se situe entre les deux : pas de large exception commerciale au TDM, de forts droits sur les bases de données et un régulateur actif.

Sanctions et application : que se passe-t-il vraiment si vous vous faites prendre ?

ig_010beacbdecb066e0169f1876f3d8c8191b68ddebcf937b561_compressed.webp

Les avertissements vagues sur les « amendes » et les « problèmes juridiques » n’aident personne. Voici les chiffres réels.

Amendes au titre du UK GDPR

Sanction maximale : 17,5 millions de livres sterling ou 4 % du chiffre d’affaires annuel mondial, le montant le plus élevé étant retenu.

Exemple réel : Clearview AI a été condamnée à une amende de 7 552 800 £ par l’ICO en 2022 pour avoir scrapé des images faciales issues de réseaux sociaux britanniques. Le First-tier Tribunal a annulé la décision pour des motifs de compétence, mais le Upper Tribunal, en octobre 2025, a autorisé l’appel de l’ICO et renvoyé l’affaire. L’ICO a indiqué que Clearview disposait d’une permission de faire appel à la Court of Appeal en décembre 2025.

Sanctions pénales du Computer Misuse Act

Section 1 (accès non autorisé) : jusqu’à 2 ans d’emprisonnement
Section 3 (atteinte non autorisée) : jusqu’à 10 ans d’emprisonnement

Les poursuites pénales pour un scraping ordinaire de pages publiques sont extrêmement rares.

Le niveau de risque change radicalement lorsque le comportement ressemble à du piratage, à une mauvaise utilisation d’identifiants, au contournement de CAPTCHA ou à une dégradation de service.

Droit d’auteur et droits sur les bases de données

Dommages-intérêts civils plus injonction. Des sanctions pénales sont possibles en cas de contrefaçon commerciale délibérée, mais la plupart des litiges liés au scraping suivent la voie civile.

Violation contractuelle (ToS)

Dommages-intérêts civils, résiliation du compte, blocage IP. C’est souvent la sanction pratique la plus courante — et souvent la première qui survient.

Résumé de la sévérité des sanctions

Cadre juridique	Sanction maximale	Probabilité pour un scraping d’entreprise classique	Exemple réel
UK GDPR	17,5 M£ ou 4 % du CA mondial	Moyenne si données personnelles à grande échelle ; faible pour les données non personnelles	Amende de 7,5 M£ contre Clearview AI
CMA section 1	2 ans d’emprisonnement	Faible pour les pages publiques ; plus élevée si des contrôles sont contournés	Orientation du CPS sur l’accès non autorisé
CMA section 3	10 ans d’emprisonnement	Faible sauf si le trafic dégrade les systèmes	Exemples de dégradation de type DDoS
Droit d’auteur / droits sur les bases de données	Dommages-intérêts et injonction	Moyenne pour la copie de contenus protégés ou de bases sélectionnées	Affaires Ryanair et BHB
Violation des ToS	Dommages-intérêts, clôture du compte, blocage	Élevée comme voie d’exécution pratique	Litiges de screen scraping impliquant Ryanair

Comment le bon outil de scraping réduit votre risque juridique

L’outil que vous choisissez ne rend pas légal un scraping illégal. En revanche, il peut éliminer des risques évitables.

D’après mon expérience, la différence entre un outil qui respecte les signaux du site et un autre qui contourne tout agressivement, c’est souvent la différence entre un projet de données banal et un casse-tête juridique.

Respect de robots.txt et des signaux du site

Un outil responsable devrait faciliter la vérification et le respect de robots.txt avant le scraping. Même si ce fichier n’a pas de valeur contraignante, le respect de robots.txt est perçu par les tribunaux et l’ICO comme un indice de bonne foi. La documentation de Thunderbit recommande de scraper des données publiquement accessibles et de respecter robots.txt et les conditions d’utilisation.

Scraping dans le navigateur ou dans le cloud

Cette distinction compte juridiquement. Le scraping dans le navigateur n’accède qu’à ce que l’utilisateur peut voir dans sa session authentifiée — il automatise essentiellement ce que vous feriez manuellement. Le scraping cloud envoie des requêtes depuis des serveurs, ce qui est plus rapide pour les sites publics mais peut ressembler davantage à un « accès automatisé » du point de vue du site.

Thunderbit propose les deux modes. Le scraping dans le navigateur convient aux sites nécessitant une connexion (ce qui réduit le risque d’« accès non autorisé » au sens du CMA), tandis que le scraping cloud fonctionne bien pour les pages e-commerce publiques où la vitesse compte. Cette double approche permet aux utilisateurs d’adapter leur méthode de scraping au profil de risque juridique de chaque site.

Aucun contournement des contrôles d’accès

Un outil qui fonctionne dans le navigateur et ne casse pas les CAPTCHA ni ne contourne les écrans de connexion est intrinsèquement moins risqué au regard du Computer Misuse Act. L’extension Chrome de Thunderbit fonctionne dans la session navigateur de l’utilisateur : elle accède uniquement à ce que l’utilisateur peut déjà voir.

Export transparent des données (aide à la conformité GDPR)

Thunderbit exporte directement vers Excel, Google Sheets, Airtable ou Notion. L’utilisateur contrôle la destination des données. Cela soutient la transparence et la documentation du fondement juridique au titre du GDPR : vous savez exactement quelles données vous avez collectées et où elles ont été envoyées. Aucun traitement caché ni conservation des données par l’outil.

Limitation de débit et accès responsable

Des volumes de requêtes agressifs peuvent déclencher la section 3 du CMA (atteinte non autorisée). La limitation de débit n’est pas seulement une bonne pratique technique — c’est aussi une protection juridique. Les outils responsables évitent de surcharger les serveurs, ce qui réduit à la fois le risque juridique et la probabilité que votre IP soit bloquée.

ig_010beacbdecb066e0169f18811201081919686e582502a1db7_compressed.webp

Checklist de conformité pratique pour le web scraping au Royaume-Uni

Passez cette liste avant de scraper quoi que ce soit :

Lisez les conditions d’utilisation du site cible et sa politique d’utilisation acceptable.
Vérifiez le fichier robots.txt et documentez si les chemins pertinents sont interdits.
Déterminez si les données souhaitées sont des données personnelles. Si oui, identifiez votre fondement juridique au titre du UK GDPR.
Évaluez si vous extrayez une « partie substantielle » d’une base de données.
Confirmez que vous ne contournez aucun contrôle technique d’accès (CAPTCHA, connexions, limitation de débit).
Si votre finalité est une recherche non commerciale, documentez-le pour bénéficier de l’exception TDM.
Utilisez une limitation de débit. Ne surchargez pas le serveur cible.
Documentez tout : votre fondement juridique, la revue des ToS, les champs de données collectés, les destinations d’export, la durée de conservation.
En cas de doute, demandez un avis juridique à un solicitor spécialisé en protection des données et en propriété intellectuelle.

Cette checklist ne remplace pas l’avis d’un solicitor — mais elle vous donne une base solide et montre votre bonne foi si des questions se posent un jour.

Points clés à retenir

Le web scraping n’est pas illégal au Royaume-Uni — mais il est encadré par quatre cadres juridiques qui se chevauchent : UK GDPR, droit d’auteur / droits sur les bases de données, droit des contrats et Computer Misuse Act.
La légalité d’un scraping dépend de ce que vous scrapez, de la manière dont vous y accédez, des conditions du site et de l’usage que vous faites des données.
Le scraping de données personnelles implique la charge de conformité la plus lourde. L’intérêt légitime est généralement le seul fondement juridique viable, et il exige un test de mise en balance documenté.
Le Royaume-Uni ne dispose pas d’une large exception commerciale au TDM. L’entraînement commercial de modèles d’IA et la revente de jeux de données sont à haut risque sans licence.
Utilisez l’arbre de décision et le tableau des scénarios ci-dessus pour évaluer votre situation précise avant de commencer.
Choisissez des outils alignés sur les bonnes pratiques de conformité : accès dans le navigateur, aucun contournement de CAPTCHA, export transparent des données et limitation de débit. Thunderbit a été conçu en tenant compte de ces principes — mais la responsabilité de conformité revient toujours à l’utilisateur.
En cas de doute, documentez votre raisonnement et parlez à un solicitor. Le coût d’un avis juridique est presque toujours inférieur au coût d’une enquête de l’ICO.

Essayez l’extracteur Web IA avec Thunderbit Get Started Free

FAQ

Est-il légal de scraper des données publiquement disponibles au Royaume-Uni ?

En général, oui — le scraping de données publiques est moins risqué que celui de données protégées par un accès ou de données privées. Mais « publiquement disponibles » ne signifie pas « libres d’usage à votre guise ». Le UK GDPR peut toujours s’appliquer aux données personnelles publiques, le droit d’auteur peut protéger l’expression copiée, les droits sur les bases de données peuvent protéger des ensembles sélectionnés, et les ToS peuvent restreindre l’accès automatisé.

Puis-je scraper des e-mails et des numéros de téléphone depuis des sites britanniques ?

Si les données sont des données personnelles (ce qui est généralement le cas des e-mails et des numéros de téléphone), vous avez besoin d’un fondement juridique au titre du UK GDPR. L’intérêt légitime est le fondement le plus courant pour la génération de leads B2B, mais vous devez réaliser un test de mise en balance, minimiser les données collectées et prévoir un mécanisme d’opposition. Le scraping de coordonnées personnelles de la vie privée (numéros mobiles, e-mails personnels) est beaucoup plus risqué que la collecte d’annuaires professionnels.

Quelle est la différence entre web scraping et web crawling au Royaume-Uni ?

Sur le plan juridique, il n’y a pas de distinction significative : le droit s’intéresse au comportement, pas à l’étiquette. Le crawling désigne généralement la découverte ou l’indexation de pages ; le scraping désigne généralement l’extraction de données structurées. Dans les deux cas, il s’agit d’un accès automatisé à des sites web et les mêmes cadres juridiques s’appliquent.

robots.txt rend-il le scraping illégal ?

Non. robots.txt n’a pas de valeur contraignante en droit. Toutefois, l’ignorer augmente votre exposition juridique, car les tribunaux et l’ICO y voient un indice de l’intention du propriétaire du site. Si vous ignorez robots.txt et que les ToS du site interdisent aussi le scraping, vous cumulez des facteurs de risque — et votre position est alors beaucoup plus difficile à défendre.

Puis-je être poursuivi pénalement pour web scraping au Royaume-Uni ?

Seulement si vous contournez des contrôles d’accès (CAPTCHA, connexions, blocages IP) ou causez un dommage à un système informatique au sens du Computer Misuse Act 1990. Un scraping ordinaire de données réellement publiques, à des volumes raisonnables et sans contournement technique, a extrêmement peu de chances d’aboutir à des poursuites pénales. Le niveau de risque change radicalement lorsque le comportement ressemble à du piratage ou à une dégradation volontaire du service.

En savoir plus

Extraire des données avec l’IA

Transfère facilement les données vers Google Sheets, Airtable ou Notion

Chrome Store Rating

PRODUCT HUNT#1 Product of the Week