Web Scraping en el Reino Unido: qué es arriesgado y qué podría llevarte a una demanda

Hace unos meses, un compañero de nuestro equipo de ventas me hizo una pregunta que he escuchado decenas de veces: "Si extraigo precios de competidores de un sitio web público, ¿realmente me puedo meter en problemas?" Había encontrado un directorio de contactos de proveedores, con los precios alineados en filas ordenadas, y todo lo que quería era una hoja de cálculo. La duda era real y, sinceramente, estaba justificada.

El Reino Unido no tiene una única "ley de web scraping". En su lugar, cuatro marcos legales que se superponen determinan si una actividad concreta de scraping es legal. Por eso la respuesta siempre es "depende"; pero no tiene por qué paralizarte. En esta guía te explicaré qué dice realmente la ley, cómo se aplica a situaciones reales, cómo son las sanciones y cómo cumplirla.

He dedicado mucho tiempo a investigar esto para nuestro equipo en Thunderbit y quiero compartir lo que encontré para que no tengas que reconstruirlo a partir de cinco blogs distintos de bufetes y un hilo de Reddit.

Prueba Thunderbit para Web Scraping

¿Qué es el web scraping y por qué lo usan las empresas del Reino Unido?

El web scraping consiste en usar software para recopilar datos de sitios web de forma automática, sustituyendo el tedioso proceso de copiar y pegar desde páginas web a una hoja de cálculo.

La técnica en sí es neutral. No es intrínsecamente legal ni intrínsecamente ilegal. Lo que importa es qué extraes, cómo lo extraes y qué haces después con los datos.

Las empresas del Reino Unido usan el scraping para todo tipo de fines legítimos:

Comparación de precios: PriceSpy UK, por ejemplo, actualiza los precios de los productos de tres a cinco veces al día mediante web scraping automatizado.
Generación de leads: equipos de ventas que extraen nombres de empresas, correos y teléfonos de directorios públicos.
Estudio de mercado: analistas que siguen anuncios inmobiliarios, portales de empleo o catálogos de productos de la competencia.
Investigación académica: la Oficina de Estadísticas Nacionales recopiló más de 2,2 millones de precios de sitios web de supermercados entre 2014 y 2015.
Entrenamiento de modelos de IA: un caso de uso en rápido crecimiento y con una situación legal todavía poco clara.

La tendencia es evidente. Una encuesta de Bright Data/Vanson Bourne a 500 responsables de decisión, incluidos 200 en el Reino Unido, mostró que el 89% consideraba que los datos públicos de la web eran cruciales o muy importantes para la economía global, y que el 38% los obtenía al menos a diario.

Sin embargo, el 73% también dijo que la falta de una regulación clara preocupaba a su organización. Esa inquietud es precisamente la razón de este artículo.

¿Es legal hacer web scraping en el Reino Unido? La respuesta directa

Ninguna ley del Reino Unido prohíbe el web scraping de forma absoluta. Sin embargo, varias leyes regulan cómo puede hacerse, y la legalidad de cualquier proyecto concreto depende de cuatro factores:

ig_010beacbdecb066e0169f1876f3d8c8191b68ddebcf937b561_compressed.webp

Qué datos estás extrayendo (datos personales frente a datos fácticos/no personales)
Cómo accedes a ellos (página pública frente a eludir muros de acceso o CAPTCHAs)
Qué dicen los términos del sitio web (¿prohíben el acceso automatizado?)
Cómo usas los datos después (análisis interno frente a reventa comercial)

La mejor analogía que he encontrado es esta: el web scraping es como tomar fotografías en un espacio público. Hacer una foto en público no es automáticamente ilegal, pero ciertos sujetos, lugares, métodos y usos crean riesgos legales. El scraping funciona igual. Que algo sea público importa, pero no lo explica todo.

La consulta reciente de la ICO sobre GenAI es una de las declaraciones oficiales más claras del Reino Unido sobre datos personales extraídos de la web. Allí se indicó que los intereses legítimos siguen siendo la única base jurídica disponible para entrenar modelos generativos de IA usando datos personales obtenidos por web scraping, pero solo si el desarrollador supera una prueba estricta de tres partes. Es un listón alto y muestra con claridad lo en serio que se toman los reguladores británicos estos datos.

Las cuatro leyes del Reino Unido que se aplican al web scraping

Cuatro lentes que se solapan: cualquier proyecto de scraping puede activar una, dos o las cuatro.

UK GDPR y la Data Protection Act 2018

Si extraes datos personales —nombres, correos, teléfonos, direcciones IP, perfiles de redes sociales— se aplica el UK GDPR. Que algo sea "públicamente visible" no significa "libre de usar".

Los datos personales visibles públicamente siguen siendo datos personales.

La base jurídica más relevante para el scraping comercial es intereses legítimos (artículo 6), pero no basta con invocarla sin más. Debes:

Identificar un propósito específico y legítimo
Demostrar que el tratamiento es necesario para ese propósito
Pesar tu interés frente a los derechos de las personas cuyos datos estás recopilando

La respuesta de la ICO a la consulta sobre GenAI es especialmente clara: los desarrolladores no deben asumir que un beneficio social amplio es suficiente, deben justificar por qué las alternativas al scraping no son adecuadas y deben usar mecanismos de transparencia que permitan a las personas entender y ejercer sus derechos. Fuente: respuesta de la ICO sobre GenAI.

En la generación de leads B2B se aplica la misma lógica. Un equipo de ventas puede basarse en intereses legítimos para recopilar información de contacto empresarial publicada de forma pública, pero aun así necesita documentar el interés legítimo, minimizar los campos recopilados, evitar datos de categorías especiales, ofrecer información de privacidad cuando sea posible y respetar las solicitudes de exclusión.

Derechos de autor, derechos sobre bases de datos y la excepción de TDM

Los derechos de autor protegen el contenido original de un sitio web: texto, imágenes, descripciones de productos, artículos. Los datos fácticos, como los precios, suelen tener menos carga de copyright por sí solos, pero si copias y republicas expresiones protegidas, entras en terreno de infracción.

Los derechos sobre bases de datos importan más en el scraping de lo que la mayoría cree. El Reino Unido conservó tras el Brexit los derechos sui generis sobre bases de datos al estilo de la UE, y extraer una "parte sustancial" de una base de datos protegida —directorios curados, catálogos de productos, listados de marketplaces— puede infringir la norma incluso cuando los datos individuales sean fácticos.

La excepción de Text and Data Mining (TDM) prevista en la Sección 29A de la CDPA permite hacer copias para análisis de texto y datos solo cuando el usuario tiene acceso legítimo y el propósito es investigación no comercial. Es una excepción muy limitada. El scraping comercial, el entrenamiento comercial de IA y la reventa comercial de datasets no están cubiertos.

El gobierno del Reino Unido estudió ampliar esta excepción para el entrenamiento de IA, pero, según su informe de marzo de 2026 sobre Copyright and AI, decidió no introducir reformas hasta estar seguro de que cumplen sus objetivos para creadores, desarrolladores de IA y la economía británica. Con el marco actual, por lo general se necesita permiso para copiar obras protegidas con fines de entrenamiento de IA, salvo que exista ya una excepción aplicable.

Términos de servicio del sitio web y derecho contractual

La mayoría de los sitios web tienen Términos de Servicio (ToS) que prohíben o restringen el scraping automatizado. Accedes al sitio y puede que ya estés aceptando esos términos, especialmente si pasas por una pantalla de aceptación (clickwrap). Los acuerdos browsewrap (términos enlazados en el pie de página) dependen más de los hechos, pero los tribunales del Reino Unido han mostrado disposición a hacer cumplir restricciones de ToS contra el scraping. En el litigio Ryanair v Billigfluege, el tribunal consideró que los términos visibles del sitio eran vinculantes en un contexto de screen scraping.

robots.txt no es una ley. Es una señal legible por máquinas del propietario del sitio. Un archivo típico se vería así:

User-agent: *
Disallow: /account/
Disallow: /checkout/
Disallow: /private/
Crawl-delay: 10

Ignorar robots.txt no hace que el scraping sea ilegal de forma automática, pero los tribunales y la ICO lo consideran una prueba de la intención del propietario del sitio. Ignorarlo aumenta tu exposición legal, sobre todo si se combina con una infracción de ToS o con volúmenes agresivos de solicitudes.

The Computer Misuse Act 1990

Esta es la norma que más preocupa a la gente, y con razón. Crea delitos penales. La Sección 1 cubre el acceso no autorizado a material informático (pena máxima de 2 años de prisión). La Sección 3 cubre actos no autorizados que afecten al funcionamiento de un sistema informático (pena máxima de 10 años de prisión).

El riesgo bajo la CMA es menor cuando los datos son realmente públicos y el scraper no elude barreras técnicas. El riesgo aumenta cuando:

Eludes muros de acceso, CAPTCHAs o bloqueos por IP
Usas credenciales robadas o creas cuentas falsas
Generas volúmenes de tráfico que afectan al servicio objetivo

El Reino Unido no ha producido una regla clara al estilo de EE. UU. de "los datos públicos son terreno libre". Eso hace que el consejo en el Reino Unido sea más cauteloso: el acceso público reduce de forma material el riesgo bajo la CMA, pero los términos del sitio, los controles técnicos y el conocimiento que tenga el scraper de las restricciones pueden seguir siendo relevantes.

"¿Puedo extraer esto legalmente?" — Un flujo rápido de decisión

Antes de extraer nada, pasa por estos cinco puntos de decisión. No es asesoramiento legal; solo un triage de riesgo de 60 segundos.

Punto de decisión	Si SÍ	Si NO
¿Los datos son personales (nombres, correos, etc.)?	Se aplica el UK GDPR. Identifica la base jurídica, realiza una LIA, minimiza los campos y planifica la transparencia.	Puede que no se aplique la capa de GDPR, pero sigue con las demás comprobaciones.
¿Los ToS del sitio prohíben explícitamente el scraping?	Riesgo de incumplimiento contractual. Considera una API, una licencia o una revisión legal.	Menor riesgo contractual, pero revisa robots.txt.
¿Vas a extraer una parte sustancial de una base de datos?	Probable infracción del derecho sui generis sobre bases de datos. Considera licenciar o reducir la extracción.	Aun así, los derechos de autor pueden aplicar al contenido copiado individualmente.
¿Vas a eludir login, CAPTCHA o controles de acceso?	Posible delito penal bajo la CMA 1990. Detente y pide revisión legal.	Menor riesgo CMA si el acceso es realmente público.
¿El propósito es investigación no comercial?	La excepción TDM de la Sección 29A puede aplicar si tienes acceso legítimo.	No existe un gran refugio comercial de TDM en el Reino Unido. Necesitas un análisis completo de IP y contrato.

Ojalá alguien me hubiera dado esto cuando empecé a investigar el cumplimiento del scraping para nuestro equipo. Convierte una complejidad legal en una autoevaluación estructurada que puedes hacer en menos de un minuto.

Escenarios reales: ¿es legal tu actividad concreta de scraping en el Reino Unido?

Una cosa es la teoría jurídica. Lo que la gente quiere saber de verdad es: "¿Mi proyecto concreto me va a meter en problemas?"

Tiene sentido. Aquí tienes cinco casos comunes de uso de scraping en el Reino Unido con una mini evaluación de riesgo legal para cada uno.

Extraer precios de productos para compararlos

Uno de los casos de uso empresarial más comunes y, a menudo, de menor riesgo. Los precios son datos fácticos, y la recogida automatizada de precios es precisamente cómo operan sitios como PriceSpy.

Aun así, el riesgo no desaparece por completo. Si el sitio objetivo prohíbe el scraping en sus ToS, si copias descripciones de productos o imágenes, o si extraes una parte sustancial de una base de datos curada de productos, pueden surgir problemas de contrato, copyright y derechos sobre bases de datos.

Nivel de riesgo: BAJO a MEDIO
Paso clave de cumplimiento: recopila solo campos de precio fácticos, evita copiar literalmente descripciones de productos, respeta los ToS y robots.txt, usa limitación de tasa y no republicas un espejo bruto del catálogo del competidor.

Extraer y revender datos comercialmente

El escenario comercial de mayor riesgo, sin rodeos. Estás convirtiendo la inversión de datos de otra parte en un producto para vender, y eso puede implicar simultáneamente los cuatro pilares legales.

Nivel de riesgo: ALTO
Paso clave de cumplimiento: la revisión legal es esencial. Considera acuerdos de licencia con los propietarios de los datos. Si el producto incluye datos personales, añade una evaluación de impacto en protección de datos.

Extraer información de contacto empresarial para generar leads

Todas las equipos de ventas con los que he hablado hacen alguna versión de esto: extraer correos, teléfonos y nombres de empresa de directorios. ¿La trampa? Los datos de contacto empresarial a menudo incluyen datos personales. El correo de un empleado identificado es dato personal, aunque esté publicado.

Nivel de riesgo: MEDIO
Paso clave de cumplimiento: realiza una Evaluación de Intereses Legítimos, recopila solo datos de contacto empresariales (no de la vida personal) siempre que sea posible, documenta tu base jurídica y ofrece una vía de exclusión. Herramientas como Thunderbit pueden reducir el riesgo de acceso en este punto porque la extensión de Chrome funciona en el navegador del usuario: accede solo a lo que el usuario ya puede ver, sin eludir controles de acceso.

Análisis académico o de datos de portfolio

Si haces investigación realmente no comercial, tienes la vía de excepción de copyright más sólida: la Sección 29A de la CDPA, siempre que tengas acceso legítimo.

Nivel de riesgo: BAJO (si realmente es no comercial)
Paso clave de cumplimiento: documenta el propósito no comercial, cita las fuentes, anonimiza o agrega cuando sea posible y evita redistribuir contenido protegido por copyright o datos personales.

Extraer contenido para entrenar modelos de IA

Es la pregunta que todo el mundo hace en 2026, y la respuesta sigue sin ser del todo satisfactoria. La ICO considera que los datos personales extraídos de la web para entrenamiento son tratamiento invisible de alto riesgo. El informe del gobierno británico de 2026 no introdujo una excepción comercial amplia de TDM.

Nivel de riesgo: MEDIO a ALTO
Paso clave de cumplimiento: licencias, procedencia del dataset, análisis de copyright, filtrado de datos personales, documentación de la base jurídica y seguimiento estrecho de los cambios en la política del Reino Unido.

Tabla resumen de escenarios

Escenario	Leyes principales activadas	Nivel de riesgo	Paso clave de cumplimiento
Seguimiento de precios de productos	ToS, derechos sobre bases de datos, copyright	Bajo–Medio	Recopila campos fácticos, respeta las señales del sitio
Reventa comercial de datos	Los cuatro pilares	Alto	La revisión legal y las licencias son esenciales
Generación de leads B2B	UK GDPR, ToS	Medio	Realiza LIA, minimiza datos personales
Investigación académica	Copyright (excepción TDM), GDPR si hay datos personales	Bajo	Mantén el propósito no comercial, no republicar
Entrenamiento de modelos de IA	UK GDPR, copyright, derechos sobre bases de datos	Medio–Alto	Licencia los datos, documenta la base jurídica, sigue la política

Reino Unido vs. EE. UU. vs. UE: en qué se diferencian las leyes de web scraping

Si solo operas en el Reino Unido, puedes saltarte esta sección. Pero la mayoría de las empresas con las que hablo hacen scraping internacionalmente, o al menos extraen datos de sitios alojados en otras jurisdicciones. Las diferencias importan más de lo que parece.

La conclusión práctica: si haces scraping en varias jurisdicciones, cumple la ley más estricta que se aplique. EE. UU. es más permisivo con el acceso a datos públicos bajo hiQ, pero hiQ no es un permiso general (al final se prohibió a la empresa extraer datos de LinkedIn y pagó 500.000 $). La UE tiene una arquitectura TDM más amplia a través de la Directiva DSM. El Reino Unido está en un punto intermedio: sin una excepción comercial amplia de TDM, con derechos fuertes sobre bases de datos y un regulador activo.

Sanciones y aplicación: qué pasa realmente si te pillan

ig_010beacbdecb066e0169f1876f3d8c8191b68ddebcf937b561_compressed.webp

Las advertencias vagas sobre "multas" y "problemas legales" no ayudan a nadie. Aquí están las cifras reales.

Multas del UK GDPR

Sanción máxima: 17,5 millones de libras o el 4% de la facturación global anual, lo que sea mayor.

Ejemplo real: la ICO multó a Clearview AI con 7.552.800 libras en 2022 por extraer imágenes faciales de redes sociales británicas. El First-tier Tribunal anuló la decisión por motivos de jurisdicción, pero el Upper Tribunal en octubre de 2025 permitió el recurso de la ICO y remitió el caso. La ICO señaló que Clearview tenía permiso para recurrir ante la Court of Appeal a diciembre de 2025.

Sanciones penales de la Computer Misuse Act

Sección 1 (acceso no autorizado): hasta 2 años de prisión
Sección 3 (perjuicio no autorizado): hasta 10 años de prisión

La persecución penal por scraping ordinario de páginas públicas es extremadamente rara.

El perfil de riesgo cambia de forma drástica cuando la conducta se parece a hacking, uso indebido de credenciales, elusión de CAPTCHA o afectación del servicio.

Derechos de autor y derechos sobre bases de datos

Daños civiles más medidas cautelares. Las sanciones penales son posibles por infracción comercial dolosa, pero la mayoría de los conflictos de scraping se tramitan como reclamaciones civiles.

Incumplimiento de contrato (ToS)

Daños civiles, cancelación de cuenta y bloqueo de IP. Suele ser la vía de aplicación más común en la práctica, y a menudo es lo primero que ocurre.

Resumen de gravedad de las sanciones

Cómo la herramienta de scraping adecuada reduce tu riesgo legal

La herramienta que elijas no convierte en legal un scraping ilegal. Pero sí puede eliminar riesgos evitables.

Por experiencia, la diferencia entre una herramienta que respeta las señales del sitio y otra que elude todo de forma agresiva suele ser la diferencia entre un proyecto de datos rutinario y un dolor de cabeza legal.

Respeta robots.txt y las señales del sitio web

Una herramienta responsable debería facilitar revisar y respetar robots.txt antes de extraer datos. Aunque no es jurídicamente vinculante, el cumplimiento de robots.txt se considera por los tribunales y la ICO como una prueba de buena fe. La documentación de Thunderbit recomienda a los usuarios extraer solo datos disponibles públicamente y respetar robots.txt y los términos.

Scraping en navegador frente a scraping en la nube

Esta distinción importa legalmente. El scraping en navegador accede solo a lo que el usuario puede ver en su sesión autenticada, básicamente automatizando lo que harías manualmente. El scraping en la nube envía solicitudes desde servidores, lo que es más rápido para sitios públicos pero puede parecer más "acceso automatizado" desde la perspectiva del sitio.

Thunderbit ofrece ambos modos. El scraping en navegador es adecuado para sitios que requieren inicio de sesión, reduciendo el riesgo de "acceso no autorizado" bajo la CMA, mientras que el scraping en la nube funciona bien para páginas de ecommerce públicas donde la velocidad importa. Este doble enfoque permite ajustar el método de scraping al perfil de riesgo legal de cada sitio.

Sin elusión de controles de acceso

Una herramienta que funciona dentro del navegador y no rompe CAPTCHAs ni elude muros de acceso tiene, por definición, menor riesgo bajo la Computer Misuse Act. La extensión de Chrome de Thunderbit funciona dentro de la sesión del navegador del usuario: accede solo a lo que el usuario ya puede ver.

Exportación de datos transparente (apoya el cumplimiento del GDPR)

Thunderbit exporta directamente a Excel, Google Sheets, Airtable o Notion. El usuario controla dónde van los datos. Esto apoya la transparencia del GDPR y la documentación de la base jurídica: sabes exactamente qué datos recopilaste y adónde fueron. Sin procesamiento oculto ni retención de datos por parte de la herramienta.

Limitación de tasa y acceso responsable

Los volúmenes agresivos de solicitudes pueden activar la Sección 3 de la CMA (perjuicio no autorizado). La limitación de tasa no es solo una buena práctica técnica, también es una salvaguarda legal. Las herramientas responsables evitan saturar los servidores, lo que reduce tanto el riesgo legal como la probabilidad de que bloqueen tu IP.

ig_010beacbdecb066e0169f18811201081919686e582502a1db7_compressed.webp

Lista práctica de cumplimiento para web scraping en el Reino Unido

Repasa esto antes de extraer nada:

Lee los Términos de Servicio y la Política de Uso Aceptable del sitio objetivo.
Comprueba el archivo robots.txt y documenta si las rutas relevantes están prohibidas.
Determina si los datos que quieres son datos personales. Si lo son, identifica tu base jurídica bajo el UK GDPR.
Evalúa si estás extrayendo una "parte sustancial" de una base de datos.
Confirma que no estás eludiendo controles técnicos de acceso (CAPTCHAs, inicios de sesión, límites de tasa).
Si tu propósito es investigación no comercial, documéntalo para beneficiarte de la excepción TDM.
Usa limitación de tasa. No satures el servidor objetivo.
Documenta todo: tu base jurídica, la revisión de los ToS, los campos de datos recopilados, los destinos de exportación y el periodo de retención.
Si tienes dudas, busca asesoramiento legal de un solicitor especializado en protección de datos y propiedad intelectual.

Esta lista no sustituye la opinión de un solicitor, pero te da un marco inicial sólido y demuestra buena fe si alguna vez surgen preguntas.

Ideas clave

El web scraping no es ilegal en el Reino Unido, pero está regulado por cuatro marcos legales que se superponen: UK GDPR, derechos de autor/derechos sobre bases de datos, derecho contractual y la Computer Misuse Act.
La legalidad de cualquier scraping depende de qué extraes, cómo accedes, qué dicen los términos del sitio y qué haces con los datos.
El scraping de datos personales conlleva la mayor carga de cumplimiento. Los intereses legítimos suelen ser la única base jurídica viable, y exigen una prueba de equilibrio documentada.
El Reino Unido no tiene una excepción comercial amplia de TDM. El entrenamiento comercial de IA y la reventa de datasets son de alto riesgo sin licencia.
Usa el flujo de decisión y la tabla de escenarios anteriores para evaluar tu situación concreta antes de empezar.
Elige herramientas alineadas con las mejores prácticas de cumplimiento: acceso desde navegador, sin elusión de CAPTCHA, exportación transparente de datos y limitación de tasa. Thunderbit está diseñado con estos principios en mente, pero la responsabilidad del cumplimiento siempre recae en el usuario.
Cuando tengas dudas, documenta tu razonamiento y habla con un solicitor. El coste de una opinión legal casi siempre es menor que el coste de una investigación de la ICO.

Prueba AI Web Scraper con Thunderbit Get Started Free

FAQs

¿Es legal extraer datos públicos en el Reino Unido?

En general, sí: extraer datos públicos tiene menos riesgo que extraer datos protegidos o privados. Pero que algo esté "disponible públicamente" no significa "libre de usar como quieras". El UK GDPR puede seguir aplicándose a datos personales públicos, los derechos de autor pueden aplicarse a expresiones copiadas, los derechos sobre bases de datos pueden proteger colecciones curadas y los ToS pueden restringir el acceso automatizado.

¿Puedo extraer correos y teléfonos de sitios web del Reino Unido?

Si los datos son datos personales (y normalmente los correos y teléfonos lo son), necesitas una base jurídica bajo el UK GDPR. Los intereses legítimos son la base más habitual para la generación de leads B2B, pero debes realizar una prueba de equilibrio, minimizar los datos que recopilas y ofrecer una vía de exclusión. Extraer datos de contacto de la vida personal (móviles, correos personales) tiene mucho más riesgo que los listados de directorios empresariales.

¿Cuál es la diferencia entre web scraping y web crawling según la ley del Reino Unido?

Legalmente no hay una diferencia relevante: la ley se fija en la conducta, no en la etiqueta. Crawling suele significar descubrir o indexar páginas; scraping suele significar extraer datos estructurados. Ambos implican acceso automatizado a sitios web y están sujetos a los mismos marcos legales.

¿Robots.txt hace que el scraping sea ilegal?

No. robots.txt no es jurídicamente vinculante. Sin embargo, ignorarlo aumenta tu exposición legal porque los tribunales y la ICO lo tratan como una prueba de la intención del propietario del sitio. Si ignoras robots.txt y además los ToS del sitio prohíben el scraping, estás acumulando factores de riesgo, y eso es mucho más difícil de defender.

¿Pueden procesarme penalmente por hacer web scraping en el Reino Unido?

Solo si eludes controles de acceso (CAPTCHAs, inicios de sesión, bloqueos de IP) o causas daños a un sistema informático conforme a la Computer Misuse Act 1990. El scraping ordinario de datos realmente públicos, con volúmenes razonables y sin evasión técnica, es extremadamente improbable que termine en cargos penales. El perfil de riesgo cambia de forma drástica cuando la conducta se parece a hacking o a un perjuicio deliberado del servicio.

Más información