¿Es legal el web scraping en Europa? Cómo extraer datos y mantenerse seguro

El 1 de mayo de 2024, la Autoridad Holandesa de Protección de Datos lanzó un titular que sacudió a todos los equipos de datos de Europa: “scraping is almost always illegal.” Si trabajas en ventas, ecommerce o bienes raíces — básicamente, cualquier equipo que dependa de datos web — es probable que esa frase te haya hecho pensar lo peor.

Lo entiendo. En Thunderbit, hablamos todos los días con equipos de negocio que necesitan datos web para el seguimiento de precios, la generación de leads y la investigación de mercado. La frustración siempre es la misma: buscan en Google "is web scraping legal in Europe" y todas las respuestas terminan siendo alguna versión de "depende". Eso no ayuda cuando tienes una fecha límite y una lista de URLs que extraer.

Así que pasé semanas investigando las normas reales, las guías de las autoridades de protección de datos, los expedientes sancionadores y la jurisprudencia para crear algo más útil: una lista práctica de decisión, una tabla consolidada de salvaguardas, importes reales de multas y una guía paso a paso para extraer datos de sitios europeos sin acabar en el lado equivocado de un regulador. Tanto si extraes precios de productos de Amazon como si obtienes contactos B2B de un directorio, este artículo te ayudará a ver dónde están los límites y cómo mantenerte dentro de ellos.

¿Qué es el web scraping y por qué debería importarles a las empresas europeas?

El web scraping es la extracción automatizada de datos de sitios web en un formato estructurado: una hoja de cálculo, una base de datos, un CRM. En lugar de copiar y pegar nombres y precios de productos desde 200 páginas, un scraper visita cada página y extrae los campos que necesitas en columnas ordenadas.

¿Por qué importa esto para equipos no técnicos? Porque los datos web impulsan decisiones empresariales reales. Los equipos de ventas extraen directorios para generar leads. Los responsables de ecommerce supervisan los precios de la competencia a diario. Los analistas inmobiliarios siguen tendencias de anuncios en distintos portales. Los investigadores de mercado recopilan reseñas y valoraciones públicas a gran escala. El mercado global del web scraping está creciendo rápido y las empresas extraen millones de datos cada día.

Pero el entorno regulatorio europeo es distinto al de EE. UU. El RGPD, la Directiva sobre bases de datos y la evolución de las guías de las autoridades de protección de datos significan que "disponible públicamente" no equivale a "libre de uso". Como dijo Aleid Wolfsen, presidente de la AP neerlandesa: "que algo sea público no significa automáticamente que haya permiso para hacer scraping". Entender las reglas antes de empezar no es opcional: es la diferencia entre un conjunto de datos limpio y una multa de seis cifras.

Prueba Thunderbit para un web scraping conforme

¿Es legal el web scraping en Europa? La respuesta corta

El web scraping no es ilegal por naturaleza en Europa. Pero su legalidad depende de tres cosas: qué datos extraes, cómo los extraes y por qué.

En la UE, el scraping está regulado por tres capas legales que se solapan:

RGPD: se aplica siempre que extraigas datos personales (nombres, correos electrónicos, teléfonos, direcciones IP o incluso identificadores seudonimizados).
La Directiva sobre bases de datos de la UE: protege las bases de datos en las que el creador ha realizado una "inversión sustancial" para organizar la información.
Derecho contractual / Términos de servicio: muchos sitios prohíben explícitamente el scraping en sus ToS, y los tribunales de la UE han hecho valer esas condiciones.

El punto clave: "público" no significa "sin regulación". Incluso los datos no personales pueden estar protegidos por derechos sobre bases de datos o por el derecho contractual. Todo proyecto de scraping requiere analizar las tres capas en conjunto.

Las principales leyes de la UE que regulan el web scraping

RGPD: cuando extraes datos personales

Cualquier dato vinculado a una persona identificable activa las obligaciones del RGPD. Eso incluye nombres, direcciones de correo electrónico, números de teléfono, direcciones IP, fotos e incluso datos seudonimizados que puedan volver a identificarse. En el momento en que extraes datos personales, te conviertes en un "responsable del tratamiento" con obligaciones bajo el RGPD:

Base jurídica (artículo 6): necesitas una razón legal para tratar los datos. El consentimiento casi nunca es práctico para scraping a gran escala: no puedes pedir permiso a millones de personas antes de recopilar la información que publicaron. La base más citada es el interés legítimo (artículo 6(1)(f)), pero requiere una prueba documentada en tres partes: (1) tu interés es legítimo, (2) el tratamiento es necesario y (3) no afecta de forma desproporcionada a los derechos de los interesados, teniendo en cuenta sus expectativas razonables.
Transparencia (artículo 14): como no obtienes los datos directamente de la persona, debes informarle — normalmente en el plazo de un mes — sobre qué has recopilado, por qué y cómo puede ejercer sus derechos. Si la notificación individual resulta desproporcionada, debes publicar un aviso general con todo el contenido del artículo 14.
Minimización de datos: recopila solo lo que realmente necesitas. Si quieres precios de productos, no captures también los correos electrónicos de los vendedores.
Límites de conservación y gestión de derechos: define periodos de retención, atiende las solicitudes de supresión y facilita acceso a la información de origen.

El informe del grupo de trabajo de ChatGPT del CEPD (adoptado en mayo de 2024) añadió otra capa: señaló que las distintas etapas del tratamiento — recopilación, preprocesamiento, entrenamiento, prompts y salida — necesitan cada una su propio análisis de base jurídica. El CEPD no rechazó el interés legítimo para el web scraping, pero sí insistió en una evaluación completa de tres partes con las salvaguardas adecuadas.

La Directiva sobre bases de datos de la UE: protección de cómo se organiza la información

La Directiva sobre bases de datos concede un derecho sui generis a los creadores de bases de datos que realizaron una "inversión sustancial" para obtener, verificar o presentar sus datos. Si tu scraping extrae una "parte sustancial" de esa base de datos, podrías infringir ese derecho.

En la práctica, el umbral es relativamente alto. Extraer unos cientos de precios de productos de un gran minorista probablemente no sea suficiente. Pero descargar en bloque todo el catálogo de un competidor — decenas de miles de anuncios — sí podría cruzar la línea, especialmente si pone en peligro la capacidad del creador para recuperar su inversión. El Tribunal de Justicia de la UE se ha pronunciado sobre este umbral en varios casos, y la pregunta clave siempre es la proporcionalidad.

Para la mayoría del scraping empresarial — extraer campos concretos de páginas de productos, comparar anuncios en una categoría — la Directiva sobre bases de datos supone un riesgo menor. Pero el riesgo no es cero, y conviene tenerlo presente al diseñar el alcance del scraping.

Términos de servicio: la variable del derecho contractual

Esto es lo que suele pillar a la gente por sorpresa. Muchos sitios prohíben el scraping en sus Términos de servicio. En Europa, incumplir los ToS es un asunto civil (no penal), pero aun así puede dar lugar a medidas cautelares, demandas contractuales y una exposición financiera real.

Hay dos variantes que conviene conocer: browsewrap (términos pasivos, a menudo con un enlace escondido al pie de la página) es más difícil de hacer valer porque el usuario nunca aceptó activamente. Clickwrap (cuando marcas una casilla o haces clic en "Acepto") es mucho más exigible.

El caso europeo emblemático es Ryanair v. PR Aviation: el tribunal hizo cumplir los ToS de Ryanair frente a un scraper aunque no se aplicaban los derechos sobre bases de datos, porque el scraper había aceptado esos términos. Así que revisa siempre los ToS de un sitio antes de extraer datos. Si es un acuerdo tipo clickwrap que prohíbe explícitamente el scraping, procede con cautela — o busca acceso por API.

La Directiva DSM y la Ley de IA: excepciones para investigación y text and data mining

No todo scraping activa las mismas restricciones. La Directiva sobre derechos de autor en el Mercado Único Digital (DSM) de 2019 introdujo dos excepciones para text and data mining (TDM):

Artículo 3: las instituciones de investigación y las organizaciones de patrimonio cultural pueden realizar TDM sobre contenido al que hayan accedido legalmente.
Artículo 4: cualquier persona — incluidas las entidades comerciales — puede realizar TDM salvo que el titular de derechos se haya reservado expresamente ese uso (por ejemplo, mediante robots.txt, ai.txt o cabeceras TDMRep).

La Ley de IA de la UE (artículo 53) añade obligaciones para los proveedores de modelos de IA: deben respetar los mecanismos de exclusión de TDM y documentar sus fuentes de datos de entrenamiento.

Una salvedad importante: estas excepciones cubren derechos de autor y derechos sobre bases de datos, no el RGPD. Si tu TDM incluye datos personales, sigues necesitando una base jurídica independiente bajo el RGPD.

La lista de decisión "¿puedo extraer estos datos?" para datos europeos

Esta es la sección que me habría gustado tener cuando empecé a investigar este tema. Todos los artículos legales dicen "depende", pero ¿cómo se ve realmente el árbol de decisión? Aquí tienes una lista de cumplimiento paso a paso con puntos de control claros. Cada paso lleva a ✅ seguir, ⚠️ añadir salvaguardas o 🛑 detenerse.

Paso 1: ¿Los datos son personales o no personales?

Datos no personales (precios de productos, números SKU, direcciones comerciales no vinculadas a personas): menor carga regulatoria. Aun así, debes revisar la Directiva sobre bases de datos y los ToS, pero el RGPD no se aplica. ✅ Pasa al paso 3.

Datos personales (nombres, correos electrónicos, números de teléfono, fotos, cualquier identificador vinculado a una persona): se aplica el RGPD. ⚠️ Continúa con el paso 2.

Paso 2: ¿Qué base jurídica del RGPD se aplica?

Consentimiento: casi nunca es viable para scraping a gran escala. 🛑 Salvo que tengas un caso muy específico y acotado.
Interés legítimo (artículo 6(1)(f)): la base más habitual. Pero exige una prueba documentada en tres partes:
1. Tu interés es legítimo (el interés comercial puede encajar, según la sentencia del TJUE de 2024 en el asunto C-621/22).
2. El tratamiento es necesario para ese interés.
3. La prueba de ponderación: tu interés no prevalece sobre los derechos de los interesados, teniendo en cuenta sus expectativas razonables.
Documenta la prueba de ponderación antes de extraer datos. Si no puedes explicar por qué las personas cuyos datos vas a extraer esperarían razonablemente ese uso, es una señal de alarma. ⚠️ Sigue con interés legítimo documentado.

Paso 3: ¿Los ToS del sitio restringen el scraping?

Acuerdo clickwrap que prohíbe el scraping: 🛑 Alto riesgo. Considera fuentes de datos alternativas o acceso oficial por API.
Browsewrap o sin restricción en los ToS: ⚠️ Menor riesgo, pero aun así respeta robots.txt y las señales técnicas de oposición.

Paso 4: ¿Se aplica la Directiva sobre bases de datos?

¿El objetivo es una base de datos con una inversión sustancial en la organización de los datos?
¿Tu scraping extraería una "parte sustancial" de esa base de datos?
Si la respuesta a ambas es sí: ⚠️ Riesgo de infracción del derecho sui generis. Limita el alcance de la extracción.

Paso 5: ¿Estás cubierto por una excepción de investigación o TDM?

¿Eres una institución de investigación registrada o una organización de patrimonio cultural? Puede aplicarse el artículo 3 de la Directiva DSM. ✅
¿TDM comercial? Comprueba las señales de exclusión del artículo 4 (robots.txt, ai.txt, TDMRep). Si el sitio se ha excluido, 🛑 detente para esa fuente.

Paso 6: ¿Has aplicado las salvaguardas recomendadas por la autoridad de protección de datos?

Si has superado los controles anteriores, el paso final es aplicar las salvaguardas que recomiendan la CNIL, la AP neerlandesa y el CEPD. Las analizamos en detalle en la siguiente sección. ✅ Sigue con las salvaguardas implementadas.

Salvaguardas de cumplimiento de las autoridades de protección de datos: lo que recomiendan CNIL, la AP neerlandesa y el CEPD

No encontré ningún artículo de la competencia que consolidara las salvaguardas de los tres reguladores más activos de Europa en materia de scraping. Así que construí esta tabla cruzando la hoja temática de CNIL sobre web scraping, la guía de la AP neerlandesa y el informe del grupo de trabajo de ChatGPT del CEPD.

Salvaguarda	CNIL	AP neerlandesa	Grupo de trabajo del CEPD	Consejos de implementación
Aviso de transparencia del art. 14	✅ Obligatorio	✅ Obligatorio	✅ Obligatorio	Publica un aviso visible con categorías de fuentes, finalidades, base jurídica, conservación, canales para ejercer derechos y contacto del DPD
EIPD antes del scraping	✅ Recomendado (obligatorio si el riesgo es alto)	✅ Obligatorio	✅ Obligatorio	Documenta la prueba de ponderación, categorías de datos, riesgos y medidas de mitigación antes de lanzar
Minimización de datos	✅ Obligatorio (define criterios precisos de recopilación)	✅ Obligatorio	✅ Obligatorio	Configura el scraper para extraer solo los campos necesarios; elimina de inmediato los datos irrelevantes
Limitación de ritmo / respeto a robots.txt	✅ Obligatorio (excluye sitios que se opongan mediante robots.txt/CAPTCHA)	—	—	Interpreta robots.txt, añade retrasos entre solicitudes e identifica tu user agent
Seudonimización / anonimización	⚠️ Recomendado (inmediatamente después de la recopilación)	✅ Fuertemente recomendado	✅ Recomendado	Hash o aleatoriza identificadores; elimina URLs de perfiles; difumina rostros cuando no haga falta la identidad
Periodo de conservación	✅ Límite definido	✅ Lo más corto posible	✅ Límite definido	Automatiza los calendarios de borrado; separa la caché bruta de los datos extraídos
Mecanismo de exclusión / lista negra	✅ Recomendado (oposición previa discrecional)	✅ Obligatorio (derecho de oposición del art. 21)	✅ Obligatorio	Ofrece un formulario de exclusión, lista negra de dominios y supresión a nivel de persona
Excluir fuentes sensibles	✅ Obligatorio (foros de salud, sitios de menores, sitios pornográficos, genealogía)	✅ Obligatorio	✅ Obligatorio	Mantén listas de bloqueo predeterminadas para salud, religión, política, biometría y menores

Un apunte práctico de nuestra parte: la función "AI Suggest Fields" de Thunderbit permite a los usuarios definir exactamente qué columnas extraer — precio, SKU, nombre del producto — para que el scraper recopile solo lo necesario. No estás descargando páginas enteras de forma masiva; estás seleccionando campos estructurados que se ajustan a los principios de limitación de la finalidad y minimización de datos. Dicho esto, ninguna herramienta convierte en legal un scraping que no cumple la normativa. El análisis jurídico siempre va primero.

¿Es legal el web scraping en Europa para tu caso de uso? Guía por sector

La pregunta que más veo en los foros no es "¿es legal el scraping?", sino "¿es legal mi scraping?" La teoría abstracta del RGPD no responde a eso. Así que aquí tienes un desglose por casos de uso empresariales habituales.

Caso de uso	Tipo de datos	Principales riesgos legales	Resultado probable
Seguimiento de precios en ecommerce (anuncios públicos de productos)	No personales (precios, SKU, nombres de productos)	Derecho sui generis de la Directiva sobre bases de datos; incumplimiento de ToS	Generalmente menor riesgo si no hay datos personales y no se extrae sistemáticamente una "parte sustancial" de la base de datos
Generación de leads B2B (información de contacto de directorios)	Personales (nombres, correos, teléfonos)	Base jurídica del art. 6 del RGPD; notificación del art. 14; ePrivacy para el contacto electrónico	Mayor riesgo: requiere prueba documentada de interés legítimo y obligación de notificación
Anuncios inmobiliarios (datos de propiedades en portales)	Mixtos (las direcciones pueden no ser personales; los nombres de propietarios sí lo son)	Directiva sobre bases de datos; ToS; RGPD si hay datos vinculados al propietario	Riesgo medio: anonimiza los datos del propietario, revisa los ToS y respeta robots.txt
Datos de entrenamiento para IA (scraping masivo de contenido web)	Potencialmente personales si no se filtran	RGPD + obligaciones del art. 53 de la Ley de IA de la UE sobre TDM	Alto riesgo: debes cumplir tanto con el RGPD como con la Ley de IA; se requieren mecanismos de exclusión y un filtrado robusto

Para escenarios de menor riesgo, como los datos públicos de ecommerce, herramientas con plantillas estructuradas — como las plantillas instantáneas de Thunderbit para Amazon y Shopify — reducen la exposición porque extraen campos de datos concretos y no personales sin recoger contenido innecesario. Para escenarios de mayor riesgo que implican datos personales (por ejemplo, generación de leads), el análisis jurídico debe ir primero. Ningún scraper, por inteligente que sea, convierte una recopilación no conforme en una recopilación conforme.

UE vs. EE. UU. vs. Reino Unido: cómo se comparan las leyes sobre web scraping

Si tu empresa opera a través de fronteras, necesitas entender cómo cambian las reglas. No encontré ningún artículo de la competencia que presentara esto como una tabla comparativa fácil de revisar, así que aquí la tienes.

Dimensión	UE	EE. UU.	Reino Unido (pos-Brexit)
Ley principal	RGPD + Directiva sobre bases de datos + ePrivacy	CFAA + leyes estatales (privacidad de datos federal limitada)	UK GDPR + Data Protection Act 2018
Scraping de datos públicos	Sigue requiriendo base jurídica del RGPD si son personales	Generalmente legal según hiQ v. LinkedIn (datos públicos)	Similar a la UE; aplica la guía de la ICO
Aplicación de ToS	Asunto civil; Ryanair v. PR Aviation hizo cumplir el derecho sui generis	Van Buren limitó el CFAA; incumplir ToS ≠ delito penal	Asunto civil, similar a la UE
Protección de bases de datos	Derecho sui generis (fuerte)	No existe un derecho federal equivalente	Se mantiene el derecho sui generis
Excepción de IA/TDM	Art. 3–4 de la Directiva DSM; art. 53 de la Ley de IA	No hay excepción federal de TDM (doctrina de fair use)	El Reino Unido estudia una excepción de TDM (estancada a 2026)
Órgano de control principal	Autoridades nacionales de protección de datos (CNIL, AP neerlandesa, etc.)	FTC + fiscalías generales estatales	ICO
Tendencia reciente	Más estricta (AP neerlandesa: "casi siempre ilegal" para datos personales)	Más permisiva tras hiQ	Moderada; en general sigue la dirección de la UE

Si extraes datos de sitios europeos o sobre residentes europeos, se aplican las normas de la UE, incluso si tu empresa está en EE. UU. o en Reino Unido.

Multas y casos reales: qué pasa realmente si te pillan (2022–2026)

Esta es la sección que responde a la pregunta de fondo: "¿Cuál es el riesgo real?" He recopilado todas las acciones públicas de las autoridades de protección de datos relacionadas con web scraping o con datos personales extraídos entre 2022 y abril de 2026.

Año	Autoridad sancionadora	Objetivo	Infracción	Multa/resultado
2022	Garante italiano	Clearview AI	Extracción de imágenes faciales sin base jurídica	Multa de 20 millones de euros + prohibición + orden de supresión
2022	AP helénica (Grecia)	Clearview AI	Lo mismo: scraping para reconocimiento facial	Multa de 20 millones de euros + prohibición + borrado
2022	CNIL (Francia)	Clearview AI	Base de datos de reconocimiento facial	Multa de 20 millones de euros + posible sanción de 100.000 €/día
2023	CNIL (Francia)	Clearview AI	Incumplimiento de la orden de 2022	Pago coercitivo de 5,2 millones de euros
2023	DSB austríaca	Clearview AI	Más de 30.000 millones de imágenes faciales de la web pública	Orden de supresión + representante en la UE (sin multa publicada)
2024	AP neerlandesa	Clearview AI	Recopilación ilegal de datos para reconocimiento facial	Multa de 30,5 millones de euros + órdenes de cumplimiento
2024	CNIL (Francia)	KASPR	Scraping de datos de contacto de LinkedIn para generación de leads	Multa de 240.000 euros: 160 millones de contactos, datos con visibilidad restringida, conservación de 5 años
2024	DPC irlandés	X / Grok	Publicaciones públicas usadas para entrenamiento de IA	Acuerdo de suspensión; investigación estatutaria abierta en 2025
2024	DPC irlandés	Meta	Entrenamiento previsto de LLM con contenido público de Facebook/Instagram	Meta pausó sus planes de entrenamiento de IA en la UE
2024	Garante italiano	OpenAI	Datos de entrenamiento de ChatGPT + transparencia	Se impuso una multa de 15 millones de euros, anulada por un tribunal de Roma en marzo de 2026

El total de sanciones monetarias en la UE/EEE en la categoría de scraping/open web: más de 95 millones de euros (excluida la multa anulada a OpenAI).

Todas estas grandes multas se dirigieron a scraping masivo de datos biométricos o personales sin ninguna base jurídica. Clearview extrajo miles de millones de imágenes faciales. KASPR extrajo 160 millones de contactos, incluidos datos de perfiles de LinkedIn con visibilidad restringida, y los conservó durante cinco años.

El scraping proporcionado y dirigido de datos públicos no personales — como precios de productos o números SKU — no ha sido objeto de acciones sancionadoras. Eso no significa que no tenga riesgo, pero ayuda a poner las cifras en contexto.

Cómo extraer datos de sitios web europeos de forma segura: guía paso a paso

Dificultad: Principiante
Tiempo necesario: ~15 minutos (incluida la revisión de cumplimiento)
Lo que necesitarás: navegador Chrome, extensión Thunderbit (la versión gratuita sirve), una URL objetivo y una revisión rápida de la lista anterior

Paso 1: define tu finalidad y tus necesidades de datos

Antes de abrir cualquier herramienta, anota por qué necesitas los datos y exactamente qué campos necesitas. Esto no es solo buena práctica: es la base de los principios de limitación de la finalidad y minimización de datos del RGPD.

Por ejemplo: "Necesito nombres de producto, precios y estado de stock de 50 páginas de productos de Amazon para actualizar nuestra hoja de precios competitivos". Eso es específico. Compáralo con: "Quiero extraer todo de Amazon". El primero supera la prueba de minimización; el segundo no.

Paso 2: ejecuta la lista de cumplimiento

Recorre la lista de seis pasos de "¿puedo extraer estos datos?" que aparece arriba. Si algún control devuelve 🛑, detente y consulta con el equipo legal antes de continuar.

Si aplicamos nuestro ejemplo de precios de Amazon a los controles: los datos son no personales (precios, SKU, nombres de producto) ✅, no hay un problema de datos personales del RGPD ✅, conviene revisar los ToS de Amazon (sí restringen el scraping, así que considera las API oficiales de datos de producto cuando estén disponibles) ⚠️, y el riesgo de la Directiva sobre bases de datos es bajo para 50 productos ✅.

Paso 3: elige el enfoque de scraping adecuado

Método	Facilidad de uso	Soporte de cumplimiento	Mantenimiento	Precisión
Copiar y pegar manualmente	Baja	N/A (tú controlas lo que copias)	Alta (consume mucho tiempo)	Propenso a errores
Scraper basado en código (Python, Scrapy)	Baja (requiere programación)	Ninguno integrado	Alto (se rompe cuando cambian los sitios)	Alta si se mantiene
Thunderbit (potenciado por IA)	Muy alta	Minimización integrada a nivel de campo	Bajo (la IA se adapta a cambios en la página)	Alta
API oficial	Media	La más alta (acceso estructurado y autorizado)	Bajo	La más alta

Para usuarios de negocio sin equipo de desarrollo, Thunderbit es la vía más rápida. Para sitios con API oficial (como Amazon Product Advertising API), la API siempre es la opción más segura, aunque a menudo tenga limitaciones en volumen de datos y campos.

Paso 4: configura tu scraper para cumplir la normativa

En Thunderbit:

Navega a la página objetivo (por ejemplo, una página de producto de Amazon).
Haz clic en el icono de Thunderbit en la barra de herramientas de Chrome y selecciona "AI Suggest Fields". La IA analiza la página y sugiere columnas como "Nombre del producto", "Precio", "Valoración" y "Estado de stock".
Elimina cualquier campo que no necesites. Si la IA sugiere "Nombre del vendedor" o "Correo electrónico del vendedor" y tú solo necesitas datos de precios, borra esas columnas. Eso es minimización de datos en la práctica.
Usa el Field AI Prompt para añadir instrucciones como "excluir identificadores personales" o "extraer solo datos públicos de precios".
Elige Cloud Scraping para sitios de ecommerce públicos (más rápido, sin necesidad de inicio de sesión) o Browser Scraping para sitios que requieran autenticación.
Antes de hacer clic en "Scrape", verifica que robots.txt no prohíba el scraping para tu caso de uso. Puedes comprobarlo visitando [domain]/robots.txt en tu navegador.

Ahora deberías ver una vista previa en tabla con solo los campos que has configurado: sin datos personales innecesarios, sin metadatos superfluos.

Paso 5: exporta, almacena y gestiona los datos con responsabilidad

Después de extraerlos, exporta tus datos a Excel, Google Sheets, Airtable o Notion: Thunderbit ofrece exportación gratuita para todos ellos.

Después:

Define un periodo de conservación. No almacenes datos extraídos indefinidamente. Si haces seguimiento semanal de precios, probablemente no necesites los datos brutos del mes pasado.
Si se recopilaron datos personales (por ejemplo, para generación de leads), documenta tu base jurídica, publica un aviso de transparencia del artículo 14 y establece un proceso para gestionar solicitudes de exclusión y supresión.
Automatiza los borrados siempre que sea posible. El Scheduled Scraper de Thunderbit puede automatizar extracciones recurrentes en intervalos definidos manteniendo la misma configuración a nivel de campo, de modo que cada ejecución se mantenga dentro de tus parámetros de cumplimiento.

Consejos para mantener el cumplimiento mientras haces scraping en Europa

Algunas prácticas que he aprendido investigando este tema y hablando con equipos muy enfocados en cumplimiento:

Revisa siempre los ToS antes de extraer datos de un sitio nuevo. Tarda dos minutos y puede ahorrarte meses de problemas legales.
Usa APIs cuando estén disponibles. Son estructuradas, autorizadas y la vía más segura. El scraping debería ser el plan B, no el predeterminado.
Haz una EIPD para cualquier proyecto que implique datos personales a gran escala. La CNIL dice que los conjuntos de entrenamiento para IA pueden generar alto riesgo, y la EIPD es tu prueba de diligencia. Incluso en proyectos pequeños, documentar tu análisis es una buena idea.
Lleva un registro de scraping. Anota qué se extrajo, cuándo, de dónde, tu base jurídica y tu periodo de conservación. Si alguna vez te lo pide una autoridad de protección de datos, agradecerás tenerlo.
Sigue los cambios regulatorios. Las guías de las autoridades evolucionan rápido: la CNIL publicó nuevas fichas sobre scraping para IA en enero de 2026, y se espera que el CEPD emita más opiniones. Las reglas de hoy pueden endurecerse mañana.
No extraigas datos de fuentes restringidas o sensibles. La lista obligatoria de exclusión de la CNIL incluye foros de salud, sitios utilizados principalmente por menores, sitios pornográficos, sitios de genealogía y sitios de datos personales muy estructurados. Si vas a montar un proyecto de scraping, mantén una lista de bloqueo por defecto.
El tráfico automatizado es un asunto importante a nivel operativo. Akamai informó de que los bots representaron el 42 % del tráfico web total en 2024, y Thales/Imperva descubrió que el tráfico automatizado de bots superó por primera vez al tráfico humano, alcanzando el 51 % en 2024. Los reguladores cada vez consideran más el comportamiento del bot, la tasa de solicitudes y la evasión como indicios de riesgo e injusticia. Comportarse como un scraper responsable — identificando tu user agent, limitando la tasa y respetando las señales de oposición — no es solo educación; también tiene relevancia jurídica.

Conclusión

El web scraping no es ilegal en Europa. Pero está regulado, especialmente cuando intervienen datos personales.

El resultado legal depende de qué extraes (personal o no personal), cómo lo extraes (ToS, robots.txt, limitación de tasa, minimización a nivel de campo) y por qué (finalidad y base jurídica documentadas). El historial sancionador es claro: el scraping masivo e indiscriminado de datos personales sin ninguna base jurídica es donde las empresas se enfrentan a multas de siete y ocho cifras. El scraping proporcionado y dirigido de datos públicos no personales — con salvaguardas en su lugar — se sitúa en una categoría de riesgo muy distinta.

El marco práctico:

Usa la lista de decisión antes de cada proyecto de scraping.
Aplica las salvaguardas recomendadas por las autoridades de protección de datos (transparencia, minimización, límites de conservación, mecanismos de exclusión).
Elige herramientas que apoyen el cumplimiento desde el diseño. La selección de campos con IA de Thunderbit, la extracción estructurada y la exportación gratuita a Google Sheets, Excel, Airtable y Notion hacen que sea sencillo extraer solo los datos que necesitas, ni más ni menos.
Documenta todo. Prueba de ponderación, lista de fuentes, calendario de conservación, EIPD. Si un regulador pregunta, tu documentación será tu defensa.

Aviso obligatorio: este artículo es informativo, no asesoramiento jurídico. Para escenarios de alto riesgo que impliquen datos personales a gran escala, consulta con un abogado especializado en privacidad. La normativa evoluciona y el coste de equivocarse es real.

¿Quieres probar por tu cuenta un web scraping conforme y dirigido? El plan gratuito de Thunderbit te permite experimentar con extracción estructurada a pequeña escala: define tus campos, extrae solo lo que necesitas y exporta en unos clics. También puedes explorar nuestro canal de YouTube para ver tutoriales paso a paso.

Prueba AI Web Scraper para una extracción de datos conforme Get Started Free

Preguntas frecuentes

1. ¿Es legal el web scraping en Europa si los datos están disponibles públicamente?

Que los datos sean públicos no los excluye del RGPD si contienen información personal. Como indicó la AP neerlandesa, "que algo sea público no significa automáticamente que haya permiso para hacer scraping". Los datos públicos no personales (precios de productos, SKU) suelen implicar menos riesgo, pero aun así debes revisar la Directiva sobre bases de datos y los Términos de servicio del sitio.

2. ¿Puedo extraer correos electrónicos y teléfonos de sitios web europeos?

Los correos electrónicos y los teléfonos son datos personales según el RGPD. Necesitas una base jurídica — normalmente interés legítimo con una prueba de ponderación documentada — y debes notificar a las personas conforme al artículo 14. La CNIL multó a KASPR con 240.000 euros en 2024 por extraer datos de contacto de LinkedIn sin suficiente transparencia ni base jurídica, así que es un ámbito con una aplicación activa.

3. ¿Cuál es la mayor multa por web scraping ilegal en Europa?

La AP neerlandesa multó a Clearview AI con 30,5 millones de euros en 2024 por recopilar ilegalmente datos de reconocimiento facial de la web pública. Otras autoridades europeas de protección de datos impusieron a Clearview multas de 20 millones de euros cada una. Las multas totales relacionadas con scraping en la UE/EEE entre 2022 y 2026 superan los 95 millones de euros.

4. ¿Respetar robots.txt hace legal el web scraping en Europa?

Respetar robots.txt es una buena práctica y se alinea con las salvaguardas obligatorias de la CNIL, pero por sí solo no garantiza la legalidad. Sigues teniendo que cumplir con el RGPD (si hay datos personales), la Directiva sobre bases de datos y los Términos de servicio del sitio. Piensa en el cumplimiento de robots.txt como una capa dentro de un marco de cumplimiento multinivel.

5. ¿En qué se diferencia la ley de web scraping en Europa y en EE. UU.?

La UE es considerablemente más estricta. El RGPD se aplica a cualquier dato personal, incluso si es públicamente disponible, y la Directiva sobre bases de datos ofrece una fuerte protección a los conjuntos de datos estructurados. EE. UU. no tiene un equivalente federal de ninguna de estas leyes; tras hiQ v. LinkedIn, el scraping de datos públicos suele estar permitido en EE. UU. El Reino Unido, después del Brexit, se sitúa en un punto intermedio, con UK GDPR y los derechos sobre bases de datos retenidos que en gran medida reflejan las normas de la UE, pero con aplicación de la ICO. Para negocios transfronterizos, las reglas de la UE marcan el listón más alto — y si extraes datos sobre residentes de la UE, esas reglas se aplican independientemente de dónde esté ubicada tu empresa.

Más información