É legal fazer web scraping na Europa? Como fazer scraping e manter-se seguro

Em 1º de maio de 2024, a Autoridade Holandesa de Proteção de Dados publicou uma manchete que abalou todas as equipas de dados na Europa: “scraping é quase sempre ilegal.” Se trabalha em vendas, ecommerce ou imobiliário — basicamente, qualquer pessoa que dependa de dados da web — essa frase provavelmente lhe apertou o estômago.

Eu compreendo. Na Thunderbit, falamos todos os dias com equipas de negócio que precisam de dados da web para monitorização de preços, geração de leads e pesquisa de mercado. A frustração é quase sempre a mesma: pesquisam no Google "is web scraping legal in Europe" e cada resposta acaba por ser alguma variação de "depende". Isso não ajuda quando há um prazo a cumprir e uma lista de URLs para fazer scraping.

Por isso, passei semanas a aprofundar as normas reais, as orientações das autoridades de proteção de dados, os registos de fiscalização e a jurisprudência para criar algo mais útil: uma checklist prática de decisão, uma tabela consolidada de salvaguardas, valores reais de coimas e um guia passo a passo para fazer scraping de websites europeus sem acabar do lado errado de um regulador. Quer esteja a extrair preços de produtos da Amazon ou a recolher contactos B2B de um diretório, este artigo vai ajudá-lo a perceber onde estão os limites — e como se manter do lado certo deles.

O que é web scraping (e por que é que as empresas europeias se devem preocupar)?

Web scraping é a extração automática de dados de websites para um formato estruturado — uma folha de cálculo, uma base de dados, um CRM. Em vez de copiar e colar nomes de produtos e preços de 200 páginas, um scraper visita cada página e recolhe os campos de que precisa em colunas organizadas.

Porque é que isto interessa às equipas não técnicas? Porque os dados da web alimentam decisões empresariais reais. As equipas de vendas fazem scraping de diretórios para gerar leads. Os gestores de ecommerce acompanham diariamente os preços dos concorrentes. Os analistas imobiliários monitorizam tendências de anúncios em vários portais. Os investigadores de mercado recolhem avaliações e classificações públicas em grande escala. O mercado global de web scraping está a crescer rapidamente, e as empresas fazem scraping de milhões de pontos de dados todos os dias.

Mas o ambiente regulatório europeu é diferente do dos EUA. O RGPD, a Diretiva Bases de Dados e a evolução das orientações das autoridades de proteção de dados significam que "disponível publicamente" não é o mesmo que "livre para usar". Como disse Aleid Wolfsen, presidente da autoridade holandesa: "público não significa automaticamente permissão para scraping." Perceber as regras antes de começar não é opcional — é a diferença entre um conjunto de dados limpo e uma coima de seis dígitos.

Experimente o Thunderbit para web scraping em conformidade

É legal fazer web scraping na Europa? A resposta curta

Web scraping não é intrinsecamente ilegal na Europa. Mas a sua legalidade depende de três coisas: o que extrai, como extrai e porquê.

Três camadas jurídicas sobrepostas regulam o scraping na UE:

RGPD — aplica-se sempre que extrai dados pessoais (nomes, emails, números de telefone, endereços IP, até identificadores pseudonimizados).
Diretiva Bases de Dados da UE — protege bases de dados quando o criador fez um "investimento substancial" na organização dos dados.
Direito contratual / Termos de Serviço — muitos websites proíbem explicitamente o scraping nos seus Termos de Serviço, e os tribunais da UE aplicaram esses termos.

O ponto crítico: "público" não significa "não regulado". Mesmo dados não pessoais podem estar protegidos por direitos de base de dados ou por contrato. Cada projeto de scraping exige que estas três camadas sejam analisadas em conjunto.

As principais leis da UE que regulam o web scraping

RGPD: quando extrai dados pessoais

Qualquer dado ligado a uma pessoa identificável aciona obrigações do RGPD. Isso inclui nomes, endereços de email, números de telefone, endereços IP, fotos e até dados pseudonimizados que possam ser reidentificados. No momento em que extrai dados pessoais, torna-se um "responsável pelo tratamento" com deveres ao abrigo do RGPD:

Base legal (Artigo 6): precisa de um fundamento jurídico para tratar os dados. O consentimento quase nunca é viável para scraping em grande escala — não pode pedir autorização a milhões de pessoas antes de recolher os dados que publicaram. A base mais citada é o interesse legítimo (Artigo 6(1)(f)), mas exige um teste documentado em três partes: (1) o seu interesse é legítimo, (2) o tratamento é necessário e (3) não afeta de forma desproporcionada os direitos dos titulares dos dados, tendo em conta as suas expectativas razoáveis.
Transparência (Artigo 14): como não está a recolher os dados diretamente da pessoa, tem de a informar — normalmente no prazo de um mês — sobre o que recolheu, porquê e como pode exercer os seus direitos. Se uma notificação individual for desproporcionada, tem de publicar um aviso geral com todo o conteúdo do Artigo 14.
Minimização de dados: recolha apenas o que realmente precisa. Se quer preços de produtos, não recolha também os emails dos vendedores.
Limites de retenção e gestão de direitos: defina períodos de retenção, cumpra pedidos de eliminação e forneça acesso à informação de origem.

O relatório da Task Force ChatGPT do EDPB (adotado em maio de 2024) acrescentou outra camada: afirmou que diferentes fases do tratamento — recolha, pré-processamento, treino, prompts e output — precisam cada uma da sua própria análise de base legal. O EDPB não rejeitou o interesse legítimo para web scraping, mas exigiu a avaliação completa em três partes com salvaguardas adequadas.

Diretiva Bases de Dados da UE: proteção da forma como os dados estão organizados

A Diretiva Bases de Dados concede um direito sui generis aos criadores de bases de dados que fizeram um "investimento substancial" na obtenção, verificação ou apresentação dos seus dados. Se o seu scraping extrair uma "parte substancial" dessa base de dados, pode estar a infringir esse direito.

Na prática, o limiar é relativamente elevado. Fazer scraping de algumas centenas de preços de produtos de um grande retalhista provavelmente não entra nessa categoria. Mas descarregar em massa todo o catálogo de um concorrente — dezenas de milhares de anúncios — pode ultrapassar a linha, especialmente se ameaçar a capacidade do criador de recuperar o investimento. O Tribunal de Justiça da UE já se pronunciou sobre este limiar em vários casos, e a questão-chave é sempre a proporcionalidade.

Na maioria dos casos de scraping empresarial — extrair campos específicos de páginas de produtos, comparar anúncios numa categoria — a Diretiva Bases de Dados representa um risco mais baixo. Mas o risco não é zero, e vale a pena tê-lo em conta ao definir o âmbito do seu scraping.

Termos de Serviço: a variável jurídica inesperada

Esta é uma armadilha comum. Muitos websites proíbem o scraping nos seus Termos de Serviço. Na Europa, violar os Termos de Serviço é um assunto civil (não criminal), mas ainda pode levar a injunções, ações contratuais e exposição financeira real.

Há duas variantes importantes: browsewrap (termos passivos, muitas vezes num link escondido no rodapé da página) é mais difícil de impor porque o utilizador nunca concordou ativamente. Clickwrap (quando assinala uma caixa ou clica em "Aceito") é muito mais exigível.

O caso histórico da UE é Ryanair v. PR Aviation: o tribunal aplicou os Termos de Serviço da Ryanair contra um scraper, mesmo que os direitos de base de dados não se aplicassem, porque o scraper tinha concordado com os termos. Por isso: reveja sempre os Termos de Serviço do site antes de fazer scraping. Se for um acordo clickwrap que proíbe explicitamente o scraping, avance com cautela — ou procure acesso via API.

A Diretiva DSM e o AI Act: exceções para investigação e text/data mining

Nem todo o scraping aciona as mesmas restrições. A Diretiva do Mercado Único Digital (DSM) (2019) introduziu duas exceções de text and data mining (TDM):

Artigo 3: instituições de investigação e organizações de preservação do património cultural podem realizar TDM sobre conteúdo acedido legalmente.
Artigo 4: qualquer pessoa — incluindo entidades comerciais — pode realizar TDM, exceto se o titular dos direitos tiver optado explicitamente por exclusão (por exemplo, via robots.txt, ai.txt ou cabeçalhos TDMRep).

O AI Act da UE (Artigo 53) acrescenta obrigações para os fornecedores de modelos de IA: têm de cumprir os mecanismos de opt-out de TDM e documentar as fontes de dados de treino.

Há uma ressalva: estas exceções cobrem direitos de autor e direitos de base de dados, não o RGPD. Se o seu TDM envolver dados pessoais, continua a precisar de uma base legal separada ao abrigo do RGPD.

A checklist "Posso fazer scraping disto?" para dados europeus

Esta é a secção que gostava de ter encontrado quando comecei a investigar o tema. Todos os artigos jurídicos dizem "depende" — mas como é que isso se traduz, na prática, numa árvore de decisão? Aqui está uma checklist de conformidade passo a passo com portas claras. Cada passo leva a ✅ avançar, ⚠️ acrescentar salvaguardas ou 🛑 parar.

Passo 1: os dados são pessoais ou não pessoais?

Dados não pessoais (preços de produtos, números SKU, endereços comerciais não ligados a indivíduos): menor carga regulatória. Ainda precisa de verificar a Diretiva Bases de Dados e os Termos de Serviço, mas o RGPD não se aplica. ✅ Avance para o Passo 3.

Dados pessoais (nomes, emails, números de telefone, fotos, qualquer identificador ligado a uma pessoa): o RGPD aplica-se. ⚠️ Continue para o Passo 2.

Passo 2: qual é a base legal do RGPD aplicável?

Consentimento: quase nunca é viável para scraping em grande escala. 🛑 A menos que tenha um cenário muito específico e restrito.
Interesse legítimo (Artigo 6(1)(f)): a base mais comum. Mas exige um teste documentado em três partes:
1. O seu interesse é legítimo (o interesse comercial pode qualificar, segundo a decisão do TJUE de 2024 no processo C-621/22).
2. O tratamento é necessário para esse interesse.
3. O teste de ponderação: o seu interesse não se sobrepõe aos direitos dos titulares dos dados, tendo em conta as suas expectativas razoáveis.
Documente o teste de ponderação antes de fazer scraping. Se não conseguir explicar por que razão as pessoas cujos dados está a extrair esperariam razoavelmente esse uso, isso é um sinal de alerta. ⚠️ Avance com interesse legítimo documentado.

Passo 3: os Termos de Serviço do site restringem o scraping?

Acordo clickwrap que proíbe scraping: 🛑 Alto risco. Considere fontes de dados alternativas ou acesso oficial via API.
Browsewrap ou sem restrição nos Termos de Serviço: ⚠️ Menor risco, mas continue a respeitar robots.txt e sinais técnicos de oposição.

Passo 4: aplica-se a Diretiva Bases de Dados?

O alvo é uma base de dados com investimento substancial na organização dos dados?
O seu scraping extrairia uma "parte substancial" dessa base de dados?
Se a resposta for sim a ambas: ⚠️ risco de infração do direito sui generis. Limite o âmbito da extração.

Passo 5: está coberto por uma exceção de investigação ou TDM?

Instituição de investigação registada ou organização de património cultural? O Artigo 3 da Diretiva DSM pode aplicar-se. ✅
TDM comercial? Verifique sinais de opt-out do Artigo 4 (robots.txt, ai.txt, TDMRep). Se o site tiver optado por exclusão, 🛑 pare para essa origem.

Passo 6: aplicou as salvaguardas recomendadas pelas autoridades de proteção de dados?

Se passou as portas acima, o passo final é implementar as salvaguardas recomendadas pela CNIL, pela autoridade holandesa e pelo EDPB. Isto é abordado em detalhe na secção seguinte. ✅ Avance com salvaguardas em vigor.

Salvaguardas de conformidade das autoridades: o que a CNIL, a autoridade holandesa e o EDPB recomendam

Não encontrei nenhum artigo concorrente que consolidasse as salvaguardas das três autoridades europeias mais ativas em matéria de scraping. Por isso, construí esta tabela cruzando a folha de orientação da CNIL sobre web scraping, a orientação da AP holandesa e o relatório da Task Force ChatGPT do EDPB.

Salvaguarda	CNIL	AP holandesa	Task Force do EDPB	Sugestões de implementação
Aviso de transparência do Art. 14	✅ Obrigatório	✅ Obrigatório	✅ Obrigatório	Publique um aviso público com categorias de fontes, finalidades, base legal, retenção, canais de direitos e contacto do DPO
DPIA antes do scraping	✅ Recomendado (obrigatório se houver risco elevado)	✅ Obrigatório	✅ Obrigatório	Documente o teste de ponderação, categorias de dados, riscos e medidas de mitigação antes do lançamento
Minimização de dados	✅ Obrigatória (definir critérios de recolha precisos)	✅ Obrigatória	✅ Obrigatória	Configure o scraper para extrair apenas os campos necessários; elimine imediatamente os dados irrelevantes
Limitação de taxa / respeito pelo robots.txt	✅ Obrigatório (excluir sites que se oponham via robots.txt/CAPTCHA)	—	—	Analise o robots.txt, adicione atrasos entre pedidos, identifique o seu user agent
Pseudonimização / anonimização	⚠️ Recomendado (imediatamente após a recolha)	✅ Fortemente incentivado	✅ Recomendado	Faça hash ou aleatorize IDs; remova URLs de perfis; desfocagem de rostos quando a identidade não for necessária
Período de retenção	✅ Limite definido	✅ O mais curto possível	✅ Limite definido	Automatize agendas de eliminação; separe a cache bruta dos factos extraídos
Mecanismo de opt-out / lista negra	✅ Recomendado (oposição prévia discricionária)	✅ Obrigatório (oposição do Art. 21)	✅ Obrigatório	Disponibilize formulário de opt-out, blacklist de domínios, supressão ao nível da pessoa
Excluir fontes sensíveis	✅ Obrigatório (fóruns de saúde, sites para menores, sites pornográficos, genealogia)	✅ Obrigatório	✅ Obrigatório	Mantenha listas de bloqueio predefinidas para saúde, religião, política, biometria e menores

Uma nota prática da nossa parte: a funcionalidade "AI Suggest Fields" da Thunderbit permite aos utilizadores definir exatamente quais as colunas a extrair — preço, SKU, nome do produto — para que o scraper recolha apenas o que é necessário. Não está a descarregar páginas inteiras em massa; está a selecionar campos estruturados alinhados com o princípio da limitação da finalidade e da minimização de dados. Ainda assim, nenhuma ferramenta torna legal um scraping não conforme. A análise jurídica vem sempre primeiro.

É legal fazer web scraping na Europa para o seu caso de uso? Orientação por setor

A pergunta que vejo mais vezes em fóruns não é "o scraping é legal?" — é "o meu scraping é legal?" A teoria abstrata do RGPD não responde a isso. Por isso, aqui está um resumo por caso de uso empresarial comum.

Caso de uso	Tipo de dados	Principais riscos jurídicos	Resultado provável
Monitorização de preços de ecommerce (anúncios públicos de produtos)	Não pessoal (preços, SKU, nomes de produtos)	Direito sui generis da Diretiva Bases de Dados; violação dos Termos de Serviço	Geralmente menor risco se não houver dados pessoais e não houver extração sistemática de uma "parte substancial" da base de dados
Geração de leads B2B (informações de contacto de diretórios)	Pessoal (nomes, emails, números de telefone)	Base legal do Art. 6 do RGPD; notificação do Art. 14; ePrivacy para contacto eletrónico	Maior risco — exige teste de ponderação de interesse legítimo documentado e obrigação de notificação
Anúncios imobiliários (dados de imóveis em portais)	Misto (moradas podem ser não pessoais; nomes de proprietários são pessoais)	Diretiva Bases de Dados; Termos de Serviço; RGPD se estiver ligado ao proprietário	Risco médio — anonimize dados do proprietário, verifique os Termos de Serviço, respeite robots.txt
Dados para treino de IA (scraping de conteúdo web em grande escala)	Potencialmente pessoal se não for filtrado	RGPD + obrigações do Art. 53 do AI Act da UE	Alto risco — tem de cumprir tanto o RGPD como o AI Act; mecanismos de opt-out e filtragem robusta são obrigatórios

Para cenários de menor risco, como dados públicos de ecommerce, ferramentas com modelos estruturados — como os modelos instantâneos da Thunderbit para Amazon e Shopify — reduzem a exposição porque extraem campos de dados específicos e não pessoais sem recolher conteúdo extra. Para cenários de maior risco envolvendo dados pessoais (geração de leads, por exemplo), a análise jurídica tem de vir primeiro. Nenhum scraper, por muito inteligente que seja, transforma uma recolha não conforme numa recolha conforme.

UE vs. EUA vs. Reino Unido: como se comparam as leis de web scraping

Se a sua empresa opera além-fronteiras, precisa de perceber como as regras diferem. Não encontrei nenhum artigo concorrente que apresente isto como uma tabela comparativa fácil de ler, por isso aqui está.

Dimensão	UE	EUA	Reino Unido (pós-Brexit)
Lei principal	RGPD + Diretiva Bases de Dados + ePrivacy	CFAA + leis estaduais (privacidade federal limitada)	UK GDPR + Data Protection Act 2018
Scraping de dados públicos	Continua a exigir base legal do RGPD se forem dados pessoais	Geralmente legal segundo hiQ v. LinkedIn (dados públicos)	Semelhante à UE; aplica-se orientação do ICO
Execução dos Termos de Serviço	Questão civil; Ryanair v. PR Aviation aplicou o direito sui generis	Van Buren restringiu o CFAA; violação de ToS ≠ crime	Questão civil, semelhante à UE
Proteção de bases de dados	Direito sui generis (forte)	Não existe direito federal equivalente	Direito sui generis mantido
Exceção para IA/TDM	Diretiva DSM Art. 3–4; AI Act Art. 53	Sem exceção federal específica para TDM (doutrina de fair use)	O Reino Unido está a explorar uma exceção TDM (estagnada em 2026)
Principal entidade fiscalizadora	Autoridades nacionais de proteção de dados (CNIL, AP holandesa, etc.)	FTC + procuradores-gerais estaduais	ICO
Tendência recente	Mais rigorosa (AP holandesa: "quase sempre ilegal" para dados pessoais)	Mais permissiva após hiQ	Moderada; em geral segue a direção da UE

Se estiver a fazer scraping de websites europeus ou de dados relativos a residentes na Europa, aplicam-se as regras da UE — mesmo que a sua empresa esteja sediada nos EUA ou no Reino Unido.

Coimas e casos reais: o que acontece de facto se for apanhado (2022–2026)

Esta é a secção que responde à pergunta por trás da pergunta: "Qual é o risco real?" Compilei todas as ações públicas de fiscalização das autoridades de proteção de dados envolvendo web scraping ou dados pessoais extraídos, de 2022 até abril de 2026.

Ano	Autoridade	Alvo	Violação	Coima/Resultado
2022	Garante italiano	Clearview AI	Scraping de imagens faciais sem base legal	Coima de €20M + proibição + ordem de eliminação
2022	AP helénica (Grécia)	Clearview AI	O mesmo — scraping para reconhecimento facial	Coima de €20M + proibição + eliminação
2022	CNIL (França)	Clearview AI	Base de dados de reconhecimento facial	Coima de €20M + possível penalização de €100 mil/dia
2023	CNIL (França)	Clearview AI	Incumprimento da ordem de 2022	Pagamento de penalização de €5,2M
2023	DSB austríaca	Clearview AI	Mais de 30 mil milhões de imagens faciais da web pública	Eliminação + ordem de representante na UE (sem coima publicada)
2024	AP holandesa	Clearview AI	Recolha ilegal de dados para reconhecimento facial	Coima de €30,5M + ordens de conformidade
2024	CNIL (França)	KASPR	Scraping de dados de contacto do LinkedIn para geração de leads	Coima de €240.000 — 160M contactos, dados com visibilidade restrita, retenção de 5 anos
2024	DPC irlandês	X / Grok	Publicações públicas usadas para treino de IA	Acordo de suspensão; inquérito estatutário aberto em 2025
2024	DPC irlandês	Meta	Plano de treino de LLM com conteúdo público do Facebook/Instagram	A Meta suspendeu os planos de treino de IA na UE
2024	Garante italiano	OpenAI	Dados de treino do ChatGPT + transparência	Coima de €15M emitida, anulada pelo tribunal de Roma em março de 2026

O total de penalizações monetárias na UE/EEE na categoria de scraping/open web: mais de €95 milhões (excluindo a coima anulada da OpenAI).

Todas estas grandes coimas visaram scraping em massa de dados biométricos ou pessoais sem qualquer base legal. A Clearview fez scraping de milhares de milhões de imagens faciais. A KASPR fez scraping de 160 milhões de contactos, incluindo dados de perfis do LinkedIn com visibilidade restrita, e guardou-os durante cinco anos.

O scraping proporcional e direcionado de dados públicos não pessoais — como preços de produtos ou números SKU — não foi objeto destas ações de fiscalização. Isso não significa que seja isento de risco, mas ajuda a pôr os números em perspetiva.

Como fazer scraping de websites europeus em segurança: guia passo a passo

Dificuldade: Iniciante
Tempo necessário: ~15 minutos (incluindo revisão de conformidade)
O que vai precisar: navegador Chrome, extensão Thunderbit (o plano gratuito funciona), um URL de destino e uma revisão rápida da checklist acima

Passo 1: defina o seu objetivo e as necessidades de dados

Antes de abrir qualquer ferramenta, escreva porquê precisa dos dados e exatamente que campos precisa. Isto não é apenas boa prática — é a base dos princípios de limitação da finalidade e minimização de dados do RGPD.

Por exemplo: "Preciso dos nomes dos produtos, preços e estado de stock de 50 páginas de produtos da Amazon para atualizar a nossa folha de preços competitivos." Isso é específico. Compare com: "Quero extrair tudo da Amazon." O primeiro passa o teste de minimização; o segundo não.

Passo 2: execute a checklist de conformidade

Siga a checklist de seis passos "Posso fazer scraping disto?" acima. Se alguma etapa devolver 🛑, pare e consulte um advogado antes de prosseguir.

Aplicando o nosso exemplo de preços da Amazon às portas de controlo: os dados são não pessoais (preços, SKU, nomes de produtos) ✅, não há problema de dados pessoais ao abrigo do RGPD ✅, os Termos de Serviço da Amazon devem ser revistos (eles restringem o scraping, por isso considere APIs oficiais de dados de produto quando disponíveis) ⚠️, e o risco da Diretiva Bases de Dados é baixo para 50 produtos ✅.

Passo 3: escolha a abordagem de scraping certa

Método	Facilidade de uso	Suporte à conformidade	Manutenção	Precisão
Copiar e colar manualmente	Baixa	N/A (controla o que copia)	Alta (demorado)	Propenso a erros
Scraper baseado em código (Python, Scrapy)	Baixa (exige programação)	Nenhum incorporado	Alta (falha quando os sites mudam)	Alta se for mantido
Thunderbit (com IA)	Muito alta	Minimização ao nível dos campos integrada	Baixa (a IA adapta-se às mudanças da página)	Alta
API oficial	Média	Máxima (acesso estruturado e autorizado)	Baixa	Máxima

Para utilizadores empresariais sem equipa de desenvolvimento, Thunderbit é o caminho mais rápido. Para sites com APIs oficiais (como a Product Advertising API da Amazon), a API é sempre a opção mais segura — mas muitas vezes tem limitações de volume de dados e de campos.

Passo 4: configure o seu scraper para cumprir a conformidade

No Thunderbit:

Navegue até à página de destino (por exemplo, uma página de listagem de produtos da Amazon).
Clique no ícone da Thunderbit na barra de ferramentas do Chrome e selecione "AI Suggest Fields". A IA analisa a página e sugere colunas como "Nome do Produto", "Preço", "Classificação" e "Estado de Stock".
Remova quaisquer campos de que não precise. Se a IA sugerir "Nome do Vendedor" ou "Email do Vendedor" e só precisar de dados de preços, elimine essas colunas. Isto é minimização de dados na prática.
Use o Field AI Prompt para adicionar instruções como "excluir identificadores pessoais" ou "extrair apenas dados públicos de preços".
Escolha Cloud Scraping para sites públicos de ecommerce (mais rápido, sem necessidade de login) ou Browser Scraping para sites que exigem autenticação.
Antes de clicar em "Scrape", verifique se o robots.txt não proíbe scraping para o seu caso de uso. Pode confirmar isso visitando [domínio]/robots.txt no navegador.

Agora deve ver uma pré-visualização em tabela apenas com os campos que configurou — sem dados pessoais desnecessários, sem metadados supérfluos.

Passo 5: exporte, armazene e faça a gestão dos dados com responsabilidade

Depois do scraping, exporte os dados para Excel, Google Sheets, Airtable ou Notion — a Thunderbit suporta tudo isto com exportação gratuita.

Depois:

Defina um período de retenção. Não guarde dados extraídos indefinidamente. Se está a fazer monitorização semanal de preços, provavelmente não precisa dos dados brutos do mês passado.
Se foram recolhidos dados pessoais (por exemplo, para geração de leads), documente a base legal, publique um aviso de transparência do Artigo 14 e crie um processo para gerir pedidos de opt-out e eliminação.
Automatize os calendários de eliminação sempre que possível. O Scheduled Scraper da Thunderbit pode automatizar scraping recorrente em intervalos definidos, mantendo a mesma configuração ao nível dos campos, para que cada execução permaneça dentro dos seus parâmetros de conformidade.

Dicas para manter a conformidade enquanto faz scraping na Europa

Algumas práticas que aprendi a partir desta pesquisa e de conversas com equipas focadas em conformidade:

Revise sempre os Termos de Serviço antes de fazer scraping de um novo site. Leva dois minutos e pode poupar-lhe meses de dores de cabeça jurídicas.
Use APIs quando estiverem disponíveis. São estruturadas, autorizadas e a opção mais segura. O scraping deve ser o plano de recurso, não o padrão.
Faça uma DPIA para qualquer projeto que envolva dados pessoais em grande escala. A CNIL diz que conjuntos de treino de IA podem criar risco elevado, e a DPIA é a sua prova de responsabilização. Mesmo para projetos mais pequenos, documentar a análise é uma boa prática.
Mantenha um registo de scraping. Registe o que foi extraído, quando, de onde, a sua base legal e o período de retenção. Se alguma vez uma autoridade de proteção de dados perguntar, vai agradecer tê-lo.
Monitore atualizações regulatórias. As orientações das autoridades evoluem rapidamente — a CNIL publicou novas folhas sobre scraping de IA em janeiro de 2026, e espera-se que o EDPB emita mais pareceres. As regras de hoje podem tornar-se mais restritivas amanhã.
Não faça scraping de fontes restritas ou sensíveis. A lista de exclusão obrigatória da CNIL inclui fóruns de saúde, sites usados principalmente por menores, sites pornográficos, sites de genealogia e sites altamente estruturados de dados pessoais. Se estiver a construir um projeto de scraping, mantenha uma lista de bloqueio predefinida.
O tráfego automatizado importa do ponto de vista operacional. A Akamai relatou que os bots representaram 42% do tráfego global da web em 2024, e a Thales/Imperva concluiu que o tráfego automatizado de bots ultrapassou o tráfego humano pela primeira vez, atingindo 51% em 2024. Os reguladores estão cada vez mais a tratar o comportamento de bots, a taxa de pedidos e a evasão como evidência de risco e de injustiça. Agir como um scraper responsável — identificar o seu user agent, limitar a taxa e respeitar sinais de oposição — não é apenas educado; é juridicamente relevante.

Conclusão

Web scraping não é ilegal na Europa. Mas é regulado — especialmente quando envolve dados pessoais.

O resultado jurídico depende de o que extrai (pessoal vs. não pessoal), como extrai (Termos de Serviço, robots.txt, limitação de taxa, minimização ao nível dos campos) e porquê (finalidade e base legal documentadas). O histórico de fiscalização é claro: é no scraping em massa e indiscriminado de dados pessoais, sem qualquer base legal, que as empresas enfrentam coimas de sete e oito dígitos. O scraping proporcional e direcionado de dados públicos não pessoais — com salvaguardas em vigor — enquadra-se numa categoria de risco muito diferente.

O quadro prático:

Use a checklist de decisão antes de cada projeto de scraping.
Aplique as salvaguardas recomendadas pelas autoridades de proteção de dados (transparência, minimização, limites de retenção, mecanismos de opt-out).
Escolha ferramentas que apoiem a conformidade por design. A seleção de campos com IA da Thunderbit, a extração estruturada e a exportação gratuita para Google Sheets, Excel, Airtable e Notion tornam simples extrair apenas os dados de que precisa — nem mais, nem menos.
Documente tudo. Teste de ponderação, lista de fontes, calendário de retenção, DPIA. Se um regulador perguntar, o seu dossiê é a sua defesa.

Aviso obrigatório: este artigo é informativo, não é aconselhamento jurídico. Para cenários de alto risco que envolvam dados pessoais em grande escala, consulte um advogado especializado em privacidade. As regulamentações estão a evoluir, e o custo de errar é real.

Quer experimentar por si próprio um web scraping direcionado e em conformidade? O plano gratuito da Thunderbit permite-lhe experimentar extração estruturada em pequena escala — defina os seus campos, extraia apenas o que precisa e exporte em poucos cliques. Também pode explorar o nosso canal do YouTube para tutoriais passo a passo.

Experimente o Raspador Web IA para extração de dados em conformidade Get Started Free

FAQs

1. É legal fazer web scraping na Europa se os dados estiverem publicamente disponíveis?

A disponibilidade pública não isenta os dados do RGPD se contiverem informação pessoal. Como afirmou a autoridade holandesa, "público não significa automaticamente permissão para scraping." Dados públicos não pessoais (preços de produtos, SKU) representam geralmente menor risco, mas ainda assim tem de verificar a Diretiva Bases de Dados e os Termos de Serviço do site.

2. Posso fazer scraping de emails e números de telefone de websites europeus?

Emails e números de telefone são dados pessoais ao abrigo do RGPD. Precisa de uma base legal — normalmente interesse legítimo com um teste de ponderação documentado — e tem de notificar os indivíduos ao abrigo do Artigo 14. A CNIL multou a KASPR em €240.000 em 2024 por fazer scraping de dados de contacto do LinkedIn sem transparência adequada ou base legal, por isso esta é uma área em que a fiscalização está ativa.

3. Qual é a maior coima aplicada por web scraping ilegal na Europa?

A autoridade holandesa multou a Clearview AI em €30,5 milhões em 2024 pela recolha ilegal de dados de reconhecimento facial a partir da web pública. Várias outras autoridades de proteção de dados da UE multaram a Clearview em €20 milhões cada. O total das coimas relacionadas com scraping na UE/EEE de 2022–2026 ultrapassa €95 milhões.

4. Respeitar o robots.txt torna o web scraping legal na Europa?

Respeitar o robots.txt é uma boa prática e está alinhado com as salvaguardas obrigatórias da CNIL, mas por si só não garante a legalidade. Continua a ter de cumprir o RGPD (se estiverem envolvidos dados pessoais), a Diretiva Bases de Dados e os Termos de Serviço do site. Pense na conformidade com robots.txt como apenas uma camada de uma estrutura de conformidade multinível.

5. Como é que a lei do web scraping difere entre a Europa e os EUA?

A UE é significativamente mais restritiva. O RGPD aplica-se a qualquer dado pessoal — mesmo dados publicamente disponíveis — e a Diretiva Bases de Dados oferece forte proteção a conjuntos de dados organizados. Os EUA não têm um equivalente federal a nenhuma destas leis; após hiQ v. LinkedIn, o scraping de dados públicos é geralmente permitido nos EUA. O Reino Unido pós-Brexit fica algures no meio, com o UK GDPR e os direitos de base de dados mantidos a espelharem em grande medida as regras da UE, mas com fiscalização do ICO. Para empresas com operação internacional, as regras da UE definem a fasquia mais alta — e se estiver a fazer scraping de dados sobre residentes da UE, essas regras aplicam-se independentemente de onde a sua empresa está sediada.

Saiba mais

Extraia dados usando IA

Transfira dados facilmente para Google Sheets, Airtable ou Notion

Chrome Store Rating

PRODUCT HUNT#1 Product of the Week