Domine o Web Scraping no n8n: fluxos de automação

Há alguns meses, um dos nossos usuários nos mandou um print de um fluxo no n8n com 14 nós, meia dúzia de post-its e um assunto que dizia só: “Socorro”. Ele tinha seguido um tutorial popular de web scraping no n8n, montado um demo bonitinho com 10 linhas rodando num site de teste e, depois, tentado puxar preços reais de concorrentes em 200 páginas de produto. O resultado? Um loop de paginação quebrado, uma parede de erro 403 e um agendador silencioso que parou de disparar depois da primeira terça-feira.

É justamente nesse intervalo — entre o demo e a operação de verdade — que a maioria dos projetos de scraping no n8n morre. Passei anos construindo e trabalhando com automação, e posso dizer: a parte de extrair dados raramente é a mais difícil. O problema quase sempre vem depois da primeira extração que dá certo. Paginação, agendamento, bloqueios anti-bot, limpeza de dados, exportação e — o grande vilão — manutenção quando o site muda de layout pela terceira vez no trimestre. Este guia cobre o fluxo inteiro, do seu primeiro nó HTTP Request até um workflow recorrente e pronto para produção no n8n. E, quando a abordagem “faça você mesmo” do n8n bater no limite, vou mostrar onde ferramentas com IA como o Thunderbit podem poupar horas (ou dias) de dor de cabeça.

O que é Web Scraping no n8n (e por que a maioria dos tutoriais só arranha a superfície)

n8n é uma plataforma de automação de workflows open source e low-code. Pensa nela como uma tela visual em que você conecta “nós” — cada um faz uma tarefa específica (buscar uma página, interpretar HTML, mandar uma mensagem no Slack, gravar no Google Sheets) — e encaixa tudo em fluxos automatizados. Não exige programação pesada, embora você possa usar JavaScript quando precisar.

“Web scraping no n8n” significa usar os nós nativos HTTP Request e HTML do n8n (além de nós da comunidade) para buscar, interpretar e processar dados de sites dentro desses workflows automatizados. O núcleo tem dois passos: Buscar (o nó HTTP Request traz o HTML bruto de uma URL) e Extrair (o nó HTML usa seletores CSS para puxar os dados que interessam — nomes de produto, preços, emails, o que for).

A plataforma é gigante: em abril de 2026, o n8n tinha , mais de 230 mil usuários ativos, 9.166+ templates de workflows da comunidade e lança uma nova versão menor praticamente toda semana. Em março de 2025, a empresa levantou . Tração não falta.

Mas existe uma lacuna que quase ninguém comenta. O tutorial de scraping mais popular do n8n no dev.to (de Lakshay Nasa, publicado pela organização “Extract by Zyte”) prometia paginação na “Parte 2”. A Parte 2 saiu — e o próprio autor acabou concluindo: “o N8N nos dá um modo de paginação padrão dentro do nó HTTP Request, em Options, e, embora pareça conveniente, na minha experiência ele não se comportou de forma confiável em casos típicos de web scraping.” No fim, o autor acabou jogando a paginação para uma API paga de terceiros. Enquanto isso, usuários do fórum do n8n seguem citando “paginação, limitação de taxa, login” como o ponto em que o scraping “fica complexo rápido”. Este guia foi feito para fechar essa lacuna.

Por que o Web Scraping no n8n importa para times de vendas, operações e e-commerce

Web scraping no n8n não é passatempo de dev. É ferramenta de negócio. O está por volta de US$ 1–1,3 bilhão em 2025 e deve chegar a US$ 2–2,3 bilhões até 2030. Só a precificação dinâmica já é usada por cerca de , e hoje dependem de dados alternativos — grande parte coletada na web. A McKinsey aponta que a precificação dinâmica pode gerar para quem adota a estratégia.

É aí que o n8n realmente mostra força: não é só sobre pegar dados. É sobre o que vem depois. O n8n permite encadear a coleta com ações posteriores — atualizar CRM, mandar alertas no Slack, exportar para planilhas, analisar com IA — tudo em um único workflow.

Caso de uso	Quem se beneficia	O que você coleta	Resultado para o negócio
Geração de leads	Times de vendas	Diretórios empresariais, páginas de contato	Preencher o CRM com leads qualificados
Monitoramento de preços da concorrência	Operações de e-commerce	Páginas de listagem de produtos	Ajustar preços em tempo real
Acompanhamento de anúncios imobiliários	Corretores e imobiliárias	Zillow, Realtor, sites MLS locais	Identificar novos imóveis antes da concorrência
Pesquisa de mercado	Times de marketing	Sites de avaliações, fóruns, notícias	Detectar tendências e sentimento do cliente
Monitoramento de estoque de fornecedores/SKUs	Operações de supply chain	Páginas de produtos de fornecedores	Evitar ruptura de estoque e otimizar compras

Os números mostram que o ROI é real: planejam aumentar o investimento em IA em 2025, e foi demonstrado que a nutrição automatizada de leads em nove meses. Se o teu time ainda copia e cola dados de sites para planilhas, você está deixando dinheiro na mesa.

Seu kit de ferramentas de Web Scraping no n8n: nós principais e soluções disponíveis

Antes de construir qualquer coisa, vale entender o que existe no arsenal. Estes são os nós essenciais do n8n para web scraping:

HTTP Request: busca o HTML bruto de qualquer URL. Funciona como um navegador fazendo uma requisição de página, mas devolve o código em vez de renderizar o conteúdo. Suporta GET/POST, headers, processamento em lote e, em teoria, paginação nativa.
HTML (antes “HTML Extract”): interpreta HTML usando seletores CSS para extrair dados específicos — títulos, preços, links, imagens, o que você precisar.
Code: permite escrever trechos de JavaScript para limpeza de dados, normalização de URLs, deduplicação e lógica personalizada.
Edit Fields (Set): reorganiza ou renomeia campos de dados para os nós seguintes.
Split Out: quebra arrays em itens individuais para processamento.
Convert to File: exporta dados estruturados para CSV, JSON etc.
Loop Over Items: percorre listas item por item (crítico para paginação — mais sobre isso abaixo).
Schedule Trigger: executa o workflow em um cron.
Error Trigger: avisa quando um workflow falha (essencial em produção).

Para scraping avançado — sites com renderização em JavaScript ou proteção anti-bot pesada — você vai precisar de nós da comunidade:

Abordagem	Ideal para	Nível de habilidade	Lida com sites renderizados em JS	Tratamento anti-bot
n8n HTTP Request + HTML	Sites estáticos, APIs	Iniciante–Intermediário	Não	Manual (headers, proxies)
n8n + nó da comunidade ScrapeNinja/Firecrawl	Sites dinâmicos/protegidos	Intermediário	Sim	Embutido (rotação de proxy, CAPTCHA)
n8n + Headless Browser (Puppeteer)	Interações complexas em JS	Avançado	Sim	Parcial (depende da configuração)
Thunderbit (AI Web Scraper)	Qualquer site, usuários não técnicos	Iniciante	Sim (modo Browser ou Cloud)	Embutido (herda a sessão do navegador ou o tratamento em nuvem)

Não existe nenhum nó nativo de navegador headless no n8n até a v2.15.1. Todo scraping de páginas renderizadas em JS exige um nó da comunidade ou uma API externa.

Uma observação rápida sobre o Thunderbit: ele é uma com IA que nossa equipe criou. Você clica em “AI Suggest Fields”, depois em “Scrape”, e recebe os dados estruturados — sem seletores CSS, sem configuração de nós, sem manutenção. Ao longo deste guia, vou mostrar onde ele entra bem (e onde o n8n é a melhor escolha).

Passo a passo: construa seu primeiro workflow de Web Scraping no n8n

Agora que o kit está na mesa, vamos montar um web scraper funcional no n8n do zero. Vou usar uma página de listagem de produtos como exemplo — o tipo de coisa que você realmente coletaria para monitoramento de preços ou análise de concorrentes.

Antes de começar:

Dificuldade: Iniciante–Intermediário
Tempo necessário: ~20–30 minutos
O que você vai precisar: n8n (self-hosted ou Cloud), uma URL de destino, navegador Chrome (para encontrar seletores CSS)

Passo 1: crie um novo workflow e adicione um gatilho manual

Abra o n8n, clique em “New Workflow” e dê um nome descritivo — por exemplo, “Competitor Price Scraper”. Arraste um nó Manual Trigger. (Mais tarde, vamos trocar isso por um gatilho agendado.)

Você deve ver um único nó na tela, pronto para executar quando clicar em “Test Workflow”.

Passo 2: busque a página com o nó HTTP Request

Adicione um nó HTTP Request e conecte-o ao Manual Trigger. Defina o método como GET e coloque a URL de destino (por exemplo, https://example.com/products).

Agora vem o passo crítico que a maioria dos tutoriais pula: adicione um User-Agent realista. Por padrão, o n8n envia axios/xx como user agent — algo fácil de identificar como bot. Em “Headers”, adicione:

Nome do header	Valor
User-Agent	Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36
Accept	text/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8

Se você estiver coletando várias URLs, ative Batching (em Options) e defina um intervalo de 1–3 segundos entre as requisições. Isso ajuda a evitar limites de taxa.

Execute o nó. Você deve ver o HTML bruto no painel de saída.

Passo 3: interprete os dados com o nó HTML

Conecte um nó HTML à saída do HTTP Request. Defina a operação como Extract HTML Content.

Para encontrar os seletores CSS corretos, abra a página de destino no Chrome, clique com o botão direito no dado desejado (por exemplo, o título de um produto) e escolha “Inspect”. No painel Elements, clique com o botão direito no elemento HTML destacado e selecione “Copy → Copy selector”.

Configure os valores de extração assim:

Chave	Seletor CSS	Valor retornado
product_name	.product-title	Texto
price	.price-current	Texto
url	.product-link	Atributo: href

Execute o nó. Você deve ver uma tabela com dados estruturados — nomes de produtos, preços e URLs — na saída.

Passo 4: limpe e normalize com o nó Code

Dados brutos extraídos quase sempre vêm bagunçados. Preços podem ter espaços extras, URLs podem ser relativas e campos de texto podem acabar com quebras de linha. Adicione um nó Code e conecte-o ao nó HTML.

Aqui vai um trecho simples de JavaScript para limpar tudo:

1return items.map(item => {
2  const d = item.json;
3  return {
4    json: {
5      product_name: (d.product_name || '').trim(),
6      price: parseFloat((d.price || '').replace(/[^0-9.]/g, '')),
7      url: d.url && d.url.startsWith('http') ? d.url : `https://example.com$\{d.url\}`
8    }
9  };
10});

Essa etapa é essencial para dados com qualidade de produção. Se você pular, sua planilha vai ficar cheia de registros como “$ 29.99\n”.

Passo 5: exporte para Google Sheets, Airtable ou CSV

Conecte um nó do Google Sheets (ou Airtable, ou Convert to File para CSV). Autentique com sua conta Google, selecione sua planilha e aba, e mapeie os campos de saída do nó Code para os cabeçalhos das colunas.

Execute o workflow completo. Você deve ver dados limpos e estruturados chegando à planilha.

Observação: o para Google Sheets, Airtable, Notion e Excel sem precisar configurar nós. Se você não precisa da cadeia completa de automação e quer só os dados, isso pode ser um atalho bem útil.

A parte que todo tutorial de Web Scraping no n8n pula: workflows completos de paginação

Paginação é a principal lacuna no conteúdo de scraping para n8n — e a maior fonte de frustração nos fóruns da comunidade n8n.

Existem dois padrões principais de paginação:

Paginação por clique / incremento de URL — páginas como ?page=1, ?page=2 etc.
Rolagem infinita — o conteúdo carrega conforme você desce a página (pense em Twitter, Instagram ou muitos catálogos modernos de produtos).

Paginação por clique no n8n (incremento de URL com nós de loop)

A opção nativa de Pagination no menu Options do nó HTTP Request parece prática. Na real, ela é instável. O autor do tutorial de scraping mais popular do n8n (Lakshay Nasa) tentou usá-la e escreveu: “na minha experiência, ela não se comportou de forma confiável.” Usuários do fórum relatam que ela , e falha em detectar a última página.

A abordagem confiável é: montar explicitamente a lista de URLs em um nó Code e depois iterar com Loop Over Items.

Veja como fazer:

Adicione um nó Code que gere as URLs das páginas:

1const base = 'https://example.com/products';
2const totalPages = 10; // ou detectar dinamicamente
3return Array.from({length: totalPages}, (_, i) => ({
4  json: { url: `$\{base\}?page=${i + 1}` }
5}));

Conecte um nó Loop Over Items para percorrer a lista.
Dentro do loop, adicione o nó HTTP Request (defina a URL como {{ $json.url }}) e depois o nó HTML para interpretar os dados.
Adicione um nó Wait (1–3 segundos, com variação aleatória) dentro do loop para evitar erros 429.
Depois do loop, agregue os resultados e exporte para Google Sheets ou CSV.

A cadeia completa: Code (gerar URLs) → Loop Over Items → HTTP Request → HTML → Wait → (volta ao loop) → Aggregate → Export.

Um detalhe importante: o nó Loop Over Items tem um em que loops aninhados pulam itens silenciosamente. Se você estiver fazendo paginação e enriquecimento de subpáginas, teste com cuidado — a contagem de “done” pode não bater com a contagem de entrada.

Paginação por rolagem infinita: por que os nós nativos do n8n sofrem

Páginas com rolagem infinita carregam conteúdo via JavaScript conforme você rola. O nó HTTP Request captura só o HTML inicial — ele não executa JavaScript nem dispara eventos de scroll. Você tem duas opções:

Usar um nó da comunidade de navegador headless (por exemplo, ou ) para renderizar a página e simular a rolagem.
Usar uma API de scraping (ScrapeNinja, Firecrawl, ZenRows) com renderização de JS ativada.

As duas aumentam bastante a complexidade. Espere gastar 30–60+ minutos de configuração por site, além de manutenção contínua.

Como o Thunderbit lida com paginação sem configuração

Sou tendencioso, mas o contraste é gritante:

Capacidade	n8n (workflow DIY)	Thunderbit
Paginação por clique	Configuração manual com nó de loop e incremento de URL	Automático — detecta e segue a paginação
Páginas com rolagem infinita	Exige navegador headless + nó da comunidade	Suporte nativo, sem configuração
Esforço de setup	30–60 min por site	2 cliques
Páginas por lote	Sequencial (uma por vez)	50 páginas simultaneamente (Cloud Scraping)

Se você estiver extraindo 200 páginas de produto em 10 listagens com paginação, o n8n vai comer uma tarde inteira. O Thunderbit faz isso em cerca de dois minutos. Isso não é uma crítica ao n8n — é só a ferramenta certa para a tarefa certa.

Configure uma vez e esqueça: pipelines de Web Scraping no n8n disparados por cron

Scraping pontual ajuda, mas o verdadeiro poder do web scraping no n8n está na coleta recorrente e automatizada. Curiosamente, quase nenhum tutorial de scraping no n8n cobre o Schedule Trigger para scraping — mesmo sendo um dos recursos mais pedidos pela comunidade.

Montando um pipeline diário de monitoramento de preços

Substitua o Manual Trigger por um nó Schedule Trigger. Você pode usar a interface do n8n (“Every day at 8:00 AM”) ou uma expressão cron (0 8 * * *).

A cadeia completa do workflow:

Schedule Trigger (diariamente às 8h)
Code (gerar URLs paginadas)
Loop Over Items → HTTP Request → HTML → Wait (coletar todas as páginas)
Code (limpar dados, normalizar preços)
Google Sheets (acrescentar novas linhas)
IF (algum preço caiu abaixo do limite?)
Slack (mandar alerta, se sim)

Crie junto um workflow de Error Trigger que dispare em qualquer execução com falha e envie um aviso ao Slack. Caso contrário, quando os seletores quebrarem (e eles vão quebrar), você só vai descobrir três semanas depois, quando o relatório vier vazio.

Dois requisitos pouco óbvios:

O n8n precisa ficar rodando 24/7. Um self-host em notebook não executa quando a tampa está fechada. Use um servidor, Docker ou n8n Cloud.
Depois de cada edição do workflow, desligue e ligue o workflow novamente. O n8n Cloud tem um em que os agendadores são desregistrados silenciosamente após edições, sem mensagem de erro.

Montando um pipeline semanal de extração de leads

O padrão é o mesmo, muda o alvo: Schedule Trigger (toda segunda às 9h) → HTTP Request (diretório empresarial) → HTML (extrair nome, telefone, email) → Code (deduplicar, limpar formatação) → envio para Airtable ou HubSpot.

O custo escondido aqui é a manutenção. Se o site do diretório muda o layout, seus seletores CSS quebram e o workflow falha em silêncio. A HasData estima que do tempo inicial de construção deveria ser reservado para manutenção contínua por ano em qualquer pipeline baseado em seletores. Quando você mantém uns 20 sites, esse peso vira realidade.

O Scheduled Scraper do Thunderbit: a alternativa no-code

O Scheduled Scraper do Thunderbit permite descrever o intervalo em linguagem natural (por exemplo, “toda segunda às 9h”), inserir suas URLs e clicar em “Schedule”. Ele roda na nuvem — sem hospedagem, sem expressões cron e sem desregistro silencioso.

Dimensão	Workflow agendado no n8n	Scheduled Scraper do Thunderbit
Configuração do agendamento	Expressão cron ou interface de agenda do n8n	Descrição em linguagem natural
Limpeza de dados	Nó Code manual obrigatório	IA limpa, rotula e traduz automaticamente
Destinos de exportação	Exige nós de integração	Google Sheets, Airtable, Notion, Excel (grátis)
Requisito de hospedagem	Self-hosted ou n8n Cloud	Nenhum — roda na nuvem
Manutenção quando o site muda	Seletores quebram, correção manual necessária	A IA lê o site novamente a cada execução

Essa última linha é a mais importante. Usuários do fórum falam isso sem rodeios: “a maioria funciona até o site mudar o layout.” A abordagem baseada em IA do Thunderbit corta essa dor porque não depende de seletores CSS fixos.

Quando seu web scraper no n8n é bloqueado: guia de troubleshooting anti-bot

Ser bloqueado é a maior frustração depois da paginação. O conselho padrão — “adicione um header User-Agent” — ajuda tanto quanto trancar a porta da tela contra um furacão.

Segundo o Imperva 2025 Bad Bot Report, , e disso é malicioso. Os fornecedores anti-bot (Cloudflare, Akamai, DataDome, HUMAN, PerimeterX) responderam com fingerprint de TLS, desafios em JavaScript e análise comportamental. O nó HTTP Request do n8n, que usa a biblioteca Axios por baixo dos panos, gera uma fingerprint TLS diferente, fácil de reconhecer como não humana. Trocar o User-Agent não resolve nada — o entrega você antes mesmo de qualquer header HTTP ser lido.

A árvore de decisão anti-bot

Aqui vai um framework sistemático de troubleshooting — não só “adicione um User-Agent”:

Requisição bloqueada?

403 Forbidden → Adicione User-Agent + Accept (veja o Passo 2 acima) → Ainda bloqueado?
- Sim → Adicione rotação de proxy residencial → Ainda bloqueado?
  - Sim → Troque para uma API de scraping (ScrapeNinja, Firecrawl, ZenRows) ou um nó da comunidade com navegador headless
  - Não → Prossiga
- Não → Prossiga
CAPTCHA aparece → Use uma API de scraping com resolução de CAPTCHA embutida (por exemplo, o )
Resposta vazia (conteúdo renderizado em JS) → Use um nó da comunidade com navegador headless ou uma API de scraping com renderização de JS
Limitação de taxa (erro 429) → Ative batching no nó HTTP Request, defina espera de 2–5 segundos entre lotes, reduza a concorrência

Mais um detalhe importante: o n8n tem um em que o nó HTTP Request não consegue tunelar HTTPS corretamente por meio de um proxy HTTP. A biblioteca Axios falha no handshake TLS, mesmo quando o curl no mesmo contêiner funciona normal. Se você está usando proxy e recebendo erros de conexão misteriosos, provavelmente é isso.

Por que o Thunderbit contorna a maioria dos problemas anti-bot

O Thunderbit oferece dois modos de coleta:

Browser Scraping: roda dentro do seu próprio Chrome, herdando cookies da sessão, estado de login e fingerprint do navegador. Isso dribla a maioria dos mecanismos anti-bot que bloqueiam requisições do lado do servidor — porque a requisição é um navegador real.
Cloud Scraping: para sites públicos, a nuvem do Thunderbit lida com anti-bot em escala — .

Se você está gastando mais tempo brigando com Cloudflare do que analisando os dados, essa é a alternativa prática.

Opinião honesta: quando o Web Scraping no n8n funciona — e quando usar outra coisa

n8n é uma plataforma excelente. Mas não é a ferramenta certa para todo trabalho de scraping, e nenhum artigo concorrente é honesto sobre isso. Os usuários estão literalmente perguntando nos fóruns: “quão difícil é criar um web scraper com o n8n?” e “qual ferramenta de scraping funciona melhor com o n8n?”

Onde o Web Scraping no n8n brilha

Workflows de várias etapas que combinam scraping com processamento posterior — atualização de CRM, alertas no Slack, análise com IA, gravação em banco de dados. Esse é o ponto forte do n8n.
Casos em que o scraping é só uma parte de uma automação maior — coletar → enriquecer → filtrar → enviar ao CRM.
Usuários técnicos confortáveis com seletores CSS e lógica baseada em nós.
Cenários que exigem transformação personalizada de dados entre a coleta e o armazenamento.

Onde o Web Scraping no n8n começa a doer

Usuários não técnicos que só precisam dos dados rápido. Configurar nós, descobrir seletores CSS e depurar o fluxo é uma subida pesada para quem é de negócio.
Sites com forte proteção anti-bot. Uso de proxy e API aumenta custo e complexidade.
Manutenção quando o layout do site muda. Os seletores quebram e o workflow falha em silêncio.
Scraping em massa de muitos tipos de sites. Cada site pede sua própria configuração de seletores.
Enriquecimento de subpáginas. Exige criar sub-workflows separados no n8n.

Comparação lado a lado: n8n vs. Thunderbit vs. scripts Python

Fator	Scraping DIY no n8n	Thunderbit	Script Python
Habilidade técnica necessária	Intermediária (nós + seletores CSS)	Nenhuma (IA sugere campos)	Alta (programação)
Tempo de setup por novo site	30–90 min	~2 minutos	1–4 horas
Tratamento anti-bot	Manual (headers, proxies, APIs)	Embutido (modos browser/cloud)	Manual (bibliotecas)
Manutenção quando o site muda	Atualização manual de seletores	Zero — a IA se adapta automaticamente	Atualização manual do código
Suporte a workflows de várias etapas	Excelente (ponto forte central)	Exportação para Sheets/Airtable/Notion	Exige código personalizado
Custo em escala	Hosting do n8n + custos de proxy/API	Baseado em créditos (~1 crédito por linha)	Custo de servidor + proxies
Enriquecimento de subpáginas	Manual — criar sub-workflow separado	Scraping de subpáginas com 1 clique	Script personalizado

A conclusão: use n8n quando o scraping for parte de uma automação complexa e multinível. Use o Thunderbit quando você precisar dos dados rápido, sem montar workflows. Use Python quando quiser máximo controle e tiver recursos de desenvolvimento. Eles não são concorrentes — são complementares.

Workflows reais de Web Scraping no n8n que você pode copiar de verdade

Os usuários do fórum continuam perguntando: “Alguém já encaixou isso em workflows de várias etapas?” Três workflows específicos — sequências reais de nós que você pode montar hoje.

Workflow 1: monitor de preços da concorrência em e-commerce

Objetivo: acompanhar preços da concorrência diariamente e receber alertas quando caírem.

Cadeia de nós: Schedule Trigger (diário, 8h) → Code (gerar URLs paginadas) → Loop Over Items → HTTP Request → HTML (extrair nome do produto, preço, disponibilidade) → Wait (2s) → (volta ao loop) → Code (limpar dados, normalizar preços) → Google Sheets (acrescentar linhas) → IF (preço abaixo do limite?) → Slack (mandar alerta)

Complexidade: 8–10 nós, 30–60 min de setup por site da concorrência.

Atalho com Thunderbit: o Scheduled Scraper do Thunderbit + podem chegar a resultados parecidos em minutos, com exportação gratuita para Google Sheets.

Workflow 2: pipeline de geração de leads para vendas

Objetivo: coletar um diretório empresarial semanalmente, limpar e categorizar leads, e enviar ao CRM.

Cadeia de nós: Schedule Trigger (semanal, segunda às 9h) → HTTP Request (página de listagem do diretório) → HTML (extrair nome, telefone, email, endereço) → Code (deduplicar, limpar formatação) → nó OpenAI/Gemini (categorizar por setor) → nó HubSpot (criar contatos)

Observação: o n8n tem um nó nativo de — útil para envio ao CRM. Mas as etapas de scraping e limpeza ainda exigem trabalho manual com seletores CSS.

Atalho com Thunderbit: o gratuito do Thunderbit e o extrator de telefone conseguem puxar informações de contato com 1 clique, sem montar workflow. O rótulo por IA também pode categorizar leads durante a extração. Quem não precisa da automação completa pode pular toda a configuração do n8n.

Workflow 3: rastreador de novos imóveis

Objetivo: identificar novos anúncios no Zillow ou Realtor.com semanalmente e mandar um email-resumo.

Cadeia de nós: Schedule Trigger (semanal) → HTTP Request (páginas de listagem) → HTML (extrair endereço, preço, quartos, link) → Code (limpar dados) → Google Sheets (acrescentar) → Code (comparar com os dados da semana anterior, marcar novos anúncios) → IF (novos anúncios encontrados?) → Gmail/SendGrid (enviar resumo)

Observação: o Thunderbit tem — sem precisar de seletores CSS. Quem precisa da cadeia completa de automação (coletar → comparar → alertar) ganha com o n8n; quem só quer os dados dos anúncios ganha com o Thunderbit.

Para mais inspiração de workflows, a biblioteca da comunidade n8n tem templates para , e .

Dicas para manter seus pipelines de Web Scraping no n8n rodando sem problemas

Scraping em produção é 20% construção e 80% manutenção.

Use batching e atrasos para evitar limites de taxa

Ative batching no nó HTTP Request e defina uma espera de 1–3 segundos entre lotes. Requisições concorrentes são a forma mais rápida de tomar bloqueio de IP. Um pouco de paciência aqui evita muita dor depois.

Monitore as execuções do workflow para detectar falhas silenciosas

Use a aba Executions do n8n para verificar execuções com erro. Os dados coletados podem voltar vazios em silêncio se um site mudar o layout — o workflow “funciona”, mas sua planilha fica cheia de campos em branco.

Configure um workflow de Error Trigger para disparar em qualquer falha e enviar alerta por Slack ou email. Isso não é opcional em pipelines de produção.

Guarde seus seletores CSS fora do workflow para facilitar updates

Mantenha os seletores CSS em uma planilha do Google ou em variáveis de ambiente do n8n para poder atualizá-los sem editar o workflow em si. Quando o layout de um site mudar, você só precisa trocar o seletor em um lugar.

Saiba a hora de migrar para um scraper com IA

Se você se pegar atualizando seletores CSS o tempo todo, lutando contra medidas anti-bot ou gastando mais tempo mantendo scrapers do que usando os dados, considere uma ferramenta com IA como o que lê o site novamente a cada execução e se adapta automaticamente. A abordagem de funciona bem: o Thunderbit cuida da camada frágil de extração — a parte que quebra toda vez que um site atualiza um <div> —, exporta para Google Sheets ou Airtable, e o n8n entra depois pelos gatilhos nativos de Sheets/Airtable para fazer a orquestração — atualização de CRM, alertas, lógica condicional, distribuição entre vários sistemas.

Fechando: monte o pipeline que faz sentido para o seu time

Web scraping no n8n é poderoso quando você precisa de coleta de dados como uma etapa dentro de uma automação maior. Mas ele exige configuração técnica, manutenção contínua e paciência com paginação, bloqueios anti-bot e agendamento. Este guia cobriu o fluxo completo: seu primeiro workflow, paginação (a parte que todo tutorial ignora), agendamento, troubleshooting anti-bot, uma avaliação honesta de onde o n8n se encaixa e workflows reais que você pode copiar.

Eu penso assim:

Use n8n quando o scraping for parte de uma cadeia complexa e multinível — atualização de CRM, alertas no Slack, enriquecimento por IA, roteamento condicional.
Use quando você precisar dos dados rápido, sem montar workflows — a IA cuida da sugestão de campos, paginação, anti-bot e exportação em 2 cliques.
Use Python quando quiser o máximo de controle e tiver recursos de desenvolvimento.

E, sinceramente, a melhor configuração para muitos times é usar os dois: Thunderbit para extração, n8n para orquestração. Se você quiser ver como o scraping com IA se compara ao teu workflow no n8n, o permite testar em pequena escala — e a instala em segundos. Para tutoriais em vídeo e ideias de workflow, confira o .

Experimente o Thunderbit para web scraping com IA

FAQs

O n8n consegue extrair sites pesados em JavaScript?

Não com o nó HTTP Request nativo sozinho. O HTTP Request busca HTML bruto e não executa JavaScript. Para sites renderizados em JS, você precisa de um nó da comunidade como ou de uma integração com API de scraping (ScrapeNinja, Firecrawl) que renderize JavaScript no servidor. O Thunderbit lida com sites pesados em JS nativamente nos modos Browser e Cloud.

Web scraping no n8n é grátis?

A versão self-hosted do n8n é gratuita e open source. O n8n Cloud antes tinha um plano grátis, mas, em abril de 2026, oferece só um teste de 14 dias — depois disso, os planos começam em US$ 24/mês para 2.500 execuções. Sites protegidos também podem exigir serviços pagos de proxy (US$ 5–15/GB para proxies residenciais) ou APIs de scraping (US$ 49–200+/mês, dependendo do volume).

Como o web scraping no n8n se compara ao Thunderbit?

O n8n é melhor para automações de várias etapas em que o scraping é só uma parte de um fluxo maior (por exemplo: coletar → enriquecer → filtrar → enviar ao CRM → alertar no Slack). O Thunderbit é melhor para extração rápida de dados sem código, com detecção de campos por IA, paginação automática e zero manutenção quando os sites mudam. Muitos times usam os dois juntos — Thunderbit para extração, n8n para orquestração.

Sim, mas isso exige configurar cookies ou tokens de sessão no nó HTTP Request, o que pode ser difícil de manter. O modo Browser Scraping do Thunderbit herda automaticamente a sessão logada do Chrome do usuário — se você estiver logado, o Thunderbit consegue extrair o que você vê.

O que devo fazer quando meu scraper no n8n para de retornar dados de repente?

Primeiro, verifique a aba Executions do n8n em busca de erros. A causa mais comum é uma mudança no layout do site que quebrou seus seletores CSS — o workflow “funciona”, mas retorna campos vazios. Confirme seus seletores com a ferramenta Inspect do Chrome, atualize-os no workflow (ou na sua planilha externa de seletores) e teste de novo. Se você estiver enfrentando bloqueios anti-bot, siga a árvore de decisão deste guia. Para confiabilidade de longo prazo, considere um scraper com IA como o Thunderbit, que se adapta automaticamente às mudanças de layout.

Saiba mais

Domine o Web Scraping no n8n: fluxos de automação

Precisa de dados personalizados da web?

Experimente o Thunderbit