Domina el web scraping con n8n: flujos de automatización

Última actualización el April 14, 2026

Hace unos meses, uno de nuestros usuarios nos mandó una captura de pantalla de un workflow de n8n con 14 nodos, media docena de notas adhesivas y un asunto que solo decía: «Ayuda». Había seguido un tutorial popular de web scraping con n8n, había conseguido que funcionara una demo impecable de 10 filas en un sitio de pruebas y luego intentó extraer precios reales de la competencia en 200 páginas de producto. ¿El resultado? Un bucle de paginación roto, una pared de error 403 y un programador silencioso que dejó de ejecutarse después del primer martes.

Esa brecha —entre la demo y el pipeline real— es donde mueren la mayoría de los proyectos de scraping con n8n. Llevo años construyendo y trabajando en automatización, y puedo decirte algo: la parte de extraer datos rara vez es lo más difícil. Lo que suele fallar es todo lo que viene después de la primera extracción exitosa. La paginación, la programación, el bloqueo anti-bot, la limpieza de datos, la exportación y —la gran pesadilla— el mantenimiento cuando el sitio cambia su diseño por tercera vez en el trimestre. Esta guía cubre todo el flujo, desde tu primer nodo HTTP Request hasta un workflow recurrente de web scraping con n8n listo para producción. Y cuando el enfoque de bricolaje de n8n se quede corto, te mostraré dónde herramientas impulsadas por IA como Thunderbit pueden ahorrarte horas (o días) de frustración.

¿Qué es el web scraping con n8n y por qué la mayoría de los tutoriales se quedan en la superficie?

n8n es una plataforma de automatización de workflows de código abierto y low-code. Piensa en ella como un lienzo visual donde conectas "nodos" —cada uno hace una tarea concreta (obtener una página web, analizar HTML, enviar un mensaje a Slack, escribir en Google Sheets)— y los encadenas para crear flujos automatizados. No hace falta programar a fondo, aunque puedes usar JavaScript cuando lo necesites.

Cuando hablamos de "web scraping con n8n", nos referimos a usar los nodos integrados HTTP Request y HTML de n8n (además de nodos de la comunidad) para obtener, analizar y procesar datos de sitios web dentro de esos workflows automatizados. El proceso básico tiene dos pasos: Obtener (el nodo HTTP Request descarga el HTML sin procesar de una URL) y Analizar (el nodo HTML usa selectores CSS para extraer los datos que te interesan: nombres de productos, precios, correos, lo que sea).

La plataforma es enorme: a abril de 2026, n8n tiene , más de 230.000 usuarios activos, 9.166+ plantillas de workflows de la comunidad y publica aproximadamente una nueva versión menor cada semana. Además, levantó una en marzo de 2025. Hay muchísimo impulso detrás.

Pero hay una brecha de la que casi nadie habla. El tutorial más popular de scraping con n8n en dev.to (de Lakshay Nasa, publicado bajo la organización "Extract by Zyte") prometía la paginación en la "Parte 2". Y la Parte 2 sí llegó —pero la conclusión del propio autor fue: "N8N nos da un modo de paginación predeterminado dentro del nodo HTTP Request en Options y, aunque suena práctico, en mi experiencia no se comportó de forma fiable para casos típicos de web scraping." Al final, el autor terminó enviando la paginación a través de una API de pago de terceros. Mientras tanto, en los foros de n8n los usuarios siguen señalando "paginación, limitación de velocidad, login" como el punto en el que el scraping con n8n "se complica rápidamente". Esta guía está pensada para cubrir precisamente esa brecha.

Por qué el web scraping con n8n es importante para equipos de ventas, operaciones y ecommerce

El web scraping con n8n no es un hobby para desarrolladores. Es una herramienta de negocio. El se sitúa en torno a 1–1,3 mil millones de dólares en 2025 y se prevé que alcance 2–2,3 mil millones en 2030. Solo la fijación dinámica de precios ya la utilizan alrededor de , y dependen hoy de datos alternativos, gran parte de ellos extraídos de la web. McKinsey informa que la fijación dinámica de precios puede aportar para quienes la adoptan.

Aquí es donde realmente brilla n8n: no se trata solo de obtener datos, sino de lo que pasa después. n8n te permite encadenar el scraping con acciones posteriores —actualizaciones en CRM, alertas en Slack, exportación a hojas de cálculo, análisis con IA— en un solo workflow.

Caso de usoQuién se beneficiaQué extraesResultado de negocio
Generación de leadsEquipos de ventasDirectorios de empresas, páginas de contactoCompletar el CRM con leads cualificados
Monitoreo de precios de la competenciaOperaciones de ecommercePáginas de listados de productosAjustar precios en tiempo real
Seguimiento de anuncios inmobiliariosAgentes inmobiliariosZillow, Realtor, sitios MLS localesDetectar nuevos anuncios antes que la competencia
Investigación de mercadoEquipos de marketingSitios de reseñas, foros, noticiasIdentificar tendencias y sentimiento del cliente
Monitoreo de stock de proveedores/SKUOperaciones de cadena de suministroPáginas de productos de proveedoresEvitar roturas de stock y optimizar compras

Los datos muestran que el ROI es real: planean aumentar la inversión en IA en 2025, y se ha demostrado que la automatización del nurturing de leads puede en nueve meses. Si tu equipo sigue copiando y pegando datos de webs a hojas de cálculo, estás dejando dinero sobre la mesa.

Tu caja de herramientas de web scraping con n8n: nodos clave y soluciones disponibles

Antes de construir nada, necesitas saber qué trae la caja de herramientas. Estos son los nodos esenciales de n8n para web scraping:

  • HTTP Request node: obtiene HTML en bruto desde cualquier URL. Funciona como un navegador que pide una página, pero devuelve el código en lugar de renderizarla. Soporta GET/POST, headers, procesamiento por lotes y, en teoría, paginación integrada.
  • HTML node (antes "HTML Extract"): analiza HTML usando selectores CSS para extraer datos concretos —títulos, precios, enlaces, imágenes, lo que necesites.
  • Code node: permite escribir fragmentos de JavaScript para limpiar datos, normalizar URLs, eliminar duplicados y aplicar lógica personalizada.
  • Edit Fields (Set) node: reestructura o renombra campos de datos para los nodos posteriores.
  • Split Out node: divide arrays en elementos individuales para procesarlos.
  • Convert to File node: exporta datos estructurados a CSV, JSON, etc.
  • Loop Over Items node: recorre listas (clave para la paginación —hablaremos de esto más adelante).
  • Schedule Trigger: ejecuta tu workflow según un cron.
  • Error Trigger: te avisa cuando un workflow falla (imprescindible en producción).

Para scraping avanzado —sitios con renderizado JavaScript o protección anti-bot fuerte— necesitarás nodos de la comunidad:

EnfoqueIdeal paraNivel de habilidadAdmite sitios renderizados con JSGestión anti-bot
n8n HTTP Request + HTML nodesSitios estáticos, APIsPrincipiante–IntermedioNoManual (headers, proxies)
n8n + nodo de comunidad ScrapeNinja/FirecrawlSitios dinámicos o protegidosIntermedioIntegrado (rotación de proxy, CAPTCHA)
n8n + Headless Browser (Puppeteer)Interacciones complejas con JSAvanzadoParcial (depende de la configuración)
Thunderbit (AI Web Scraper)Cualquier sitio, usuarios no técnicosPrincipianteSí (modo navegador o nube)Integrado (hereda sesión del navegador o gestión en la nube)

A fecha de v2.15.1, n8n no tiene un nodo nativo de navegador headless. Cualquier scraping que requiera renderizar JavaScript necesita un nodo de la comunidad o una API externa.

Una nota rápida sobre Thunderbit: es una impulsada por IA que construimos nuestro equipo. Haces clic en "AI Suggest Fields", luego en "Scrape", y obtienes datos estructurados —sin selectores CSS, sin configurar nodos, sin mantenimiento. A lo largo de esta guía te mostraré dónde encaja Thunderbit y dónde n8n es la mejor opción.

Paso a paso: crea tu primer workflow de web scraping con n8n

Ahora que ya vimos la caja de herramientas, veamos cómo construir desde cero un scraper funcional con n8n. Usaré como ejemplo una página de listado de productos —justo el tipo de contenido que de verdad extraerías para monitoreo de precios o análisis de competidores.

Antes de empezar:

  • Dificultad: Principiante–Intermedio
  • Tiempo estimado: ~20–30 minutos
  • Lo que necesitas: n8n (self-hosted o Cloud), una URL objetivo, navegador Chrome (para localizar selectores CSS)

Paso 1: crea un workflow nuevo y añade un disparador manual

Abre n8n, haz clic en "New Workflow" y ponle un nombre descriptivo —por ejemplo, "Competitor Price Scraper". Arrastra un nodo Manual Trigger. (Más adelante lo cambiaremos por un disparador programado.)

Deberías ver un único nodo en el lienzo, listo para ejecutarse cuando pulses "Test Workflow".

Paso 2: obtén la página con el nodo HTTP Request

Añade un nodo HTTP Request y conéctalo al Manual Trigger. Configura el método en GET e introduce la URL objetivo (por ejemplo, https://example.com/products).

Ahora viene el paso crítico que la mayoría de tutoriales omite: añade un header User-Agent realista. Por defecto, n8n envía axios/xx como user agent, algo que se reconoce al instante como bot. En "Headers", añade:

Nombre del headerValor
User-AgentMozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36
Accepttext/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8

Si vas a extraer varias URLs, activa Batching (en Options) y configura un tiempo de espera de 1–3 segundos entre solicitudes. Esto ayuda a evitar los límites de velocidad.

Ejecuta el nodo. Deberías ver HTML en bruto en el panel de salida.

Paso 3: analiza los datos con el nodo HTML

Conecta un nodo HTML a la salida del HTTP Request. Configura la operación en Extract HTML Content.

Para encontrar los selectores CSS correctos, abre la página objetivo en Chrome, haz clic derecho sobre el dato que quieres (por ejemplo, el título de un producto) y elige "Inspect". En el panel Elements, haz clic derecho sobre el elemento HTML resaltado y selecciona "Copy → Copy selector".

Configura los valores de extracción así:

ClaveSelector CSSValor devuelto
product_name.product-titleText
price.price-currentText
url.product-linkAttribute: href

Ejecuta el nodo. Deberías ver una tabla de datos estructurados —nombres de producto, precios y URLs— en la salida.

Paso 4: limpia y normaliza con el nodo Code

Los datos extraídos en bruto suelen venir desordenados. Los precios pueden traer espacios extra, las URLs pueden ser relativas y algunos campos de texto pueden incluir saltos de línea al final. Añade un nodo Code y conéctalo al nodo HTML.

Aquí tienes un pequeño fragmento de JavaScript para limpiar los datos:

1return items.map(item => {
2  const d = item.json;
3  return {
4    json: {
5      product_name: (d.product_name || '').trim(),
6      price: parseFloat((d.price || '').replace(/[^0-9.]/g, '')),
7      url: d.url && d.url.startsWith('http') ? d.url : `https://example.com${d.url}`
8    }
9  };
10});

Este paso es clave para obtener datos de nivel producción. Si lo saltas, tu hoja de cálculo se llenará de entradas como "$ 29.99\n".

Paso 5: exporta a Google Sheets, Airtable o CSV

Conecta un nodo de Google Sheets (o Airtable, o Convert to File para CSV). Autentica tu cuenta de Google, selecciona tu hoja de cálculo y tu pestaña, y asigna los campos de la salida del nodo Code a los encabezados de columna.

Ejecuta el workflow completo. Deberías ver datos limpios y estructurados aparecer en tu hoja.

Como nota adicional: a Google Sheets, Airtable, Notion y Excel sin necesidad de configurar nodos. Si no necesitas toda la cadena de workflow y solo quieres los datos, es un atajo muy útil.

La parte que todo tutorial de web scraping con n8n se salta: flujos completos de paginación

La paginación es la principal carencia en el contenido de scraping con n8n —y también la principal fuente de frustración en los foros de la comunidad.

Hay dos patrones principales de paginación:

  1. Paginación basada en clics / incremento de URL — páginas como ?page=1, ?page=2, etc.
  2. Scroll infinito — el contenido se carga al hacer scroll hacia abajo (piensa en Twitter, Instagram o muchos catálogos modernos).

Paginación basada en clics en n8n (incrementando URLs con nodos Loop)

La opción de Pagination integrada en el menú Options del nodo HTTP Request suena cómoda. En la práctica, no es fiable. El autor del tutorial de scraping más popular de n8n (Lakshay Nasa) la probó y escribió: "no se comportó de forma fiable en mi experiencia". En los foros, los usuarios reportan que , y no detecta la última página.

n8n-pagination-chain-workflow.webp

La forma fiable: construye explícitamente la lista de URLs en un nodo Code y recórrela con Loop Over Items.

Así se hace:

  1. Añade un nodo Code que genere tus URLs de página:
1const base = 'https://example.com/products';
2const totalPages = 10; // o detectarlo dinámicamente
3return Array.from({length: totalPages}, (_, i) => ({
4  json: { url: `${base}?page=${i + 1}` }
5}));
  1. Conecta un nodo Loop Over Items para iterar por la lista.
  2. Dentro del bucle, añade tu nodo HTTP Request (configura la URL como {{ $json.url }}) y después el nodo HTML para analizar.
  3. Añade un nodo Wait (1–3 segundos, aleatorio) dentro del bucle para evitar errores 429 por límites de velocidad.
  4. Después del bucle, agrega los resultados y expórtalos a Google Sheets o CSV.

La cadena completa: Code (crear URLs) → Loop Over Items → HTTP Request → HTML → Wait → (volver al bucle) → Agregar → Exportar.

Un detalle a tener en cuenta: el nodo Loop Over Items tiene un por el que los bucles anidados pueden omitir elementos sin avisar. Si estás paginando y enriqueciendo subpáginas, prueba con cuidado: el conteo final puede no coincidir con el de entrada.

Paginación de scroll infinito: por qué los nodos integrados de n8n se quedan cortos

Las páginas con scroll infinito cargan contenido vía JavaScript a medida que haces scroll. El nodo HTTP Request solo obtiene el HTML inicial: no puede ejecutar JavaScript ni disparar eventos de scroll. Tienes dos opciones:

  • Usar un nodo de navegador headless de la comunidad (por ejemplo, o ) para renderizar la página y simular el scroll.
  • Usar una API de scraping (ScrapeNinja, Firecrawl, ZenRows) con renderizado de JS activado.

Ambas añaden bastante complejidad. Estás hablando de 30–60 minutos o más de configuración por sitio, además de mantenimiento continuo.

Cómo Thunderbit gestiona la paginación sin configuración

Aquí sí soy parcial, pero el contraste es evidente:

Capacidadn8n (workflow DIY)Thunderbit
Paginación basada en clicsConfiguración manual de nodos, incremento de URLAutomática — detecta y sigue la paginación
Páginas con scroll infinitoRequiere navegador headless + nodo de comunidadSoporte integrado, sin configuración
Esfuerzo de configuración30–60 min por sitio2 clics
Páginas por loteSecuencial (una a una)50 páginas simultáneamente (Cloud Scraping)

Si estás extrayendo 200 páginas de producto en 10 listados con paginación, n8n te puede llevar toda una tarde. Thunderbit te llevará unos dos minutos. Eso no es una crítica a n8n: simplemente es otra herramienta para otro tipo de trabajo.

Déjalo funcionando: pipelines de web scraping con n8n disparados por cron

El scraping puntual es útil, pero el verdadero poder de n8n está en la recopilación automática y recurrente de datos. Sorprendentemente, casi ningún tutorial de scraping con n8n cubre el Schedule Trigger para scraping, aunque es una de las funciones más solicitadas por la comunidad.

Cómo construir un pipeline diario de monitoreo de precios

Sustituye tu Manual Trigger por un nodo Schedule Trigger. Puedes usar la interfaz de n8n ("Every day at 8:00 AM") o una expresión cron (0 8 * * *).

La cadena completa del workflow:

  1. Schedule Trigger (cada día a las 8 AM)
  2. Code node (genera URLs paginadas)
  3. Loop Over Items → HTTP Request → HTML → Wait (extrae todas las páginas)
  4. Code node (limpia los datos, normaliza precios)
  5. Google Sheets (añade nuevas filas)
  6. IF node (¿algún precio bajó por debajo del umbral?)
  7. Slack (envía una alerta si la respuesta es sí)

Configura en paralelo un workflow con Error Trigger que se dispare ante cualquier ejecución fallida y avise por Slack. De lo contrario, cuando los selectores se rompan —y se romperán— te enterarás tres semanas después, cuando el informe salga vacío.

Dos requisitos que no siempre se mencionan:

  • n8n debe estar activo 24/7. Si lo alojas en tu portátil y cierras la tapa, no se ejecutará. Usa un servidor, Docker o n8n Cloud.
  • Después de cada edición del workflow, desactívalo y vuelve a activarlo. n8n Cloud tiene un en el que los programadores se desregistran en silencio tras cambios, sin mostrar ningún error.

Cómo construir un pipeline semanal de extracción de leads

Mismo patrón, distinto objetivo: Schedule Trigger (cada lunes a las 9 AM) → HTTP Request (directorio de empresas) → HTML (extraer nombre, teléfono, email) → Code (eliminar duplicados, limpiar formato) → envío a Airtable o HubSpot.

n8n-vs-thunderbit-scheduled-scraping.webp

El coste oculto aquí es el mantenimiento. Si el sitio del directorio cambia su diseño, tus selectores CSS se rompen y el workflow falla en silencio. HasData estima que del tiempo inicial de desarrollo debería reservarse para mantenimiento continuo por año en cualquier pipeline basado en selectores. Cuando ya mantienes unos 20 sitios, la carga se vuelve muy real.

Thunderbit Scheduled Scraper: la alternativa sin código

El Scheduled Scraper de Thunderbit te permite describir el intervalo con lenguaje natural (por ejemplo, "todos los lunes a las 9 AM"), introducir tus URLs y hacer clic en "Schedule". Se ejecuta en la nube —sin hosting, sin expresiones cron y sin desregistro silencioso.

DimensiónWorkflow programado en n8nThunderbit Scheduled Scraper
Configuración de programaciónExpresión cron o interfaz de schedule de n8nDescríbelo en lenguaje natural
Limpieza de datosRequiere nodo Code manualLa IA limpia, etiqueta y traduce automáticamente
Destinos de exportaciónRequiere nodos de integraciónGoogle Sheets, Airtable, Notion, Excel (gratis)
Requisito de hostingSelf-hosted o n8n CloudNinguno — funciona en la nube
Mantenimiento si cambia el sitioSe rompen los selectores, hay que corregir manualmenteLa IA relee el sitio cada vez

Esa última fila es la más importante. Los usuarios de los foros lo dicen claramente: "la mayoría funcionan hasta que un sitio cambia su diseño". El enfoque basado en IA de Thunderbit elimina ese dolor porque no depende de selectores CSS fijos.

Cuando tu scraper de n8n es bloqueado: guía de troubleshooting anti-bot

Que te bloqueen es la frustración número 1 después de la paginación. El consejo típico —"añade un header User-Agent"— sirve más o menos lo mismo que poner una puerta de malla ante un huracán.

Según el Imperva 2025 Bad Bot Report, , y de ese tráfico es malicioso. Los proveedores anti-bot (Cloudflare, Akamai, DataDome, HUMAN, PerimeterX) han respondido con fingerprinting TLS, desafíos JavaScript y análisis de comportamiento. El nodo HTTP Request de n8n, que usa la librería Axios por debajo, genera una huella TLS distinta y fácil de reconocer como no navegador. Cambiar el header User-Agent no soluciona nada —el te delata incluso antes de que se lea cualquier header HTTP.

Árbol de decisión anti-bot

Aquí tienes un marco sistemático de resolución, no solo "añade un User-Agent":

¿La solicitud está bloqueada?

  • 403 Forbidden → Añade headers User-Agent + Accept (ver Paso 2 arriba) → ¿Sigue bloqueado?
    • → Añade rotación de proxies residenciales → ¿Sigue bloqueado?
      • → Cambia a una API de scraping (ScrapeNinja, Firecrawl, ZenRows) o a un nodo de navegador headless de la comunidad
      • No → Continúa
    • No → Continúa
  • Aparece CAPTCHA → Usa una API de scraping con resolución de CAPTCHA integrada (por ejemplo, )
  • Respuesta vacía (contenido renderizado con JS) → Usa un nodo de navegador headless o una API de scraping con renderizado JS
  • Limitación de velocidad (error 429) → Activa batching en el nodo HTTP Request, configura 2–5 segundos entre lotes y reduce la concurrencia

Otro detalle importante: n8n tiene un por el que el nodo HTTP Request no puede tunelizar correctamente HTTPS a través de un proxy HTTP. La librería Axios falla en el handshake TLS aunque curl en el mismo contenedor funcione bien. Si usas proxy y te aparecen errores de conexión misteriosos, probablemente esa sea la causa.

Por qué Thunderbit evita la mayoría de problemas anti-bot

Thunderbit ofrece dos modos de scraping:

  • Browser Scraping: se ejecuta dentro de tu navegador Chrome real, heredando las cookies de sesión, el estado de login y la huella del navegador. Esto esquiva la mayoría de medidas anti-bot que bloquean las solicitudes del servidor, porque la solicitud es un navegador real.
  • Cloud Scraping: para sitios públicos, la nube de Thunderbit gestiona el anti-bot a escala —.

Si estás dedicando más tiempo a pelearte con Cloudflare que a analizar datos, esta es la alternativa práctica.

Opinión honesta: cuándo funciona el web scraping con n8n y cuándo usar otra cosa

n8n es una gran plataforma. Pero no es la herramienta adecuada para todos los trabajos de scraping, y ningún artículo de la competencia lo dice con honestidad. Los usuarios literalmente preguntan en los foros: "¿qué tan difícil es crear un web scraper con n8n?" y "¿qué herramienta de scraping funciona mejor con n8n?"

Dónde destaca el web scraping con n8n

  • Workflows de varios pasos que combinan scraping con procesamiento posterior —actualizaciones de CRM, alertas en Slack, exportación a hojas de cálculo, análisis con IA.
  • Casos en los que el scraping es un nodo dentro de una cadena mayor de automatización —extraer → enriquecer → filtrar → enviar al CRM.
  • Usuarios técnicos que se sienten cómodos con selectores CSS y lógica basada en nodos.
  • Escenarios que requieren transformación personalizada de datos entre la extracción y el almacenamiento.

Dónde el web scraping con n8n se vuelve doloroso

  • Usuarios no técnicos que solo necesitan datos rápido. Configurar nodos, descubrir selectores CSS y depurar el flujo es una pendiente pronunciada para usuarios de negocio.
  • Sitios con protección anti-bot intensa. Los complementos de proxies y APIs añaden coste y complejidad.
  • Mantenimiento cuando cambia el diseño del sitio. Los selectores CSS se rompen y los workflows fallan en silencio.
  • Scraping masivo en muchos tipos de sitios distintos. Cada sitio necesita su propia configuración de selectores.
  • Enriquecimiento de subpáginas. Requiere construir sub-workflows separados en n8n.

Comparativa lado a lado: n8n vs. Thunderbit vs. scripts en Python

FactorScraping DIY con n8nThunderbitScript en Python
Habilidad técnica necesariaIntermedia (nodos + selectores CSS)Ninguna (la IA sugiere campos)Alta (programación)
Tiempo de configuración por sitio nuevo30–90 min~2 minutos1–4 horas
Gestión anti-botManual (headers, proxies, APIs)Integrada (modos navegador/nube)Manual (librerías)
Mantenimiento cuando cambia el sitioActualizaciones manuales de selectoresCero — la IA se adapta automáticamenteActualizaciones manuales de código
Soporte para workflows multipasoExcelente (punto fuerte)Exportación a Sheets/Airtable/NotionRequiere código personalizado
Coste a escalaHosting de n8n + costes de proxy/APIBasado en créditos (~1 crédito por fila)Servidor + costes de proxy
Enriquecimiento de subpáginasManual — hay que crear sub-workflows separadosScraping de subpáginas con 1 clicScript personalizado

La conclusión: usa n8n cuando el scraping sea parte de una cadena de automatización compleja y multipaso. Usa Thunderbit cuando necesites datos rápido sin construir workflows. Usa Python cuando necesites control máximo y cuentes con recursos de desarrollo. No compiten entre sí: se complementan.

n8n-thunderbit-python-comparison.webp

Workflows reales de web scraping con n8n que sí puedes copiar

La gente en los foros sigue preguntando: "¿Alguien ha encadenado esto en workflows multipaso?" Aquí van tres workflows concretos —secuencias reales de nodos que puedes construir hoy.

Workflow 1: monitor de precios de competidores en ecommerce

Objetivo: seguir los precios de la competencia a diario y recibir alertas cuando bajan.

Cadena de nodos: Schedule Trigger (diario, 8 AM) → Code (generar URLs paginadas) → Loop Over Items → HTTP Request → HTML (extraer nombre del producto, precio, disponibilidad) → Wait (2s) → (volver al bucle) → Code (limpiar datos, normalizar precios) → Google Sheets (añadir filas) → IF (¿precio por debajo del umbral?) → Slack (enviar alerta)

Complejidad: 8–10 nodos, 30–60 min de configuración por sitio de competidor.

Atajo con Thunderbit: el Scheduled Scraper de Thunderbit + pueden lograr resultados similares en minutos, con exportación gratuita a Google Sheets.

Workflow 2: pipeline de generación de leads para ventas

Objetivo: extraer un directorio de empresas cada semana, limpiar y categorizar los leads, y enviarlos al CRM.

Cadena de nodos: Schedule Trigger (semanal, lunes 9 AM) → HTTP Request (página del directorio) → HTML (extraer nombre, teléfono, email, dirección) → Code (eliminar duplicados, limpiar formato) → nodo OpenAI/Gemini (categorizar por industria) → nodo HubSpot (crear contactos)

Nota: n8n tiene un nodo nativo de —útil para enviar datos al CRM. Pero los pasos de scraping y limpieza siguen requiriendo trabajo manual con selectores CSS.

Atajo con Thunderbit: el y el Phone Number Extractor gratuitos de Thunderbit pueden extraer información de contacto con 1 clic sin construir un workflow. Su etiquetado con IA también puede categorizar leads durante la extracción. Quienes no necesiten la cadena completa de automatización pueden saltarse por completo la configuración en n8n.

Workflow 3: rastreador de nuevos anuncios inmobiliarios

Objetivo: detectar nuevos anuncios en Zillow o Realtor.com cada semana y enviar un correo resumen.

Cadena de nodos: Schedule Trigger (semanal) → HTTP Request (páginas de listados) → HTML (extraer dirección, precio, habitaciones, enlace) → Code (limpiar datos) → Google Sheets (añadir) → Code (comparar con los datos de la semana anterior, marcar nuevos anuncios) → IF (¿se encontraron nuevos anuncios?) → Gmail/SendGrid (enviar resumen)

Nota: Thunderbit tiene —sin necesidad de selectores CSS. Quienes necesitan toda la cadena de automatización (extraer → comparar → alertar) se benefician de n8n; quienes solo necesitan los datos de los anuncios se benefician de Thunderbit.

Para más inspiración de workflows, la biblioteca de la comunidad de n8n incluye plantillas para , y .

Consejos para mantener tus pipelines de web scraping con n8n funcionando sin problemas

El scraping en producción es 20% construcción y 80% mantenimiento.

Usa batching y retrasos para evitar los límites de velocidad

Activa batching en el nodo HTTP Request y configura un tiempo de espera de 1–3 segundos entre lotes. Las solicitudes concurrentes son la forma más rápida de acabar bloqueado por IP. Un poco de paciencia aquí te ahorra mucho dolor después.

Vigila las ejecuciones del workflow para detectar fallos silenciosos

Usa la pestaña Executions de n8n para revisar ejecuciones fallidas. Los datos extraídos pueden volver vacíos sin avisar si un sitio cambia su diseño: el workflow "se ejecuta correctamente", pero tu hoja de cálculo queda llena de celdas vacías.

Configura un workflow con Error Trigger que se dispare ante cualquier ejecución fallida y envíe una alerta por Slack o correo. Esto no es opcional en pipelines de producción.

Guarda los selectores CSS externamente para actualizarlos fácilmente

Mantén los selectores CSS en una hoja de Google o en variables de entorno de n8n para poder actualizarlos sin editar el workflow. Cuando un sitio cambie su diseño, solo tendrás que modificar el selector en un solo lugar.

Sabe cuándo cambiar a un scraper impulsado por IA

Si te ves actualizando selectores CSS constantemente, luchando contra medidas anti-bot o dedicando más tiempo a mantener scrapers que a usar los datos, considera una herramienta impulsada por IA como que relee el sitio cada vez y se adapta automáticamente. El funciona muy bien: Thunderbit se encarga de la capa frágil de extracción (la parte que se rompe cada vez que un sitio cambia un <div>), exporta a Google Sheets o Airtable, y n8n recoge las nuevas filas mediante su disparador nativo de Sheets/Airtable para encargarse de la orquestación —actualizaciones en CRM, alertas, lógica condicional y distribución a múltiples sistemas.

Cierre: construye el pipeline que encaje con tu equipo

El web scraping con n8n es potente cuando necesitas que el scraping sea solo un paso dentro de un workflow de automatización más grande. Pero exige configuración técnica, mantenimiento continuo y paciencia con la paginación, el anti-bot y la programación. Esta guía cubrió el flujo completo: tu primer workflow, la paginación (la parte que todos los tutoriales se saltan), la programación, la solución de problemas anti-bot, una evaluación honesta de dónde encaja n8n y workflows reales que puedes copiar.

Yo lo veo así:

  • Usa n8n cuando el scraping forme parte de una cadena compleja y multipaso —actualizaciones de CRM, alertas de Slack, enriquecimiento con IA, enrutamiento condicional.
  • Usa cuando necesites datos rápido sin construir workflows —la IA se encarga de sugerir campos, paginación, anti-bot y exportación en 2 clics.
  • Usa Python cuando necesites control máximo y cuentes con recursos de desarrollo.

Y, sinceramente, la mejor configuración para muchos equipos es usar ambos: Thunderbit para la extracción y n8n para la orquestación. Si quieres ver cómo se compara el scraping con IA frente a tu workflow de n8n, el te permite experimentar a pequeña escala —y la se instala en segundos. Para tutoriales en vídeo e ideas de workflows, visita el .

Prueba Thunderbit para web scraping con IA

Preguntas frecuentes

¿Puede n8n extraer sitios web con mucho JavaScript?

No con el nodo HTTP Request integrado por sí solo. El nodo HTTP Request obtiene HTML en bruto y no puede ejecutar JavaScript. Para sitios renderizados con JS, necesitas un nodo de la comunidad como o una integración con una API de scraping (ScrapeNinja, Firecrawl) que renderice JavaScript del lado del servidor. Thunderbit gestiona sitios con mucho JS de forma nativa tanto en modo Browser Scraping como en Cloud Scraping.

¿El web scraping con n8n es gratis?

La versión self-hosted de n8n es gratuita y de código abierto. n8n Cloud antes tenía un plan gratis, pero a abril de 2026 solo ofrece una prueba de 14 días; después, los planes empiezan en 24 dólares/mes para 2.500 ejecuciones. Además, el scraping de sitios protegidos puede requerir servicios de proxy de pago (5–15 USD/GB para proxies residenciales) o APIs de scraping (49–200+ USD/mes según el volumen).

¿Cómo se compara el web scraping con n8n frente a Thunderbit?

n8n es mejor para automatizaciones multipaso en las que el scraping es solo una parte de un workflow mayor (por ejemplo, extraer → enriquecer → filtrar → enviar al CRM → alertar en Slack). Thunderbit es mejor para extracción rápida de datos sin código, con detección de campos basada en IA, paginación automática y cero mantenimiento cuando los sitios cambian. Muchos equipos usan ambos juntos: Thunderbit para extraer y n8n para orquestar.

¿Puedo extraer datos de sitios que requieren inicio de sesión usando n8n?

Sí, pero requiere configurar cookies o tokens de sesión en el nodo HTTP Request, algo que puede ser difícil de mantener. El modo Browser Scraping de Thunderbit hereda automáticamente la sesión de Chrome del usuario ya conectado; si has iniciado sesión, Thunderbit puede extraer lo que ves.

¿Qué debo hacer cuando mi scraper de n8n deja de devolver datos de repente?

Primero, revisa la pestaña Executions de n8n para ver errores. La causa más común es un cambio en el diseño del sitio que rompió tus selectores CSS: el workflow "se ejecuta bien", pero devuelve campos vacíos. Verifica tus selectores con la herramienta Inspect de Chrome, actualízalos en tu workflow (o en tu hoja externa de selectores) y vuelve a probar. Si estás sufriendo bloqueos anti-bot, sigue el árbol de decisión de troubleshooting de esta guía. Para mayor fiabilidad a largo plazo, considera un scraper impulsado por IA como Thunderbit, que se adapta automáticamente a los cambios de diseño.

Más información

Shuai Guan
Shuai Guan
Co-founder/CEO @ Thunderbit. Passionate about cross section of AI and Automation. He's a big advocate of automation and loves making it more accessible to everyone. Beyond tech, he channels his creativity through a passion for photography, capturing stories one picture at a time.
Tabla de contenidos

Prueba Thunderbit

Extrae leads y otros datos en solo 2 clics. Impulsado por IA.

Obtén Thunderbit Es gratis
Extrae datos usando IA
Transfiere datos fácilmente a Google Sheets, Airtable o Notion
PRODUCT HUNT#1 Product of the Week