Padroneggiare il Web Scraping con n8n: workflow di automazione

Ultimo aggiornamento il April 14, 2026

Qualche mese fa, uno dei nostri utenti ci ha mandato uno screenshot di un workflow n8n con 14 nodi, una mezza dozzina di sticky note e un oggetto email che diceva solo: «Help». Aveva seguito un tutorial molto diffuso sul web scraping con n8n, fatto andare alla perfezione una demo da 10 righe su un sito di test e poi provato a tirare fuori i prezzi dei concorrenti da 200 pagine prodotto reali. Il risultato? Un loop di paginazione rotto, una serie di errori 403 e uno scheduler che, senza dire una parola, aveva smesso di partire dopo il primo martedì.

È proprio lì, nel passaggio dalla demo alla pipeline, che la maggior parte dei progetti di scraping con n8n si blocca. Ho passato anni a costruire e a lavorare nell’automazione, e posso dirlo senza giri di parole: la parte di scraping raramente è quella davvero tosta. Il problema arriva quasi sempre dopo il primo scraping riuscito. Paginazione, pianificazione, anti-bot, pulizia dei dati, export e — soprattutto — manutenzione quando il sito cambia layout per la terza volta nel trimestre. Questa guida copre tutto il flusso, dal primo nodo HTTP Request fino a un workflow n8n di web scraping ricorrente e pronto per la produzione. E quando l’approccio fai-da-te di n8n arriva al suo limite, ti mostrerò dove strumenti basati su AI come Thunderbit possono farti risparmiare ore, se non giorni, di frustrazione.

Cos’è il web scraping con n8n (e perché molti tutorial restano solo in superficie)

n8n è una piattaforma open source, low-code, per automatizzare workflow. Pensala come una tela visiva in cui colleghi dei “nodi” — ognuno con un compito preciso (scaricare una pagina web, analizzare HTML, mandare un messaggio Slack, scrivere su Google Sheets) — e li metti in fila per creare flussi automatici. Non serve programmare in modo pesante, anche se puoi inserire JavaScript quando ti serve.

Per “web scraping con n8n” si intende usare i nodi HTTP Request e HTML integrati in n8n (più i nodi della community) per recuperare, analizzare ed elaborare dati da siti web dentro questi workflow automatizzati. Il processo base si divide in due passaggi: Fetch (il nodo HTTP Request recupera l’HTML grezzo da un URL) e Parse (il nodo HTML usa i selettori CSS per estrarre i dati che ti interessano — nomi prodotto, prezzi, email, qualsiasi cosa).

La piattaforma è enorme: ad aprile 2026, n8n conta , oltre 230.000 utenti attivi, più di 9.166 template di workflow della community e rilascia una nuova minor release più o meno ogni settimana. Nel marzo 2025 ha raccolto . C’è davvero tantissimo slancio.

Ma c’è un vuoto di cui nessuno parla. Il tutorial di scraping con n8n più popolare su dev.to (di Lakshay Nasa, pubblicato sotto l’organizzazione “Extract by Zyte”) prometteva la paginazione nella “Parte 2”. La Parte 2 è davvero uscita — e il verdetto dell’autore è stato: «N8N offre una Modalità di paginazione predefinita dentro il nodo HTTP Request, sotto Options, e anche se sembra comoda, nella mia esperienza non si è comportata in modo affidabile per i casi d’uso tipici del web scraping.» Alla fine l’autore ha spostato la paginazione su una API esterna a pagamento. Intanto, gli utenti del forum n8n continuano a citare “paginazione, throttling, login” come il punto in cui lo scraping con n8n “diventa facilmente complesso”. Questa guida nasce proprio per colmare quel vuoto.

Perché il web scraping con n8n conta per i team Sales, Ops ed Ecommerce

Il web scraping con n8n non è un hobby da sviluppatori. È uno strumento di business. Il vale circa 1–1,3 miliardi di dollari nel 2025 e, secondo le previsioni, toccherà i 2–2,3 miliardi entro il 2030. Solo il dynamic pricing viene usato da circa , e oggi si affida a dati alternativi — gran parte dei quali raccolti dal web. McKinsey riporta che il dynamic pricing genera per chi lo adotta.

Qui si vede davvero il punto forte di n8n: non si tratta solo di raccogliere dati. Si tratta di cosa succede dopo. n8n ti permette di collegare lo scraping con azioni successive — aggiornamenti CRM, notifiche Slack, export su fogli di calcolo, analisi AI — in un unico workflow.

Caso d’usoChi ne beneficiaCosa estraiRisultato di business
Lead generationTeam salesElenchi aziendali, pagine contattoPopola il CRM con lead qualificati
Monitoraggio prezzi concorrentiTeam ecommercePagine elenco prodottiAdegua i prezzi in tempo reale
Monitoraggio annunci immobiliariAgenti immobiliariZillow, Realtor, siti MLS localiIndividua nuovi annunci prima dei concorrenti
Ricerca di mercatoTeam marketingSiti di recensioni, forum, newsIdentifica trend e sentiment dei clienti
Monitoraggio stock fornitori/SKUOperations supply chainPagine prodotto dei fornitoriEvita rotture di stock e ottimizza gli acquisti

I dati mostrano che il ROI è reale: prevede di aumentare gli investimenti in AI nel 2025, e il lead nurturing automatizzato ha dimostrato di in nove mesi. Se il tuo team sta ancora facendo copia-incolla dai siti nei fogli di calcolo, stai lasciando soldi sul tavolo.

Il tuo kit n8n per il web scraping: nodi essenziali e soluzioni disponibili

Prima di costruire qualsiasi cosa, devi sapere cosa hai a disposizione. Ecco i nodi n8n fondamentali per il web scraping:

  • Nodo HTTP Request: recupera l’HTML grezzo da qualsiasi URL. Funziona come un browser che richiede una pagina, ma restituisce il codice invece di renderizzarlo. Supporta GET/POST, header, batching e, in teoria, la paginazione integrata.
  • Nodo HTML (prima “HTML Extract”): analizza l’HTML tramite selettori CSS per estrarre dati specifici — titoli, prezzi, link, immagini, tutto ciò che ti serve.
  • Nodo Code: ti consente di scrivere snippet JavaScript per pulizia dei dati, normalizzazione degli URL, deduplicazione e logica personalizzata.
  • Nodo Edit Fields (Set): ristruttura o rinomina i campi dati per i nodi a valle.
  • Nodo Split Out: trasforma array in singoli elementi da elaborare.
  • Nodo Convert to File: esporta dati strutturati in CSV, JSON, ecc.
  • Nodo Loop Over Items: scorre liste di elementi (fondamentale per la paginazione — ci arriviamo tra poco).
  • Schedule Trigger: avvia il workflow secondo una pianificazione cron.
  • Error Trigger: ti avvisa quando un workflow fallisce (essenziale in produzione).

Per lo scraping avanzato — siti con rendering JavaScript o protezioni anti-bot pesanti — ti serviranno nodi della community:

ApproccioIdeale perLivello di competenzaGestisce siti renderizzati in JSGestione anti-bot
n8n HTTP Request + nodi HTMLSiti statici, APIPrincipiante–IntermedioNoManuale (header, proxy)
n8n + nodo community ScrapeNinja/FirecrawlSiti dinamici/protettiIntermedioIntegrata (rotazione proxy, CAPTCHA)
n8n + Headless Browser (Puppeteer)Interazioni JS complesseAvanzatoParziale (dipende dalla configurazione)
Thunderbit (AI Web Scraper)Qualsiasi sito, utenti non tecniciPrincipianteSì (Browser o Cloud)Integrata (eredita la sessione del browser o gestisce il cloud)

Al momento, in n8n v2.15.1, non esiste un nodo headless browser nativo. Qualsiasi scraping con rendering JavaScript richiede un nodo della community oppure una API esterna.

Una breve nota su Thunderbit: è un’estensione Chrome basata su AI che il nostro team ha creato. Fai clic su “AI Suggest Fields”, poi su “Scrape”, e ottieni dati strutturati — senza selettori CSS, senza configurazioni di nodi, senza manutenzione. Ti mostrerò dove si inserisce (e dove n8n resta la scelta migliore) lungo tutta la guida.

Passo dopo passo: crea il tuo primo workflow di web scraping con n8n

Ora che abbiamo visto il kit di partenza, ecco come costruire da zero un web scraper funzionante con n8n. Userò come esempio una pagina elenco prodotti — il classico caso d’uso per il monitoraggio prezzi o la ricerca sui concorrenti.

Prima di iniziare:

  • Difficoltà: Principiante–Intermedio
  • Tempo richiesto: circa 20–30 minuti
  • Cosa ti serve: n8n (self-hosted o Cloud), un URL target, browser Chrome (per trovare i selettori CSS)

Passo 1: crea un nuovo workflow e aggiungi un trigger manuale

Apri n8n, clicca su “New Workflow” e dagli un nome chiaro — ad esempio “Competitor Price Scraper”. Trascina un nodo Manual Trigger. (Più avanti lo sostituiremo con un trigger pianificato.)

Dovresti vedere un singolo nodo sulla canvas, pronto a partire quando clicchi “Test Workflow”.

Passo 2: recupera la pagina con il nodo HTTP Request

Aggiungi un nodo HTTP Request e collegalo al Manual Trigger. Imposta il metodo su GET e inserisci l’URL target (ad esempio https://example.com/products).

Ora arriva il passaggio critico che molti tutorial saltano: aggiungi un header User-Agent realistico. Di default, n8n invia axios/xx come user agent — quindi è subito riconoscibile come bot. Nella sezione “Headers”, aggiungi:

Nome headerValore
User-AgentMozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36
Accepttext/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8

Se stai estraendo più URL, abilita il Batching (in Options) e imposta un tempo di attesa di 1–3 secondi tra le richieste. Aiuta a stare lontano dai limiti di frequenza.

Esegui il nodo. Dovresti vedere l’HTML grezzo nel pannello di output.

Passo 3: analizza i dati con il nodo HTML

Collega un nodo HTML all’output di HTTP Request. Imposta l’operazione su Extract HTML Content.

Per trovare i selettori CSS corretti, apri la pagina target in Chrome, fai clic destro sul dato che ti interessa (ad esempio il titolo di un prodotto) e scegli “Ispeziona”. Nel pannello Elements, fai clic destro sull’elemento HTML evidenziato e seleziona “Copy → Copy selector”.

Configura i valori di estrazione in questo modo:

ChiaveSelettore CSSValore restituito
product_name.product-titleTesto
price.price-currentTesto
url.product-linkAttributo: href

Esegui il nodo. Dovresti vedere in output una tabella di dati strutturati — nomi prodotto, prezzi e URL.

Passo 4: pulisci e normalizza con il nodo Code

I dati grezzi estratti sono quasi sempre un po’ sporchi. I prezzi possono avere spazi extra, gli URL possono essere relativi e i campi testuali possono contenere ritorni a capo finali. Aggiungi un nodo Code e collegalo al nodo HTML.

Ecco un semplice snippet JavaScript per sistemare tutto:

1return items.map(item => {
2  const d = item.json;
3  return {
4    json: {
5      product_name: (d.product_name || '').trim(),
6      price: parseFloat((d.price || '').replace(/[^0-9.]/g, '')),
7      url: d.url && d.url.startsWith('http') ? d.url : `https://example.com${d.url}`
8    }
9  };
10});

Questo passaggio è fondamentale per ottenere dati pronti per la produzione. Se lo salti, il tuo foglio di calcolo sarà pieno di valori tipo “$ 29.99\n”.

Passo 5: esporta in Google Sheets, Airtable o CSV

Collega un nodo Google Sheets (oppure Airtable, o Convert to File per CSV). Autenticati con il tuo account Google, seleziona il foglio di calcolo e il tab del foglio, poi mappa i campi in uscita dal nodo Code alle intestazioni delle colonne.

Esegui il workflow completo. Dovresti vedere i dati puliti e strutturati finire nel tuo foglio.

Nota a margine: verso Google Sheets, Airtable, Notion ed Excel senza dover configurare alcun nodo. Se non ti serve l’intera catena del workflow e vuoi solo i dati, è una scorciatoia molto comoda.

La parte che ogni tutorial sul web scraping con n8n salta: workflow completi di paginazione

La paginazione è il gap numero uno nei contenuti sullo scraping con n8n — ed è anche la fonte numero uno di frustrazione nei forum della community n8n.

Esistono due pattern principali di paginazione:

  1. Paginazione a clic / incremento URL — pagine come ?page=1, ?page=2, ecc.
  2. Infinite scroll — i contenuti si caricano man mano che scorri verso il basso (pensa a Twitter, Instagram o a molti cataloghi prodotto moderni).

Paginazione a clic in n8n (incremento dell’URL con i nodi Loop)

L’opzione di paginazione integrata nel menu Options del nodo HTTP Request sembra comoda. In pratica, però, è poco affidabile. L’autore del tutorial n8n di scraping più noto (Lakshay Nasa) l’ha provata e ha scritto: «non si è comportata in modo affidabile nella mia esperienza». Gli utenti del forum segnalano che , e non riesce a rilevare l’ultima pagina.

n8n-pagination-chain-workflow.webp

L’approccio affidabile è questo: costruisci in modo esplicito la lista degli URL in un nodo Code, poi iterala con Loop Over Items.

Ecco come fare:

  1. Aggiungi un nodo Code che generi gli URL delle pagine:
1const base = 'https://example.com/products';
2const totalPages = 10; // oppure rilevalo dinamicamente
3return Array.from({length: totalPages}, (_, i) => ({
4  json: { url: `${base}?page=${i + 1}` }
5}));
  1. Collega un nodo Loop Over Items per scorrere la lista.
  2. Dentro il loop, aggiungi il nodo HTTP Request (imposta l’URL su {{ $json.url }}), poi il nodo HTML per l’analisi.
  3. Aggiungi un nodo Wait (1–3 secondi, in modo randomizzato) dentro il loop per evitare i limiti 429.
  4. Dopo il loop, aggrega i risultati ed esportali su Google Sheets o CSV.

La catena completa: Code (costruisci gli URL) → Loop Over Items → HTTP Request → HTML → Wait → (torna al loop) → Aggregate → Export.

Un dettaglio importante: il nodo Loop Over Items ha un per cui i loop annidati possono saltare elementi senza avvisare. Se stai facendo paginazione e arricchimento di sottopagine, fai test accurati — il conteggio finale potrebbe non coincidere con il numero iniziale di elementi.

Paginazione con infinite scroll: perché i nodi n8n nativi fanno fatica

Le pagine con infinite scroll caricano i contenuti tramite JavaScript mentre scorri. Il nodo HTTP Request scarica solo l’HTML iniziale — non può eseguire JavaScript né simulare gli eventi di scroll. Hai due opzioni:

  • Usare un nodo della community per browser headless (ad esempio o ) per renderizzare la pagina e simulare lo scroll.
  • Usare una scraping API (ScrapeNinja, Firecrawl, ZenRows) con rendering JS attivo.

Entrambe le soluzioni aumentano parecchio la complessità. Parliamo di 30–60+ minuti di configurazione per sito, più la manutenzione continua.

Come Thunderbit gestisce la paginazione senza configurazione

Sono di parte, ma il confronto è chiarissimo:

Funzionalitàn8n (workflow fai-da-te)Thunderbit
Paginazione a clicConfigurazione manuale del nodo loop, incremento URLAutomatica — rileva e segue la paginazione
Pagine con infinite scrollRichiede browser headless + nodo della communitySupporto integrato, nessuna configurazione
Sforzo di setup30–60 min per sito2 clic
Pagine per batchSequenziale (una alla volta)50 pagine in parallelo (Cloud Scraping)

Se devi estrarre dati da 200 pagine prodotto distribuite su 10 liste paginate, n8n ti porta via un intero pomeriggio. Thunderbit ti richiede circa due minuti. Non è una critica a n8n: è solo lo strumento giusto per un lavoro diverso.

Impostalo e dimenticatene: pipeline di web scraping n8n attivate da cron

Lo scraping una tantum è utile, ma la vera forza del web scraping con n8n sta nella raccolta dati ricorrente e automatizzata. Stranamente, quasi nessun tutorial sullo scraping con n8n copre il Schedule Trigger per lo scraping — anche se è una delle funzioni più richieste dalla community.

Costruire una pipeline giornaliera per il monitoraggio dei prezzi

Sostituisci il tuo Manual Trigger con un nodo Schedule Trigger. Puoi usare l’interfaccia di n8n (“Every day at 8:00 AM”) oppure un’espressione cron (0 8 * * *).

La catena completa del workflow:

  1. Schedule Trigger (ogni giorno alle 8:00)
  2. Nodo Code (genera gli URL paginati)
  3. Loop Over Items → HTTP Request → HTML → Wait (estrae tutte le pagine)
  4. Nodo Code (pulisce i dati, normalizza i prezzi)
  5. Google Sheets (aggiunge nuove righe)
  6. Nodo IF (qualche prezzo è sceso sotto la soglia?)
  7. Slack (invia un alert se sì)

Affianca un workflow Error Trigger che si attivi in caso di esecuzione fallita e mandi un ping su Slack. Altrimenti, quando i selettori si rompono — e succederà — te ne accorgi tre settimane dopo, quando il report risulta vuoto.

Due requisiti non ovvi:

  • n8n deve restare acceso 24/7. Un’istanza self-hosted su laptop non partirà se il coperchio è chiuso. Usa un server, Docker o n8n Cloud.
  • Dopo ogni modifica al workflow, disattivalo e riattivalo. n8n Cloud ha un per cui gli scheduler possono deregistrarsi in silenzio dopo una modifica, senza alcun errore visibile.

Costruire una pipeline settimanale per l’estrazione di lead

Stesso schema, obiettivo diverso: Schedule Trigger (ogni lunedì alle 9:00) → HTTP Request (directory aziendale) → HTML (estrae nome, telefono, email) → Code (deduplica, pulisce la formattazione) → push su Airtable o HubSpot.

n8n-vs-thunderbit-scheduled-scraping.webp

Il vero costo sottovalutato qui è la manutenzione. Se il sito della directory cambia layout, i selettori CSS si rompono e il workflow fallisce in silenzio. HasData stima che bisogna mettere a budget del tempo iniziale di sviluppo ogni anno per mantenere una pipeline basata su selettori. Quando devi mantenere circa 20 siti, il peso si fa sentire.

Scheduled Scraper di Thunderbit: l’alternativa no-code

Il Scheduled Scraper di Thunderbit ti permette di descrivere l’intervallo in linguaggio naturale (per esempio “ogni lunedì alle 9:00”), inserire gli URL e cliccare su “Schedule”. Tutto gira nel cloud — niente hosting, niente espressioni cron, niente deregistrazioni silenziose.

DimensioneWorkflow pianificato n8nScheduled Scraper di Thunderbit
Configurazione della pianificazioneEspressione cron o interfaccia n8nDescrizione in linguaggio naturale
Pulizia dei datiRichiede un nodo Code manualeL’AI pulisce/etichetta/traduce automaticamente
Destinazioni di exportRichiede nodi di integrazioneGoogle Sheets, Airtable, Notion, Excel (gratuito)
Requisito di hostingSelf-hosted o n8n CloudNessuno — gira nel cloud
Manutenzione in caso di cambi layoutI selettori si rompono, serve correzione manualeL’AI rilegge il sito da zero ogni volta

L’ultima riga è quella che conta di più. Gli utenti del forum lo dicono chiaramente: “quasi tutti funzionano finché il sito non cambia layout.” L’approccio basato su AI di Thunderbit elimina questo problema perché non si affida a selettori CSS fissi.

Quando il tuo scraper n8n viene bloccato: guida alla risoluzione dei problemi anti-bot

Essere bloccati è la frustrazione numero uno dopo la paginazione. Il consiglio standard — “aggiungi un header User-Agent” — è utile quanto chiudere una porta a zanzariera contro un uragano.

Secondo l’Imperva 2025 Bad Bot Report, , e è malevolo. I fornitori anti-bot (Cloudflare, Akamai, DataDome, HUMAN, PerimeterX) hanno risposto con TLS fingerprinting, challenge JavaScript e analisi comportamentale. Il nodo HTTP Request di n8n, che sotto il cofano usa la libreria Axios, produce un’impronta TLS distinta, facile da riconoscere e chiaramente non da browser. Cambiare l’header User-Agent non basta: l’hash ti smaschera prima ancora che venga letto un header HTTP.

L’albero decisionale anti-bot

Ecco un framework sistematico per la diagnosi — non solo “aggiungi un User-Agent”:

La richiesta viene bloccata?

  • 403 Forbidden → Aggiungi header User-Agent + Accept (vedi il Passo 2 sopra) → Ancora bloccato?
    • → Aggiungi rotazione di proxy residenziali → Ancora bloccato?
      • → Passa a una scraping API (ScrapeNinja, Firecrawl, ZenRows) o a un nodo community per browser headless
      • No → Procedi
    • No → Procedi
  • Appare un CAPTCHA → Usa una scraping API con risoluzione CAPTCHA integrata (ad esempio )
  • Risposta vuota (contenuto renderizzato in JS) → Usa un nodo community per browser headless o una scraping API con rendering JS
  • Rate limit raggiunto (errore 429) → Abilita il batching nel nodo HTTP Request, imposta tempi di attesa di 2–5 secondi tra i batch, riduci la concorrenza

Un altro dettaglio importante: n8n ha un per cui il nodo HTTP Request non riesce a fare correttamente il tunnel HTTPS attraverso un proxy HTTP. La libreria Axios fallisce nell’handshake TLS, anche se curl nello stesso container funziona perfettamente. Se stai usando un proxy e ricevi errori di connessione misteriosi, probabilmente è questo il motivo.

Perché Thunderbit aggira la maggior parte dei problemi anti-bot

Thunderbit offre due modalità di scraping:

  • Browser Scraping: gira dentro il tuo vero browser Chrome, ereditando cookie di sessione, stato di login e fingerprint del browser. Così aggira la maggior parte dei sistemi anti-bot che bloccano le richieste lato server — perché la richiesta è un browser reale.
  • Cloud Scraping: per i siti accessibili pubblicamente, il cloud di Thunderbit gestisce l’anti-bot su larga scala — .

Se stai passando più tempo a lottare con Cloudflare che ad analizzare i dati, questa è l’alternativa più pratica.

Valutazione onesta: quando il web scraping con n8n funziona — e quando usare altro

n8n è una piattaforma eccellente. Ma non è lo strumento giusto per ogni lavoro di scraping, e nessun articolo concorrente lo dice con abbastanza onestà. Gli utenti stanno letteralmente chiedendo nei forum: “quanto è difficile creare uno scraper web con n8n?” e “quale strumento di scraping funziona meglio con n8n?”

Dove il web scraping con n8n dà il meglio

  • Workflow multi-step che combinano scraping con elaborazioni successive — aggiornamenti CRM, alert Slack, analisi AI, scrittura su database. Questa è la forza principale di n8n.
  • Casi in cui lo scraping è solo un nodo in una catena di automazione più ampia — scrape → arricchisci → filtra → invia al CRM.
  • Utenti tecnici a loro agio con selettori CSS e logiche a nodi.
  • Scenari in cui serve una trasformazione dati personalizzata tra scraping e storage.

Dove il web scraping con n8n diventa pesante

  • Utenti non tecnici che vogliono solo i dati, e in fretta. Configurare nodi, trovare selettori CSS e fare debug ha una curva ripida per chi usa il business.
  • Siti con protezioni anti-bot forti. Proxy e integrazioni API aggiungono costi e complessità.
  • Manutenzione quando il layout del sito cambia. I selettori CSS si rompono, i workflow falliscono in silenzio.
  • Scraping massivo su molti tipi di sito diversi. Ogni sito richiede la sua configurazione di selettori.
  • Arricchimento di sottopagine. Serve costruire sotto-workflow separati in n8n.

Confronto diretto: n8n vs. Thunderbit vs. script Python

FattoreScraping fai-da-te con n8nThunderbitScript Python
Competenza tecnica richiestaIntermedia (nodi + selettori CSS)Nessuna (l’AI suggerisce i campi)Alta (programmazione)
Tempo di setup per un nuovo sito30–90 min~2 minuti1–4 ore
Gestione anti-botManuale (header, proxy, API)Integrata (modalità browser/cloud)Manuale (librerie)
Manutenzione quando il sito cambiaAggiornamento manuale dei selettoriZero — l’AI si adatta automaticamenteAggiornamenti manuali del codice
Supporto a workflow multi-stepEccellente (punto di forza)Export verso Sheets/Airtable/NotionRichiede codice personalizzato
Costi su larga scalaHosting n8n + costi proxy/APIA crediti (~1 credito per riga)Server + costi proxy
Arricchimento di sottopagineManuale — bisogna creare un sotto-workflow separatoScraping delle sottopagine con 1 clicScripting personalizzato

Il succo è questo: usa n8n quando lo scraping fa parte di una catena di automazione complessa e multi-step. Usa Thunderbit quando ti servono dati rapidamente, senza costruire workflow. Usa Python quando vuoi il massimo controllo e hai risorse di sviluppo. Non sono concorrenti — si completano a vicenda.

n8n-thunderbit-python-comparison.webp

Workflow reali di web scraping con n8n che puoi davvero copiare

Gli utenti del forum continuano a chiedere: “Qualcuno ha concatenato questi in workflow multi-step?” Ecco tre workflow concreti — sequenze di nodi reali che puoi costruire oggi.

Workflow 1: monitoraggio prezzi dei concorrenti nell’ecommerce

Obiettivo: tracciare ogni giorno i prezzi dei concorrenti e ricevere un alert quando scendono.

Catena di nodi: Schedule Trigger (giornaliero, 8:00) → Code (genera URL paginati) → Loop Over Items → HTTP Request → HTML (estrae nome prodotto, prezzo, disponibilità) → Wait (2s) → (torna al loop) → Code (pulisce i dati, normalizza i prezzi) → Google Sheets (aggiunge righe) → IF (prezzo sotto soglia?) → Slack (invia alert)

Complessità: 8–10 nodi, 30–60 minuti di setup per sito concorrente.

Scorciatoia con Thunderbit: il Scheduled Scraper di Thunderbit + possono ottenere risultati simili in pochi minuti, con export gratuito su Google Sheets.

Workflow 2: pipeline per la generazione di lead commerciali

Obiettivo: estrarre ogni settimana una directory aziendale, pulire e categorizzare i lead, poi inviarli al CRM.

Catena di nodi: Schedule Trigger (settimanale, lunedì 9:00) → HTTP Request (pagina elenco directory) → HTML (estrae nome, telefono, email, indirizzo) → Code (deduplica, pulisce la formattazione) → nodo OpenAI/Gemini (categorizza per settore) → nodo HubSpot (crea contatti)

Nota: n8n ha un nodo nativo — molto utile per portare i dati nel CRM. Ma i passaggi di scraping e pulizia richiedono comunque lavoro manuale sui selettori CSS.

Scorciatoia con Thunderbit: il free e l’estrattore di numeri di telefono di Thunderbit possono recuperare i contatti con 1 clic, senza costruire un workflow. Il tagging AI può anche categorizzare i lead mentre li estrai. Chi non ha bisogno dell’intera catena di automazione può saltare del tutto la configurazione n8n.

Workflow 3: monitoraggio nuovi annunci immobiliari

Obiettivo: individuare nuovi annunci su Zillow o Realtor.com ogni settimana e inviare un riepilogo via email.

Catena di nodi: Schedule Trigger (settimanale) → HTTP Request (pagine listing) → HTML (estrae indirizzo, prezzo, camere, link) → Code (pulisce i dati) → Google Sheets (aggiunge) → Code (confronta con i dati della settimana precedente, segnala i nuovi annunci) → IF (trovati nuovi annunci?) → Gmail/SendGrid (invia digest)

Nota: Thunderbit ha — senza selettori CSS. Chi ha bisogno dell’intera catena di automazione (scrape → confronto → alert) trae vantaggio da n8n; chi ha bisogno solo dei dati degli annunci trae vantaggio da Thunderbit.

Per altre idee di workflow, la libreria della community n8n offre template per , e .

Consigli per mantenere in funzione le tue pipeline di web scraping n8n

Lo scraping in produzione è per il 20% costruzione e per l’80% manutenzione.

Usa batching e ritardi per evitare i rate limit

Abilita il batching nel nodo HTTP Request e imposta un tempo di attesa di 1–3 secondi tra i batch. Le richieste simultanee sono il modo più rapido per farsi bannare l’IP. Un po’ di pazienza qui ti risparmia parecchi problemi dopo.

Monitora le esecuzioni del workflow per individuare i fallimenti silenziosi

Usa la scheda Executions di n8n per controllare le esecuzioni fallite. I dati estratti possono tornare vuoti senza errori se un sito cambia layout — il workflow “riesce”, ma il tuo foglio di calcolo è pieno di celle vuote.

Imposta un workflow Error Trigger che si attivi su qualsiasi esecuzione fallita e mandi un alert su Slack o via email. In produzione non è un optional: è obbligatorio.

Conserva i selettori CSS all’esterno per aggiornarli facilmente

Tieni i selettori CSS in un Google Sheet o nelle variabili d’ambiente di n8n, così puoi aggiornarli senza toccare il workflow stesso. Quando cambia il layout di un sito, devi aggiornare il selettore solo in un punto.

Capisci quando passare a uno scraper basato su AI

Se ti ritrovi a aggiornare continuamente i selettori CSS, a combattere i sistemi anti-bot o a passare più tempo a mantenere gli scraper che a usare i dati, valuta uno strumento AI come che rilegge il sito da zero ogni volta e si adatta in automatico. L’ funziona molto bene: Thunderbit gestisce il livello di estrazione più fragile (la parte che si rompe ogni volta che un sito aggiorna un <div>), esporta su Google Sheets o Airtable, e n8n prende le nuove righe tramite il suo trigger nativo su Sheets/Airtable per orchestrare il resto — aggiornamenti CRM, alert, logiche condizionali, distribuzione verso più sistemi.

Conclusione: costruisci la pipeline adatta al tuo team

Il web scraping con n8n è potente quando ti serve lo scraping come passaggio dentro un workflow di automazione più ampio. Ma richiede configurazione tecnica, manutenzione continua e pazienza con paginazione, anti-bot e pianificazione. Questa guida ha coperto l’intera pipeline: il tuo primo workflow, la paginazione (la parte che ogni tutorial salta), la pianificazione, la risoluzione dei problemi anti-bot, una valutazione onesta di dove si colloca n8n e workflow reali che puoi copiare.

Ecco come la vedo io:

  • Usa n8n quando lo scraping è parte di una catena di automazione complessa e multi-step — aggiornamenti CRM, alert Slack, arricchimento AI, routing condizionale.
  • Usa quando ti servono dati in fretta, senza costruire workflow — l’AI gestisce suggerimento dei campi, paginazione, anti-bot ed export in 2 clic.
  • Usa Python quando vuoi il massimo controllo e hai risorse di sviluppo.

E, sinceramente, per molti team la soluzione migliore è usare entrambi: Thunderbit per l’estrazione, n8n per l’orchestrazione. Se vuoi vedere come lo scraping basato su AI si confronta con il tuo workflow n8n, il ti permette di fare qualche prova su piccola scala — e la si installa in pochi secondi. Per tutorial video e idee sui workflow, dai un’occhiata al .

Prova Thunderbit per il web scraping con AI

FAQ

n8n può fare scraping di siti web molto pesanti in JavaScript?

Non con il solo nodo HTTP Request integrato. Il nodo HTTP Request recupera HTML grezzo e non può eseguire JavaScript. Per siti renderizzati in JS serve un nodo della community come oppure un’integrazione con una scraping API (ScrapeNinja, Firecrawl) che faccia il rendering JavaScript lato server. Thunderbit gestisce nativamente i siti pesanti in JS sia in modalità Browser che Cloud.

Il web scraping con n8n è gratuito?

La versione self-hosted di n8n è gratuita e open source. n8n Cloud in passato aveva un piano free, ma ad aprile 2026 offre solo una trial di 14 giorni — dopo di che i piani partono da 24 $/mese per 2.500 esecuzioni. Lo scraping di siti protetti può inoltre richiedere servizi proxy a pagamento (5–15 $/GB per proxy residenziali) o API di scraping (49–200+ $/mese a seconda del volume).

Come si confronta il web scraping con n8n rispetto a Thunderbit?

n8n è più adatto alle automazioni multi-step in cui lo scraping è solo una parte di un workflow più ampio (per esempio: estrai → arricchisci → filtra → invia al CRM → alert su Slack). Thunderbit è migliore per un’estrazione dati rapida e no-code, con rilevamento dei campi basato su AI, paginazione automatica e nessuna manutenzione quando i siti cambiano. Molti team usano entrambi insieme — Thunderbit per l’estrazione, n8n per l’orchestrazione.

Posso estrarre dati da siti che richiedono login usando n8n?

Sì, ma bisogna configurare cookie o token di sessione nel nodo HTTP Request, cosa che può risultare difficile da mantenere. La modalità Browser Scraping di Thunderbit eredita automaticamente la sessione Chrome con login dell’utente — se sei loggato, Thunderbit può estrarre ciò che vedi.

Cosa devo fare se il mio scraper n8n smette improvvisamente di restituire dati?

Per prima cosa, controlla la scheda Executions di n8n per gli errori. La causa più comune è una modifica al layout del sito che ha rotto i selettori CSS — il workflow “riesce” ma restituisce campi vuoti. Verifica i selettori con lo strumento Inspect di Chrome, aggiornali nel workflow (o nel foglio esterno dei selettori) e rifai il test. Se stai incontrando blocchi anti-bot, segui l’albero decisionale di troubleshooting di questa guida. Per affidabilità sul lungo periodo, considera uno scraper AI come Thunderbit, che si adatta automaticamente ai cambi di layout.

Scopri di più

Shuai Guan
Shuai Guan
Co-founder/CEO @ Thunderbit. Passionate about cross section of AI and Automation. He's a big advocate of automation and loves making it more accessible to everyone. Beyond tech, he channels his creativity through a passion for photography, capturing stories one picture at a time.
Indice

Prova Thunderbit

Estrai lead e altri dati in soli 2 clic. Powered by AI.

Ottieni Thunderbit È gratis
Estrai dati usando l'IA
Trasferisci facilmente i dati su Google Sheets, Airtable o Notion
PRODUCT HUNT#1 Product of the Week