Padroneggiare il Web Scraping con n8n: workflow di automazione

Ultimo aggiornamento il April 15, 2026

Qualche mese fa, uno dei nostri utenti ci ha mandato uno screenshot di un workflow n8n con 14 nodi, mezza dozzina di sticky note e un oggetto dell’email che diceva solo: “Aiuto”. Aveva seguito un popolare tutorial di web scraping con n8n, fatto girare una demo perfetta da 10 righe su un sito di prova e poi provato a estrarre i prezzi dei competitor su 200 pagine prodotto reali. Il risultato? Un loop di paginazione rotto, un muro di errori 403 e uno scheduler silenzioso che ha smesso di partire dopo il primo martedì.

È in quel divario — tra la demo e il processo in produzione — che la maggior parte dei progetti di scraping con n8n finisce per incepparsi. Ho passato anni a costruire e a lavorare nell’automazione, e posso dirtelo chiaramente: la parte difficile raramente è lo scraping in sé. È tutto quello che viene dopo il primo scraping riuscito a mettere in crisi le persone. Paginazione, pianificazione, blocchi anti-bot, pulizia dei dati, esportazione e — soprattutto — manutenzione quando il sito cambia layout per la terza volta in questo trimestre. Questa guida copre l’intera pipeline, dal primo nodo HTTP Request fino a un workflow n8n di web scraping ricorrente e pronto per la produzione. E dove l’approccio fai-da-te di n8n arriva al limite, ti mostrerò come strumenti basati su AI come Thunderbit possono farti risparmiare ore (o giorni) di frustrazione.

Cos’è il web scraping con n8n (e perché la maggior parte dei tutorial ne mostra solo la superficie)

n8n è una piattaforma open source di automazione dei workflow low-code. Pensala come una tela visiva in cui colleghi dei “nodi” — ognuno fa un compito specifico (recuperare una pagina web, analizzare l’HTML, inviare un messaggio su Slack, scrivere su Google Sheets) — e li unisci in flussi automatizzati. Non serve programmare pesantemente, anche se puoi infilare JavaScript quando ti serve.

“Web scraping con n8n” significa usare i nodi integrati HTTP Request e HTML di n8n (più eventuali nodi della community) per recuperare, analizzare ed elaborare i dati dei siti web dentro questi workflow automatizzati. Il cuore del processo è in due passaggi: Fetch (il nodo HTTP Request recupera l’HTML grezzo da un URL) e Parse (il nodo HTML usa selettori CSS per estrarre i dati che ti interessano — nomi prodotto, prezzi, email, qualsiasi cosa).

La piattaforma è enorme: ad aprile 2026, n8n conta , oltre 230.000 utenti attivi, più di 9.166 template di workflow della community e rilascia una nuova minor release più o meno ogni settimana. Nel marzo 2025 ha raccolto . Insomma, dietro c’è parecchio slancio.

Ma c’è un vuoto di cui nessuno parla. Il tutorial di web scraping con n8n più popolare su dev.to (di Lakshay Nasa, pubblicato sotto l’organizzazione “Extract by Zyte”) prometteva la paginazione nella “Parte 2”. La Parte 2 è effettivamente arrivata — e il verdetto dell’autore è stato: “N8N ci offre una modalità di paginazione predefinita dentro il nodo HTTP Request, nella sezione Options, e anche se sulla carta sembra comoda, nella mia esperienza non si è comportata in modo affidabile per i casi d’uso tipici del web scraping.” Alla fine l’autore ha spostato la paginazione su una API di terze parti a pagamento. Nel frattempo, nei forum di n8n gli utenti continuano a citare “paginazione, throttling, login” come il punto in cui lo scraping con n8n “diventa facilmente complesso”. Questa guida nasce proprio per colmare quel vuoto.

Perché il web scraping con n8n conta per i team Sales, Operations ed Ecommerce

Il web scraping con n8n non è un passatempo da sviluppatori. È uno strumento di business. Il vale circa 1–1,3 miliardi di dollari nel 2025 e dovrebbe arrivare a 2–2,3 miliardi entro il 2030. Solo il dynamic pricing viene usato da circa , e si affida ormai a dati alternativi — molti dei quali raccolti dal web. McKinsey riporta che il dynamic pricing genera per chi lo adotta.

Qui si vede la vera forza di n8n: non si tratta solo di ottenere dati. Si tratta di quello che succede dopo. n8n ti permette di concatenare lo scraping con azioni successive — aggiornamenti CRM, alert su Slack, esportazioni su fogli di calcolo, analisi AI — in un unico workflow.

Caso d’usoChi ne trae vantaggioCosa estraiRisultato per il business
Generazione leadTeam salesDirectory aziendali, pagine contattoPopolare il CRM con lead qualificati
Monitoraggio prezzi competitorTeam ecommercePagine listing prodottoAdeguare i prezzi in tempo reale
Monitoraggio annunci immobiliariAgenti immobiliariZillow, Realtor, siti MLS localiIndividuare nuovi annunci prima dei concorrenti
Ricerca di mercatoTeam marketingSiti di recensioni, forum, newsIdentificare trend e sentiment dei clienti
Monitoraggio stock fornitori/SKUOperations supply chainPagine prodotto dei fornitoriEvitare rotture di stock e ottimizzare gli acquisti

I dati mostrano che il ROI è reale: prevede di aumentare gli investimenti in AI nel 2025, e l’automazione del nurturing dei lead ha dimostrato di in nove mesi. Se il tuo team sta ancora facendo copia-incolla dai siti nei fogli di calcolo, stai lasciando soldi sul tavolo.

La tua cassetta degli attrezzi n8n per il web scraping: nodi core e soluzioni disponibili

Prima di costruire qualsiasi cosa, devi sapere cosa hai a disposizione. Ecco i nodi essenziali di n8n per il web scraping:

  • Nodo HTTP Request: recupera HTML grezzo da qualsiasi URL. Funziona come un browser che fa una richiesta di pagina, ma restituisce il codice invece di renderizzare la pagina. Supporta GET/POST, header, batching e (teoricamente) paginazione integrata.
  • Nodo HTML (prima “HTML Extract”): analizza l’HTML usando selettori CSS per estrarre dati specifici — titoli, prezzi, link, immagini, quello che ti serve.
  • Nodo Code: ti permette di scrivere snippet JavaScript per pulizia dei dati, normalizzazione degli URL, deduplicazione e logica personalizzata.
  • Nodo Edit Fields (Set): ristruttura o rinomina i campi dati per i nodi successivi.
  • Nodo Split Out: divide array in singoli elementi da elaborare.
  • Nodo Convert to File: esporta dati strutturati in CSV, JSON, ecc.
  • Nodo Loop Over Items: itera attraverso liste (fondamentale per la paginazione — ne parliamo meglio tra poco).
  • Schedule Trigger: avvia il workflow secondo una pianificazione cron.
  • Error Trigger: ti avvisa quando un workflow fallisce (essenziale in produzione).

Per scraping avanzato — siti con rendering JavaScript o con protezioni anti-bot pesanti — servono nodi della community:

ApproccioIdeale perLivello di competenzaGestisce siti con rendering JSGestione anti-bot
n8n HTTP Request + nodi HTMLSiti statici, APIPrincipiante–IntermedioNoManuale (header, proxy)
n8n + nodo community ScrapeNinja/FirecrawlSiti dinamici/protettiIntermedioIntegrata (rotazione proxy, CAPTCHA)
n8n + Headless Browser (Puppeteer)Interazioni JS complesseAvanzatoParziale (dipende dalla configurazione)
Thunderbit (AI Web Scraper)Qualsiasi sito, utenti non tecniciPrincipianteSì (Browser o Cloud mode)Integrata (eredita la sessione browser o la gestione cloud)

Al momento della versione v2.15.1 non esiste alcun nodo headless browser nativo in n8n. Qualsiasi scraping di pagine renderizzate in JS richiede un nodo community o una API esterna.

Una nota veloce su Thunderbit: è un basata su AI, sviluppata dal nostro team. Clicchi “AI Suggest Fields”, poi “Scrape”, e ottieni dati strutturati — niente selettori CSS, niente configurazione di nodi, niente manutenzione. Ti mostrerò lungo tutta la guida dove ha senso usarlo (e dove n8n resta la scelta migliore).

Passo dopo passo: costruire il tuo primo workflow di web scraping con n8n

Ora che conosci gli strumenti, vediamo come costruire da zero un web scraper funzionante in n8n. Userò come esempio una pagina di listing prodotti — il tipo di contenuto che davvero estrarresti per monitorare prezzi o analizzare i competitor.

Prima di iniziare:

  • Difficoltà: Principiante–Intermedio
  • Tempo richiesto: circa 20–30 minuti
  • Cosa ti serve: n8n (self-hosted o Cloud), un URL di destinazione, browser Chrome (per trovare i selettori CSS)

Passo 1: crea un nuovo workflow e aggiungi un trigger manuale

Apri n8n, clicca “New Workflow” e assegnagli un nome descrittivo — ad esempio “Competitor Price Scraper”. Trascina un nodo Manual Trigger. (Più avanti passeremo a un trigger pianificato.)

Dovresti vedere un solo nodo sulla canvas, pronto a partire quando clicchi “Test Workflow”.

Passo 2: recupera la pagina con il nodo HTTP Request

Aggiungi un nodo HTTP Request e collegalo al Manual Trigger. Imposta il metodo su GET e inserisci l’URL di destinazione (per esempio https://example.com/products).

Ora arriva il passaggio critico che molti tutorial saltano: aggiungi un User-Agent realistico. Di default, n8n invia axios/xx come user agent — e questo lo rende subito riconoscibile come bot. Nella sezione “Headers”, aggiungi:

Nome headerValore
User-AgentMozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36
Accepttext/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8

Se stai estraendo più URL, abilita il Batching (in Options) e imposta un tempo di attesa di 1–3 secondi tra le richieste. Aiuta a non far scattare i limiti di frequenza.

Esegui il nodo. Dovresti vedere l’HTML grezzo nel pannello di output.

Passo 3: analizza i dati con il nodo HTML

Collega un nodo HTML all’output di HTTP Request. Imposta l’operazione su Extract HTML Content.

Per trovare i selettori CSS giusti, apri la pagina di destinazione in Chrome, fai clic destro sul dato che ti serve (ad esempio il titolo di un prodotto) e scegli “Inspect”. Nel pannello Elements, fai clic destro sull’elemento HTML evidenziato e seleziona “Copy → Copy selector”.

Configura i valori di estrazione così:

ChiaveSelettore CSSValore restituito
product_name.product-titleTesto
price.price-currentTesto
url.product-linkAttributo: href

Esegui il nodo. Dovresti vedere in output una tabella di dati strutturati — nomi prodotto, prezzi e URL.

Passo 4: pulizia e normalizzazione con il nodo Code

I dati grezzi estratti sono quasi sempre sporchi. I prezzi contengono spazi extra, gli URL possono essere relativi e i campi testuali spesso finiscono con a capo. Aggiungi un nodo Code e collegalo al nodo HTML.

Ecco un semplice snippet JavaScript per sistemare tutto:

1return items.map(item => {
2  const d = item.json;
3  return {
4    json: {
5      product_name: (d.product_name || '').trim(),
6      price: parseFloat((d.price || '').replace(/[^0-9.]/g, '')),
7      url: d.url && d.url.startsWith('http') ? d.url : `https://example.com${d.url}`
8    }
9  };
10});

Questo passaggio è essenziale per dati di qualità produzione. Saltalo e il tuo foglio di calcolo sarà pieno di voci tipo “$ 29.99\n”.

Passo 5: esporta su Google Sheets, Airtable o CSV

Collega un nodo Google Sheets (oppure Airtable, o Convert to File per CSV). Autenticati con il tuo account Google, seleziona il foglio di calcolo e il tab corretto, e mappa i campi dell’output del nodo Code sulle intestazioni delle colonne.

Esegui l’intero workflow. Dovresti vedere i dati puliti e strutturati arrivare nel foglio.

Nota a margine: verso Google Sheets, Airtable, Notion ed Excel senza alcuna configurazione di nodi. Se non ti serve l’intera catena del workflow e vuoi solo i dati, è una scorciatoia davvero utile.

La parte che ogni tutorial di web scraping con n8n salta: workflow completi di paginazione

La paginazione è il principale punto cieco nei contenuti sullo scraping con n8n — ed è la prima fonte di frustrazione nei forum della community n8n.

Esistono due modelli principali di paginazione:

  1. Paginazione basata su clic / incremento dell’URL — pagine come ?page=1, ?page=2, ecc.
  2. Infinite scroll — i contenuti si caricano mentre scorri verso il basso (pensa a Twitter, Instagram o molti cataloghi prodotto moderni).

Paginazione click-based in n8n (incremento URL con i nodi Loop)

L’opzione di paginazione integrata nel menu Options del nodo HTTP Request sembra comoda. Nella pratica, però, è inaffidabile. L’autore del tutorial n8n più famoso sullo scraping (Lakshay Nasa) l’ha provata e ha scritto: “nella mia esperienza non si è comportata in modo affidabile.” Gli utenti del forum segnalano , e il mancato rilevamento dell’ultima pagina.

n8n-pagination-chain-workflow.webp

L’approccio affidabile è questo: costruisci esplicitamente la lista degli URL in un nodo Code, poi iterala con Loop Over Items.

Ecco come:

  1. Aggiungi un nodo Code che generi gli URL delle pagine:
1const base = 'https://example.com/products';
2const totalPages = 10; // oppure rilevalo dinamicamente
3return Array.from({length: totalPages}, (_, i) => ({
4  json: { url: `${base}?page=${i + 1}` }
5}));
  1. Collega un nodo Loop Over Items per scorrere la lista.
  2. Dentro il loop, aggiungi il nodo HTTP Request (imposta l’URL su {{ $json.url }}), poi il nodo HTML per il parsing.
  3. Aggiungi un nodo Wait (1–3 secondi, con variazione casuale) dentro il loop per evitare limiti 429.
  4. Dopo il loop, aggrega i risultati ed esporta su Google Sheets o CSV.

La catena completa: Code (genera URL) → Loop Over Items → HTTP Request → HTML → Wait → (torna al loop) → Aggregate → Export.

Un dettaglio importante: il nodo Loop Over Items ha un per cui i loop annidati possono saltare elementi senza avvisare. Se stai facendo paginazione e arricchimento di sotto-pagine, fai test con attenzione — il conteggio “done” potrebbe non coincidere con gli input.

Paginazione infinite scroll: perché i nodi nativi di n8n fanno fatica

Le pagine con infinite scroll caricano contenuti tramite JavaScript mentre scorri. Il nodo HTTP Request recupera solo l’HTML iniziale — non può eseguire JavaScript né attivare eventi di scroll. Hai due opzioni:

  • Usare un nodo community per headless browser (ad esempio o ) per renderizzare la pagina e simulare lo scroll.
  • Usare una scraping API (ScrapeNinja, Firecrawl, ZenRows) con rendering JS abilitato.

Entrambe le strade aggiungono parecchia complessità. Significa 30–60+ minuti di setup per sito, oltre alla manutenzione continua.

Come Thunderbit gestisce la paginazione senza configurazione

Sono di parte, ma il contrasto è evidente:

Funzionalitàn8n (workflow fai-da-te)Thunderbit
Paginazione basata su clicSetup manuale del nodo loop, incremento URLAutomatica — rileva e segue la paginazione
Pagine a scroll infinitoRichiede headless browser + nodo communitySupporto integrato, nessuna configurazione
Sforzo di setup30–60 min per sito2 clic
Pagine per batchSequenziale (una alla volta)50 pagine contemporaneamente (Cloud Scraping)

Se devi estrarre 200 pagine prodotto distribuite su 10 listing paginati, con n8n ci passerai mezza giornata. Con Thunderbit ti servono circa due minuti. Non è una critica a n8n — è solo uno strumento diverso per un lavoro diverso.

Impostalo e dimenticatene: pipeline n8n di web scraping attivate da cron

Lo scraping una tantum è utile, ma la vera forza del web scraping con n8n sta nella raccolta dati ricorrente e automatizzata. Sorprendentemente, quasi nessun tutorial su n8n copre il Schedule Trigger per lo scraping — anche se è una delle funzionalità più richieste dalla community.

Costruire una pipeline giornaliera di monitoraggio prezzi

Sostituisci il Manual Trigger con un nodo Schedule Trigger. Puoi usare la UI di n8n (“Every day at 8:00 AM”) oppure un’espressione cron (0 8 * * *).

La catena completa del workflow:

  1. Schedule Trigger (ogni giorno alle 8:00)
  2. Nodo Code (genera URL paginati)
  3. Loop Over Items → HTTP Request → HTML → Wait (estrai tutte le pagine)
  4. Nodo Code (pulisci i dati, normalizza i prezzi)
  5. Google Sheets (aggiungi nuove righe)
  6. Nodo IF (qualche prezzo è sceso sotto la soglia?)
  7. Slack (invio alert, se sì)

Affianca un workflow Error Trigger che si attivi su qualsiasi esecuzione fallita e invii un ping su Slack. Altrimenti, quando i selettori si rompono (e succederà), te ne accorgerai tre settimane dopo, quando il report è vuoto.

Due requisiti non ovvi:

  • n8n deve restare acceso 24/7. Un self-host su laptop non farà partire gli scheduler quando il coperchio è chiuso. Usa un server, Docker o n8n Cloud.
  • Dopo ogni modifica al workflow, disattivalo e riattivalo. n8n Cloud ha un per cui gli scheduler si deregistrano in silenzio dopo le modifiche, senza alcun errore visibile.

Costruire una pipeline settimanale di estrazione lead

Stesso schema, obiettivo diverso: Schedule Trigger (ogni lunedì alle 9:00) → HTTP Request (directory aziendale) → HTML (estrai nome, telefono, email) → Code (deduplica, pulisci la formattazione) → push su Airtable o HubSpot.

n8n-vs-thunderbit-scheduled-scraping.webp

Il costo nascosto è la manutenzione. Se il sito della directory cambia layout, i tuoi selettori CSS si rompono e il workflow fallisce in silenzio. HasData stima che del tempo iniziale di costruzione vada messo in budget per la manutenzione continua di una pipeline basata su selettori, ogni anno. Quando devi mantenere circa 20 siti, il sovraccarico diventa reale.

Il Scheduled Scraper di Thunderbit: l’alternativa no-code

Lo Scheduled Scraper di Thunderbit ti consente di descrivere l’intervallo in linguaggio naturale (ad esempio, “ogni lunedì alle 9:00”), inserire gli URL e cliccare “Schedule”. Funziona nel cloud — niente hosting, niente espressioni cron, niente deregistrazioni silenziose.

DimensioneWorkflow pianificato n8nScheduled Scraper di Thunderbit
Configurazione della pianificazioneEspressione cron o UI schedule di n8nDescrizione in linguaggio naturale
Pulizia dei datiServe un nodo Code manualeAI pulisce/etichetta/traduce automaticamente
Destinazioni di esportazioneRichiede nodi di integrazioneGoogle Sheets, Airtable, Notion, Excel (gratis)
Requisito di hostingSelf-hosted o n8n CloudNessuno — gira nel cloud
Manutenzione quando il sito cambiaI selettori si rompono, serve correzione manualeL’AI legge il sito da zero ogni volta

L’ultima riga è quella che conta di più. Gli utenti dei forum lo dicono chiaramente: *“la maggior parte va bene finché un sito non cambia layout.”Qualche mese fa, uno dei nostri utenti ci ha mandato uno screenshot di un workflow n8n con 14 nodi, mezza dozzina di sticky note e un oggetto dell’email che diceva solo: “Aiuto”. Aveva seguito un popolare tutorial di web scraping con n8n, fatto girare una demo perfetta da 10 righe su un sito di prova e poi provato a estrarre i prezzi dei competitor su 200 pagine prodotto reali. Il risultato? Un loop di paginazione rotto, un muro di errori 403 e uno scheduler silenzioso che ha smesso di partire dopo il primo martedì.

È proprio in quel salto — tra la demo e il processo in produzione — che la maggior parte dei progetti di scraping con n8n si arena. Ho passato anni a costruire e a lavorare nell’automazione, e te lo dico senza giri di parole: la parte difficile raramente è lo scraping in sé. Il problema arriva quasi sempre dopo il primo scraping riuscito. Paginazione, pianificazione, blocchi anti-bot, pulizia dei dati, esportazione e — soprattutto — manutenzione quando il sito cambia layout per la terza volta in questo trimestre. Questa guida copre l’intera pipeline, dal primo nodo HTTP Request fino a un workflow n8n di web scraping ricorrente e pronto per la produzione. E quando l’approccio fai-da-te di n8n arriva al suo limite, ti mostrerò come strumenti basati su AI come Thunderbit possono farti risparmiare ore, o persino giorni, di frustrazione.

Cos’è il web scraping con n8n (e perché la maggior parte dei tutorial ne mostra solo la superficie)

n8n è una piattaforma open source di automazione dei workflow low-code. Pensala come una tela visiva in cui colleghi dei “nodi” — ognuno fa una cosa precisa, come recuperare una pagina web, analizzare l’HTML, inviare un messaggio su Slack o scrivere su Google Sheets — e li unisci in flussi automatici. Non serve programmare in modo pesante, anche se puoi inserire JavaScript quando ti serve.

“Web scraping con n8n” significa usare i nodi integrati HTTP Request e HTML di n8n, più eventuali nodi della community, per recuperare, analizzare ed elaborare i dati dei siti web dentro questi workflow automatizzati. Il cuore del processo è in due passaggi: Fetch (il nodo HTTP Request recupera l’HTML grezzo da un URL) e Parse (il nodo HTML usa selettori CSS per estrarre i dati che ti interessano — nomi prodotto, prezzi, email, qualsiasi cosa).

La piattaforma è enorme: ad aprile 2026, n8n conta , oltre 230.000 utenti attivi, più di 9.166 template di workflow della community e pubblica una nuova minor release più o meno ogni settimana. Nel marzo 2025 ha raccolto . Insomma, lo slancio non manca.

Ma c’è un buco di cui quasi nessuno parla. Il tutorial di web scraping con n8n più popolare su dev.to (di Lakshay Nasa, pubblicato sotto l’organizzazione “Extract by Zyte”) prometteva la paginazione nella “Parte 2”. La Parte 2 è davvero uscita — e il verdetto dell’autore è stato: “N8N ci offre una modalità di paginazione predefinita dentro il nodo HTTP Request, nella sezione Options, e anche se sulla carta sembra comoda, nella mia esperienza non si è comportata in modo affidabile per i casi d’uso tipici del web scraping.” Alla fine l’autore ha spostato la paginazione su una API di terze parti a pagamento. Nel frattempo, nei forum di n8n gli utenti continuano a citare “paginazione, throttling, login” come il punto in cui lo scraping con n8n “diventa facilmente complesso”. Questa guida nasce proprio per colmare quel vuoto.

Perché il web scraping con n8n conta per i team Sales, Operations ed Ecommerce

Il web scraping con n8n non è un giocattolo per sviluppatori. È uno strumento di business. Il vale circa 1–1,3 miliardi di dollari nel 2025 e dovrebbe arrivare a 2–2,3 miliardi entro il 2030. Solo il dynamic pricing viene usato da circa , e si affida ormai a dati alternativi — molti dei quali raccolti dal web. McKinsey riporta che il dynamic pricing genera per chi lo adotta.

Qui si vede davvero il punto forte di n8n: non si tratta solo di ottenere dati. Si tratta di quello che succede dopo. n8n ti permette di concatenare lo scraping con azioni successive — aggiornamenti CRM, alert su Slack, esportazioni su fogli di calcolo, analisi AI — tutto in un unico workflow.

Caso d’usoChi ne trae vantaggioCosa estraiRisultato per il business
Generazione leadTeam salesDirectory aziendali, pagine contattoPopolare il CRM con lead qualificati
Monitoraggio prezzi competitorTeam ecommercePagine listing prodottoAdeguare i prezzi in tempo reale
Monitoraggio annunci immobiliariAgenti immobiliariZillow, Realtor, siti MLS localiIndividuare nuovi annunci prima dei concorrenti
Ricerca di mercatoTeam marketingSiti di recensioni, forum, newsIdentificare trend e sentiment dei clienti
Monitoraggio stock fornitori/SKUOperations supply chainPagine prodotto dei fornitoriEvitare rotture di stock e ottimizzare gli acquisti

I numeri dicono che il ROI è reale: prevede di aumentare gli investimenti in AI nel 2025, e l’automazione del nurturing dei lead ha dimostrato di in nove mesi. Se il tuo team sta ancora facendo copia-incolla dai siti nei fogli di calcolo, stai lasciando soldi sul tavolo.

La tua cassetta degli attrezzi n8n per il web scraping: nodi core e soluzioni disponibili

Prima di costruire qualsiasi cosa, devi sapere cosa hai a disposizione. Ecco i nodi essenziali di n8n per il web scraping:

  • Nodo HTTP Request: recupera HTML grezzo da qualsiasi URL. Funziona come un browser che fa una richiesta di pagina, ma restituisce il codice invece di renderizzare la pagina. Supporta GET/POST, header, batching e, almeno in teoria, paginazione integrata.
  • Nodo HTML (prima “HTML Extract”): analizza l’HTML usando selettori CSS per estrarre dati specifici — titoli, prezzi, link, immagini, quello che ti serve.
  • Nodo Code: ti permette di scrivere snippet JavaScript per pulizia dei dati, normalizzazione degli URL, deduplicazione e logica personalizzata.
  • Nodo Edit Fields (Set): ristruttura o rinomina i campi dati per i nodi successivi.
  • Nodo Split Out: divide array in singoli elementi da elaborare.
  • Nodo Convert to File: esporta dati strutturati in CSV, JSON, ecc.
  • Nodo Loop Over Items: scorre liste una voce alla volta, fondamentale per la paginazione.
  • Schedule Trigger: avvia il workflow secondo una pianificazione cron.
  • Error Trigger: ti avvisa quando un workflow fallisce, essenziale in produzione.

Per lo scraping avanzato — siti con rendering JavaScript o con protezioni anti-bot pesanti — servono nodi della community:

ApproccioIdeale perLivello di competenzaGestisce siti con rendering JSGestione anti-bot
n8n HTTP Request + nodi HTMLSiti statici, APIPrincipiante–IntermedioNoManuale (header, proxy)
n8n + nodo community ScrapeNinja/FirecrawlSiti dinamici/protettiIntermedioIntegrata (rotazione proxy, CAPTCHA)
n8n + Headless Browser (Puppeteer)Interazioni JS complesseAvanzatoParziale (dipende dalla configurazione)
Thunderbit (AI Web Scraper)Qualsiasi sito, utenti non tecniciPrincipianteSì (Browser o Cloud mode)Integrata (eredita la sessione browser o la gestione cloud)

Al momento della versione v2.15.1 non esiste alcun nodo headless browser nativo in n8n. Qualsiasi scraping di pagine renderizzate in JS richiede un nodo community o una API esterna.

Una nota veloce su Thunderbit: è un basata su AI, sviluppata dal nostro team. Clicchi “AI Suggest Fields”, poi “Scrape”, e ottieni dati strutturati — niente selettori CSS, niente configurazione di nodi, niente manutenzione. Ti mostrerò lungo tutta la guida dove ha senso usarlo e dove, invece, n8n resta la scelta migliore.

Passo dopo passo: costruire il tuo primo workflow di web scraping con n8n

Ora che conosci gli strumenti, vediamo come costruire da zero un web scraper funzionante in n8n. Userò come esempio una pagina di listing prodotti — il tipo di contenuto che davvero estrarresti per monitorare prezzi o analizzare i competitor.

Prima di iniziare:

  • Difficoltà: Principiante–Intermedio
  • Tempo richiesto: circa 20–30 minuti
  • Cosa ti serve: n8n (self-hosted o Cloud), un URL di destinazione, browser Chrome (per trovare i selettori CSS)

Passo 1: crea un nuovo workflow e aggiungi un trigger manuale

Apri n8n, clicca “New Workflow” e dagli un nome chiaro — per esempio “Competitor Price Scraper”. Trascina un nodo Manual Trigger. (Più avanti passeremo a un trigger pianificato.)

Dovresti vedere un solo nodo sulla canvas, pronto a partire quando clicchi “Test Workflow”.

Passo 2: recupera la pagina con il nodo HTTP Request

Aggiungi un nodo HTTP Request e collegalo al Manual Trigger. Imposta il metodo su GET e inserisci l’URL di destinazione (per esempio https://example.com/products).

Adesso arriva il passaggio critico che molti tutorial saltano: aggiungi un User-Agent realistico. Di default, n8n invia axios/xx come user agent — e questo lo fa riconoscere subito come bot. Nella sezione “Headers”, aggiungi:

Nome headerValore
User-AgentMozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36
Accepttext/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8

Se stai estraendo più URL, abilita il Batching (in Options) e imposta un tempo di attesa di 1–3 secondi tra le richieste. Aiuta a non far scattare i limiti di frequenza.

Esegui il nodo. Dovresti vedere l’HTML grezzo nel pannello di output.

Passo 3: analizza i dati con il nodo HTML

Collega un nodo HTML all’output di HTTP Request. Imposta l’operazione su Extract HTML Content.

Per trovare i selettori CSS giusti, apri la pagina di destinazione in Chrome, fai clic destro sul dato che ti serve (per esempio il titolo di un prodotto) e scegli “Inspect”. Nel pannello Elements, fai clic destro sull’elemento HTML evidenziato e seleziona “Copy → Copy selector”.

Configura i valori di estrazione così:

ChiaveSelettore CSSValore restituito
product_name.product-titleTesto
price.price-currentTesto
url.product-linkAttributo: href

Esegui il nodo. Dovresti vedere in output una tabella di dati strutturati — nomi prodotto, prezzi e URL.

Passo 4: pulizia e normalizzazione con il nodo Code

I dati grezzi estratti sono quasi sempre sporchi. I prezzi contengono spazi extra, gli URL possono essere relativi e i campi testuali spesso finiscono con un a capo. Aggiungi un nodo Code e collegalo al nodo HTML.

Ecco un semplice snippet JavaScript per sistemare tutto:

1return items.map(item => {
2  const d = item.json;
3  return {
4    json: {
5      product_name: (d.product_name || '').trim(),
6      price: parseFloat((d.price || '').replace(/[^0-9.]/g, '')),
7      url: d.url && d.url.startsWith('http') ? d.url : `https://example.com${d.url}`
8    }
9  };
10});

Questo passaggio è essenziale per ottenere dati di qualità produzione. Saltalo e il tuo foglio di calcolo sarà pieno di voci tipo “$ 29.99\n”.

Passo 5: esporta su Google Sheets, Airtable o CSV

Collega un nodo Google Sheets (oppure Airtable, o Convert to File per CSV). Autenticati con il tuo account Google, seleziona il foglio di calcolo e il tab giusto, e mappa i campi dell’output del nodo Code sulle intestazioni delle colonne.

Esegui l’intero workflow. Dovresti vedere i dati puliti e strutturati arrivare nel foglio.

Nota a margine: verso Google Sheets, Airtable, Notion ed Excel senza alcuna configurazione di nodi. Se non ti serve l’intera catena del workflow e vuoi solo i dati, è una scorciatoia molto utile.

La parte che ogni tutorial di web scraping con n8n salta: workflow completi di paginazione

La paginazione è il principale punto cieco nei contenuti sullo scraping con n8n — ed è la prima fonte di frustrazione nei forum della community n8n.

Esistono due modelli principali di paginazione:

  1. Paginazione basata su clic / incremento dell’URL — pagine come ?page=1, ?page=2, ecc.
  2. Infinite scroll — i contenuti si caricano mentre scorri verso il basso (pensa a Twitter, Instagram o molti cataloghi prodotto moderni).

Paginazione click-based in n8n (incremento URL con i nodi Loop)

L’opzione di paginazione integrata nel menu Options del nodo HTTP Request sembra comoda. Nella pratica, però, è inaffidabile. L’autore del tutorial n8n più famoso sullo scraping (Lakshay Nasa) l’ha provata e ha scritto: “nella mia esperienza non si è comportata in modo affidabile.” Gli utenti del forum segnalano , e il mancato rilevamento dell’ultima pagina.

n8n-pagination-chain-workflow.webp

L’approccio affidabile è questo: costruisci esplicitamente la lista degli URL in un nodo Code, poi iterala con Loop Over Items.

Ecco come:

  1. Aggiungi un nodo Code che generi gli URL delle pagine:
1const base = 'https://example.com/products';
2const totalPages = 10; // oppure rilevalo dinamicamente
3return Array.from({length: totalPages}, (_, i) => ({
4  json: { url: `${base}?page=${i + 1}` }
5}));
  1. Collega un nodo Loop Over Items per scorrere la lista.
  2. Dentro il loop, aggiungi il nodo HTTP Request (imposta l’URL su {{ $json.url }}), poi il nodo HTML per il parsing.
  3. Aggiungi un nodo Wait (1–3 secondi, con variazione casuale) dentro il loop per evitare limiti 429.
  4. Dopo il loop, aggrega i risultati ed esporta su Google Sheets o CSV.

La catena completa: Code (genera URL) → Loop Over Items → HTTP Request → HTML → Wait → (torna al loop) → Aggregate → Export.

Un dettaglio importante: il nodo Loop Over Items ha un per cui i loop annidati possono saltare elementi senza avvisare. Se stai facendo paginazione e arricchimento di sotto-pagine, fai test con attenzione — il conteggio “done” potrebbe non coincidere con gli input.

Paginazione infinite scroll: perché i nodi nativi di n8n fanno fatica

Le pagine con infinite scroll caricano contenuti tramite JavaScript mentre scorri. Il nodo HTTP Request recupera solo l’HTML iniziale — non può eseguire JavaScript né attivare eventi di scroll. Hai due opzioni:

  • Usare un nodo community per headless browser (per esempio o ) per renderizzare la pagina e simulare lo scroll.
  • Usare una scraping API (ScrapeNinja, Firecrawl, ZenRows) con rendering JS abilitato.

Entrambe le strade aggiungono parecchia complessità. Vuol dire 30–60+ minuti di setup per sito, oltre alla manutenzione continua.

Come Thunderbit gestisce la paginazione senza configurazione

Sono di parte, ma il contrasto è evidente:

Funzionalitàn8n (workflow fai-da-te)Thunderbit
Paginazione basata su clicSetup manuale del nodo loop, incremento URLAutomatica — rileva e segue la paginazione
Pagine a scroll infinitoRichiede headless browser + nodo communitySupporto integrato, nessuna configurazione
Sforzo di setup30–60 min per sito2 clic
Pagine per batchSequenziale (una alla volta)50 pagine contemporaneamente (Cloud Scraping)

Se devi estrarre 200 pagine prodotto distribuite su 10 listing paginati, con n8n ci passerai mezza giornata. Con Thunderbit ti servono circa due minuti. Non è una critica a n8n — è solo uno strumento diverso per un lavoro diverso.

Impostalo e dimenticatene: pipeline n8n di web scraping attivate da cron

Lo scraping una tantum è utile, ma la vera forza del web scraping con n8n sta nella raccolta dati ricorrente e automatizzata. Stranamente, quasi nessun tutorial su n8n copre il Schedule Trigger per lo scraping — anche se è una delle funzioni più richieste dalla community.

Costruire una pipeline giornaliera di monitoraggio prezzi

Sostituisci il Manual Trigger con un nodo Schedule Trigger. Puoi usare la UI di n8n (“Every day at 8:00 AM”) oppure un’espressione cron (0 8 * * *).

La catena completa del workflow:

  1. Schedule Trigger (ogni giorno alle 8:00)
  2. Nodo Code (genera URL paginati)
  3. Loop Over Items → HTTP Request → HTML → Wait (estrae tutte le pagine)
  4. Nodo Code (pulisce i dati, normalizza i prezzi)
  5. Google Sheets (aggiunge nuove righe)
  6. Nodo IF (qualche prezzo è sceso sotto la soglia?)
  7. Slack (invio alert, se sì)

Affianca un workflow Error Trigger che si attivi su qualsiasi esecuzione fallita e mandi un ping su Slack. Altrimenti, quando i selettori si rompono — e succederà — te ne accorgi tre settimane dopo, quando il report è vuoto.

Due requisiti non ovvi:

  • n8n deve restare acceso 24/7. Un self-host su laptop non farà partire gli scheduler quando il coperchio è chiuso. Usa un server, Docker o n8n Cloud.
  • Dopo ogni modifica al workflow, disattivalo e riattivalo. n8n Cloud ha un per cui gli scheduler si deregistrano in silenzio dopo le modifiche, senza alcun errore visibile.

Costruire una pipeline settimanale di estrazione lead

Stesso schema, obiettivo diverso: Schedule Trigger (ogni lunedì alle 9:00) → HTTP Request (directory aziendale) → HTML (estrae nome, telefono, email) → Code (deduplica, pulisci la formattazione) → push su Airtable o HubSpot.

n8n-vs-thunderbit-scheduled-scraping.webp

Il costo nascosto è la manutenzione. Se il sito della directory cambia layout, i tuoi selettori CSS si rompono e il workflow fallisce in silenzio. HasData stima che del tempo iniziale di costruzione vada messo a budget per la manutenzione continua di una pipeline basata su selettori, ogni anno. Quando devi mantenere circa 20 siti, il sovraccarico diventa concreto.

Il Scheduled Scraper di Thunderbit: l’alternativa no-code

Lo Scheduled Scraper di Thunderbit ti permette di descrivere l’intervallo in linguaggio naturale, per esempio “ogni lunedì alle 9:00”, inserire gli URL e cliccare “Schedule”. Funziona nel cloud — niente hosting, niente espressioni cron, niente deregistrazioni silenziose.

DimensioneWorkflow pianificato n8nScheduled Scraper di Thunderbit
Configurazione della pianificazioneEspressione cron o UI schedule di n8nDescrizione in linguaggio naturale
Pulizia dei datiServe un nodo Code manualeAI pulisce/etichetta/traduce automaticamente
Destinazioni di esportazioneRichiede nodi di integrazioneGoogle Sheets, Airtable, Notion, Excel (gratis)
Requisito di hostingSelf-hosted o n8n CloudNessuno — gira nel cloud
Manutenzione quando il sito cambiaI selettori si rompono, serve correzione manualeL’AI legge il sito da zero ogni volta

L’ultima riga è quella che conta di più. Gli utenti dei forum lo dicono chiaro: “la maggior parte va bene finché un sito non cambia layout.” L’approccio basato su AI di Thunderbit elimina questo problema perché non dipende da selettori CSS fissi.

Quando il tuo scraper n8n viene bloccato: guida alla risoluzione dei problemi anti-bot

Essere bloccati è la frustrazione numero uno dopo la paginazione. Il consiglio standard — “aggiungi un header User-Agent” — è utile quanto chiudere una porta a zanzariera contro un uragano.

Secondo l’Imperva 2025 Bad Bot Report, , e è malevolo. I vendor anti-bot (Cloudflare, Akamai, DataDome, HUMAN, PerimeterX) hanno risposto con fingerprinting TLS, challenge JavaScript e analisi comportamentale. Il nodo HTTP Request di n8n, che usa la libreria Axios sotto il cofano, produce un fingerprint TLS distinto, facile da riconoscere e poco simile a quello di un browser. Cambiare l’header User-Agent non basta — l’ ti tradisce prima ancora che venga letto qualunque header HTTP.

L’albero decisionale anti-bot

Ecco un framework sistematico per risolvere il problema — non solo “aggiungi un User-Agent”:

La richiesta viene bloccata?

  • 403 Forbidden → aggiungi User-Agent + header Accept (vedi il Passo 2 sopra) → ancora bloccato?
    • → aggiungi rotazione proxy residenziali → ancora bloccato?
      • → passa a una scraping API (ScrapeNinja, Firecrawl, ZenRows) oppure a un nodo community headless browser
      • No → procedi
    • No → procedi
  • Appare un CAPTCHA → usa una scraping API con risoluzione CAPTCHA integrata (ad esempio, )
  • Risposta vuota (contenuto renderizzato in JS) → usa un nodo community headless browser o una scraping API con rendering JS
  • Limitazione di frequenza (errore 429) → abilita il batching nel nodo HTTP Request, imposta un’attesa di 2–5 secondi tra i batch, riduci la concorrenza

Un altro dettaglio insidioso: n8n ha un per cui il nodo HTTP Request non riesce a fare correttamente il tunneling HTTPS attraverso un proxy HTTP. La libreria Axios fallisce durante l’handshake TLS, anche se curl nello stesso container funziona perfettamente. Se usi un proxy e ricevi strani errori di connessione, è probabilmente questo il motivo.

Perché Thunderbit aggira la maggior parte dei problemi anti-bot

Thunderbit offre due modalità di scraping:

  • Browser Scraping: gira dentro il tuo vero browser Chrome, ereditando cookie di sessione, stato di login e fingerprint del browser. Questo aggira la maggior parte delle misure anti-bot che bloccano le richieste lato server — perché la richiesta è un vero browser.
  • Cloud Scraping: per i siti pubblicamente accessibili, il cloud di Thunderbit gestisce l’anti-bot su larga scala — .

Se stai spendendo più tempo a lottare con Cloudflare che ad analizzare i dati, questa è l’alternativa più pratica.

Analisi onesta: quando il web scraping con n8n funziona — e quando conviene usare altro

n8n è una grande piattaforma. Ma non è lo strumento giusto per ogni lavoro di scraping, e nessun articolo di confronto è davvero onesto su questo punto. Gli utenti stanno letteralmente chiedendo nei forum: “quanto è difficile creare un web scraper con n8n?” e “quale tool di scraping funziona meglio con n8n?”

Dove il web scraping con n8n eccelle

  • Workflow multi-step che uniscono scraping e azioni successive — aggiornamenti CRM, alert Slack, analisi AI, scrittura su database. Questa è la vera forza di n8n.
  • Casi in cui lo scraping è solo un nodo in una catena di automazione più ampia — estrai, arricchisci, filtra, invia al CRM.
  • Utenti tecnici che si trovano a loro agio con selettori CSS e logica a nodi.
  • Scenari che richiedono trasformazioni personalizzate dei dati tra scraping e archiviazione.

Dove il web scraping con n8n diventa faticoso

  • Utenti non tecnici che vogliono solo i dati, e in fretta. La configurazione dei nodi, la scoperta dei selettori CSS e il debugging hanno una curva di apprendimento ripida per chi lavora lato business.
  • Siti con forte protezione anti-bot. Proxy e API aggiungono costi e complessità.
  • Manutenzione quando cambia il layout del sito. I selettori CSS si rompono e i workflow falliscono in silenzio.
  • Scraping massivo su molti tipi di sito diversi. Ogni sito richiede una configurazione dei selettori dedicata.
  • Arricchimento delle sotto-pagine. Richiede la costruzione di sotto-workflow separati in n8n.

Confronto diretto: n8n vs. Thunderbit vs. script Python

FattoreScraping fai-da-te con n8nThunderbitScript Python
Competenze tecniche necessarieIntermedio (nodi + selettori CSS)Nessuna (l’AI suggerisce i campi)Alte (codice)
Tempo di setup per un nuovo sito30–90 minCirca 2 minuti1–4 ore
Gestione anti-botManuale (header, proxy, API)Integrata (modalità browser/cloud)Manuale (librerie)
Manutenzione quando il sito cambiaAggiornamenti manuali dei selettoriNulla — l’AI si adatta automaticamenteAggiornamenti manuali del codice
Supporto workflow multi-stepEccellente (forza principale)Export su Sheets/Airtable/NotionRichiede codice personalizzato
Costo su larga scalaHosting n8n + costi proxy/APIA crediti (~1 credito per riga)Costi server + proxy
Arricchimento delle sotto-pagineManuale — va costruito un sotto-workflow separatoScraping subpage con 1 clicScripting personalizzato

La conclusione è questa: usa n8n quando lo scraping è una parte di una catena di automazione complessa e multi-step. Usa Thunderbit quando ti servono dati rapidamente, senza costruire workflow. Usa Python quando vuoi il massimo controllo e hai risorse di sviluppo. Non sono concorrenti — sono complementari.

n8n-thunderbit-python-comparison.webp

Workflow reali di web scraping con n8n che puoi davvero copiare

Gli utenti nei forum continuano a chiedere: “Qualcuno li ha concatenati in workflow multi-step?” Ecco tre workflow specifici — sequenze reali di nodi che puoi costruire oggi.

Workflow 1: monitor prezzi dei competitor e-commerce

Obiettivo: tenere traccia ogni giorno dei prezzi dei competitor e ricevere un alert quando scendono.

Catena di nodi: Schedule Trigger (ogni giorno, 8:00) → Code (genera URL paginati) → Loop Over Items → HTTP Request → HTML (estrae nome prodotto, prezzo, disponibilità) → Wait (2s) → (ritorna al loop) → Code (pulisce i dati, normalizza i prezzi) → Google Sheets (aggiunge righe) → IF (prezzo sotto soglia?) → Slack (invia alert)

Complessità: 8–10 nodi, 30–60 min di setup per ogni sito competitor.

Scorciatoia con Thunderbit: lo Scheduled Scraper di Thunderbit + possono ottenere risultati simili in pochi minuti, con esportazione gratuita su Google Sheets.

Workflow 2: pipeline di generazione lead per il sales

Obiettivo: estrarre ogni settimana una directory aziendale, pulire e categorizzare i lead, poi inviarli al CRM.

Catena di nodi: Schedule Trigger (settimanale, lunedì 9:00) → HTTP Request (pagina elenco directory) → HTML (estrae nome, telefono, email, indirizzo) → Code (deduplica, pulisce la formattazione) → nodo OpenAI/Gemini (categorizza per settore) → nodo HubSpot (crea contatti)

Nota: n8n ha un nodo nativo — utile per l’invio al CRM. Ma le fasi di scraping e pulizia richiedono comunque lavoro manuale sui selettori CSS.

Scorciatoia con Thunderbit: il gratuito e il Phone Number Extractor di Thunderbit possono recuperare le informazioni di contatto in 1 clic, senza costruire un workflow. Il labeling AI può categorizzare i lead già in fase di estrazione. Chi non ha bisogno dell’intera catena di automazione può saltare del tutto il setup n8n.

Workflow 3: tracker di nuovi annunci immobiliari

Obiettivo: individuare ogni settimana nuovi annunci su Zillow o Realtor.com e inviare un’email riepilogativa.

Catena di nodi: Schedule Trigger (settimanale) → HTTP Request (pagine listing) → HTML (estrae indirizzo, prezzo, camere da letto, link) → Code (pulizia dati) → Google Sheets (aggiunge righe) → Code (confronta con i dati della settimana precedente, segnala i nuovi annunci) → IF (nuovi annunci trovati?) → Gmail/SendGrid (invia digest)

Nota: Thunderbit ha — nessun selettore CSS necessario. Chi ha bisogno dell’intera catena di automazione (estrai → confronta → avvisa) trae vantaggio da n8n; chi ha bisogno solo dei dati degli annunci trae vantaggio da Thunderbit.

Per altre idee di workflow, la libreria community di n8n include template per , e .

Consigli per far girare senza intoppi le tue pipeline di web scraping con n8n

Lo scraping in produzione è 20% costruzione e 80% manutenzione.

Usa batching e pause per evitare i rate limit

Abilita il batching nel nodo HTTP Request e imposta un tempo di attesa di 1–3 secondi tra i batch. Le richieste concorrenti sono il modo più rapido per farsi bannare l’IP. Un po’ di pazienza qui ti evita molti problemi dopo.

Monitora le esecuzioni del workflow per intercettare i fallimenti silenziosi

Usa la scheda Executions di n8n per controllare le esecuzioni fallite. I dati estratti possono tornare vuoti senza errori se un sito cambia layout — il workflow “riesce” ma il foglio di calcolo è pieno di celle vuote.

Imposta un workflow Error Trigger che si attivi su qualsiasi esecuzione fallita e invii un alert su Slack o via email. In produzione non è opzionale.

Salva i selettori CSS all’esterno per aggiornarli facilmente

Tieni i selettori CSS in un Google Sheet o nelle variabili d’ambiente di n8n, così puoi aggiornarli senza toccare il workflow stesso. Quando un sito cambia layout, devi cambiare il selettore in un solo punto.

Sappi quando passare a uno scraper basato su AI

Se ti ritrovi a aggiornare continuamente i selettori CSS, a combattere i blocchi anti-bot o a passare più tempo a mantenere gli scraper che a usare i dati, valuta uno strumento AI come che rilegge il sito ogni volta e si adatta in automatico. L’approccio funziona bene: Thunderbit gestisce il livello di estrazione fragile, cioè la parte che si rompe ogni volta che un sito aggiorna un <div>, esporta su Google Sheets o Airtable, e n8n prende le nuove righe tramite i trigger nativi di Sheets/Airtable per gestire l’orchestrazione — aggiornamenti CRM, alert, logica condizionale, fan-out su più sistemi.

Conclusione: costruisci la pipeline adatta al tuo team

Il web scraping con n8n è potente quando ti serve lo scraping come uno dei passaggi di un workflow di automazione più ampio. Però richiede configurazione tecnica, manutenzione continua e pazienza con paginazione, anti-bot e pianificazione. Questa guida ha coperto l’intera pipeline: il primo workflow, la paginazione — la parte che ogni tutorial salta —, la pianificazione, la risoluzione dei problemi anti-bot, una valutazione sincera di dove si colloca n8n e workflow reali da copiare.

Ecco come la vedo io:

  • Usa n8n quando lo scraping fa parte di una catena di automazione complessa e multi-step — aggiornamenti CRM, alert Slack, arricchimento AI, routing condizionale.
  • Usa quando hai bisogno di dati rapidamente senza costruire workflow — l’AI gestisce suggerimento dei campi, paginazione, anti-bot ed export in 2 clic.
  • Usa Python quando vuoi il massimo controllo e hai risorse di sviluppo.

E, onestamente, per molti team la configurazione migliore è usare entrambi: Thunderbit per l’estrazione, n8n per l’orchestrazione. Se vuoi vedere come lo scraping basato su AI si confronta con il tuo workflow n8n, il ti permette di fare esperimenti su piccola scala — e l’ si installa in pochi secondi. Per guide video e idee di workflow, visita il .

Prova Thunderbit per il web scraping con AI

FAQ

n8n può estrarre siti web ricchi di JavaScript?

Non con il solo nodo HTTP Request integrato. Il nodo HTTP Request recupera l’HTML grezzo e non può eseguire JavaScript. Per siti renderizzati in JS, serve un nodo community come oppure un’integrazione con una scraping API (ScrapeNinja, Firecrawl) che renderizzi JavaScript lato server. Thunderbit gestisce nativamente i siti ricchi di JS sia in modalità Browser che Cloud.

Il web scraping con n8n è gratuito?

La versione self-hosted di n8n è gratuita e open source. n8n Cloud aveva in passato un piano gratuito, ma ad aprile 2026 offre solo una prova di 14 giorni — dopo di che i piani partono da 24 $/mese per 2.500 esecuzioni. Lo scraping di siti protetti può inoltre richiedere servizi proxy a pagamento (5–15 $/GB per proxy residenziali) o API di scraping (49–200+ $/mese a seconda del volume).

Come si confronta il web scraping con n8n rispetto a Thunderbit?

n8n è migliore per automazioni multi-step in cui lo scraping è solo una parte di un workflow più grande (per esempio: estrai → arricchisci → filtra → invia al CRM → invia alert su Slack). Thunderbit è migliore per un’estrazione dati rapida e no-code, con rilevamento campi basato su AI, paginazione automatica e zero manutenzione quando i siti cambiano. Molti team usano entrambi insieme — Thunderbit per l’estrazione, n8n per l’orchestrazione.

Posso estrarre dati da siti che richiedono login usando n8n?

Sì, ma serve configurare cookie o token di sessione nel nodo HTTP Request, e la manutenzione può diventare complicata. La modalità Browser Scraping di Thunderbit eredita automaticamente la sessione Chrome dell’utente loggato — se sei loggato, Thunderbit può estrarre ciò che vedi.

Cosa devo fare se il mio scraper n8n smette improvvisamente di restituire dati?

Per prima cosa, controlla la scheda Executions di n8n per eventuali errori. La causa più comune è un cambiamento nel layout del sito che ha rotto i selettori CSS — il workflow “riesce”, ma restituisce campi vuoti. Verifica i selettori con lo strumento Inspect di Chrome, aggiornali nel workflow o nel tuo foglio esterno dei selettori e rifai il test. Se stai subendo blocchi anti-bot, segui l’albero decisionale di troubleshooting di questa guida. Per una maggiore affidabilità nel lungo periodo, considera uno scraper basato su AI come Thunderbit, che si adatta automaticamente ai cambiamenti di layout.

Scopri di più

Indice

Prova Thunderbit

Estrai lead e altri dati in soli 2 clic. Con l'AI.

Scarica Thunderbit È gratis
Estrai dati con l'AI
Trasferisci facilmente i dati su Google Sheets, Airtable o Notion
Chrome Store Rating
PRODUCT HUNT#1 Product of the Week