Guida passo-passo allo scraping web con Cypress

Ultimo aggiornamento il June 17, 2025

Ricordo ancora la prima volta che ho provato a tirare fuori i dati dei prodotti da un sito. Davanti a una pagina piena di scarpe da running, mi sono detto: “Ma quanto potrà essere complicato mettere tutti questi nomi e prezzi in un foglio Excel?” Qualche ora dopo, ero già impantanato tra errori JavaScript, selettori che cambiavano e una nuova stima per chiunque abbia mai costruito un Estrattore Web da zero.

Se ti sei mai trovato in questa situazione—magari lavori nelle vendite, nell’ecommerce o nelle operations e vuoi solo raccogliere dati freschi per prendere decisioni più furbe—sappi che non sei l’unico. La richiesta di estrazione dati dal web è letteralmente esplosa negli ultimi anni. Infatti, il e si prevede che raddoppierà entro il 2030. Ma c’è un intoppo: la maggior parte degli strumenti classici richiede una buona dose di competenze tecniche. Ecco perché voglio mostrarti due strade diverse: una pratica, con codice usando Cypress, e una scorciatoia senza codice, alimentata dall’AI, con . Useremo come esempio la pagina delle .

Che tu sia uno sviluppatore pronto a metterti alla prova con JavaScript o un professionista che preferisce evitare il codice, questa guida ti aiuterà a ottenere i dati che ti servono—senza impazzire (e senza dover rinunciare al weekend).

Cos’è l’Estrattore Web e Perché È Così Utile per le Aziende?

web-scraping-process-illustration.png

Partiamo dalle basi: l’estrazione web è il modo più veloce per raccogliere dati dai siti internet in automatico. Invece di copiare e incollare a mano nomi di prodotti, prezzi o contatti, lasci che un software faccia tutto il lavoro sporco per te.

Ma perché è così importante per le aziende? Semplice: i dati sono il nuovo oro (o il nuovo latte d’avena, se preferisci). Aziende di vendita, ecommerce e operations usano l’estrazione web per:

  • Trovare nuovi contatti recuperando informazioni da elenchi o profili social.
  • Tenere d’occhio prezzi e trend dei concorrenti—circa .
  • Analizzare le opinioni dei clienti raccogliendo recensioni e valutazioni.
  • Automatizzare ricerche ripetitive che altrimenti ti porterebbero via ore (o giorni) di lavoro manuale.

E il ritorno è concreto: dice che i dati pubblici del web li aiutano a decidere più in fretta e meglio. In poche parole, se non usi l’estrazione web, rischi di lasciare sul tavolo sia soldi che opportunità.

Cypress: Uno degli Strumenti Più Usati per l’Estrattore Web

cypress-homepage-test-automation-tool.png

Parliamo di strumenti. Cypress è un framework open-source nato per testare le applicazioni web da cima a fondo. Immaginalo come un robot che può cliccare, compilare form e controllare che il sito funzioni come si deve. Ma la sorpresa è che, visto che Cypress lavora in un vero browser e gestisce siti pieni di JavaScript, è diventato anche un ottimo (anche se un po’ insolito) strumento per l’estrazione web.

Come si piazza Cypress rispetto agli altri strumenti, soprattutto quelli in Python (come BeautifulSoup o Scrapy)? Ecco una panoramica veloce:

  • Cypress: Perfetto per estrarre contenuti dinamici generati da JavaScript. Serve conoscere JavaScript e avere un po’ di confidenza con Node.js. È flessibile e potente, ma pensato per chi mastica codice.
  • Estrattori Python: Strumenti come BeautifulSoup o Scrapy sono ideali per grandi volumi e HTML statico. Hanno un ecosistema enorme, ma possono andare in crisi con siti che richiedono un browser vero per caricare i contenuti.

Se hai già dimestichezza con JavaScript o lavori nel QA, Cypress può essere sorprendentemente efficace per estrarre dati. Ma se il codice ti mette ansia, non preoccuparti—tra poco ti mostro una soluzione senza codice.

Guida Pratica: Estrazione Web con Cypress (Esempio Scarpe Adidas da Uomo)

adidas-mens-running-shoes-listing-page.png

Rimbocchiamoci le maniche e vediamo come creare un estrattore Cypress per la . Obiettivo: estrarre nomi, prezzi, immagini e link dei prodotti in un file ordinato.

1. Configura l’Ambiente Cypress

Per prima cosa, assicurati di avere e npm installati. Poi apri il terminale e digita:

1mkdir adidas-scraper
2cd adidas-scraper
3npm init -y
4npm install cypress --save-dev

Così crei un nuovo progetto e installi Cypress in locale. Per avviare Cypress la prima volta:

1npx cypress open

Cypress creerà una cartella cypress/ con dei test di esempio. Puoi cancellarli e creare un tuo file, ad esempio cypress/e2e/adidas-scraper.cy.js.

2. Analizza il Sito e Trova i Dati da Estrarre

Ora diventa un piccolo detective. Apri la nel browser, clicca col destro su un prodotto e scegli “Ispeziona”. Vedrai che ogni prodotto è racchiuso in una card, con elementi per nome, prezzo, immagine e link.

Ad esempio, potresti trovare:

1<div class="product-card">
2   <a href="/us/adizero-sl2-running-shoes/XYZ123.html">
3      <img src="..." alt="Adizero SL2 Running Shoes"/>
4      <div class="product-price">$130</div>
5      <div class="product-name">Adizero SL2 Running Shoes -- Men's Running</div>
6   </a>
7</div>

Fai attenzione a classi come .gl-price per i prezzi e cerca schemi ricorrenti nell’HTML. Qui indicherai a Cypress cosa deve estrarre.

3. Scrivi il Codice Cypress per Estrarre i Dati

Ecco uno script di esempio per iniziare:

1// cypress/e2e/adidas-scraper.cy.js
2describe('Scrape Adidas Running Shoes', () => {
3  it('collects product name, price, image, and link', () => {
4    cy.visit('<https://www.adidas.com/us/men-running-shoes>');
5    const products = [];
6    cy.get('a[href*="/us/"][href*="running-shoes"]').each(($el) => {
7      const name = $el.find('*:contains("Running Shoes")').text().trim();
8      const price = $el.find('.gl-price').text().trim();
9      const imageUrl = $el.find('img').attr('src');
10      const link = $el.attr('href');
11      products.push({ name, price, image: imageUrl, link: `https://www.adidas.com${link}` });
12    }).then(() => {
13      cy.writeFile('cypress/output/adidas_products.json', products);
14    });
15  });
16});

Cosa succede qui?

  • cy.visit() carica la pagina.
  • cy.get() seleziona tutti i link dei prodotti che corrispondono al pattern Adidas.
  • .each() scorre ogni prodotto, estraendo nome, prezzo, immagine e link.
  • I dati vengono messi in un array e salvati in un file JSON.

Dovrai adattare i selettori se Adidas cambia il sito, ma questa base ti porta già lontano.

4. Esporta e Usa i Dati Estratti

Dopo aver lanciato lo script (tramite l’interfaccia Cypress o npx cypress run), controlla il file cypress/output/adidas_products.json. Troverai un array di oggetti prodotto come questo:

1[
2  {
3    "name": "Adizero SL2 Running Shoes Men's Running",
4    "price": "$130",
5    "image": "<https://assets.adidas.com/images/w_280,h_280,f_auto,q_auto:sensitive/.../adizero-SL2-shoes.jpg>",
6    "link": "<https://www.adidas.com/us/adizero-sl2-running-shoes/XYZ123.html>"
7  },
8  ...
9]

Da qui puoi convertire il JSON in CSV, analizzarlo in Excel o importarlo nel tuo strumento di BI preferito. Se vuoi automatizzare tutto, puoi anche programmare lo script per monitorare i prezzi ogni giorno.

Le Sfide Più Comuni nell’Estrattore Web con Cypress

cypress-web-scraping-common-challenges.png

Diciamolo chiaro: estrarre dati dal web non è sempre una passeggiata. Ecco alcuni ostacoli tipici con Cypress (e qualche dritta per superarli):

  • Contenuti generati da JavaScript: Cypress gestisce bene i contenuti dinamici, ma a volte devi aspettare che gli elementi si carichino o scorrere la pagina per attivare il caricamento. Usa cy.wait() o comandi di scroll se serve.
  • Difese anti-bot: Alcuni siti bloccano i bot controllando user agent o limitando le richieste. Cypress lavora in un browser vero, il che aiuta, ma per blocchi tosti servono tecniche avanzate (come proxy rotanti o header falsi).
  • Selettori instabili: Se Adidas cambia l’HTML o i nomi delle classi, lo script potrebbe smettere di funzionare. Preparati ad aggiornare spesso i selettori.
  • Paginazione: Molte pagine prodotto hanno più pagine. Dovrai scrivere logica per cliccare su “Avanti” e unire i risultati.
  • Gestione degli errori: Cypress nasce per il testing, quindi segnala subito se manca qualcosa. Aggiungi controlli per gestire con eleganza eventuali elementi assenti.

Se inizi a pensare che serva una laurea in informatica solo per ottenere una lista di scarpe, non sei l’unico. È proprio per questo che abbiamo creato Thunderbit.

Troppo Complicato? Prova Thunderbit: Estrazione Web in 2 Click

Non vuoi perdere tempo con Node.js, selettori o debug JavaScript? Ecco , la nostra estensione Chrome per l’estrazione web con AI. Pensata per chi vuole solo i dati—senza codice, senza configurazioni, senza stress.

Ecco cosa rende Thunderbit diverso:

  • Nessun codice o selettori da gestire: Basta puntare, cliccare e lasciare che l’AI faccia tutto.
  • Un template, tanti siti: L’AI di Thunderbit si adatta a diversi layout, così non devi riconfigurare ogni volta.
  • Estrazione in browser o cloud: Scegli la modalità che preferisci per velocità e precisione.
  • Gestisce paginazione e sottopagine: Thunderbit può navigare tra più pagine e visitare le schede prodotto per arricchire i dati.
  • Esportazione gratuita: Scarica i dati su Excel, Google Sheets, Airtable o Notion—senza costi nascosti.

Vediamo come estrarre i dati dalla pagina Adidas con Thunderbit.

Guida Pratica: Estrazione Web con Thunderbit (Esempio Adidas)

1. Installa l’Estensione Chrome Thunderbit

Per prima cosa, installa . Bastano 30 secondi, meno di quanto ci metto a trovare la moka la mattina.

Registrati gratis—Thunderbit offre una prova gratuita (10 pagine) e un piano free (6 pagine al mese), così puoi provarlo su casi reali senza dover inserire la carta di credito.

2. Estrai Dati con AI Suggest Fields

  • Apri la .
  • Clicca sull’icona di Thunderbit nel browser. Si aprirà la barra laterale.
  • Premi “AI Suggest Fields”. L’AI di Thunderbit analizza la pagina e trova in automatico nome prodotto, prezzo, immagine e link. Vedrai subito un’anteprima dei primi risultati.
  • Vuoi cambiare le colonne? Puoi rinominarle o aggiungere nuovi campi con un click. Se vuoi, puoi anche scrivere istruzioni in italiano, tipo “estrai anche il numero di colori disponibili”.
  • Clicca su “Estrai”. Thunderbit raccoglie tutti i dati, navigando tra le pagine se serve. Se vuoi più dettagli da ogni prodotto, usa la funzione di estrazione sottopagine—Thunderbit visiterà ogni scheda e arricchirà la tabella.

thunderbit-scraper-in-action-on-ecommerce-page.png

3. Esporta e Usa i Tuoi Dati

Quando l’estrazione è finita, controlla la tabella nella barra laterale di Thunderbit. Puoi:

  • Esportare su Excel, Google Sheets, Airtable o Notion con un click.
  • Scaricare in formato CSV o JSON.
  • Esportare immagini, email, numeri di telefono e altro—Thunderbit supporta tutti i principali tipi di dati.

E sì, l’esportazione è davvero gratuita. Niente sorprese o richieste di pagamento improvvise.

Per altri consigli, dai un’occhiata alla nostra o visita il per altri tutorial sull’estrazione dati.

Confronto tra Cypress e Thunderbit: Quale Estrattore Web Scegliere?

Mettiamo Cypress e Thunderbit a confronto. Ecco una tabella riassuntiva:

AspettoCypress (Estrattore con Codice)Thunderbit (Estrattore Web AI No-Code)
Difficoltà di configurazioneRichiede Node.js, npm e conoscenze JavaScript. L’avvio può essere impegnativo per chi non è sviluppatore.Installa l’estensione Chrome, accedi e sei pronto in pochi minuti. Nessun codice richiesto.
Competenze tecniche necessarieBisogna conoscere JavaScript e i selettori DOM/CSS. Barriera alta per chi non programma.Nessuna competenza tecnica richiesta. Interfaccia intuitiva e linguaggio naturale.
Velocità di implementazioneScrivere e correggere script può richiedere ore, soprattutto per pagine complesse o con paginazione.Imposti e avvii l’estrazione in pochi click. Gestisce paginazione e sottopagine in automatico.
FlessibilitàEstremamente flessibile—puoi programmare qualsiasi logica, gestire login, captcha e integrare API.Pensato per schemi standard. L’AI gestisce la maggior parte dei siti, ma flussi molto particolari possono richiedere interventi manuali.
Robustezza ai cambiamentiGli script sono fragili—se cambia l’HTML del sito, devi aggiornare il codice.Più robusto—l’AI si adatta a piccoli cambiamenti di layout. I modelli Thunderbit vengono aggiornati costantemente.
ScalabilitàPuò gestire volumi medi, ma l’estrazione via browser è più lenta su larga scala.L’estrazione cloud gestisce centinaia di pagine. Il sistema a crediti è pensato per l’uso aziendale.
Ideale perSviluppatori o utenti tecnici che vogliono precisione e logiche personalizzate. Ottimo per raccolte dati una tantum o flussi complessi.Professionisti che vogliono estrarre dati velocemente, senza codice, per attività ripetitive come monitoraggio prezzi, lead generation o raccolta annunci. Perfetto per prototipi e siti ecommerce, directory o recensioni standard.

In breve: Cypress ti dà il controllo, Thunderbit ti offre velocità e semplicità. Se ti piace smanettare con il codice, Cypress è il tuo parco giochi. Se invece vuoi solo i dati (magari perché il capo li vuole subito), Thunderbit è il tuo alleato.

In Sintesi: Come Scegliere il Miglior Approccio per l’Estrattore Web

  • L’estrazione web è fondamentale per il business moderno—che tu stia monitorando la concorrenza, generando contatti o analizzando il mercato.
  • Cypress è uno strumento potente e flessibile per chi vuole programmare il proprio estrattore. Ottimo per siti dinamici e flussi personalizzati, ma richiede tempo e manutenzione.
  • Thunderbit è pensato per tutti gli altri. È un’ che rende l’estrazione dati semplice come due click—niente codice, niente configurazioni, niente stress. Gestisce paginazione, sottopagine ed esporta gratis nei tuoi strumenti preferiti.
  • Scegli Cypress se vuoi la massima flessibilità e non ti spaventa il codice.
  • Scegli Thunderbit se vuoi risparmiare tempo, evitare problemi tecnici e ottenere dati puliti in fretta—soprattutto se lavori in vendite, ecommerce, marketing o operations.

Se vuoi approfondire, visita il nostro per tutorial su , e molto altro.

E se ti ritrovi davanti a una pagina piena di scarpe da running chiedendoti come portare quei dati in un foglio di calcolo—ricorda, hai delle opzioni. Buona estrazione!

Domande Frequenti

1. Cos’è Cypress e come si può usare per l’estrazione web?

Cypress è uno strumento di test basato su JavaScript che può interagire con siti dinamici, rendendolo adatto a estrarre contenuti generati da JavaScript.

2. Quali sono le principali difficoltà nell’estrarre dati con Cypress?

Le sfide più comuni sono i cambiamenti nella struttura HTML, il caricamento progressivo, le difese anti-bot e la gestione della paginazione o di elementi mancanti in pagine complesse.

3. Esiste un modo più semplice per estrarre dati dal web senza programmare?

Sì, Thunderbit è un’estensione Chrome con AI che estrae dati in pochi click—senza codice, configurazioni o selettori da impostare.

Scopri di più:

Prova Estrattore Web AI
Shuai Guan
Shuai Guan
Co-founder/CEO @ Thunderbit. Passionate about cross section of AI and Automation. He's a big advocate of automation and loves making it more accessible to everyone. Beyond tech, he channels his creativity through a passion for photography, capturing stories one picture at a time.
Topics
Web Scraping con CypressEstrattore Web AI
Prova Thunderbit
Usa l’AI per estrarre dati dalle pagine web senza alcuno sforzo.
Disponibile versione gratuita
Supporto per l'italiano
Indice dei contenuti
Estrai dati con l’AI
Trasferisci facilmente i dati su Google Sheets, Airtable o Notion
Chrome Store Rating
PRODUCT HUNT#1 Product of the Week