10 migliori scraper Craigslist che funzionano ancora nel 2026

Craigslist sembra non essere cambiato dal 2003, ma i dati nascosti in quegli annunci in testo semplice sono sorprendentemente preziosi. Con e , resta una delle più grandi piattaforme di annunci classificati negli Stati Uniti — e non esiste alcuna API pubblica da usare.

Per anni ho sviluppato strumenti di automazione in e una cosa che sento continuamente da team commerciali, operations e real estate è questa: “Mi servono i dati di Craigslist in un foglio di calcolo, e non voglio fare copia-incolla per tre ore”. Il problema è che la maggior parte delle guide sui “migliori scraper Craigslist” è datata, ignora le parti difficili (come le protezioni anti-bot) oppure si limita a elencare strumenti senza fare un confronto reale.

Così ho messo insieme questa guida con 10 strumenti che funzionano davvero ancora nel 2026 — dalle estensioni Chrome no-code alle piattaforme enterprise di proxy, fino alle librerie Python open source. Che tu sia un utente business che non ha mai scritto una riga di codice o uno sviluppatore che pensa in Python, qui c’è qualcosa per te.

Perché estrarre dati da Craigslist nel 2026? Principali casi d’uso per i team aziendali

Craigslist può sembrare vecchio stile, ma è proprio questo il suo fascino — e il suo valore. È ancora al e opera in nel suo elenco ufficiale. Significa tantissimo inventario iper-locale che semplicemente non esiste in un unico posto altrove.

Ecco i casi d’uso che vedo tornare più spesso:

Generazione di lead: gli annunci di servizi e lavori occasionali spesso includono descrizione dell’attività, area geografica e un canale di contatto relay di Craigslist — abbastanza per costruire un elenco di lead locali.
Monitoraggio immobiliare: le pagine housing mostrano affitto, quartiere, letti/bagni, metratura e timestamp — perfette per confronti sugli affitti e per monitorare la disponibilità.
Prezzi competitivi: gli annunci “for sale” mostrano titolo, prezzo, condizioni e posizione, un vero oro per analisi di rivendita o arbitraggio.
Recruiting e monitoraggio del lavoro: le categorie jobs e gigs mostrano compenso, tipo di impiego e descrizione del ruolo per analizzare il mercato dei talenti locali.
Analisi di mercato multiregione: poiché Craigslist è suddiviso per sottodominio e città, puoi interrogare regione per regione per prezzi, volumi o mix di categorie.
Automazione dei flussi di lavoro: molti utenti vogliono semplicemente far fluire i dati di Craigslist in CSV, Google Sheets, Airtable o un CRM, senza navigazione manuale.

Un utente ha riportato che un’estrazione quotidiana da Craigslist che prima richiedeva 60–90 minuti è scesa a circa 5 minuti grazie all’automazione. È il tipo di risparmio di tempo che si accumula in fretta.

Come abbiamo scelto i migliori scraper Craigslist: i nostri criteri di valutazione

Non tutti gli scraper Craigslist sono uguali, e il “migliore” dipende molto da chi sei e da cosa ti serve. Ho valutato ogni strumento su sei dimensioni:

Facilità di configurazione — è adatto ai principianti (no-code) o richiede uno sviluppatore?
Gestione anti-bot di Craigslist — include rotazione proxy integrata, gestione CAPTCHA o browser fingerprinting?
Fascia di prezzo — gratuito, freemium, a pagamento o enterprise?
Opzioni di esportazione dei dati — CSV, Excel, Google Sheets, Airtable, Notion, JSON, database?
Supporto multiregione — riesce a estrarre dati da tutti i 416 siti Craigslist negli Stati Uniti o è limitato a una città alla volta?
Manutenzione richiesta — lo strumento si rompe quando Craigslist cambia il layout della pagina o si adatta automaticamente?

Non ho trovato nessun articolo concorrente che faccia un confronto affiancato con criteri coerenti come questi — quindi se ti sei stancato delle vaghe liste “top 10”, questa fa per te.

I 10 migliori scraper Craigslist a colpo d'occhio

Prima di entrare nel dettaglio di ogni strumento, ecco la tabella comparativa principale. Li ho raggruppati in tre categorie: strumenti no-code per utenti business, piattaforme enterprise per la scalabilità e librerie open source per sviluppatori.

Strumento	Tipo	Piano gratuito?	Supporto proxy / anti-bot	Gestione CAPTCHA	Formati di esportazione	Ideale per
Thunderbit	Estensione Chrome no-code	Sì (6 pagine/mese)	Modalità browser (nessun proxy necessario per utilizzi moderati)	N/D (sessione browser)	Excel, Sheets, Airtable, Notion, CSV, JSON	Utenti business non tecnici
Bright Data	Scraper enterprise + proxy + dataset	Prova	Sblocco gestito, proxy, retry, rendering	Sì (risolto automaticamente)	JSON, NDJSON, CSV, Parquet, XLSX, API	Raccolta su scala enterprise
Oxylabs	API + stack proxy	Prova	Sblocco gestito, proxy residenziali/ISP	Sì	HTML, screenshot, output API	Sviluppatori che hanno bisogno di infrastruttura enterprise
Apify	Marketplace di actor cloud	Sì (crediti da 5 $/mese)	Rotazione proxy (dipende dall’actor)	Parziale / specifico per actor	JSON, CSV, XML, Excel, JSONL	Automazione cloud low-code flessibile
ParseHub	Scraper visuale no-code	Sì	Rotazione proxy a pagamento, esecuzioni cloud	Non è una funzione principale	CSV, JSON, API/S3/Dropbox (a pagamento)	Utenti no-code con budget limitato
Phantombuster	Piattaforma di automazione cloud	Sì (limitato)	Supporto proxy disponibile	Crediti / basato su workflow	CSV, JSON (a pagamento)	Automazione commerciale multicanale
Scrapy	Crawler Python open source	Gratuito (OSS)	Proxy/middleware forniti dall’utente	No	JSON, JSONL, CSV, XML, DB	Crawler di produzione
Playwright	Automazione browser open source	Gratuito (OSS)	Browser/proxy forniti dall’utente	No	Esportazione personalizzata	Controllo a livello browser
Selenium	Automazione browser open source	Gratuito (OSS)	Browser/proxy forniti dall’utente	No	Esportazione personalizzata	Stack legacy multilingua
BeautifulSoup	Parser HTML open source	Gratuito (OSS)	Nessuno di per sé	No	Esportazione personalizzata	Parsing leggero

Qui emergono chiaramente tre strade:

Strumenti no-code (Thunderbit, ParseHub, Phantombuster) per utenti business che vogliono dati senza il peso dell’ingegneria.
Piattaforme enterprise (Bright Data, Oxylabs, Apify) per team che hanno bisogno di scala, infrastruttura anti-bot e delivery gestita.
Strumenti open source per sviluppatori (Scrapy, Playwright, Selenium, BeautifulSoup) per il massimo controllo — al costo di configurazione, manutenzione e gestione dei proxy.

Ora, i dettagli.

1. Thunderbit

è un’estensione Chrome basata su AI pensata per chi vuole dati strutturati da qualsiasi sito — incluso Craigslist — senza scrivere codice né configurare proxy.

Sono di parte qui (l’abbiamo costruito noi), ma se metto Thunderbit al primo posto è perché risolve i punti dolenti specifici che l’estrazione da Craigslist crea per gli utenti non tecnici: layout di pagina variabili tra categorie, arricchimento delle pagine dettaglio e i continui guasti che arrivano quando cambiano i selettori CSS.

Come funziona su Craigslist:

Installa la e apri una qualsiasi pagina degli annunci Craigslist (ad esempio, appartamenti nella tua città).
Fai clic su “AI Suggest Fields” — l’AI di Thunderbit legge la pagina e propone colonne adatte a ciò che contiene davvero. Per l’immobiliare otterrai Titolo, Prezzo, Metratura, Camere, Posizione, Data di pubblicazione, Link. Per i lavori, Titolo, Compenso, Tipo di lavoro e così via. Nessuna configurazione manuale dei selettori.
Fai clic su “Scrape” e guarda i dati popolarsi in una tabella strutturata.
Gestisci la paginazione — Thunderbit funziona con la paginazione basata sui click di Craigslist.
Usa “Scrape Subpages” per visitare ogni singolo annuncio ed estrarre i campi presenti solo nella pagina dettaglio: descrizione completa, tutte le immagini, informazioni di contatto incorporate e altro.
Esporta in Google Sheets, Excel, Airtable, Notion o CSV — .

Funzionalità principali:

Rilevamento dei campi basato su AI: si adatta automaticamente alle diverse categorie di Craigslist — l’immobiliare ottiene colonne per metri quadri/camere, i lavori ottengono compenso/tipo di lavoro, gli articoli in vendita ottengono condizioni/prezzo. Nessun lavoro manuale sui CSS.
Scraping delle sottopagine: dopo aver estratto una pagina di risultati, visita ogni annuncio per prendere i campi della pagina dettaglio (descrizione completa, immagini, info contatto).
Modalità di scraping nel browser: gira nella tua sessione Chrome, quindi per volumi moderati non serve alcun proxy. Questo da solo elimina un enorme costo e livello di complessità.
Nessuna manutenzione: l’AI legge la pagina da zero ogni volta. Quando Craigslist cambia il layout (e lo fa), il tuo scraper non si rompe.
Esportazione gratuita: Excel, Google Sheets, Airtable, Notion, CSV, JSON — nessun paywall sulle esportazioni.

Prezzi: piano gratuito (6 pagine/mese), prova gratuita (10 pagine), per volumi maggiori.

Ideale per: team commerciali che estraggono lead da servizi/lavori occasionali su Craigslist, team immobiliari che monitorano i prezzi degli affitti, team operations che hanno bisogno di dati strutturati di Craigslist senza supporto developer, e chiunque voglia estrarre, etichettare ed esportare dati in un solo passaggio.

2. Bright Data

Screenshot 2026-04-22 at 12.27.50 PM_compressed.webp è l’opzione enterprise pesante. È l’unica piattaforma in questa lista con sia una pagina prodotto dedicata sia un marketplace .

Se devi estrarre migliaia di annunci Craigslist al giorno in tutte le regioni degli Stati Uniti, Bright Data è costruita per questa scala. Il suo gestisce IP, retry, rendering e blocchi — inclusa la . Il Web Scraper IDE ti permette di costruire flussi di raccolta personalizzati per Craigslist e puoi iterare programmaticamente su tutte le 416 URL regionali.

Funzionalità principali:

Rete massiva di proxy residenziali (milioni di IP)
Risoluzione CAPTCHA e bypass anti-bot integrati
Prodotti scraper e dataset specifici per Craigslist
Esportazione: JSON, NDJSON, CSV, Parquet, XLSX, consegna via API, webhook

Prezzi: lo scraper Craigslist costa pay-as-you-go, con piani come 380K page load per 499 $. I proxy residenziali partono da pay-as-you-go. C’è una prova gratuita di 1K richieste per una settimana.

Ideale per: team enterprise che hanno bisogno di raccolta Craigslist ad alto volume e multiregione con uptime garantito e supporto dedicato. I piccoli team attenti al budget dovrebbero guardare altrove.

3. Oxylabs

è un provider premium di proxy e infrastruttura di scraping con una dedicata e una pagina .

Oxylabs è più orientata agli sviluppatori rispetto all’approccio tutto-in-uno di Bright Data. La sua Web Scraper API e il supportano rendering JS, retry, gestione delle sessioni, generazione di fingerprint e una gestione anti-bot più ampia. La prova gratuita della Craigslist Scraper API arriva fino a .

Funzionalità principali:

Pool di proxy residenziali e ISP (residenziali da , ISP da )
Web Unblocker con fingerprint automatico e gestione delle sessioni
Endpoint API specifico per Craigslist
Prova gratuita di 7 giorni disponibile

Prezzi: la scraper API per “altri siti” parte da circa . Il micro tier di Web Unblocker parte da circa . I proxy residenziali su larga scala possono arrivare a 0,50 $/GB a 1 TB.

Ideale per: team di sviluppo che vogliono infrastruttura proxy gestita e flussi API per un’estrazione continua da Craigslist. I team che già usano i proxy Oxylabs per altri progetti troveranno semplice aggiungere Craigslist.

4. Apify

è una piattaforma cloud di web scraping e automazione con un marketplace di “Actors” preconfigurati — template scraper che puoi eseguire senza scrivere codice.

Il panorama Craigslist su Apify è interessante: ci sono diversi actor di Craigslist mantenuti dalla community con livelli di qualità molto diversi. L’actor ivanvs/craigslist-scraper ha 829 utenti totali e una valutazione di 5,0, mentre automation-lab/craigslist-scraper ha 44 utenti e una valutazione di 1,0. La qualità è disomogenea, quindi conviene testare prima di impegnarsi.

Funzionalità principali:

Disponibili più actor per Craigslist (alcuni estraggono con ritardi incorporati)
Esecuzione cloud, pianificazioni, accesso API, integrazioni webhook
disponibile
Esportazione:

Prezzi: , piani a pagamento da circa 49 $/mese. La tariffazione per compute può crescere rapidamente con un uso intenso — tieni d’occhio il consumo di CU.

Ideale per: team che vogliono una soluzione cloud senza gestire infrastruttura, utenti a proprio agio con configurazioni low-code e team che hanno bisogno di estrazioni Craigslist pianificate e ricorrenti.

5. ParseHub

parsehub.com-homepage-1920x1080_compressed.webp è uno strumento desktop di web scraping visuale in cui fai clic sugli elementi della pagina per definire cosa estrarre.

Per configurare un’estrazione Craigslist in ParseHub, fai clic su titoli degli annunci, prezzi e link per insegnare allo strumento cosa raccogliere. Gestisce la paginazione tramite loop di click AJAX e supporta esecuzioni cloud nei piani a pagamento. Il piano gratuito ti dà fino a 5 progetti, che è discreto per lavori di piccola scala su Craigslist.

Funzionalità principali:

Builder visuale point-and-click
Gestione della paginazione e dei contenuti dinamici
Esecuzioni cloud e pianificazione nei piani a pagamento
Esportazione: CSV, Excel, JSON

Prezzi: piano gratuito (5 progetti), piani a pagamento da circa 189 $/mese per più pagine ed esecuzioni pianificate.

Limitazioni: può essere lento su estrazioni di grandi dimensioni, le esecuzioni pianificate sono limitate nel piano gratuito e — aspetto critico — si basa sui selettori CSS, quindi richiede manutenzione manuale quando Craigslist cambia layout.

Ideale per: utenti singoli o piccoli team con esigenze moderate che vogliono uno strumento visuale no-code, ma non hanno bisogno del rilevamento dei campi basato su AI.

6. Phantombuster

è una piattaforma di automazione cloud nata per essere popolare su LinkedIn e per lo scraping dei social media. Non è uno strumento nativo per Craigslist, ma il suo Web Element Extractor può estrarre pagine pubbliche usando selettori CSS.

Configurare un’estrazione Craigslist in Phantombuster richiede più lavoro rispetto a uno strumento dedicato — dovrai specificare i selettori, costruire il workflow e impostare la pianificazione. Ma se già usi Phantombuster per LinkedIn o per la generazione di lead sui social, aggiungere Craigslist alla pipeline è semplice.

Funzionalità principali:

Template di automazione predefiniti ed esecuzione cloud
Pianificazione e integrazioni CRM
Supporto proxy e crediti per la risoluzione CAPTCHA disponibili
Esportazione: CSV, JSON nei piani a pagamento (il piano gratuito limita a 10 righe)

Prezzi: piano gratuito con 5 slot, 2 ore/mese e limite di esportazione a 10 righe. I piani annuali a pagamento partono da circa 56 $/mese fatturati annualmente.

Ideale per: team commerciali già abituati a usare Phantombuster per la generazione di lead multicanale e che vogliono aggiungere Craigslist al loro flusso di lavoro.

7. Scrapy

scrapy.org-homepage-1920x1080_compressed.webp è il framework Python open source più popolare per il web scraping ed è la scelta ovvia per i team di sviluppo che vogliono il massimo controllo sulla raccolta dati da Craigslist.

L’ultima versione stabile è . Scrapy supporta crawling multiregione (iterando su tutti gli URL regionali), pianificazione e throttling delle richieste integrati, per la rotazione dei proxy e verso CSV, JSON, JSONL, XML e pipeline su database. Il plugin scrapy-playwright aggiunge rendering a livello browser quando serve.

Funzionalità principali:

Crawler altamente personalizzabile, pronto per la produzione
Middleware per proxy, retry, cookie e rotazione user-agent
Feed export: JSON, JSONL, CSV, XML, pipeline su database
Gratuito e open source

Costo nascosto: Scrapy è gratuito in sé, ma farlo girare su Craigslist su larga scala significa abbonamenti proxy (50–500+ $/mese), costi di hosting/server e manutenzione continua quando Craigslist cambia la struttura HTML.

Ideale per: team di sviluppo con esperienza Python che hanno bisogno della massima flessibilità, infrastruttura proxy già esistente e crawling multiregione ad alto volume su Craigslist.

8. Playwright

playwright.dev-homepage-1920x1080_compressed.webp è una moderna libreria di automazione browser di Microsoft che controlla programmaticamente Chromium, Firefox e WebKit. Il ritmo di rilascio attuale è molto attivo — .

Nei forum di sviluppo, Playwright è sempre più la scelta consigliata rispetto a Selenium per lo scraping di Craigslist. È più veloce, più affidabile e ha una migliore capacità di eludere il rilevamento grazie a plugin della community come playwright-extra. Supporta modalità headless e con interfaccia, attese automatiche sugli elementi, intercettazione di rete e acquisizione di screenshot/PDF.

Funzionalità principali:

Supporta
Modalità browser headless e con interfaccia
Attesa automatica degli elementi, intercettazione di rete
Gratuito e open source

Vantaggio su Craigslist: Playwright può imitare il comportamento di un vero utente in modo più convincente rispetto alle semplici richieste HTTP, riducendo il rischio di blocchi. Il sentiment della community su Reddit favorisce costantemente Playwright rispetto a Selenium per i nuovi progetti.

Costi nascosti: gli stessi di Scrapy — costi proxy, hosting e manutenzione quando i selettori si rompono.

Ideale per: sviluppatori che hanno bisogno di un controllo browser molto preciso, team che costruiscono scraper per contenuti renderizzati in JavaScript e chiunque preferisca un’alternativa moderna a Selenium.

9. Selenium

selenium.dev-homepage-1920x1080_compressed.webp è il framework di automazione browser storico e molto usato. L’ultima release è e continua ad ampliare le .

Selenium supporta più linguaggi (Python, Java, C#, JavaScript) e tutti i principali browser. Può simulare sessioni browser complete, gestire il login se necessario e scorrere le pagine. Ma rispetto a Playwright è più lento, più verboso e più facile da rilevare come bot senza librerie stealth aggiuntive come undetected-chromedriver.

Funzionalità principali:

Supporto multilingua (Python, Java, C#, JavaScript)
Simulazione completa della sessione browser
Ecosistema maturo con documentazione estesa
Gratuito e open source

Limitazioni: nel 2026 la community tende a preferire Playwright per i progetti nuovi. Un thread su Reddit ha notato che Cloudflare continuava a rilevare Selenium “anche usando proxy residenziali” — lo stealth è più difficile fin da subito.

Ideale per: team di sviluppo già investiti in Selenium e che non vogliono migrare, progetti che richiedono supporto multilingua (Java, C#) e setup di scraping legacy.

10. BeautifulSoup

crummy.com-homepage-1920x1080_compressed.webp è una libreria Python leggera per il parsing di HTML e XML. La versione attuale su PyPI è .

Una precisazione importante: BeautifulSoup è un parser, non uno scraper completo. Non scarica le pagine web né gestisce l’automazione del browser. Si usa insieme alla libreria requests per il recupero HTTP, e poi analizza l’HTML che gli fornisci. Questo la rende il punto d’ingresso più semplice per gli sviluppatori, ma anche il più limitato.

Funzionalità principali:

Estremamente facile da imparare — serve pochissimo codice
Ottimo per estrazioni Craigslist piccole o una tantum
Gratuito e open source

Limitazioni: nessuna gestione integrata della paginazione, nessun rendering JavaScript, nessuna rotazione proxy — tutto va aggiunto manualmente. Se Craigslist cambia la struttura HTML, i selettori si rompono e devi sistemarli a mano.

Ideale per: principianti Python che vogliono provare lo scraping di Craigslist con il minimo setup, estrazioni rapide e una tantum da una singola categoria o regione e sviluppatori che hanno bisogno solo di un parser leggero.

Il playbook anti-ban per Craigslist: proxy, rate limit e cosa ti fa bloccare

Questa è la sezione che la maggior parte delle guide sullo scraping di Craigslist salta, ed è quella che conta di più. I classificano Craigslist come target di difficoltà 3/5, citando CAPTCHA personalizzati, rate limiting e blocco IP. Il spinge gli utenti verso Web Unlocker o un Scraping Browser basato su Playwright invece del semplice HTTP. La afferma che Craigslist può rilevare i proxy e che i proxy residenziali sono la scelta migliore.

Ecco cosa funziona davvero:

Strategia	Efficacia su Craigslist	Costo	Complessità
Proxy residenziali	✅ Alta	$$ (4–6 $/GB)	Media
Proxy ISP	✅ Alta	$ (0,60–0,80 $/IP)	Media
Proxy datacenter	⚠️ Bassa (spesso bloccati)	$ (0,20–0,40 $/IP)	Bassa
Scraping basato sul browser (sessione propria)	✅ Medio-alta	Gratis	Bassa
Rate limiting + ritardi casuali	✅ Fondamentale	Gratis	Bassa

Consigli pratici:

Ritardi tra le richieste: almeno 2–5 secondi tra una richiesta e l’altra. Scraperly suggerisce di restare intorno a 5–10 richieste/minuto per IP e di ruotare dopo 20–30 richieste.
Rotazione delle sessioni: ruota user agent e browser fingerprint. I pattern di crawling prevedibili vengono scoperti in fretta.
Evita i proxy datacenter: sono economici, ma su Craigslist vengono bloccati rapidamente.
Lo scraping basato sul browser elimina del tutto il problema dei proxy per volumi moderati. La modalità browser di Thunderbit gira nella tua sessione Chrome — nessuna configurazione proxy, nessuna rotazione IP, nessun costo. Per la maggior parte degli utenti business che estraggono poche centinaia di annunci, è più che sufficiente.

E c’è un aspetto di manutenzione che molti trascurano: quando Craigslist cambia il CSS (e lo fa periodicamente), ogni scraper basato su selettori CSS si rompe. Devi ispezionare la pagina, trovare i nuovi selettori, aggiornare il codice e ritestare. Gli strumenti basati su AI come Thunderbit evitano tutto questo — l’AI legge la struttura della pagina da zero ogni volta, quindi i cambi di layout non rompono il flusso di lavoro.

Code vs no-code: due walkthrough completi per lo scraping di Craigslist

So che il pubblico di questo articolo è diviso più o meno a metà: utenti business non tecnici che vogliono solo i dati e sviluppatori principianti o intermedi che vogliono codice funzionante. Quindi ecco entrambe le strade, una accanto all’altra.

No-code: come estrarre dati da Craigslist con Thunderbit (passo dopo passo)

Installa la Thunderbit Chrome Extension dal .
Vai a una pagina di annunci Craigslist — per esempio, appartamenti nella tua città (https://yourcity.craigslist.org/search/apa).
Fai clic su “AI Suggest Fields” — l’AI di Thunderbit legge la pagina e propone colonne adatte alla categoria. Per l’immobiliare vedrai Titolo, Prezzo, Metratura, Camere, Posizione, Data di pubblicazione, Link.
Rivedi e modifica le colonne suggerite se serve. Aggiungi o rimuovi campi con un clic.
Fai clic su “Scrape” — guarda i dati popolarsi in una tabella strutturata.
Gestisci la paginazione — passa da una pagina all’altra oppure lascia fare a Thunderbit.
Usa “Scrape Subpages” per visitare ogni singolo annuncio e arricchirlo con i campi della pagina dettaglio: descrizione completa, tutte le immagini, informazioni di contatto incorporate.
Esporta in Google Sheets, Excel, Airtable, Notion o CSV — gratuitamente.

L’intero processo richiede circa 2 minuti per una pagina di risultati. Niente selettori CSS, niente proxy, niente codice.

Percorso codice: come estrarre dati da Craigslist con Python + Playwright

Playwright è la libreria più raccomandata per l’estrazione da Craigslist nei forum di sviluppatori nel 2026. Ecco uno snippet Python funzionante che estrae una pagina risultati housing di Craigslist, recupera titolo/prezzo/link, gestisce la paginazione e restituisce i risultati.

L’approccio: prima prova i dati strutturati JSON-LD (Craigslist incorpora lo schema ItemList in alcune pagine), poi passa ai selettori DOM. La paginazione avviene tramite s=120.

1import asyncio, json
2from urllib.parse import urlparse, parse_qs, urlencode, urlunparse
3from playwright.async_api import async_playwright
4def next_page_url(url, step=120):
5    p = urlparse(url)
6    qs = parse_qs(p.query)
7    offset = int(qs.get("s", ["0"])[0]) + step
8    qs["s"] = [str(offset)]
9    return urlunparse((p.scheme, p.netloc, p.path, "", urlencode(qs, doseq=True), ""))
10async def scrape_page(page, url):
11    await page.goto(url, wait_until="domcontentloaded")
12    await page.wait_for_timeout(1500)
13    data = []
14    # Prova prima JSON-LD
15    for raw in await page.locator('script[type="application/ld+json"]').all_text_contents():
16        try:
17            obj = json.loads(raw)
18        except Exception:
19            continue
20        if isinstance(obj, dict) and obj.get("@type") == "ItemList":
21            for item in obj.get("itemListElement", []):
22                thing = item.get("item", {})
23                data.append({
24                    "title": thing.get("name"),
25                    "price": thing.get("offers", {}).get("price"),
26                    "link": thing.get("url"),
27                })
28            if data:
29                return data
30    # Fallback: selettori DOM
31    cards = page.locator("div.cl-search-result, li.cl-static-search-result")
32    count = await cards.count()
33    for i in range(count):
34        card = cards.nth(i)
35        title = await card.locator("a.posting-title, a.titlestring").first.text_content()
36        link = await card.locator("a.posting-title, a.titlestring").first.get_attribute("href")
37        price = (await card.locator(".price, .result-price").first.text_content()
38                 if await card.locator(".price, .result-price").count() else None)
39        data.append({"title": (title or "").strip(), "price": (price or "").strip(), "link": link})
40    return data
41async def main():
42    start_url = "https://newyork.craigslist.org/search/apa?query=studio"
43    async with async_playwright() as p:
44        browser = await p.chromium.launch(headless=True)
45        page = await browser.new_page()
46        url = start_url
47        all_rows = []
48        for _ in range(3):  # estrai 3 pagine
49            rows = await scrape_page(page, url)
50            if not rows:
51                break
52            all_rows.extend(rows)
53            url = next_page_url(url)
54        await browser.close()
55        for row in all_rows[:10]:
56            print(row)
57asyncio.run(main())

Cosa ti servirà oltre a questo script: Playwright installato (pip install playwright && playwright install), configurazione proxy per esecuzioni ad alto volume e gestione manuale dei CAPTCHA se superi i limiti di frequenza. Questo è il compromesso: controllo totale, ma anche responsabilità totale.

Gratis vs a pagamento: analisi onesta dei costi per ogni scraper Craigslist

Questa è la tabella che avrei voluto trovare quando ho iniziato a studiare questo tema. “Gratis” è una parola ambigua nello scraping web.

Strumento	Completamente gratuito?	Limiti del piano gratuito	Prezzo iniziale a pagamento	Costi nascosti
Thunderbit	Piano gratuito (6 pagine)	6 pagine/mese; prova gratuita = 10 pagine	Piani a pagamento per volumi maggiori	Nessuno — l’esportazione è gratuita
Scrapy	✅ Open source	Illimitato	0 $	Costi proxy, hosting, manutenzione
BeautifulSoup	✅ Open source	Illimitato	0 $	Costi proxy, hosting, manutenzione
Playwright	✅ Open source	Illimitato	0 $	Costi proxy, hosting, manutenzione
Selenium	✅ Open source	Illimitato	0 $	Costi proxy, hosting, manutenzione
ParseHub	Piano gratuito	5 progetti	~189 $/mese	Esecuzioni pianificate limitate nel piano gratuito
Apify	Piano gratuito	5 $/mese in crediti gratuiti	~49 $/mese	La tariffazione per compute può aumentare molto
Phantombuster	Piano gratuito	5 slot, 2h/mese, esportazione a 10 righe	~56 $/mese (annuale)	Prezzo per slot
Bright Data	Solo prova	1K richieste/1 settimana	~500 $+/mese	Proxy extra
Oxylabs	Solo prova	2K risultati / 1 GB	~75 $+/mese (Unblocker)	Prezzi enterprise

La grande nota a piè di pagina sul “gratis” per gli strumenti open source: Scrapy, Playwright, Selenium e BeautifulSoup costano 0 $ da installare, ma farli girare su Craigslist su larga scala significa ore di tempo developer per la configurazione, 50–500+ $/mese per proxy residenziali e manutenzione continua ogni volta che Craigslist cambia l’HTML. La modalità AI di Thunderbit legge la pagina da zero ogni volta (manutenzione zero), le esportazioni sono gratuite e lo scraping nel browser elimina i costi proxy per volumi moderati. È un vero vantaggio per chi non sviluppa.

Cosa puoi davvero estrarre: campi dati Craigslist per categoria

Le diverse categorie di Craigslist hanno strutture dati completamente diverse. Un annuncio immobiliare non assomiglia per niente a un annuncio di lavoro. Ecco cosa puoi realisticamente estrarre dalle principali sezioni:

Categoria Craigslist	Campi estraibili	Info di contatto disponibili?
Housing / Apartments	Titolo, Prezzo, Metratura, Camere, Bagni, Posizione, Data, Immagini, Descrizione, Link mappa, Disponibilità, Regole per animali, Lavanderia/Parcheggio	⚠️ A volte (relay email anonimizzato)
For Sale	Titolo, Prezzo, Condizioni, Posizione, Data, Immagini, Descrizione, Marca/Modello/Anno (varia)	⚠️ A volte
Jobs	Titolo, Azienda, Compenso, Posizione, Tipo di lavoro, Livello di esperienza, Data, Descrizione	Raramente (solo link per candidarsi)
Services	Titolo, Posizione, Descrizione, Immagini	⚠️ A volte
Gigs	Titolo, Compenso, Posizione, Data, Descrizione	⚠️ A volte

Alcune note importanti:

Info di contatto: Craigslist usa relay email anonimizzati proprio per impedire l’estrazione diretta degli indirizzi email. Gli strumenti che dicono di “estrarre email” spesso recuperano l’indirizzo relay (reply+randomstring@craigslist.org), non l’email reale del pubblicante.
I campi della pagina dettaglio come descrizione completa, tutte le immagini e le informazioni di contatto incorporate compaiono solo quando visiti ogni annuncio singolarmente — non nella pagina dei risultati di ricerca.
“AI Suggest Fields” di Thunderbit rileva automaticamente quali campi sono disponibili nella pagina corrente e propone la struttura di colonne giusta. Chi estrae annunci immobiliari ottiene colonne per metri quadri/camere; chi estrae offerte di lavoro ottiene colonne per compenso/tipo di lavoro — senza configurazione manuale. Il suo visita poi ogni annuncio per prendere i campi della sola pagina dettaglio.

Controllo legale: TOS di Craigslist, il caso 3Taps e cosa dovresti sapere

Non sono un avvocato, e questo non è un consiglio legale. Ma so che gli utenti si preoccupano di questo, e merita una risposta diretta.

Il precedente chiave: nel caso , Craigslist ottenne un’ingiunzione contro 3Taps per aver estratto e ripubblicato annunci dopo una diffida formale. Si sarebbe parlato di bypass dei blocchi IP tramite server proxy, e il tribunale considerò l’accesso dopo il blocco come potenzialmente “senza autorizzazione”. che il caso si è chiuso con un accordo nel 2015.

I Termini di utilizzo di Craigslist l’uso di “robots, spiders, scripts, scrapers, crawlers, o qualsiasi equivalente automatizzato o manuale” per interagire con il sito. Prevedono persino danni liquidati di 0,25 $ per pagina dopo le prime 1.000 visualizzazioni di pagina in un periodo di 24 ore in caso di violazioni.

Indicazioni pratiche:

✅ Estrarre dati pubblici degli annunci per ricerche di mercato o uso personale
✅ Rispettare robots.txt e i limiti di frequenza
⚠️ Non ripubblicare in massa gli annunci estratti
⚠️ Non usare i contatti estratti per marketing non richiesto
❌ Non aggirare le restrizioni tecniche dopo essere stati bloccati

La distinzione conta: estrarre dati pubblicamente visibili per la propria analisi è diverso dalla ripubblicazione massiva o dalla raccolta di email per spam. Ma tieni presente che Craigslist, storicamente, è passato dall’applicazione dei termini al blocco IP fino ad arrivare all’azione legale.

Qual è lo scraper Craigslist migliore per te?

Dopo aver testato e valutato tutti e 10, ecco la mia raccomandazione basata sullo scenario:

Utente business non tecnico che ha bisogno subito dei dati di Craigslist → Thunderbit. Niente codice, rilevamento dei campi basato su AI, manutenzione zero, esportazione gratuita. La via più rapida da “mi servono questi dati” a “sono nel mio foglio di calcolo”.
Team enterprise che estrae migliaia di annunci al giorno in tutte le regioni → Bright Data. Scraper specifico per Craigslist, enorme infrastruttura proxy, risoluzione automatica CAPTCHA, supporto dedicato.
Team di sviluppo che ha bisogno di infrastruttura API/proxy gestita → Oxylabs per flussi di lavoro proxy-first, Apify per la flessibilità del marketplace di actor.
Sviluppatore che vuole controllo e personalizzazione totale → Scrapy + Playwright. Open source, massima flessibilità, ma porta tu proxy e manutenzione.
Utente con budget limitato e bisogni moderati → piano gratuito di Apify (crediti da 5 $/mese) o piano gratuito di ParseHub (5 progetti).
Team commerciale che usa già strumenti di lead generation multicanale → Phantombuster. Aggiungi Craigslist al workflow esistente.
Principiante Python che fa un’estrazione una tantum → BeautifulSoup + requests. Codice minimo, setup minimo, capacità minima.

Per la maggior parte degli utenti business non tecnici, Thunderbit offre il miglior equilibrio tra facilità, accuratezza e costo. Per gli sviluppatori, Scrapy + Playwright è la combinazione più potente. Per la scala enterprise, Bright Data è difficile da battere.

Se vuoi vedere come appare davvero l’estrazione da Craigslist basata su AI, — il piano gratuito basta per testarlo sul tuo caso d’uso. E se vuoi approfondire le tecniche di web scraping, dai un’occhiata alle nostre guide su , e . Puoi anche esplorare il nostro per tutorial video passo passo.

Buon scraping — e che i tuoi dati siano sempre puliti, strutturati e pronti all’azione.

FAQ

È legale estrarre annunci da Craigslist?

I Termini di utilizzo di Craigslist vietano esplicitamente lo scraping automatizzato, e il caso è il precedente legale principale. Estrarre dati pubblici degli annunci per uso personale o analitico viene in genere trattato in modo diverso rispetto alla ripubblicazione di massa o allo spam, ma dovresti sempre rispettare i limiti di frequenza e le regole del sito — e questo non è un consiglio legale.

Posso estrarre dati da Craigslist senza programmare?

Sì. Strumenti come , ParseHub e Apify offrono opzioni no-code o low-code per estrarre dati da Craigslist. Il rilevamento dei campi basato su AI di Thunderbit lo rende particolarmente semplice: basta fare clic su “AI Suggest Fields” e “Scrape”.

Qual è il miglior scraper Craigslist gratuito?

Per gli sviluppatori, o sono completamente gratuiti e open source (anche se i costi di proxy e manutenzione si sommano). Per chi non programma, il piano gratuito di Thunderbit (6 pagine/mese) è il punto di partenza migliore, con il piano gratuito di ParseHub (5 progetti) come altra opzione.

Come evito di essere bloccato quando estraggo dati da Craigslist?

Usa il rate limiting (almeno 2–5 secondi di ritardo), ruota gli user agent, evita i proxy datacenter (quelli residenziali o ISP funzionano molto meglio su Craigslist) e non seguire pattern di crawling prevedibili. Per volumi moderati, gli strumenti di scraping basati sul browser come Thunderbit aggirano del tutto il problema dei proxy perché girano nella tua sessione Chrome.

Posso estrarre tutte le regioni di Craigslist in una volta?

Con strumenti per sviluppatori come Scrapy o Playwright, puoi fare un loop programmatico su tutti i . Strumenti enterprise come e hanno già integrato lo scraping multiregione. Con Thunderbit, puoi aprire ogni sito regionale ed estrarre con lo stesso workflow: l’AI si adatta automaticamente a ogni pagina.

Prova Thunderbit per l’estrazione da Craigslist

Scopri di più