10 mejores raspadores de Craigslist que todavía funcionan en 2026

Última actualización: April 24, 2026

Craigslist parece no haber cambiado desde 2003, pero los datos ocultos en esos anuncios de texto simple son sorprendentemente valiosos. Con y , sigue siendo una de las plataformas de clasificados más grandes de EE. UU.—y no existe una API pública a la que conectarse.

He pasado años creando herramientas de automatización en , y algo que escucho constantemente de equipos de ventas, operaciones e inmobiliaria es esto: "Necesito datos de Craigslist en una hoja de cálculo y no quiero pasar tres horas copiando y pegando". El problema es que la mayoría de las guías sobre el "mejor raspador de Craigslist" están desactualizadas, se saltan las partes difíciles (como las protecciones anti-bot) o simplemente enumeran herramientas sin compararlas de verdad.

Así que preparé esta guía con 10 herramientas que realmente siguen funcionando en 2026: desde extensiones de Chrome sin código hasta plataformas empresariales de proxies y bibliotecas Python de código abierto. Tanto si eres una persona de negocio que nunca ha escrito una línea de código como si eres una persona desarrolladora que piensa en Python, aquí encontrarás algo para ti.

¿Por qué extraer datos de Craigslist en 2026? Principales casos de uso para equipos de negocio

Craigslist puede parecer anticuado, pero esa es parte de su encanto y de su valor. Sigue ocupando el , y opera en en su directorio oficial. Eso supone muchísimo inventario hiperlocal que simplemente no existe en otro lugar.

Estos son los casos de uso que veo una y otra vez:

  • Generación de leads: Las publicaciones de servicios y trabajos temporales suelen incluir descripción del negocio, zona geográfica y una vía de contacto de tipo relay de Craigslist, suficiente para que los equipos de ventas creen una lista local de leads.
  • Seguimiento inmobiliario: Las páginas de vivienda muestran alquiler, vecindario, camas/baños, metros cuadrados y fechas, perfecto para comparar rentas y seguir la disponibilidad.
  • Precios competitivos: Los anuncios de venta muestran título, precio, estado y ubicación, lo que es oro para investigación de reventa o arbitraje.
  • Reclutamiento y seguimiento laboral: Las categorías de empleos y trabajos temporales muestran compensación, tipo de empleo y descripciones del puesto para analizar el mercado local de talento.
  • Análisis de mercado multirregional: Como Craigslist está segmentado por subdominio y ciudad, puedes consultar región por región para ver precios, volumen o mezcla de categorías.
  • Automatización de flujos de trabajo: Muchas personas solo quieren que los datos de Craigslist lleguen a CSV, Google Sheets, Airtable o un CRM, sin navegar manualmente.

Una persona usuaria informó que un raspado diario de Craigslist que antes llevaba 60–90 minutos se redujo a unos 5 minutos con automatización. Ese es el tipo de ahorro de tiempo que se acumula rápido.

Cómo elegimos los mejores raspadores de Craigslist: nuestros criterios de evaluación

No todos los raspadores de Craigslist son iguales, y el "mejor" depende mucho de quién seas y de lo que necesites. Evalué cada herramienta en seis dimensiones:

  1. Facilidad de configuración — ¿Es apta para principiantes (sin código) o requiere una persona desarrolladora?
  2. Gestión anti-bot de Craigslist — ¿Incluye rotación de proxies, manejo de CAPTCHA o huellas del navegador?
  3. Nivel de precio — ¿Gratis, freemium, de pago o empresarial?
  4. Opciones de exportación de datos — ¿CSV, Excel, Google Sheets, Airtable, Notion, JSON, base de datos?
  5. Soporte multirregional — ¿Puede extraer datos de los 416 sitios de Craigslist en EE. UU. o está limitado a una ciudad a la vez?
  6. Esfuerzo de mantenimiento — ¿La herramienta se rompe cuando Craigslist cambia el diseño de la página o se adapta automáticamente?

Ningún artículo de la competencia que encontré ofrece una comparación lado a lado con criterios consistentes como estos, así que si te frustran las listas vagas de "top 10", esta es para ti.

Los 10 mejores raspadores de Craigslist de un vistazo

Antes de profundizar en cada herramienta, aquí tienes la tabla maestra de comparación. Las he agrupado en tres líneas: herramientas sin código para personas de negocio, plataformas empresariales para escalar y bibliotecas de código abierto para personas desarrolladoras.

HerramientaTipo¿Plan gratis?Soporte de proxy / anti-botManejo de CAPTCHAFormatos de exportaciónIdeal para
ThunderbitExtensión de Chrome sin códigoSí (6 páginas/mes)Modo navegador (no se necesita proxy para ejecuciones moderadas)N/A (sesión del navegador)Excel, Sheets, Airtable, Notion, CSV, JSONPersonas de negocio sin perfil técnico
Bright DataRaspador empresarial + proxy + conjunto de datosPruebaDesbloqueo gestionado, proxies, reintentos, renderizadoSí (resuelto automáticamente)JSON, NDJSON, CSV, Parquet, XLSX, APIRecolección a escala empresarial
OxylabsAPI + pila de proxiesPruebaDesbloqueo gestionado, proxies residenciales/ISPHTML, capturas de pantalla, salidas APIPersonas desarrolladoras que necesitan infraestructura empresarial
ApifyMercado de actores en la nubeSí ($5/mes en créditos)Rotación de proxies (depende del actor)Parcial / específico del actorJSON, CSV, XML, Excel, JSONLAutomatización en la nube flexible y de bajo código
ParseHubRaspador visual sin códigoRotación de proxies de pago, ejecuciones en la nubeNo es una función centralCSV, JSON, API/S3/Dropbox (de pago)Personas usuarias sin código con presupuesto ajustado
PhantombusterPlataforma de automatización en la nubeSí (limitado)Tiene soporte de proxyBasado en créditos / flujos de trabajoCSV, JSON (de pago)Automatización de ventas multicanal
ScrapyRastreador Python de código abiertoGratis (OSS)Debes aportar tus propios proxies/middlewareNoJSON, JSONL, CSV, XML, BDRastreadores de producción
PlaywrightAutomatización de navegador de código abiertoGratis (OSS)Debes aportar tu propio navegador/proxyNoExportación personalizadaControl a nivel de navegador
SeleniumAutomatización de navegador de código abiertoGratis (OSS)Debes aportar tu propio navegador/proxyNoExportación personalizadaPila heredada multilenguaje
BeautifulSoupAnalizador HTML de código abiertoGratis (OSS)Ninguno por sí soloNoExportación personalizadaAnálisis ligero

Aquí se distinguen claramente tres líneas:

  • Herramientas sin código (Thunderbit, ParseHub, Phantombuster) para personas de negocio que quieren datos sin sobrecarga de ingeniería.
  • Plataformas empresariales (Bright Data, Oxylabs, Apify) para equipos que necesitan escala, infraestructura anti-bot y entrega gestionada.
  • Herramientas de código abierto para desarrolladores (Scrapy, Playwright, Selenium, BeautifulSoup) para lograr el máximo control, a costa de configuración, mantenimiento y gestión de proxies.

Vamos con el detalle.

1. Thunderbit

thunderbit-ai-web-scraper.webp es una extensión de Chrome con IA creada para quienes quieren datos estructurados de cualquier sitio web, incluido Craigslist, sin escribir código ni configurar proxies.

Aquí voy con sesgo (lo hemos construido nosotros), pero la razón por la que pongo Thunderbit en primer lugar es que resuelve los puntos de dolor concretos que genera el raspado de Craigslist para personas no técnicas: diseños de página variables entre categorías, enriquecimiento de páginas de detalle y el fallo constante que ocurre cuando cambian los selectores CSS.

Cómo funciona en Craigslist:

  1. Instala la y abre cualquier página de anuncios de Craigslist (por ejemplo, apartamentos en tu ciudad).
  2. Haz clic en "AI Suggest Fields" — la IA de Thunderbit lee la página y propone columnas adaptadas a lo que realmente hay en ella. Para vivienda, obtendrás Título, Precio, Sqft, Dormitorios, Ubicación, Fecha de publicación y Enlace. Para empleos, obtendrás Título, Compensación, Tipo de trabajo, etc. Sin configuración manual de selectores.
  3. Haz clic en "Scrape" y observa cómo los datos se rellenan en una tabla estructurada.
  4. Gestiona la paginación: Thunderbit funciona con la paginación de Craigslist basada en clics.
  5. Usa "Scrape Subpages" para visitar cada anuncio individual y extraer campos que solo aparecen en la página de detalle: descripción completa, todas las imágenes, información de contacto incrustada y más.
  6. Exporta a Google Sheets, Excel, Airtable, Notion o CSV, .

Funciones clave:

  • Detección de campos con IA: Se adapta automáticamente a distintas categorías de Craigslist: vivienda obtiene columnas de sqft/dormitorios, empleos obtiene compensación/tipo de empleo, venta obtiene estado/precio. Cero trabajo manual con CSS.
  • Raspado de subpáginas: Después de extraer una página de resultados, visita cada anuncio para obtener campos de la página de detalle (descripción completa, imágenes, contacto).
  • Modo de raspado basado en navegador: Se ejecuta dentro de tu propia sesión de Chrome, así que no hace falta proxy para volúmenes moderados. Solo eso ya reduce muchísimo coste y complejidad.
  • Mantenimiento cero: La IA lee la página desde cero cada vez. Cuando Craigslist cambia su diseño, tu raspador no se rompe.
  • Exportación gratuita: Excel, Google Sheets, Airtable, Notion, CSV, JSON; sin muro de pago para exportar.

Precio: plan gratis (6 páginas/mes), prueba gratuita (10 páginas), para más volumen.

Ideal para: equipos de ventas que extraen leads de servicios/trabajos temporales en Craigslist, equipos inmobiliarios que supervisan precios de alquiler, equipos de operaciones que necesitan datos estructurados sin apoyo de desarrollo y cualquier persona que quiera extraer, etiquetar y exportar datos en un solo paso.

2. Bright Data

Screenshot 2026-04-22 at 12.27.50 PM_compressed.webp es la opción empresarial de peso pesado. Es la única plataforma de esta lista que tiene tanto una página de producto dedicada de como un mercado de .

Si necesitas extraer miles de anuncios de Craigslist al día en todas las regiones de EE. UU., Bright Data está pensada para esa escala. Su gestiona IPs, reintentos, renderizado y bloqueos, incluida la . El Web Scraper IDE te permite crear flujos de trabajo personalizados para recopilar datos de Craigslist, y puedes iterar programáticamente por las 416 URL regionales.

Funciones clave:

  • Red masiva de proxies residenciales (millones de IPs)
  • Resolución de CAPTCHA y evasión anti-bot integradas
  • Productos específicos para Craigslist: scraper y dataset
  • Exportación: JSON, NDJSON, CSV, Parquet, XLSX, entrega por API, webhooks

Precio: el raspador de Craigslist cuesta desde bajo pago por uso, con planes como 380.000 cargas de página por $499. Los proxies residenciales empiezan en bajo pago por uso. Hay una prueba gratuita de 1.000 solicitudes durante una semana.

Ideal para: equipos empresariales que necesitan recopilación de Craigslist de gran volumen y multirregional con disponibilidad garantizada y soporte dedicado. Los equipos pequeños con presupuesto ajustado deberían mirar otras opciones.

3. Oxylabs

oxylabs-data-for-ai-proxies.webp es un proveedor premium de infraestructura de proxies y raspado con una dedicada y una .

Oxylabs está más orientada a personas desarrolladoras que el enfoque todo en uno de Bright Data. Su Web Scraper API y admiten renderizado de JS, reintentos, gestión de sesiones, generación de fingerprints y un manejo más amplio de anti-bot. La prueba gratuita de Craigslist Scraper API llega hasta .

Funciones clave:

  • Pools de proxies residenciales e ISP (residenciales desde , ISP desde )
  • Web Unblocker con fingerprint automático y gestión de sesiones
  • Endpoint API específico para Craigslist
  • Prueba gratuita de 7 días disponible

Precio: la API de raspado para "otros sitios" empieza en torno a . El nivel micro de Web Unblocker parte de unos . Los proxies residenciales a gran escala pueden costar $0.50/GB a 1 TB.

Ideal para: equipos de desarrollo que quieren infraestructura de proxies gestionada y flujos de trabajo basados en API para un raspado sostenido de Craigslist. Los equipos que ya usan proxies de Oxylabs en otros proyectos encontrarán fácil añadir Craigslist.

4. Apify

apify-web-data-scrapers.webp es una plataforma de automatización y raspado web basada en la nube con un mercado de "Actors" preconstruidos: plantillas de raspado que puedes ejecutar sin escribir código.

El panorama de Craigslist en Apify es interesante: hay múltiples actors de Craigslist mantenidos por la comunidad con niveles de calidad muy distintos. El actor ivanvs/craigslist-scraper tiene 829 usuarios totales y una valoración de 5.0, mientras que automation-lab/craigslist-scraper tiene 44 usuarios y una valoración de 1.0. La calidad es desigual, así que conviene probar antes de comprometerte.

Funciones clave:

  • Disponibilidad de varios actors de Craigslist (algunos extraen con retrasos integrados)
  • Ejecución en la nube, ejecuciones programadas, acceso API, integraciones con webhooks
  • disponible
  • Exportación:

Precio: , planes de pago desde unos $49/mes. El precio por cómputo puede dispararse con uso intensivo: vigila el consumo de CU.

Ideal para: equipos que quieren una solución alojada en la nube sin gestionar infraestructura, personas cómodas con configuración de bajo código y equipos que necesitan raspados de Craigslist programados y recurrentes.

5. ParseHub

parsehub.com-homepage-1920x1080_compressed.webp es una herramienta visual de raspado web basada en escritorio en la que haces clic sobre elementos de la página para definir qué extraer.

Para configurar un raspado de Craigslist en ParseHub, haces clic en los títulos de los anuncios, los precios y los enlaces para enseñarle a la herramienta qué capturar. Gestiona la paginación mediante bucles de clic AJAX y admite ejecuciones en la nube en los planes de pago. El plan gratis te da hasta 5 proyectos, lo cual está bastante bien para trabajos pequeños en Craigslist.

Funciones clave:

  • Constructor visual de flujos de trabajo de apuntar y hacer clic
  • Gestión de paginación y contenido dinámico
  • Ejecuciones en la nube y programación en planes de pago
  • Exportación: CSV, Excel, JSON

Precio: plan gratis (5 proyectos), planes de pago desde unos $189/mes para más páginas y ejecuciones programadas.

Limitaciones: puede ir lento en raspados de gran escala, tiene ejecuciones programadas limitadas en el plan gratis y, lo más importante, se basa en selectores CSS, así que requiere mantenimiento manual cuando Craigslist cambia el diseño.

Ideal para: personas usuarias individuales o equipos pequeños con necesidades moderadas de raspado que quieren una herramienta visual sin código, pero no necesitan detección de campos impulsada por IA.

6. Phantombuster

phantombuster-website-screenshot.webp es una plataforma de automatización en la nube que originalmente ganó popularidad para el raspado de LinkedIn y redes sociales. No es una herramienta nativa de Craigslist, pero su Web Element Extractor puede raspar páginas públicas usando selectores CSS.

Configurar un raspado de Craigslist en Phantombuster requiere más trabajo que una herramienta dedicada: tendrás que especificar selectores, construir el flujo de trabajo y configurar la programación. Pero si ya usas Phantombuster para LinkedIn o para generación de leads en redes sociales, añadir Craigslist a tu canal es sencillo.

Funciones clave:

  • Plantillas de automatización preconstruidas y ejecución en la nube
  • Programación e integraciones con CRM
  • Soporte de proxies y créditos para resolver CAPTCHA disponibles
  • Exportación: CSV, JSON en planes de pago (el plan gratis limita a 10 filas)

Precio: plan gratis con 5 espacios, 2 h/mes y límite de exportación de 10 filas. Los planes anuales de pago empiezan en unos $56/mes facturados anualmente.

Ideal para: equipos de ventas que ya usan Phantombuster para generación de leads multicanal y quieren añadir Craigslist a su flujo de trabajo.

7. Scrapy

scrapy.org-homepage-1920x1080_compressed.webp es el framework de raspado web en Python de código abierto más popular, y es la opción obvia para equipos de desarrollo que quieren el máximo control sobre su rastreo de Craigslist.

La última versión estable es . Scrapy admite rastreo multirregional (iterar por todas las URL regionales), programación y limitación de solicitudes integradas, para rotación de proxies y a CSV, JSON, JSONL, XML y canalizaciones a bases de datos. El complemento scrapy-playwright añade renderizado a nivel de navegador cuando lo necesitas.

Funciones clave:

  • Rastreador altamente personalizable y listo para producción
  • Middleware para proxies, reintentos, cookies y rotación de user-agent
  • Exportaciones de feed: JSON, JSONL, CSV, XML, canalizaciones a bases de datos
  • Gratis y de código abierto

Coste oculto: Scrapy en sí es gratis, pero ejecutarlo a escala en Craigslist implica suscripciones a proxies ($50–500+/mes), costes de hosting/servidor y mantenimiento continuo cuando Craigslist cambia su estructura HTML.

Ideal para: equipos de desarrollo con experiencia en Python que necesitan máxima flexibilidad, infraestructura de proxies ya existente y rastreo de Craigslist multirregional de gran volumen.

8. Playwright

playwright.dev-homepage-1920x1080_compressed.webp es una biblioteca moderna de automatización de navegador de Microsoft que controla Chromium, Firefox y WebKit mediante programación. El ritmo de lanzamientos sigue activo: .

Cada vez más, Playwright se recomienda por encima de Selenium para raspar Craigslist en comunidades de desarrollo. Es más rápido, más fiable y tiene un mejor sigilo anti-detección con complementos de la comunidad como playwright-extra. Admite modos headless y con interfaz, espera automática de elementos, interceptación de red y captura de pantallas/PDF.

Funciones clave:

  • Compatible con
  • Modos de navegador headless y con interfaz
  • Espera automática de elementos, interceptación de red
  • Gratis y de código abierto

Ventaja en Craigslist: Playwright puede imitar el comportamiento de una persona usuaria real de forma más convincente que las solicitudes HTTP en bruto, lo que reduce el riesgo de bloqueo. El sentimiento de la comunidad en Reddit favorece de forma consistente a Playwright sobre Selenium para proyectos nuevos.

Costes ocultos: los mismos que con Scrapy: coste de proxies, hosting y mantenimiento cuando se rompen los selectores.

Ideal para: personas desarrolladoras que necesitan control fino del navegador, equipos que construyen raspadores que manejan contenido renderizado con JavaScript y cualquiera que prefiera una alternativa moderna a Selenium.

9. Selenium

selenium.dev-homepage-1920x1080_compressed.webp es el framework de automatización de navegador consolidado y de uso extendido desde hace años. La última versión es , y sigue ampliando sus capacidades .

Selenium admite varios lenguajes (Python, Java, C#, JavaScript) y todos los navegadores principales. Puede simular sesiones completas de navegador, gestionar inicios de sesión si hace falta y desplazarse por páginas. Pero comparado con Playwright, es más lento, más verboso y más fácil de detectar como bot sin bibliotecas de sigilo adicionales como undetected-chromedriver.

Funciones clave:

  • Compatibilidad multilenguaje (Python, Java, C#, JavaScript)
  • Simulación completa de sesión de navegador
  • Ecosistema maduro con documentación extensa
  • Gratis y de código abierto

Limitaciones: en 2026, la comunidad tiende a preferir Playwright para proyectos nuevos. Un hilo de Reddit señaló que Cloudflare seguía detectando Selenium "incluso usando proxies residenciales"; el sigilo es más difícil desde el principio.

Ideal para: equipos de desarrollo que ya han invertido en Selenium y no quieren migrar, proyectos que necesitan soporte multilenguaje (Java, C#) y configuraciones heredadas de raspado.

10. BeautifulSoup

crummy.com-homepage-1920x1080_compressed.webp es una biblioteca ligera de Python para analizar HTML y XML. La versión actual en PyPI es .

Una aclaración importante: BeautifulSoup es un analizador, no un raspador completo. No descarga páginas web ni gestiona automatización de navegador. Se combina con la biblioteca requests para obtener HTML por HTTP y luego analiza el HTML que le pasas. Eso la convierte en el punto de entrada más sencillo para personas desarrolladoras, pero también en la más limitada.

Funciones clave:

  • Muy fácil de aprender; requiere muy poco código
  • Ideal para raspados pequeños o puntuales de Craigslist
  • Gratis y de código abierto

Limitaciones: no tiene gestión integrada de paginación, no renderiza JavaScript ni rota proxies: todo hay que añadirlo manualmente. Si Craigslist cambia su estructura HTML, los selectores se rompen y hay que corregirlos a mano.

Ideal para: personas principiantes en Python que quieren probar el raspado de Craigslist con la mínima configuración, extracciones puntuales de una sola categoría o región y personas desarrolladoras que solo necesitan un analizador ligero.

El manual anti-baneo de Craigslist: proxies, límites de velocidad y qué te bloquea

Esta es la sección que la mayoría de las guías de raspado de Craigslist omiten, y es la que más importa. clasifican Craigslist como un objetivo de dificultad 3/5, citando CAPTCHA personalizado, limitación de velocidad y bloqueo de IP. El empuja a las personas usuarias hacia Web Unlocker o hacia un Scraping Browser basado en Playwright en lugar de HTTP simple. La dice que Craigslist puede detectar proxies y que los proxies residenciales son la mejor opción.

Esto es lo que realmente funciona:

EstrategiaEficacia en CraigslistCosteComplejidad
Proxies residenciales✅ Alta$$ ($4–6/GB)Media
Proxies ISP✅ Alta$ ($0.60–0.80/IP)Media
Proxies de centros de datos⚠️ Baja (a menudo bloqueados)$ ($0.20–0.40/IP)Baja
Raspado basado en navegador (tu propia sesión)✅ Media-AltaGratisBaja
Limitación de velocidad + retrasos aleatorios✅ Base esencialGratisBaja

Consejos prácticos:

  • Retrasos entre solicitudes: de 2 a 5 segundos como mínimo entre peticiones. Scraperly sugiere mantenerse en torno a 5–10 solicitudes/minuto por IP y rotar después de 20–30 solicitudes.
  • Rotación de sesión: rota user agents y fingerprints del navegador. Los patrones de rastreo predecibles se detectan rápido.
  • Evita los proxies de centros de datos: son baratos, pero se bloquean rápido en Craigslist.
  • El raspado basado en navegador elimina por completo el problema de los proxies para volúmenes moderados. El modo navegador de Thunderbit funciona dentro de tu propia sesión de Chrome: sin configuración de proxies, sin rotación de IP y sin coste. Para la mayoría de las personas de negocio que extraen unos pocos cientos de anuncios, eso es más que suficiente.

Y aquí está el ángulo de mantenimiento que mucha gente pasa por alto: cuando Craigslist cambia su CSS (y lo hace periódicamente), todos los raspadores basados en selectores CSS se rompen. Tienes que inspeccionar la página, encontrar los nuevos selectores, actualizar tu código y volver a probar. Las herramientas con IA como Thunderbit evitan esto por completo: la IA lee la estructura de la página desde cero cada vez, así que los cambios de diseño no rompen tu flujo de trabajo.

Código vs. sin código: dos tutoriales completos de raspado de Craigslist

Sé que la audiencia de este artículo se divide más o menos al 50/50: personas de negocio sin perfil técnico que solo quieren los datos, y personas desarrolladoras principiantes o intermedias que quieren código funcional. Así que aquí van ambas rutas, una al lado de la otra.

Sin código: cómo raspar Craigslist con Thunderbit (paso a paso)

  1. Instala la extensión de Chrome de Thunderbit desde la .
  2. Ve a una página de anuncios de Craigslist — por ejemplo, apartamentos en tu ciudad (https://yourcity.craigslist.org/search/apa).
  3. Haz clic en "AI Suggest Fields" — la IA de Thunderbit lee la página y propone columnas adaptadas a la categoría. Para vivienda, verás Título, Precio, Sqft, Dormitorios, Ubicación, Fecha de publicación y Enlace.
  4. Revisa y ajusta las columnas sugeridas si hace falta. Añade o elimina campos con un clic.
  5. Haz clic en "Scrape" — observa cómo los datos se rellenan en una tabla estructurada.
  6. Gestiona la paginación — navega entre páginas o deja que Thunderbit la gestione.
  7. Usa "Scrape Subpages" para visitar cada anuncio individual y enriquecerlo con campos de la página de detalle: descripción completa, todas las imágenes e información de contacto incrustada.
  8. Exporta a Google Sheets, Excel, Airtable, Notion o CSV, gratis.

Todo el proceso tarda unos 2 minutos para una página de resultados. Sin selectores CSS, sin proxies, sin código.

Ruta con código: cómo raspar Craigslist con Python + Playwright

Playwright es la biblioteca más recomendada para raspar Craigslist en foros de desarrollo en 2026. Aquí tienes un fragmento funcional en Python que extrae una página de resultados de vivienda en Craigslist, captura título/precio/enlace, gestiona la paginación y genera los resultados.

El enfoque: primero intenta los datos estructurados JSON-LD (Craigslist incrusta el esquema ItemList en algunas páginas) y, si no funciona, recurre a selectores DOM. La paginación se hace con s=120.

1import asyncio, json
2from urllib.parse import urlparse, parse_qs, urlencode, urlunparse
3from playwright.async_api import async_playwright
4def next_page_url(url, step=120):
5    p = urlparse(url)
6    qs = parse_qs(p.query)
7    offset = int(qs.get("s", ["0"])[0]) + step
8    qs["s"] = [str(offset)]
9    return urlunparse((p.scheme, p.netloc, p.path, "", urlencode(qs, doseq=True), ""))
10async def scrape_page(page, url):
11    await page.goto(url, wait_until="domcontentloaded")
12    await page.wait_for_timeout(1500)
13    data = []
14    # Try JSON-LD first
15    for raw in await page.locator('script[type="application/ld+json"]').all_text_contents():
16        try:
17            obj = json.loads(raw)
18        except Exception:
19            continue
20        if isinstance(obj, dict) and obj.get("@type") == "ItemList":
21            for item in obj.get("itemListElement", []):
22                thing = item.get("item", {})
23                data.append({
24                    "title": thing.get("name"),
25                    "price": thing.get("offers", {}).get("price"),
26                    "link": thing.get("url"),
27                })
28            if data:
29                return data
30    # Fallback: DOM selectors
31    cards = page.locator("div.cl-search-result, li.cl-static-search-result")
32    count = await cards.count()
33    for i in range(count):
34        card = cards.nth(i)
35        title = await card.locator("a.posting-title, a.titlestring").first.text_content()
36        link = await card.locator("a.posting-title, a.titlestring").first.get_attribute("href")
37        price = (await card.locator(".price, .result-price").first.text_content()
38                 if await card.locator(".price, .result-price").count() else None)
39        data.append({"title": (title or "").strip(), "price": (price or "").strip(), "link": link})
40    return data
41async def main():
42    start_url = "https://newyork.craigslist.org/search/apa?query=studio"
43    async with async_playwright() as p:
44        browser = await p.chromium.launch(headless=True)
45        page = await browser.new_page()
46        url = start_url
47        all_rows = []
48        for _ in range(3):  # scrape 3 pages
49            rows = await scrape_page(page, url)
50            if not rows:
51                break
52            all_rows.extend(rows)
53            url = next_page_url(url)
54        await browser.close()
55        for row in all_rows[:10]:
56            print(row)
57asyncio.run(main())

Lo que necesitarás además de este script: Playwright instalado (pip install playwright && playwright install), configuración de proxies para ejecuciones de gran volumen y manejo manual de CAPTCHA si chocas con límites de velocidad. Ese es el intercambio: control total, pero responsabilidad total.

Gratis vs. de pago: desglose honesto de costes para cada raspador de Craigslist

Esta es la tabla que me habría gustado tener cuando empecé a investigar este tema. "Gratis" es una palabra cargada en el raspado web.

Herramienta¿Completamente gratis?Límites del plan gratisPrecio inicial de pagoCostes ocultos
ThunderbitPlan gratis (6 páginas)6 páginas/mes; prueba gratis = 10 páginasPlanes de pago para más volumenNinguno: la exportación es gratis
Scrapy✅ Código abiertoIlimitado$0Costes de proxies, hosting, mantenimiento
BeautifulSoup✅ Código abiertoIlimitado$0Costes de proxies, hosting, mantenimiento
Playwright✅ Código abiertoIlimitado$0Costes de proxies, hosting, mantenimiento
Selenium✅ Código abiertoIlimitado$0Costes de proxies, hosting, mantenimiento
ParseHubPlan gratis5 proyectos~$189/mesEjecuciones programadas limitadas en el plan gratis
ApifyPlan gratisCréditos gratis de $5/mes~$49/mesEl precio por cómputo puede dispararse
PhantombusterPlan gratis5 espacios, 2 h/mes, exportación de 10 filas~$56/mes (anual)Precio por espacio
Bright DataSolo prueba1.000 solicitudes / 1 semana~$500+/mesLos proxies cuestan aparte
OxylabsSolo prueba2.000 resultados / 1 GB~$75+/mes (Unblocker)Precios empresariales

La gran nota al pie sobre las herramientas de código abierto gratuitas: Scrapy, Playwright, Selenium y BeautifulSoup cuestan $0 de instalar, pero ejecutarlas a escala en Craigslist implica horas de trabajo de desarrollo para la configuración, $50–500+/mes en proxies residenciales y mantenimiento continuo cada vez que Craigslist cambia su HTML. El modo IA de Thunderbit lee la página desde cero cada vez (mantenimiento cero), las exportaciones son gratis y el raspado basado en navegador elimina los costes de proxy para volúmenes moderados. Es una ventaja real para quienes no desarrollan.

Qué puedes extraer realmente: campos de datos de Craigslist por categoría

Las distintas categorías de Craigslist tienen estructuras de datos completamente diferentes. Un anuncio de vivienda no se parece en nada a una publicación de empleo. Esto es lo que puedes extraer de forma realista de cada sección principal:

Categoría de CraigslistCampos extraíbles¿Información de contacto disponible?
Vivienda / ApartamentosTítulo, precio, sqft, dormitorios, baños, ubicación, fecha, imágenes, descripción, enlace al mapa, disponibilidad, política de mascotas, lavandería/estacionamiento⚠️ A veces (relay de correo electrónico anonimizado)
En ventaTítulo, precio, estado, ubicación, fecha, imágenes, descripción, marca/modelo/año (varía)⚠️ A veces
EmpleosTítulo, empresa, compensación, ubicación, tipo de trabajo, nivel de experiencia, fecha, descripciónRara vez (solo enlace para postular)
ServiciosTítulo, ubicación, descripción, imágenes⚠️ A veces
Trabajos temporalesTítulo, compensación, ubicación, fecha, descripción⚠️ A veces

Unas cuantas notas importantes:

  • Información de contacto: Craigslist usa relays de correo electrónico anonimizados precisamente para impedir el raspado directo de emails. Las herramientas que afirman "extraer correos" suelen estar capturando la dirección de relay (reply+randomstring@craigslist.org), no el correo real de la persona que publicó.
  • Campos de la página de detalle como la descripción completa, todas las imágenes y la información de contacto incrustada solo aparecen cuando visitas cada anuncio individual, no en la página de resultados.
  • "AI Suggest Fields" de Thunderbit detecta automáticamente qué campos están disponibles en la página actual y propone la estructura de columnas correcta. Quien extrae vivienda obtiene columnas de sqft/dormitorios; quien extrae empleos obtiene columnas de compensación/tipo de trabajo, sin configuración manual. Su luego visita cada anuncio para tomar los campos que solo están en la página de detalle.

No soy abogado y esto no es asesoramiento legal. Pero sé que a las personas usuarias les preocupa este tema, y merece una respuesta directa.

El precedente clave: en , Craigslist obtuvo una orden judicial contra 3Taps por raspar y republicar anuncios tras enviar una carta de cese y desistimiento. Se alegó que 3Taps eludió bloqueos de IP usando servidores proxy, y el tribunal trató el acceso posterior al bloqueo como potencialmente "sin autorización". La que el caso se resolvió en 2015.

Los Términos de uso de Craigslist prohíben explícitamente "robots, spiders, scripts, scrapers, crawlers o cualquier equivalente automático o manual" para interactuar con el sitio. Incluso establecen daños liquidados de $0.25 por página después de las primeras 1.000 vistas de página en un periodo de 24 horas por infracciones.

Orientación práctica:

  • ✅ Extrae datos públicos de anuncios para investigación de mercado o uso personal
  • ✅ Respeta robots.txt y los límites de velocidad
  • ⚠️ No republiques anuncios extraídos a gran escala
  • ⚠️ No uses información de contacto extraída para marketing no solicitado
  • ❌ No eludas restricciones técnicas de acceso después de haber sido bloqueado

La distinción importa: extraer datos visibles públicamente para tu propio análisis es distinto de republicarlos masivamente o recopilar correos para spam. Pero ten en cuenta que Craigslist históricamente ha pasado de la aplicación de términos al bloqueo de IP y luego a acciones legales.

¿Qué raspador de Craigslist es mejor para ti?

Después de probar y evaluar las 10 opciones, esta es mi recomendación según el escenario:

  • Persona de negocio sin perfil técnico que necesita datos de Craigslist rápidoThunderbit. Sin código, detección de campos con IA, mantenimiento cero y exportación gratuita. La ruta más rápida de "necesito estos datos" a "ya están en mi hoja de cálculo".
  • Equipo empresarial que extrae miles de anuncios al día en todas las regionesBright Data. Raspador específico para Craigslist, infraestructura de proxies masiva, resolución automática de CAPTCHA y soporte dedicado.
  • Equipo de desarrollo que necesita infraestructura gestionada de API/proxyOxylabs para flujos de trabajo orientados a proxies, Apify para flexibilidad de mercado de actores.
  • Persona desarrolladora que quiere control total y personalizaciónScrapy + Playwright. Código abierto, máxima flexibilidad, pero con tus propios proxies y mantenimiento.
  • Persona usuaria con presupuesto ajustado y necesidades moderadas → plan gratis de Apify ($5/mes en créditos) o plan gratis de ParseHub (5 proyectos).
  • Equipo de ventas que ya usa herramientas multicanal de generación de leadsPhantombuster. Añade Craigslist a tu pipeline existente.
  • Persona principiante en Python que hace una extracción puntualBeautifulSoup + requests. Mínimo código, mínima configuración, mínima capacidad.

Para la mayoría de las personas de negocio sin perfil técnico, Thunderbit ofrece el mejor equilibrio entre facilidad, precisión y coste. Para personas desarrolladoras, Scrapy + Playwright es la combinación más potente. Para escala empresarial, Bright Data es difícil de superar.

Si quieres ver cómo se ve realmente el raspado de Craigslist impulsado por IA, — el plan gratis basta para testarlo con tu propio caso de uso. Y si quieres profundizar en técnicas de raspado web, consulta nuestras guías sobre , y . También puedes explorar nuestro para tutoriales paso a paso en video.

Feliz raspado, y que tus datos estén siempre limpios, estructurados y listos para la acción.

Preguntas frecuentes

Los Términos de uso de Craigslist prohíben explícitamente el raspado automatizado, y el es el precedente legal principal. Extraer datos públicos de anuncios para uso personal o analítico suele tratarse de forma diferente a la republicación masiva o el spam, pero siempre debes respetar los límites de velocidad y las reglas del sitio, y esto no es asesoramiento legal.

¿Puedo extraer datos de Craigslist sin programar?

Sí. Herramientas como , ParseHub y Apify ofrecen opciones sin código o con poco código para extraer datos de Craigslist. La detección de campos con IA de Thunderbit lo hace especialmente fácil: solo haz clic en "AI Suggest Fields" y luego en "Scrape".

¿Cuál es el mejor raspador gratuito de Craigslist?

Para personas desarrolladoras, o son completamente gratis y de código abierto, aunque los costes de proxies y mantenimiento se acumulan. Para personas que no programan, el plan gratis de Thunderbit (6 páginas/mes) es el mejor punto de partida, y el plan gratis de ParseHub (5 proyectos) es otra opción.

¿Cómo evito que me bloqueen al extraer datos de Craigslist?

Usa limitación de velocidad (mínimo 2–5 segundos de retraso), rota los user agents, evita los proxies de centros de datos (los proxies residenciales o ISP funcionan mucho mejor en Craigslist) y no sigas patrones de rastreo predecibles. Para volúmenes moderados, herramientas de raspado basadas en navegador como Thunderbit esquivan por completo el problema de los proxies al ejecutarse dentro de tu propia sesión de Chrome.

¿Puedo extraer todas las regiones de Craigslist a la vez?

Con herramientas para desarrollo como Scrapy o Playwright, puedes recorrer programáticamente las . Herramientas empresariales como y ya incorporan el raspado multirregional. Con Thunderbit, puedes abrir cada sitio regional y extraerlo con el mismo flujo de trabajo: la IA se adapta automáticamente a cada página.

Prueba Thunderbit para raspar Craigslist

Más información

Tabla de contenidos

Prueba Thunderbit

Extrae leads y otros datos en solo 2 clics. Impulsado por IA.

Obtén Thunderbit Es gratis
Extrae datos usando IA
Transfiere datos fácilmente a Google Sheets, Airtable o Notion
Chrome Store Rating
PRODUCT HUNT#1 Product of the Week