Craigslist parece não ter mudado desde 2003, mas os dados escondidos nesses anúncios em texto simples são surpreendentemente valiosos. Com e , ele continua sendo uma das maiores plataformas de classificados dos EUA — e não existe nenhuma API pública para acessar esses dados.
Passei anos criando ferramentas de automação na , e uma coisa que ouço o tempo todo de equipes de vendas, operações e imóveis é: "Preciso dos dados do Craigslist numa planilha e não quero ficar copiando e colando por três horas." O problema é que a maioria dos guias sobre "melhor raspador de Craigslist" está desatualizada, ignora as partes difíceis (como proteções anti-bot) ou só lista ferramentas sem compará-las de verdade.
Então, reuni este guia com 10 ferramentas que realmente ainda funcionam em 2026 — de extensões Chrome sem código a plataformas corporativas de proxies e bibliotecas Python de código aberto. Seja você um usuário de negócios que nunca escreveu uma linha de código ou um desenvolvedor que pensa em Python, há algo aqui para você.
Por que raspar Craigslist em 2026? Principais casos de uso para equipes de negócios
Craigslist pode parecer antiquado, mas isso é justamente parte do seu charme — e do seu valor. Ele ainda ocupa o , e opera em no diretório oficial. Isso significa muito inventário hiperlocal que simplesmente não existe reunido em outro lugar.
Aqui estão os casos de uso que vejo as equipes retomarem repetidamente:
- Geração de leads: Publicações de serviços e bicos costumam incluir descrição do negócio, geografia e um caminho de contato via relay do Craigslist — o suficiente para equipes de vendas montarem uma lista local de leads.
- Monitoramento imobiliário: As páginas de imóveis mostram aluguel, bairro, quartos/banheiros, metragem e carimbos de data/hora — perfeito para comparação de aluguel e acompanhamento de disponibilidade.
- Preço competitivo: Anúncios de venda mostram título, preço, condição e localização, o que é ouro para pesquisa de revenda ou arbitragem.
- Recrutamento e monitoramento de mão de obra: As categorias de vagas e bicos exibem remuneração, tipo de trabalho e descrição da função para análises do mercado local de talentos.
- Análise de mercado multirregional: Como o Craigslist é segmentado por subdomínio e cidade, você pode consultar região por região para preço, volume ou mix de categorias.
- Automação de fluxo de trabalho: Muitos usuários só querem que os dados do Craigslist entrem no CSV, Google Sheets, Airtable ou um CRM — sem navegação manual.
Um usuário relatou que uma raspagem diária do Craigslist que antes levava 60–90 minutos caiu para cerca de 5 minutos com automação. Esse é o tipo de economia de tempo que rapidamente se soma.
Como escolhemos os melhores raspadores de Craigslist: nossos critérios de avaliação
Nem todos os raspadores de Craigslist são iguais, e o "melhor" depende muito de quem você é e do que precisa. Avaliei cada ferramenta em seis dimensões:
- Facilidade de configuração — É amigável para iniciantes (sem código) ou exige um desenvolvedor?
- Tratamento anti-bot do Craigslist — Inclui rotação de proxy, tratamento de CAPTCHA ou fingerprinting de navegador?
- Faixa de preço — Grátis, freemium, pago ou empresarial?
- Opções de exportação de dados — CSV, Excel, Google Sheets, Airtable, Notion, JSON, banco de dados?
- Suporte multirregional — Consegue raspar todos os 416 sites do Craigslist nos EUA ou fica limitado a uma cidade por vez?
- Esforço de manutenção — A ferramenta quebra quando o Craigslist muda o layout da página ou se adapta automaticamente?
Nenhum artigo concorrente que encontrei faz uma comparação lado a lado com critérios consistentes como estes — então, se você anda frustrado com listas genéricas de "top 10", este é para você.
Os 10 melhores raspadores de Craigslist em resumo
Antes de entrarmos em cada ferramenta, aqui está a tabela de comparação principal. Agrupei tudo em três trilhas: ferramentas sem código para usuários de negócios, plataformas corporativas para escala e bibliotecas de código aberto para desenvolvedores.
| Ferramenta | Tipo | Plano grátis? | Suporte a proxy / anti-bot | Tratamento de CAPTCHA | Formatos de exportação | Melhor para |
|---|---|---|---|---|---|---|
| Thunderbit | Extensão Chrome sem código | Sim (6 páginas/mês) | Modo navegador (sem proxy para execuções moderadas) | N/D (sessão do navegador) | Excel, Sheets, Airtable, Notion, CSV, JSON | Usuários de negócios sem perfil técnico |
| Bright Data | Raspador empresarial + proxy + dataset | Teste | Desbloqueio gerenciado, proxies, novas tentativas, renderização | Sim (resolvido automaticamente) | JSON, NDJSON, CSV, Parquet, XLSX, API | Coleta em escala corporativa |
| Oxylabs | API + stack de proxy | Teste | Desbloqueio gerenciado, proxies residenciais/ISP | Sim | HTML, captura de tela, saídas via API | Desenvolvedores que precisam de infraestrutura corporativa |
| Apify | Marketplace de atores na nuvem | Sim (créditos de US$ 5/mês) | Rotação de proxy (depende do ator) | Parcial / específico do ator | JSON, CSV, XML, Excel, JSONL | Automação em nuvem flexível com pouco código |
| ParseHub | Raspador visual sem código | Sim | Rotação de proxy paga, execuções na nuvem | Não é um recurso central | CSV, JSON, API/S3/Dropbox (pago) | Usuários sem código com orçamento limitado |
| Phantombuster | Plataforma de automação na nuvem | Sim (limitado) | Há suporte a proxy | Créditos / baseado em fluxo de trabalho | CSV, JSON (pago) | Automação de vendas multicanal |
| Scrapy | Rastreador Python de código aberto | Grátis (OSS) | Traga seus próprios proxies/middlewares | Não | JSON, JSONL, CSV, XML, banco de dados | Rastreadores de produção |
| Playwright | Automação de navegador de código aberto | Grátis (OSS) | Traga seu próprio navegador/proxy | Não | Exportação personalizada | Controle em nível de navegador |
| Selenium | Automação de navegador de código aberto | Grátis (OSS) | Traga seu próprio navegador/proxy | Não | Exportação personalizada | Pilhas legadas multilinguagem |
| BeautifulSoup | Analisador HTML de código aberto | Grátis (OSS) | Nenhum por si só | Não | Exportação personalizada | Análise leve |
Três caminhos ficam claros aqui:
- Ferramentas sem código (Thunderbit, ParseHub, Phantombuster) para usuários de negócios que querem dados sem sobrecarga de engenharia.
- Plataformas corporativas (Bright Data, Oxylabs, Apify) para equipes que precisam de escala, infraestrutura anti-bot e entrega gerenciada.
- Ferramentas de código aberto para desenvolvedores (Scrapy, Playwright, Selenium, BeautifulSoup) para máximo controle — ao custo de configuração, manutenção e gestão de proxies.
Agora, vamos aos detalhes.
1. Thunderbit
é uma extensão Chrome com IA criada para quem quer dados estruturados de qualquer site — inclusive do Craigslist — sem escrever código nem configurar proxies.
Tenho parcialidade aqui (nós o construímos), mas o motivo de colocar a Thunderbit em primeiro lugar é que ela resolve os pontos de dor específicos que a raspagem do Craigslist cria para usuários sem perfil técnico: layouts variáveis entre categorias, enriquecimento de páginas de detalhe e a quebra constante que acontece quando os seletores CSS mudam.
Como funciona no Craigslist:
- Instale a e abra qualquer página de anúncios do Craigslist (por exemplo, apartamentos na sua cidade).
- Clique em "Sugerir campos com IA" — a IA da Thunderbit lê a página e propõe colunas adaptadas ao que realmente existe nela. Para imóveis, você terá Título, Preço, M², Quartos, Localização, Data de publicação e Link. Para vagas, Título, Remuneração, Tipo de vaga e assim por diante. Sem configuração manual de seletores.
- Clique em "Raspar" e veja os dados aparecerem em uma tabela estruturada.
- Lide com a paginação — a Thunderbit funciona com a paginação por clique do Craigslist.
- Use "Raspar subpáginas" para visitar cada anúncio individual e extrair campos que só aparecem na página de detalhe: descrição completa, todas as imagens, informações de contato incorporadas e muito mais.
- Exporte para Google Sheets, Excel, Airtable, Notion ou CSV — .
Principais recursos:
- Detecção de campos com IA: Adapta-se automaticamente às diferentes categorias do Craigslist — imóveis recebem colunas de m²/quartos, vagas recebem remuneração/tipo de trabalho, itens à venda recebem condição/preço. Zero trabalho manual com CSS.
- Raspagem de subpáginas: Depois de raspar uma página de resultados, visite cada anúncio para extrair campos da página de detalhe (descrição completa, imagens, informações de contato).
- Modo de raspagem baseado no navegador: Funciona dentro da sua própria sessão do Chrome, então não há necessidade de proxy para volumes moderados. Só isso já reduz muito o custo e a complexidade.
- Manutenção zero: A IA lê a página novamente a cada execução. Quando o Craigslist muda o layout (e isso acontece), seu raspador não quebra.
- Exportação gratuita: Excel, Google Sheets, Airtable, Notion, CSV, JSON — sem paywall para exportação.
Preço: plano grátis (6 páginas/mês), teste grátis (10 páginas), para volumes maiores.
Melhor para: equipes de vendas que raspam leads dos serviços/bicos do Craigslist, equipes de imóveis que monitoram preços de aluguel, equipes de operações que precisam de dados estruturados do Craigslist sem apoio de desenvolvedores e qualquer pessoa que queira raspar, rotular e exportar dados em uma única etapa.
2. Bright Data
é a opção empresarial mais robusta. É a única plataforma desta lista com uma página de produto dedicada de e um marketplace de .
Se você precisa raspar milhares de anúncios do Craigslist diariamente em todas as regiões dos EUA, a Bright Data foi construída para essa escala. O lida com IPs, novas tentativas, renderização e bloqueios — incluindo . O Web Scraper IDE permite criar fluxos personalizados de coleta no Craigslist, e você pode iterar programaticamente por todas as 416 URLs regionais.
Principais recursos:
- Rede massiva de proxies residenciais (milhões de IPs)
- Resolução de CAPTCHA e bypass anti-bot integrados
- Produtos específicos de raspagem e dataset para Craigslist
- Exportação: JSON, NDJSON, CSV, Parquet, XLSX, entrega via API, webhooks
Preço: o raspador do Craigslist custa no modelo pay-as-you-go, com planos como 380 mil carregamentos por US$ 499. Os proxies residenciais começam em no pay-as-you-go. Há um teste grátis de 1.000 solicitações por uma semana.
Melhor para: equipes corporativas que precisam de coleta em alto volume e multirregional no Craigslist, com tempo de atividade garantido e suporte dedicado. Pequenas equipes com orçamento apertado devem procurar outra opção.
3. Oxylabs
é uma fornecedora premium de infraestrutura de proxy e raspagem, com uma dedicada e uma página de .
A Oxylabs é mais voltada a desenvolvedores do que a abordagem tudo-em-um da Bright Data. Sua Web Scraper API e o oferecem suporte a renderização de JS, novas tentativas, gerenciamento de sessões, geração de fingerprint e tratamento anti-bot mais amplo. O teste grátis da Craigslist Scraper API chega a .
Principais recursos:
- Pools de proxies residenciais e ISP (residenciais a partir de , ISP a partir de )
- Web Unblocker com fingerprint automático e gerenciamento de sessão
- Endpoint de API específico para Craigslist
- Teste grátis de 7 dias disponível
Preço: a API de raspagem para "outros sites" começa em cerca de . O plano micro do Web Unblocker parte de cerca de . Proxies residenciais em escala podem custar US$ 0,50/GB em 1 TB.
Melhor para: equipes de desenvolvimento que querem infraestrutura de proxy gerenciada e fluxos baseados em API para raspagem contínua do Craigslist. Equipes que já usam proxies da Oxylabs em outros projetos vão achar fácil adicionar o Craigslist.
4. Apify
é uma plataforma de raspagem e automação web baseada em nuvem, com um marketplace de "Actors" pré-construídos — modelos de raspador que você pode executar sem escrever código.
O cenário do Craigslist na Apify é interessante: há vários actors da comunidade para Craigslist, com níveis de qualidade bem diferentes. O actor ivanvs/craigslist-scraper tem 829 usuários no total e nota 5,0, enquanto o automation-lab/craigslist-scraper tem 44 usuários e nota 1,0. A qualidade é desigual, então vale testar antes de se comprometer.
Principais recursos:
- Vários actors de Craigslist disponíveis (alguns extraem com atrasos embutidos)
- Execução na nuvem, execuções agendadas, acesso via API, integrações com webhooks
- disponível
- Exportação:
Preço: , planos pagos a partir de cerca de US$ 49/mês. A cobrança por computação pode subir com uso intenso — fique de olho no consumo de CU.
Melhor para: equipes que querem uma solução hospedada na nuvem sem gerenciar infraestrutura, usuários confortáveis com configuração low-code e equipes que precisam de raspagens recorrentes e agendadas do Craigslist.
5. ParseHub
é uma ferramenta visual de raspagem web para desktop em que você aponta e clica nos elementos da página para definir o que extrair.
Para configurar uma raspagem do Craigslist no ParseHub, você clica nos títulos dos anúncios, preços e links para ensinar a ferramenta o que coletar. Ela lida com paginação por loops de cliques AJAX e oferece execuções na nuvem nos planos pagos. O plano grátis permite até 5 projetos, o que é razoável para trabalhos pequenos no Craigslist.
Principais recursos:
- Construtor visual de fluxos com clique e seleção
- Tratamento de paginação e conteúdo dinâmico
- Execuções na nuvem e agendamento nos planos pagos
- Exportação: CSV, Excel, JSON
Preço: plano grátis (5 projetos), planos pagos a partir de cerca de US$ 189/mês para mais páginas e execuções agendadas.
Limitações: pode ser lento em raspagens grandes, as execuções agendadas são limitadas no plano grátis e — de forma crítica — depende de seletores CSS, então exige manutenção manual quando o Craigslist muda o layout.
Melhor para: usuários individuais ou pequenas equipes com necessidades moderadas de raspagem que querem uma ferramenta visual, sem código, mas não precisam de detecção de campos com IA.
6. Phantombuster
é uma plataforma de automação baseada na nuvem que ficou inicialmente popular para scraping de LinkedIn e redes sociais. Não é uma ferramenta nativa para Craigslist, mas seu Web Element Extractor pode raspar páginas públicas usando seletores CSS.
Configurar uma raspagem do Craigslist no Phantombuster exige mais trabalho do que em uma ferramenta dedicada — você precisará especificar seletores, montar o fluxo de trabalho e configurar o agendamento. Mas, se você já usa o Phantombuster para geração de leads no LinkedIn ou em redes sociais, adicionar o Craigslist à sua pipeline é simples.
Principais recursos:
- Modelos de automação pré-construídos e execução na nuvem
- Agendamento e integrações com CRM
- Suporte a proxy e créditos para resolver CAPTCHA disponíveis
- Exportação: CSV, JSON nos planos pagos (o plano grátis limita a 10 linhas)
Preço: plano grátis com 5 slots, 2h/mês e limite de exportação de 10 linhas. Planos anuais pagos começam em cerca de US$ 56/mês cobrados anualmente.
Melhor para: equipes de vendas que já usam o Phantombuster para geração de leads em várias plataformas e querem adicionar o Craigslist ao fluxo.
7. Scrapy
é o framework Python de código aberto mais popular para raspagem web e a escolha óbvia para equipes de desenvolvimento que querem controle máximo sobre o rastreamento do Craigslist.
A versão estável mais recente é . O Scrapy suporta rastreamento multirregional (iterando por todas as URLs regionais), agendamento e limitação de requisições integrados, para rotação de proxy e para CSV, JSON, JSONL, XML e pipelines de banco de dados. O plugin scrapy-playwright adiciona renderização em nível de navegador quando necessário.
Principais recursos:
- Rastreador altamente personalizável e pronto para produção
- Middlewares para proxies, novas tentativas, cookies e rotação de user-agent
- Exportações de feed: JSON, JSONL, CSV, XML, pipelines de banco de dados
- Grátis e de código aberto
O custo escondido: o Scrapy em si é grátis, mas executá-lo em escala no Craigslist significa assinaturas de proxy (US$ 50–500+/mês), custos de hospedagem/servidor e manutenção contínua quando o Craigslist muda sua estrutura HTML.
Melhor para: equipes de desenvolvimento com experiência em Python que precisam de flexibilidade máxima, infraestrutura de proxy existente e rastreamento multirregional de alto volume no Craigslist.
8. Playwright
é uma biblioteca moderna de automação de navegador da Microsoft que controla programaticamente Chromium, Firefox e WebKit. O ritmo de lançamentos continua ativo — a .
O Playwright vem sendo cada vez mais recomendado em vez do Selenium para raspagem do Craigslist nas comunidades de desenvolvedores. É mais rápido, mais confiável e tem melhor furtividade contra detecção com plugins comunitários como o playwright-extra. Suporta modos headless e com interface, espera automática por elementos, interceptação de rede e captura de screenshots/PDF.
Principais recursos:
- Suporte a
- Modos de navegador headless e com interface
- Espera automática por elementos, interceptação de rede
- Grátis e de código aberto
Vantagem no Craigslist: o Playwright consegue imitar o comportamento real do usuário de forma mais convincente do que requisições HTTP puras, reduzindo o risco de bloqueio. O sentimento na comunidade do Reddit favorece consistentemente o Playwright em vez do Selenium para novos projetos.
Custos ocultos: os mesmos do Scrapy — custos de proxy, hospedagem e manutenção quando os seletores quebram.
Melhor para: desenvolvedores que precisam de controle refinado do navegador, equipes que constroem raspadores para conteúdo renderizado em JavaScript e qualquer pessoa que prefira uma alternativa moderna ao Selenium.
9. Selenium
é a estrutura de automação de navegador tradicional e amplamente usada. A versão mais recente é , e ela continua expandindo os recursos .
O Selenium oferece suporte a várias linguagens (Python, Java, C#, JavaScript) e a todos os principais navegadores. Ele pode simular sessões completas de navegador, fazer login se necessário e rolar páginas. Mas, comparado ao Playwright, é mais lento, mais verboso e mais fácil de ser detectado como bot sem bibliotecas extras de stealth, como undetected-chromedriver.
Principais recursos:
- Suporte multilinguagem (Python, Java, C#, JavaScript)
- Simulação completa de sessão de navegador
- Ecossistema maduro com documentação extensa
- Grátis e de código aberto
Limitações: o sentimento da comunidade em 2026 favorece o Playwright para projetos novos. Um tópico no Reddit observou que o Cloudflare ainda detectava o Selenium "mesmo usando proxies residenciais" — a furtividade é mais difícil logo de saída.
Melhor para: equipes de desenvolvimento já investidas em Selenium e que não querem migrar, projetos que precisam de suporte a várias linguagens (Java, C#) e configurações legadas de raspagem.
10. BeautifulSoup
é uma biblioteca Python leve para analisar HTML e XML. A versão atual no PyPI é .
Uma observação importante: BeautifulSoup é um analisador, não um raspador completo. Ele não busca páginas web nem lida com automação de navegador. Você o combina com a biblioteca requests para fazer a requisição HTTP, e ele analisa o HTML que você fornece. Isso o torna o ponto de entrada mais simples para desenvolvedores, mas também o mais limitado.
Principais recursos:
- Extremamente fácil de aprender — exige código mínimo
- Ótimo para raspagens pequenas ou pontuais no Craigslist
- Grátis e de código aberto
Limitações: sem tratamento de paginação embutido, sem renderização de JavaScript, sem rotação de proxy — tudo precisa ser adicionado manualmente. Se o Craigslist mudar sua estrutura HTML, seus seletores quebram e você os corrige na mão.
Melhor para: iniciantes em Python que querem testar a raspagem do Craigslist com configuração mínima, extrações pontuais rápidas de uma única categoria ou região e desenvolvedores que só precisam de um analisador leve.
O manual anti-ban do Craigslist: proxies, limites de taxa e o que faz você ser bloqueado
Esta é a seção que a maioria dos guias sobre raspagem do Craigslist ignora — e é a mais importante. Os classificam o Craigslist como um alvo de dificuldade 3/5, citando CAPTCHA personalizado, limitação de taxa e bloqueio de IP. O direciona os usuários para o Web Unlocker ou para um Scraping Browser baseado em Playwright em vez de HTTP puro. A diz que o Craigslist pode detectar proxies e que proxies residenciais são a melhor escolha.
Isto é o que realmente funciona:
| Estratégia | Efetividade no Craigslist | Custo | Complexidade |
|---|---|---|---|
| Proxies residenciais | ✅ Alta | $$ (US$ 4–6/GB) | Média |
| Proxies ISP | ✅ Alta | $ (US$ 0,60–0,80/IP) | Média |
| Proxies de datacenter | ⚠️ Baixa (muitas vezes bloqueados) | $ (US$ 0,20–0,40/IP) | Baixa |
| Raspagem baseada em navegador (sua própria sessão) | ✅ Média-Alta | Grátis | Baixa |
| Limitação de taxa + atrasos aleatórios | ✅ Essencial | Grátis | Baixa |
Dicas práticas:
- Atrasos entre requisições: 2 a 5 segundos no mínimo entre cada requisição. A Scraperly sugere ficar em torno de 5 a 10 requisições por minuto por IP e alternar após 20 a 30 requisições.
- Rotação de sessão: altere user agents e fingerprints de navegador. Padrões de rastreamento previsíveis são detectados rápido.
- Evite proxies de datacenter: são baratos, mas são bloqueados rapidamente no Craigslist.
- Raspagem baseada em navegador elimina o problema de proxy para volumes moderados. O modo navegador da Thunderbit roda dentro da sua própria sessão do Chrome — sem configuração de proxy, sem rotação de IP, sem custo. Para a maioria dos usuários de negócios raspando algumas centenas de anúncios, isso é mais do que suficiente.
E aqui está o ponto de manutenção que muita gente ignora: quando o Craigslist muda seu CSS (e isso acontece periodicamente), todo raspador baseado em seletores CSS quebra. É preciso inspecionar a página, encontrar os novos seletores, atualizar o código e testar de novo. Ferramentas com IA como a Thunderbit evitam isso totalmente — a IA lê a estrutura da página novamente a cada execução, então mudanças de layout não quebram seu fluxo.
Código vs. sem código: dois tutoriais completos de raspagem do Craigslist
Sei que o público deste artigo está dividido quase meio a meio: usuários de negócios sem perfil técnico que só querem os dados e desenvolvedores iniciantes a intermediários que querem código funcional. Então aqui vão os dois caminhos, lado a lado.
Sem código: como raspar Craigslist com a Thunderbit (passo a passo)
- Instale a Extensão Thunderbit para Chrome na .
- Acesse uma página de anúncios do Craigslist — por exemplo, apartamentos na sua cidade (
https://yourcity.craigslist.org/search/apa). - Clique em "Sugerir campos com IA" — a IA da Thunderbit lê a página e propõe colunas adaptadas à categoria. Para imóveis, você verá Título, Preço, M², Quartos, Localização, Data de publicação e Link.
- Revise e ajuste as colunas sugeridas, se necessário. Adicione ou remova campos com um clique.
- Clique em "Raspar" — veja os dados aparecerem em uma tabela estruturada.
- Lide com a paginação — navegue pelas páginas ou deixe a Thunderbit fazer isso.
- Use "Raspar subpáginas" para visitar cada anúncio individual e enriquecer os dados com campos da página de detalhe: descrição completa, todas as imagens, informações de contato incorporadas.
- Exporte para Google Sheets, Excel, Airtable, Notion ou CSV — de graça.
Todo o processo leva cerca de 2 minutos para uma página de resultados. Sem seletores CSS, sem proxies, sem código.
Caminho com código: como raspar Craigslist com Python + Playwright
O Playwright é a biblioteca mais recomendada para raspar Craigslist em fóruns de desenvolvedores em 2026. Aqui está um trecho funcional em Python que raspa uma página de resultados de imóveis do Craigslist, extrai título/preço/link, lida com paginação e gera os resultados.
A abordagem: primeiro tente os dados estruturados JSON-LD (o Craigslist incorpora o esquema ItemList em algumas páginas), depois faça fallback para seletores DOM. A paginação ocorre por s=120.
1import asyncio, json
2from urllib.parse import urlparse, parse_qs, urlencode, urlunparse
3from playwright.async_api import async_playwright
4def next_page_url(url, step=120):
5 p = urlparse(url)
6 qs = parse_qs(p.query)
7 offset = int(qs.get("s", ["0"])[0]) + step
8 qs["s"] = [str(offset)]
9 return urlunparse((p.scheme, p.netloc, p.path, "", urlencode(qs, doseq=True), ""))
10async def scrape_page(page, url):
11 await page.goto(url, wait_until="domcontentloaded")
12 await page.wait_for_timeout(1500)
13 data = []
14 # Tente primeiro o JSON-LD
15 for raw in await page.locator('script[type="application/ld+json"]').all_text_contents():
16 try:
17 obj = json.loads(raw)
18 except Exception:
19 continue
20 if isinstance(obj, dict) and obj.get("@type") == "ItemList":
21 for item in obj.get("itemListElement", []):
22 thing = item.get("item", {})
23 data.append({
24 "title": thing.get("name"),
25 "price": thing.get("offers", {}).get("price"),
26 "link": thing.get("url"),
27 })
28 if data:
29 return data
30 # Fallback: seletores DOM
31 cards = page.locator("div.cl-search-result, li.cl-static-search-result")
32 count = await cards.count()
33 for i in range(count):
34 card = cards.nth(i)
35 title = await card.locator("a.posting-title, a.titlestring").first.text_content()
36 link = await card.locator("a.posting-title, a.titlestring").first.get_attribute("href")
37 price = (await card.locator(".price, .result-price").first.text_content()
38 if await card.locator(".price, .result-price").count() else None)
39 data.append({"title": (title or "").strip(), "price": (price or "").strip(), "link": link})
40 return data
41async def main():
42 start_url = "https://newyork.craigslist.org/search/apa?query=studio"
43 async with async_playwright() as p:
44 browser = await p.chromium.launch(headless=True)
45 page = await browser.new_page()
46 url = start_url
47 all_rows = []
48 for _ in range(3): # raspar 3 páginas
49 rows = await scrape_page(page, url)
50 if not rows:
51 break
52 all_rows.extend(rows)
53 url = next_page_url(url)
54 await browser.close()
55 for row in all_rows[:10]:
56 print(row)
57asyncio.run(main())
O que você vai precisar além deste script: instalar o Playwright (pip install playwright && playwright install), configurar proxies para execuções de alto volume e tratar CAPTCHAs manualmente se atingir limites de taxa. Esse é o trade-off: controle total, mas responsabilidade total.
Grátis vs. pago: análise honesta de custos para cada raspador de Craigslist
Esta é a tabela que eu gostaria que existisse quando comecei a pesquisar esse tema. "Grátis" é uma palavra carregada em raspagem web.
| Ferramenta | Totalmente grátis? | Limites do plano grátis | Preço inicial pago | Custos ocultos |
|---|---|---|---|---|
| Thunderbit | Plano grátis (6 páginas) | 6 páginas/mês; teste grátis = 10 páginas | Planos pagos para maior volume | Nenhum — exportação é grátis |
| Scrapy | ✅ Código aberto | Ilimitado | US$ 0 | Custos de proxy, hospedagem, manutenção |
| BeautifulSoup | ✅ Código aberto | Ilimitado | US$ 0 | Custos de proxy, hospedagem, manutenção |
| Playwright | ✅ Código aberto | Ilimitado | US$ 0 | Custos de proxy, hospedagem, manutenção |
| Selenium | ✅ Código aberto | Ilimitado | US$ 0 | Custos de proxy, hospedagem, manutenção |
| ParseHub | Plano grátis | 5 projetos | ~US$ 189/mês | Execuções agendadas limitadas no grátis |
| Apify | Plano grátis | Créditos grátis de US$ 5/mês | ~US$ 49/mês | O preço por computação pode subir |
| Phantombuster | Plano grátis | 5 slots, 2h/mês, exportação de 10 linhas | ~US$ 56/mês (anual) | Preço por slot |
| Bright Data | Apenas teste | 1 mil solicitações/1 semana | ~US$ 500+/mês | Custos de proxy à parte |
| Oxylabs | Apenas teste | 2 mil resultados / 1 GB | ~US$ 75+/mês (Unblocker) | Preço corporativo |
O grande asterisco no termo "grátis" para ferramentas open source: Scrapy, Playwright, Selenium e BeautifulSoup custam US$ 0 para instalar, mas executá-los em escala no Craigslist significa horas de tempo de desenvolvimento para configurar, US$ 50–500+/mês em proxies residenciais e manutenção contínua sempre que o Craigslist muda seu HTML. O modo IA da Thunderbit lê a página novamente a cada execução (manutenção zero), as exportações são gratuitas e a raspagem baseada no navegador elimina os custos de proxy para volumes moderados. Isso é uma vantagem real para quem não é desenvolvedor.
O que você realmente pode extrair: campos de dados do Craigslist por categoria
Categorias diferentes do Craigslist têm estruturas de dados totalmente diferentes. Um anúncio de imóvel não parece em nada com um anúncio de vaga. Veja o que você pode extrair realisticamente de cada seção principal:
| Categoria do Craigslist | Campos extraíveis | Informações de contato disponíveis? |
|---|---|---|
| Imóveis / Apartamentos | Título, Preço, M², Quartos, Banheiros, Localização, Data, Imagens, Descrição, Link do mapa, Disponibilidade, Política para animais, Lavanderia/estacionamento | ⚠️ Às vezes (relay de e-mail anonimizado) |
| À venda | Título, Preço, Condição, Localização, Data, Imagens, Descrição, Marca/Modelo/Ano (varia) | ⚠️ Às vezes |
| Vagas | Título, Empresa, Remuneração, Localização, Tipo de vaga, Nível de experiência, Data, Descrição | Raramente (apenas link de candidatura) |
| Serviços | Título, Localização, Descrição, Imagens | ⚠️ Às vezes |
| Bicos | Título, Remuneração, Localização, Data, Descrição | ⚠️ Às vezes |
Algumas observações importantes:
- Informações de contato: o Craigslist usa relays de e-mail anonimizados justamente para impedir a extração direta de e-mails. Ferramentas que dizem "extrair e-mails" geralmente estão puxando o endereço relay (
reply+randomstring@craigslist.org), não o e-mail real do anunciante. - Campos da página de detalhe como descrição completa, todas as imagens e informações de contato incorporadas só aparecem quando você visita cada anúncio individual — não na página de resultados da pesquisa.
- O "Sugerir campos com IA" da Thunderbit detecta automaticamente quais campos estão disponíveis na página atual e propõe a estrutura de colunas certa. Um usuário raspando imóveis recebe colunas de m²/quartos; um usuário raspando vagas recebe colunas de remuneração/tipo de trabalho — sem configuração manual. A então visita cada anúncio para capturar os campos que só existem na página de detalhe.
Checagem jurídica: Termos de Uso do Craigslist, o caso 3Taps e o que você deve saber
Não sou advogado, e isto não é aconselhamento jurídico. Mas sei que os usuários se preocupam com isso, e vale uma resposta direta.
O precedente principal: em , o Craigslist obteve uma liminar contra a 3Taps por raspar e republicar anúncios após o envio de uma notificação de cessar e desistir. Alegadamente, a 3Taps burlou bloqueios de IP usando servidores proxy, e o tribunal tratou o acesso após o bloqueio como potencialmente "sem autorização". A que o caso foi encerrado em 2015.
Os Termos de Uso do Craigslist proíbem explicitamente "robots, spiders, scripts, scrapers, crawlers ou qualquer equivalente automatizado ou manual" para interagir com o site. Eles inclusive estabelecem danos liquidados de US$ 0,25 por página após as primeiras 1.000 visualizações de página em um período de 24 horas por violações.
Orientação prática:
- ✅ Raspe dados públicos de anúncios para pesquisa de mercado ou uso pessoal
- ✅ Respeite robots.txt e limites de taxa
- ⚠️ Não republice anúncios raspados em massa
- ⚠️ Não use informações de contato raspadas para marketing não solicitado
- ❌ Não contorne restrições técnicas de acesso depois de ser bloqueado
A distinção importa: raspar dados publicamente visíveis para sua própria análise é diferente de republicar em massa ou coletar e-mails para spam. Mas esteja ciente de que o Craigslist historicamente evoluiu da aplicação dos termos para bloqueio de IP e, depois, para ação judicial.
Qual raspador de Craigslist é melhor para você?
Depois de testar e avaliar os 10, aqui vai minha recomendação por cenário:
- Usuário de negócios sem perfil técnico que precisa de dados do Craigslist rápido → Thunderbit. Sem código, detecção de campos com IA, manutenção zero, exportação gratuita. O caminho mais rápido de "preciso desses dados" para "estão na minha planilha".
- Equipe corporativa que raspa milhares de anúncios por dia em todas as regiões → Bright Data. Raspador específico para Craigslist, infraestrutura massiva de proxies, resolução automática de CAPTCHA, suporte dedicado.
- Equipe de desenvolvimento que precisa de infraestrutura gerenciada de API/proxy → Oxylabs para fluxos orientados a proxy, Apify para flexibilidade de marketplace de actors.
- Desenvolvedor que quer controle total e personalização → Scrapy + Playwright. Código aberto, flexibilidade máxima, mas traga seus próprios proxies e manutenção.
- Usuário com orçamento limitado e necessidades moderadas → plano grátis da Apify (créditos de US$ 5/mês) ou plano grátis do ParseHub (5 projetos).
- Equipe de vendas que já usa ferramentas de geração de leads multicanal → Phantombuster. Adicione o Craigslist à sua pipeline existente.
- Iniciante em Python fazendo uma raspagem pontual → BeautifulSoup + requests. Código mínimo, configuração mínima, capacidade mínima.
Para a maioria dos usuários de negócios sem perfil técnico, a Thunderbit oferece o melhor equilíbrio entre facilidade, precisão e custo. Para desenvolvedores, Scrapy + Playwright é a combinação mais poderosa. Para escala corporativa, Bright Data é difícil de superar.
Se você quiser ver como realmente é a raspagem do Craigslist com IA, — o plano grátis é suficiente para testar no seu próprio caso de uso. E, se quiser ir mais fundo em técnicas de raspagem web, confira nossos guias sobre , e . Você também pode explorar nosso para tutoriais em vídeo passo a passo.
Boa raspagem — e que seus dados estejam sempre limpos, estruturados e prontos para a ação.
FAQs
É legal raspar anúncios do Craigslist?
Os Termos de Uso do Craigslist proíbem explicitamente a raspagem automatizada, e o é o principal precedente jurídico. Raspar dados públicos de anúncios para uso pessoal ou analítico geralmente é tratado de forma diferente de republicação em massa ou spam, mas você deve sempre respeitar limites de taxa e as regras do site — e isto não é aconselhamento jurídico.
Posso raspar o Craigslist sem programar?
Sim. Ferramentas como , ParseHub e Apify oferecem opções sem código ou com pouco código para extrair dados do Craigslist. A detecção de campos com IA da Thunderbit torna isso especialmente fácil — basta clicar em "Sugerir campos com IA" e "Raspar".
Qual é o melhor raspador gratuito de Craigslist?
Para desenvolvedores, ou são totalmente gratuitos e de código aberto (embora os custos de proxy e manutenção se acumulem). Para quem não programa, o plano grátis da Thunderbit (6 páginas/mês) é o melhor ponto de partida, com o plano grátis do ParseHub (5 projetos) como outra opção.
Como evitar ser bloqueado ao raspar o Craigslist?
Use limitação de taxa (atrasos mínimos de 2 a 5 segundos), alterne user agents, evite proxies de datacenter (proxies residenciais ou ISP funcionam muito melhor no Craigslist) e não siga padrões previsíveis de rastreamento. Para volumes moderados, ferramentas de raspagem baseadas em navegador como a Thunderbit contornam totalmente o problema de proxy ao rodar dentro da sua própria sessão do Chrome.
Posso raspar todas as regiões do Craigslist de uma vez?
Com ferramentas de desenvolvedor como Scrapy ou Playwright, você pode percorrer programaticamente todas as . Ferramentas corporativas como e já trazem raspagem multirregional integrada. Com a Thunderbit, você pode abrir cada site regional e raspar com o mesmo fluxo de trabalho — a IA se adapta a cada página automaticamente.
Saiba mais