Craigslistは2003年からほとんど変わっていないように見えますが、あの素っ気ないテキスト一覧の中に隠れたデータは、驚くほど価値があります。とがあり、今でも米国最大級のクラシファイド広告プラットフォームの一つです。しかも、使える公開APIはありません。
私はで何年も自動化ツールを作ってきましたが、営業、オペレーション、不動産チームからいつも聞くのは同じことです。「Craigslistのデータをスプレッドシートに入れたい。3時間もコピペはしたくないんです。」問題は、「Craigslistスクレイパーのおすすめ」記事の多くが古かったり、難所(たとえばボット対策)に触れていなかったり、単にツールを並べているだけで実際の比較になっていなかったりすることです。
そこで、2026年になっても本当に使える10のツールをまとめました。ノーコードのChrome拡張から、企業向けプロキシ基盤、オープンソースのPythonライブラリまで網羅しています。コードを書いたことのないビジネスユーザーでも、Pythonで考える開発者でも、きっと役立つものが見つかるはずです。
2026年にCraigslistをスクレイピングする理由は?ビジネスチーム向けの主な活用例
Craigslistは古めかしく見えるかもしれませんが、それこそが魅力であり、価値でもあります。今でもの規模を誇り、公式ディレクトリではに展開しています。つまり、他では一か所で手に入らない、地域密着型の在庫が大量にあるということです。
チームが何度も繰り返し使う用途は、主に次のとおりです。
- リード獲得: サービスやギグの投稿には、事業内容、地域、Craigslistの返信連絡経路が含まれることが多く、営業チームが地域別の見込み客リストを作るのに十分です。
- 不動産モニタリング: 住宅ページでは賃料、エリア、ベッド数/バス数、面積、投稿日時がわかるため、賃料比較や空室追跡に最適です。
- 競合価格調査: 売り出し物件では、タイトル、価格、状態、所在地が確認でき、再販や裁定取引の調査に役立ちます。
- 採用・労働市場の把握: Jobs と gigs カテゴリでは、報酬、雇用形態、職務内容が見えるため、地域の人材市場を把握できます。
- 複数地域の市場分析: Craigslistはサブドメインと都市ごとに分かれているので、地域ごとに価格、件数、カテゴリ構成を調べられます。
- ワークフロー自動化: 多くのユーザーは、Craigslistデータを手作業の閲覧なしでCSV、Google Sheets、Airtable、CRMへ流し込みたいだけです。
あるユーザーは、以前は毎日60〜90分かかっていたCraigslistスクレイピングが、自動化によって約5分まで短縮されたと報告しています。こうした時間削減は、積み重なると非常に大きいです。
最適なCraigslistスクレイパーの選び方:評価基準
Craigslistスクレイパーはどれも同じではなく、「最適」なツールは、使う人と目的によって大きく変わります。私は各ツールを次の6つの観点で評価しました。
- 導入のしやすさ — 初心者向けか(ノーコード)? それとも開発者が必要か?
- Craigslistのボット対策への対応 — プロキシ自動切替、CAPTCHA対応、ブラウザ指紋対策が組み込まれているか?
- 価格帯 — 無料、フリーミアム、有料、エンタープライズのどれか?
- データ出力先 — CSV、Excel、Google Sheets、Airtable、Notion、JSON、データベースなどに出せるか?
- 複数地域への対応 — 米国のCraigslist 416サイトを横断してスクレイピングできるか、それとも1都市ずつか?
- 保守負担 — Craigslistのレイアウト変更で壊れるか、自動で適応するか?
私が見つけた競合記事の中で、このように一貫した基準で横並び比較しているものはありませんでした。もし曖昧な「トップ10」リストにうんざりしているなら、この記事はそのためのものです。
10個のおすすめCraigslistスクレイパー一覧
各ツールの詳細に入る前に、まずは全体比較表です。ビジネスユーザー向けのノーコードツール、スケール重視のエンタープライズ基盤、開発者向けのオープンソースライブラリの3つに分けています。
| ツール | 種類 | 無料枠 | プロキシ / ボット対策 | CAPTCHA対応 | 出力形式 | 最適な用途 |
|---|---|---|---|---|---|---|
| Thunderbit | ノーコードのChrome拡張 | あり(月6ページ) | ブラウザモード(中程度の実行ならプロキシ不要) | 該当なし(ブラウザセッション) | Excel、Sheets、Airtable、Notion、CSV、JSON | 非技術系のビジネスユーザー |
| Bright Data | エンタープライズ向けスクレイパー + プロキシ + データセット | トライアル | 管理型のブロック解除、プロキシ、再試行、レンダリング | あり(自動解決) | JSON、NDJSON、CSV、Parquet、XLSX、API | エンタープライズ規模の収集 |
| Oxylabs | API + プロキシ基盤 | トライアル | 管理型のブロック解除、住宅回線/ISPプロキシ | あり | HTML、スクリーンショット、API出力 | エンタープライズ基盤を必要とする開発者 |
| Apify | クラウドのActorマーケットプレイス | あり($5/月分のクレジット) | プロキシ自動切替(Actor依存) | 部分的 / Actorごと | JSON、CSV、XML、Excel、JSONL | 柔軟なローコードのクラウド自動化 |
| ParseHub | ノーコードのビジュアルスクレイパー | あり | 有料のプロキシ自動切替、クラウド実行 | 主要機能ではない | CSV、JSON、API/S3/Dropbox(有料) | 予算重視のノーコードユーザー |
| Phantombuster | クラウド自動化プラットフォーム | あり(制限付き) | プロキシ対応あり | クレジット / ワークフロー依存 | CSV、JSON(有料) | マルチプラットフォームの営業自動化 |
| Scrapy | オープンソースのPythonクローラー | 無料(OSS) | 自前のプロキシ / ミドルウェアを用意 | なし | JSON、JSONL、CSV、XML、DB | 本番環境向けクローラー |
| Playwright | オープンソースのブラウザ自動化 | 無料(OSS) | 自前のブラウザ / プロキシを用意 | なし | カスタム出力 | ブラウザレベルの制御 |
| Selenium | オープンソースのブラウザ自動化 | 無料(OSS) | 自前のブラウザ / プロキシを用意 | なし | カスタム出力 | 旧来のマルチ言語スタック |
| BeautifulSoup | オープンソースのHTMLパーサー | 無料(OSS) | 単体ではなし | なし | カスタム出力 | 軽量なパース処理 |
ここから3つの方向性がはっきり見えてきます。
- ノーコードツール(Thunderbit、ParseHub、Phantombuster)は、エンジニアの手を借りずにデータを取りたいビジネスユーザー向け。
- エンタープライズ向け基盤(Bright Data、Oxylabs、Apify)は、スケール、ボット対策、管理された配信が必要なチーム向け。
- オープンソースの開発者向けツール(Scrapy、Playwright、Selenium、BeautifulSoup)は、最大限の自由度を得られる一方で、導入・保守・プロキシ管理の手間がかかります。
では、詳しく見ていきましょう。
1. Thunderbit
は、Craigslistを含むあらゆるサイトから構造化データを取得したい人向けに作られた、AI搭載のChrome拡張です。コードもプロキシ設定も不要です。
少しひいき目はありますが(私たちが作っています)、Thunderbitを最初に挙げる理由は、Craigslistのスクレイピングで非技術ユーザーがつまずきやすいポイント――カテゴリごとに異なるページ構成、詳細ページの情報追加取得、CSSセレクタ変更による突然の動作不良――をまとめて解決してくれるからです。
Craigslistでの使い方:
- をインストールし、Craigslistの一覧ページを開きます(たとえば、自分の街のアパート一覧)。
- **「AIで項目を提案」**をクリックします。ThunderbitのAIがページを読み取り、実際の内容に合わせた列を提案します。住宅ならタイトル、価格、面積、ベッド数、所在地、投稿日、リンク。求人ならタイトル、報酬、職種などが出てきます。手動でセレクタを設定する必要はありません。
- **「スクレイピング」**をクリックすると、データが構造化テーブルに入っていきます。
- ページ送りも処理します。ThunderbitはCraigslistのクリック式ページネーションに対応しています。
- **「サブページをスクレイピング」**を使って各一覧ページを開き、詳細ページだけにある項目――本文、画像、埋め込み連絡先情報など――を取得します。
- Google Sheets、Excel、Airtable、Notion、CSVへエクスポートできます。
主な機能:
- AIによる項目自動検出: Craigslistのカテゴリ差に自動対応します。住宅なら面積/ベッド数、求人なら報酬/職種、売り出し物件なら状態/価格の列を生成。CSS作業は不要です。
- サブページスクレイピング: 検索結果ページを取得したあと、各一覧ページを開いて詳細ページの項目(本文、画像、連絡先)を追加取得できます。
- ブラウザベースのスクレイピングモード: 自分のChromeセッション内で動作するため、中程度の件数ならプロキシは不要です。これだけでコストと複雑さを大幅に削減できます。
- 保守ほぼ不要: AIが毎回ページを新しく読み取ります。Craigslistのレイアウトが変わっても、スクレイパーが壊れません。
- 無料出力: Excel、Google Sheets、Airtable、Notion、CSV、JSONへ、追加料金なしで出力できます。
価格: 無料枠(月6ページ)、無料トライアル(10ページ)、高容量向けの。
最適な用途: Craigslistのサービス/ギグからリードを取る営業チーム、賃貸価格を監視する不動産チーム、開発者の支援なしでCraigslistデータを構造化したいオペレーションチーム、そしてデータ取得・ラベル付け・出力を一度に済ませたい人。
2. Bright Data
は、企業向けの重量級オプションです。この一覧で、専用の製品ページとマーケットプレイスの両方を持つのはここだけです。
米国内の全地域にまたがって、毎日何千件ものCraigslist一覧をスクレイピングする必要があるなら、Bright Dataはその規模を前提に設計されています。がIP、再試行、レンダリング、ブロック処理を担い、します。Web Scraper IDEではCraigslist収集ワークフローを自由に組み立てられ、416の地域URLをプログラムで順に回すこともできます。
主な機能:
- 大規模な住宅回線プロキシネットワーク(数百万IP)
- CAPTCHA自動解決とボット対策回避を内蔵
- Craigslist専用のスクレイパーとデータセット製品
- 出力: JSON、NDJSON、CSV、Parquet、XLSX、API配信、webhook
価格: Craigslistスクレイパーはの従量課金で、たとえば38万ページ読み込み499ドルのプランがあります。住宅回線プロキシはからの従量課金です。1週間の1,000リクエスト無料トライアルがあります。
最適な用途: 高い稼働率と専任サポートが必要な、企業規模での大量・複数地域のCraigslist収集。予算重視の小規模チームには向きません。
3. Oxylabs
は、高品質なプロキシとスクレイピング基盤を提供する企業で、専用のとがあります。
Oxylabsは、Bright Dataのオールインワン方式よりも開発者寄りです。Web Scraper APIとは、JSレンダリング、再試行、セッション管理、指紋生成、より広範なボット対策に対応しています。Craigslist Scraper APIの無料トライアルではまで試せます。
主な機能:
- 住宅回線とISPのプロキシプール(住宅回線はから、ISPはから)
- 自動指紋生成とセッション管理付きのWeb Unblocker
- Craigslist専用APIエンドポイント
- 7日間の無料トライアルあり
価格: 「その他サイト」向けのスクレイパーAPIは、から。Web Unblockerのマイクロプランは約からです。大規模な住宅回線プロキシは、1TB時で1GBあたり0.50ドル程度になることがあります。
最適な用途: 管理されたプロキシ基盤とAPIベースのワークフローで、Craigslistの継続的なスクレイピングをしたい開発チーム。すでに別案件でOxylabsのプロキシを使っているなら、Craigslistの追加は簡単です。
4. Apify
は、クラウド型のWebスクレイピング/自動化プラットフォームで、あらかじめ用意された「Actors」――コードを書かずに実行できるスクレイパーテンプレート――のマーケットプレイスがあります。
Apify上のCraigslist事情は興味深く、コミュニティが保守するCraigslist Actorが複数あり、品質にはかなり差があります。ivanvs/craigslist-scraper Actorは総ユーザー829人で評価5.0、automation-lab/craigslist-scraperはユーザー44人で評価1.0です。品質にばらつきがあるので、導入前のテストは必須です。
主な機能:
- 複数のCraigslist Actorが利用可能(を、組み込みの遅延付きで取得するものもあります)
- クラウド実行、定期実行、APIアクセス、webhook連携
- に対応
- 出力:
価格: があり、有料プランは月約49ドルから。使用量課金は、重い利用でCU消費が増えると高くなることがあります。CUの使用量に注意してください。
最適な用途: インフラを自分で管理せずにクラウドで完結したいチーム、ローコード設定に慣れているユーザー、定期的にCraigslistをスクレイピングしたいチーム。
5. ParseHub
は、ページ要素をクリックして取得対象を定義するデスクトップ型のビジュアルWebスクレイピングツールです。
ParseHubでCraigslistスクレイピングを設定するには、一覧タイトル、価格、リンクをクリックして、ツールに何を取得するか教えます。AJAXベースのページ送りをループで処理でき、有料プランではクラウド実行も可能です。無料枠では最大5プロジェクトまで使えるので、小規模なCraigslist用途には十分です。
主な機能:
- ビジュアルなポイント&クリック式のワークフロー作成
- ページ送りと動的コンテンツへの対応
- 有料プランでクラウド実行とスケジューリング
- 出力: CSV、Excel、JSON
価格: 無料枠(5プロジェクト)、より多くのページ数と定期実行が必要な場合は月約189ドルからの有料プラン。
制限: 大規模スクレイピングでは遅くなることがあり、無料枠では定期実行が限られます。さらに重要なのは、CSSセレクタベースなので、Craigslistのレイアウト変更時には手動保守が必要なことです。
最適な用途: 中程度のスクレイピングをしたい個人または小規模チームで、ビジュアルなノーコードツールは欲しいが、AIによる項目自動検出までは必要ない人。
6. Phantombuster
は、もともとLinkedInやSNSスクレイピングで人気になったクラウド型自動化プラットフォームです。Craigslist専用のツールではありませんが、Web Element Extractorを使えばCSSセレクタで公開ページを取得できます。
PhantombusterでCraigslistスクレイピングを設定するのは、専用ツールより手間がかかります。セレクタの指定、ワークフローの作成、スケジューリング設定が必要です。ただし、すでにLinkedInやSNSのリード獲得でPhantombusterを使っているなら、Craigslistをパイプラインに追加するのは簡単です。
主な機能:
- 事前構築済みの自動化テンプレートとクラウド実行
- スケジューリングとCRM連携
- プロキシ対応とCAPTCHA解決用クレジットあり
- 出力: 有料プランでCSV、JSON(無料枠は10行まで)
価格: 無料枠は5スロット、月2時間、10行の出力上限付き。年額課金の有料プランは、年払い換算で月約56ドルから。
最適な用途: 複数プラットフォームでのリード獲得にすでにPhantombusterを使っていて、Craigslistもワークフローに加えたい営業チーム。
7. Scrapy
は、最も人気のあるオープンソースのPython Webスクレイピングフレームワークで、Craigslistのクロールを最大限に制御したい開発チームにとっては自然な選択です。
最新の安定版はです。Scrapyは、複数地域のクロール(全地域URLを順に処理)、組み込みのリクエストスケジューリングとスロットリング、プロキシ切替用の、CSV、JSON、JSONL、XML、データベースパイプラインへのをサポートしています。必要に応じて scrapy-playwright プラグインでブラウザレンダリングも追加できます。
主な機能:
- 非常に柔軟で、本番運用向けのクローラー
- プロキシ、再試行、Cookie、User-Agent切替のためのミドルウェア
- フィード出力: JSON、JSONL、CSV、XML、データベースパイプライン
- 無料かつオープンソース
見えにくいコスト: Scrapy自体は無料ですが、Craigslistで大規模運用するには、プロキシ契約(月50〜500ドル超)、ホスティング/サーバー費用、CraigslistのHTML構造変更時の継続保守が必要です。
最適な用途: Python経験のある開発チームで、最大限の柔軟性、既存のプロキシ基盤、大量の複数地域Craigslistクロールが必要な場合。
8. Playwright
は、Microsoftが提供するモダンなブラウザ自動化ライブラリで、Chromium、Firefox、WebKitをプログラムで操作できます。現在も活発にリリースされており、されました。
Playwrightは、Craigslistスクレイピングにおいて、開発者コミュニティでSeleniumより推奨されることが増えています。高速で信頼性が高く、playwright-extraのようなコミュニティプラグインを使えば、検知回避のしやすさも優れています。ヘッドレス/ヘッド付きモード、要素の自動待機、ネットワークインターセプト、スクリーンショット/PDF取得に対応しています。
主な機能:
- をサポート
- ヘッドレス/ヘッド付きブラウザモード
- 要素の自動待機、ネットワークインターセプト
- 無料かつオープンソース
Craigslistでの強み: Playwrightは、単純なHTTPリクエストよりも本物のユーザー操作を自然に模倣できます。そのため、ブロックされるリスクを下げられます。Redditでは、新規プロジェクトならSeleniumよりPlaywrightを推す声が一貫して多いです。
見えにくいコスト: Scrapyと同じく、プロキシ費用、ホスティング、セレクタが壊れたときの保守が必要です。
最適な用途: 細かいブラウザ制御が必要な開発者、JavaScriptで描画されるコンテンツを扱うスクレイパーを作るチーム、Seleniumの代替としてモダンな選択肢を求める人。
9. Selenium
は、長年使われてきた広く普及したブラウザ自動化フレームワークです。最新リリースはで、も引き続き拡張されています。
Seleniumは複数言語(Python、Java、C#、JavaScript)と主要ブラウザすべてに対応しています。完全なブラウザセッションを再現でき、必要ならログインも処理でき、ページスクロールも可能です。ただしPlaywrightと比べると、遅く、冗長で、undetected-chromedriverのような追加の秘匿ライブラリがないとボットとして検知されやすいです。
主な機能:
- マルチ言語対応(Python、Java、C#、JavaScript)
- 完全なブラウザセッションの再現
- 豊富なドキュメントを持つ成熟したエコシステム
- 無料かつオープンソース
制限: 2026年のコミュニティでは、新規プロジェクトならPlaywrightを選ぶ傾向が強いです。あるRedditスレッドでは、CloudflareがSeleniumを「住宅回線プロキシを使っていても」検知していたという報告があり、標準状態での秘匿性は高くありません。
最適な用途: すでにSeleniumに投資していて移行したくない開発チーム、複数言語対応(Java、C#)が必要なプロジェクト、旧来のスクレイピング環境。
10. BeautifulSoup
は、HTMLとXMLを解析する軽量なPythonライブラリです。現在のPyPI版はです。
重要な点として、BeautifulSoupはパーサーであって、完全なスクレイパーではありません。Webページを取得したり、ブラウザ自動化を処理したりはしません。HTTP取得にはrequestsライブラリと組み合わせ、受け取ったHTMLを解析します。つまり、開発者にとって最も手軽な入口ではありますが、機能面では最も限定的です。
主な機能:
- とても学びやすく、最小限のコードで済む
- 小規模・単発のCraigslistスクレイピングに最適
- 無料かつオープンソース
制限: ページ送りの自動処理、JavaScriptレンダリング、プロキシ自動切替はありません。すべて手動で追加する必要があります。CraigslistのHTML構造が変わるとセレクタが壊れ、自分で修正することになります。
最適な用途: 最小限の準備でCraigslistスクレイピングを試したいPython初心者、1カテゴリまたは1地域からの単発データ取得、軽量なパーサーだけが必要な開発者。
CraigslistのBAN回避実践ガイド:プロキシ、レート制限、ブロックされる原因
これは多くのCraigslistスクレイピング記事が飛ばしている、そして最も重要なセクションです。では、CraigslistはカスタムCAPTCHA、レート制限、IPブロックがあるため、難易度3/5と評価されています。では、通常のHTTPではなくWeb UnlockerかPlaywrightベースのScraping Browserの使用が推奨されています。でも、Craigslistはプロキシを検知でき、住宅回線プロキシが最適だと説明されています。
実際にうまくいく方法は次のとおりです。
| 戦略 | Craigslistでの有効性 | コスト | 複雑さ |
|---|---|---|---|
| 住宅回線プロキシ | ✅ 高い | $$(1GBあたり4〜6ドル) | 中程度 |
| ISPプロキシ | ✅ 高い | $(1IPあたり0.60〜0.80ドル) | 中程度 |
| データセンタープロキシ | ⚠️ 低い(よくブロックされる) | $(1IPあたり0.20〜0.40ドル) | 低い |
| ブラウザベースのスクレイピング(自分のセッション) | ✅ 中〜高 | 無料 | 低い |
| レート制限 + ランダム遅延 | ✅ 必須の基本対策 | 無料 | 低い |
すぐ使える対策:
- リクエスト間隔: 最低でも2〜5秒空けてください。Scraperlyは、IPごとに1分あたり5〜10リクエスト程度に抑え、20〜30リクエストごとに切り替えることを推奨しています。
- セッションの切り替え: User-Agentとブラウザ指紋をローテーションしてください。予測可能なクロールパターンはすぐ検知されます。
- データセンタープロキシは避ける: 安いですが、Craigslistではすぐブロックされます。
- 中程度の件数なら、ブラウザベースのスクレイピングでプロキシ問題を丸ごと回避できます。 Thunderbitのブラウザモードは自分のChromeセッション内で動くため、プロキシ設定もIPローテーションも不要で、費用もかかりません。数百件程度のスクレイピングなら、ほとんどのビジネスユーザーにとって十分です。
さらに多くの人が見落とす保守面の話があります。CraigslistがCSSを変えると(実際、定期的に変わります)、CSSセレクタに依存するスクレイパーはすべて壊れます。ページを確認して新しいセレクタを見つけ、コードを更新し、再テストしなければなりません。ThunderbitのようなAI搭載ツールは、毎回ページ構造を新しく読み取るため、この問題を根本的に避けられます。レイアウト変更でワークフローが壊れません。
コード vs. ノーコード:Craigslistスクレイピングの完全ハンズオン2本立て
この記事の読者は、だいたい半々に分かれると思っています。つまり、データだけ欲しい非技術系のビジネスユーザーと、実際に動くコードが欲しい初級〜中級の開発者です。そこで、両方の道筋を並べて紹介します。
ノーコード:ThunderbitでCraigslistをスクレイピングする方法(手順付き)
- からThunderbit Chrome拡張機能をインストールします。
- Craigslistの一覧ページへ移動します。たとえば、自分の街のアパート一覧(
https://yourcity.craigslist.org/search/apa)。 - **「AIで項目を提案」**をクリックします。ThunderbitのAIがページを読み取り、カテゴリに合った列を提案します。住宅なら、タイトル、価格、面積、ベッド数、所在地、投稿日、リンクが表示されます。
- 必要なら提案された列を確認し、調整します。クリックだけで項目の追加・削除ができます。
- **「スクレイピング」**をクリックすると、データが構造化テーブルに入ります。
- ページ送りを処理します。ページを進めるか、Thunderbitに任せられます。
- **「サブページをスクレイピング」**を使って各一覧ページを開き、本文、画像、埋め込み連絡先情報などの詳細ページ項目を追加取得します。
- Google Sheets、Excel、Airtable、Notion、CSVへ無料で出力します。
この全工程は、1ページの結果なら約2分で終わります。CSSセレクタも、プロキシも、コードも不要です。
コードで行くなら:Python + PlaywrightでCraigslistをスクレイピングする方法
2026年時点で、開発者フォーラムではPlaywrightがCraigslistスクレイピングに最も推奨されています。以下は、Craigslistの住宅一覧ページをスクレイピングし、タイトル・価格・リンクを抽出し、ページ送りにも対応して結果を出力するPythonの動作例です。
考え方はこうです。まずJSON-LD構造化データを試し(一部ページではCraigslistがItemListスキーマを埋め込んでいます)、ダメならDOMセレクタにフォールバックします。ページ送りはs=120で行います。
1import asyncio, json
2from urllib.parse import urlparse, parse_qs, urlencode, urlunparse
3from playwright.async_api import async_playwright
4def next_page_url(url, step=120):
5 p = urlparse(url)
6 qs = parse_qs(p.query)
7 offset = int(qs.get("s", ["0"])[0]) + step
8 qs["s"] = [str(offset)]
9 return urlunparse((p.scheme, p.netloc, p.path, "", urlencode(qs, doseq=True), ""))
10async def scrape_page(page, url):
11 await page.goto(url, wait_until="domcontentloaded")
12 await page.wait_for_timeout(1500)
13 data = []
14 # まずJSON-LDを試す
15 for raw in await page.locator('script[type="application/ld+json"]').all_text_contents():
16 try:
17 obj = json.loads(raw)
18 except Exception:
19 continue
20 if isinstance(obj, dict) and obj.get("@type") == "ItemList":
21 for item in obj.get("itemListElement", []):
22 thing = item.get("item", {})
23 data.append({
24 "title": thing.get("name"),
25 "price": thing.get("offers", {}).get("price"),
26 "link": thing.get("url"),
27 })
28 if data:
29 return data
30 # フォールバック: DOMセレクタ
31 cards = page.locator("div.cl-search-result, li.cl-static-search-result")
32 count = await cards.count()
33 for i in range(count):
34 card = cards.nth(i)
35 title = await card.locator("a.posting-title, a.titlestring").first.text_content()
36 link = await card.locator("a.posting-title, a.titlestring").first.get_attribute("href")
37 price = (await card.locator(".price, .result-price").first.text_content()
38 if await card.locator(".price, .result-price").count() else None)
39 data.append({"title": (title or "").strip(), "price": (price or "").strip(), "link": link})
40 return data
41async def main():
42 start_url = "https://newyork.craigslist.org/search/apa?query=studio"
43 async with async_playwright() as p:
44 browser = await p.chromium.launch(headless=True)
45 page = await browser.new_page()
46 url = start_url
47 all_rows = []
48 for _ in range(3): # 3ページ取得
49 rows = await scrape_page(page, url)
50 if not rows:
51 break
52 all_rows.extend(rows)
53 url = next_page_url(url)
54 await browser.close()
55 for row in all_rows[:10]:
56 print(row)
57asyncio.run(main())
このスクリプトに加えて必要なもの: Playwrightのインストール(pip install playwright && playwright install)、大量実行時のプロキシ設定、レート制限に当たったときの手動CAPTCHA対応です。そこがトレードオフです。完全な制御の代わりに、完全な責任を負うことになります。
無料 vs. 有料:Craigslistスクレイパーの正直なコスト比較
これは、私がこのテーマを調べ始めたときにあればよかったと思う表です。Webスクレイピングでは「無料」という言葉には注意が必要です。
| ツール | 完全無料? | 無料枠の制限 | 有料の開始価格 | 隠れたコスト |
|---|---|---|---|---|
| Thunderbit | 無料枠あり(6ページ) | 月6ページ、無料トライアルは10ページ | 高容量向けの有料プラン | なし—出力は無料 |
| Scrapy | ✅ オープンソース | 無制限 | $0 | プロキシ費用、ホスティング、保守 |
| BeautifulSoup | ✅ オープンソース | 無制限 | $0 | プロキシ費用、ホスティング、保守 |
| Playwright | ✅ オープンソース | 無制限 | $0 | プロキシ費用、ホスティング、保守 |
| Selenium | ✅ オープンソース | 無制限 | $0 | プロキシ費用、ホスティング、保守 |
| ParseHub | 無料枠あり | 5プロジェクト | 月約189ドル〜 | 無料枠では定期実行が制限 |
| Apify | 無料枠あり | 月5ドル分のクレジット無料 | 月約49ドル〜 | 使用量課金が跳ね上がることあり |
| Phantombuster | 無料枠あり | 5スロット、月2時間、10行の出力 | 年払い換算で月約56ドル〜 | スロットごとの課金 |
| Bright Data | トライアルのみ | 1週間で1,000リクエスト | 月500ドル超〜 | プロキシ費用は別途 |
| Oxylabs | トライアルのみ | 2,000件の結果 / 1GB | 月75ドル超〜(Unblocker) | エンタープライズ価格 |
オープンソースの「無料」ツールには大きな注釈があります。Scrapy、Playwright、Selenium、BeautifulSoupはインストール費用こそ0円ですが、Craigslistで大規模に回すには、導入に何時間もの開発時間、住宅回線プロキシに月50〜500ドル超、そしてCraigslistがHTMLを変えるたびの継続保守が必要です。Thunderbitは毎回ページを新しく読み取り(保守ほぼ不要)、出力は無料で、中程度の件数ならブラウザベースのスクレイピングでプロキシ費用もかかりません。非開発者にとっては、これは本当に大きな利点です。
実際に抽出できるもの:カテゴリ別Craigslistデータ項目
Craigslistのカテゴリごとに、データ構造はまったく異なります。住宅の一覧と求人投稿は、見た目も中身も別物です。主要カテゴリごとに、現実的に何が取れるのかを示します。
| Craigslistカテゴリ | 抽出できる項目 | 連絡先情報は取得可能? |
|---|---|---|
| 住宅 / アパート | タイトル、価格、面積、ベッド数、バス数、所在地、日付、画像、本文、地図リンク、空室状況、ペット規定、洗濯/駐車場 | ⚠️ 場合による(匿名メール転送) |
| 売り物件 | タイトル、価格、状態、所在地、日付、画像、本文、メーカー/モデル/年式(変動あり) | ⚠️ 場合による |
| 求人 | タイトル、会社名、報酬、所在地、職種、経験レベル、日付、本文 | まれ(応募リンクのみ) |
| サービス | タイトル、所在地、本文、画像 | ⚠️ 場合による |
| ギグ | タイトル、報酬、所在地、日付、本文 | ⚠️ 場合による |
重要な注意点をいくつか挙げます。
- 連絡先情報: Craigslistは、直接のメール取得を防ぐために匿名化されたメール転送を使っています。「メール抽出」とうたうツールの多くは、投稿者の本当のメールではなく、転送用アドレス(
reply+randomstring@craigslist.org)を取っているだけです。 - 詳細ページの項目――本文、全画像、埋め込み連絡先情報など――は、検索結果ページにはなく、各個別投稿を開いて初めて現れます。
- **Thunderbitの「AIで項目を提案」**は、現在のページで取得可能な項目を自動検出し、適切な列構成を提案します。住宅をスクレイピングするユーザーには面積/ベッド数の列が、求人をスクレイピングするユーザーには報酬/職種の列が、手動設定なしで出ます。その後ので各一覧ページを開き、詳細ページだけの項目を取得します。
法的な現実確認:Craigslistの利用規約、3Taps事件、知っておくべきこと
私は弁護士ではなく、これは法的助言ではありません。ただ、ユーザーが気にする点であることは分かっているので、率直に答えておきます。
重要な先例: では、Craigslistが停止要求後に投稿をスクレイピングして再公開した3Tapsに対し、差し止め命令を得ました。3Tapsはプロキシサーバーを使ってIPブロックを回避したとされ、裁判所はブロック後のアクセスを「権限なし」とみなす可能性があると判断しました。この件が2015年に和解したと伝えています。
Craigslistの利用規約では、サイトとのやり取りに「robots、spiders、scripts、scrapers、crawlers、またはそれに相当する手段」を使うことを明確にしています。さらに、24時間で最初の1,000ページ閲覧を超える違反については、1ページあたり0.25ドルの違約金まで定めています。
実務上の指針:
- ✅ 市場調査や個人利用のために公開一覧データをスクレイピングする
- ✅ robots.txt とレート制限を尊重する
- ⚠️ スクレイピングした一覧を大量再公開しない
- ⚠️ 取得した連絡先情報を無差別営業に使わない
- ❌ ブロックされた後に技術的制限を回避しない
ここで大事なのは、公開されているデータを自分の分析のためにスクレイピングすることと、再公開やスパム目的のメール収集は別物だという点です。ただし、Craigslistがこれまで、利用規約の執行からIPブロック、法的措置へと段階的にエスカレートしてきた事実は覚えておくべきです。
どのCraigslistスクレイパーがあなたに最適か?
10個すべてを試して評価したうえで、シナリオ別におすすめをまとめるとこうなります。
- すぐにCraigslistデータが欲しい非技術系ビジネスユーザー → Thunderbit。ノーコード、AIによる項目検出、保守不要、無料出力。"このデータが欲しい" から "スプレッドシートに入っている" までが最短です。
- 全地域で毎日何千件もスクレイピングするエンタープライズチーム → Bright Data。Craigslist専用スクレイパー、大規模プロキシ基盤、CAPTCHA自動解決、専任サポート。
- 管理型API/プロキシ基盤が必要な開発チーム → プロキシ重視のワークフローなら Oxylabs、Actorマーケットプレイスの柔軟性なら Apify。
- 完全な制御とカスタマイズが欲しい開発者 → Scrapy + Playwright。オープンソースで自由度は最大ですが、プロキシと保守は自前です。
- 予算重視で中程度のニーズのユーザー → Apifyの無料枠(月5ドル分のクレジット)か、ParseHubの無料枠(5プロジェクト)。
- すでに複数プラットフォームのリード獲得ツールを使っている営業チーム → Phantombuster。既存のパイプラインにCraigslistを追加できます。
- Python初心者の単発スクレイピング → BeautifulSoup + requests。最小限のコード、最小限の準備、最小限の機能。
多くの非技術系ビジネスユーザーにとっては、Thunderbitが使いやすさ、精度、コストのバランスで最適です。開発者にとっては、Scrapy + Playwrightが最も強力な組み合わせです。エンタープライズ規模なら、Bright Dataは非常に強力です。
AIを使ったCraigslistスクレイピングが実際にどう動くか見たいなら、。無料枠だけでも、自分の用途で十分に試せます。Webスクレイピング技術をさらに深掘りしたいなら、、、もご覧ください。では、手順付きの動画解説も公開しています。
快適なスクレイピングを。あなたのデータが常にクリーンで、構造化され、すぐ使える状態でありますように。
FAQ
Craigslistの一覧をスクレイピングするのは合法ですか?
Craigslistの利用規約は自動スクレイピングを明確に禁止しており、が代表的な法的先例です。公開一覧データを個人利用や分析目的でスクレイピングすることは、大量再公開やスパムとは一般に別扱いですが、レート制限やサイト規則は必ず守るべきです。これは法的助言ではありません。
コードなしでCraigslistをスクレイピングできますか?
はい。、ParseHub、Apifyのようなツールなら、Craigslistデータをノーコードまたはローコードで抽出できます。特にThunderbitはAIによる項目検出が簡単で、**「AIで項目を提案」して「スクレイピング」**を押すだけです。
無料で使える一番いいCraigslistスクレイパーは?
開発者なら、やが完全無料のオープンソースです(ただしプロキシと保守の費用はかかります)。ノーコードなら、Thunderbitの無料枠(月6ページ)が最有力で、ParseHubの無料枠(5プロジェクト)も選択肢です。
Craigslistでブロックされないようにするには?
レート制限(最低2〜5秒の遅延)を使い、User-Agentを切り替え、データセンタープロキシは避けてください(Craigslistでは住宅回線またはISPプロキシの方がずっと効果的です)。予測可能なクロールパターンも避けましょう。中程度の件数なら、Thunderbitのようなブラウザベースのツールを使うことで、あなたのChromeセッション内で動作し、プロキシ問題を丸ごと回避できます。
Craigslistの全地域を一度にスクレイピングできますか?
ScrapyやPlaywrightのような開発者向けツールなら、をプログラムで順に回せます。やのようなエンタープライズツールは、複数地域スクレイピングを標準搭載しています。Thunderbitなら、各地域サイトを開いて同じワークフローでスクレイピングでき、AIが各ページに自動で適応します。
詳しく見る