リンク切れ。孤立ページ。なぜかGoogleにインデックスされちゃった2019年の「test」ページ。サイト運用してると、こういう“あるある”に毎回うんざりしますよね。
ちゃんとしたクローラーがあれば、そういう問題をまとめて炙り出して、サイト全体をクロールしながら構造まで見える化してくれます。つまり「直すべき場所」が一気に見えてくるってこと。ただ、ここでよくあるのが「ウェブクローラー」と「ウェブスクレイパー」をごっちゃにしちゃうケース。でもこの2つ、似てるようで役割は別物です。
今回は、実在サイトを使って無料クローラーを10個ガチでテストしました。SEO監査に強いタイプもあれば、データ抽出寄りのタイプもあります。実際に触ってみて「良かった点」と「微妙だった点」を、忖度なしでまとめます。
ウェブサイトクローラーとは?基本を押さえる
まず誤解をほどきます。ウェブサイトクローラーはウェブスクレイパーとイコールじゃありません。言葉が混ざって使われがちだけど、やってることは根っこから違います。クローラーはサイトの“地図係”。リンクをたどってサイトの隅々まで巡回し、全ページの一覧と構造を組み立てます。目的は**発見(Discovery)**で、URL収集、サイト構造の把握、コンテンツのインデックス化などが中心。Googleのクローラーボットがやってることや、SEOツールがサイトの健康診断をするために回す処理がまさにこれです()。
一方のウェブスクレイパーは“採掘係”。サイト全体の地図にはそこまで興味がなくて、欲しいデータだけを抜き出します。商品価格、会社名、レビュー、メールアドレスなど、必要な項目をページから抽出するのが仕事。スクレイパーは、クローラーが見つけたページから特定フィールドを取り出す、という関係になります()。
たとえ話で整理すると:
- クローラー: スーパーの全通路を歩き回って、棚にある商品の全体リストを作る人
- スクレイパー: コーヒー売り場に直行して、有機ブレンドの値段だけメモる人
ここが大事なのは、目的によって選ぶべきツールが変わるから。SEO監査で「サイト内の全ページを把握したい」ならクローラーが必要。競合サイトの商品価格を一覧化したいならスクレイパーが必要。理想を言えば、その両方をうまく回せるツールが一番ラクです。
オンラインのウェブクローラーを使う理由:ビジネス上のメリット
じゃあ、なぜクローラーを使うべきなのか。Webって縮むどころか、増える一方です。実際、してサイト最適化を回していて、SEOツールの中には1日あたりをクロールするものまであります。
クローラーでできることは、たとえばこんな感じ。
- SEO監査: リンク切れ、タイトル欠落、重複コンテンツ、孤立ページなどを検出()
- リンクチェック/QA: 404やリダイレクトループをユーザーより先に発見()
- サイトマップ生成: XMLサイトマップを自動作成し、検索エンジン提出や設計に活用()
- コンテンツ棚卸し: 全ページの一覧、階層、メタ情報を整理
- コンプライアンス/アクセシビリティ: WCAG、SEO、法務観点のチェック()
- パフォーマンス/セキュリティ: 表示が遅いページ、重い画像、セキュリリティ上の懸念を検知()
- AI/分析用データ作成: クロール結果を分析基盤やAIツールへ投入()
用途と担当者の対応表は以下の通りです。
| Use Case | Ideal For | Benefit / Outcome |
|---|---|---|
| SEO & Site Auditing | マーケティング、SEO担当、中小企業オーナー | 技術的な問題を発見し、構造を最適化して順位改善につなげる |
| Content Inventory & QA | コンテンツ管理者、Web管理者 | コンテンツ監査や移行の準備、リンク/画像の不備を検出 |
| Lead Generation (Scraping) | 営業、事業開発 | 見込み客開拓を自動化し、CRMに最新リードを補充 |
| Competitive Intelligence | EC運営、プロダクトマネージャー | 競合の価格、新商品、在庫変動をモニタリング |
| Sitemap & Structure Cloning | 開発者、DevOps、コンサル | リニューアルやバックアップ向けに構造を複製 |
| Content Aggregation | 研究者、メディア、アナリスト | 複数サイトからデータを集め、分析やトレンド把握に活用 |
| Market Research | アナリスト、AI学習チーム | 分析やAIモデル学習向けに大規模データセットを収集 |
()
無料ウェブサイトクローラーツールの選定基準
深夜にコーヒー片手で、ツールを掘って、ドキュメント読み込んで、テストクロール回して比較しました。見たポイントはここ。
- 技術面の対応力: JavaScript、ログイン、動的コンテンツなど“今どきのサイト”に対応できるか
- 使いやすさ: 非エンジニアでも触れるか、コマンドライン前提か
- 無料枠の実態: 本当に無料で使えるのか、実質トライアル止まりか
- 利用形態: クラウド/デスクトップ/ライブラリのどれか
- 独自性: AI抽出、ビジュアルサイトマップ、イベント駆動クロールなど、尖った強みがあるか
各ツールを実際に触りつつ、ユーザー評価もチェックして、機能を横並びで比較しました。使っていて「これはキツい」と感じたものは候補から外しています。
早見表:無料ウェブサイトクローラー10選
| Tool & Type | Core Features | Best Use Case | Technical Needs | Free Plan Details |
|---|---|---|---|---|
| BrightData(クラウド/API) | エンタープライズ向けクロール、プロキシ、JSレンダリング、CAPTCHA突破 | 大規模データ収集 | ある程度の技術力があると安心 | 無料トライアル:スクレイパー3本、各100レコード(合計約300) |
| Crawlbase(クラウド/API) | APIクロール、アンチボット対策、プロキシ、JSレンダリング | バックエンドにクロール基盤が欲しい開発者 | API連携が必要 | 無料:7日間で約5,000 APIコール、その後は月1,000 |
| ScraperAPI(クラウド/API) | プロキシ自動ローテ、JSレンダリング、非同期クロール、用途別エンドポイント | 開発者、価格監視、SEOデータ取得 | 最小限のセットアップ | 無料:7日間で5,000 APIコール、その後は月1,000 |
| Diffbot Crawlbot(クラウド) | AIクロール+抽出、ナレッジグラフ、JSレンダリング | 構造化データを大規模に取得、AI/ML用途 | API連携が必要 | 無料:月10,000クレジット(約1万ページ相当) |
| Screaming Frog(デスクトップ) | SEO監査、リンク/メタ分析、サイトマップ、カスタム抽出 | SEO監査、サイト運用 | デスクトップアプリ(GUI) | 無料:1回のクロールで500 URLまで(基本機能中心) |
| SiteOne Crawler(デスクトップ) | SEO、性能、アクセシビリティ、セキュリティ、オフライン出力、Markdown | 開発、QA、移行、ドキュメント化 | デスクトップ/CLI(GUIあり) | 無料&オープンソース、GUIレポートは既定で1,000 URL(変更可) |
| Crawljax(Java/OSS) | イベント駆動でJSサイトをクロール、静的出力 | 動的WebアプリのQA、開発者向け | Java、CLI/設定 | 無料&オープンソース、制限なし |
| Apache Nutch(Java/OSS) | 分散クロール、プラグイン、Hadoop連携、独自検索 | 独自検索エンジン、大規模クロール | Java、コマンドライン | 無料&オープンソース(インフラ費用のみ) |
| YaCy(Java/OSS) | P2Pクロール&検索、プライバシー重視、Web/社内検索 | プライベート検索、分散型 | Java、ブラウザUI | 無料&オープンソース、制限なし |
| PowerMapper(デスクトップ/SaaS) | ビジュアルサイトマップ、アクセシビリティ、QA、ブラウザ互換 | 代理店、QA、構造の可視化 | GUIで簡単 | 無料トライアル:30日、デスクトップは100ページ/オンラインは1回10ページまで |
BrightData:エンタープライズ級のクラウド型ウェブサイトクローラー

BrightDataは、いわば“フル装備”のクロール基盤。巨大なプロキシネットワーク、JavaScriptレンダリング、CAPTCHA対応、カスタムクロール用IDEまで揃ったクラウドプラットフォームです。複数のECサイトを横断して価格監視する、みたいな大規模収集だとインフラの強さが目立ちます()。
強み:
- アンチボットが強いサイトにも通しやすい
- エンタープライズ規模までスケールできる
- よくあるサイト向けテンプレが用意されている
弱点:
- 恒久的な無料枠はなく、基本はトライアル(スクレイパー3本×各100レコード)
- シンプルな監査用途だとオーバースペックになりがち
- 非エンジニアには学習コストがそれなりにある
大規模クロールが目的なら、BrightDataはF1マシン級。ただし試乗が終わっても無料で乗り続けられるわけじゃないです()。
Crawlbase:開発者向けAPI型の無料ウェブクローラー

Crawlbase(旧ProxyCrawl)は、プログラムから叩いて使うタイプのクロールサービス。URLをAPIに渡すとHTMLを返してくれて、プロキシ、地域指定、CAPTCHA対応などは裏側でいい感じに処理してくれます()。
強み:
- 成功率が高い(99%+)
- JavaScript主体のサイトにも対応できる
- 自社アプリやワークフローに組み込みやすい
弱点:
- API/SDK連携が前提
- 無料枠:7日で約5,000コール、その後は月1,000
プロキシ運用なしでスケールさせたい開発者には、かなり堅実な選択肢です()。
ScraperAPI:動的ページのクロールを手軽に

ScraperAPIは「とにかく取ってきて」が通るAPI。URLを渡すだけで、プロキシ、ヘッドレスブラウザ、アンチボット対策を肩代わりしてHTML(サイトによっては構造化データ)を返してくれます。動的ページに強く、無料枠も比較的使いやすいのがポイント()。
強み:
- 開発者にとって導入がラク(APIコールだけ)
- CAPTCHA、IPブロック、JavaScriptに対応
- 無料:7日で5,000コール、その後は月1,000
弱点:
- 視覚的なクロールレポートはない
- リンク追跡などのクロール設計は自前実装が必要
コードベースにクロール機能を短時間で組み込みたいなら、かなり有力です。
Diffbot Crawlbot:サイト構造の発見を自動化

Diffbot Crawlbotは“賢い系”のツール。単に巡回するだけじゃなく、AIでページ種別を判定して、記事・商品・イベントなどをJSONの構造化データとして抽出します。読んで理解してくれるロボットインターンがいる、みたいな感覚()。
強み:
- クロール+AI抽出まで一体で回せる
- JavaScriptや動的コンテンツに対応
- 無料:月10,000クレジット(約1万ページ)
弱点:
- API連携が前提で開発者向け
- SEO監査の“見える化”というより、データ用途寄り
AI/分析向けに構造化データを大量に集めたいなら強力です。
Screaming Frog:無料で使えるデスクトップSEOクローラー

Screaming Frogは、SEO監査の定番デスクトップクローラー。無料版でも1回のスキャンで最大500 URLまでクロールできて、リンク切れ、メタタグ、重複、サイトマップなど必要情報が一通り揃います()。
強み:
- 高速で網羅的、SEO界隈で信頼が厚い
- コーディング不要(URL入れて実行するだけ)
- 無料で500 URLまで使える
弱点:
- デスクトップ専用(クラウド版なし)
- JSレンダリングやスケジュールなど高度機能は有料
SEOをちゃんとやるなら必携。ただ、1万ページ規模を無料で回すのは現実的に厳しいです。
SiteOne Crawler:静的エクスポートとドキュメント化に強い

SiteOne Crawlerは技術監査の万能選手。オープンソースでクロスプラットフォーム対応、クロールと監査に加えて、Markdownへ書き出してドキュメント化やオフライン閲覧にも使えます()。
強み:
- SEO/性能/アクセシビリティ/セキュリティまでカバー
- アーカイブや移行向けのエクスポートが便利
- 無料&オープンソースで利用制限が少ない
弱点:
- GUIツールの中ではやや技術寄り
- GUIレポートは既定で1,000 URLまで(設定で変更可)
開発者・QA・コンサルで、深掘りしたい人には“隠れた名ツール”です。
Crawljax:動的ページ向けのオープンソースJavaクローラー

Crawljaxは専門特化型。クリックやフォーム入力などのユーザー操作をシミュレーションして、JavaScript主体のWebアプリをイベント駆動でクロールします。動的サイトを静的に書き出すこともできます()。
強み:
- SPAやAJAX中心のサイトに強い
- オープンソースで拡張しやすい
- 利用制限なし
弱点:
- Java環境と設定/実装が必要
- 非エンジニア向けではない
ReactやAngularのアプリを“実ユーザーっぽく”クロールしたいなら有力です。
Apache Nutch:分散処理でスケールするサイトクローラー

Apache Nutchは、オープンソースクローラーの古参で本格派。分散クロール前提の設計で、独自検索エンジンを作る、数百万〜数千万ページをインデックスする、といった用途に向きます()。
強み:
- Hadoop連携で超大規模まで拡張できる
- 設定自由度が高く、プラグインで拡張可能
- 無料&オープンソース
弱点:
- 学習コストが高い(Java、コマンドライン、設定)
- 小規模サイトやライト用途には不向き
大規模クロールを自前で回したい人向けの“玄人ツール”です。
YaCy:P2P型のウェブクローラー&検索エンジン
YaCyは分散型のクローラー兼検索エンジンという、ちょっと珍しい存在。各ノードがクロールとインデックスを担当して、P2Pネットワークに参加すればインデックスを共有できます()。
強み:
- 中央サーバー不要でプライバシー志向
- 社内検索やプライベート検索の構築に向く
- 無料&オープンソース
弱点:
- 検索品質はネットワークのカバー範囲に左右される
- Java環境など初期セットアップが必要
分散型が好きな人、独自検索を作りたい人には刺さる選択肢です。
PowerMapper:UX/QA向けのビジュアルサイトマップ生成

PowerMapperはサイト構造の“見える化”が得意。クロールしてインタラクティブなサイトマップを生成し、アクセシビリティ、ブラウザ互換、SEOの基本チェックもできます()。
強み:
- ビジュアルサイトマップが代理店やデザイナーに便利
- アクセシビリティ/準拠チェックができる
- GUIで簡単、技術スキル不要
弱点:
- 無料はトライアルのみ(30日、デスクトップ100ページ/オンラインは1回10ページ)
- 製品版は有料
クライアントに構造を提示したい、準拠チェックをしたいときに役立ちます。
目的別:自分に合う無料ウェブクローラーの選び方
選択肢が多いほど迷いますよね。用途別にざっくり分けるとこんな感じです。
- SEO監査向け: Screaming Frog(小規模サイト)、PowerMapper(ビジュアル重視)、SiteOne(深い監査)
- 動的Webアプリ向け: Crawljax
- 大規模/独自検索向け: Apache Nutch、YaCy
- APIで組み込みたい開発者向け: Crawlbase、ScraperAPI、Diffbot
- ドキュメント化/アーカイブ: SiteOne Crawler
- エンタープライズ規模(トライアル前提): BrightData、Diffbot
選定時のチェックポイント:
- スケール: サイト規模やクロール対象はどれくらいか
- 操作性: コード前提か、クリック操作で完結したいか
- 出力形式: CSV/JSON、他ツール連携が必要か
- サポート: 詰まったときにコミュニティやドキュメントがあるか
ウェブクロール×ウェブスクレイピング:Thunderbitが賢い理由
現実的には、サイトをクロールする目的って「きれいな地図を作る」だけじゃないんですよね。多くの場合、最終的に欲しいのは構造化されたデータ。商品一覧、連絡先、コンテンツ棚卸しなど、“使える形”で手元に欲しい。そこで効いてくるのがです。
Thunderbitはクローラー/スクレイパーのどっちか片方じゃなく、両方をまとめて扱えるAI搭載のChrome拡張。流れはこんな感じ。
- AIクローラー: クローラーみたいにサイトを探索
- ウォーターフォールクロール: Thunderbitのエンジンで取得できない場合(強いアンチボットなど)、自動で外部クロールサービスに切り替え。手動設定は不要
- AIによるデータ構造化: HTML取得後、AIが適切な列を提案し、名前・価格・メールなどをセレクタ不要で抽出
- サブページスクレイピング: 商品詳細ページなど、各サブページを自動巡回して表を拡充
- 整形&エクスポート: 要約・分類・翻訳なども行い、Excel/Google Sheets/Airtable/Notionへワンクリック出力
- ノーコード: ブラウザが使えればOK。コードもプロキシも不要

従来型クローラーよりThunderbitが向くケース:
- 目的がURL一覧じゃなく、すぐ使えるスプレッドシートである
- クロール→抽出→整形→出力までを一気通貫で自動化したい
- 時間と手間(そして精神力)を節約したい
できます。ビジネスユーザーが乗り換える理由、ぜひ一度体感してみてください。
まとめ:無料ウェブサイトクローラーを最大限活用する
ウェブサイトクローラーはここ数年でかなり進化しました。マーケターでも開発者でも、あるいは「サイトを健全に保ちたい」運用担当でも、無料(または無料で試せる)選択肢はちゃんと見つかるはず。BrightDataやDiffbotみたいなエンタープライズ級から、SiteOneやCrawljaxみたいなオープンソースの良ツール、PowerMapperみたいなビジュアル重視まで、選択肢は昔よりずっと幅広いです。
ただ、「欲しいデータを、使える表にして手元に置く」までを最短でやりたいなら、Thunderbitみたいな統合型アプローチが効きます。レポートより“成果物”が欲しいビジネスユーザー向けに作られているのがポイントです。
さっそく始めるなら、ツールを1つ選んでスキャンしてみてください。そして、クロール結果を2クリックで“使えるデータ”に変えたいなら、もチェックしてみてください。
さらに詳しい解説や実践ガイドはへ。
FAQ
ウェブサイトクローラーとウェブスクレイパーの違いは?
クローラーはサイト内のページを発見して全体像を作ります(目次を作るイメージ)。スクレイパーは、価格・メール・レビューなど特定の項目をページから抜き出します。クローラーが「見つける」、スクレイパーが「掘り出す」です()。
非エンジニアにおすすめの無料クローラーは?
小規模サイトのSEO監査ならScreaming Frogが扱いやすいです。構造を図で見せたいなら(トライアル期間中の)PowerMapperも便利。構造化データをノーコードで取りたいなら、Thunderbitが一番手軽です。
クローラーをブロックするサイトはありますか?
あります。robots.txtや、CAPTCHA/IPブロックなどのアンチボット対策でクロールを制限するサイトもあります。ScraperAPI、Crawlbase、Thunderbit(ウォーターフォールクロール)などは回避できる場合もありますが、必ずルールを守り、責任あるクロールを行ってください()。
無料のウェブサイトクローラーにはページ数や機能の制限がありますか?
多くの場合あります。たとえばScreaming Frogの無料版は1回500 URLまで、PowerMapperのトライアルは100ページまで。API型は月間クレジット上限があるのが一般的です。SiteOneやCrawljaxみたいなオープンソースはハード制限が少ない一方、実行環境(PC性能)に左右されます。
ウェブクローラーの利用は合法で、プライバシー面も問題ありませんか?
一般に公開ページのクロール自体は合法とされることが多いですが、サイトの利用規約やrobots.txtは必ず確認してください。許可なくログインが必要な領域や非公開データをクロールしないこと、個人情報を扱う場合は関連法規に配慮することが重要です()。