実際に使って分かった無料サイトクローラー10選:本当に使えたのはこれ(2026年版)

最終更新日: March 31, 2026

リンク切れ。孤立ページ。なぜかGoogleにインデックスされちゃった2019年の「test」ページ。サイト運用してると、こういう“あるある”に毎回うんざりしますよね。

ちゃんとしたクローラーがあれば、そういう問題をまとめて炙り出して、サイト全体をクロールしながら構造まで見える化してくれます。つまり「直すべき場所」が一気に見えてくるってこと。ただ、ここでよくあるのが「ウェブクローラー」と「ウェブスクレイパー」をごっちゃにしちゃうケース。でもこの2つ、似てるようで役割は別物です。

今回は、実在サイトを使って無料クローラーを10個ガチでテストしました。SEO監査に強いタイプもあれば、データ抽出寄りのタイプもあります。実際に触ってみて「良かった点」と「微妙だった点」を、忖度なしでまとめます。

ウェブサイトクローラーとは?基本を押さえる

まず誤解をほどきます。ウェブサイトクローラーウェブスクレイパーとイコールじゃありません。言葉が混ざって使われがちだけど、やってることは根っこから違います。クローラーはサイトの“地図係”。リンクをたどってサイトの隅々まで巡回し、全ページの一覧と構造を組み立てます。目的は**発見(Discovery)**で、URL収集、サイト構造の把握、コンテンツのインデックス化などが中心。Googleのクローラーボットがやってることや、SEOツールがサイトの健康診断をするために回す処理がまさにこれです()。

一方のウェブスクレイパーは“採掘係”。サイト全体の地図にはそこまで興味がなくて、欲しいデータだけを抜き出します。商品価格、会社名、レビュー、メールアドレスなど、必要な項目をページから抽出するのが仕事。スクレイパーは、クローラーが見つけたページから特定フィールドを取り出す、という関係になります()。

たとえ話で整理すると:

  • クローラー: スーパーの全通路を歩き回って、棚にある商品の全体リストを作る人
  • スクレイパー: コーヒー売り場に直行して、有機ブレンドの値段だけメモる人

ここが大事なのは、目的によって選ぶべきツールが変わるから。SEO監査で「サイト内の全ページを把握したい」ならクローラーが必要。競合サイトの商品価格を一覧化したいならスクレイパーが必要。理想を言えば、その両方をうまく回せるツールが一番ラクです。

オンラインのウェブクローラーを使う理由:ビジネス上のメリット

じゃあ、なぜクローラーを使うべきなのか。Webって縮むどころか、増える一方です。実際、してサイト最適化を回していて、SEOツールの中には1日あたりをクロールするものまであります。

クローラーでできることは、たとえばこんな感じ。

  • SEO監査: リンク切れ、タイトル欠落、重複コンテンツ、孤立ページなどを検出(
  • リンクチェック/QA: 404やリダイレクトループをユーザーより先に発見(
  • サイトマップ生成: XMLサイトマップを自動作成し、検索エンジン提出や設計に活用(
  • コンテンツ棚卸し: 全ページの一覧、階層、メタ情報を整理
  • コンプライアンス/アクセシビリティ: WCAG、SEO、法務観点のチェック(
  • パフォーマンス/セキュリティ: 表示が遅いページ、重い画像、セキュリリティ上の懸念を検知(
  • AI/分析用データ作成: クロール結果を分析基盤やAIツールへ投入(

用途と担当者の対応表は以下の通りです。

Use CaseIdeal ForBenefit / Outcome
SEO & Site Auditingマーケティング、SEO担当、中小企業オーナー技術的な問題を発見し、構造を最適化して順位改善につなげる
Content Inventory & QAコンテンツ管理者、Web管理者コンテンツ監査や移行の準備、リンク/画像の不備を検出
Lead Generation (Scraping)営業、事業開発見込み客開拓を自動化し、CRMに最新リードを補充
Competitive IntelligenceEC運営、プロダクトマネージャー競合の価格、新商品、在庫変動をモニタリング
Sitemap & Structure Cloning開発者、DevOps、コンサルリニューアルやバックアップ向けに構造を複製
Content Aggregation研究者、メディア、アナリスト複数サイトからデータを集め、分析やトレンド把握に活用
Market Researchアナリスト、AI学習チーム分析やAIモデル学習向けに大規模データセットを収集

無料ウェブサイトクローラーツールの選定基準

深夜にコーヒー片手で、ツールを掘って、ドキュメント読み込んで、テストクロール回して比較しました。見たポイントはここ。

  • 技術面の対応力: JavaScript、ログイン、動的コンテンツなど“今どきのサイト”に対応できるか
  • 使いやすさ: 非エンジニアでも触れるか、コマンドライン前提か
  • 無料枠の実態: 本当に無料で使えるのか、実質トライアル止まりか
  • 利用形態: クラウド/デスクトップ/ライブラリのどれか
  • 独自性: AI抽出、ビジュアルサイトマップ、イベント駆動クロールなど、尖った強みがあるか

各ツールを実際に触りつつ、ユーザー評価もチェックして、機能を横並びで比較しました。使っていて「これはキツい」と感じたものは候補から外しています。

早見表:無料ウェブサイトクローラー10選

Tool & TypeCore FeaturesBest Use CaseTechnical NeedsFree Plan Details
BrightData(クラウド/API)エンタープライズ向けクロール、プロキシ、JSレンダリング、CAPTCHA突破大規模データ収集ある程度の技術力があると安心無料トライアル:スクレイパー3本、各100レコード(合計約300)
Crawlbase(クラウド/API)APIクロール、アンチボット対策、プロキシ、JSレンダリングバックエンドにクロール基盤が欲しい開発者API連携が必要無料:7日間で約5,000 APIコール、その後は月1,000
ScraperAPI(クラウド/API)プロキシ自動ローテ、JSレンダリング、非同期クロール、用途別エンドポイント開発者、価格監視、SEOデータ取得最小限のセットアップ無料:7日間で5,000 APIコール、その後は月1,000
Diffbot Crawlbot(クラウド)AIクロール+抽出、ナレッジグラフ、JSレンダリング構造化データを大規模に取得、AI/ML用途API連携が必要無料:月10,000クレジット(約1万ページ相当)
Screaming Frog(デスクトップ)SEO監査、リンク/メタ分析、サイトマップ、カスタム抽出SEO監査、サイト運用デスクトップアプリ(GUI)無料:1回のクロールで500 URLまで(基本機能中心)
SiteOne Crawler(デスクトップ)SEO、性能、アクセシビリティ、セキュリティ、オフライン出力、Markdown開発、QA、移行、ドキュメント化デスクトップ/CLI(GUIあり)無料&オープンソース、GUIレポートは既定で1,000 URL(変更可)
Crawljax(Java/OSS)イベント駆動でJSサイトをクロール、静的出力動的WebアプリのQA、開発者向けJava、CLI/設定無料&オープンソース、制限なし
Apache Nutch(Java/OSS)分散クロール、プラグイン、Hadoop連携、独自検索独自検索エンジン、大規模クロールJava、コマンドライン無料&オープンソース(インフラ費用のみ)
YaCy(Java/OSS)P2Pクロール&検索、プライバシー重視、Web/社内検索プライベート検索、分散型Java、ブラウザUI無料&オープンソース、制限なし
PowerMapper(デスクトップ/SaaS)ビジュアルサイトマップ、アクセシビリティ、QA、ブラウザ互換代理店、QA、構造の可視化GUIで簡単無料トライアル:30日、デスクトップは100ページ/オンラインは1回10ページまで

BrightData:エンタープライズ級のクラウド型ウェブサイトクローラー

1.png

BrightDataは、いわば“フル装備”のクロール基盤。巨大なプロキシネットワーク、JavaScriptレンダリング、CAPTCHA対応、カスタムクロール用IDEまで揃ったクラウドプラットフォームです。複数のECサイトを横断して価格監視する、みたいな大規模収集だとインフラの強さが目立ちます()。

強み:

  • アンチボットが強いサイトにも通しやすい
  • エンタープライズ規模までスケールできる
  • よくあるサイト向けテンプレが用意されている

弱点:

  • 恒久的な無料枠はなく、基本はトライアル(スクレイパー3本×各100レコード)
  • シンプルな監査用途だとオーバースペックになりがち
  • 非エンジニアには学習コストがそれなりにある

大規模クロールが目的なら、BrightDataはF1マシン級。ただし試乗が終わっても無料で乗り続けられるわけじゃないです()。

Crawlbase:開発者向けAPI型の無料ウェブクローラー

2.png

Crawlbase(旧ProxyCrawl)は、プログラムから叩いて使うタイプのクロールサービス。URLをAPIに渡すとHTMLを返してくれて、プロキシ、地域指定、CAPTCHA対応などは裏側でいい感じに処理してくれます()。

強み:

  • 成功率が高い(99%+)
  • JavaScript主体のサイトにも対応できる
  • 自社アプリやワークフローに組み込みやすい

弱点:

  • API/SDK連携が前提
  • 無料枠:7日で約5,000コール、その後は月1,000

プロキシ運用なしでスケールさせたい開発者には、かなり堅実な選択肢です()。

ScraperAPI:動的ページのクロールを手軽に

3.png

ScraperAPIは「とにかく取ってきて」が通るAPI。URLを渡すだけで、プロキシ、ヘッドレスブラウザ、アンチボット対策を肩代わりしてHTML(サイトによっては構造化データ)を返してくれます。動的ページに強く、無料枠も比較的使いやすいのがポイント()。

強み:

  • 開発者にとって導入がラク(APIコールだけ)
  • CAPTCHA、IPブロック、JavaScriptに対応
  • 無料:7日で5,000コール、その後は月1,000

弱点:

  • 視覚的なクロールレポートはない
  • リンク追跡などのクロール設計は自前実装が必要

コードベースにクロール機能を短時間で組み込みたいなら、かなり有力です。

Diffbot Crawlbot:サイト構造の発見を自動化

4.png

Diffbot Crawlbotは“賢い系”のツール。単に巡回するだけじゃなく、AIでページ種別を判定して、記事・商品・イベントなどをJSONの構造化データとして抽出します。読んで理解してくれるロボットインターンがいる、みたいな感覚()。

強み:

  • クロール+AI抽出まで一体で回せる
  • JavaScriptや動的コンテンツに対応
  • 無料:月10,000クレジット(約1万ページ)

弱点:

  • API連携が前提で開発者向け
  • SEO監査の“見える化”というより、データ用途寄り

AI/分析向けに構造化データを大量に集めたいなら強力です。

Screaming Frog:無料で使えるデスクトップSEOクローラー

5.png

Screaming Frogは、SEO監査の定番デスクトップクローラー。無料版でも1回のスキャンで最大500 URLまでクロールできて、リンク切れ、メタタグ、重複、サイトマップなど必要情報が一通り揃います()。

強み:

  • 高速で網羅的、SEO界隈で信頼が厚い
  • コーディング不要(URL入れて実行するだけ)
  • 無料で500 URLまで使える

弱点:

  • デスクトップ専用(クラウド版なし)
  • JSレンダリングやスケジュールなど高度機能は有料

SEOをちゃんとやるなら必携。ただ、1万ページ規模を無料で回すのは現実的に厳しいです。

SiteOne Crawler:静的エクスポートとドキュメント化に強い

6.png

SiteOne Crawlerは技術監査の万能選手。オープンソースでクロスプラットフォーム対応、クロールと監査に加えて、Markdownへ書き出してドキュメント化やオフライン閲覧にも使えます()。

強み:

  • SEO/性能/アクセシビリティ/セキュリティまでカバー
  • アーカイブや移行向けのエクスポートが便利
  • 無料&オープンソースで利用制限が少ない

弱点:

  • GUIツールの中ではやや技術寄り
  • GUIレポートは既定で1,000 URLまで(設定で変更可)

開発者・QA・コンサルで、深掘りしたい人には“隠れた名ツール”です。

Crawljax:動的ページ向けのオープンソースJavaクローラー

7.png

Crawljaxは専門特化型。クリックやフォーム入力などのユーザー操作をシミュレーションして、JavaScript主体のWebアプリをイベント駆動でクロールします。動的サイトを静的に書き出すこともできます()。

強み:

  • SPAやAJAX中心のサイトに強い
  • オープンソースで拡張しやすい
  • 利用制限なし

弱点:

  • Java環境と設定/実装が必要
  • 非エンジニア向けではない

ReactやAngularのアプリを“実ユーザーっぽく”クロールしたいなら有力です。

Apache Nutch:分散処理でスケールするサイトクローラー

8.png

Apache Nutchは、オープンソースクローラーの古参で本格派。分散クロール前提の設計で、独自検索エンジンを作る、数百万〜数千万ページをインデックスする、といった用途に向きます()。

強み:

  • Hadoop連携で超大規模まで拡張できる
  • 設定自由度が高く、プラグインで拡張可能
  • 無料&オープンソース

弱点:

  • 学習コストが高い(Java、コマンドライン、設定)
  • 小規模サイトやライト用途には不向き

大規模クロールを自前で回したい人向けの“玄人ツール”です。

YaCy:P2P型のウェブクローラー&検索エンジン

YaCyは分散型のクローラー兼検索エンジンという、ちょっと珍しい存在。各ノードがクロールとインデックスを担当して、P2Pネットワークに参加すればインデックスを共有できます()。

強み:

  • 中央サーバー不要でプライバシー志向
  • 社内検索やプライベート検索の構築に向く
  • 無料&オープンソース

弱点:

  • 検索品質はネットワークのカバー範囲に左右される
  • Java環境など初期セットアップが必要

分散型が好きな人、独自検索を作りたい人には刺さる選択肢です。

PowerMapper:UX/QA向けのビジュアルサイトマップ生成

10.png

PowerMapperはサイト構造の“見える化”が得意。クロールしてインタラクティブなサイトマップを生成し、アクセシビリティ、ブラウザ互換、SEOの基本チェックもできます()。

強み:

  • ビジュアルサイトマップが代理店やデザイナーに便利
  • アクセシビリティ/準拠チェックができる
  • GUIで簡単、技術スキル不要

弱点:

  • 無料はトライアルのみ(30日、デスクトップ100ページ/オンラインは1回10ページ)
  • 製品版は有料

クライアントに構造を提示したい、準拠チェックをしたいときに役立ちます。

目的別:自分に合う無料ウェブクローラーの選び方

選択肢が多いほど迷いますよね。用途別にざっくり分けるとこんな感じです。

  • SEO監査向け: Screaming Frog(小規模サイト)、PowerMapper(ビジュアル重視)、SiteOne(深い監査)
  • 動的Webアプリ向け: Crawljax
  • 大規模/独自検索向け: Apache Nutch、YaCy
  • APIで組み込みたい開発者向け: Crawlbase、ScraperAPI、Diffbot
  • ドキュメント化/アーカイブ: SiteOne Crawler
  • エンタープライズ規模(トライアル前提): BrightData、Diffbot

選定時のチェックポイント:

  • スケール: サイト規模やクロール対象はどれくらいか
  • 操作性: コード前提か、クリック操作で完結したいか
  • 出力形式: CSV/JSON、他ツール連携が必要か
  • サポート: 詰まったときにコミュニティやドキュメントがあるか

ウェブクロール×ウェブスクレイピング:Thunderbitが賢い理由

現実的には、サイトをクロールする目的って「きれいな地図を作る」だけじゃないんですよね。多くの場合、最終的に欲しいのは構造化されたデータ。商品一覧、連絡先、コンテンツ棚卸しなど、“使える形”で手元に欲しい。そこで効いてくるのがです。

Thunderbitはクローラー/スクレイパーのどっちか片方じゃなく、両方をまとめて扱えるAI搭載のChrome拡張。流れはこんな感じ。

  • AIクローラー: クローラーみたいにサイトを探索
  • ウォーターフォールクロール: Thunderbitのエンジンで取得できない場合(強いアンチボットなど)、自動で外部クロールサービスに切り替え。手動設定は不要
  • AIによるデータ構造化: HTML取得後、AIが適切な列を提案し、名前・価格・メールなどをセレクタ不要で抽出
  • サブページスクレイピング: 商品詳細ページなど、各サブページを自動巡回して表を拡充
  • 整形&エクスポート: 要約・分類・翻訳なども行い、Excel/Google Sheets/Airtable/Notionへワンクリック出力
  • ノーコード: ブラウザが使えればOK。コードもプロキシも不要

11.jpeg

従来型クローラーよりThunderbitが向くケース:

  • 目的がURL一覧じゃなく、すぐ使えるスプレッドシートである
  • クロール→抽出→整形→出力までを一気通貫で自動化したい
  • 時間と手間(そして精神力)を節約したい

できます。ビジネスユーザーが乗り換える理由、ぜひ一度体感してみてください。

まとめ:無料ウェブサイトクローラーを最大限活用する

ウェブサイトクローラーはここ数年でかなり進化しました。マーケターでも開発者でも、あるいは「サイトを健全に保ちたい」運用担当でも、無料(または無料で試せる)選択肢はちゃんと見つかるはず。BrightDataやDiffbotみたいなエンタープライズ級から、SiteOneやCrawljaxみたいなオープンソースの良ツール、PowerMapperみたいなビジュアル重視まで、選択肢は昔よりずっと幅広いです。

ただ、「欲しいデータを、使える表にして手元に置く」までを最短でやりたいなら、Thunderbitみたいな統合型アプローチが効きます。レポートより“成果物”が欲しいビジネスユーザー向けに作られているのがポイントです。

さっそく始めるなら、ツールを1つ選んでスキャンしてみてください。そして、クロール結果を2クリックで“使えるデータ”に変えたいなら、もチェックしてみてください。

さらに詳しい解説や実践ガイドはへ。

AIウェブスクレイパーを試す

FAQ

ウェブサイトクローラーとウェブスクレイパーの違いは?

クローラーはサイト内のページを発見して全体像を作ります(目次を作るイメージ)。スクレイパーは、価格・メール・レビューなど特定の項目をページから抜き出します。クローラーが「見つける」、スクレイパーが「掘り出す」です()。

非エンジニアにおすすめの無料クローラーは?

小規模サイトのSEO監査ならScreaming Frogが扱いやすいです。構造を図で見せたいなら(トライアル期間中の)PowerMapperも便利。構造化データをノーコードで取りたいなら、Thunderbitが一番手軽です。

クローラーをブロックするサイトはありますか?

あります。robots.txtや、CAPTCHA/IPブロックなどのアンチボット対策でクロールを制限するサイトもあります。ScraperAPI、Crawlbase、Thunderbit(ウォーターフォールクロール)などは回避できる場合もありますが、必ずルールを守り、責任あるクロールを行ってください()。

無料のウェブサイトクローラーにはページ数や機能の制限がありますか?

多くの場合あります。たとえばScreaming Frogの無料版は1回500 URLまで、PowerMapperのトライアルは100ページまで。API型は月間クレジット上限があるのが一般的です。SiteOneやCrawljaxみたいなオープンソースはハード制限が少ない一方、実行環境(PC性能)に左右されます。

ウェブクローラーの利用は合法で、プライバシー面も問題ありませんか?

一般に公開ページのクロール自体は合法とされることが多いですが、サイトの利用規約やrobots.txtは必ず確認してください。許可なくログインが必要な領域や非公開データをクロールしないこと、個人情報を扱う場合は関連法規に配慮することが重要です()。

Shuai Guan
Shuai Guan
Co-founder/CEO @ Thunderbit. Passionate about cross section of AI and Automation. He's a big advocate of automation and loves making it more accessible to everyone. Beyond tech, he channels his creativity through a passion for photography, capturing stories one picture at a time.
Topics
Web Scraping ToolsAI Web Scraper
目次

Thunderbitを試す

リードやその他のデータをわずか2クリックで収集。AI搭載。

Thunderbitを入手 無料です
AIでデータを抽出
Google Sheets、Airtable、Notionへ簡単にデータ転送
PRODUCT HUNT#1 Product of the Week