AIでドメイン内の全URLリストを抽出する方法

最終更新日:May 20, 2025

正直なところ、最初に大規模なウェブサイトから全URLを集めようとしたとき、「まあ、そんなに難しくないだろう」と軽く考えていました。でも、数時間後には延々とページをクリックしてはリンクをスプレッドシートに貼り付ける作業に追われ、「これ、本当に正しい選択だったのかな…」と自問自答していました。もしあなたもウェブサイト内の全ページを探した経験があるなら(コンテンツ監査やリードリスト作成、競合調査など)、その大変さは身にしみているはずです。手作業はとにかく面倒でミスも多く、正直なところ、時間も労力ももったいないですよね。

でも、もうそんな苦労は必要ありません。AIを活用したのようなツールが登場した今、ドメイン内の全URLを数分で取得できる時代になりました。実際、AIウェブスクレイパーを導入した企業では、データ収集作業のが実現しており、中にはを達成したケースも。これは単なる数字ではなく、あなたの貴重な時間を大幅に取り戻せるということです。

では、なぜウェブサイト内の全ページを見つけるのがそんなに難しいのか、なぜGPTやClaudeのような汎用AIでは解決できないのか、そしてThunderbitのような専門AIエージェントがどうやってこの課題を解決するのかを解説します。もちろん、コーディング不要で全URLを抽出する具体的な手順も紹介します。

なぜドメイン内の全URL取得は難しいのか

そもそも、ウェブサイトは全ページのリストを簡単に渡してくれるようには作られていません。あくまで訪問者向けの設計であり、一気に全ページを探したい人のためのものではないんです。主な理由は以下の通りです:

  • 手作業コピペ地獄: すべてのメニューやリスト、ディレクトリをクリックしてURLを1つずつコピーするのは、腱鞘炎まっしぐら。しかも多くのページを見落としがちです。
  • ページネーションや無限スクロール: 多くのサイトは複数ページに分かれていたり、スクロールで追加表示されます。「次へ」ボタンを見逃したり、十分にスクロールしなければ、重要な部分を取りこぼします。
  • ページ構造のバラバラさ: ページごとにリンクの配置や形式が違うので、全体を把握するのが大変です。
  • 隠れページや孤立ページ: メインナビゲーションからリンクされていないページも多く、サイトマップや内部検索でしか見つからないことも。
  • 人的ミス: コピーするページが多いほど、重複やタイプミス、抜け漏れなどのミスが増えます。

image.png

もし数百・数千ページ規模のサイトなら、手作業での抽出は現実的ではありません。あるデータチームも「自動化が必須」と断言しています。

「ウェブサイト内の全ページを見つける」とは?

解決策に進む前に、何を目指しているのか整理しておきましょう。

  • 内部URL: 同じドメイン内のページへのリンク(例:/about-us や /products/widget-123)。コンテンツ監査やリード獲得、商品モニタリングなど、ビジネス用途の多くは内部URLがターゲットです。
  • 外部URL: 他サイトへのリンク。外部リンクの調査が目的でなければ通常は不要です。
  • リストページとサブページ: 多くのサイトにはカテゴリーページやアーカイブなど、詳細ページへのリンクをまとめた「ハブ」ページがあります。全ページを見つけるには、これらのリストをたどり、すべてのサブページも取得する必要があります。
  • 孤立ページ: どこからもリンクされていないページ。サイトマップや内部検索で見つかることもありますが、見落としやすいです。

つまり、ドメイン内の全URLを取得するとは、トップページから最深部の製品・記事ページまで、すべての内部ページURLを使いやすい形式(例:スプレッドシート)で集めることです。

従来の全URL取得方法

昔ながらの方法もいくつかありますが、それぞれに課題があります:

手作業コピペやブラウザ拡張

「力技」で全リンクをクリックし、URLをコピーしてスプレッドシートに貼り付ける方法です。ブラウザ拡張で現在のページのリンクを一括取得する人もいますが、ページごとに繰り返す必要があり、ページネーションや隠れページには対応できません。小規模サイトならともかく、大規模サイトには不向きです。

サイト内検索やサイトマップの活用

  • Googleのsite:検索: site:yourdomain.comとGoogleで検索すると、インデックスされたページが表示されます。ただし、Googleがインデックスしている範囲(約1,000件程度)に限られ、新規・隠れ・低品質ページは漏れます。でも完全な方法ではないと明記されています。
  • XMLサイトマップ: 多くのサイトは/sitemap.xmlで主要URLをリスト化しています。ただし、サイトマップが最新で全ページを網羅している場合に限ります。複数ファイルに分割されていたり、孤立ページが含まれていないことも多いです。

テクニカルなクローラーやスクリプト

  • SEOツール(Screaming Frogなど): サイト全体をクロールし、URLリストを出力します。高機能ですが、設定やライセンス購入が必要な場合も。
  • Pythonスクリプト(Scrapyなど): 開発者なら自作スクリプトでクロール可能ですが、プログラミング未経験者にはハードルが高いです。さらに、サイト構造が変わるとスクリプトも修正が必要です。

まとめ: 従来の方法は、手間がかかる・不完全・技術的ハードルが高いなど、ビジネスユーザーには使いづらいのが現実です。途中で挫折する人が多いのも納得です。

汎用AIモデルではURL抽出を完全自動化できない理由

「ChatGPTやClaudeに頼めば全ページ見つけてくれるのでは?」と思うかもしれませんが、現実はそう甘くありません。

  • リアルタイム閲覧不可: GPTやClaudeなどの汎用AIは、実際にウェブをリアルタイムで閲覧できません。学習データや貼り付けた情報だけが頼りです。
  • ウェブナビゲーション非対応: プラグインやブラウジング機能があっても、「次へ」ボタンのクリックや無限スクロール、全リンクの体系的な追跡はできません。
  • 架空のURL生成: 汎用AIにドメイン内の全URLを尋ねると、実在しないリンク(例:/about-us)を作り出すことも。
  • 動的コンテンツ非対応: JavaScriptで表示されるページやログインが必要なサイト、複雑なナビゲーションには対応できません。

image 1.png

でも「数百・数千ページをスクレイピングしたいなら、ChatGPTだけでは不十分」と明言されています。やはり専用ツールが必要です。

専門AIエージェントが未来を変える理由

SaaSや自動化の現場で実感しているのは、専門特化型AIエージェント(特定分野に特化したAIツール)こそが、ビジネス用途で安定した結果を出す唯一の方法だということです。

  • 汎用LLMは文章生成や検索には強いですが、安定した多段階ワークフローや繰り返し作業には向きません。
  • エンタープライズSaaSでは、構造化された反復作業の自動化が求められます。 ここで専門AIエージェントが真価を発揮します。特定のタスクに特化し、ミスなく安定して処理できます。
  • 業界ごとに多様な事例: ウェブデータ抽出のThunderbit、ソフトウェア開発のDevin AI、営業自動化のAlta、教育分野のInfinity Learn’s IL VISTA、人事のRippling、法務のHarveyなど。

つまり、ウェブサイト内の全ページを確実に見つけたいなら、専用AIエージェントが必須です。

Thunderbitのご紹介:誰でも使えるAI URL抽出ツール

ここで登場するのがです。ThunderbitはAIウェブスクレイパーのChrome拡張機能で、ビジネスユーザー向けに設計されています。コーディング不要・面倒な設定不要で、すぐに結果が得られます。主な特長は:

  • 自然言語インターフェース: 「このサイトの全ページURLをリスト化して」と入力するだけで、AIが自動で抽出方法を判断します。
  • AIフィールド提案: ページをスキャンし、「ページURL」などのカラム名を自動提案。CSSセレクタやXPathの知識は不要です。
  • ページネーション・無限スクロール対応: 「次へ」ボタンのクリックや自動スクロールもThunderbitが処理。取りこぼしを防ぎます。
  • サブページの自動遷移: さらに深い階層のリンクもたどってデータを取得可能です。
  • 構造化エクスポート: Google Sheets、Excel、Notion、Airtable、CSVにワンクリックで出力。無料で利用できます。
  • コーディング不要: ウェブサイトを閲覧できる方なら誰でも使えます。

Thunderbitは専門AIエージェントなので、安定性・再現性も抜群。繰り返し作業が多いビジネスユーザーに最適です。

実践ガイド:Thunderbitで全URLを抽出する手順

実際の使い方を、非エンジニア向けにご紹介します。

1. Thunderbit Chrome拡張をインストール

まずはしましょう。Chrome、Edge、BraveなどChromium系ブラウザで利用可能です。ツールバーにピン留めしておくと便利です。

2. 取得したいリストやディレクトリページを開く

URLを抽出したいウェブサイトにアクセスします。トップページ、サイトマップ、ディレクトリ、または目的のページへのリンクがまとまっているリストページなどが対象です。

3. Thunderbitを起動し、フィールドを設定

Thunderbitアイコンをクリックして拡張機能を開き、新しいスクレイパーテンプレートを作成します。ここからが本番です:

  • **「AIフィールド提案」**をクリック。ThunderbitのAIがページを解析し、「ページURL」や「リンク」などのカラムを自動で提案します。
  • 欲しいフィールドが見つからない場合は、「ページURL」など任意のカラム名を追加してください。ThunderbitのAIはこれらの用語を認識し、適切なデータをマッピングします。

4. ページネーションやスクロールを有効化(必要な場合)

対象ページが複数ページに分かれている場合(例:「1ページ目、2ページ目…」や「もっと見る」ボタン)、Thunderbitでページネーションを有効にします:

  • 「クリックページネーション」モードは「次へ」ボタンがあるサイト向け、「無限スクロール」モードはスクロールで追加表示されるサイト向けです。
  • Thunderbitが「次へ」ボタンやスクロールエリアの選択を促すので、該当箇所をクリックすればAIが自動で処理します。

5. スクレイピング開始&結果を確認

**「スクレイプ」**ボタンを押すと、Thunderbitが全ページをクロールし、見つけたURLを収集します。結果は拡張機能内のテーブルに表示されます。大規模サイトでも数分で完了し、手作業より圧倒的に速いです。

6. URLリストをエクスポート

スクレイピングが完了したら、エクスポートをクリック。データは以下に直接送信できます:

  • Google Sheets
  • Excel/CSV
  • Notion
  • Airtable

エクスポートは無料で、書式もそのまま維持されます。もうコピペの手間はありません。

Thunderbitと他のURL抽出方法の比較

方法使いやすさ正確性・網羅性拡張性エクスポート
手作業コピペ非常に大変低い(抜けやすい)拡張性なし手動(Excel等)
ブラウザリンク抽出1ページならOK中程度低い手動
Google site:検索簡単中程度(不完全)約1,000件で上限手動
XMLサイトマップ存在すれば簡単良い(最新なら)良い手動/スクリプト
SEOツール(Screaming Frog)技術的高い高い(有料)CSV, Excel
Pythonスクリプト(Scrapy等)非常に技術的高い高いカスタム
Thunderbit非常に簡単非常に高い高いGoogle Sheets, CSV等

Thunderbitはプロ仕様のクローラー並みの精度と規模を、ブラウザ拡張の手軽さで実現します。コーディングも設定も不要、すぐに結果が得られます。

おまけ:ThunderbitでURL以外も抽出可能

ThunderbitはURL抽出だけでなく、以下のような情報も取得できます:

  • タイトル
  • メールアドレス
  • 電話番号
  • 画像
  • ページ内のあらゆる構造化データ

image 2.png

例えばリードリストを作成する場合、ThunderbitでプロフィールURL・氏名・メール・電話番号を一括取得できます。商品監査なら、商品URL・商品名・価格・在庫状況もまとめて抽出可能。さらににも対応しているので、各リンク先の詳細情報も自動で取得できます。

しかもThunderbitのメール・電話番号抽出機能は完全無料。営業やマーケティング担当者には大きなメリットです。

まとめ:AIでウェブサイト全ページを抽出する方法

ポイントをおさらいしましょう:

  • 手作業や汎用ツールでは全URL抽出は困難。
  • GPTなどの汎用AIはウェブナビゲーションや動的コンテンツに非対応。
  • Thunderbitのような専門AIエージェントなら、安定・再現性・使いやすさを兼ね備えています。
  • Thunderbitなら簡単:拡張機能を入れて、AIでフィールド提案、ページネーション有効化、スクレイプ&エクスポート。コーディング不要、手間なし。
  • URL以外にも、タイトル・メール・電話番号など多彩なデータを抽出可能。リード獲得や監査、リサーチに最適。

もしリンクのコピペや技術的なクローラーに疲れているなら、。無料プランもあるので、どれだけ時間と労力が節約できるか実感できます。

さらにThunderbitの活用法(など)に興味があれば、もぜひご覧ください。

もう手作業のデータ収集に時間を奪われるのはやめませんか? ウェブデータ抽出の未来は専門AIエージェント。Thunderbitがその最前線です。ぜひ一度体験して、次の監査やリードリスト作成、リサーチをもっと簡単にしましょう。

さらに読む

P.S. もし1,000件のURLを手作業でコピペしそうになったら、今はAIがあることを思い出してください。あなたの手首も、上司もきっと喜びます。

AIウェブスクレイパーを試す
Shuai Guan
Shuai Guan
Co-founder/CEO @ Thunderbit. Passionate about cross section of AI and Automation. He's a big advocate of automation and loves making it more accessible to everyone. Beyond tech, he channels his creativity through a passion for photography, capturing stories one picture at a time.
Topics
自動化ウェブスクレイピングツールAIウェブスクレイパー
Thunderbitを試す
AIでウェブページを手間なくスクレイピング。
無料プランあり
日本語対応
目次
AIでデータ抽出
GoogleスプレッドシートやAirtable、Notionへ簡単にデータ転送
Chrome Store Rating
PRODUCT HUNT#1 Product of the Week