AIでドメイン内の全URLリストを抽出する方法

正直なところ、最初に大規模なウェブサイトから全URLを集めようとしたとき、「まあ、そんなに難しくないだろう」と軽く考えていました。でも、数時間後には延々とページをクリックしてはリンクをスプレッドシートに貼り付ける作業に追われ、「これ、本当に正しい選択だったのかな…」と自問自答していました。もしあなたもウェブサイト内の全ページを探した経験があるなら（コンテンツ監査やリードリスト作成、競合調査など）、その大変さは身にしみているはずです。手作業はとにかく面倒でミスも多く、正直なところ、時間も労力ももったいないですよね。

でも、もうそんな苦労は必要ありません。AIを活用したのようなツールが登場した今、ドメイン内の全URLを数分で取得できる時代になりました。実際、AIウェブスクレイパーを導入した企業では、データ収集作業のが実現しており、中にはを達成したケースも。これは単なる数字ではなく、あなたの貴重な時間を大幅に取り戻せるということです。

では、なぜウェブサイト内の全ページを見つけるのがそんなに難しいのか、なぜGPTやClaudeのような汎用AIでは解決できないのか、そしてThunderbitのような専門AIエージェントがどうやってこの課題を解決するのかを解説します。もちろん、コーディング不要で全URLを抽出する具体的な手順も紹介します。

なぜドメイン内の全URL取得は難しいのか

そもそも、ウェブサイトは全ページのリストを簡単に渡してくれるようには作られていません。あくまで訪問者向けの設計であり、一気に全ページを探したい人のためのものではないんです。主な理由は以下の通りです：

手作業コピペ地獄： すべてのメニューやリスト、ディレクトリをクリックしてURLを1つずつコピーするのは、腱鞘炎まっしぐら。しかも多くのページを見落としがちです。
ページネーションや無限スクロール： 多くのサイトは複数ページに分かれていたり、スクロールで追加表示されます。「次へ」ボタンを見逃したり、十分にスクロールしなければ、重要な部分を取りこぼします。
ページ構造のバラバラさ： ページごとにリンクの配置や形式が違うので、全体を把握するのが大変です。
隠れページや孤立ページ： メインナビゲーションからリンクされていないページも多く、サイトマップや内部検索でしか見つからないことも。
人的ミス： コピーするページが多いほど、重複やタイプミス、抜け漏れなどのミスが増えます。

もし数百・数千ページ規模のサイトなら、手作業での抽出は現実的ではありません。あるデータチームも「自動化が必須」と断言しています。

「ウェブサイト内の全ページを見つける」とは？

解決策に進む前に、何を目指しているのか整理しておきましょう。

内部URL： 同じドメイン内のページへのリンク（例：/about-us や /products/widget-123）。コンテンツ監査やリード獲得、商品モニタリングなど、ビジネス用途の多くは内部URLがターゲットです。
外部URL： 他サイトへのリンク。外部リンクの調査が目的でなければ通常は不要です。
リストページとサブページ： 多くのサイトにはカテゴリーページやアーカイブなど、詳細ページへのリンクをまとめた「ハブ」ページがあります。全ページを見つけるには、これらのリストをたどり、すべてのサブページも取得する必要があります。
孤立ページ： どこからもリンクされていないページ。サイトマップや内部検索で見つかることもありますが、見落としやすいです。

つまり、ドメイン内の全URLを取得するとは、トップページから最深部の製品・記事ページまで、すべての内部ページURLを使いやすい形式（例：スプレッドシート）で集めることです。

従来の全URL取得方法

昔ながらの方法もいくつかありますが、それぞれに課題があります：

手作業コピペやブラウザ拡張

「力技」で全リンクをクリックし、URLをコピーしてスプレッドシートに貼り付ける方法です。ブラウザ拡張で現在のページのリンクを一括取得する人もいますが、ページごとに繰り返す必要があり、ページネーションや隠れページには対応できません。小規模サイトならともかく、大規模サイトには不向きです。

サイト内検索やサイトマップの活用

Googleのsite:検索： site:yourdomain.comとGoogleで検索すると、インデックスされたページが表示されます。ただし、Googleがインデックスしている範囲（約1,000件程度）に限られ、新規・隠れ・低品質ページは漏れます。でも完全な方法ではないと明記されています。
XMLサイトマップ： 多くのサイトは/sitemap.xmlで主要URLをリスト化しています。ただし、サイトマップが最新で全ページを網羅している場合に限ります。複数ファイルに分割されていたり、孤立ページが含まれていないことも多いです。

テクニカルなクローラーやスクリプト

SEOツール（Screaming Frogなど）： サイト全体をクロールし、URLリストを出力します。高機能ですが、設定やライセンス購入が必要な場合も。
Pythonスクリプト（Scrapyなど）： 開発者なら自作スクリプトでクロール可能ですが、プログラミング未経験者にはハードルが高いです。さらに、サイト構造が変わるとスクリプトも修正が必要です。

まとめ： 従来の方法は、手間がかかる・不完全・技術的ハードルが高いなど、ビジネスユーザーには使いづらいのが現実です。途中で挫折する人が多いのも納得です。

汎用AIモデルではURL抽出を完全自動化できない理由

「ChatGPTやClaudeに頼めば全ページ見つけてくれるのでは？」と思うかもしれませんが、現実はそう甘くありません。

リアルタイム閲覧不可： GPTやClaudeなどの汎用AIは、実際にウェブをリアルタイムで閲覧できません。学習データや貼り付けた情報だけが頼りです。
ウェブナビゲーション非対応： プラグインやブラウジング機能があっても、「次へ」ボタンのクリックや無限スクロール、全リンクの体系的な追跡はできません。
架空のURL生成： 汎用AIにドメイン内の全URLを尋ねると、実在しないリンク（例：/about-us）を作り出すことも。
動的コンテンツ非対応： JavaScriptで表示されるページやログインが必要なサイト、複雑なナビゲーションには対応できません。

image 1.png

でも「数百・数千ページをスクレイピングしたいなら、ChatGPTだけでは不十分」と明言されています。やはり専用ツールが必要です。

専門AIエージェントが未来を変える理由

SaaSや自動化の現場で実感しているのは、専門特化型AIエージェント（特定分野に特化したAIツール）こそが、ビジネス用途で安定した結果を出す唯一の方法だということです。

汎用LLMは文章生成や検索には強いですが、安定した多段階ワークフローや繰り返し作業には向きません。
エンタープライズSaaSでは、構造化された反復作業の自動化が求められます。 ここで専門AIエージェントが真価を発揮します。特定のタスクに特化し、ミスなく安定して処理できます。
業界ごとに多様な事例： ウェブデータ抽出のThunderbit、ソフトウェア開発のDevin AI、営業自動化のAlta、教育分野のInfinity Learn’s IL VISTA、人事のRippling、法務のHarveyなど。

つまり、ウェブサイト内の全ページを確実に見つけたいなら、専用AIエージェントが必須です。

Thunderbitのご紹介：誰でも使えるAI URL抽出ツール

ここで登場するのがです。ThunderbitはAIウェブスクレイパーのChrome拡張機能で、ビジネスユーザー向けに設計されています。コーディング不要・面倒な設定不要で、すぐに結果が得られます。主な特長は：

自然言語インターフェース： 「このサイトの全ページURLをリスト化して」と入力するだけで、AIが自動で抽出方法を判断します。
AIフィールド提案： ページをスキャンし、「ページURL」などのカラム名を自動提案。CSSセレクタやXPathの知識は不要です。
ページネーション・無限スクロール対応： 「次へ」ボタンのクリックや自動スクロールもThunderbitが処理。取りこぼしを防ぎます。
サブページの自動遷移： さらに深い階層のリンクもたどってデータを取得可能です。
構造化エクスポート： Google Sheets、Excel、Notion、Airtable、CSVにワンクリックで出力。無料で利用できます。
コーディング不要： ウェブサイトを閲覧できる方なら誰でも使えます。

Thunderbitは専門AIエージェントなので、安定性・再現性も抜群。繰り返し作業が多いビジネスユーザーに最適です。

実践ガイド：Thunderbitで全URLを抽出する手順

実際の使い方を、非エンジニア向けにご紹介します。

1. Thunderbit Chrome拡張をインストール

まずはしましょう。Chrome、Edge、BraveなどChromium系ブラウザで利用可能です。ツールバーにピン留めしておくと便利です。

2. 取得したいリストやディレクトリページを開く

URLを抽出したいウェブサイトにアクセスします。トップページ、サイトマップ、ディレクトリ、または目的のページへのリンクがまとまっているリストページなどが対象です。

3. Thunderbitを起動し、フィールドを設定

Thunderbitアイコンをクリックして拡張機能を開き、新しいスクレイパーテンプレートを作成します。ここからが本番です：

**「AIフィールド提案」**をクリック。ThunderbitのAIがページを解析し、「ページURL」や「リンク」などのカラムを自動で提案します。
欲しいフィールドが見つからない場合は、「ページURL」など任意のカラム名を追加してください。ThunderbitのAIはこれらの用語を認識し、適切なデータをマッピングします。

4. ページネーションやスクロールを有効化（必要な場合）

対象ページが複数ページに分かれている場合（例：「1ページ目、2ページ目…」や「もっと見る」ボタン）、Thunderbitでページネーションを有効にします：

「クリックページネーション」モードは「次へ」ボタンがあるサイト向け、「無限スクロール」モードはスクロールで追加表示されるサイト向けです。
Thunderbitが「次へ」ボタンやスクロールエリアの選択を促すので、該当箇所をクリックすればAIが自動で処理します。

5. スクレイピング開始＆結果を確認

**「スクレイプ」**ボタンを押すと、Thunderbitが全ページをクロールし、見つけたURLを収集します。結果は拡張機能内のテーブルに表示されます。大規模サイトでも数分で完了し、手作業より圧倒的に速いです。

6. URLリストをエクスポート

スクレイピングが完了したら、エクスポートをクリック。データは以下に直接送信できます：

Google Sheets
Excel/CSV
Notion
Airtable

エクスポートは無料で、書式もそのまま維持されます。もうコピペの手間はありません。

Thunderbitと他のURL抽出方法の比較

方法	使いやすさ	正確性・網羅性	拡張性	エクスポート
手作業コピペ	非常に大変	低い（抜けやすい）	拡張性なし	手動（Excel等）
ブラウザリンク抽出	1ページならOK	中程度	低い	手動
Google `site:`検索	簡単	中程度（不完全）	約1,000件で上限	手動
XMLサイトマップ	存在すれば簡単	良い（最新なら）	良い	手動/スクリプト
SEOツール（Screaming Frog）	技術的	高い	高い（有料）	CSV, Excel
Pythonスクリプト（Scrapy等）	非常に技術的	高い	高い	カスタム
Thunderbit	非常に簡単	非常に高い	高い	Google Sheets, CSV等