デジタル生活の中でも、ウェブサイト上の全ページがきれいにそろった一覧を見たときほど、妙に満足感がある瞬間はそう多くありません。まるで洗濯物の山から、やっと全部の靴下を見つけ出したときの気分です。でも、コンテンツ監査や移行のために、あるいは単にデジタルの地下室に何が眠っているのか確認したくてサイトのページ一覧を取得しようとしたことがあるなら、それが言うほど簡単ではないのはご存じでしょう。サイトマップやGoogle検索、CMSのエクスポートをかき集めるのに何時間も、あるいは何日も費やしたチームを何度も見てきましたが、それでも隠れページや動的ページが抜け落ちていた、というのはよくある話です。しかも、友人のWordPressのURLを全部エクスポートするのを手伝ったときのことは、あまり思い出したくありません。コーヒーは大量に、そして少しばかりの実存的な不安までついてきた、という感じでした。
朗報です。自分のサイトでデジタルかくれんぼを延々と続ける必要はありません。このガイドでは、サイトURLを見つけるための主要な方法を、昔ながらの手法から最新の方法まで一通りご紹介します。さらに、のようなAI搭載ツールが、この作業を圧倒的に速く、より完全に、そして正直に言えば、ちゃんと楽しいものにしてくれる様子もお伝えします。マーケターでも、開発者でも、あるいは「とにかくすべてのURLを集めて」と頼まれてしまった気の毒な人でも、実践的な手順、実例、率直な比較を通じて、チームにとって最適な方法を選べるはずです。
サイトのページ一覧が必要になる理由:実際のユースケース
方法に入る前に、まずは理由から見ていきましょう。なぜこれほど多くのチームがサイトURLを見つける必要があるのでしょうか。実は、SEOだけの話ではありません。マーケティング、営業、IT、オペレーションにとっても、繰り返し発生するニーズです。代表的な場面は次のとおりです。
- SEOコンテンツ監査と戦略: コンテンツ監査はいまや定例業務であり、。URLを漏れなく一覧化することは、パフォーマンス評価、古いコンテンツの更新、順位向上の土台になります。実際、。
- サイトリニューアルと移行: )。移行のたびに、リンク切れやSEO損失を防ぐため、現在のURLを新しいURLへ対応付ける必要があります。
- コンプライアンスと保守: オペレーションチームは、孤立ページや古いページを見つける必要があります。ときには、昔のキャンペーン用マイクロサイトがまだ公開されたままで、誰かを困らせるのを待っていることもあります。
- 競合分析: 営業やマーケティングのチームは、競合サイトをクロールして製品ページ、料金ページ、ブログ記事などを一覧化し、機会やリードの手がかりを探します。
- リード獲得とアプローチ: 営業チームは、店舗検索ページ、販売店一覧、会員ページなどをまとめて、アプローチ用のリストを作ることがよくあります。
- コンテンツ棚卸し: コンテンツマーケターは、ブログ記事、ランディングページ、PDFなどを継続的に管理し、重複を避け、価値を最大化します。
以下は、これらのシナリオを簡潔に整理した表です。
| シナリオ | 必要とする人 | 完全なページ一覧が重要な理由 |
|---|---|---|
| SEO監査 / コンテンツ監査 | SEO担当者、コンテンツマーケター | すべてのコンテンツを評価できる。ページ漏れは分析不完全や最適化機会の見逃しにつながる |
| サイト移行 / リニューアル | Web開発者、SEO、IT、マーケティング | 旧URLと新URLを対応付け、リダイレクトを設定し、リンク切れとSEO損失を防ぐ |
| 競合分析 | マーケティング、営業 | 競合ページをすべて確認してインサイトを得る。隠れページが機会を示すこともある |
| リード獲得 | 営業チーム | 連絡先ページや資料ページを集めてアプローチに活用する。潜在リードの取りこぼしを防ぐ |
| コンテンツ棚卸し | コンテンツマーケティング | 最新の保管庫を維持し、抜け漏れを特定し、重複を避け、古いページを見直せる |
では、ページが抜けていたり隠れていたりすると、どれほどの影響があるのでしょうか。実際、かなり大きいです。たとえば、リニューアルを進める中で、まだ成果を上げている隠れランディングページを忘れてしまったら。あるいは、監査でインデックスされていないページがあるせいで、全体の5%を見落としたら。売上の損失、SEO上のペナルティ、そして予想外のPRトラブルにつながることもあります。
サイトURLを見つける一般的な方法:従来手法の解説
では本題です。実際、人はどうやってサイトのページを取得しているのでしょうか。定番の方法はいくつかあります。手早く済むものもあれば、より徹底的に調べられるものもあり、場合によってはその分大変です。それぞれ見ていきましょう。
Google検索と検索演算子
仕組み:
Googleを開いて site:yourwebsite.com と入力します。Googleは、そのドメインでインデックスしているページを表示します。キーワードやサブディレクトリで絞り込むこともできます(例: site:yourwebsite.com/blog)。
取得できるもの:
インデックス済みページの一覧です。要するに、Googleが把握しているあなたのサイトの情報です。
制限:
- インデックスされているものしか表示されず、存在するすべてのページは出ません
- 大規模サイトでも、通常は数百件で止まります
- 新規ページ、隠しページ、意図的にインデックスさせていないページは見逃します
使う場面:
小規模サイトのざっくり確認には便利ですが、包括的な監査には向きません。
robots.txt と sitemap.xml の確認
仕組み:
yourwebsite.com/robots.txt にアクセスし、「Sitemap:」の行を探します。サイトマップを開きます(通常は yourwebsite.com/sitemap.xml または /sitemap_index.xml)。サイトマップには、サイト所有者がインデックスさせたいURLが一覧で載っています。
取得できるもの:
主要ページの一覧です。多くの場合、ブログ記事や商品ページなどが含まれます。。
制限:
- サイトマップに入るのは、所有者がインデックスさせたいページだけです。隠しページや孤立ページは抜けがちです
- 再生成されていないと、内容が古いままのことがあります
- 複数のサイトマップを持つサイトもあり、探し回る必要があるかもしれません
使う場面:
自社サイトの確認や、競合の主要ページをざっと見るのに最適です。ただし、見えているのはサイト所有者が見せたいものだという点は覚えておきましょう。
SEOスパイダー系ツールとウェブクローラー
仕組み:
Screaming Frog、Sitebulb、DeepCrawlなどのツールは、検索エンジンのクローラーを模倣します。サイトURLを入力すると、ツールが内部リンクをたどり、見つかったページの一覧を作成します。
取得できるもの:
サイト内でリンクされているほぼすべてのページに加え、ステータスコードやメタタグなどのデータも取得できます。
制限:
- どこからもリンクされていない孤立ページは、手動で与えない限り見逃します
- ツールがヘッドレスブラウジングに対応していないと、動的ページやJavaScript生成ページを見逃すことがあります
- 大規模サイトのクロールには時間がかかり、PCのメモリも消費します
- 技術的な設定と知識が必要です
使う場面:
深い監査を行うSEO担当者や開発者に最適です。非技術系のユーザーにはやや扱いにくいでしょう。
Google Search Console と Analytics
仕組み:
サイトにアクセス権があるなら、Google Search Console(GSC)とAnalyticsからURLの一覧をエクスポートできます。
- GSC: インデックス登録と検索パフォーマンスのレポートで、インデックス済みURLと除外URLを確認できます(エクスポートは1回あたり最大1,000件、APIならさらに取得可能)。
- Analytics: 指定期間中にトラフィックがあったページをすべて表示します(GA4では1回のエクスポートで最大100,000行まで)。
制限:
- GSCとAnalyticsは、Googleが認識しているページ、またはトラフィックを獲得したページしか表示しません
- エクスポート上限があります(GSCは1,000行、GA4は10万行)
- サイト所有権の確認が必要で、競合調査には使えません
- トラフィックがないページや未インデックスページは表示されません
使う場面:
自社サイト、特に移行や監査の前に使うのに向いています。競合分析には不向きです。
CMSダッシュボード
仕組み:
WordPress、Shopify、その他のCMSで運用しているなら、管理画面からページや投稿の一覧を直接エクスポートできることが多いです(プラグインが必要な場合もあります)。
取得できるもの:
ページ、投稿、商品など、すべてのコンテンツ項目の一覧です。
制限:
- 管理者権限が必要です
- コンテンツ以外のページや動的ページは含まれないことがあります
- ブログ、ショップ、ドキュメントのように複数の仕組みを使っている場合は、エクスポートを統合する必要があります
使う場面:
コンテンツ棚卸しやバックアップを行うサイト所有者に最適です。競合調査には役立ちません。
サイトのページ一覧を取得する従来手法の限界
正直に言うと、どの方法も完璧ではありません。主な弱点を簡単にまとめると、次のとおりです。
- 技術的な難しさ: 多くの方法は技術スキルや専用ツールを必要とします。非技術系メンバーにとっては、本当に大きな壁です。手作業のコンテンツ監査は、。
- 網羅性の不足: どの方法にも見逃しがあります。Googleのインデックスは未インデックスや新規ページを見落とし、サイトマップは孤立ページを見落とし、クローラーは未リンクページや動的ページを見落とし、CMSのエクスポートはシステム外のものを拾えません。
- 手作業と時間: 多くの場合、複数のデータソースを突き合わせ、重複を除き、整形する必要があります。面倒で、ミスも起きやすい作業です。サイトマップをExcelにコピペする、コマンドラインのスクリプトを使う、といった「裏技」まで共有されています。
- 更新性の低さ: リストはすぐ古くなります。従来手法では、サイトが変わるたびにやり直しが必要です。
- アクセス権と権限: 管理者権限やサイト所有権が必要な方法もあり、競合調査には使えません。
- データ過多: SEOスパイダーは、単純なURL一覧が欲しいだけなのに、技術的なデータを山ほど返してきます。
要するに、従来のやり方は「レシピが何度も変わり、ときどきオーブンに締め出されながらケーキを焼こうとするようなもの」です。これはコンテンツ戦略担当者の実際のたとえ話ですが、気持ちはよく分かります。
Thunderbitの登場:AIでサイトURLを見つける新しい方法
ここからが本番です。もし「そのサイトを見て、全部のページを一覧化して」とアシスタントに頼むだけで、本当にやってくれるとしたらどうでしょう。コードも面倒な設定も不要で。それがです。
Thunderbitは、非技術系ユーザー向けに設計されたAIウェブスクレイパーのChrome拡張機能ですが、プロにも十分な性能を備えています。AIがサイトを「読み取り」、データを構造化し、隠れページ、動的ページ、サブページを含むすべてのサイトURLをエクスポートします。コードを書く必要も、複雑な設定をいじる必要もありません。サイトを開いて「AIで項目を提案」をクリックするだけで、あとはThunderbitが重い作業を引き受けます。
Thunderbitが際立つ理由:
- コーディングもセットアップも不要: AIが案内する自然言語ベースの操作で、チームの誰でも使えます。
- 高速: 数時間ではなく、数分で結果が出ます。
- 高い網羅性: 動的コンテンツ、ページネーション、無限スクロール、サブページに対応します。
- 構造化された出力: Google Sheets、Excel、Airtable、Notion、CSV、JSONにすぐ出せるきれいな表で出力します。
- メンテナンスが少ない: サイトの変更にAIが自動で適応するので、調整の手間が少なく済みます。
- クラウドでもブラウザでもスクレイピング可能: ワークフローに合わせて選べます。
- 無料枠あり: いきなり契約せずに試せます。

Thunderbitでサイトのページ一覧を簡単に取得する方法
実際にThunderbitの流れを見てみましょう。「サイトのページを全部一覧にしたい」という状態から、「はい、スプレッドシートです、どうぞ」と言えるところまで、ほんの数クリックです。
ステップ1:Thunderbitをインストールして起動する
をダウンロードし、ブラウザにピン留めします。スクレイピングしたいサイト(たとえばトップページ)へ移動し、Thunderbitアイコンをクリックしてインターフェースを開きます。
ワンポイント: Thunderbitは新規ユーザー向けに無料クレジットを提供しているので、クレジットカードを出さなくても試せます。
ステップ2:データソースを選ぶ
Thunderbitはデフォルトで現在のページをスクレイピングしますが、特定のセクションから始めたい場合は、サイトマップやカテゴリページのようにURLの一覧を入力することもできます。
- 多くのサイトでは、トップページかサイトマップページから始めるのがおすすめです。
- Eコマースなら、カテゴリページや商品一覧ページから始めるのもよいでしょう。
ステップ3:「AIで項目を提案」を使ってURLを検出する
ここでAIの力が発揮されます。「AIで項目を提案」(または「AIで列を提案」)をクリックしてください。ThunderbitのAIがページをスキャンし、パターンを認識して、見つかったリンクすべてに対して「ページタイトル」や「ページURL」などの列を提案します。必要に応じて調整できます。
- トップページでは、ナビゲーション、フッター、注目リンクが出てくるかもしれません。
- サイトマップでは、きれいなURL一覧が得られます。
- 列の追加・削除や、抽出内容の絞り込みもできます。
ThunderbitのAIが面倒な部分を処理してくれるので、XPathやCSSセレクターを書く必要はありません。欲しいものをちゃんと理解してくれるロボットのインターンがいるようなものです。
ステップ4:サブページのスクレイピングを有効にする
多くのサイトは、ホームページにすべてのページを載せているわけではありません。そこで役立つのがThunderbitのサブページスクレイピングです。URL列を「たどる」リンクとして指定すると、Thunderbitは見つけた各リンクをクリックして、その先のページからさらにURLを取得します。階層が深いサイト向けに、ネストされたテンプレートも設定できます。
- ページネーション付きの一覧や「もっと見る」ボタンがある場合は、ページネーションとスクロールを有効にすると、見つかるまでThunderbitが進み続けます。
- サブドメインやセクションがあるサイト(たとえば 上のブログなど)でも、必要ならそれらをたどれます。
ステップ5:スクレイピングを実行する
「スクレイプ」をクリックすると、Thunderbitが動き始めます。URLや、選んだ他の項目をリアルタイムで表に埋めていきます。大きなサイトなら、バックグラウンドで実行して、終わったころに戻ってくれば大丈夫です。
ステップ6:確認してエクスポートする
完了したら結果を確認します。Thunderbitでは、アプリ内で並べ替え、フィルター、重複削除ができます。その後、Google Sheets、Excel、CSV、Airtable、Notion、JSONへワンクリックでエクスポートできます。もうコピペも、崩れた書式の修正も不要です。
全体の所要時間は? 小〜中規模サイトなら、ゼロから完全なURL一覧を作るまで10分未満でいけます。大規模サイトでも、複数ソースを寄せ集める方法より圧倒的に速く、ストレスも少なく済みます。
Thunderbitで隠れページや動的ページを見つける
Thunderbitの特に気に入っている点のひとつが、従来ツールが見落としがちなページへの対応です。
- JavaScriptでレンダリングされるコンテンツ: Thunderbitは実際のブラウザ上で動くため、無限スクロールの求人サイトや商品一覧のような動的ページも取得できます。
- 孤立ページや未リンクページ: サイトマップや検索機能のような手がかりがあれば、他からリンクされていないページも見つけられます。
- サブドメインやセクション: 必要に応じてサブドメインをまたいでリンクをたどれるので、サイト全体を把握できます。
- 人間らしい操作: 検索ボックスへの入力や、フィルターをクリックして隠れページを表示する必要がありますか? ThunderbitのAIオートフィルなら、それも対応できます。
実例: あるマーケティングチームは、昔のランディングページをすべて見つける必要がありました。多くはどこにもリンクされていませんでしたが、まだ存在していました。ThunderbitでGoogle検索結果をスクレイピングし、既知のURLパターンを入力したところ、忘れられていたページを何十件も発見でき、混乱を防ぎ、いくつかの頭痛の種も解消できました。
Thunderbitと従来手法の比較:速度、使いやすさ、網羅性
Thunderbitと従来手法を並べて比べてみましょう。
| 項目 | Googleの「site:」検索 | XMLサイトマップ | SEOクローラー(Screaming Frog) | Google Search Console | CMSエクスポート | Thunderbit AIスクレイパー |
|---|---|---|---|---|---|---|
| 速度 | 非常に速いが制限あり | あれば即時 | 変動あり(数分〜数時間) | 小規模サイトなら速い | 小規模サイトなら即時 | 速い。数分で設定でき、スクレイピングは自動化 |
| 使いやすさ | とても簡単 | 簡単 | 中程度(設定が必要) | 中程度 | 簡単(管理者権限があれば) | とても簡単、コーディング不要 |
| 網羅性 | 低い(インデックス済みのみ) | 目的のページには高い | リンク済みページには高い | インデックス済みには高いが、エクスポートは限定的 | 中程度(コンテンツのみ) | 非常に高い、動的ページとサブページに対応 |
| 出力と連携 | 手動コピペ | XML(解析が必要) | 多量の追加データ付きCSV | CSV/Excel、最大1,000行 | CSV/XML、整形が必要な場合あり | きれいな表、SheetsやExcelなどへワンクリック出力 |
| 保守性 | 毎回手動で実行 | 更新が必要 | サイト変更のたびに再クロール | 定期的なエクスポートが必要 | 変更後に再エクスポート | 低い。AIが適応し、定期スクレイピングも可能 |
Thunderbitは、使いやすさ、完全性、連携のしやすさで特に優れています。従来手法にもそれぞれ強みはありますが、結果をまとめて最新状態を保つには、より多くの手間がかかります。ThunderbitのAIはサイト変更に適応するため、設定を頻繁にいじったり、手動エクスポートを何度もやり直したりする必要がありません。
どの方法を選ぶべきか:誰にどれが向いている?
では、あなたにはどの方法が最適でしょうか。長年チームのサイトデータ整理を手伝ってきた経験から、私の考えをお伝えします。
- SEO担当者 / 開発者: メタタグ、リンク切れなどの深い技術データが必要な場合や、大規模なエンタープライズサイトを監査するなら、クローラーや独自スクリプトが引き続き有効です。それでも、Thunderbitで素早くURL一覧を作って、他のツールに渡すのは有効です。
- マーケター、コンテンツ戦略担当者、プロジェクトマネージャー: Thunderbitは救世主です。ITにスクリプト実行やエクスポート統合作業を頼って待つ必要はありません。コンテンツ棚卸し、競合分析、簡易監査なら、自分で完結できます。
- 営業チーム / リード獲得: Thunderbitなら、どんなサイトからでも店舗一覧、イベントページ、会員ディレクトリを簡単に抜き出せます。コーディング不要です。
- 小規模サイト / ちょっとした作業: 小さなサイトなら、手動確認やサイトマップで十分なこともあります。ただし、Thunderbitはセットアップが非常に速いので、見逃しを避けるために使う価値は高いです。
- 予算面: 従来手法は、時間を除けば低コストです。Thunderbitには無料枠があり、有料プランも多くの企業にとって手頃です。忘れないでください。あなたの時間には価値があります。
- 非常に特殊なデータ要件: かなり特定のデータや複雑なロジックが必要なら、自作スクレイパーが必要かもしれません。ただし、ThunderbitのAIなら、多くのユースケースを最小限の設定でこなせます。
選び方のヒント:
- サイト所有で1,000ページ未満なら、まずはGoogle Search Consoleのエクスポートを試し、完全性を必ず確認してください。
- サイトアクセスがない、または競合データが必要なら、Thunderbitかクローラーが頼りになります。
- 時間を大切にし、拡張性のある解決策が欲しいなら、Thunderbitは非常に強力です。
- チームで共有するなら、ThunderbitのGoogle Sheetsへの直接エクスポートは大きな利点です。
多くの組織はハイブリッド型を採用しています。Thunderbitは短納期タスクや非技術メンバーの支援に使い、従来ツールは深い監査に使う、という形です。
重要なポイント:あらゆるビジネスニーズに対応するページ一覧の取得
最後にまとめます。
- サイトのページを完全に一覧化することは、SEO、コンテンツ戦略、移行、営業調査にとって不可欠です。 想定外の事態、リンク切れ、機会損失を防げます。今では多くのマーケターが少なくとも年1回はコンテンツ監査を実施しています()。
- 従来手法はあるものの、それぞれに抜けがあります。 どれか1つで、完全かつ最新の一覧が必ず手に入るわけではありません。多くの場合、技術的な知識と複数出力の統合作業が必要です。
- AI搭載スクレイピング(Thunderbit)は現代的な解決策です。 ThunderbitはAIが「考える」作業とクリック作業を代行し、誰でもウェブスクレイピングを使いやすくします。動的コンテンツ、サブページ、すぐ使える形式でのデータ出力に対応し、時間短縮とミス削減につながります。比較すると、Thunderbitは数時間かかっていた作業を数分で終えることも多く、学習コストもほとんどありません()。
- 方法はニーズとチームに合わせて選びましょう。 大規模サイトでは、手元のツールをすべて使うのもありですが、多くのビジネスユーザーにとってはThunderbitだけで十分なことが多いです。
- 定期的に更新しましょう。 定期監査を行えば、問題を早期に発見でき、サイトを軽く、効果的に保てます。Thunderbitならスケジュール実行ができるので現実的ですが、手作業は手間のため後回しになりがちです。
最後に: 自分のサイトに何があるのか、あるいは競合サイトに何があるのか分からない、という言い訳はもう必要ありません。適切な方法を使えば、すべてのページを包括的に把握し、その知識をSEO、ユーザー体験、事業戦略の改善に活かせます。頑張るより、賢く進めましょう。AIに重い作業を任せて、1ページも取りこぼさないようにしましょう。
次のステップ
「すべてのURLを集めて」という作業にうんざりしているなら、して、自分のサイトや競合サイトで試してみてください。どれだけ時間と気力を節約できるか、きっと驚くはずです。さらにウェブスクレイピングを深掘りしたいなら、 の他のガイドもぜひご覧ください。 や、 がおすすめです。
よくある質問
1. なぜサイト内のすべてのページ一覧が必要になるのですか?
SEO、マーケティング、営業、ITの各チームは、コンテンツ監査、サイト移行、リード獲得、競合分析などのために、サイトURLの完全な一覧を必要とすることがよくあります。正確で完全な一覧があれば、リンク切れを防ぎ、コンテンツの重複や見落としを防ぎ、隠れた機会を発見しやすくなります。
2. すべてのサイトURLを見つける従来の方法は何ですか?
一般的な方法には、Googleの site: 検索、sitemap.xml と robots.txt の確認、Screaming FrogのようなSEOツールでのクロール、WordPressのようなCMSからのデータエクスポート、Google Search ConsoleやAnalyticsからのインデックス済みページ・トラフィックページの取得があります。ただし、それぞれ網羅性や使いやすさに限界があります。
3. 従来のURL取得方法の限界は何ですか?
従来手法では、動的ページ、孤立ページ、未インデックスページを見逃しがちです。技術知識が必要だったり、データの統合や整形に何時間もかかったり、大規模サイトや繰り返し監査への拡張性が低いこともあります。サイト所有権や管理者権限が必要な場合もあり、常に可能とは限りません。
4. Thunderbitは、すべてのページを見つける作業をどう簡単にするのですか?
ThunderbitはAI搭載のウェブスクレイパーで、人間のようにサイトを巡回し、サブページをクリックしてたどり、JavaScriptにも対応しながら、データを自動で構造化します。コーディングは不要で、Chrome拡張機能として動作し、きれいなURL一覧をGoogle Sheets、Excel、CSVなどに数分でエクスポートできます。
5. Thunderbitと従来ツールは、誰が使うべきですか?
Thunderbitは、手間をかけずに速く完全なURL一覧を欲しいマーケター、コンテンツ戦略担当者、営業チーム、非技術系ユーザーに最適です。従来ツールは、深いメタデータや独自スクリプトが必要な技術的監査に向いています。多くのチームは両方を使い分けています。Thunderbitは速さと使いやすさ、従来ツールは詳細分析、という役割分担です。
