正直なところ、多くの企業のウェブサイトって、まるで氷山の一角みたいなものなんだよね。ナビゲーションで見えているのはほんの一部で、その下にはメニューに載っていない隠れページや孤立したページ、すっかり忘れ去られたページがゴロゴロしてる。実際、僕が関わったチームでも「うちのサイトは100ページくらいかな」と思っていたのに、実際に調べてみたら1,000ページ以上も見つかったことがあるんだ。さらに驚くのは、大手企業サイトだと1,000万ページ以上あるのが平均で、そのうちなんだって。つまり、存在すら気づいていないページが山ほどあって、サイトリニューアルやSEO監査、コンプライアンスチェックのときに思わぬ落とし穴になることもある。

「自社サイトの全ページリストを出してほしい」って頼まれて、どうしたらいいか分からなくなった経験、ない?でも実は、開発者じゃなくても、全部のリンクを手作業でクリックしなくても大丈夫。このガイドでは、なぜ全ページリストが大事なのか、昔ながらの方法と今どきのやり方、そしてみたいなツールを使えばエンジニアじゃなくても簡単にできる理由を分かりやすく紹介するよ。
「ウェブサイトのページ一覧を取得する」ってどういうこと?
ざっくり言うと、ウェブサイト上のすべての公開URLをリストアップすること。メインメニューに載ってるページだけじゃなくて、ブログ記事や商品ページ、ランディングページ、さらにはどこからもリンクされていない「孤立ページ」まで全部含める。
ここで気をつけたいのは、ほとんどのサイトは見た目以上にページ数が多いってこと。例えば:
- 深い階層やサブページ(昔のブログ記事や商品リストなど)
- 孤立ページ(内部リンクがないページ。まるでネットの無人島)
- リンクされていないファイル(PDFや画像、どこからもリンクされていないランディングページなど)
- 動的・隠れたコンテンツ(検索ボックスやフィルター、「もっと見る」ボタン経由でしか見られないページ)
ナビゲーションはお店の案内板みたいなものだけど、全ページリストは倉庫の在庫リストみたいなもの。エンジニアじゃない人が全部見つけるのは正直しんどい。手作業だと限界があるし、Googleですら全部インデックスしてるわけじゃない—。
企業がページ一覧を取得するのがなぜ大事なのか
「そこまでして調べる必要ある?」って思うかもしれないけど、実はめちゃくちゃ大事。全ページを把握しておくことで:
- SEOやコンテンツ監査:見えてないページは改善もできない。孤立ページや重複コンテンツ、古い情報はSEOに悪影響。孤立ページをつなげて更新するだけで。
- サイトリニューアルや移行:全URLを把握してないと、リニューアル後にリンク切れやSEO損失、ユーザーの混乱を招く。
- コンプライアンスや保守:古いキャンペーンページや誤った情報が残ってると、思わぬトラブルや法的リスクに。
- 競合分析:競合の全商品ページや価格ページを調べたいときも、全リストが必要。
- リード獲得・営業活動:ディレクトリや「販売店検索」ページを調査する際、隠れたリードを見逃さない。
- コンテンツ管理・ガバナンス:重複を防ぎ、抜けや古い情報を発見して、サイトを整理できる。
| ビジネスシーン | 必要とする人 | なぜ全ページリストが重要か |
|---|---|---|
| SEO・コンテンツ監査 | SEO担当、コンテンツマーケター | すべてのコンテンツを見直し・更新・整理でき、検索順位やユーザー体験の向上につながる。 |
| サイト移行 | 開発、IT、マーケティング | すべての旧URLを新URLにマッピングし、リンク切れやSEO損失を防ぐ。 |
| コンプライアンス・整理 | IT、運用、法務 | 古い・非準拠ページを事前に発見し、問題を未然に防ぐ。 |
| 競合分析 | 営業、マーケティング | 競合の隠れたページ(ニッチなLPやリソース集など)も把握できる。 |
| リード獲得 | 営業、事業開発 | 関連ページをすべて調査し、リードの取りこぼしを防ぐ。 |
| コンテンツ管理 | コンテンツ戦略担当、Web運用 | 最新のリポジトリを維持し、重複や古い・効果の低いコンテンツを特定できる。 |
つまり、全ページを把握していないと、思わぬ404エラーやリード損失、SEOトラブルに悩まされることになるんだ。
手作業とツール活用:昔のやり方と今のやり方
まずは昔ながらのやり方から。メニューを一つずつクリックしたり、ブラウザ履歴からURLをコピペしたり…いろんな方法があるけど、手作業とツール利用の違いをまとめると:
手作業のやり方
- ナビゲーションをクリックして回る:小さいサイトならできるけど、孤立ページは見逃しやすいし、20クリックもすれば目が回る。
- Googleの
site:検索:site:example.comで検索。手軽だけど、Googleがインデックスした一部しか出てこない。 - XMLサイトマップの確認:
example.com/sitemap.xmlがあれば多くのURLが取れるけど、孤立ページや隠しページは漏れがち。 - ブラウザ拡張機能やブックマークレット:今見てるページのリンクを抽出できるけど、各セクションごとに手動でやる必要あり。
メリット:特別なスキル不要。
デメリット:手間がかかるし、抜け漏れが多い。
ツールを使うやり方
- SEOスパイダーツール(例:Screaming Frog):リンクされた全ページをクロールしてエクスポート。プロ向けで高機能だけど、初心者にはちょっと難しいし、動的コンテンツは苦手なことも。
- ウェブスクレイピングツール(Thunderbitなど):自動でサブページもたどって、動的コンテンツもOK。構造化データでエクスポートできて、コード不要。
- Google Search Console(自社サイトのみ):Googleが把握してるページを確認できるけど、全部じゃないし、他社サイトには使えない。
- CMSエクスポート:管理画面から全ページを出力できる場合も。ただし競合サイトには使えない。
メリット:圧倒的に速くて、抜け漏れが少ない。
デメリット:一部ツールは慣れが必要。過度なスクレイピングはIPブロックのリスクも。
| 方法 | 使いやすさ | カバー範囲 | リスク・注意点 |
|---|---|---|---|
| 手作業クリック | 簡単(遅い) | 低い | 隠れページ・孤立ページを見逃す |
| Google「site:」検索 | 非常に簡単 | 低い | インデックス済みのみ |
| XMLサイトマップ | 簡単 | 中程度 | 未掲載ページは取得不可 |
| SEOスパイダー | 普通 | 高い(リンク有) | 設定が必要、JSは苦手な場合も |
| Thunderbit AIウェブスクレイパー | 非常に簡単 | 非常に高い | 最小限—ビジネス向け設計 |
Thunderbitの紹介:ウェブサイトの全ページ一覧を一番ラクに取得
ここからが本題。は、AIを活用したChrome拡張機能で、まるで賢いリサーチアシスタントみたいに動いてくれる。ビジネスユーザー向けに作られていて、コードも専門用語も一切不要。インストールしてクリックするだけで、AIが面倒な作業を全部自動化してくれるんだ。
Thunderbitのポイントは?
- AIサジェスト機能:ワンクリックでAIがページを解析して、ページタイトルやURLなど大事な項目を自動で抽出設定。
- サブページの自動追跡:今見てるページだけじゃなく、リンク先も自動でたどって、カテゴリ・商品・ブログ記事など深い階層も取得。
- 動的コンテンツ対応:ブラウザ(またはクラウド)上で動くから、JavaScriptや無限スクロール、「もっと見る」ボタンにも対応。
- ノーコード・自然言語対応:セレクタやスクリプトを書く必要なし。やりたいことを説明するだけでAIが自動設定。
- 多様なエクスポート先:Excel、Googleスプレッドシート、Airtable、Notion、CSV、JSONなどにワンクリックで出力。
- 初心者でも安心:ウェブスクレイピング未経験でも、数分で使いこなせる。
「どこから始めればいいか分からない」って人でも、コーヒーを飲み終わる前に500件のURLリストが作れるくらい手軽だよ。
Thunderbitでウェブサイトの全ページ一覧を取得する流れ

どれだけ簡単か、初心者向けに手順を紹介するね。
ステップ1:Thunderbitをインストール・セットアップ
- からThunderbit拡張機能をインストール。
- ChromeのパズルアイコンからThunderbitをピン留めしておくと便利。
- サインアップまたはログイン—無料プランですぐに試せる。
これだけで準備OK。面倒なソフトのインストールや設定は一切なし。
ステップ2:AIサジェストでページ情報を自動抽出
- 解析したいウェブサイト(トップページやサイトマップページ)を開く。
- Thunderbitアイコンをクリックしてサイドパネルを表示。
- 「AIサジェスト」をクリック。AIがページを解析して、「ページタイトル」「ページURL」などのカラムを自動提案。
- 必要に応じてカラム名の変更や追加もOK。普通はAIの提案で十分。
さらに深い階層(例:カテゴリ内の全商品ページなど)も取得したい場合は、URLカラムを「リンク追跡」に設定すればThunderbitが自動でリンク先も巡回してくれる。
ステップ3:ページ一覧を抽出・エクスポート
- 「スクレイピング開始」をクリック。今のページやサブページのリンク・タイトルを自動で抽出。
- Thunderbitのテーブルにデータがどんどん表示される。大規模サイトでもクラウドモードなら最大50ページ同時並行で取得可能。
- 結果をExcel、Googleスプレッドシート、Airtable、Notion、CSV、JSONなどにワンクリックでエクスポート。
これでThunderbitが見つけた全ページのクリーンなリストが完成。SEO監査やサイト移行、いろんなプロジェクトにすぐ使えるよ。
プロのコツ:孤立ページや隠れページが多い場合は、サイトマップやGoogle Search ConsoleからURLリストをThunderbitに読み込ませて直接スクレイピングするのもアリ。
Thunderbitと他の方法の比較
Thunderbitと他の代表的な方法を比べてみよう:
| ツール・方法 | 使いやすさ | データ網羅性 | おすすめユーザー |
|---|---|---|---|
| Thunderbit AIウェブスクレイパー | 非常に簡単・ノーコード | 非常に高い(動的・サブページ対応) | マーケター、営業、コンテンツ担当、初心者 |
| SEOスパイダー(Screaming Frog) | 普通(設定が必要) | 高い(リンク有ページ) | SEOプロ、技術監査 |
| Google Search Console | 普通 | 高い(インデックス済み) | サイトオーナー(インデックス確認) |
| XMLサイトマップ | 簡単 | 中程度 | 手軽なベースライン、完全網羅は不可 |
| 手作業クリック | 簡単(遅い) | 低い | 小規模サイト限定 |
Thunderbitの強みは、技術知識がなくても誰でも使えること。特にビジネスユーザーがサクッと結果を出したいときにピッタリ。
法的・倫理的に気をつけたいポイント
他社サイトを調査するときは、ルールやマナーも大事。
- 利用規約の確認:スクレイピング禁止じゃないか事前にチェック。公開ページのURL収集は多くのサイトでOKだけど、ログインが必要なページや非公開情報は避けよう。
- 公開データのみ取得:公開URLやページタイトルの収集は一般的に合法だけど、個人情報や機密情報は取らないこと。
- サーバーへの負荷に注意:Thunderbitはデフォルトでマナーを守るけど、数千ページを一気に取得するのは控えよう。
- robots.txtの確認:法的拘束力はないけど、ボットのアクセス制限が書いてあれば従うのがマナー。
- データの適切な利用:取得したデータをスパムや著作権侵害に使わない。万が一、機密情報を見つけたらサイト管理者に連絡しよう。
詳しくはも参考にしてみて。
まとめ:ウェブサイトのページ一覧取得は誰でも簡単にできる
- 全ページの把握はSEOやリニューアル、コンプライアンスなどに不可欠
- 手作業は非効率で抜け漏れも多い。Googleやサイトマップでも全部はカバーできない。
- Thunderbitなら誰でも簡単・高速に構造化リストを取得できる。コード不要、ストレスフリー。
- AIサジェストやサブページ自動巡回など、技術知識不要で高精度な抽出が可能
- 利用規約や公開範囲を守って、データは正しく活用しよう
実際に試してみたい人は、して自社や競合サイトのページリストを作ってみて。きっと新しい発見があるはず。
さらに詳しい解説や実践ガイドはもチェックしてみてね。
よくある質問
1. なぜ自社サイトの全ページリストが必要なの?
SEO監査やサイトリニューアル、コンテンツ更新、コンプライアンスチェック、競合調査などに必須。抜け漏れやリンク切れ、機会損失を防げるよ。
2. ナビゲーションのリンクと全ページリストの違いは?
ナビゲーションは主要セクションだけ。全ページリストはブログ記事や商品ページ、孤立ページなど、メニューに載ってないURLも全部含む。
3. Thunderbitで隠れたページや孤立ページも見つかる?
Thunderbitはリンク追跡や動的コンテンツ対応、サブページ巡回ができる。完全な孤立ページはサイトマップやGoogle Search Consoleのリストを読み込ませればカバーできるよ。
4. サイトからページリストを取得するのは合法?
基本的に公開URLや利用規約を守ればOK。非公開・機密・ログイン必須のページや、スパム・著作権侵害目的での利用はNG。
5. ThunderbitはSEOクローラーや手作業と比べてどう違う?
Thunderbitは非エンジニア向けに作られていて、手作業より速くて簡単。動的コンテンツにも強く、SEOクローラーよりも初心者やビジネスチームにおすすめ。
もうページの見落としで悩まない!Thunderbitでサイト監査をもっと気軽に始めよう。
さらに詳しく知りたい人は…