如何找出網站上的所有頁面,助力內容規劃

最後更新於 August 1, 2025

我還記得第一次想要整理一份「完整」的網站頁面清單時,心裡還以為只要把網站導覽點一遍、把每個連結記下來就搞定。結果根本不是這麼一回事,總是有新頁面像打地鼠一樣冒出來:什麼隱藏的商品頁、舊活動頁,還有被無限捲動藏起來的部落格文章。這就像你只走過城市的主幹道,卻發現還有一整個你沒見過的地下鐵路網。

如果你曾經為了內容稽核、SEO 專案或競爭對手分析,想要查找所有網站頁面,你一定知道這件事比想像中複雜太多。事實上,——也就是說,大部分內容其實對用戶和搜尋引擎都是隱形的。這不只是機會流失,也讓網站充滿了數位死角。那麼,究竟該怎麼建立一份完整的網站連結清單?而這對內容規劃又有什麼意義?我們一起來深入聊聊。

為什麼內容規劃需要完整的網站連結清單?

在討論「怎麼做」之前,先來聊聊「為什麼要做」。建立全站連結清單,絕對不只是 SEO 工程師的專利(雖然我自己也很愛這個過程)。對於重視內容、潛在客戶或數位成效的企業來說,這是一項很重要的策略資產。

_- visual selection (1).png

每個團隊都該重視的理由如下:

  • 內容與 SEO 稽核: 掌握每個網址,才能發現過時、內容薄弱或孤立(orphan)的頁面。孤立頁面特別麻煩,因為,還會拖累網站權重。
  • 內容規劃與更新: 有了完整清單,能一眼看出現有內容、需要更新的地方,以及內容缺口。很多企業在稽核時才發現有一堆被遺忘的頁面,這些往往正是值得優化的寶藏。
  • 競爭分析: 想知道對手有哪些著陸頁、產品分類或隱藏資源?你需要的是他們的完整 sitemap,而不是只看主選單。
  • 銷售與名單開發: 抓取所有含聯絡資訊或門市據點的頁面,確保每個潛在客戶都不會漏掉。
  • 營運與監控: 電商團隊可以追蹤每個商品頁的價格或庫存變化——即使這些頁面沒在主分類出現。

分不同部門來看:

部門 / 角色完整頁面清單的應用情境帶來的效益
SEO / 網站管理全面內容稽核——找出孤立頁、壞連結、重複或內容薄弱頁面。優化網站結構、修正 SEO 問題、提升收錄率(孤立頁會稀釋權重)。
內容行銷清點所有部落格、著陸頁等,規劃內容策略。更新或重製舊內容,確保訊息一致,發掘內容缺口。
銷售 / 名單開發找出所有含聯絡資訊、門市或見證的頁面。精準建立潛在客戶名單,不漏掉任何機會。
競爭情報爬取競爭對手全站(產品、部落格、支援頁)。揭露對手產品線、定價頁與內容策略(sitemap 可挖出隱藏網址)。
電商營運清單化所有商品頁(包含未在前台分類的頁面),監控價格或庫存。全面追蹤價格與庫存,避免遺漏未被索引的商品。
IT / 合規發現所有網址(包含舊頁、隱藏頁、未下線的測試頁)。移除過時或不合規頁面,維持網站安全與合規。

一句話總結:如果你只看到冰山一角,就會錯失很多洞察、名單和商機。

「獲取網站所有頁面」的真正意義

先釐清一個迷思:「如何獲取網站所有頁面」絕對不是一直點「下一頁」就能搞定。現在的網站很聰明,會用無限捲動、「載入更多」按鈕、JavaScript 動態連結、URL 參數,甚至把整個區塊藏起來。有些頁面只有知道特定網址才能進去。

所以,所謂建立網站連結清單,其實包括:

  • 處理無限捲動的內容(像 Twitter、新聞網站)
  • 點擊「載入更多」等動態顯示內容的按鈕
  • 偵測由 URL 參數產生的頁面(像商品篩選)
  • 挖掘沒有內部連結的孤立頁面
  • 找出隱藏或未連結的區塊(像舊活動頁)

這不像翻書,更像在探索一棟有暗門和密室的房子。你需要的不只是手電筒,還要有藍圖和偵探精神。

傳統方法:如何找出網站所有頁面

在 AI 工具如 出現前,大多數人會用人工技巧搭配專業軟體來整理網站連結清單。這些方法到現在還是有用,但各有侷限。

用 Google 搜尋與 site 指令

最經典的做法:在 Google 輸入 site:example.com,就能看到 Google 收錄的所有該網域頁面。也可以用 site:example.com/blog 聚焦特定區塊。

優點:

  • 超簡單
  • 快速估算頁面數

缺點:

  • 只顯示 Google 已收錄的頁面(通常只是冰山一角)
  • 無法發現私密、孤立或被封鎖的頁面

檢查 Sitemap 與 robots.txt

多數企業網站都有 sitemap.xml,這是給搜尋引擎看的網址清單。通常在 example.com/sitemap.xml,或從 robots.txt 找到 sitemap 連結。

優點:

  • 能找到未在導覽列的頁面
  • 有時包含舊頁或隱藏頁

缺點:

  • 不一定即時或完整
  • 可能列出被封鎖的頁面(你看得到但進不去)
  • 有些頁面被收錄但沒在 sitemap 裡(

用 SEO Spider 工具爬行

像 Screaming Frog 或 WebSite Auditor 這類工具,會自動跟隨網站連結,建立所有可達頁面的地圖。

優點:

  • 能找到深層連結頁面
  • 可檢查壞連結與網站結構

缺點:

  • 對動態內容(無限捲動、JS 連結)無力
  • 需設定與技術門檻
  • 免費版有頁數限制(如 Screaming Frog 最多 500 頁)
  • 找不到孤立頁(沒連結就無法發現)

傳統網站連結清單方法的侷限

這裡就是關鍵。即使用盡上述方法,還是常常會漏掉:

  • 孤立頁面: 沒有內部連結、不在 sitemap、沒被收錄——這些是數位隱士。
  • 動態內容: 無限捲動、「載入更多」按鈕、JavaScript/AJAX 載入的內容。
  • 表單或腳本後的頁面: 需用戶互動(像搜尋)才會出現的頁面。
  • 重複或參數化網址: 同一內容有多種路徑,或只有調整參數才能看到的獨特內容。

簡單說,傳統方法就像用破網捕魚,雖然能抓到不少,但還是會漏掉很多。

Thunderbit 的 AI 解法:更聰明的網站頁面探索

這正是 Thunderbit 的強項,也是我對這個產品最期待的地方。

Thunderbit 不只是單純爬連結,而是像人類一樣「閱讀」網頁,先把內容轉成類 Markdown 結構再進行擷取。這讓 AI 能理解語意、辨識清單、表格、標題,甚至推斷導覽邏輯。就像給 AI 配上一副閱讀眼鏡和螢光筆。

這有什麼好處?

  • 語意理解: 透過預處理成 Markdown,Thunderbit AI 能建立網站的語意地圖,分辨側邊欄選單與商品清單,或發現不是傳統連結的「載入更多」按鈕。
  • 動態內容處理: Thunderbit 能自動捲動、點擊、互動——就像真人操作。無限捲動、JS 連結都難不倒它。
  • AI 導航發現: AI 能辨識非傳統連結的導航元素(像按鈕、卡片),並自動深入子頁面。
  • 自然語言指令: 你可以直接告訴 Thunderbit「找出所有商品頁,列出標題和價格」,AI 會自動推理步驟。

001_thunderbit_homepage.png

換句話說,Thunderbit 打通了人類瀏覽與機器擷取之間的鴻溝。它靈活、強大,甚至有點好玩。

處理分頁:從無限捲動到「載入更多」

這種情境很常見:你在部落格或商品列表頁,前 10 筆資料後就要一直捲動或點「載入更多」。傳統爬蟲只會抓到初始載入的內容,但 Thunderbit 的 AI 會自動繼續往下抓。

Thunderbit 如何處理各種分頁型態

分頁型態傳統工具流程Thunderbit AI 流程
編號分頁或「下一頁」連結需設定 才能跟進AI 自動偵測並點擊到底
「載入更多」按鈕需自訂腳本反覆點擊AI 自動找到並點擊直到結束
無限捲動(自動載入)只抓到第一批,需寫腳本AI 自動捲動,抓取所有項目
隱藏或 JS 導航常常完全漏掉AI 能理解並自動導航

在 Thunderbit,只要點「AI 建議欄位」再按「開始擷取」,AI 會自動判斷分頁邏輯(按鈕、捲動、URL 參數),直到全部抓完。再也不用調 crawl depth 或寫腳本。

想了解更多,請參考

子頁面擷取:不只抓主清單

我以前常犯的新手錯誤,就是只抓到商品或文章清單,卻忘了進入每個細節頁面擷取重點資訊(像價格、評論、聯絡方式)。這時就需要子頁面擷取功能。

Thunderbit 的 子頁面擷取 功能可以:

  • 自動拜訪主清單中的每個細節頁
  • 擷取更多欄位(像商品規格、作者簡介、聯絡資訊)
  • 將所有資料合併成一份整齊的表格

舉例來說,抓房仲網站時,先取得城市總覽的所有物件,再讓 Thunderbit 自動進入每個物件頁抓取房型、價格、聯絡人等資訊,一次完成。再也不用手動複製網址或重跑爬蟲。

想看圖文教學,請參考

AI 擷取 vs. 範本擷取:如何選擇?

不是每個網站都需要 AI 模式。像 Amazon、Shopify、Zillow 這類標準平台,Thunderbit 直接提供現成範本,點一下就能匯出資料。

什麼時候用 AI 模式?

  • 不熟悉或自訂型網站
  • 複雜版型或特殊資料欄位
  • 需要即時轉換或分類資料

什麼時候用範本?

  • 主流、標準化網站(Amazon、LinkedIn、Instagram 等)
  • 追求速度與精準度

Thunderbit 會自動偵測是否有現成範本可用,否則就切換到 AI 模式,讓 AI 幫你搞定。

讓網站頁面探索與商業目標對齊

一個觀念:所謂「找出所有網站頁面」其實不一定是最終目標,真正該做的是找出對你有用的頁面。

  • 銷售團隊 只在乎有聯絡資訊的頁面
  • 行銷團隊 需要所有部落格、著陸頁、活動頁
  • 營運團隊 關注商品或合規頁面

Thunderbit 支援自然語言描述目標——「找出所有含 email 的頁面」、「列出每個商品頁的價格與 SKU」——AI 會自動調整擷取範圍,讓你不會浪費時間或額度在不需要的頁面上。

定義有效擷取目標的小技巧:

  • 欄位名稱與指令要明確
  • 善用領域知識(像「抓 /resources/ 下所有頁面」)
  • 若資料太多或太少,調整指令再試

這樣能省下時間、減少資料雜訊,讓你的網站連結清單真正有用,而不是一堆無用網址。

實作教學:用 Thunderbit 快速獲取網站所有頁面

想自己試試嗎?以下是我用 Thunderbit 建立完整網站連結清單的步驟——完全不用寫程式。

  1. 安裝 安裝超快,免費方案就能用。
  2. 前往目標網站: 從首頁或特定區塊開始。
  3. 開啟 Thunderbit,設定資料來源: 通常預設為「目前頁面」。
  4. 點選「AI 建議欄位」: Thunderbit 會分析頁面,自動建議欄位(像「頁面標題」、「網址」等)。
  5. 檢查並調整欄位: 可以重新命名、增減欄位,設定資料類型。
  6. 啟用子頁面擷取(如有需要): 若要抓細節頁,開啟「子頁面擷取」並選擇連結欄位。
  7. 點「開始擷取」: Thunderbit 會自動處理分頁、無限捲動與子頁面。
  8. 監控進度: 看表格自動填滿,隨時抽查資料正確性。
  9. 匯出網站連結清單: 可下載 CSV,或直接匯出到 Excel、Google Sheets、Notion、Airtable。
  10. 優化再執行: 若有遺漏區塊,可再跑一次或調整指令。

更多細節請參考

重點整理:用 Thunderbit 建立完整網站連結清單

幫你整理幾個重點:

  • 傳統方法(Google、sitemap、爬蟲)雖然有用,但常常漏掉隱藏、動態或孤立頁面。
  • Thunderbit 人工智慧網頁爬蟲 具備語意理解力,能輕鬆處理複雜導航、無限捲動與子頁面,設定簡單。
  • 擷取目標要與商業需求對齊——不是抓越多越好,而是抓對你有用的頁面。
  • Thunderbit 的獨特優勢: 先將頁面轉為 Markdown,AI 能深度理解網站結構,即使遇到常變動或動態內容也能穩定擷取。
  • 非技術用戶也能輕鬆上手: 無需寫程式、無需腳本,只要描述需求,Thunderbit 幫你搞定。
  • 資料可直接應用: 結構化資料可匯出到各種工具,無論是內容稽核、SEO 專案還是名單開發都能即刻啟用。

如果你還沒體驗過 AI 驅動的網站頁面探索,不妨試試 。你會驚訝於自己網站或競爭對手網站裡,還藏著多少意想不到的內容。

常見問題

1. 為什麼內容規劃需要完整的網站頁面清單?

完整頁面清單有助於發現過時或孤立內容,優化內容稽核流程,找出 SEO 問題,並挖掘內容更新或重製的機會。同時也有助於名單開發、競爭分析與營運監控。

2. 傳統找出網站所有頁面的方法有什麼限制?

像 Google 搜尋指令、sitemap、SEO 爬蟲等傳統工具,常常漏掉動態內容、孤立頁面,或被腳本與互動隱藏的內容。由於網站結構複雜與渲染問題,這些方法很難做到全面覆蓋。

3. Thunderbit 人工智慧網頁爬蟲與傳統爬蟲有何不同?

Thunderbit 透過 AI 先將網頁轉為 Markdown,理解語意結構後再擷取資料。它能處理無限捲動、JavaScript 連結、「載入更多」等互動,模擬真人操作方式。

4. 哪些部門適合擁有完整網站連結清單?

SEO、內容行銷、銷售、電商營運、合規等團隊都能受益。例如 SEO 團隊能找出並修正孤立頁,銷售可擷取聯絡頁,營運可監控不易發現的商品頁。

5. 什麼時候該用 Thunderbit AI 模式,什麼時候用範本?

遇到不熟悉、自訂或結構複雜的網站,建議用 AI 模式;若是 Shopify、Amazon 等主流平台,直接用現成範本即可快速精準擷取。

延伸閱讀:

用 Thunderbit AI 網頁爬蟲探索網站所有頁面
Shuai Guan
Shuai Guan
Co-founder/CEO @ Thunderbit. Passionate about cross section of AI and Automation. He's a big advocate of automation and loves making it more accessible to everyone. Beyond tech, he channels his creativity through a passion for photography, capturing stories one picture at a time.
Topics
網站頁面探索查找所有網站頁面網站連結清單獲取網站全部頁面網站爬蟲工具
目錄

立即體驗 Thunderbit

兩步驟快速擷取名單與各類資料,AI 智能驅動。

下載 Thunderbit 免費體驗
用 AI 擷取資料
一鍵匯出到 Google Sheets、Airtable 或 Notion
Chrome Store Rating
PRODUCT HUNT#1 Product of the Week