如何用人工智慧快速擷取網站所有網址清單？

老實說，當我第一次想要從一個大型網站抓出所有網址時，心裡還想說：「這有多難？」結果幾個小時過去，我還在一頁頁慢慢點、把連結一條條複製貼到 Google 試算表，真的快懷疑人生。如果你也曾經試過想找出網站上所有頁面——不管是為了內容稽核、名單收集還是競爭對手分析——你一定懂那種崩潰感。這種工作又瑣碎又容易出錯，說穿了，根本是在浪費你的時間和專業。

好消息是：現在你不用再土法煉鋼了。像這種人工智慧工具，已經徹底改變了商業用戶的遊戲規則，讓你幾分鐘內就能找出一個網域下的所有網址，不用再花好幾天慢慢搞。事實上，根據統計，使用 AI 網頁爬蟲的企業，有些甚至，這可不是隨便說說——這代表你真的能把時間花在更有價值的事情上。

接下來，我們就來聊聊為什麼找出網站所有頁面這麼棘手，為什麼像 GPT 或 Claude 這種通用 AI 幫不上忙，以及專門為這類任務打造的 AI 工具（像 Thunderbit）怎麼讓這一切變得超簡單。當然，我也會手把手教你怎麼把所有網址都抓下來，就算你完全不會寫程式也沒問題。

為什麼找出一個網域下所有網址這麼麻煩？

說真的：網站本來就不是設計給你一次性抓出所有頁面清單的。網站是給人瀏覽的，不是給你一口氣抓出所有頁面的。這件事之所以這麼難搞，原因有：

手動複製貼上超級崩潰： 一個個點選單、清單、目錄，把網址一條條複製貼上，手都快廢了，還很容易漏掉一堆頁面。
分頁與無限滾動： 很多網站內容分散在多個分頁，或是要一直往下滑才會載入更多結果。只要漏點一次「下一頁」或沒滑到底，就會遺漏整個區塊。
頁面結構不統一： 有些頁面用這種格式放連結，其他頁面又換另一種排版，整理起來超級混亂。
隱藏頁面或孤兒頁： 並不是每個頁面都會出現在主選單，有些深藏在網站角落，只能靠 sitemap 或內部搜尋才找得到。
人為疏失： 頁面越多，出錯機率越高——重複、打錯、漏掉，什麼狀況都有可能發生。

如果你要處理的是幾百、幾千頁的大型網站？手動根本不可能搞定。正如某數據團隊說的，。

「找出網站所有頁面」到底是什麼意思？

在介紹解決方案之前，先釐清我們的目標：

內部網址（Internal URLs）： 指向同一網域下其他頁面的連結（像 /about-us 或 /products/widget-123）。大多數商業需求——內容稽核、名單收集、產品監控——主要就是要這些內部網址。
外部網址（External URLs）： 指向其他網站的連結。除非你要分析外部連結，否則通常不需要。
清單頁 vs. 子頁面： 很多網站有「總覽」或「清單」頁（像分類頁、部落格目錄、目錄頁），這些頁面會連到詳細頁（如產品頁、個人檔案頁）。要完整找出所有頁面，就必須從這些清單一路點進所有子頁。
孤兒頁（Orphan Pages）： 這些頁面沒有明顯連結，可能只能靠 sitemap 或內部搜尋找到，很容易被遺漏。

所以，當我們說要找出一個網域下所有網址，就是要把從首頁到最深層的產品或文章頁，所有內部頁面網址都抓下來，最好還能直接匯出成試算表。

傳統方法：如何找出一個網域下所有網址

傳統上有幾種做法，但每種都有各自的麻煩：

手動複製貼上 & 瀏覽器工具

這就是「蠻力法」：一個個點連結、複製網址、貼到試算表，祈禱自己沒漏掉。有人會用瀏覽器擴充功能抓當前頁面的所有連結，但還是得每頁重複操作，分頁或隱藏區塊還是得自己處理。小型網站還行，頁數一多就崩潰。

用站內搜尋和 Sitemap

Google 的 site: 搜尋： 在 Google 輸入 site:yourdomain.com，可以看到被收錄的頁面。但 Google 只會顯示已索引的內容（通常最多 1,000 筆），新頁、隱藏頁、品質較低的頁面都會漏掉。也說這不是完整解法。
XML Sitemap： 很多網站有 /sitemap.xml，裡面列出重要網址。如果 sitemap 有更新且涵蓋所有頁面，這方法很棒。但不是每個網站都有 sitemap，有些還分成多個檔案，孤兒頁通常也不會被列進去。

技術型爬蟲與腳本

SEO 工具（如 Screaming Frog）： 這類工具會像搜尋引擎一樣爬網站，輸出網址清單。功能強大，但需要設定、調校，大型網站還要付費授權。
Python 腳本（如 Scrapy）： 工程師可以寫腳本自動爬取網址。但說真的，不會寫程式的人根本用不上。而且網站結構一變，腳本就壞掉，得一直修。

總結： 傳統方法不是太繁瑣，就是不夠完整，或是技術門檻太高。難怪很多人做到一半就放棄。

為什麼通用 AI 模型無法自動抓取網址？

你可能會想：「我不能直接問 ChatGPT 或 Claude 幫我找出網站所有頁面嗎？」但現實是：

無法即時瀏覽網頁： GPT、Claude 這類通用 AI 沒辦法即時瀏覽網站，只能根據訓練資料或你貼給它的內容回答。
不會網頁導航： 就算有外掛或瀏覽功能，這些 LLM 也不會自己點「下一頁」、處理無限滾動，或系統性地跟隨每個連結。
容易「幻想」： 問通用 AI 某網站所有網址，它常常會憑空捏造看似合理但根本不存在的連結（我就看過它編出 /about-us 這種實際不存在的頁面）。
無法處理動態內容： 用 JavaScript 載入、需要登入、或複雜導航的網站，通用 LLM 完全無法應付。

image 1.png

正如：「如果你要抓幾百、幾千頁……光靠 ChatGPT 根本不夠。」你需要的是專門為這類任務設計的工具。

垂直型 AI Agent 才是未來（這真的很重要）

以我在 SaaS 和自動化領域的經驗來看：垂直型 AI agent——也就是專為某一領域（像網頁數據擷取）打造的 AI 工具——才是企業要穩定、可擴展完成任務的唯一解。

通用 LLM 適合寫作或搜尋，但容易「幻想」，無法穩定執行多步驟、可重複的工作流程。
企業級 SaaS 工具需要自動化大量重複、結構化的任務。 垂直型 AI agent 就是為這種需求而生——專注一件事，做到最好，錯誤率極低。
各行各業都有例子： Thunderbit 專攻網頁數據擷取，Devin AI 做軟體開發，Alta 負責銷售自動化，Infinity Learn 的 IL VISTA 用於教育，Rippling 處理人資，Harvey 服務法律產業……名單還可以繼續列下去。

簡單說：想要穩定找出網站所有頁面，你需要的是專業的垂直型 AI agent，而不是萬能聊天機器人。

認識 Thunderbit：人人都能用的 AI 網址擷取工具

這就是的強項。作為一款 AI 網頁爬蟲 Chrome 擴充功能，Thunderbit 專為商業用戶設計——不用寫程式、不用技術設定，直接看到成果。它的優勢包括：

自然語言介面： 只要用自己的話描述需求（例如「列出這個網站所有頁面的網址」），Thunderbit 的 AI 就會自動判斷怎麼抓取。
AI 智能欄位建議： Thunderbit 會自動掃描頁面，建議適合的欄位名稱（如「頁面網址」），完全不用自己設定 CSS selector 或 XPath。
自動處理分頁與無限滾動： Thunderbit 能自動點「下一頁」或往下滑，確保不會漏掉任何頁面。
子頁面導航： 需要更深入？Thunderbit 也能自動點進子頁面，抓取裡面的資料。
結構化匯出： 結果可直接匯出到 Google Sheets、Excel、Notion、Airtable 或 CSV——免費且一鍵完成。
完全免寫程式： 只要會瀏覽網站，就能用 Thunderbit，真的超簡單。

而且 Thunderbit 作為垂直型 AI agent，特別強調穩定性與可重複性——非常適合需要反覆自動化任務的商業用戶。

實戰教學：用 Thunderbit 找出一個網域下所有網址

想知道怎麼操作？這裡有一份零技術門檻的步驟教學，帶你輕鬆抓出所有網址。

1. 安裝 Thunderbit Chrome 擴充功能

首先，。支援 Chrome、Edge、Brave 等 Chromium 瀏覽器。建議把它釘選到工具列，隨時都能用。

2. 打開目標清單或目錄頁

前往你想要抓取網址的網站頁面。可以是首頁、sitemap、目錄頁，或任何包含你關注頁面連結的清單頁。

3. 啟動 Thunderbit 並設定欄位

點擊 Thunderbit 圖示開啟擴充功能，建立新的爬蟲模板。這裡就是 AI 發揮魔力的地方：

點選 「AI 智能欄位建議」。Thunderbit 會自動掃描頁面，建議欄位名稱——通常會有「頁面網址」、「連結」等。
如果沒有你想要的欄位，也可以自己新增一個「頁面網址」欄。Thunderbit 的 AI 會自動對應到正確的資料。

4. 啟用分頁或滾動功能（如有需要）

如果目標頁面有多個分頁（像「第 1、2、3 頁」或「載入更多」按鈕），在 Thunderbit 裡啟用分頁功能：

有「下一頁」按鈕的網站，切換到 「點擊分頁」 模式；有無限滾動的網站，選擇 「無限滾動」。
Thunderbit 會提示你選擇「下一頁」按鈕或滾動區域——只要點一下，AI 就會自動處理。

5. 開始抓取並檢查結果

按下 「開始抓取」。Thunderbit 會自動瀏覽所有頁面，把找到的網址都收集起來。結果會即時顯示在擴充功能的表格裡。大型網站可能需要幾分鐘，但絕對比手動快太多。

6. 匯出網址清單

抓取完成後，點選匯出。你可以直接把資料傳送到：

Google Sheets
Excel/CSV
Notion
Airtable

匯出完全免費，格式也會自動保留。再也不用手動複製貼上。

Thunderbit 與其他網址擷取方案比較

方法	易用性	準確率與覆蓋率	可擴展性	匯出選項
手動複製貼上	非常痛苦	低（容易遺漏）	無	手動（Excel 等）
瀏覽器連結擷取器	一頁還行	中等	差	手動
Google `site:` 搜尋	簡單	中等（不完整）	約 1,000 筆上限	手動
XML Sitemap	簡單（若有）	好（若有更新）	好	手動/腳本
SEO 工具（Screaming Frog）	技術門檻高	高	高（需付費）	CSV、Excel
Python 腳本（Scrapy 等）	非常技術性	高	高	自訂
Thunderbit	超簡單	非常高	高	Google Sheets、CSV 等