如何用人工智慧快速擷取網站所有網址清單?

最後更新於 May 20, 2025

老實說,當我第一次想要從一個大型網站抓出所有網址時,心裡還想說:「這有多難?」結果幾個小時過去,我還在一頁頁慢慢點、把連結一條條複製貼到 Google 試算表,真的快懷疑人生。如果你也曾經試過想找出網站上所有頁面——不管是為了內容稽核、名單收集還是競爭對手分析——你一定懂那種崩潰感。這種工作又瑣碎又容易出錯,說穿了,根本是在浪費你的時間和專業。

好消息是:現在你不用再土法煉鋼了。像 這種人工智慧工具,已經徹底改變了商業用戶的遊戲規則,讓你幾分鐘內就能找出一個網域下的所有網址,不用再花好幾天慢慢搞。事實上,根據統計,使用 AI 網頁爬蟲的企業,有些甚至,這可不是隨便說說——這代表你真的能把時間花在更有價值的事情上。

接下來,我們就來聊聊為什麼找出網站所有頁面這麼棘手,為什麼像 GPT 或 Claude 這種通用 AI 幫不上忙,以及專門為這類任務打造的 AI 工具(像 Thunderbit)怎麼讓這一切變得超簡單。當然,我也會手把手教你怎麼把所有網址都抓下來,就算你完全不會寫程式也沒問題。

為什麼找出一個網域下所有網址這麼麻煩?

說真的:網站本來就不是設計給你一次性抓出所有頁面清單的。網站是給人瀏覽的,不是給你一口氣抓出所有頁面的。這件事之所以這麼難搞,原因有:

  • 手動複製貼上超級崩潰: 一個個點選單、清單、目錄,把網址一條條複製貼上,手都快廢了,還很容易漏掉一堆頁面。
  • 分頁與無限滾動: 很多網站內容分散在多個分頁,或是要一直往下滑才會載入更多結果。只要漏點一次「下一頁」或沒滑到底,就會遺漏整個區塊。
  • 頁面結構不統一: 有些頁面用這種格式放連結,其他頁面又換另一種排版,整理起來超級混亂。
  • 隱藏頁面或孤兒頁: 並不是每個頁面都會出現在主選單,有些深藏在網站角落,只能靠 sitemap 或內部搜尋才找得到。
  • 人為疏失: 頁面越多,出錯機率越高——重複、打錯、漏掉,什麼狀況都有可能發生。

image.png

如果你要處理的是幾百、幾千頁的大型網站?手動根本不可能搞定。正如某數據團隊說的,

「找出網站所有頁面」到底是什麼意思?

在介紹解決方案之前,先釐清我們的目標:

  • 內部網址(Internal URLs): 指向同一網域下其他頁面的連結(像 /about-us 或 /products/widget-123)。大多數商業需求——內容稽核、名單收集、產品監控——主要就是要這些內部網址。
  • 外部網址(External URLs): 指向其他網站的連結。除非你要分析外部連結,否則通常不需要。
  • 清單頁 vs. 子頁面: 很多網站有「總覽」或「清單」頁(像分類頁、部落格目錄、目錄頁),這些頁面會連到詳細頁(如產品頁、個人檔案頁)。要完整找出所有頁面,就必須從這些清單一路點進所有子頁。
  • 孤兒頁(Orphan Pages): 這些頁面沒有明顯連結,可能只能靠 sitemap 或內部搜尋找到,很容易被遺漏。

所以,當我們說要找出一個網域下所有網址,就是要把從首頁到最深層的產品或文章頁,所有內部頁面網址都抓下來,最好還能直接匯出成試算表。

傳統方法:如何找出一個網域下所有網址

傳統上有幾種做法,但每種都有各自的麻煩:

手動複製貼上 & 瀏覽器工具

這就是「蠻力法」:一個個點連結、複製網址、貼到試算表,祈禱自己沒漏掉。有人會用瀏覽器擴充功能抓當前頁面的所有連結,但還是得每頁重複操作,分頁或隱藏區塊還是得自己處理。小型網站還行,頁數一多就崩潰。

用站內搜尋和 Sitemap

  • Google 的 site: 搜尋: 在 Google 輸入 site:yourdomain.com,可以看到被收錄的頁面。但 Google 只會顯示已索引的內容(通常最多 1,000 筆),新頁、隱藏頁、品質較低的頁面都會漏掉。也說這不是完整解法。
  • XML Sitemap: 很多網站有 /sitemap.xml,裡面列出重要網址。如果 sitemap 有更新且涵蓋所有頁面,這方法很棒。但不是每個網站都有 sitemap,有些還分成多個檔案,孤兒頁通常也不會被列進去。

技術型爬蟲與腳本

  • SEO 工具(如 Screaming Frog): 這類工具會像搜尋引擎一樣爬網站,輸出網址清單。功能強大,但需要設定、調校,大型網站還要付費授權。
  • Python 腳本(如 Scrapy): 工程師可以寫腳本自動爬取網址。但說真的,不會寫程式的人根本用不上。而且網站結構一變,腳本就壞掉,得一直修。

總結: 傳統方法不是太繁瑣,就是不夠完整,或是技術門檻太高。難怪很多人做到一半就放棄。

為什麼通用 AI 模型無法自動抓取網址?

你可能會想:「我不能直接問 ChatGPT 或 Claude 幫我找出網站所有頁面嗎?」但現實是:

  • 無法即時瀏覽網頁: GPT、Claude 這類通用 AI 沒辦法即時瀏覽網站,只能根據訓練資料或你貼給它的內容回答。
  • 不會網頁導航: 就算有外掛或瀏覽功能,這些 LLM 也不會自己點「下一頁」、處理無限滾動,或系統性地跟隨每個連結。
  • 容易「幻想」: 問通用 AI 某網站所有網址,它常常會憑空捏造看似合理但根本不存在的連結(我就看過它編出 /about-us 這種實際不存在的頁面)。
  • 無法處理動態內容: 用 JavaScript 載入、需要登入、或複雜導航的網站,通用 LLM 完全無法應付。

image 1.png

正如 :「如果你要抓幾百、幾千頁……光靠 ChatGPT 根本不夠。」你需要的是專門為這類任務設計的工具。

垂直型 AI Agent 才是未來(這真的很重要)

以我在 SaaS 和自動化領域的經驗來看:垂直型 AI agent——也就是專為某一領域(像網頁數據擷取)打造的 AI 工具——才是企業要穩定、可擴展完成任務的唯一解。

  • 通用 LLM 適合寫作或搜尋,但容易「幻想」,無法穩定執行多步驟、可重複的工作流程。
  • 企業級 SaaS 工具需要自動化大量重複、結構化的任務。 垂直型 AI agent 就是為這種需求而生——專注一件事,做到最好,錯誤率極低。
  • 各行各業都有例子: Thunderbit 專攻網頁數據擷取,Devin AI 做軟體開發,Alta 負責銷售自動化,Infinity Learn 的 IL VISTA 用於教育,Rippling 處理人資,Harvey 服務法律產業……名單還可以繼續列下去。

簡單說:想要穩定找出網站所有頁面,你需要的是專業的垂直型 AI agent,而不是萬能聊天機器人。

認識 Thunderbit:人人都能用的 AI 網址擷取工具

這就是 的強項。作為一款 AI 網頁爬蟲 Chrome 擴充功能,Thunderbit 專為商業用戶設計——不用寫程式、不用技術設定,直接看到成果。它的優勢包括:

  • 自然語言介面: 只要用自己的話描述需求(例如「列出這個網站所有頁面的網址」),Thunderbit 的 AI 就會自動判斷怎麼抓取。
  • AI 智能欄位建議: Thunderbit 會自動掃描頁面,建議適合的欄位名稱(如「頁面網址」),完全不用自己設定 CSS selector 或 XPath。
  • 自動處理分頁與無限滾動: Thunderbit 能自動點「下一頁」或往下滑,確保不會漏掉任何頁面。
  • 子頁面導航: 需要更深入?Thunderbit 也能自動點進子頁面,抓取裡面的資料。
  • 結構化匯出: 結果可直接匯出到 Google Sheets、Excel、Notion、Airtable 或 CSV——免費且一鍵完成。
  • 完全免寫程式: 只要會瀏覽網站,就能用 Thunderbit,真的超簡單。

而且 Thunderbit 作為垂直型 AI agent,特別強調穩定性與可重複性——非常適合需要反覆自動化任務的商業用戶。

實戰教學:用 Thunderbit 找出一個網域下所有網址

想知道怎麼操作?這裡有一份零技術門檻的步驟教學,帶你輕鬆抓出所有網址。

1. 安裝 Thunderbit Chrome 擴充功能

首先,。支援 Chrome、Edge、Brave 等 Chromium 瀏覽器。建議把它釘選到工具列,隨時都能用。

2. 打開目標清單或目錄頁

前往你想要抓取網址的網站頁面。可以是首頁、sitemap、目錄頁,或任何包含你關注頁面連結的清單頁。

3. 啟動 Thunderbit 並設定欄位

點擊 Thunderbit 圖示開啟擴充功能,建立新的爬蟲模板。這裡就是 AI 發揮魔力的地方:

  • 點選 「AI 智能欄位建議」。Thunderbit 會自動掃描頁面,建議欄位名稱——通常會有「頁面網址」、「連結」等。
  • 如果沒有你想要的欄位,也可以自己新增一個「頁面網址」欄。Thunderbit 的 AI 會自動對應到正確的資料。

4. 啟用分頁或滾動功能(如有需要)

如果目標頁面有多個分頁(像「第 1、2、3 頁」或「載入更多」按鈕),在 Thunderbit 裡啟用分頁功能:

  • 有「下一頁」按鈕的網站,切換到 「點擊分頁」 模式;有無限滾動的網站,選擇 「無限滾動」
  • Thunderbit 會提示你選擇「下一頁」按鈕或滾動區域——只要點一下,AI 就會自動處理。

5. 開始抓取並檢查結果

按下 「開始抓取」。Thunderbit 會自動瀏覽所有頁面,把找到的網址都收集起來。結果會即時顯示在擴充功能的表格裡。大型網站可能需要幾分鐘,但絕對比手動快太多。

6. 匯出網址清單

抓取完成後,點選 匯出。你可以直接把資料傳送到:

  • Google Sheets
  • Excel/CSV
  • Notion
  • Airtable

匯出完全免費,格式也會自動保留。再也不用手動複製貼上。

Thunderbit 與其他網址擷取方案比較

方法易用性準確率與覆蓋率可擴展性匯出選項
手動複製貼上非常痛苦低(容易遺漏)手動(Excel 等)
瀏覽器連結擷取器一頁還行中等手動
Google site: 搜尋簡單中等(不完整)約 1,000 筆上限手動
XML Sitemap簡單(若有)好(若有更新)手動/腳本
SEO 工具(Screaming Frog)技術門檻高高(需付費)CSV、Excel
Python 腳本(Scrapy 等)非常技術性自訂
Thunderbit超簡單非常高Google Sheets、CSV 等

Thunderbit 讓你用最簡單的方式,達到專業爬蟲的準確率與規模。不用寫程式、不用複雜設定,直接看到成果。

加碼:Thunderbit 不只抓網址,還能擷取更多資料

更厲害的是,Thunderbit 不只抓網址,還能擷取:

  • 標題
  • 電子郵件
  • 電話號碼
  • 圖片
  • 頁面上的任何結構化資料

image 2.png

舉例來說,如果你在建立潛在客戶名單,可以讓 Thunderbit 一次抓下每個目錄條目的個人網址、姓名、Email、電話。產品稽核時,也能抓產品網址、名稱、價格、庫存狀態。Thunderbit 還支援,能自動點進每個連結,擷取更詳細的資料。

而且 Thunderbit 的 Email 與電話擷取功能完全免費,對銷售和行銷團隊來說超級實用。

重點整理:用 AI 找出網站所有頁面

快速回顧:

  • 用手動或通用工具抓網址很難又耗時。
  • 像 GPT 這類通用 AI 無法處理網頁導航、分頁或動態內容。
  • Thunderbit 這類垂直型 AI agent 專為網頁數據擷取打造——穩定、可重複、商業用戶也能輕鬆上手。
  • Thunderbit 操作超簡單: 安裝擴充功能、用 AI 建議欄位、啟用分頁、開始抓取、匯出資料,完全免寫程式。
  • 不只抓網址,還能擷取標題、Email、電話等——非常適合名單收集、稽核或研究。

如果你已經受夠了手動複製貼上或搞不定技術型爬蟲,。有免費方案,親自體驗一下能省下多少時間和精力。

想了解 Thunderbit 的更多應用——像是、或——歡迎到 看更多教學與技巧。

準備好擺脫手動數據收集的苦差事了嗎? 網頁數據擷取的未來就是垂直型 AI agent,而 Thunderbit 正在引領這個潮流。快來試試,讓你的下一次稽核、名單收集或研究專案變得前所未有的輕鬆!

延伸閱讀

P.S. 如果你還想手動複製 1,000 個網址,記得:現在已經有 AI 幫你做這件事了。你的手腕(還有你的老闆)一定會感謝你。

體驗人工智慧網頁爬蟲
Shuai Guan
Shuai Guan
Co-founder/CEO @ Thunderbit. Passionate about cross section of AI and Automation. He's a big advocate of automation and loves making it more accessible to everyone. Beyond tech, he channels his creativity through a passion for photography, capturing stories one picture at a time.
Topics
自動化網頁爬蟲工具人工智慧網頁爬蟲
立即體驗 Thunderbit
用 AI 輕鬆抓取網頁資料,零負擔自動化。
提供免費方案
支援繁體中文
目錄
用 AI 擷取資料
輕鬆將資料匯入 Google Sheets、Airtable 或 Notion
Chrome Store Rating
PRODUCT HUNT#1 Product of the Week