幾個月前,我們業務團隊的一位同事問了我一個我聽過幾十次的問題:「如果我從公開網站抓競爭對手的價格,真的會惹上麻煩嗎?」他找到一份供應商聯絡資料名錄,價格整齊地排成一列,他要的只是把資料丟進試算表裡。那種猶豫是真實的——老實說,也很合理。
英國沒有單一的「網頁爬蟲法」。相反地,有四套彼此重疊的法律框架,決定某項爬取行為是否合法。也因此,答案通常永遠是「要看情況」——但這不代表你只能乾著急。在這篇指南裡,我會帶你看法律到底怎麼說、它如何套用到真實情境、可能的罰則長什麼樣子,以及如何確保合規。
我花了很多時間替 的團隊研究這件事,也想把我找到的內容整理給你,讓你不必再從五篇不同的律師事務所部落格和一串 Reddit 討論裡拼湊答案。
什麼是網頁爬蟲(以及英國企業為何會用它)
網頁爬蟲是利用軟體自動從網站蒐集資料——取代把網頁內容複製貼上到試算表裡那種繁瑣工作。
這種技術本身是中性的。它不天生合法,也不天生違法。真正重要的是你抓了什麼、怎麼抓、以及之後怎麼使用這些資料。
英國企業會用爬蟲做各種正當用途:
- 價格比較:例如 PriceSpy UK 會透過自動化網頁爬蟲,。
- 名單開發:銷售團隊從公開名錄抓公司名稱、電子郵件和電話號碼。
- 市場研究:分析師監控房地產列表、徵才網站或競爭對手的產品線。
- 學術研究:英國國家統計局在 2014 到 2015 年間,從超市網站收集了超過 。
- AI 模型訓練:這是一個快速成長、但法律仍未定案的應用場景。
趨勢很明確。Bright Data / Vanson Bourne 對 500 位決策者(其中 200 位在英國)的調查顯示, 認為公開網路資料對全球經濟至關重要或非常重要,而 至少每天會取得一次這類資料。
然而,還有 表示,缺乏明確規範讓其組織感到擔憂。這種焦慮正是這篇文章存在的原因。
在英國,網頁爬蟲合法嗎?直接答案
英國沒有哪條法律直接全面禁止網頁爬蟲。不過,多部法律會管制你能怎麼做,而任何特定專案是否合法,取決於四個因素:

- 你抓的是什麼資料(個人資料 vs. 事實/非個人資料)
- 你怎麼取得資料(公開頁面 vs. 繞過登入牆或 CAPTCHA)
- 網站條款怎麼寫(是否禁止自動化存取)
- 你之後怎麼使用這些資料(內部分析 vs. 商業轉售)
我找到的最好比喻是:網頁爬蟲就像在公共場所拍照。在公共場所拍照本身不一定違法——但某些主體、地點、方式與用途,會帶來法律風險。爬蟲也是如此。公開可得很重要,但那不是全部。
ICO 最近針對 GenAI 的諮詢,是英國官方對爬取個人資料最清楚的表態之一。它指出,對於使用網頁爬取的個人資料訓練生成式 AI 模型,合法利益仍然是,但前提是開發者必須通過嚴格的三階段測試。這門檻很高,也顯示英國監管機關對爬取資料有多麼重視。
適用於網頁爬蟲的四部英國法律
這四個法律視角彼此重疊——任何爬蟲專案都可能觸發其中一個、兩個,甚至全部四個。
UK GDPR 與 2018 年資料保護法
如果你爬取的是個人資料——姓名、電子郵件、電話號碼、IP 位址、社群媒體檔案——UK GDPR 就會適用。「公開可見」不等於「可自由使用」。
公開可見的個人資料,依然是個人資料。
對商業爬取最相關的合法依據是合法利益(第 6 條)——但不能只是嘴上說說這四個字。你必須:
- 辨識出具體且正當的目的
- 證明這項處理對該目的而言是必要的
- 在你的利益與資料當事人的權利之間做平衡
ICO 對 GenAI 的諮詢回應尤其直接:開發者不應假設「廣泛的社會效益」就足夠,應提出證據說明為何其他非爬取替代方案不適合,並應採取透明機制,讓個人能理解並行使自己的權利。來源:。
對 B2B 名單開發而言,邏輯也一樣。銷售團隊可以依賴合法利益,收集公開列出的商務聯絡資訊,但仍必須記錄合法利益、盡量減少收集欄位、避免特殊類別資料、在可行時提供隱私資訊,並尊重拒收/退出機制。
著作權、資料庫權利與 TDM 例外
著作權保護原創網站內容:文字、圖片、商品描述、文章。像價格這類事實性資料點,單獨來看通常較不受著作權保護——但如果你複製並重新發布受保護的表達內容,就可能踩進侵權範圍。
資料庫權利在爬蟲情境中比多數人以為的還重要。英國在脫歐後保留了類歐盟的特殊資料庫權利,抽取受保護資料庫的「實質部分」——例如精心整理的名錄、商品型錄、平台列表——即使單一資料點只是事實,也可能構成侵權。
下的文字與資料探勘(TDM)例外,只在使用者具備合法存取權,且目的為非商業研究時,才允許為文字與資料分析而製作副本。這個範圍很窄。商業爬取、商業 AI 訓練、商業資料集轉售都不在涵蓋內。
英國政府曾考慮擴大這項例外以涵蓋 AI 訓練,但截至其,在確認能同時符合創作者、AI 開發者與英國經濟的目標之前,並未推動改革。在現行制度下,若沒有既有例外適用,通常仍需要取得許可,才能把受保護作品複製用於 AI 訓練。
網站服務條款與契約法
多數網站的服務條款(ToS)都會禁止或限制自動化爬取。只要你進入網站,可能就已經在同意這些條款——尤其是你若點過接受畫面(clickwrap)。把條款藏在頁尾連結中的 browsewrap 協議較吃事實細節,但英國法院確實展現過執行爬蟲相關 ToS 限制的意願。在 爭議中,法院在螢幕爬蟲情境下,將可見的網站條款視為具約束力。
robots.txt 不是法規。它只是網站擁有者提供給機器讀取的訊號。典型檔案長這樣:
1User-agent: *
2Disallow: /account/
3Disallow: /checkout/
4Disallow: /private/
5Crawl-delay: 10
忽略 robots.txt 並不會自動讓爬蟲變成違法,但法院與 ICO 會把它視為網站擁有者意圖的證據。忽略它會提高你的法律風險,尤其是當它又和違反 ToS 或過高請求量疊加時。
1990 年電腦濫用法
這一部法最讓人睡不著——也很有理由。它設立了刑事罪名。第 1 條涵蓋未經授權存取電腦資料(最高可判 )。第 3 條涵蓋損害電腦運作的未經授權行為(最高可判 )。
當資料確實是公開的,而且爬蟲沒有繞過技術門檻時,CMA 風險最低。當你:
- 繞過登入牆、CAPTCHA 或 IP 封鎖
- 使用竊取的憑證或建立假帳號
- 發送足以影響目標服務的流量量級
風險就會升高。
英國沒有像美國那種清楚的「公開資料可自由取用」規則。這使得英國的建議更保守:公開存取雖然會實質降低 CMA 風險,但網站條款、技術控制,以及爬蟲對限制的認知,仍然都很重要。
「我可以合法爬這個嗎?」——快速決策流程圖
在你開始爬任何資料前,先走一遍這五個決策點。這不是法律意見,只是 60 秒的風險初篩。
| 決策點 | 若是 | 若否 |
|---|---|---|
| 資料是個人資料嗎(姓名、電子郵件等)? | 適用 UK GDPR。辨識合法依據、做 LIA、最小化欄位、規劃透明度。 | 可能不適用 GDPR 層,但仍要繼續檢查其他項目。 |
| 網站 ToS 明確禁止爬取嗎? | 有違約風險。可考慮 API、授權或法律審查。 | 契約風險較低,但仍要檢查 robots.txt。 |
| 是否擷取了資料庫的「實質部分」? | 很可能侵犯特殊資料庫權利。可考慮授權或縮小擷取範圍。 | 但對被複製的單一內容,著作權仍可能適用。 |
| 是否繞過登入、CAPTCHA 或存取控制? | 依 1990 年 CMA,可能構成刑事犯罪。先停止並做法律審查。 | 若存取確實公開,CMA 風險較低。 |
| 目的是否為非商業研究? | 若你有合法存取權,第 29A 條 TDM 例外可能適用。 | 英國沒有廣泛的商業 TDM 安全港。仍需完整 IP 與契約分析。 |
唉,要是我剛開始替團隊研究爬蟲合規時就有人給我這張表就好了。它把法律複雜度變成一套可以在一分鐘內完成的結構化自我檢查。
真實情境:你的特定爬取行為在英國合法嗎?
抽象法條是一回事。大家真正想知道的是:「我的這個專案會不會出事?」
很合理。下面列出五個常見的英國爬蟲用途,並為每一個做一個迷你法律風險評估。
爬取商品價格做比較
這是最常見、而且通常風險最低的商業用途之一。價格屬於事實資料,而自動化抓價正是像 PriceSpy 這類網站的運作方式。
不過風險並不會完全消失。如果目標網站的 ToS 禁止爬取、如果你複製了商品描述或圖片、或者你擷取了精心整理的商品資料庫的實質部分,契約、著作權與資料庫權利問題就可能出現。
風險等級:低到中
關鍵合規步驟: 只收集事實性的價格欄位,避免逐字複製商品描述,遵守 ToS 與 robots.txt,使用速率限制,不要把對手的型錄原封不動地整份轉貼發布。
爬取並商業轉售資料
這是風險最高的商業情境,沒有之一。你等於把別人的資料投資變成商品出售——這可能同時牽涉四大法律支柱。
風險等級:高
關鍵合規步驟: 必須做法律審查。考慮與資料擁有者簽授權協議。如果產品包含個人資料,再加入資料保護影響評估。
擷取商務聯絡資訊做名單開發
我聊過的每支業務團隊,都有類似的做法:從名錄裡抓電子郵件、電話號碼和公司名稱。問題在於,商務聯絡資料通常也包含個人資料。即使是公開列出的員工電子郵件,依然是個人資料。
風險等級:中
關鍵合規步驟: 進行合法利益評估,盡可能只收集商務聯絡資料(不要收集私人生活聯絡資料),記錄你的合法依據,並提供退出管道。像 這類工具可在這裡降低存取風險,因為其 是在使用者瀏覽器內運作——它只存取使用者本來就看得到的內容,不會繞過存取控制。
做學術或作品集資料分析
如果你做的是真正的非商業研究,那你在著作權例外方面擁有最強的路徑:第 29A 條 CDPA,只要你有合法存取權即可。
風險等級:低(若真的是非商業)
關鍵合規步驟: 記錄非商業目的、引用來源、盡可能匿名化或彙總資料,且不要重新發布受著作權保護的內容或個人資料。
為 AI 模型訓練而爬取內容
這是 2026 年大家問得最多的一個,而答案仍然不太令人滿意。ICO 將用網頁爬取的個人資料來訓練模型,視為高風險的隱蔽處理。英國政府 2026 年的報告也沒有引入廣泛的商業 TDM 例外。
風險等級:中到高
關鍵合規步驟: 授權、資料集來源追溯、著作權分析、個人資料過濾、合法依據文件化,以及密切追蹤英國政策變化。
情境摘要表
| 情境 | 觸發的主要法律 | 風險等級 | 關鍵合規步驟 |
|---|---|---|---|
| 商品價格監控 | ToS、資料庫權利、著作權 | 低–中 | 收集事實欄位,尊重網站訊號 |
| 商業資料轉售 | 四大支柱全都可能觸發 | 高 | 必須做法律審查與授權 |
| B2B 名單開發 | UK GDPR、ToS | 中 | 做 LIA,最小化個資 |
| 學術研究 | 著作權(TDM 例外)、若涉個資則含 GDPR | 低 | 保持非商業目的,不要重新發布 |
| AI 模型訓練 | UK GDPR、著作權、資料庫權利 | 中–高 | 授權資料、記錄合法依據、監控政策 |
英國 vs. 美國 vs. 歐盟:網頁爬蟲法律差在哪裡
如果你只在英國營運,這一段可以略過。但我接觸的大多數企業都會跨國爬取——至少也會爬取其他法域的網站。這些差異比你想像的更重要。
| 法律面向 | 🇬🇧 英國 | 🇺🇸 美國 | 🇪🇺 歐盟 |
|---|---|---|---|
| 主要資料保護法 | UK GDPR + DPA 2018 | 無聯邦等效法(州法各異) | EU GDPR |
| 重要爬蟲判例 | Clearview AI(ICO 罰款 £7.5M) | hiQ v LinkedIn(公開資料爬取可行,第九巡迴法院——但 hiQ 最終被永久禁止爬取,且在最終同意判決中支付 50 萬美元) | Ryanair v PR Aviation(歐盟法院,C-30/14,資料庫權利) |
| 電腦存取法 | 1990 年電腦濫用法 | CFAA(2021 年 Van Buren 案後範圍縮小) | 依會員國而異 |
| 著作權/TDM 例外 | 範圍窄:僅限非商業研究(第 29A 條) | fair use 原則(較廣,依個案判斷) | DSM 指令第 3 與 4 條(TDM 權利較廣,但可保留權利) |
| 資料庫權利 | 有(承自歐盟資料庫指令) | 無對應的聯邦權利 | 依資料庫指令享有特殊權利 |
| ToS 可執行性 | 適用契約法;browsewrap 仍有爭議 | 混合:browsewrap 常不具可執行性 | 視情況而定;Ryanair 強化了 ToS 立場 |
實務上的結論是:如果你跨法域爬取,就要遵守適用法律中最嚴格的那一套。美國在 hiQ 案下對公開資料存取較寬鬆,但 hiQ 絕不是一張全面通行證(hiQ 最終仍被禁止爬取 LinkedIn,並支付了 50 萬美元)。歐盟透過 DSM 指令建立了更寬的 TDM 架構。英國則介於兩者之間——沒有廣泛的商業 TDM 例外、資料庫權利強,而且監管機關很活躍。
罰則與執法:如果真的被抓到會怎樣

空泛地說「會被罰款」或「會有法律麻煩」幫不上忙。下面是實際數字。
UK GDPR 罰款
最高罰則:,以較高者為準。
實際案例:Clearview AI 因從英國社群媒體抓取人臉影像,於 2022 年被 ICO 罰款 。第一級審裁處以管轄權為由推翻該決定,但 允許 ICO 上訴並將案件發回重審。ICO 並指出,截至 2025 年 12 月,Clearview 仍。
1990 年電腦濫用法的刑事罰則
- 第 1 條(未經授權存取):最高
- 第 3 條(未經授權損害):最高
對一般公開頁面爬取來說,遭到刑事起訴的情況極少。
但如果行為看起來像駭客入侵、憑證濫用、繞過 CAPTCHA,或讓服務受損,風險輪廓就會劇烈改變。
著作權與資料庫權利
民事損害賠償加上禁制令。若是故意商業侵權,也可能有刑事罰則,但多數爬蟲爭議都會以民事訴訟處理。
違反契約(ToS)
民事損害賠償、帳號終止、IP 封鎖。這通常是最常見、也最先發生的實際執法手段。
罰則嚴重程度摘要
| 法律框架 | 最高罰則 | 一般商業爬取的可能性 | 實際案例 |
|---|---|---|---|
| UK GDPR | £1,750 萬或全球營收 4% | 若大量處理個資,為中;非個資則低 | Clearview AI £7.5M 罰款 |
| CMA 第 1 條 | 2 年徒刑 | 公開頁面時低;若繞過控制則較高 | CPS 對未經授權存取的指引 |
| CMA 第 3 條 | 10 年徒刑 | 除非流量影響系統,否則低 | 類 DDoS 的損害案例 |
| 著作權/資料庫權利 | 損害賠償與禁制令 | 若複製受保護內容或精選資料庫,則中 | Ryanair 與 BHB 系列案件 |
| 違反 ToS | 損害賠償、帳號終止、封鎖 | 作為實務執法路徑,風險高 | Ryanair 螢幕爬蟲爭議 |
正確的爬蟲工具如何降低你的法律風險
你選的工具不會把原本違法的爬取變成合法。但它可以排除可避免的風險。
依我的經驗,尊重網站訊號的工具,和那種會粗暴繞過一切限制的工具之間,差別往往就是一個例行資料專案與一場法律麻煩的差別。
尊重 robots.txt 與網站訊號
負責任的工具,應該讓你在爬取前輕鬆檢查並遵守 robots.txt。雖然它不具法律拘束力,但法院與 ICO 都會把遵守 robots.txt 視為善意的證據。Thunderbit 的建議使用者爬取公開可得資料,並遵守 robots.txt 與網站條款。
瀏覽器爬取 vs. 雲端爬取
這個區別在法律上很重要。瀏覽器爬取只存取使用者在已登入狀態下看得到的內容——本質上就是把你手動會做的事自動化。雲端爬取則是從伺服器發出請求,速度比較快,適合公開網站,但從網站角度看,會更像「自動化存取」。
兩種模式都有。瀏覽器爬取適合需要登入的網站(可降低 CMA 下「未經授權存取」的風險),而雲端爬取則很適合公開可得、且速度很重要的電商頁面。這種雙模式設計,讓使用者能依各網站的法律風險輪廓,選擇最合適的爬取方式。
不繞過存取控制
如果工具只在瀏覽器內運作,不破解 CAPTCHA,也不繞過登入牆,在電腦濫用法下自然風險較低。Thunderbit 的 Chrome 擴充功能就是在使用者瀏覽器會話中運作——它只存取使用者本來就看得到的內容。
透明的資料匯出(支援 GDPR 合規)
Thunderbit 可直接匯出到 Excel、Google Sheets、Airtable 或 Notion。資料去向由使用者掌控。這有助於 GDPR 的透明度與合法依據文件化:你清楚知道自己收集了哪些資料,以及資料去了哪裡。工具本身不會偷偷處理或保留資料。
速率限制與負責任的存取
過高的請求量可能觸發 CMA 第 3 條(未經授權損害)。速率限制不只是技術最佳實務,也是法律保護機制。負責任的工具會避免把伺服器壓垮,這不只降低法律風險,也能減少 IP 被封鎖的機率。

英國網頁爬蟲的實用合規清單
在你爬任何東西前,先跑一遍這份清單:
- 閱讀目標網站的服務條款與可接受使用政策。
- 檢查 robots.txt 檔案,並記錄相關路徑是否被禁止。
- **判斷你想抓的資料是否屬於個人資料。**如果是,請依 UK GDPR 辨識合法依據。
- 評估你是否在抽取資料庫的「實質部分」。
- 確認你沒有繞過任何技術存取控制(CAPTCHA、登入、速率限制)。
- **若你的目的是非商業研究,**請把這點記錄下來,以便適用 TDM 例外。
- **使用速率限制。**不要把目標伺服器壓垮。
- **把一切都記錄下來:**合法依據、ToS 審查、收集的欄位、匯出目的地、保存期限。
- **如果有疑慮,**請找專精資料保護與智慧財產的律師提供法律意見。
這份清單不能取代律師意見——但它能給你一個穩固的起點,也能在日後被問到時,證明你的善意。
重點整理
- 在英國,網頁爬蟲本身不違法——但它受到四套彼此重疊的法律框架管制:UK GDPR、著作權/資料庫權利、契約法,以及電腦濫用法。
- 任何爬取行為是否合法,取決於你抓了什麼、怎麼取得、網站條款怎麼寫,以及你之後如何使用資料。
- 爬取個人資料的合規負擔最高。合法利益通常是唯一可行的合法依據,而且需要有文件化的平衡測試。
- 英國沒有廣泛的商業 TDM 例外。若沒有授權,商業 AI 訓練與資料集轉售都屬高風險。
- 在開始之前,請先用上面的決策流程圖與情境表評估你自己的狀況。
- 選擇符合合規最佳實務的工具:瀏覽器存取、不繞過 CAPTCHA、透明資料匯出與速率限制。 的設計就是以這些原則為核心——但合規責任始終在使用者身上。
- 若有疑慮,請把你的判斷記錄下來,並找律師談談。法律意見的成本,幾乎永遠比 ICO 調查低。
常見問題
在英國,爬取公開可得的資料合法嗎?
一般來說可以——爬公開資料的風險,通常低於爬取有門檻或私密資料。但「公開可得」不代表「你可以隨便用」。UK GDPR 仍可能適用於公開的個人資料,著作權可能適用於被複製的表達內容,資料庫權利可保護精心整理的集合,而 ToS 也可能限制自動化存取。
我可以從英國網站爬電子郵件和電話號碼嗎?
如果資料屬於個人資料(而電子郵件與電話號碼通常是),你就需要依 UK GDPR 擁有合法依據。對 B2B 名單開發來說,合法利益是最常見的依據,但你必須做平衡測試、最小化收集資料,並提供退出管道。爬取私人生活聯絡資料(手機號碼、私人電子郵件)的風險,遠高於商務名錄列表。
在英國法律下,網頁爬蟲和網頁爬行有什麼差別?
法律上沒有實質差別——法律看的是行為,不是名稱。爬行(crawling)通常指發現或索引頁面;爬蟲(scraping)通常指擷取結構化資料。兩者都涉及對網站的自動化存取,也都受相同的法律框架約束。
robots.txt 會讓爬蟲變成違法嗎?
不會。robots.txt 沒有法律拘束力。不過,忽略它會提高你的法律風險,因為法院與 ICO 會把它視為網站擁有者意圖的證據。如果你忽略 robots.txt,而網站 ToS 又同時禁止爬取,你等於把風險因素疊滿——那會是更難 دفاع辯護的位置。
我在英國會因網頁爬蟲而被刑事起訴嗎?
只有在你繞過存取控制(CAPTCHA、登入、IP 封鎖)或依 對電腦系統造成損害時,才有可能。若是一般對真正公開資料、在合理流量下、且沒有技術規避的爬取,幾乎不可能演變成刑事指控。當行為看起來像駭客入侵或蓄意讓服務失效時,風險輪廓就會劇烈改變。
延伸閱讀
