英國的網頁爬蟲：哪些做法有風險，哪些可能讓你吃上官司

幾個月前，我們業務團隊的一位同事問了我一個我聽過幾十次的問題：「如果我從公開網站抓競爭對手的價格，真的會惹上麻煩嗎？」他找到一份供應商聯絡資料名錄，價格整齊地排成一列，他要的只是把資料丟進試算表裡。那種猶豫是真實的——老實說，也很合理。

英國沒有單一的「網頁爬蟲法」。相反地，有四套彼此重疊的法律框架，決定某項爬取行為是否合法。也因此，答案通常永遠是「要看情況」——但這不代表你只能乾著急。在這篇指南裡，我會帶你看法律到底怎麼說、它如何套用到真實情境、可能的罰則長什麼樣子，以及如何確保合規。

我花了很多時間替 Thunderbit 的團隊研究這件事，也想把我找到的內容整理給你，讓你不必再從五篇不同的律師事務所部落格和一串 Reddit 討論裡拼湊答案。

試用 Thunderbit 進行網頁爬蟲

什麼是網頁爬蟲（以及英國企業為何會用它）

網頁爬蟲是利用軟體自動從網站蒐集資料——取代把網頁內容複製貼上到試算表裡那種繁瑣工作。

這種技術本身是中性的。它不天生合法，也不天生違法。真正重要的是你抓了什麼、怎麼抓、以及之後怎麼使用這些資料。

英國企業會用爬蟲做各種正當用途：

價格比較：例如 PriceSpy UK 會透過自動化網頁爬蟲，每天更新產品價格三到五次。
名單開發：銷售團隊從公開名錄抓公司名稱、電子郵件和電話號碼。
市場研究：分析師監控房地產列表、徵才網站或競爭對手的產品線。
學術研究：英國國家統計局在 2014 到 2015 年間，從超市網站收集了超過 220 萬筆價格報價。
AI 模型訓練：這是一個快速成長、但法律仍未定案的應用場景。

趨勢很明確。Bright Data / Vanson Bourne 對 500 位決策者（其中 200 位在英國）的調查顯示，89% 認為公開網路資料對全球經濟至關重要或非常重要，而 38% 至少每天會取得一次這類資料。

然而，還有 73% 表示，缺乏明確規範讓其組織感到擔憂。這種焦慮正是這篇文章存在的原因。

在英國，網頁爬蟲合法嗎？直接答案

英國沒有哪條法律直接全面禁止網頁爬蟲。不過，多部法律會管制你能怎麼做，而任何特定專案是否合法，取決於四個因素：

ig_010beacbdecb066e0169f1876f3d8c8191b68ddebcf937b561_compressed.webp

你抓的是什麼資料（個人資料 vs. 事實／非個人資料）
你怎麼取得資料（公開頁面 vs. 繞過登入牆或 CAPTCHA）
網站條款怎麼寫（是否禁止自動化存取）
你之後怎麼使用這些資料（內部分析 vs. 商業轉售）

我找到的最好比喻是：網頁爬蟲就像在公共場所拍照。在公共場所拍照本身不一定違法——但某些主體、地點、方式與用途，會帶來法律風險。爬蟲也是如此。公開可得很重要，但那不是全部。

ICO 最近針對 GenAI 的諮詢，是英國官方對爬取個人資料最清楚的表態之一。它指出，對於使用網頁爬取的個人資料訓練生成式 AI 模型，合法利益仍然是唯一可用的合法依據，但前提是開發者必須通過嚴格的三階段測試。這門檻很高，也顯示英國監管機關對爬取資料有多麼重視。

適用於網頁爬蟲的四部英國法律

這四個法律視角彼此重疊——任何爬蟲專案都可能觸發其中一個、兩個，甚至全部四個。

UK GDPR 與 2018 年資料保護法

如果你爬取的是個人資料——姓名、電子郵件、電話號碼、IP 位址、社群媒體檔案——UK GDPR 就會適用。「公開可見」不等於「可自由使用」。

公開可見的個人資料，依然是個人資料。

對商業爬取最相關的合法依據是合法利益（第 6 條）——但不能只是嘴上說說這四個字。你必須：

辨識出具體且正當的目的
證明這項處理對該目的而言是必要的
在你的利益與資料當事人的權利之間做平衡

ICO 對 GenAI 的諮詢回應尤其直接：開發者不應假設「廣泛的社會效益」就足夠，應提出證據說明為何其他非爬取替代方案不適合，並應採取透明機制，讓個人能理解並行使自己的權利。來源：ICO GenAI 回應。

對 B2B 名單開發而言，邏輯也一樣。銷售團隊可以依賴合法利益，收集公開列出的商務聯絡資訊，但仍必須記錄合法利益、盡量減少收集欄位、避免特殊類別資料、在可行時提供隱私資訊，並尊重拒收／退出機制。

著作權、資料庫權利與 TDM 例外

著作權保護原創網站內容：文字、圖片、商品描述、文章。像價格這類事實性資料點，單獨來看通常較不受著作權保護——但如果你複製並重新發布受保護的表達內容，就可能踩進侵權範圍。

資料庫權利在爬蟲情境中比多數人以為的還重要。英國在脫歐後保留了類歐盟的特殊資料庫權利，抽取受保護資料庫的「實質部分」——例如精心整理的名錄、商品型錄、平台列表——即使單一資料點只是事實，也可能構成侵權。

《1988 年著作權、設計與專利法》第 29A 條下的文字與資料探勘（TDM）例外，只在使用者具備合法存取權，且目的為非商業研究時，才允許為文字與資料分析而製作副本。這個範圍很窄。商業爬取、商業 AI 訓練、商業資料集轉售都不在涵蓋內。

英國政府曾考慮擴大這項例外以涵蓋 AI 訓練，但截至其2026 年 3 月《著作權與 AI》報告，在確認能同時符合創作者、AI 開發者與英國經濟的目標之前，並未推動改革。在現行制度下，若沒有既有例外適用，通常仍需要取得許可，才能把受保護作品複製用於 AI 訓練。

網站服務條款與契約法

多數網站的服務條款（ToS）都會禁止或限制自動化爬取。只要你進入網站，可能就已經在同意這些條款——尤其是你若點過接受畫面（clickwrap）。把條款藏在頁尾連結中的 browsewrap 協議較吃事實細節，但英國法院確實展現過執行爬蟲相關 ToS 限制的意願。在 Ryanair v Billigfluege 爭議中，法院在螢幕爬蟲情境下，將可見的網站條款視為具約束力。

robots.txt 不是法規。它只是網站擁有者提供給機器讀取的訊號。典型檔案長這樣：

User-agent: *
Disallow: /account/
Disallow: /checkout/
Disallow: /private/
Crawl-delay: 10

忽略 robots.txt 並不會自動讓爬蟲變成違法，但法院與 ICO 會把它視為網站擁有者意圖的證據。忽略它會提高你的法律風險，尤其是當它又和違反 ToS 或過高請求量疊加時。

1990 年電腦濫用法

這一部法最讓人睡不著——也很有理由。它設立了刑事罪名。第 1 條涵蓋未經授權存取電腦資料（最高可判 2 年徒刑）。第 3 條涵蓋損害電腦運作的未經授權行為（最高可判 10 年徒刑）。

當資料確實是公開的，而且爬蟲沒有繞過技術門檻時，CMA 風險最低。當你：

繞過登入牆、CAPTCHA 或 IP 封鎖
使用竊取的憑證或建立假帳號
發送足以影響目標服務的流量量級

風險就會升高。

英國沒有像美國那種清楚的「公開資料可自由取用」規則。這使得英國的建議更保守：公開存取雖然會實質降低 CMA 風險，但網站條款、技術控制，以及爬蟲對限制的認知，仍然都很重要。

「我可以合法爬這個嗎？」——快速決策流程圖

在你開始爬任何資料前，先走一遍這五個決策點。這不是法律意見，只是 60 秒的風險初篩。

決策點	若是	若否
資料是個人資料嗎（姓名、電子郵件等）？	適用 UK GDPR。辨識合法依據、做 LIA、最小化欄位、規劃透明度。	可能不適用 GDPR 層，但仍要繼續檢查其他項目。
網站 ToS 明確禁止爬取嗎？	有違約風險。可考慮 API、授權或法律審查。	契約風險較低，但仍要檢查 robots.txt。
是否擷取了資料庫的「實質部分」？	很可能侵犯特殊資料庫權利。可考慮授權或縮小擷取範圍。	但對被複製的單一內容，著作權仍可能適用。
是否繞過登入、CAPTCHA 或存取控制？	依 1990 年 CMA，可能構成刑事犯罪。先停止並做法律審查。	若存取確實公開，CMA 風險較低。
目的是否為非商業研究？	若你有合法存取權，第 29A 條 TDM 例外可能適用。	英國沒有廣泛的商業 TDM 安全港。仍需完整 IP 與契約分析。

唉，要是我剛開始替團隊研究爬蟲合規時就有人給我這張表就好了。它把法律複雜度變成一套可以在一分鐘內完成的結構化自我檢查。

真實情境：你的特定爬取行為在英國合法嗎？

抽象法條是一回事。大家真正想知道的是：「我的這個專案會不會出事？」

很合理。下面列出五個常見的英國爬蟲用途，並為每一個做一個迷你法律風險評估。

爬取商品價格做比較

這是最常見、而且通常風險最低的商業用途之一。價格屬於事實資料，而自動化抓價正是像 PriceSpy 這類網站的運作方式。

不過風險並不會完全消失。如果目標網站的 ToS 禁止爬取、如果你複製了商品描述或圖片、或者你擷取了精心整理的商品資料庫的實質部分，契約、著作權與資料庫權利問題就可能出現。

風險等級：低到中
關鍵合規步驟： 只收集事實性的價格欄位，避免逐字複製商品描述，遵守 ToS 與 robots.txt，使用速率限制，不要把對手的型錄原封不動地整份轉貼發布。

爬取並商業轉售資料

這是風險最高的商業情境，沒有之一。你等於把別人的資料投資變成商品出售——這可能同時牽涉四大法律支柱。

風險等級：高
關鍵合規步驟： 必須做法律審查。考慮與資料擁有者簽授權協議。如果產品包含個人資料，再加入資料保護影響評估。

擷取商務聯絡資訊做名單開發

我聊過的每支業務團隊，都有類似的做法：從名錄裡抓電子郵件、電話號碼和公司名稱。問題在於，商務聯絡資料通常也包含個人資料。即使是公開列出的員工電子郵件，依然是個人資料。

風險等級：中
關鍵合規步驟： 進行合法利益評估，盡可能只收集商務聯絡資料（不要收集私人生活聯絡資料），記錄你的合法依據，並提供退出管道。像 Thunderbit 這類工具可在這裡降低存取風險，因為其 Chrome 擴充功能是在使用者瀏覽器內運作——它只存取使用者本來就看得到的內容，不會繞過存取控制。

做學術或作品集資料分析

如果你做的是真正的非商業研究，那你在著作權例外方面擁有最強的路徑：第 29A 條 CDPA，只要你有合法存取權即可。

風險等級：低（若真的是非商業）
關鍵合規步驟： 記錄非商業目的、引用來源、盡可能匿名化或彙總資料，且不要重新發布受著作權保護的內容或個人資料。

為 AI 模型訓練而爬取內容

這是 2026 年大家問得最多的一個，而答案仍然不太令人滿意。ICO 將用網頁爬取的個人資料來訓練模型，視為高風險的隱蔽處理。英國政府 2026 年的報告也沒有引入廣泛的商業 TDM 例外。

風險等級：中到高
關鍵合規步驟： 授權、資料集來源追溯、著作權分析、個人資料過濾、合法依據文件化，以及密切追蹤英國政策變化。

情境摘要表

情境	觸發的主要法律	風險等級	關鍵合規步驟
商品價格監控	ToS、資料庫權利、著作權	低–中	收集事實欄位，尊重網站訊號
商業資料轉售	四大支柱全都可能觸發	高	必須做法律審查與授權
B2B 名單開發	UK GDPR、ToS	中	做 LIA，最小化個資
學術研究	著作權（TDM 例外）、若涉個資則含 GDPR	低	保持非商業目的，不要重新發布
AI 模型訓練	UK GDPR、著作權、資料庫權利	中–高	授權資料、記錄合法依據、監控政策

英國 vs. 美國 vs. 歐盟：網頁爬蟲法律差在哪裡

如果你只在英國營運，這一段可以略過。但我接觸的大多數企業都會跨國爬取——至少也會爬取其他法域的網站。這些差異比你想像的更重要。

法律面向	🇬🇧 英國	🇺🇸 美國	🇪🇺 歐盟
主要資料保護法	UK GDPR + DPA 2018	無聯邦等效法（州法各異）	EU GDPR
重要爬蟲判例	Clearview AI（ICO 罰款 £7.5M）	hiQ v LinkedIn（公開資料爬取可行，第九巡迴法院——但 hiQ 最終被永久禁止爬取，且在最終同意判決中支付 50 萬美元）	Ryanair v PR Aviation（歐盟法院，C-30/14，資料庫權利）
電腦存取法	1990 年電腦濫用法	CFAA（2021 年 Van Buren 案後範圍縮小）	依會員國而異
著作權／TDM 例外	範圍窄：僅限非商業研究（第 29A 條）	fair use 原則（較廣，依個案判斷）	DSM 指令第 3 與 4 條（TDM 權利較廣，但可保留權利）
資料庫權利	有（承自歐盟資料庫指令）	無對應的聯邦權利	依資料庫指令享有特殊權利
ToS 可執行性	適用契約法；browsewrap 仍有爭議	混合：browsewrap 常不具可執行性	視情況而定；Ryanair 強化了 ToS 立場

實務上的結論是：如果你跨法域爬取，就要遵守適用法律中最嚴格的那一套。美國在 hiQ 案下對公開資料存取較寬鬆，但 hiQ 絕不是一張全面通行證（hiQ 最終仍被禁止爬取 LinkedIn，並支付了 50 萬美元）。歐盟透過 DSM 指令建立了更寬的 TDM 架構。英國則介於兩者之間——沒有廣泛的商業 TDM 例外、資料庫權利強，而且監管機關很活躍。

罰則與執法：如果真的被抓到會怎樣

ig_010beacbdecb066e0169f1876f3d8c8191b68ddebcf937b561_compressed.webp

空泛地說「會被罰款」或「會有法律麻煩」幫不上忙。下面是實際數字。

UK GDPR 罰款

最高罰則：1,750 萬英鎊或全球年營收的 4%，以較高者為準。

實際案例：Clearview AI 因從英國社群媒體抓取人臉影像，於 2022 年被 ICO 罰款 £7,552,800。第一級審裁處以管轄權為由推翻該決定，但 2025 年 10 月的上級審裁處允許 ICO 上訴並將案件發回重審。ICO 並指出，截至 2025 年 12 月，Clearview 仍獲准上訴至上訴法院。

1990 年電腦濫用法的刑事罰則

第 1 條（未經授權存取）：最高 2 年徒刑
第 3 條（未經授權損害）：最高 10 年徒刑

對一般公開頁面爬取來說，遭到刑事起訴的情況極少。

但如果行為看起來像駭客入侵、憑證濫用、繞過 CAPTCHA，或讓服務受損，風險輪廓就會劇烈改變。

著作權與資料庫權利

民事損害賠償加上禁制令。若是故意商業侵權，也可能有刑事罰則，但多數爬蟲爭議都會以民事訴訟處理。

違反契約（ToS）

民事損害賠償、帳號終止、IP 封鎖。這通常是最常見、也最先發生的實際執法手段。

罰則嚴重程度摘要

法律框架	最高罰則	一般商業爬取的可能性	實際案例
UK GDPR	£1,750 萬或全球營收 4%	若大量處理個資，為中；非個資則低	Clearview AI £7.5M 罰款
CMA 第 1 條	2 年徒刑	公開頁面時低；若繞過控制則較高	CPS 對未經授權存取的指引
CMA 第 3 條	10 年徒刑	除非流量影響系統，否則低	類 DDoS 的損害案例
著作權／資料庫權利	損害賠償與禁制令	若複製受保護內容或精選資料庫，則中	Ryanair 與 BHB 系列案件
違反 ToS	損害賠償、帳號終止、封鎖	作為實務執法路徑，風險高	Ryanair 螢幕爬蟲爭議

正確的爬蟲工具如何降低你的法律風險

你選的工具不會把原本違法的爬取變成合法。但它可以排除可避免的風險。

依我的經驗，尊重網站訊號的工具，和那種會粗暴繞過一切限制的工具之間，差別往往就是一個例行資料專案與一場法律麻煩的差別。

尊重 robots.txt 與網站訊號

負責任的工具，應該讓你在爬取前輕鬆檢查並遵守 robots.txt。雖然它不具法律拘束力，但法院與 ICO 都會把遵守 robots.txt 視為善意的證據。Thunderbit 的文件建議使用者爬取公開可得資料，並遵守 robots.txt 與網站條款。

瀏覽器爬取 vs. 雲端爬取

這個區別在法律上很重要。瀏覽器爬取只存取使用者在已登入狀態下看得到的內容——本質上就是把你手動會做的事自動化。雲端爬取則是從伺服器發出請求，速度比較快，適合公開網站，但從網站角度看，會更像「自動化存取」。

Thunderbit 兩種模式都有。瀏覽器爬取適合需要登入的網站（可降低 CMA 下「未經授權存取」的風險），而雲端爬取則很適合公開可得、且速度很重要的電商頁面。這種雙模式設計，讓使用者能依各網站的法律風險輪廓，選擇最合適的爬取方式。

不繞過存取控制

如果工具只在瀏覽器內運作，不破解 CAPTCHA，也不繞過登入牆，在電腦濫用法下自然風險較低。Thunderbit 的 Chrome 擴充功能就是在使用者瀏覽器會話中運作——它只存取使用者本來就看得到的內容。

透明的資料匯出（支援 GDPR 合規）

Thunderbit 可直接匯出到 Excel、Google Sheets、Airtable 或 Notion。資料去向由使用者掌控。這有助於 GDPR 的透明度與合法依據文件化：你清楚知道自己收集了哪些資料，以及資料去了哪裡。工具本身不會偷偷處理或保留資料。

速率限制與負責任的存取

過高的請求量可能觸發 CMA 第 3 條（未經授權損害）。速率限制不只是技術最佳實務，也是法律保護機制。負責任的工具會避免把伺服器壓垮，這不只降低法律風險，也能減少 IP 被封鎖的機率。

ig_010beacbdecb066e0169f18811201081919686e582502a1db7_compressed.webp

英國網頁爬蟲的實用合規清單

在你爬任何東西前，先跑一遍這份清單：

閱讀目標網站的服務條款與可接受使用政策。
檢查 robots.txt 檔案，並記錄相關路徑是否被禁止。
**判斷你想抓的資料是否屬於個人資料。**如果是，請依 UK GDPR 辨識合法依據。
評估你是否在抽取資料庫的「實質部分」。
確認你沒有繞過任何技術存取控制（CAPTCHA、登入、速率限制）。
**若你的目的是非商業研究，**請把這點記錄下來，以便適用 TDM 例外。
**使用速率限制。**不要把目標伺服器壓垮。
**把一切都記錄下來：**合法依據、ToS 審查、收集的欄位、匯出目的地、保存期限。
**如果有疑慮，**請找專精資料保護與智慧財產的律師提供法律意見。

這份清單不能取代律師意見——但它能給你一個穩固的起點，也能在日後被問到時，證明你的善意。

重點整理

在英國，網頁爬蟲本身不違法——但它受到四套彼此重疊的法律框架管制：UK GDPR、著作權／資料庫權利、契約法，以及電腦濫用法。
任何爬取行為是否合法，取決於你抓了什麼、怎麼取得、網站條款怎麼寫，以及你之後如何使用資料。
爬取個人資料的合規負擔最高。合法利益通常是唯一可行的合法依據，而且需要有文件化的平衡測試。
英國沒有廣泛的商業 TDM 例外。若沒有授權，商業 AI 訓練與資料集轉售都屬高風險。
在開始之前，請先用上面的決策流程圖與情境表評估你自己的狀況。
選擇符合合規最佳實務的工具：瀏覽器存取、不繞過 CAPTCHA、透明資料匯出與速率限制。Thunderbit 的設計就是以這些原則為核心——但合規責任始終在使用者身上。
若有疑慮，請把你的判斷記錄下來，並找律師談談。法律意見的成本，幾乎永遠比 ICO 調查低。

使用 Thunderbit 試用 AI 網頁爬蟲 Get Started Free

常見問題

在英國，爬取公開可得的資料合法嗎？

一般來說可以——爬公開資料的風險，通常低於爬取有門檻或私密資料。但「公開可得」不代表「你可以隨便用」。UK GDPR 仍可能適用於公開的個人資料，著作權可能適用於被複製的表達內容，資料庫權利可保護精心整理的集合，而 ToS 也可能限制自動化存取。

我可以從英國網站爬電子郵件和電話號碼嗎？

如果資料屬於個人資料（而電子郵件與電話號碼通常是），你就需要依 UK GDPR 擁有合法依據。對 B2B 名單開發來說，合法利益是最常見的依據，但你必須做平衡測試、最小化收集資料，並提供退出管道。爬取私人生活聯絡資料（手機號碼、私人電子郵件）的風險，遠高於商務名錄列表。

在英國法律下，網頁爬蟲和網頁爬行有什麼差別？

法律上沒有實質差別——法律看的是行為，不是名稱。爬行（crawling）通常指發現或索引頁面；爬蟲（scraping）通常指擷取結構化資料。兩者都涉及對網站的自動化存取，也都受相同的法律框架約束。

robots.txt 會讓爬蟲變成違法嗎？

不會。robots.txt 沒有法律拘束力。不過，忽略它會提高你的法律風險，因為法院與 ICO 會把它視為網站擁有者意圖的證據。如果你忽略 robots.txt，而網站 ToS 又同時禁止爬取，你等於把風險因素疊滿——那會是更難 دفاع辯護的位置。

我在英國會因網頁爬蟲而被刑事起訴嗎？

只有在你繞過存取控制（CAPTCHA、登入、IP 封鎖）或依 1990 年電腦濫用法對電腦系統造成損害時，才有可能。若是一般對真正公開資料、在合理流量下、且沒有技術規避的爬取，幾乎不可能演變成刑事指控。當行為看起來像駭客入侵或蓄意讓服務失效時，風險輪廓就會劇烈改變。

延伸閱讀