2024 年 5 月 1 日,荷蘭資料保護主管機關拋出一句震撼整個歐洲資料團隊的標題:[「爬取幾乎總是違法。」](https://www.autoriteitpersoonsgegevens.nl/en/current/scraping-almost-always-illegal) 如果你在銷售、電商或房地產領域工作——基本上只要你仰賴網頁資料,看到這句話大概都會心頭一沉。
我懂。Thunderbit](https://thunderbit.com/) 每天都會和需要網頁資料的企業團隊交流,無論是價格監控、名單開發,還是市場研究,大家遇到的困擾都一樣:他們一搜尋「is web scraping legal in Europe」,得到的答案幾乎都只是某種變體的「要看情況」。當你手上有專案截止日,還有一串要爬取的網址時,這種回答一點幫助都沒有。
所以我花了好幾週深入研究實際法規、DPA 指引、執法紀錄與判例,整理出更實用的內容:一份可操作的決策清單、一張整合過的防護措施表、真實罰金金額,以及一個逐步指南,教你如何在不踩到監管紅線的前提下爬取歐洲網站。不論你是要爬取 Amazon 商品價格,還是從名錄中擷取 B2B 聯絡資料,這篇文章都能幫你看清楚界線在哪裡,以及如何安全地待在正確的一側。
什麼是網頁爬蟲(以及為什麼歐洲企業應該在意)?
網頁爬蟲是指把網站上的資料自動擷取成結構化格式——例如試算表、資料庫或 CRM。你不必手動複製貼上 200 個頁面上的商品名稱與價格,而是讓爬蟲逐頁拜訪,將你需要的欄位整理成整齊的欄列。
為什麼這對非技術團隊很重要?因為網頁資料支撐著真正的商業決策。銷售團隊會爬取名錄找名單;電商經理每天監控競品價格;房地產分析師追蹤各平台的刊登趨勢;市場研究人員則大規模蒐集公開評論與評分。[全球網頁爬蟲市場](https://thunderbit.com/blog/ai-web-scraping) 正在快速成長,而企業每天都在爬取數百萬筆資料。
但歐洲的監管環境和美國不同。GDPR、資料庫指令,以及持續演變的 DPA 指引都意味著「公開可得」不等於「可以自由使用」。正如荷蘭 DPA 主席 Aleid Wolfsen 所說:「公開不會自動等於允許爬取。」在開始之前先理解規則並不是可有可無——這是乾淨資料集與六位數罰金之間的差別。
在歐洲進行網頁爬蟲合法嗎?簡短答案
網頁爬蟲在歐洲本身並不違法。但是否合法,取決於三件事:你爬的是什麼資料、你怎麼爬,以及你爬來做什麼。
在歐盟,爬蟲受到三層相互重疊的法律規範:
- GDPR——只要你爬取個人資料(姓名、電子郵件、電話號碼、IP 位址,甚至是假名化識別碼),就會適用。
- 歐盟資料庫指令——保護那些創作者在整理資料上投入「實質投資」的資料庫。
- 合約/服務條款法——許多網站在 ToS 中明確禁止爬取,而歐盟法院也會執行這些條款。
關鍵在於:「公開」不代表「不受規範」。即使不是個人資料,也可能受到資料庫權利或合約法保護。每個爬蟲專案都需要把這三層一起檢視。
影響網頁爬蟲的關鍵歐盟法律
GDPR:當你爬取個人資料時
任何可識別個人的資料都會觸發 GDPR 義務。包括姓名、電子郵件、電話號碼、IP 位址、照片,甚至是可重新識別的假名化資料。只要你開始爬取個人資料,你就成為 GDPR 下的「資料控制者」,必須承擔責任:
- 合法依據(第 6 條): 你需要有法律理由才能處理資料。對大規模爬取來說,同意幾乎從來都不實際——你不可能在蒐集數百萬人公開貼出的資訊前,先一一徵求他們同意。最常被引用的依據是合法利益(第 6(1)(f) 條),但它要求你完成一個有紀錄的三步驟測試:(1)你的利益是正當的,(2)處理是必要的,(3)在考量資料主體合理期待的情況下,不會對其權利造成不成比例的影響。
- 透明度(第 14 條): 由於你不是直接向當事人蒐集資料,因此你必須通知他們——通常要在一個月內——你蒐集了什麼、為什麼蒐集,以及他們如何行使權利。如果逐一通知不具比例性,你就必須公開一份包含第 14 條全部內容的一般通知。
- 資料最小化: 只蒐集你實際需要的內容。如果你只想要商品價格,就不要順手把賣家的電子郵件地址也抓下來。
- 儲存限制與權利管理: 設定保留期限、遵守刪除請求,並提供來源資訊的查詢管道。
[EDPB ChatGPT 工作小組報告](https://www.edpb.europa.eu/system/files/2024-05/edpb_20240523_report_chatgpt_taskforce_en.pdf)(2024 年 5 月通過)又加了一層:它指出不同處理階段——蒐集、前處理、訓練、提示與輸出——都需要各自進行合法依據分析。EDPB 並沒有否定網頁爬取中的合法利益,但它堅持必須進行完整的三步驟評估,並搭配適當的防護措施。
歐盟資料庫指令:保護資料的組織方式
資料庫指令賦予資料庫創作者一項 sui generis 權利,只要他們在取得、驗證或呈現資料上投入了「實質投資」。如果你的爬取行為擷取了此類資料庫的「實質部分」,你就可能侵害這項權利。
實務上,門檻相對高。從大型零售商網站爬幾百個商品價格,通常不太會構成問題。但如果你批量下載競爭對手整份目錄——數萬筆刊登資料——就可能踩線,尤其當這會影響資料庫創作者回收投資的能力時。歐盟法院已在多起案件中對這個門檻作出判決,而核心問題始終是比例原則。
對多數商業爬蟲來說——例如從商品頁擷取特定欄位、比較同一類別中的刊登資料——資料庫指令的風險較低。但風險不是零,當你設計爬取範圍時,仍值得納入考量。
服務條款:合約法的變數
這一點最容易讓人踩雷。許多網站會在服務條款中禁止爬取。在歐洲,違反 ToS 屬於民事問題(不是刑事),但仍可能導致禁制令、合約訴訟與實際財務損失。
你需要知道兩種形式:browsewrap(被動條款,通常只是藏在頁面底部的一個連結)較難執行,因為使用者從未主動同意。clickwrap(你必須勾選方框或點選「我同意」)則更容易被執行。
歐盟的里程碑案件是 Ryanair v. PR Aviation:即使資料庫權利不適用,法院仍對爬蟲執行了 Ryanair 的 ToS,因為爬蟲方已同意條款。所以,在爬取前務必要先檢查網站 ToS。如果是明確禁止爬取的 clickwrap 協議,請謹慎行事——或者考慮改用 API。
DSM 指令與 AI 法:研究與文字/資料探勘的例外
並非所有爬取都觸發相同限制。數位單一市場(DSM)指令(2019)引入了兩項文字與資料探勘(TDM)例外:
- 第 3 條: 研究機構與文化遺產組織可在合法取得的內容上進行 TDM。
- 第 4 條: 任何人——包括商業實體——都可以進行 TDM,除非權利人已明確選擇退出(例如透過 robots.txt、ai.txt 或 TDMRep 標頭)。
歐盟 AI 法(第 53 條) 又為 AI 模型提供者增加了義務:他們必須遵守 TDM 退出機制,並記錄訓練資料來源。
有一個但書:這些例外涵蓋的是著作權與資料庫權利,不是 GDPR。如果你的 TDM 涉及個人資料,你仍然需要另一個獨立的 GDPR 合法依據。

「這個可以爬嗎?」歐洲資料的決策清單
這一段是我剛開始研究這個主題時,最希望能直接找到的內容。每篇法律文章都會說「要看情況」——但實際的決策流程到底長什麼樣?以下是一份帶有明確門檻的合規檢查清單。每一步都會導向 ✅ 可繼續、⚠️ 需加強防護,或 🛑 停止。
步驟 1:資料是個人資料還是非個人資料?
非個人資料(商品價格、SKU 編號、未與個人連結的商業地址):監管負擔較低。你仍需檢查資料庫指令與 ToS,但 GDPR 不適用。✅ 進入步驟 3。
個人資料(姓名、電子郵件、電話號碼、照片、任何與個人連結的識別資訊):GDPR 適用。⚠️ 進入步驟 2。
步驟 2:適用哪個 GDPR 合法依據?
- 同意: 對大規模爬取幾乎不可行。🛑 除非你的情境非常狹窄且具體。
- 合法利益(第 6(1)(f) 條): 最常見的依據。但它需要一份有紀錄的三步驟測試:
- 你的利益是正當的(依據 ,商業利益也可能成立)。
- 為了這項利益,處理是必要的。
- 權衡測試:在考量資料主體的合理期待後,你的利益不會凌駕其權利。
- 在爬取前先記錄你的權衡測試。 如果你無法清楚說明,為什麼那些資料主體會合理預期這種用途,那就是紅旗。⚠️ 在完成紀錄的合法利益評估後再繼續。
步驟 3:網站的 ToS 是否限制爬取?
- 禁止爬取的 clickwrap 協議: 🛑 高風險。請考慮其他資料來源或官方 API。
- browsewrap 或沒有 ToS 限制: ⚠️ 風險較低,但仍要尊重 robots.txt 與技術性反對訊號。
步驟 4:資料庫指令是否適用?
- 目標是否為一個在資料組織上投入實質投資的資料庫?
- 你的爬取是否會擷取該資料庫的「實質部分」?
- 如果兩者都是:⚠️ 可能構成 sui generis 侵權。請限制擷取範圍。
步驟 5:你是否受研究或 TDM 例外保護?
- 是註冊研究機構或文化遺產組織嗎?DSM 指令第 3 條可能適用。✅
- 是商業 TDM 嗎?檢查第 4 條的退出訊號(robots.txt、ai.txt、TDMRep)。如果網站已選擇退出,🛑 這個來源就停止。
步驟 6:你是否已套用 DPA 建議的防護措施?
如果你已通過上述門檻,最後一步就是落實 CNIL、荷蘭 DPA 與 EDPB 所建議的防護措施。下一節會詳細說明。✅ 在已配置防護措施的情況下繼續。

DPA 合規防護措施:CNIL、荷蘭 DPA 與 EDPB 的建議
我找到的競品文章裡,沒有一篇能把歐洲最積極處理爬蟲議題的三大監管機關的防護措施完整整合起來。所以我根據[CNIL 網頁爬取重點說明](https://www.cnil.fr/en/ai-how-to-sheets)、[荷蘭 AP 指引](https://www.autoriteitpersoonsgegevens.nl/en/current/scraping-almost-always-illegal) 與[EDPB ChatGPT 工作小組報告](https://www.edpb.europa.eu/system/files/2024-05/edpb_20240523_report_chatgpt_taskforce_en.pdf) 整理出這張表。
| 防護措施 | CNIL | 荷蘭 DPA(AP) | EDPB 工作小組 | 實作建議 |
|---|---|---|---|---|
| 第 14 條透明度通知 | ✅ 必要 | ✅ 必要 | ✅ 必要 | 公開通知,列出來源類別、用途、合法依據、保留期限、權利聯絡管道與 DPO 聯絡方式 |
| 爬取前 DPIA | ✅ 建議(高風險時為強制) | ✅ 必要 | ✅ 必要 | 上線前先記錄權衡測試、資料類別、風險與緩解措施 |
| 資料最小化 | ✅ 必要(定義精確蒐集標準) | ✅ 必要 | ✅ 必要 | 設定爬蟲只擷取需要的欄位;立即刪除無關資料 |
| 速率限制/尊重 robots.txt | ✅ 必要(排除透過 robots.txt/CAPTCHA 表示反對的網站) | — | — | 解析 robots.txt、設定請求間隔、標示使用者代理字串 |
| 假名化/匿名化 | ⚠️ 建議(蒐集後立即執行) | ✅ 強烈建議 | ✅ 建議 | 對 ID 做雜湊或隨機化;移除個人檔案網址;若不需要識別身分,模糊處理臉部 |
| 保留期限 | ✅ 需明確限制 | ✅ 越短越好 | ✅ 需明確限制 | 自動化刪除排程;將原始快取與擷取出的事實分開 |
| 退出/黑名單機制 | ✅ 建議(可酌情預先反對) | ✅ 必要(第 21 條反對權) | ✅ 必要 | 提供退出表單、網域黑名單、個人層級排除機制 |
| 排除敏感來源 | ✅ 必要(健康論壇、未成年人網站、色情網站、族譜網站) | ✅ 必要 | ✅ 必要 | 為健康、宗教、政治、生物辨識、未成年人等來源維持預設封鎖清單 |
順帶一提,Thunderbit 的[「AI 建議欄位」](https://thunderbit.com/blog/web-scraping-without-coding) 功能可讓使用者精確定義要擷取哪些欄位——價格、SKU、商品名稱——因此爬蟲只會收集必要資訊。你不是把整個頁面大量下載下來;你是在選取符合目的限制與資料最小化原則的結構化欄位。不過,沒有任何工具能讓不合規的爬取變成合法。法律分析永遠要先做。

你的使用情境在歐洲能合法爬嗎?依產業提供的指引
我在論壇最常看到的問題不是「爬取是否合法?」而是「我的爬取是否合法?」抽象的 GDPR 理論不會直接回答這件事。所以這裡依常見商業用途做個拆解。
| 使用情境 | 資料類型 | 主要法律風險 | 可能結果 |
|---|---|---|---|
| 電商價格監控(公開商品刊登) | 非個人資料(價格、SKU、商品名稱) | 資料庫指令 sui generis;違反 ToS | 若沒有個人資料,且沒有系統性擷取資料庫的「實質部分」,整體風險通常較低 |
| B2B 名單開發(從名錄取得聯絡資訊) | 個人資料(姓名、電子郵件、電話號碼) | GDPR 第 6 條合法依據;第 14 條通知;電子通訊的 ePrivacy | 風險較高——需要有紀錄的合法利益權衡測試,加上通知義務 |
| 房地產刊登(入口網站中的房產資料) | 混合型(地址可能是非個人資料;屋主姓名是個人資料) | 資料庫指令;ToS;若與屋主連結則受 GDPR 約束 | 中等風險——將屋主資料匿名化、檢查 ToS、尊重 robots.txt |
| AI 訓練資料(大規模網頁內容爬取) | 若未過濾,可能包含個人資料 | GDPR + 歐盟 AI 法第 53 條 TDM 義務 | 風險很高——必須同時符合 GDPR 與 AI 法;需要退出機制與強健過濾 |
對於像公開電商資料這類低風險情境,像 Thunderbit 的[Amazon 與 Shopify 即時範本](https://thunderbit.com/blog/ai-for-ecommerce) 這種具備結構化模板的工具,能降低風險,因為它只擷取特定的非個人欄位,不會收集多餘內容。對於涉及個人資料的高風險情境(例如名單開發),法律分析必須先做。再聰明的爬蟲,也不會把不合規的蒐集變成合規。

歐盟 vs. 美國 vs. 英國:網頁爬蟲法規怎麼比?
如果你的業務橫跨國界,你就需要了解這些規則有何差異。我找不到一篇競品文章能把這件事整理成清楚的並列表,所以這裡直接列給你。
| 面向 | 歐盟 | 美國 | 英國(脫歐後) |
|---|---|---|---|
| 主要法規 | GDPR + 資料庫指令 + ePrivacy | CFAA + 州法(聯邦資料隱私較有限) | UK GDPR + 2018 年資料保護法 |
| 公開資料爬取 | 若涉及個人資料,仍需 GDPR 合法依據 | 一般在 hiQ v. LinkedIn 後屬合法(公開資料) | 與歐盟相近;適用 ICO 指引 |
| ToS 執行 | 民事問題;Ryanair v. PR Aviation 曾執行 sui generis 權利 | Van Buren 限縮了 CFAA;違反 ToS 不等於刑事 | 民事問題,與歐盟類似 |
| 資料庫保護 | sui generis 權利(強) | 沒有對應的聯邦權利 | 保留 sui generis 權利 |
| AI/TDM 例外 | DSM 指令第 3–4 條;AI 法第 53 條 | 沒有聯邦 TDM 例外(適用合理使用原則) | 英國正在研究 TDM 例外(截至 2026 年仍停滯) |
| 主要執法機關 | 各國 DPA(CNIL、荷蘭 AP 等) | FTC + 州檢察長 | ICO |
| 近期趨勢 | 越來越嚴格(荷蘭 AP:個人資料「幾乎總是違法」) | hiQ 之後較寬鬆 | 中度;大致跟隨歐盟方向 |
如果你爬的是歐洲網站,或是關於歐洲居民的資料,即使你的公司位在美國或英國,適用的也是歐盟規則。
真實罰款與案例:如果被抓到,實際會發生什麼事(2022–2026)
這一段回答的是問題背後的問題:「真實風險有多大?」我整理了 2022 年到 2026 年 4 月間,所有公開的、涉及網頁爬取或被爬取個人資料的 DPA 執法案件。
| 年份 | 執法機關 | 對象 | 違規內容 | 罰款/結果 |
|---|---|---|---|---|
| 2022 | 義大利 Garante | Clearview AI | 未具合法依據爬取人臉影像 | 2,000 萬歐元罰款 + 禁令 + 刪除命令 |
| 2022 | 希臘資料保護機關 | Clearview AI | 同上——人臉辨識爬取 | 2,000 萬歐元罰款 + 禁令 + 刪除 |
| 2022 | CNIL(法國) | Clearview AI | 人臉辨識資料庫 | 2,000 萬歐元罰款 + 每日 10 萬歐元可能罰則 |
| 2023 | CNIL(法國) | Clearview AI | 未遵守 2022 年命令 | 520 萬歐元罰鍰 |
| 2023 | 奧地利 DSB | Clearview AI | 從公開網路取得 300 億以上人臉影像 | 刪除 + EU 代表人命令(未公布罰款) |
| 2024 | 荷蘭 AP | Clearview AI | 非法蒐集人臉辨識資料 | 3,050 萬歐元罰款 + 合規命令 |
| 2024 | CNIL(法國) | KASPR | 為名單開發而爬取 LinkedIn 聯絡資料 | 24 萬歐元罰款——1.6 億筆聯絡人、受限可見資料、保留 5 年 |
| 2024 | 愛爾蘭 DPC | X / Grok | 將公開貼文用於 AI 訓練 | 暫停協議;2025 年啟動法定調查 |
| 2024 | 愛爾蘭 DPC | Meta | 規劃將公開 Facebook/Instagram 內容用於 LLM 訓練 | Meta 暫停歐盟 AI 訓練計畫 |
| 2024 | 義大利 Garante | OpenAI | ChatGPT 訓練資料與透明度 | 開出 1,500 萬歐元罰款,並於 2026 年 3 月被[羅馬法院撤銷](https://economictimes.indiatimes.com/tech/technology/italian-court-overturns-openai-fine-in-landmark-ai-privacy-ruling/articleshow/119434771.cms) |
歐盟/歐洲經濟區在爬蟲/公開網路類別的總罰鍰:超過 9,500 萬歐元(不含已被撤銷的 OpenAI 罰款)。
這些重大罰款全部針對大規模、毫無差別地蒐集生物辨識或個人資料,且沒有任何合法依據。Clearview 爬取了數十億張臉部影像。KASPR 爬取了 1.6 億筆聯絡資料,包括受限可見的 LinkedIn 個人檔案資料,並保存了五年。
而有比例、具目標性的公開非個人資料爬取——例如商品價格或 SKU 編號——目前尚未成為執法對象。這不代表它完全沒風險,但至少能幫你更準確地看待風險數字。
如何安全地爬取歐洲網站:逐步指南
- 難度: 初學者
- 所需時間: 約 15 分鐘(含合規檢查)
- 你需要準備: Chrome 瀏覽器、(免費版即可)、目標網址,以及上方清單的快速檢查
步驟 1:定義你的目的與資料需求
在打開任何工具之前,先寫下你為什麼需要這些資料,以及你具體需要哪些欄位。這不只是好習慣——這是 GDPR 目的限制與資料最小化原則的基礎。
例如:「我需要 50 個 Amazon 商品頁的商品名稱、價格與庫存狀態,好更新我們的競品定價試算表。」這就很具體。相較之下,「我想把 Amazon 上的所有東西都爬下來」就不行。前者通過最小化測試;後者不通過。
步驟 2:跑一次合規檢查清單
依照上方六步驟「這個可以爬嗎?」清單逐項檢查。如果任何一個門檻顯示 🛑,請先停止並諮詢法律顧問,再繼續。
把我們的 Amazon 定價範例放進這個門檻中:資料是非個人資料(價格、SKU、商品名稱)✅,沒有 GDPR 個人資料問題✅,Amazon 的 ToS 必須檢查(它們確實限制爬取,所以有可用時應考慮官方產品資料 API)⚠️,而對 50 個商品而言資料庫指令風險較低✅。
步驟 3:選擇正確的爬取方式
| 方法 | 易用性 | 合規支援 | 維護成本 | 準確度 |
|---|---|---|---|---|
| 手動複製貼上 | 低 | 不適用(由你控制複製內容) | 高(耗時) | 容易出錯 |
| 程式碼爬蟲(Python、Scrapy) | 低(需要寫程式) | 內建無 | 高(網站改版就壞) | 維護得當則高 |
| Thunderbit(AI 驅動) | 非常高 | 內建欄位層級最小化 | 低(AI 可適應頁面變化) | 高 |
| 官方 API | 中 | 最高(結構化、經授權的存取) | 低 | 最高 |
對沒有開發團隊的商務使用者來說, 是最快的路徑。對於有官方 API 的網站(例如 Amazon 的 Product Advertising API),API 永遠是最安全的選擇——但它通常對資料量與欄位有限制。
步驟 4:將你的爬蟲設定為合規模式
在 Thunderbit 中:
- 前往你的目標頁面(例如 Amazon 商品刊登頁)。
- 點擊 Chrome 工具列中的 Thunderbit 圖示,選擇「AI 建議欄位」。AI 會掃描頁面,並建議像「商品名稱」、「價格」、「評分」與「庫存狀態」之類的欄位。
- 移除任何你不需要的欄位。 如果 AI 建議了「賣家名稱」或「賣家電子郵件」,而你只需要定價資料,就刪掉那些欄位。這就是實務上的資料最小化。
- 使用欄位 AI 提示詞加入指令,例如「排除個人識別資訊」或「只擷取公開價格資料」。
- 對公開電商網站選擇雲端爬取(速度更快、無需登入),或對需要驗證的網站選擇瀏覽器爬取。
- 在按下「爬取」前,先確認 robots.txt 沒有禁止你的使用情境。你可以直接在瀏覽器中開啟
[domain]/robots.txt來檢查。
現在你應該會看到一個表格預覽,只保留你設定的欄位——沒有多餘的個人資料,也沒有不必要的中繼資料。
步驟 5:負責任地匯出、儲存與管理資料
爬取完成後,將資料匯出到[Excel、Google Sheets、Airtable 或 Notion](https://thunderbit.com/blog/web-scraping-without-coding)——Thunderbit 都支援免費匯出。
接著:
- 設定保留期限。 不要無限期保存爬取資料。如果你是每週監控價格,上個月的原始資料大概就不需要了。
- 若有蒐集個人資料(例如名單開發),請記錄你的合法依據、公開第 14 條透明度通知,並建立處理退出與刪除請求的流程。
- 盡可能自動化刪除排程。 Thunderbit 的[排程爬蟲](https://thunderbit.com/) 可以在固定間隔自動執行重複爬取,同時維持相同的欄位設定,讓每次執行都維持在你的合規參數內。
在歐洲爬取時維持合規的小技巧
以下是我在研究這個主題、與重視合規的團隊交流後整理出的幾個做法:
- 每次爬新網站前都先檢查 ToS。 這只要兩分鐘,卻可能幫你省下好幾個月的法律麻煩。
- 有 API 就用 API。 它們有結構、經授權,而且是最安全的路徑。爬蟲應該是備案,不是預設。
- 任何涉及大規模個人資料的專案,都應進行 DPIA。 CNIL 指出 AI 訓練資料集可能產生高風險,而 DPIA 就是你的責任證明。即使是較小的專案,把分析記錄下來也很明智。
- 保留爬取紀錄。 記下爬了什麼、什麼時候爬、從哪裡爬、你的合法依據,以及資料保留期限。若 DPA 有一天來問,你會慶幸自己留著。
- 監測監管更新。 DPA 指引變化很快——CNIL 在 2026 年 1 月發布了新的 AI 爬取說明,EDPB 也預期會發布更多意見。今天的規則,明天可能會更嚴。
- 不要從受限或敏感來源爬取。 CNIL 的[強制排除清單](https://www.cnil.fr/en/ai-how-to-sheets) 包含健康論壇、主要由未成年人使用的網站、色情網站、族譜網站,以及高度結構化的個資網站。如果你在建立爬取專案,請維持一份預設封鎖清單。
- 自動化流量在營運上非常重要。 指出,2024 年機器人流量占整體網路流量的 42%;而 自動化 bot 流量首次超越人類流量,2024 年達到 51%。監管機關愈來愈把 bot 行為、速率與規避機制視為風險與不公平的證據。以負責任的方式爬取——標示你的 user agent、做速率限制、尊重反對訊號——不只是禮貌而已;它在法律上也有意義。
結論
網頁爬蟲在歐洲並不違法。但它受到規範——尤其是涉及個人資料時。
法律結果取決於你爬的是什麼(個人 vs. 非個人)、你怎麼爬(ToS、robots.txt、速率限制、欄位層級最小化),以及你為什麼爬(有紀錄的目的與合法依據)。執法紀錄已經很清楚:對個人資料進行大規模、無差別且沒有任何合法依據的爬取,正是企業面臨七位數與八位數罰款的地方。相較之下,在具備防護措施的前提下,針對公開非個人資料進行有比例、具目標性的爬取,風險類別完全不同。
實務框架如下:
- 每次爬取專案前都先使用決策清單。
- 套用 DPA 建議的防護措施(透明度、最小化、保留期限限制、退出機制)。
- 選擇內建合規支援的工具。 Thunderbit 的 AI 欄位選擇、結構化擷取,以及[免費匯出到 Google Sheets、Excel、Airtable 與 Notion](https://thunderbit.com/pricing),都能讓你只爬取需要的資料——不多也不少。
- 把一切都記錄下來。 權衡測試、來源清單、保留排程、DPIA。若監管機關來問,你的檔案就是你的防線。
最後照例提醒:這篇文章僅供資訊參考,不構成法律建議。若是涉及大規模個人資料的高風險情境,請諮詢合格的隱私律師。法規仍在演變,而出錯的代價很真實。
想親自試試看合規、具目標性的網頁爬取嗎?[Thunderbit 免費版](https://chromewebstore.google.com/detail/thunderbit-ai-web-scraper/hbkblmodhbmcakopmmfbaopfckopccgp) 可讓你在小規模下體驗結構化擷取——定義欄位、只爬需要的資料,幾下點擊就能匯出。你也可以瀏覽我們的[YouTube 頻道](https://www.youtube.com/@thunderbit-ai),查看逐步教學。
常見問題
1. 如果資料是公開可得的,在歐洲進行網頁爬蟲合法嗎?
如果資料包含個人資訊,公開可得並不會使其免於 GDPR。正如荷蘭 DPA 所說,「公開不會自動等於允許爬取。」非個人公開資料(商品價格、SKU)通常風險較低,但你仍需檢查資料庫指令與網站服務條款。
2. 我可以從歐洲網站爬取電子郵件和電話號碼嗎?
電子郵件與電話號碼在 GDPR 下屬於個人資料。你需要合法依據——通常是附帶有紀錄權衡測試的合法利益——而且必須依第 14 條通知當事人。CNIL 在 2024 年因 KASPR 未具足夠透明度或合法依據、爬取 LinkedIn 聯絡資料而處以 24 萬歐元罰款,因此這是一個執法相當活躍的領域。
3. 歐洲非法網頁爬蟲的最高罰金是多少?
荷蘭 DPA 在 2024 年因 Clearview AI 從公開網路非法蒐集人臉辨識資料,而處以 。歐盟其他多個 DPA 也各自對 Clearview 開罰 2,000 萬歐元。2022–2026 年間,歐盟/歐洲經濟區與爬蟲相關的總罰款已超過 9,500 萬歐元。
4. 遵守 robots.txt 就代表在歐洲進行網頁爬蟲合法嗎?
遵守 robots.txt 是最佳實務,也符合[CNIL 的強制防護措施](https://www.cnil.fr/en/ai-how-to-sheets),但它本身不能保證合法。你仍然必須遵守 GDPR(若涉及個人資料)、資料庫指令,以及網站的服務條款。把遵守 robots.txt 視為多層合規框架中的一層即可。
5. 歐洲與美國的網頁爬蟲法律有什麼不同?
歐盟明顯更嚴格。GDPR 適用於任何個人資料——即使是公開可得的資料——而資料庫指令則為有組織的資料集提供強力保護。美國沒有對應這兩部法律的聯邦法;在 hiQ v. LinkedIn 之後,在美國爬取公開資料通常是允許的。脫歐後的英國介於兩者之間,UK GDPR 與保留的資料庫權利大致沿用歐盟規則,但由 ICO 執法。對跨境企業而言,歐盟規則是最高門檻——而且如果你是在爬取歐盟居民的資料,無論你的公司設在哪裡,這些規則都適用。
延伸閱讀
