在欧洲，网页爬虫合法吗？如何抓取并保持安全

2024 年 5 月 1 日，荷兰数据保护机构抛出了一条让欧洲所有数据团队都心里一紧的标题：“抓取数据几乎总是违法。” 如果你在销售、电商或房地产行业工作——基本上只要你依赖网页数据——这句话大概率都会让你后背发凉。

我很懂这种感受。在 Thunderbit，我们每天都会和需要网页数据来做价格监控、线索开发和市场研究的团队交流。大家的挫败感都很相似：他们去谷歌搜索“is web scraping legal in Europe”，看到的答案几乎都是“视情况而定”。当你手上有项目截止日期，还列着一长串要抓取的 URL 时，这种回答一点用都没有。

所以我花了几周时间深入研究真实法规、数据保护机构指南、执法记录和判例，整理出更实用的东西：一份可以直接照着执行的决策清单、一张汇总好的安全措施表、真实罚款金额，以及一步一步的指南，教你在不踩监管红线的前提下抓取欧洲网站。无论你是要抓取亚马逊商品价格，还是从名录里提取 B2B 联系方式，这篇文章都能帮你判断边界在哪里，以及如何稳稳站在正确的一边。

什么是网页爬虫（以及为什么欧洲企业需要关心它）？

网页爬虫就是把网站上的数据自动提取成结构化格式——比如电子表格、数据库或 CRM。它不需要你手动从 200 个页面里复制粘贴商品名称和价格，而是让爬虫逐页访问，把你需要的字段整理成整齐的列。

这对非技术团队为什么重要？因为网页数据真的在驱动业务决策。销售团队会抓取名录找线索；电商经理每天监控竞品价格；房地产分析师追踪各个平台的房源趋势；市场研究人员大规模收集公开评价和评分。全球网页爬虫市场正在快速增长，企业每天抓取的数据点以百万计。

但欧洲的监管环境和美国不同。GDPR、数据库指令，以及不断变化的数据保护机构指南都意味着“公开可见”不等于“可以随意使用”。正如荷兰数据保护机构主席 Aleid Wolfsen 所说：“公开，并不自动等于允许抓取。”在开始之前先搞清规则不是可选项——这决定了你拿到的是干净的数据集，还是六位数罚单。

试用 Thunderbit，实现合规网页爬取

在欧洲，网页爬虫合法吗？简短答案

网页爬虫在欧洲并不天然违法。但它是否合法，取决于三件事：你抓取什么数据、如何抓取、以及为什么抓取。

欧盟的爬取活动受到三层相互叠加的法律约束：

GDPR——只要你抓取的是个人数据（姓名、邮箱、手机号、IP 地址，甚至伪匿名标识符），它就适用。
欧盟数据库指令——保护那些创作者为整理数据投入了“实质性投资”的数据库。
合同/服务条款法——很多网站在 ToS 中明确禁止爬取，欧盟法院也执行这些条款。

关键点在于：“公开”不等于“没有监管”。即使不是个人数据，也可能受到数据库权利或合同法保护。每一个爬取项目，都要把这三层一起看。

约束网页爬虫的欧盟核心法律

GDPR：当你抓取个人数据时

任何与可识别个人相关的数据都会触发 GDPR 义务。这包括姓名、邮箱地址、电话号码、IP 地址、照片，甚至可能被重新识别的伪匿名数据。一旦你抓取个人数据，你就成了 GDPR 下的“数据控制者”，需要承担相应责任：

合法依据（第 6 条）： 你需要有处理这些数据的法律理由。在大规模爬取场景下，征得同意几乎从来不现实——你不可能在收集数百万人的公开资料前逐个征求许可。最常被引用的依据是合法利益（第 6(1)(f) 条），但它要求完成一套有记录的三步测试：1）你的利益是合法的；2）处理这些数据是必要的；3）考虑到数据主体的合理预期，这种处理不会对其权利造成不成比例的影响。
透明度（第 14 条）： 由于你不是直接从本人处收集数据，所以你必须在通常一个月内告知对方你收集了什么、为什么收集，以及他们如何行使权利。如果逐个通知不成比例，你就必须发布一份包含第 14 条全部内容的通用通知。
数据最小化： 只收集你真正需要的内容。如果你只想要商品价格，就不要顺手抓卖家邮箱。
存储限制和权利管理： 设置保留期限，响应删除请求，并提供来源信息的访问方式。

EDPB ChatGPT 工作组报告（2024 年 5 月通过）又加了一层：它指出不同处理阶段——收集、预处理、训练、提示和输出——都需要分别进行合法依据分析。EDPB 并没有否定网页爬取中的合法利益，但它坚持必须做完整的三步评估，并配套适当的安全措施。

欧盟数据库指令：保护数据的组织方式

数据库指令赋予那些为“获取、验证或呈现”数据投入了“实质性投资”的数据库创建者一项特殊权利。如果你的抓取行为提取了这类数据库的“实质性部分”，就可能侵犯该权利。

在实践中，这个门槛相对较高。从大型零售商那里抓取几百个商品价格，通常不太会踩线。但批量下载竞争对手的整个目录——几万条商品信息——就可能越界，尤其是在这会影响数据库创建者收回投资能力的情况下。欧盟法院已经在多个案件中对这一门槛作出判定，核心问题始终是比例原则。

对于大多数商业抓取——比如从商品页面提取特定字段、对比同一品类的列表——数据库指令带来的风险相对较低。但这并不意味着没有风险，在设计爬取范围时，仍然值得把它纳入考虑。

服务条款：合同法里的不确定因素

这一点最容易让人踩坑。很多网站会在服务条款里直接禁止抓取。在欧洲，违反 ToS 属于民事问题（不是刑事问题），但仍可能带来禁令、合同诉讼和真实的经济损失。

这里有两种常见形式：browsewrap（被动条款，通常只是页面底部的一个链接）更难执行，因为用户从未主动同意；clickwrap（需要你勾选方框或点击“我同意”）则更容易被执行。

欧盟的标志性案例是 Ryanair v. PR Aviation：法院即便认定数据库权利不适用，仍然依据服务条款对一个爬虫执行了 Ryanair 的限制，因为该爬虫已经同意了这些条款。所以：抓取前一定先看网站的 ToS。如果是明确禁止爬取的 clickwrap 协议，务必谨慎——或者考虑改用 API。

DSM 指令和 AI 法案：研究与文本/数据挖掘例外

并不是所有爬取都会触发同样的限制。数字单一市场（DSM）指令（2019）引入了两项文本和数据挖掘（TDM）例外：

第 3 条： 研究机构和文化遗产机构可以对合法获取的内容进行 TDM。
第 4 条： 任何人——包括商业实体——都可以进行 TDM，除非权利人明确选择退出（例如通过 robots.txt、ai.txt 或 TDMRep 头信息）。

**欧盟 AI 法案（第 53 条）**又给 AI 模型提供者增加了义务：他们必须遵守 TDM 选择退出机制，并记录训练数据来源。

不过有一个前提：这些例外覆盖的是版权和数据库权利，不包括 GDPR。如果你的 TDM 涉及个人数据，你仍然需要单独的 GDPR 合法依据。

“我能抓这个吗？”欧洲数据决策清单

这是我在刚开始研究这个话题时最希望能直接看到的一部分。每篇法律文章都说“视情况而定”——但真正的判断路径到底是什么？下面是一份带明确门槛的逐步合规清单。每一步都会导向 ✅ 继续、⚠️ 增加安全措施，或 🛑 停止。

第 1 步：数据是个人数据还是非个人数据？

非个人数据（商品价格、SKU 编号、与个人无关的企业地址）：监管负担较低。你仍然需要检查数据库指令和 ToS，但 GDPR 不适用。✅ 进入第 3 步。

个人数据（姓名、邮箱、手机号、照片、任何与个人关联的标识符）：GDPR 适用。⚠️ 继续第 2 步。

第 2 步：适用哪种 GDPR 合法依据？

同意： 在大规模抓取场景下几乎不可行。🛑 除非是非常狭窄、特定的情形。
合法利益（第 6(1)(f) 条）： 最常见的依据。但它要求完成一套有记录的三步测试：
1. 你的利益是合法的（根据欧盟法院 2024 年在 C-621/22 的裁决，商业利益也可能构成合法利益）。
2. 为实现该利益，数据处理是必要的。
3. 平衡测试：考虑到数据主体的合理预期，你的利益不会压倒他们的权利。
在抓取前记录你的平衡测试。 如果你无法说明，为什么这些数据主体会合理预期这种使用方式，那就是红旗。⚠️ 在完成并记录合法利益评估后再继续。

第 3 步：网站 ToS 是否限制抓取？

禁止抓取的 clickwrap 协议： 🛑 高风险。考虑替代数据来源或官方 API。
browsewrap 或没有 ToS 限制： ⚠️ 风险较低，但仍要尊重 robots.txt 和技术反对信号。

第 4 步：数据库指令是否适用？

目标是否是一个在数据组织上投入了实质性投资的数据库？
你的抓取是否会提取该数据库的“实质性部分”？
如果两项都回答“是”：⚠️ 存在特殊权利侵权风险。请缩小提取范围。

第 5 步：你是否受研究或 TDM 例外保护？

如果你是注册研究机构或文化遗产机构？DSM 指令第 3 条可能适用。✅
如果是商业 TDM？检查第 4 条的选择退出信号（robots.txt、ai.txt、TDMRep）。如果网站已选择退出，🛑 停止对该来源的抓取。

第 6 步：你是否已应用数据保护机构推荐的安全措施？

如果你已经通过了以上门槛，最后一步就是落实 CNIL、荷兰数据保护机构和 EDPB 推荐的安全措施。下一节会详细展开。✅ 在已设置安全措施的前提下继续。

数据保护机构合规安全措施：CNIL、荷兰数据保护机构与 EDPB 的建议

我没有找到任何竞争对手文章能把欧洲三家最活跃监管机构关于爬取的安全措施完整汇总起来。所以我把 CNIL 网页爬取重点说明、荷兰 AP 指南和 EDPB ChatGPT 工作组报告交叉比对后，整理了下面这张表。

安全措施	CNIL	荷兰数据保护机构（AP）	EDPB 工作组	实施建议
第 14 条透明度通知	✅ 需要	✅ 需要	✅ 需要	发布公开通知，列出来源类别、用途、合法依据、保留期限、权利行使渠道和数据保护官联系方式
抓取前 DPIA	✅ 建议（高风险时为强制）	✅ 需要	✅ 需要	上线前记录平衡测试、数据类别、风险和缓解措施
数据最小化	✅ 需要（定义精确的收集标准）	✅ 需要	✅ 需要	将爬虫配置为只提取必要字段；立即删除无关数据
限速 / 尊重 robots.txt	✅ 需要（排除通过 robots.txt/CAPTCHA 表达反对的网站）	—	—	解析 robots.txt、设置请求间隔、标识你的 user agent
伪匿名化 / 匿名化	⚠️ 建议（收集后立即进行）	✅ 强烈建议	✅ 建议	对 ID 做哈希或随机化；移除个人资料链接；如果不需要身份信息，可模糊人脸
保留期限	✅ 设定明确期限	✅ 尽可能短	✅ 设定明确期限	自动化删除计划；将原始缓存与提取出的事实分开存放
退出 / 黑名单机制	✅ 建议（可酌情事先反对）	✅ 需要（第 21 条反对权）	✅ 需要	提供退出表单、域名黑名单、按个人级别抑制机制
排除敏感来源	✅ 需要（健康论坛、未成年人网站、色情网、家谱网站）	✅ 需要	✅ 需要	默认维护健康、宗教、政治、生物识别、未成年人相关黑名单

来自我们这边的一个实用补充：Thunderbit 的 “AI 推荐字段” 功能允许用户精确指定要提取哪些列——价格、SKU、商品名——因此爬虫只会收集必要内容。你不是在整页批量下载，而是在选择与目的限制和数据最小化原则一致的结构化字段。不过，任何工具都不能把不合规的爬取变成合规。法律分析永远先行。

你的使用场景在欧洲抓网页数据合法吗？按行业给你看

我在论坛里最常看到的问题不是“抓取合法吗？”而是“我的抓取合法吗？”抽象的 GDPR 理论并不能直接回答这个问题。所以这里按常见业务场景拆开说明。

使用场景	数据类型	主要法律风险	大致结果
电商价格监控（公开商品列表）	非个人数据（价格、SKU、商品名）	数据库指令特殊权利；违反 ToS	如果不涉及个人数据，也不是系统性提取数据库“实质性部分”，通常风险较低
B2B 线索开发（从名录获取联系方式）	个人数据（姓名、邮箱、手机号）	GDPR 第 6 条合法依据；第 14 条通知；电子联系方式的 ePrivacy 规则	风险较高——需要有记录的合法利益平衡测试，以及通知义务
房地产房源（门户上的房产数据）	混合数据（地址可能非个人；业主姓名是个人数据）	数据库指令；ToS；若与业主关联则适用 GDPR	中等风险——对业主数据做匿名化，检查 ToS，尊重 robots.txt
AI 训练数据（大规模网页内容抓取）	如果未过滤，可能含个人数据	GDPR + 欧盟 AI 法案第 53 条 TDM 义务	高风险——必须同时遵守 GDPR 和 AI 法案；需要选择退出机制和强力过滤

对于风险较低的场景，比如公开电商数据，带结构化模板的工具——例如 Thunderbit 针对亚马逊和 Shopify 的即用模板——能降低暴露风险，因为它们提取的是特定的非个人字段，而不会收集多余内容。对于涉及个人数据的高风险场景（比如线索开发），法律分析必须先做。再聪明的爬虫，也不能把不合规收集变成合规收集。

欧盟 vs 美国 vs 英国：网页爬虫法律有何不同

如果你的业务跨境运营，你就需要知道这些规则有何差异。我没找到一篇竞争对手文章能把这个问题做成一目了然的对照表，所以这里直接给你。

维度	欧盟	美国	英国（脱欧后）
主要法律	GDPR + 数据库指令 + ePrivacy	CFAA + 各州法律（联邦层面数据隐私有限）	英国 GDPR + 2018 年数据保护法
公开数据抓取	若涉及个人数据，仍需 GDPR 合法依据	根据 hiQ v. LinkedIn，通常允许抓取公开数据	与欧盟类似；适用 ICO 指南
ToS 执行	民事问题；Ryanair v. PR Aviation 执行了特殊权利	Van Buren 限缩了 CFAA；违反 ToS 不等于犯罪	民事问题，与欧盟类似
数据库保护	特殊权利（强）	没有对应的联邦权利	保留特殊权利
AI/TDM 例外	DSM 指令第 3–4 条；AI 法案第 53 条	没有联邦 TDM 例外（适用合理使用原则）	英国正在探索 TDM 例外（截至 2026 年仍停滞）
主要执法机构	各国数据保护机构（CNIL、荷兰 AP 等）	FTC + 各州总检察长	ICO
最近趋势	趋严（荷兰 AP：对个人数据“几乎总是违法”）	hiQ 之后更宽松	中等；总体跟随欧盟方向

如果你抓取的是欧洲网站，或与欧洲居民相关的数据，那么欧盟规则就适用——即使你的公司在美国或英国也是如此。

真实罚款与案例：2022–2026 年被抓到后会发生什么

这一部分回答的是那个问题背后的问题：“真实风险到底有多大？”我整理了 2022 年到 2026 年 4 月期间所有公开的、涉及网页爬虫或被抓取个人数据的数据保护机构执法行动。

年份	执法机构	对象	违规行为	罚款/结果
2022	意大利 Garante	Clearview AI	在没有合法依据的情况下抓取人脸图像	2000 万欧元罚款 + 禁令 + 删除命令
2022	希腊数据保护机构	Clearview AI	同上——人脸识别抓取	2000 万欧元罚款 + 禁令 + 删除
2022	CNIL（法国）	Clearview AI	人脸识别数据库	2000 万欧元罚款 + 可能每日 10 万欧元罚金
2023	CNIL（法国）	Clearview AI	未遵守 2022 年命令	520 万欧元罚款
2023	奥地利 DSB	Clearview AI	从公开网页抓取超过 300 亿张人脸图像	删除 + 要求指定欧盟代表（未公布罚款）
2024	荷兰 AP	Clearview AI	非法收集人脸识别数据	3050 万欧元罚款 + 合规命令
2024	CNIL（法国）	KASPR	为线索开发而抓取 LinkedIn 联系数据	24 万欧元罚款——1.6 亿联系人、受限可见性数据、保留 5 年
2024	爱尔兰 DPC	X / Grok	将公开帖子用于 AI 训练	暂停协议；2025 年启动法定调查
2024	爱尔兰 DPC	Meta	计划使用公开 Facebook/Instagram 内容训练 LLM	Meta 暂停了欧盟 AI 训练计划
2024	意大利 Garante	OpenAI	ChatGPT 训练数据与透明度	开出 1500 万欧元罚款，2026 年 3 月被罗马法院撤销

欧盟/欧洲经济区在爬取和开放网页类别中的累计金钱处罚：超过 9500 万欧元（不包括被撤销的 OpenAI 罚款）。

这些重大罚款几乎无一例外，针对的都是大规模抓取生物识别或个人数据，而且没有任何合法依据。Clearview 抓取了数十亿张人脸图像。KASPR 抓取了 1.6 亿个联系人，包括受限可见的 LinkedIn 资料数据，并保留了五年。

相较之下，在有安全措施前提下，对公开非个人数据进行有比例、定向的抓取——比如商品价格或 SKU 编号——并没有成为执法重点。这并不代表它零风险，但能帮你更客观看待这些数字。

如何安全抓取欧洲网站：一步一步来

难度： 初级
所需时间： 约 15 分钟（包含合规审查）
你需要准备： Chrome 浏览器、Thunderbit 扩展程序（免费版可用）、一个目标 URL，以及对上面清单的快速检查

第 1 步：明确你的目的和数据需求

在打开任何工具之前，先写清楚你为什么需要这些数据，以及你具体需要哪些字段。这不只是好习惯——它是 GDPR 目的限制和数据最小化原则的基础。

比如：“我需要 50 个亚马逊商品页面里的商品名、价格和库存状态，用来更新我们的竞品定价表。”这就很具体。再对比一下：“我想把亚马逊上的所有内容都抓下来。”前者能通过最小化测试，后者不行。

第 2 步：执行合规清单

按照上面的六步“我能抓这个吗？”清单走一遍。如果任何一个门槛返回 🛑，就先停下来，咨询法律顾问再继续。

把我们的亚马逊价格示例带入清单：数据是非个人数据（价格、SKU、商品名）✅，没有 GDPR 个人数据问题✅，但要审查亚马逊的 ToS（它们确实限制抓取，所以有条件时优先考虑官方商品数据 API）⚠️，而对于 50 个商品来说，数据库指令风险较低✅。

第 3 步：选择正确的爬取方式

方法	易用性	合规支持	维护成本	准确性
手动复制粘贴	低	不适用（你自己控制复制什么）	高（很耗时）	容易出错
代码爬虫（Python、Scrapy）	低（需要编程）	无内置支持	高（网站一变就容易坏）	维护得好时很高
Thunderbit（AI 驱动）	很高	内置字段级最小化	低（AI 会适应页面变化）	高
官方 API	中	最高（结构化、获授权的访问）	低	最高

对于没有开发团队的业务用户来说，Thunderbit 是最快的路径。对于提供官方 API 的网站（比如 Amazon Product Advertising API），API 永远是最安全的路线——但它通常会对数据量和字段做限制。

第 4 步：按合规要求配置爬虫

在 Thunderbit 中：

打开你的目标页面（例如亚马逊商品列表页）。
点击 Chrome 工具栏里的 Thunderbit 图标，选择“AI 推荐字段”。AI 会扫描页面并建议像“商品名”“价格”“评分”“库存状态”这样的列。
删除任何你不需要的字段。 如果 AI 建议了“卖家名称”或“卖家邮箱”，而你只需要价格数据，就把这些列删掉。这就是现实中的数据最小化。
使用 字段 AI 提示词 添加指令，例如“排除个人标识符”或“仅提取公开价格数据”。
对公开电商网站选择 云端抓取（更快，不需要登录）；对需要身份验证的网站选择 浏览器抓取。
点击“抓取”之前，确认 robots.txt 没有禁止你的使用场景。你可以在浏览器中访问 [domain]/robots.txt 来检查。

现在你应该能看到一个表格预览，里面只有你配置好的字段——没有多余的个人数据，也没有不必要的元数据。

第 5 步：负责任地导出、存储和管理数据

抓取完成后，把数据导出到 Excel、Google Sheets、Airtable 或 Notion——Thunderbit 都支持免费导出。

然后：

设置保留期限。 不要无限期保存抓取来的数据。如果你做的是每周价格监控，上个月的原始数据大概率已经没必要了。
如果收集了个人数据（例如用于线索开发），请记录你的合法依据、发布第 14 条透明度通知，并建立处理退出和删除请求的流程。
尽可能自动化删除计划。 Thunderbit 的定时爬虫可以按设定间隔自动执行重复抓取，同时保持相同的字段级配置，这样每次运行都能维持在你的合规范围内。

在欧洲抓取数据时保持合规的小建议

这些建议来自我研究这个主题、以及和重视合规的团队交流后总结出来的：

每次抓取新网站前都先看 ToS。 这只要两分钟，却可能帮你省下几个月的法律麻烦。
有 API 就用 API。 它们是结构化、被授权的，也是最安全的路线。爬虫应该是备选方案，而不是默认方案。
任何涉及大规模个人数据的项目都要做 DPIA。 CNIL 说 AI 训练数据集可能带来高风险，而 DPIA 就是你的责任证明。即使是较小项目，记录分析过程也很聪明。
保留爬取日志。 记录抓了什么、什么时候抓的、从哪里抓的、你的合法依据，以及保留期限。如果监管机构有一天来问，你会庆幸自己留了记录。
持续关注监管更新。 数据保护机构的指南变化很快——CNIL 在 2026 年 1 月发布了新的 AI 抓取说明，EDPB 预计还会继续给出意见。今天的规则，明天可能就更严格。
不要从受限或敏感来源抓取。 CNIL 的强制排除清单包括健康论坛、主要由未成年人使用的网站、色情网、家谱网站，以及高度结构化的个人数据网站。如果你在做抓取项目，最好维护一份默认黑名单。
自动化流量在运营上很关键。 Akamai 报告称，2024 年机器人占整体网页流量的 42%；Thales/Imperva 的研究则发现，自动化机器人流量首次超过人类流量，2024 年达到 51%。监管机构越来越把机器人行为、速率和规避手段视为风险和不公平的证据。像一个负责任的爬虫那样行事——标识你的 user agent、限速、尊重反对信号——不只是礼貌问题；它在法律上也很重要。

结论

在欧洲，网页爬虫并不违法。但它受到监管——尤其是在涉及个人数据时。

法律结果取决于你抓取什么（个人还是非个人）、如何抓取（ToS、robots.txt、限速、字段级最小化）以及为什么抓取（有记录的目的和合法依据）。执法记录非常清楚：对个人数据进行大规模、无差别且没有任何合法依据的抓取，才是企业面临七位数甚至八位数罚款的地方。相比之下，在有安全措施的前提下，对公开非个人数据进行有比例、定向的抓取，属于完全不同的风险等级。

实用框架如下：

每个抓取项目开始前都先用决策清单检查。
落实数据保护机构推荐的安全措施（透明度、最小化、保留期限限制、退出机制）。
选择从设计上就支持合规的工具。 Thunderbit 的 AI 字段选择、结构化提取，以及免费导出到 Google Sheets、Excel、Airtable 和 Notion，都能让你只抓需要的数据——不多不少。
把所有东西都记录下来。 平衡测试、来源清单、保留计划、DPIA。监管机构问起来时，这份文件就是你的防线。

例行免责声明：本文仅供信息参考，不构成法律建议。对于涉及大规模个人数据的高风险场景，请咨询合格的隐私律师。法规仍在演变，犯错的代价是真实存在的。

想自己试试合规、定向的网页爬取吗？Thunderbit 免费版让你可以小规模体验结构化提取——定义字段，只抓你需要的内容，几次点击就能导出。你也可以看看我们的 YouTube 频道，获取一步一步的操作演示。

试用 AI 网页爬虫，实现合规数据提取 Get Started Free

常见问题

1. 如果数据是公开可见的，在欧洲抓取网页合法吗？

如果包含个人信息，公开可见并不意味着可以豁免 GDPR。正如荷兰数据保护机构所说：“公开，并不自动等于允许抓取。”非个人的公开数据（如商品价格、SKU）通常风险较低，但你仍然需要检查数据库指令和网站服务条款。

2. 我可以从欧洲网站抓取邮箱和电话号码吗？

邮箱和电话号码在 GDPR 下属于个人数据。你需要有合法依据——通常是带有记录的合法利益平衡测试——并且必须按照第 14 条通知个人。CNIL 在 2024 年因 KASPR 抓取 LinkedIn 联系数据且透明度或合法依据不足，处以 24 万欧元罚款，所以这确实是执法活跃的领域。

3. 欧洲非法网页爬取的最大罚款是多少？

荷兰数据保护机构在 2024 年因 Clearview AI 从公开网络非法收集人脸识别数据，罚款 3050 万欧元。此外，还有多个欧盟数据保护机构分别对 Clearview 罚款 2000 万欧元。2022–2026 年间，与爬取相关的欧盟/欧洲经济区罚款总额超过 9500 万欧元。

4. 遵守 robots.txt 就等于在欧洲抓取网页合法吗？

遵守 robots.txt 是最佳实践，也符合 CNIL 的强制安全措施，但它本身不能保证合法。你仍然需要遵守 GDPR（如果涉及个人数据）、数据库指令，以及网站服务条款。可以把 robots.txt 合规看作多层合规框架中的一层。

5. 欧洲和美国的网页爬虫法律有什么不同？

欧盟严格得多。GDPR 适用于任何个人数据——即使是公开可见的数据——而数据库指令为结构化数据集提供了强保护。美国没有对应的联邦法律；在 hiQ v. LinkedIn 之后，抓取公开数据在美国通常是允许的。脱欧后的英国介于两者之间，英国 GDPR 和保留的数据库权利在很大程度上与欧盟规则相似，但由 ICO 执法。对于跨境业务来说，欧盟规则门槛最高——如果你抓的是欧盟居民的数据，无论公司注册在哪里，这些规则都会适用。

了解更多

在欧洲，网页爬虫合法吗？如何安全抓取数据