几个月前,我们销售团队的一位同事问了我一个我已经听过几十次的问题:“如果我从一个公开网站抓取竞争对手的价格,真的会惹上麻烦吗?”他找到了一份供应商联系方式目录,价格整整齐齐地排成几列,而他想要的不过是一份表格。那种犹豫是真实的——说实话,也很合理。
英国没有一部统一的“网页爬虫法”。相反,四套彼此交叉的法律框架共同决定某次具体的爬取行为是否合法。这也是为什么答案总是“要看情况”——但这并不意味着你只能干着急。在这篇指南里,我会带你看看法律到底怎么说、它如何适用于真实场景、违规后会面临什么后果,以及怎样才能保持合规。
我为 Thunderbit 团队做这方面研究花了不少时间,也想把我整理到的内容分享给你,这样你就不用再从五篇不同的律所博客和一条 Reddit 讨论里东拼西凑了。
什么是网页爬取(为什么英国企业会用它)
网页爬取就是用软件自动从网站收集数据,省去把网页内容手动复制粘贴到表格里的麻烦。
这项技术本身是中性的。它既不天然合法,也不天然违法。关键在于你抓取什么、怎么抓,以及之后如何使用这些数据。
英国企业用爬虫的场景很多,而且大多都很正当:
- 价格比较:例如 PriceSpy UK 会使用自动化网页爬取,每天 商品价格。
- 线索获取:销售团队从公开目录里提取公司名称、邮箱和电话号码。
- 市场研究:分析师监控房产信息、招聘网站或竞争对手的产品线。
- 学术研究:英国国家统计局在 2014 到 2015 年间,从超市网站收集了超过 。
- AI 模型训练:这是一个增长很快、但法律仍未完全明朗的用途。
趋势很明确。Bright Data / Vanson Bourne 对 500 位决策者(其中 200 位在英国)做的显示,受访者中有 认为公共网页数据对全球经济至关重要或非常重要,且 至少每天获取一次这类数据。
但同时也有 表示,缺乏清晰监管让他们所在组织感到担忧。正是这种焦虑,促成了这篇文章的存在。
网页爬取在英国合法吗?直接答案
英国没有任何法律直接全面禁止网页爬取。不过,多部法律会约束它的实施方式,而某个具体项目是否合法取决于四个因素:

- 你抓取的数据是什么(个人数据 vs. 事实性/非个人数据)
- 你如何访问它(公开页面 vs. 绕过登录墙或验证码)
- 网站条款怎么写(是否禁止自动化访问)
- 你之后如何使用这些数据(内部分析 vs. 商业转售)
我找到的最好类比是:网页爬取就像在公共场所拍照。在公共场合拍照并不会自动违法——但某些拍摄对象、地点、方式和用途会带来法律风险。爬取也是如此。数据是否公开可访问很重要,但这不是全部。
ICO 最近关于生成式 AI 的咨询,是英国官方就爬取个人数据作出的最清晰表态之一。它表示,使用网页爬取的个人数据训练生成式 AI 模型时,合法权益仍然是,但前提是开发者必须通过严格的三步测试。这是一个很高的门槛,也说明英国监管机构对爬取数据的态度非常认真。
适用于网页爬取的四部英国法律
四个彼此重叠的视角——任何一次爬取都可能触发其中一项、两项,甚至全部四项。
英国 GDPR 和 2018 年数据保护法
如果你爬取的是个人数据——姓名、邮箱、电话号码、IP 地址、社交媒体资料等——英国 GDPR 就会适用。“公开可见”并不等于“可以随便用”。
公开可见的个人数据,依然是个人数据。
对商业爬取来说,最相关的合法依据是合法权益(第 6 条)——但你不能只是把这个词挂在嘴边。你必须:
- 确定一个具体、合法的目的
- 证明为实现该目的,处理这些数据是必要的
- 在你的利益与被收集数据个人的权利之间进行平衡
ICO 对生成式 AI 的咨询回复尤其直白:开发者不应想当然地认为“广泛的社会收益”就足够了,应当拿出证据说明为什么其他替代爬取的方式不合适,并且要采用透明机制,让个人能够理解并行使自己的权利。来源:。
对于 B2B 线索获取也是同理。销售团队在收集公开列出的商务联系信息时,可能会依赖合法权益,但仍然需要记录合法权益依据、尽量少收集字段、避免特殊类别数据、在可行时提供隐私说明,并尊重退出请求。
著作权、数据库权利与 TDM 例外
著作权保护网站上的原创内容:文本、图片、产品描述、文章。像价格这类事实数据通常单独看不太受著作权约束——但如果你复制并重新发布受保护的表达内容,就可能构成侵权。
数据库权利在爬取场景中比大多数人想象的更重要。英国在脱欧后保留了欧盟风格的特殊数据库权利(sui generis database rights),而抽取受保护数据库的“实质性部分”——比如精心整理的目录、产品目录、市场平台列表——即便单个数据点本身只是事实信息,也可能构成侵权。
根据 的文本与数据挖掘(TDM)例外,只有在用户拥有合法访问权限且目的为非商业研究时,才允许为文本和数据分析制作副本。这个范围非常窄。商业爬取、商业 AI 训练和商业数据集转售都不在其覆盖范围内。
英国政府曾考虑扩大这一例外以适配 AI 训练,但截至其 ,它决定在确信改革能够同时满足创作者、AI 开发者和英国经济目标之前,不会推进修法。在现行规则下,除非已有适用例外,否则通常仍需要许可才能复制受保护作品用于 AI 训练。
网站服务条款与合同法
大多数网站都有服务条款(ToS),禁止或限制自动化爬取。只要你访问网站,尤其是在点击接受页面(clickwrap)后,可能就已经同意了这些条款。放在页脚链接里的 browsewrap 协议虽然更依赖具体事实,但英国法院确实表现出执行爬取限制条款的意愿。在 纠纷中,法院将可见的网站条款视为在屏幕抓取场景下具有约束力。
robots.txt 不是法律。它是网站所有者给机器看的信号文件。一个典型文件可能长这样:
1User-agent: *
2Disallow: /account/
3Disallow: /checkout/
4Disallow: /private/
5Crawl-delay: 10
忽略 robots.txt 并不会自动让爬取变成非法,但法院和 ICO 会把它视为网站所有者意图的证据。忽略它会增加你的法律暴露,尤其是当它与违反 ToS 或高强度请求量叠加时。
1990 年《计算机滥用法》
这部法律常常让人夜不能寐——不是没有理由的。它规定了刑事罪行。第 1 条涉及未经授权访问计算机材料,最高可判 。第 3 条涉及未经授权、导致计算机运行受损的行为,最高可判 。
当数据确实是公开的,而且爬虫没有绕过技术障碍时,CMA 风险最低。以下行为会让风险上升:
- 绕过登录墙、验证码或 IP 封锁
- 使用被盗凭证或创建虚假账号
- 发送足以影响目标服务运行的流量
英国并没有像美国那样形成一条清晰的“公共数据可以随便抓”的规则。因此,英国的建议通常更保守:公开访问确实会大幅降低 CMA 风险,但网站条款、技术控制,以及爬虫对限制条件的认知,仍然很重要。
“我能合法抓这个吗?”——快速决策流程图
在你抓取任何东西之前,先走一遍下面这五个决策点。不是法律意见——只是一个 60 秒的风险初筛。
| 决策点 | 如果是 | 如果否 |
|---|---|---|
| 数据是个人数据(姓名、邮箱等)吗? | 适用英国 GDPR。确定合法依据、做 LIA、尽量少收集字段、规划透明告知。 | GDPR 层面可能不适用,但仍要继续检查其他项。 |
| 网站 ToS 明确禁止爬取吗? | 有违约风险。考虑 API、许可或法律审查。 | 合同风险较低,但仍要检查 robots.txt。 |
| 抽取了数据库的实质性部分吗? | 很可能侵犯特殊数据库权利。考虑授权或缩小抽取范围。 | 但单个被复制内容仍可能受著作权保护。 |
| 是否绕过了登录、验证码或访问控制? | 可能构成 1990 年 CMA 下的刑事罪行。立即停止并寻求法律审查。 | 如果访问确实是公开的,CMA 风险较低。 |
| 目的属于非商业研究吗? | 如果你拥有合法访问权限,CDPA 第 29A 条 TDM 例外可能适用。 | 英国没有广泛的商业 TDM 安全港,仍需完整做 IP 和合同分析。 |
唉,要是我一开始研究团队合规时有人给我这张图就好了。它把复杂的法律问题变成了一个你不到一分钟就能跑完的结构化自查表。
真实场景:你的具体爬取行为在英国合法吗?
抽象的法律是一回事。大家真正想问的是:“我的这个项目会不会惹麻烦?”
很合理。下面是五个常见的英国爬取场景,以及各自的迷你法律风险评估。
抓取商品价格用于比价
这是最常见、而且通常风险最低的业务用途之一。价格是事实数据,而像 PriceSpy 这样的站点本来就是通过自动化价格采集在运作。
不过,风险并不会完全消失。如果目标网站在 ToS 中禁止爬取,如果你复制了商品描述或图片,或者你抽取了一个精心整理的商品数据库的实质性部分,就可能涉及合同、著作权和数据库权利问题。
风险等级:低到中
关键合规步骤: 只收集事实性的价格字段,避免原样复制商品描述,尊重 ToS 和 robots.txt,设置速率限制,不要把竞争对手的目录原封不动地镜像重发。
商业化抓取并转售数据
这是风险最高的商业场景,没有之一。你在把别人的数据投入变成一个出售的产品——这可能同时触发四大法律支柱。
风险等级:高
关键合规步骤: 必须进行法律审查。考虑与数据所有者签订许可协议。如果产品包含个人数据,还要加入数据保护影响评估。
提取商务联系信息用于线索获取
我聊过的每个销售团队,都会做某种形式的这件事:从目录里抓邮箱、电话号码和公司名称。问题在于?商务联系数据往往也包含个人数据。某个具体员工的邮箱,即使公开列出,也仍然是个人数据。
风险等级:中
关键合规步骤: 做合法权益评估(LIA),尽量只收集商务联系方式而非私人联系方式,记录你的合法依据,并提供退出渠道。像 这样的工具在这里可以降低访问风险,因为它的 是在用户浏览器中运行的——它只访问用户本来就能看到的内容,不会绕过访问控制。
学术或作品集数据分析
如果你做的是真正的非商业研究,那么你拥有最强的著作权例外路径:只要你有合法访问权限,CDPA 第 29A 条就可能适用。
风险等级:低(前提是真正的非商业用途)
关键合规步骤: 记录非商业目的,注明来源,尽可能匿名化或汇总化处理,避免重新分发受著作权保护的内容或个人数据。
为 AI 模型训练抓取内容
这是 2026 年所有人都会问的问题——而答案至今仍然不够令人满意。ICO 认为,使用网页爬取的个人数据训练 AI 属于高风险的隐性处理。英国政府 2026 年的报告也没有推出广泛的商业 TDM 例外。
风险等级:中到高
关键合规步骤: 许可、数据来源溯源、著作权分析、个人数据过滤、合法依据记录,以及密切跟踪英国政策变化。
场景汇总表
| 场景 | 触发的主要法律 | 风险等级 | 关键合规步骤 |
|---|---|---|---|
| 商品价格监控 | ToS、数据库权利、著作权 | 低–中 | 只收集事实字段,尊重网站信号 |
| 商业数据转售 | 四大支柱全部涉及 | 高 | 必须做法律审查并取得许可 |
| B2B 线索获取 | 英国 GDPR、ToS | 中 | 做 LIA,尽量减少个人数据 |
| 学术研究 | 著作权(TDM 例外),若含个人数据则适用 GDPR | 低 | 保持非商业目的,不要重新发布 |
| AI 模型训练 | 英国 GDPR、著作权、数据库权利 | 中–高 | 授权数据、记录合法依据、跟踪政策 |
英国 vs. 美国 vs. 欧盟:网页爬取法律有何不同
如果你只在英国运营,可以跳过这一节。但我聊过的大多数企业,都会跨国爬取——至少也会抓取托管在其他司法辖区的网站。差异比你想象的更重要。
| 法律维度 | 🇬🇧 英国 | 🇺🇸 美国 | 🇪🇺 欧盟 |
|---|---|---|---|
| 主要数据保护法 | 英国 GDPR + 2018 年 DPA | 没有联邦层面的对应法律(各州法律不同) | 欧盟 GDPR |
| 关键爬取判例 | Clearview AI(ICO 罚款 750 万英镑) | hiQ v LinkedIn(公开数据可抓,适用于第九巡回;但 hiQ 最终被永久禁止并在最终同意判决中支付 50 万美元) | Ryanair v PR Aviation(欧盟法院,C-30/14,数据库权利) |
| 计算机访问法 | 1990 年《计算机滥用法》 | CFAA(2021 年 Van Buren 案后范围收窄) | 各成员国不同 |
| 著作权 / TDM 例外 | 很窄:仅限非商业研究(第 29A 条) | 公平使用原则(更宽,但需逐案判断) | DSM 指令第 3 和第 4 条(更宽泛的 TDM 权利,但可保留权利) |
| 数据库权利 | 有(从欧盟数据库指令保留) | 没有对应的联邦权利 | 数据库指令下的特殊权利 |
| ToS 可执行性 | 适用合同法;browsewrap 存在争议 | 结论不一:browsewrap 常常难以执行 | 各地不同;Ryanair 强化了 ToS 的地位 |
实务上的结论是:如果你跨司法辖区爬取,就要遵守适用法律里最严格的那一套。美国在 hiQ 案下对公开数据访问更宽松,但 hiQ 并不是一张万能通行证(hiQ 最终被禁止继续爬取 LinkedIn,并支付了 50 万美元)。欧盟则通过 DSM 指令建立了更宽的 TDM 架构。英国介于两者之间——没有广泛的商业 TDM 例外,数据库权利强,监管也活跃。
处罚与执法:真的被抓到会怎样?

那种只会说“会被罚款”“会有法律麻烦”的模糊警告,对谁都没有帮助。下面是具体数字。
英国 GDPR 罚款
最高处罚:,取更高者。
真实案例:Clearview AI 因从英国社交媒体抓取人脸图像,于 2022 年被 ICO 罚款 。初级审裁庭从管辖权角度推翻了处罚,但 允许 ICO 上诉,并将案件发回重审。ICO 在 2025 年 12 月表示,Clearview 已获得。
计算机滥用法的刑事处罚
- 第 1 条(未经授权访问):最高
- 第 3 条(未经授权造成损害):最高
对于普通的公开网页爬取,刑事起诉极其少见。
但一旦行为看起来像黑客攻击、滥用凭证、绕过验证码或破坏服务,风险画像就会急剧改变。
著作权与数据库权利
民事赔偿加禁令救济。故意商业侵权也可能有刑事后果,但大多数爬取纠纷最终还是以民事诉讼收场。
合同(ToS)违约
民事赔偿、账号终止、IP 封锁。这通常是最常见的实际执法手段——而且往往是最先发生的事。
处罚严重性汇总
| 法律框架 | 最高处罚 | 普通商业爬取的发生概率 | 真实案例 |
|---|---|---|---|
| 英国 GDPR | 1750 万英镑或全球营业额 4% | 如果大规模涉及个人数据则中;非个人数据则低 | Clearview AI 750 万英镑罚款 |
| CMA 第 1 条 | 2 年监禁 | 公开页面低;绕过控制时更高 | CPS 关于未经授权访问的指引 |
| CMA 第 3 条 | 10 年监禁 | 除非流量影响系统,否则低 | 类似 DDoS 的损害案例 |
| 著作权/数据库权利 | 赔偿与禁令 | 复制受保护内容或精心整理数据库时中等 | Ryanair 与 BHB 系列案件 |
| ToS 违约 | 赔偿、账号终止、封禁 | 作为实际执法路径时很高 | Ryanair 屏幕抓取争议 |
选对爬虫工具,怎样降低法律风险
工具本身并不会让违法爬取变成合法。但它可以帮你避开不必要的风险。
根据我的经验,一个尊重站点信号的工具,和一个什么都粗暴绕过的工具,往往决定了你的项目是普通数据工作,还是法律麻烦。
尊重 robots.txt 和网站信号
一个负责任的工具,应该让你在爬取前方便地检查并遵守 robots.txt。虽然它不具有法律强制力,但法院和 ICO 会把遵守 robots.txt 视为善意的证据。Thunderbit 的建议用户只抓取公开可用的数据,并遵守 robots.txt 和网站条款。
浏览器爬取 vs. 云端爬取
这一区别在法律上很重要。浏览器爬取只访问用户在已登录会话中能看到的内容——本质上就是自动化你本来手工会做的事。云端爬取则由服务器发起请求,速度更快,适合公开网站,但从网站角度看更像“自动化访问”。
两种模式都支持。浏览器爬取适合需要登录的网站(能降低 CMA 下“未经授权访问”的风险),而云端爬取则适合需要速度的公开电商页面。这种双模式设计,让用户可以根据每个网站的法律风险画像选择对应方法。
不绕过访问控制
一个在浏览器内工作、不会破解验证码或绕过登录墙的工具,在《计算机滥用法》下天然风险更低。Thunderbit 的 Chrome 扩展运行在用户浏览器会话中——它只访问用户本来就能看到的内容。
透明的数据导出(有助于 GDPR 合规)
Thunderbit 可直接导出到 Excel、Google Sheets、Airtable 或 Notion。数据去向由用户掌控。这有助于 GDPR 的透明性和合法依据记录:你能清楚知道自己收集了什么数据、又把它们送到了哪里。工具不会偷偷做隐藏处理,也不会替你保留数据。
速率限制与负责任的访问
过高的请求量可能触发 CMA 第 3 条(未经授权造成损害)。速率限制不只是技术最佳实践,也是法律层面的保护措施。负责任的工具会避免压垮服务器,从而同时降低法律风险和 IP 被封的概率。

英国网页爬取的实用合规清单
在你抓取任何内容之前,先过一遍这个清单:
- 阅读目标网站的服务条款和可接受使用政策。
- 检查 robots.txt 文件,并记录相关路径是否被禁止。
- 判断你要的数据是否属于个人数据。 如果是,明确你在英国 GDPR 下的合法依据。
- 评估你是否抽取了数据库的“实质性部分”。
- 确认你没有绕过任何技术访问控制(验证码、登录、速率限制)。
- 如果你的目的是非商业研究,要记录这一点,以便适用 TDM 例外。
- 使用速率限制。 不要把目标服务器压垮。
- 把一切都记录下来: 合法依据、ToS 审查、收集的数据字段、导出目的地、保留期限。
- 如果不确定,找专门研究数据保护和知识产权的律师。
这份清单不能替代律师意见——但它能给你一个很扎实的起点,并且在真的被问到时,证明你是善意行事。
关键结论
- 网页爬取在英国并不违法——但它受到四套彼此重叠的法律框架约束:英国 GDPR、著作权/数据库权利、合同法,以及《计算机滥用法》。
- 任何一次爬取是否合法,取决于你抓什么、怎么访问、网站条款怎么写,以及你之后如何使用数据。
- 个人数据爬取的合规负担最高。合法权益通常是唯一可行的合法依据,而且必须做有记录的平衡测试。
- 英国没有广泛的商业 TDM 例外。商业 AI 训练和数据集转售若没有授权,风险很高。
- 在开始之前,先用上面的决策流程图和场景表评估你的具体情况。
- 选择符合合规最佳实践的工具:基于浏览器的访问、不绕过验证码、透明导出数据、设置速率限制。 的设计就围绕这些原则展开——但合规责任始终在用户身上。
- 拿不准时,记录你的判断依据并咨询律师。法律意见的成本,通常远低于一次 ICO 调查的成本。
常见问题
在英国抓取公开可用的数据合法吗?
总体上是合法的——抓取公开数据的风险,比抓取受登录保护或私密数据要低。但“公开可用”并不意味着“你可以随便用”。英国 GDPR 仍可能适用于公开的个人数据,著作权可以保护被复制的表达内容,数据库权利可以保护精心整理的集合,ToS 也可能限制自动化访问。
我可以从英国网站抓取邮箱和电话号码吗?
如果这些数据属于个人数据(邮箱和电话号码通常都算),你就需要在英国 GDPR 下有合法依据。对于 B2B 线索获取来说,合法权益是最常见的依据,但你必须做平衡测试、尽量减少收集的数据,并提供退出渠道。抓取私人生活联系方式(手机号码、私人邮箱)的风险,要比抓取商务目录列表高得多。
在英国法律下,网页爬取和网页爬行有什么区别?
从法律上说,没有真正有意义的区别——法律关心的是行为,不是标签。爬行通常指发现或索引网页;爬取通常指提取结构化数据。两者都涉及自动化访问网站,因此都适用同一套法律框架。
robots.txt 会让爬取变成非法吗?
不会。robots.txt 本身没有法律约束力。不过,忽略它会增加你的法律暴露,因为法院和 ICO 会把它当作网站所有者意图的证据。如果你忽略 robots.txt,而网站 ToS 又明确禁止爬取,那就等于叠加了多个风险因素——这会让你的辩护处境困难得多。
在英国,网页爬取会让我面临刑事起诉吗?
只有在你绕过访问控制(验证码、登录、IP 封锁)或根据 对计算机系统造成损害时,才可能触发刑事起诉。对真正公开的数据进行普通爬取,只要量合理、没有技术规避,几乎不可能因此被刑事追责。一旦行为看起来像黑客攻击或故意破坏服务,风险画像就会急剧改变。
了解更多
