几周前,我们销售团队的一位同事问了我一个我经常听到的问题:“我们能不能从这个公开的商业目录里抓取潜在客户,还是会被起诉?”他发现公开网页上就摆着一堆潜在客户数据——不用登录,没有付费墙——但随手一搜 Google 后,他就开始担心自己会不会被铐走。
这种焦虑很普遍。如今,自动化流量约占,网页爬虫软件市场预计将从 2025 年的约 ,但网上流传的大多数法律建议要么过时,要么过度简化,要么干脆就是错的。2022 年的 hiQ 诉 LinkedIn 案?几乎每篇文章都把它说成最高法院裁定“所有爬取都合法”。(剧透:不是,而且当时也不是这么判的。)
与此同时,2024 和 2025 年的一些重要新案件——涉及 X(原 Twitter)、Meta、Reddit、Google,以及 AI 公司——正在悄悄重塑规则,但几乎没人报道。本文将讲清楚到 2026 年美国法律对网页爬取到底怎么说,分清神话和现实,并给你一套实用框架,帮助你判断什么能做、什么不能做。

什么是网页爬取(企业为什么在意它)?
网页爬取就是用自动化软件从网站上收集信息,并把它整理成结构化数据——比如电子表格、数据库或 CRM 记录。
更准确地说,爬虫会访问网页,读取底层 HTML,然后提取你需要的特定数据点——价格、姓名、地址、产品规格,等等——并把它们整理成规整的行和列。它相当于雇人把网站上的信息抄进 Excel,只不过机器人几秒钟就能完成,而不是几小时。
网页爬取不是黑客攻击。它访问的是任何访客在浏览器里都能看到的同样信息。
而且这也不是什么小众开发者技巧。搜索引擎、比价网站、房产平台、市场研究看板,以及 AI 驱动工具,都依赖网页抓取和爬取来运作。只要你用过 Google、查过航班聚合器,或者浏览过 Zillow,你其实都受益于爬取技术。
我最常遇到的企业使用场景有:
- 潜在客户开发: 从商业目录中提取公司名称、网站、职位或公开联系方式。
- 竞争对手价格监控: 电商团队跟踪竞品 SKU 价格、库存和配送信息。
- 房产情报: 汇总公开房源、价格和市场趋势。
- 产品研究: 从零售网站抓取产品规格、评分、库存和分类数据。
- 市场情报: 跟踪招聘信息、门店开业、新闻信号或公开财务数据。
这项技术本身是中性的。法律分析关注的是你如何获取数据,以及你之后如何使用这些数据。
美国网页爬取合法吗?简短答案
美国联邦法律并没有明文禁止网页爬取。抓取公开可访问的数据通常是允许的。
但——而且这是个很大的“但是”——是否合法,取决于几个因素:数据类型、你如何访问、你是否同意过服务条款、数据里是否包含个人信息,以及你打算怎么用。
论坛、Reddit 讨论串,甚至法律博客里,最大的困惑来源是什么?很多人把“违法”和“违反网站服务条款”混为一谈。这两者完全不同。违反网站规则,可能导致你的 IP 被封或账号被禁;违反联邦法律,可能引发诉讼,少数情况下甚至会涉及刑事起诉。大多数爬取纠纷,实际上都属于民事范畴。
本文剩余部分会拆解关键法律、标志性判例(包括 2024 和 2025 年那些几乎没人报道的案件),并给你一个可以直接使用的实用决策框架。
“违法”有三种:刑事、民事和 ToS 违规
现在该澄清网页爬取法律中最大的一种误解了。有人问“网页爬取合法吗?”,通常把三类完全不同的风险混在了一起。把它们分开后,整个问题的讨论方式就不一样了。

| 责任类型 | 触发条件 | 可能后果 | 严重程度 |
|---|---|---|---|
| 刑事(CFAA) | 未经授权访问受认证保护的数据、欺诈、滥用凭证 | 联邦起诉、罚款、监禁 | 🔴 严重——但对普通商业爬取来说极为少见 |
| 民事诉讼 | 侵犯版权、动产侵入、违约、商业秘密侵占、隐私侵权 | 金钱赔偿、禁令、删除数据 | 🟡 严重 |
| ToS 违规 | 违反浏览即同意或点击同意的服务条款 | 账号终止、IP 封禁、停止侵权通知、可能的民事诉讼 | 🟢 低到中等 |
司法部的明确指出,普通的服务条款违规——比如注册假账号或违反网站规则——本身不足以构成联邦刑事指控。这一点很重要。
实际结论是:如果你是销售团队在抓取公开商业名录,或者电商团队在监控竞品价格,你面对的几乎肯定是民事风险管理,而不是刑事风险。这并不意味着你可以无视规则,但至少你不必过度恐慌。
适用于网页爬取的美国关键法律
在美国,有四大法律支柱会与网页爬取产生交集,而且每一项关注的问题都不同。
《计算机欺诈与滥用法》(CFAA)
最初是为了起诉计算机黑客而制定的。多年来,它逐渐成了爬取诉讼的首选法条,通常基于“爬虫未经授权访问了网站”的理论。
后来出现了 。最高法院裁定,只有当一个人访问了计算机中对其被禁止访问的区域——比如文件、文件夹、数据库——时,才算在 CFAA 下“超越授权访问”。单纯滥用你本来就能看到的信息,不算。
对爬取的影响:
- 较低的 CFAA 风险: 任何人无需登录即可访问的公开网页。没有门槛,就不存在“未经授权访问”的问题。
- 较高的 CFAA 风险: 登录后可见的数据、付费墙后的内容、访问令牌、会话操控,或被撤销访问权限的数据。
hiQ 诉 LinkedIn 案(我们后面会详细拆解)对公开数据进一步强化了这一点。但 CFAA 只是整个问题的一部分。
版权法与 DMCA
美国版权法保护的是原创性的表达——文章、图片、视频、创意型产品描述——但。最高法院的 是这里的标志性判例:姓名、地址、电话号码这类事实,无论你花了多少工夫去汇编,都不受版权保护。
被抓取数据的风险分层:
| 你在抓取什么 | 版权风险 | 原因 |
|---|---|---|
| 价格、产品名称、地址、日期、规格 | 较低 | 这些是事实 |
| 完整文章、图片、视频、创意性评论 | 较高 | 这些属于表达作品 |
| 精选数据库、排行榜、编辑型分类体系 | 中高 | 选择与编排可能受保护 |
| 付费墙或 DRM 保护内容 | 高 | 版权与访问控制问题叠加 |
又增加了一层风险:如果你绕过技术保护措施(如付费墙、DRM、某些反机器人系统)去访问受版权保护的内容,即使你根本没有复制内容本身,也可能产生责任。2025—2026 年的案件正在强烈测试这一点,包括 ,Google 指控对方绕过其 SearchGuard 反机器人系统,违反了 DMCA。
合理使用也很重要——变革性使用(分析、汇总或在数据基础上构建,而不是简单重新发布)通常比复制并转发他人内容更安全。
合同法:服务条款(浏览即同意 vs 点击同意)
许多网站会在服务条款中写入反爬取条款——但这些条款能否执行,完全取决于你是如何接触到这些条款的。
| 合同类型 | 可执行性 | 对爬虫意味着什么 |
|---|---|---|
| 点击同意(你点击“我同意”) | 很强 | 法院通常会执行。反爬取条款可支持民事索赔。 |
| 登录提示式同意(登录附近有提示) | 视具体情况而定 | 取决于提示是否足够醒目。 |
| 浏览即同意(放在页脚链接里) | 较弱 | 如果用户没有真实知情,法院通常持怀疑态度。 |
| 账号/API 条款 | 更强 | 登录后爬取或滥用 API 的风险高得多。 |
在 一案中,法院认为,Meta 的条款并没有按 Meta 所主张的那样覆盖“退出登录状态下的公开爬取”——因为就争议行为而言,并没有证据显示 Bright Data 使用了登录账号。这个区别很关键。
实用建议:如果你从未登录、从未点击“我同意”,而且只抓取公开页面,那么网站很难用浏览即同意条款来约束你。但在开始爬取前,还是要先检查 ToS,尤其是你如果创建过账号。
美国州级隐私法(CCPA 及其他)
如果你抓取的数据包含个人信息——姓名、邮箱、电话号码、地理位置数据——州级隐私法可能就会适用。而且这张“拼布式”法规版图正在快速扩张。IAPP 统计到,截至 2025 年年中,,。
这些法律大多都对“公开可获得”的个人信息设有例外,但定义并不一致。而且后续用途——出售、共享或用这些数据做画像——即便初始收集属于豁免范围,也仍可能触发义务。
| 州法律 | 生效时间 | 是否涵盖抓取到的个人信息? | 退出权要求 | 罚款范围 |
|---|---|---|---|---|
| CCPA/CPRA(加利福尼亚) | 2020/2023 | 是 | 出售/共享可退出;认可 GPC | 每次违规 2,663–7,988 美元(2025 调整后) |
| CPA(科罗拉多) | 2023 | 是 | 自 2024 年 7 月起适用通用退出权/GPC | 按不正当商业行为框架处罚 |
| CTDPA(康涅狄格) | 2023 | 是 | 自 2025 年 1 月起适用 OOPS/GPC | 故意违规最高 5,000 美元 |
| VCDPA(弗吉尼亚) | 2023 | 是 | 具有退出权 | 每次违规最高 7,500 美元 |
| TDPSA(德克萨斯) | 2024 | 是 | 自 2025 年 1 月起适用通用退出权 | 每次违规最高 7,500 美元 |
| + 截至 2026 年已通过的另外 8 个州 | 不同 | 不同 | 不同 | 不同 |
其他已通过相关法律的州还包括犹他州、俄勒冈州、蒙大拿州、特拉华州、爱荷华州、内布拉斯加州、新罕布什尔州、新泽西州、田纳西州、明尼苏达州、马里兰州、印第安纳州、肯塔基州和罗得岛州。阿拉巴马州已通过一项法律,将于 2027 年 5 月 1 日生效。
对于抓取产品价格、商业名录或市场数据的企业用户来说——这些通常不是个人信息,而是事实性内容——隐私风险要低得多。像 这样的工具,专注于从公开网页中结构化提取数据(产品数据、商业目录、房产列表),这也正好落在风险最低的爬取类别里。
网页爬取里程碑案件:从 2000 到 2026 的时间线
我认为,大多数这类指南最大的短板就在这里。几乎每篇文章都只讲到 hiQ 诉 LinkedIn(2022),却忽略了正在实质塑造爬取法律的最新判决。下面是完整时间线:
| 案件 | 年份 | 关键裁定 | 对爬虫的影响 |
|---|---|---|---|
| eBay 诉 Bidder's Edge | 2000 | 基于动产侵入颁发初步禁令;爬虫对服务器造成的负担很重要 | ⚠️ 高流量、给服务器带来负担的爬取可能产生民事责任 |
| Facebook 诉 Power Ventures | 2016 | 在停止侵权通知后仍继续通过 Facebook 系统访问,构成 CFAA 责任 | ⚠️ 停止侵权通知 + 受认证/受门禁保护的访问,风险很高 |
| Van Buren 诉美国 | 2021 | CFAA 中的“超越授权访问”要求访问被禁止的计算机区域 | ✅ 显著缩小了 CFAA 适用范围 |
| hiQ 诉 LinkedIn | 2022 | 访问公开数据不构成 CFAA 违规(初步禁令,后达成和解) | ✅ 公开数据不等于“未经授权访问”——但这不是终局裁定 |
| Meta 诉 Bright Data | 2024 | Bright Data 在 Meta 关于退出登录公开爬取的合同理论上拿到了简易判决 | ✅ 在未同意的情况下,条款未必约束退出登录爬取 |
| X Corp. 诉 Bright Data | 2024 | 5 月驳回多项主张;11 月命令驳回了基于爬取/销售的主张 | ✅ 对公开数据复制的主张被削弱 |
| Compulife 诉 Newman/Rutstein | 2024-2025 | 大规模提取保险报价数据构成商业秘密责任;2025 年 2 月最高法院拒绝受理 | ⚠️ 面向公众的数据也可能是受保护的数据库 |
| Reddit 诉 Perplexity/SerpApi/Oxylabs/AWMProxy | 2025-2026 | 指控通过 Google 搜索结果进行工业级间接爬取 | ⚠️ AI 时代的案件开始针对数据供应链 |
| Google 诉 SerpApi | 2025-2026 | 因涉嫌绕过反机器人系统而提出 DMCA §1201 主张 | ⚠️ 测试反机器人系统是否构成 DMCA 下的访问控制 |
趋势很清楚:法院越来越倾向于在 CFAA 框架下保护公开数据访问,但版权、合同、隐私、商业秘密和基础设施方面的主张仍然是彼此独立的风险。而 AI 训练浪潮又在不断制造全新的法律问题。
纠正误解:hiQ 诉 LinkedIn 到底判了什么
这是整个网页爬取法律中最容易被误读的案件。我在博客、Reddit 讨论串,甚至法律摘要里都见过它被当成“公开网页爬取合法”的证明。事情没那么简单。
实际情况是这样的:
hiQ 判了什么: 第九巡回法院维持了一项初步禁令——也就是临时性命令——阻止 LinkedIn 封锁 hiQ 对公开 LinkedIn 个人资料的爬取。法院认为,访问公开可获得的数据很可能不违反 CFAA。关键词是:很可能。来源:。
hiQ 没有确立什么:
- 并没有赋予你抓取任何公开网站的绝对权利
- 并没有就实体争议作出终局裁判——最高法院在 Van Buren 之后发回重审,第九巡回法院再次维持原裁定,随后案件又在 ,没有最终法院判决
- 公开的和解信息包括 50 万美元、禁令,以及数据/软件销毁义务
这对你为什么重要: hiQ 对公开数据爬取者来说是个积极信号。它说明法院警惕平台试图对自己并不拥有的信息建立私人垄断。但它不是法律上的通行证。其他主张——版权、合同、隐私、商业秘密——当时都没有得到解决。Van Buren 之后,CFAA 的范围更清晰了,但如果只靠 hiQ 作为法律护身符,那就是误判。
把这一点理解对,才是真正的风险管理,而不是自我安慰。
我能合法吗地抓这个吗?一个实用决策流程图

爬取是否合法听起来总像“灰色地带”——这话我经常听到。所以与其继续讲法律理论,不如直接给你一套可以用的决策框架。任何爬取项目都先问五个问题:
1. 数据是否公开可访问(不需要登录)?
- 如果不是 → CFAA 风险更高。继续前先寻求许可或做法律审核。
- 如果是 → 看第 2 个问题。
2. 你是否在绕过任何技术障碍(验证码、IP 封禁、频率限制、付费墙)?
- 如果是 → 可能涉及 DMCA 和 CFAA 问题。停止或升级给法律顾问。
- 如果不是 → 看第 3 个问题。
3. 你是否同意过禁止爬取的点击同意 ToS?
- 如果是 → 可能面临民事合同责任。考虑数据是否能从其他来源获得,或者申请许可。
- 如果不是 → 看第 4 个问题。
4. 数据是否包含个人信息(PII)?
- 如果是 → 检查 CCPA 和适用的州隐私法。确保你的使用场景合规,并尊重退出权。
- 如果不是 → 看第 5 个问题。
5. 你会如何使用这些数据?
- 商业性再发布受版权保护内容(完整文章、图片、视频)→ 版权风险。
- 变革性分析、内部研究、或事实数据使用(价格、规格、列表)→ 通常风险较低。
如果你的答案落在“公开页面、无绕过、无点击同意、非个人信息、用于内部分析的事实数据”这个区间,那你就处于最低风险类别。这正是 设计出来要服务的工作流——从产品列表、商业目录、房产数据等公开网页中提取结构化事实数据,然后导出到 Excel、Google Sheets、Airtable 或 Notion,供你自己分析。
把这张流程图收藏起来吧。它不能替代律师,但能帮你避免很多没必要的焦虑。
AI 训练与网页爬取:新的法律前沿

AI 给爬取法律又加了一整层复杂性。用爬取的数据训练大语言模型、图像生成器和其他 AI 系统,如今已经成了重要的法律战场——而且法院还没有把关键问题彻底理清。
目前情况如下:
| 案件 | 状态(2026) | 关键问题 |
|---|---|---|
| NYT 诉 OpenAI/Microsoft | 持续进行中。核心版权主张在 2025 年 4 月被允许继续推进,证据开示争议包括 2000 万+ ChatGPT 日志。 | 用抓取的新闻文章训练,究竟算合理使用还是侵犯版权? |
| Bartz 诉 Anthropic | Alsup 法官认定某些训练用途属于合理使用,但对盗版来源的获取不属于合理使用。公开报道的和解金额约 15 亿美元。 | 训练本身可能具有变革性,但从盗版来源复制是另一回事。 |
| Thomson Reuters 诉 Ross | 特拉华州法院驳回了将 Westlaw 标题注释用于构建竞争性法律研究产品的合理使用主张。 | 直接替代型产品面临更高的版权风险。 |
| Getty 诉 Stability AI | 英国案件在 2025 年大体有利于 Stability;美国案件仍在进行中。 | 图像训练法律仍未定型。 |
又补充了一些有用的细节:对大规模、多样化数据集的训练,往往可能具有变革性;但如果你复制的是盗版来源,或者用途直接与版权持有人市场竞争,那么合理使用的论点就弱得多。
对大多数读到这篇文章的企业用户来说,区别其实很简单:为你自己的分析或业务运营而抓取数据(线索开发、价格监控、市场研究),和为了训练并商业化一个 AI 模型而抓取数据,是完全不同的法律风险画像。前者的版权风险更低,后者才是大诉讼正在发生的地方。
如何负责任地爬取数据(企业团队最佳实践)
法律讲够了。下面说说怎么真正去爬取数据,同时不给团队埋下法律麻烦。
只抓取公开可访问的数据
把重点放在任何人无需登录就能看到的数据上——产品列表、商业目录、公开记录、价格页面。一旦你进入登录后区域,风险就会上升。
不要绕过技术障碍
如果网站用了验证码、IP 封禁、频率限制或付费墙,这些都是信号。绕过去可能触发 DMCA、CFAA 或合同索赔。如果这些数据足够重要,看看能不能找官方 API 或数据合作渠道。
检查服务条款
尤其是在你创建了账号或点击过“我同意”的情况下。认真看 ToS 里有没有反爬取条款。如果条款禁止爬取,而你又已经同意了,那就要考虑是否能从其他来源获取同样的数据。
尽量减少个人数据收集
如果你在收集 PII(姓名、邮箱、电话号码),要确保你的使用场景符合适用的州隐私法。抓取事实性的商业数据——公司名称、产品价格、列表详情——比抓取个人消费者资料的风险要低得多。
尊重 robots.txt 和频率限制
本身没有法律约束力,但尊重它能体现你的善意。而且不要把网站服务器打爆——限制请求频率,设置合理间隔,不要造成基础设施损害。
把数据用于分析,而不是再发布
变革性使用——分析、汇总、内部研究、竞争情报——比复制并重新发布别人的文章、图片或评论安全得多。如果你是在为团队建立看板或电子表格,你的处境会比把抓取内容重新发布到自己网站上好得多。
选择为合规爬取而设计的工具
这里我得提一下我们在 做了什么。我们的 就是为需要从公开网页中提取结构化数据的企业用户设计的——产品列表、商业目录、房产数据、潜在客户信息——而且不需要写代码,也不用绕过技术障碍。AI 会读取页面、建议字段,并让你导出到 。它就是为上面那个决策流程图里风险最低的一支而生的:公开页面、事实数据、不绕过登录。
当然,任何工具都不能让你免于法律风险。你抓什么、怎么用,责任始终在你自己。
保留记录,收到停止侵权通知就立刻停
记录你的爬取活动和业务目的。如果你收到停止侵权通知信,请停止并咨询法律顾问。在正式通知后继续爬取,会显著提高你的风险等级,尤其是在涉及门禁系统时。
美国网页爬取合法性的关键结论
简短版如下:
- 美国没有联邦法律全面禁止网页爬取。 抓取公开可访问的事实数据通常是允许的。
- 是否合法取决于你抓什么、怎么访问、以及你怎么使用。 公开页面 + 事实数据 + 内部分析 = 风险最低。
- Van Buren 和 hiQ 之后,CFAA 的适用范围收窄了,但版权、合同、隐私和商业秘密主张仍是独立风险,依然适用。
- 对典型商业爬取来说,刑事责任很少见。 大多数风险是民事性质——诉讼,不是手铐。
- hiQ 诉 LinkedIn 不是一张“万能许可”。 它是一个后来和解的初步禁令。它令人鼓舞,但不是保证。
- 涉及个人信息时,州隐私法很重要, 但非个人信息数据(价格、列表、规格)风险最低。
- AI 训练场景是一个新的、尚未定论的法律前沿。 为你自己的分析而做业务爬取,与为了构建商业 AI 模型而爬取,风险画像完全不同。
- 遵循最佳实践——公开数据、尊重 ToS、避免 PII、不绕过障碍、负责任地使用数据——能把你的团队留在安全区。
必要的免责声明:本文仅供信息参考,不构成法律建议。如果你打算做大规模爬取,或者处理敏感数据,请咨询合格律师。但如果你只是想从公开名录里抓取潜在客户,或者电商团队想监控竞品价格?法律其实比你想象中更站在你这边。
如果你想看看 Thunderbit 如何把这种公开数据提取变得简单——无需代码、无需绕过,只需把结构化数据接入你的工作流——可以查看我们的,或者直接获取 亲自试试。
常见问题
1. 到 2026 年,在美国网页爬取合法吗?
是的,只要你抓取的是公开可访问的数据,在美国通常就是合法的。没有联邦法律禁止它。不过,你如何爬取、收集什么数据,以及如何使用这些数据,可能会在 CFAA、版权法、合同法或州隐私法规下产生法律风险。最稳妥的做法是坚持抓取公开页面,避免绕过技术障碍,尽量少收集个人数据,并把数据用于分析而不是直接再发布。
2. 因为网页爬取会坐牢吗?
因为网页爬取而被刑事起诉极其罕见,通常需要你在未经授权的情况下访问受认证保护的数据(CFAA 违规)或实施欺诈。司法部 2022 年的 CFAA 起诉政策指出,普通的服务条款违规不足以构成刑事指控。大多数网页爬取争议都是民事纠纷——是诉讼,不是刑事案件。
3. 违反网站服务条款会让爬取变成违法行为吗?
不会自动变成违法。违反网站 ToS 属于合同问题,不是刑事犯罪。如果你同意了禁止爬取的点击同意条款,网站可以提起民事违约诉讼。但浏览即同意条款(放在页脚里的链接)要难执行得多,尤其是你从未登录或点击“我同意”的情况下。法院在多个爬取案件中都对被动式浏览即同意执行持怀疑态度。
4. 在美国抓取个人数据(邮箱、电话号码)合法吗?
要看情况。许多美国州隐私法——包括 CCPA、VCDPA、CPA 等——都对公开可获得的个人信息设有例外,但定义和后续使用义务各不相同。抓取非个人数据(产品价格、商业列表、公开记录)的风险要比抓取个人消费者资料低得多。如果你在大规模收集个人信息,请查看适用州法律并确保你的目的合规。
5. hiQ 诉 LinkedIn 让所有网页爬取都合法的吗?
没有。hiQ 的裁定只是初步禁令——基于胜诉可能性作出的临时命令——不是实体争议的终局裁决。第九巡回法院说,访问公开数据很可能不违反 CFAA,但该案在 2022 年和解,没有最终法院判决。它并不授权你抓取任何网站,也没有处理版权、合同、隐私或商业秘密主张。对于公开数据爬取者来说,它是积极信号,但不是法律保证。
了解更多
