美国网页爬取合法吗？法律到底怎么说

几周前，我们销售团队的一位同事问了我一个我经常听到的问题：“我们能不能从这个公开的商业目录里抓取潜在客户，还是会被起诉？”他发现公开网页上就摆着一堆潜在客户数据——不用登录，没有付费墙——但随手一搜 Google 后，他就开始担心自己会不会被铐走。

这种焦虑很普遍。如今，自动化流量约占全部网页流量的 51%，网页爬虫软件市场预计将从 2025 年的约 10.8 亿美元增长到 2031 年的 35.9 亿美元，但网上流传的大多数法律建议要么过时，要么过度简化，要么干脆就是错的。2022 年的 hiQ 诉 LinkedIn 案？几乎每篇文章都把它说成最高法院裁定“所有爬取都合法”。（剧透：不是，而且当时也不是这么判的。）

与此同时，2024 和 2025 年的一些重要新案件——涉及 X（原 Twitter）、Meta、Reddit、Google，以及 AI 公司——正在悄悄重塑规则，但几乎没人报道。本文将讲清楚到 2026 年美国法律对网页爬取到底怎么说，分清神话和现实，并给你一套实用框架，帮助你判断什么能做、什么不能做。

ig_01ef7eecb01f4f920169f063829a4481918da7ee0e1b3f672e_compressed.webp

什么是网页爬取（企业为什么在意它）？

网页爬取就是用自动化软件从网站上收集信息，并把它整理成结构化数据——比如电子表格、数据库或 CRM 记录。

更准确地说，爬虫会访问网页，读取底层 HTML，然后提取你需要的特定数据点——价格、姓名、地址、产品规格，等等——并把它们整理成规整的行和列。它相当于雇人把网站上的信息抄进 Excel，只不过机器人几秒钟就能完成，而不是几小时。

网页爬取不是黑客攻击。它访问的是任何访客在浏览器里都能看到的同样信息。

而且这也不是什么小众开发者技巧。搜索引擎、比价网站、房产平台、市场研究看板，以及 AI 驱动工具，都依赖网页抓取和爬取来运作。只要你用过 Google、查过航班聚合器，或者浏览过 Zillow，你其实都受益于爬取技术。

我最常遇到的企业使用场景有：

潜在客户开发： 从商业目录中提取公司名称、网站、职位或公开联系方式。
竞争对手价格监控： 电商团队跟踪竞品 SKU 价格、库存和配送信息。
房产情报： 汇总公开房源、价格和市场趋势。
产品研究： 从零售网站抓取产品规格、评分、库存和分类数据。
市场情报： 跟踪招聘信息、门店开业、新闻信号或公开财务数据。

这项技术本身是中性的。法律分析关注的是你如何获取数据，以及你之后如何使用这些数据。

美国网页爬取合法吗？简短答案

美国联邦法律并没有明文禁止网页爬取。抓取公开可访问的数据通常是允许的。

但——而且这是个很大的“但是”——是否合法，取决于几个因素：数据类型、你如何访问、你是否同意过服务条款、数据里是否包含个人信息，以及你打算怎么用。

论坛、Reddit 讨论串，甚至法律博客里，最大的困惑来源是什么？很多人把“违法”和“违反网站服务条款”混为一谈。这两者完全不同。违反网站规则，可能导致你的 IP 被封或账号被禁；违反联邦法律，可能引发诉讼，少数情况下甚至会涉及刑事起诉。大多数爬取纠纷，实际上都属于民事范畴。

本文剩余部分会拆解关键法律、标志性判例（包括 2024 和 2025 年那些几乎没人报道的案件），并给你一个可以直接使用的实用决策框架。

“违法”有三种：刑事、民事和 ToS 违规

现在该澄清网页爬取法律中最大的一种误解了。有人问“网页爬取合法吗？”，通常把三类完全不同的风险混在了一起。把它们分开后，整个问题的讨论方式就不一样了。

ig_01ef7eecb01f4f920169f064039ff881918c7bf5b1db31fa7f_compressed.webp

责任类型	触发条件	可能后果	严重程度
刑事（CFAA）	未经授权访问受认证保护的数据、欺诈、滥用凭证	联邦起诉、罚款、监禁	🔴 严重——但对普通商业爬取来说极为少见
民事诉讼	侵犯版权、动产侵入、违约、商业秘密侵占、隐私侵权	金钱赔偿、禁令、删除数据	🟡 严重
ToS 违规	违反浏览即同意或点击同意的服务条款	账号终止、IP 封禁、停止侵权通知、可能的民事诉讼	🟢 低到中等

司法部的2022 年 CFAA 起诉政策明确指出，普通的服务条款违规——比如注册假账号或违反网站规则——本身不足以构成联邦刑事指控。这一点很重要。

实际结论是：如果你是销售团队在抓取公开商业名录，或者电商团队在监控竞品价格，你面对的几乎肯定是民事风险管理，而不是刑事风险。这并不意味着你可以无视规则，但至少你不必过度恐慌。

适用于网页爬取的美国关键法律

在美国，有四大法律支柱会与网页爬取产生交集，而且每一项关注的问题都不同。

《计算机欺诈与滥用法》（CFAA）

CFAA（18 U.S.C. § 1030）最初是为了起诉计算机黑客而制定的。多年来，它逐渐成了爬取诉讼的首选法条，通常基于“爬虫未经授权访问了网站”的理论。

后来出现了 Van Buren 诉美国案。最高法院裁定，只有当一个人访问了计算机中对其被禁止访问的区域——比如文件、文件夹、数据库——时，才算在 CFAA 下“超越授权访问”。单纯滥用你本来就能看到的信息，不算。

对爬取的影响：

较低的 CFAA 风险： 任何人无需登录即可访问的公开网页。没有门槛，就不存在“未经授权访问”的问题。
较高的 CFAA 风险： 登录后可见的数据、付费墙后的内容、访问令牌、会话操控，或被撤销访问权限的数据。

hiQ 诉 LinkedIn 案（我们后面会详细拆解）对公开数据进一步强化了这一点。但 CFAA 只是整个问题的一部分。

版权法与 DMCA

美国版权法保护的是原创性的表达——文章、图片、视频、创意型产品描述——但不保护原始事实。最高法院的 Feist 案是这里的标志性判例：姓名、地址、电话号码这类事实，无论你花了多少工夫去汇编，都不受版权保护。

被抓取数据的风险分层：

你在抓取什么	版权风险	原因
价格、产品名称、地址、日期、规格	较低	这些是事实
完整文章、图片、视频、创意性评论	较高	这些属于表达作品
精选数据库、排行榜、编辑型分类体系	中高	选择与编排可能受保护
付费墙或 DRM 保护内容	高	版权与访问控制问题叠加

DMCA 的反规避条款（17 U.S.C. § 1201）又增加了一层风险：如果你绕过技术保护措施（如付费墙、DRM、某些反机器人系统）去访问受版权保护的内容，即使你根本没有复制内容本身，也可能产生责任。2025—2026 年的案件正在强烈测试这一点，包括 Google 诉 SerpApi，Google 指控对方绕过其 SearchGuard 反机器人系统，违反了 DMCA。

合理使用也很重要——变革性使用（分析、汇总或在数据基础上构建，而不是简单重新发布）通常比复制并转发他人内容更安全。

合同法：服务条款（浏览即同意 vs 点击同意）

许多网站会在服务条款中写入反爬取条款——但这些条款能否执行，完全取决于你是如何接触到这些条款的。

合同类型	可执行性	对爬虫意味着什么
点击同意（你点击“我同意”）	很强	法院通常会执行。反爬取条款可支持民事索赔。
登录提示式同意（登录附近有提示）	视具体情况而定	取决于提示是否足够醒目。
浏览即同意（放在页脚链接里）	较弱	如果用户没有真实知情，法院通常持怀疑态度。
账号/API 条款	更强	登录后爬取或滥用 API 的风险高得多。

在 Meta 诉 Bright Data（2024）一案中，法院认为，Meta 的条款并没有按 Meta 所主张的那样覆盖“退出登录状态下的公开爬取”——因为就争议行为而言，并没有证据显示 Bright Data 使用了登录账号。这个区别很关键。

实用建议：如果你从未登录、从未点击“我同意”，而且只抓取公开页面，那么网站很难用浏览即同意条款来约束你。但在开始爬取前，还是要先检查 ToS，尤其是你如果创建过账号。

美国州级隐私法（CCPA 及其他）

如果你抓取的数据包含个人信息——姓名、邮箱、电话号码、地理位置数据——州级隐私法可能就会适用。而且这张“拼布式”法规版图正在快速扩张。IAPP 统计到，截至 2025 年年中，已有 19 项全面州隐私法正式生效，MultiState 则报告称到 2026 年已有 20 个州实施全面隐私法。

这些法律大多都对“公开可获得”的个人信息设有例外，但定义并不一致。而且后续用途——出售、共享或用这些数据做画像——即便初始收集属于豁免范围，也仍可能触发义务。

州法律	生效时间	是否涵盖抓取到的个人信息？	退出权要求	罚款范围
CCPA/CPRA（加利福尼亚）	2020/2023	是	出售/共享可退出；认可 GPC	每次违规 2,663–7,988 美元（2025 调整后）
CPA（科罗拉多）	2023	是	自 2024 年 7 月起适用通用退出权/GPC	按不正当商业行为框架处罚
CTDPA（康涅狄格）	2023	是	自 2025 年 1 月起适用 OOPS/GPC	故意违规最高 5,000 美元
VCDPA（弗吉尼亚）	2023	是	具有退出权	每次违规最高 7,500 美元
TDPSA（德克萨斯）	2024	是	自 2025 年 1 月起适用通用退出权	每次违规最高 7,500 美元
+ 截至 2026 年已通过的另外 8 个州	不同	不同	不同	不同

其他已通过相关法律的州还包括犹他州、俄勒冈州、蒙大拿州、特拉华州、爱荷华州、内布拉斯加州、新罕布什尔州、新泽西州、田纳西州、明尼苏达州、马里兰州、印第安纳州、肯塔基州和罗得岛州。阿拉巴马州已通过一项法律，将于 2027 年 5 月 1 日生效。

对于抓取产品价格、商业名录或市场数据的企业用户来说——这些通常不是个人信息，而是事实性内容——隐私风险要低得多。像 Thunderbit 这样的工具，专注于从公开网页中结构化提取数据（产品数据、商业目录、房产列表），这也正好落在风险最低的爬取类别里。

网页爬取里程碑案件：从 2000 到 2026 的时间线

我认为，大多数这类指南最大的短板就在这里。几乎每篇文章都只讲到 hiQ 诉 LinkedIn（2022），却忽略了正在实质塑造爬取法律的最新判决。下面是完整时间线：

案件	年份	关键裁定	对爬虫的影响
eBay 诉 Bidder's Edge	2000	基于动产侵入颁发初步禁令；爬虫对服务器造成的负担很重要	⚠️ 高流量、给服务器带来负担的爬取可能产生民事责任
Facebook 诉 Power Ventures	2016	在停止侵权通知后仍继续通过 Facebook 系统访问，构成 CFAA 责任	⚠️ 停止侵权通知 + 受认证/受门禁保护的访问，风险很高
Van Buren 诉美国	2021	CFAA 中的“超越授权访问”要求访问被禁止的计算机区域	✅ 显著缩小了 CFAA 适用范围
hiQ 诉 LinkedIn	2022	访问公开数据不构成 CFAA 违规（初步禁令，后达成和解）	✅ 公开数据不等于“未经授权访问”——但这不是终局裁定
Meta 诉 Bright Data	2024	Bright Data 在 Meta 关于退出登录公开爬取的合同理论上拿到了简易判决	✅ 在未同意的情况下，条款未必约束退出登录爬取
X Corp. 诉 Bright Data	2024	5 月驳回多项主张；11 月命令驳回了基于爬取/销售的主张	✅ 对公开数据复制的主张被削弱
Compulife 诉 Newman/Rutstein	2024-2025	大规模提取保险报价数据构成商业秘密责任；2025 年 2 月最高法院拒绝受理	⚠️ 面向公众的数据也可能是受保护的数据库
Reddit 诉 Perplexity/SerpApi/Oxylabs/AWMProxy	2025-2026	指控通过 Google 搜索结果进行工业级间接爬取	⚠️ AI 时代的案件开始针对数据供应链
Google 诉 SerpApi	2025-2026	因涉嫌绕过反机器人系统而提出 DMCA §1201 主张	⚠️ 测试反机器人系统是否构成 DMCA 下的访问控制

趋势很清楚：法院越来越倾向于在 CFAA 框架下保护公开数据访问，但版权、合同、隐私、商业秘密和基础设施方面的主张仍然是彼此独立的风险。而 AI 训练浪潮又在不断制造全新的法律问题。

纠正误解：hiQ 诉 LinkedIn 到底判了什么

这是整个网页爬取法律中最容易被误读的案件。我在博客、Reddit 讨论串，甚至法律摘要里都见过它被当成“公开网页爬取合法”的证明。事情没那么简单。

实际情况是这样的：

hiQ 判了什么： 第九巡回法院维持了一项初步禁令——也就是临时性命令——阻止 LinkedIn 封锁 hiQ 对公开 LinkedIn 个人资料的爬取。法院认为，访问公开可获得的数据很可能不违反 CFAA。关键词是：很可能。来源：hiQ Labs 诉 LinkedIn，第九巡回法院。

hiQ 没有确立什么：

并没有赋予你抓取任何公开网站的绝对权利
并没有就实体争议作出终局裁判——最高法院在 Van Buren 之后发回重审，第九巡回法院再次维持原裁定，随后案件又在 2022 年底和解，没有最终法院判决
公开的和解信息包括 50 万美元、禁令，以及数据/软件销毁义务

这对你为什么重要： hiQ 对公开数据爬取者来说是个积极信号。它说明法院警惕平台试图对自己并不拥有的信息建立私人垄断。但它不是法律上的通行证。其他主张——版权、合同、隐私、商业秘密——当时都没有得到解决。Van Buren 之后，CFAA 的范围更清晰了，但如果只靠 hiQ 作为法律护身符，那就是误判。

把这一点理解对，才是真正的风险管理，而不是自我安慰。

我能合法吗地抓这个吗？一个实用决策流程图

ig_01ef7eecb01f4f920169f06460a4f0819194734b5fbc60656e_compressed.webp

爬取是否合法听起来总像“灰色地带”——这话我经常听到。所以与其继续讲法律理论，不如直接给你一套可以用的决策框架。任何爬取项目都先问五个问题：

1. 数据是否公开可访问（不需要登录）？

如果不是 → CFAA 风险更高。继续前先寻求许可或做法律审核。
如果是 → 看第 2 个问题。

2. 你是否在绕过任何技术障碍（验证码、IP 封禁、频率限制、付费墙）？

如果是 → 可能涉及 DMCA 和 CFAA 问题。停止或升级给法律顾问。
如果不是 → 看第 3 个问题。

3. 你是否同意过禁止爬取的点击同意 ToS？

如果是 → 可能面临民事合同责任。考虑数据是否能从其他来源获得，或者申请许可。
如果不是 → 看第 4 个问题。

4. 数据是否包含个人信息（PII）？

如果是 → 检查 CCPA 和适用的州隐私法。确保你的使用场景合规，并尊重退出权。
如果不是 → 看第 5 个问题。

5. 你会如何使用这些数据？

商业性再发布受版权保护内容（完整文章、图片、视频）→ 版权风险。
变革性分析、内部研究、或事实数据使用（价格、规格、列表）→ 通常风险较低。

如果你的答案落在“公开页面、无绕过、无点击同意、非个人信息、用于内部分析的事实数据”这个区间，那你就处于最低风险类别。这正是 Thunderbit 设计出来要服务的工作流——从产品列表、商业目录、房产数据等公开网页中提取结构化事实数据，然后导出到 Excel、Google Sheets、Airtable 或 Notion，供你自己分析。

把这张流程图收藏起来吧。它不能替代律师，但能帮你避免很多没必要的焦虑。

AI 训练与网页爬取：新的法律前沿

ig_01ef7eecb01f4f920169f063bb1014819192c3bf906b778b39_compressed.webp

AI 给爬取法律又加了一整层复杂性。用爬取的数据训练大语言模型、图像生成器和其他 AI 系统，如今已经成了重要的法律战场——而且法院还没有把关键问题彻底理清。

目前情况如下：

案件	状态（2026）	关键问题
NYT 诉 OpenAI/Microsoft	持续进行中。核心版权主张在 2025 年 4 月被允许继续推进，证据开示争议包括 2000 万+ ChatGPT 日志。	用抓取的新闻文章训练，究竟算合理使用还是侵犯版权？
Bartz 诉 Anthropic	Alsup 法官认定某些训练用途属于合理使用，但对盗版来源的获取不属于合理使用。公开报道的和解金额约 15 亿美元。	训练本身可能具有变革性，但从盗版来源复制是另一回事。
Thomson Reuters 诉 Ross	特拉华州法院驳回了将 Westlaw 标题注释用于构建竞争性法律研究产品的合理使用主张。	直接替代型产品面临更高的版权风险。
Getty 诉 Stability AI	英国案件在 2025 年大体有利于 Stability；美国案件仍在进行中。	图像训练法律仍未定型。

美国版权局 2025 年 AI 报告又补充了一些有用的细节：对大规模、多样化数据集的训练，往往可能具有变革性；但如果你复制的是盗版来源，或者用途直接与版权持有人市场竞争，那么合理使用的论点就弱得多。

对大多数读到这篇文章的企业用户来说，区别其实很简单：为你自己的分析或业务运营而抓取数据（线索开发、价格监控、市场研究），和为了训练并商业化一个 AI 模型而抓取数据，是完全不同的法律风险画像。前者的版权风险更低，后者才是大诉讼正在发生的地方。

如何负责任地爬取数据（企业团队最佳实践）

法律讲够了。下面说说怎么真正去爬取数据，同时不给团队埋下法律麻烦。

只抓取公开可访问的数据

把重点放在任何人无需登录就能看到的数据上——产品列表、商业目录、公开记录、价格页面。一旦你进入登录后区域，风险就会上升。

不要绕过技术障碍

如果网站用了验证码、IP 封禁、频率限制或付费墙，这些都是信号。绕过去可能触发 DMCA、CFAA 或合同索赔。如果这些数据足够重要，看看能不能找官方 API 或数据合作渠道。

检查服务条款

尤其是在你创建了账号或点击过“我同意”的情况下。认真看 ToS 里有没有反爬取条款。如果条款禁止爬取，而你又已经同意了，那就要考虑是否能从其他来源获取同样的数据。

尽量减少个人数据收集

如果你在收集 PII（姓名、邮箱、电话号码），要确保你的使用场景符合适用的州隐私法。抓取事实性的商业数据——公司名称、产品价格、列表详情——比抓取个人消费者资料的风险要低得多。

尊重 robots.txt 和频率限制

Robots.txt（RFC 9309）本身没有法律约束力，但尊重它能体现你的善意。而且不要把网站服务器打爆——限制请求频率，设置合理间隔，不要造成基础设施损害。

把数据用于分析，而不是再发布

变革性使用——分析、汇总、内部研究、竞争情报——比复制并重新发布别人的文章、图片或评论安全得多。如果你是在为团队建立看板或电子表格，你的处境会比把抓取内容重新发布到自己网站上好得多。

选择为合规爬取而设计的工具

这里我得提一下我们在 Thunderbit 做了什么。我们的 AI 网页爬虫 Chrome 扩展就是为需要从公开网页中提取结构化数据的企业用户设计的——产品列表、商业目录、房产数据、潜在客户信息——而且不需要写代码，也不用绕过技术障碍。AI 会读取页面、建议字段，并让你导出到 Excel、Google Sheets、Airtable 或 Notion。它就是为上面那个决策流程图里风险最低的一支而生的：公开页面、事实数据、不绕过登录。

当然，任何工具都不能让你免于法律风险。你抓什么、怎么用，责任始终在你自己。

保留记录，收到停止侵权通知就立刻停

记录你的爬取活动和业务目的。如果你收到停止侵权通知信，请停止并咨询法律顾问。在正式通知后继续爬取，会显著提高你的风险等级，尤其是在涉及门禁系统时。

美国网页爬取合法性的关键结论

简短版如下：

美国没有联邦法律全面禁止网页爬取。 抓取公开可访问的事实数据通常是允许的。
是否合法取决于你抓什么、怎么访问、以及你怎么使用。 公开页面 + 事实数据 + 内部分析 = 风险最低。
Van Buren 和 hiQ 之后，CFAA 的适用范围收窄了，但版权、合同、隐私和商业秘密主张仍是独立风险，依然适用。
对典型商业爬取来说，刑事责任很少见。 大多数风险是民事性质——诉讼，不是手铐。
hiQ 诉 LinkedIn 不是一张“万能许可”。 它是一个后来和解的初步禁令。它令人鼓舞，但不是保证。
涉及个人信息时，州隐私法很重要， 但非个人信息数据（价格、列表、规格）风险最低。
AI 训练场景是一个新的、尚未定论的法律前沿。 为你自己的分析而做业务爬取，与为了构建商业 AI 模型而爬取，风险画像完全不同。
遵循最佳实践——公开数据、尊重 ToS、避免 PII、不绕过障碍、负责任地使用数据——能把你的团队留在安全区。

必要的免责声明：本文仅供信息参考，不构成法律建议。如果你打算做大规模爬取，或者处理敏感数据，请咨询合格律师。但如果你只是想从公开名录里抓取潜在客户，或者电商团队想监控竞品价格？法律其实比你想象中更站在你这边。

如果你想看看 Thunderbit 如何把这种公开数据提取变得简单——无需代码、无需绕过，只需把结构化数据接入你的工作流——可以查看我们的快速入门指南，或者直接获取 Chrome 扩展亲自试试。

常见问题

1. 到 2026 年，在美国网页爬取合法吗？

是的，只要你抓取的是公开可访问的数据，在美国通常就是合法的。没有联邦法律禁止它。不过，你如何爬取、收集什么数据，以及如何使用这些数据，可能会在 CFAA、版权法、合同法或州隐私法规下产生法律风险。最稳妥的做法是坚持抓取公开页面，避免绕过技术障碍，尽量少收集个人数据，并把数据用于分析而不是直接再发布。

2. 因为网页爬取会坐牢吗？

因为网页爬取而被刑事起诉极其罕见，通常需要你在未经授权的情况下访问受认证保护的数据（CFAA 违规）或实施欺诈。司法部 2022 年的 CFAA 起诉政策指出，普通的服务条款违规不足以构成刑事指控。大多数网页爬取争议都是民事纠纷——是诉讼，不是刑事案件。

3. 违反网站服务条款会让爬取变成违法行为吗？

不会自动变成违法。违反网站 ToS 属于合同问题，不是刑事犯罪。如果你同意了禁止爬取的点击同意条款，网站可以提起民事违约诉讼。但浏览即同意条款（放在页脚里的链接）要难执行得多，尤其是你从未登录或点击“我同意”的情况下。法院在多个爬取案件中都对被动式浏览即同意执行持怀疑态度。

4. 在美国抓取个人数据（邮箱、电话号码）合法吗？

要看情况。许多美国州隐私法——包括 CCPA、VCDPA、CPA 等——都对公开可获得的个人信息设有例外，但定义和后续使用义务各不相同。抓取非个人数据（产品价格、商业列表、公开记录）的风险要比抓取个人消费者资料低得多。如果你在大规模收集个人信息，请查看适用州法律并确保你的目的合规。

5. hiQ 诉 LinkedIn 让所有网页爬取都合法的吗？

没有。hiQ 的裁定只是初步禁令——基于胜诉可能性作出的临时命令——不是实体争议的终局裁决。第九巡回法院说，访问公开数据很可能不违反 CFAA，但该案在 2022 年和解，没有最终法院判决。它并不授权你抓取任何网站，也没有处理版权、合同、隐私或商业秘密主张。对于公开数据爬取者来说，它是积极信号，但不是法律保证。

了解更多