日本有五部法律与网页抓取有关,但没有任何一部法律真的写着“网页抓取”这个词。
如果你曾想弄清楚自己在日本的抓取项目是否合法,可能已经被模糊的论坛帖子、以 AI 训练为中心的文章和互相矛盾的建议绕晕了。我花了好几个星期,翻查日本官方法律、政府指引、执法数据和法律评论,整理出这份尽可能清晰的英文指南。
无论你是在监测乐天上的竞品价格、抓取房产数据做市场分析,还是在搭建 B2B 线索名单,这篇文章都会带你梳理所有关键法律——附上实用表格、真实场景和一份可在开始抓取前使用的 10 步合规清单。
“日本网页抓取合法吗”到底是什么意思?
网页抓取——也就是用软件自动从网站提取数据——并没有被日本某一部单独的法律直接规定。没有任何法条会写“抓取合法”或“抓取违法”。你的项目是否合法,取决于三件事:你抓什么、你怎么访问,以及你之后怎么使用这些数据。
五部法律构成了这个法律栈:
| 法律 | 对抓取者的约束 |
|---|---|
| 著作权法(1970 年第 48 号法) | 保护创作作品、图片、文本和数据库结构。第 30-4 条为数据分析提供了广泛例外。 |
| APPI(《个人信息保护法》,2003 年第 57 号法) | 规范对在世个人的个人数据的收集、使用、共享和跨境传输。 |
| UCAL(《禁止非法访问计算机法》,1999 年第 128 号法) | 将绕过身份验证和访问控制定为犯罪——也就是日本的反黑客法。 |
| UCPA(《不正当竞争防止法》,1993 年第 47 号法) | 保护商业秘密和“有限访问的共享数据”免遭不当获取。 |
| 刑法(1907 年第 45 号法) | 当抓取行为干扰网站运营时,第 233、234 和 234-2 条可能适用。 |
本文其余部分会结合实际例子和风险评估,逐一拆解每部法律。如果你想直接看行动项,可以跳到 。
日本著作权法与第 30-4 条:信息分析例外
日本著作权法保护创作作品:文章、照片、商品描述、以及具有创意编排的数据库结构。抓取器下载网页时,从技术上讲会依据 “复制”这些内容——也就是作者的专有复制权。
但日本的特别之处就在这里。
2018 年,日本通过了一次大范围修法(2019 年 1 月 1 日生效),新增了 ——这是一个灵活的著作权例外,让大多数分析型网页抓取变得合法。把它称为全球对数据分析和 AI 开发最宽松的框架之一。
大多数英文文章把第 30-4 条只理解为与 AI 训练有关,这种理解太窄了。该条文明确覆盖“信息分析”——包括提取、比较、分类以及其他统计分析。换句话说,它覆盖的正是商业抓取每天在做的事。
第 30-4 条到底说了什么?(通俗版)
第 30-4 条允许在“目的不是为了亲自享受作品中表达的思想或情感,或者让他人享受这些思想或情感”时使用受著作权保护的作品。实践中,需要同时满足两个条件:
-
“享受”测试。 如果你提取的是事实数据——价格、日期、面积、库存——而不是消费或重新发布创作内容,你就站在有利一侧。也再次强调,不以享受为目的的用途包括数据分析、分类和索引。
-
“不正当损害”测试。 你的抓取不应替代原作品,或削弱著作权人的市场。例如,如果你抓取的是一个付费、可直接用于分析的数据集,只是为了避免购买,即使你的目的只是分析,也可能不满足这一测试。

第 30-4 条下的真实抓取场景
这就是落地的时候。该条文的适用范围远不止 AI 训练:
| 使用场景 | 第 30-4 条适用吗? | 原因 |
|---|---|---|
| 抓取房产列表做市场价格分析 | ✅ 是 | 报价、面积、房龄属于信息分析的事实输入,而不是对表达内容的享受 |
| 抓取交易所网站的股价数据 | ✅ 是 | 统计分析目的 |
| 抓取商品图片用于竞争性电商网站 | ❌ 否 | 利用了表达内容本身 |
| 抓取新闻文章并重新发布 | ❌ 否 | 取代了原作品 |
| 抓取商品描述用于价格监测 | ✅ 大概率是 | 提取的是事实数据,而不是享受表达内容 |
| 基于抓取文档构建 RAG 系统 | ⚠️ 视情况而定 | 向量化可能属于不以享受为目的,但输出受保护段落还需要进一步分析 |
还有一个细节:第 47-5 条为与计算机信息处理附带的“轻微利用”提供了较窄的保护——可以理解为搜索结果中的小片段或缩略图。它不是主要的抓取避风港,但可以支持搜索或分析服务所需的预备性复制。会根据比例、数量和展示准确性来判断“轻微”与否。
结论很简单:如果你提取的是用于分析的事实,而不是重新发布创作内容,日本的著作权框架总体上是站在你这边的。
日本《禁止非法访问计算机法》(UCAL):抓取何时越界
几乎没有英文抓取文章会解释这部法律,但它可能是日本法中最重要的一条红线。
(不正アクセス禁止法,1999 年第 128 号法)相当于美国 CFAA 的功能性对应物。它将绕过身份验证保护的计算机上的未经授权访问定为犯罪。规定的处罚可达 3 年以下监禁或最高 100 万日元罚款。
UCAL 并不禁止抓取公开网页。只有当你绕过或规避身份验证——比如登录墙、密码、访问令牌或类似控制——时,这部法律才会介入。这一区别至关重要。
常见抓取场景的 UCAL 风险等级
| 场景 | UCAL 风险等级 | 解释 |
|---|---|---|
| 抓取公开商品列表 | ✅ 低 | 不涉及绕过身份验证 |
| 使用自己的账号抓取登录后的内容 | ⚠️ 中等——取决于服务条款 | 如果凭据是你自己的,UCAL 可能不适用,但仍有条款和合同风险 |
| 绕过身份验证或 CAPTCHA 获取数据 | ❌ 高——很可能违法 | 第 2 条第 4 款第 (ii) 项涵盖规避访问限制 |
| 未经授权访问受限 API | ❌ 高——很可能违法 | 需要认证或仅供合作方使用的 API 明确属于 UCAL 的范围 |
| 使用他人凭据或会话令牌 | ❌ 高——很可能违法 | 第 2 条第 4 款第 (i) 项直接针对他人的识别代码使用 |
日本警察厅,较上一年增长 8.1%。其中 511 起(90.8%)涉及未经授权使用他人的识别代码。执法重点压倒性地集中在凭据滥用,而不是普通的公开抓取。
UCAL 与美国 CFAA 有何不同
UCAL 在一个重要意义上比 CFAA 更窄:它只关注绕过身份验证,而美国 CFAA 中“超越授权访问”的表述在美国法院里争论了几十年。美国最高法院在 后,仅仅违反网站服务条款,较不可能触发 CFAA 的刑事责任。日本也得出了类似的实际结果:除非另有独立的访问控制因素,否则违反服务条款主要是合同问题,而不是 UCAL 的刑事问题。
APPI 2022 修法:抓取者必须了解的个人数据规则
日本的(APPI)是该国的主要数据保护法,而 显著收紧了规则。如果你从日本网站抓取姓名、邮箱、电话号码,或者任何能识别在世个人的数据,APPI 就适用。
关键问题是:什么时候抓取会触发 APPI 合规?
APPI 下什么算“个人信息”
APPI 将个人信息定义为能够识别某个在世个人的数据——包括可以通过与其他信息容易整合后识别。 确认,像 firstname.lastname@company.jp 这样的工作邮箱,如果能识别特定个人,也可能属于个人信息;cookie ID 如果与其他可识别身份的数据结合,也会变成个人信息。
2022 年修法引入了一个新类别:“个人关联信息”——即本身不能直接识别人,但与其他数据结合后可以识别的信息(如 cookie ID、浏览记录、购买记录)。这对抓取很重要:对抓取器来说看似匿名的数据,到了接收端与 CRM 或广告技术数据合并后,可能就变成可识别身份的信息。
跨境传输限制
如果你在日本境外抓取日本网站,并收集个人数据,APPI 要求你在跨境传输前先进行分析。描述了三条常见路径:接收方位于 PPC 指定的等同保护国家、接收方已建立等同的保护措施,或者适用第 27 条第 1 款的例外。
如果一家美国、欧盟或新加坡公司从日本网站抓取个人数据并将其存储在日本境外,就需要做 APPI 的跨境传输分析。很多国际团队都会在这里踩坑。
第三方提供的退出机制(第 27 条)
我最常见到的论坛问题是:“如果我分享或出售从日本网站抓来的数据,会怎样?”
APPI 通常要求在向第三方提供个人数据前取得同意。法律也提供正式的退出机制,但需要向备案、通知个人,并提供让其停止第三方提供的方式。2022 年修法进一步收紧了这一点:通过不正当手段取得的个人数据,或通过退出机制从其他经营者处接收的个人数据,不能再使用退出式提供。
显示,自 2021 年 10 月以来,共接受 405 份退出式提供备案,其中 2024 财年有 93 份。这个机制是存在的,但它是正式程序,不是随意操作。
什么时候抓取不会触发 APPI
如果数据无法识别在世个人,APPI 就不适用。较低 APPI 风险的字段包括:
- 商品价格、SKU、库存和运费
- 门店营业时间以及通用公司联系信息(info@company.jp)
- 房产列表中的价格、面积、房龄和距车站距离——前提是没有关联到特定业主或中介姓名
- 已去除个体对应关系的聚合市场统计数据
一个值得注意的实用设计选择是: 的 AI 建议字段功能允许用户精确定义要提取哪些数据列。你可以刻意排除个人数据字段,只专注于所需的业务事实——通过设计来降低 APPI 暴露,而不是事后补救。
《不正当竞争防止法》(UCPA):抓取竞争对手数据

当抓取从公开事实进入机密商业信息或受限数据集时,就会进入视野。
UCPA 将商业秘密定义为同时满足以下三点的信息:(1)作为秘密管理,(2)对经营有用,(3)非公知。认为这是商业秘密保护的三个条件。
公开网站上的事实——商品价格、门店位置、招聘信息、商品目录——通常不是商业秘密,因为它们不保密且已公开。抓取这些信息通常不会违反 UCPA。
什么时候 UCPA 可能适用于抓取
| 场景 | UCPA 风险 | 原因 |
|---|---|---|
| 抓取竞争对手公开商品目录做价格监测 | 通常较低 | 公开目录事实通常不属于秘密 |
| 通过利用 API 漏洞抓取内部定价数据 | 高 | 通过不正当手段获取的非公开、且对经营有用的信息 |
| 抓取付费、仅合作伙伴可用的数据库,或超出授权范围的许可 API | 高 | 2018 年 UCPA 修法保护“有限访问的共享数据” |
| 利用抓取的数据创建一个搭便车于高成本数据库的竞争产品 | 灰色地带 | 法院可能会考量访问限制、投入和替代效应 |
2018 年的 UCPA 修法新增了对**“有限访问的共享数据”**的保护——即以显著程度积累、以电子方式管理、并定期向特定对象提供的技术或商业信息。但 UCPA 又排除了与无偿公开信息实质相同的数据。所以,免费的公开商品列表和仅会员可见的商业数据集并不一样。
服务器过载与日本刑法:别把网站搞崩
数据本身可能完全可以合法收集,但你怎么抓取,可能会带来刑事风险。日本包含业务妨害条款,当自动化访问干扰网站或业务系统时,这些条款就可能被触发。
| 刑法条文 | 行为 | 处罚 |
|---|---|---|
| 第 233 条 | 以欺诈手段妨碍业务 | 最高 3 年或 50 万日元 |
| 第 234 条 | 强制妨碍业务 | 与第 233 条相同 |
| 第 234-2 条 | 通过破坏/干扰计算机妨碍业务 | 最高 5 年或 100 万日元 |
关于日本抓取的讨论,最终都会提到冈崎市中央图书馆事件(约 2010 年)。一名软件工程师,在两周内产生了约 33,000 次自动访问。图书馆服务器因此变得难以使用,警方以业务妨碍嫌疑逮捕了该用户。案件最终没有作实体判决,但它始终提醒我们:服务器影响很重要——即使数据本身是公开的。
网站运营方之所以会升级处理,也有现实背景:2024 年自动化机器人占网页流量的 51%,其中恶意机器人占 37%。机器人占整体网络流量的 42%,其中电商受到的影响尤其明显。
如何避免服务器过载问题
- 遵守 robots.txt(虽然它不是法律条文,但能反映运营方意图)
- 请求之间加入延迟并限制并发
- 避开目标网站的高峰时段
- 当你看到错误、拦截或限流响应时,停止或降低流量
- 缓存已抓取页面,避免反复请求同一 URL
Thunderbit 的云端抓取功能会把请求分散到多个服务器,自然分担负载,降低压垮单一目标服务器的风险。它不是法律护盾,但这是一个符合负责任抓取原则的实用设计。
违反服务条款:合同风险,不是刑事风险
很多日本网站的服务条款都禁止抓取或自动化数据收集。根据日本法律,违反 ToS 属于合同问题——不是刑事犯罪。
说明,只要网站条款被正确纳入交易合同,就具有约束力。点击同意协议(你必须点“同意”)是最强的形式。那些藏在难以察觉的页脚链接里的条款,效力就弱得多。
| ToS 设计 | 可执行性信号 |
|---|---|
| 清晰的点击同意流程,并要求点击“同意”按钮 | 最强 |
| 条款在交易附近有链接,但没有“同意”点击 | 更不确定 |
| 条款藏在页脚或很难找到的位置 | 较弱 |
| 与运营方不存在合同关系 | 合同主张可能较弱 |
没有发现任何可靠权威表明:单纯违反 ToS,在没有其他因素的情况下,会直接升级为日本刑事指控。现实中的立场是:违反 ToS 可能带来民事合同风险(损害赔偿、禁令),但刑事风险通常还需要独立要件——比如 UCAL 下的访问控制规避、刑法下的业务妨害,或著作权侵权。
我的建议是:在抓取任何日本网站之前先读 ToS。如果它明确禁止抓取,就找替代方案——API、数据合作,或同一信息的其他来源。
日本、美国与欧盟:网页抓取法律如何对比
如果你有美国或欧盟法背景,这张表可以帮助你校准判断。日本的框架在某些方面更宽松,在另一些方面更严格。
| 法律维度 | 日本 | 美国 | 欧盟 |
|---|---|---|---|
| 核心抓取法律 | 没有单一法条;由著作权法、APPI、UCPA、UCAL、刑法拼接而成 | CFAA、州法 | GDPR、数据库指令、DSM 指令 |
| 数据分析著作权例外 | 第 30-4 条(范围广) | 合理使用(逐案判断) | TDM 例外(DSM 指令第 3-4 条)——商业 TDM 可选择退出 |
| 个人数据抓取 | APPI——第三方提供的退出机制(第 27 条) | 因州而异(如 CCPA 等) | GDPR——严格同意/合法利益 |
| 绕过访问控制 | UCAL——刑事犯罪 | CFAA——刑事 + 民事 | 因成员国而异 |
| 违反 ToS = 违法? | 仅属合同法;未发现刑事责任 | CFAA 在 Van Buren 之后:大概率不是 | 因情况而异;GDPR 仍可能适用 |
| 服务器过载风险 | 刑法第 233、234-2 条(业务妨害) | CFAA + 侵权干扰 | 因情况而异 |
对比后的关键结论
日本第 30-4 条比美国合理使用或欧盟 TDM 例外更宽——从著作权角度看,日本是最适合分析型抓取的国家之一。UCAL 比 CFAA 更窄,因为它只关注绕过身份验证。APPI 的跨境传输规则比碎片化的美国隐私框架更严格,但在某些操作细节上又没有 GDPR 那么细。
对国际团队来说:你能抓取并分析的日本公开数据,可能比你以为的更多。真正复杂的是个人数据处理,尤其是跨境传输和第三方共享。
日本网站抓取合规的 10 步清单
在开始抓取任何日本网站之前,先逐一回答下面这 10 个是/否问题。每一个都对应上面五部法律中的一部。
- 数据是否可公开访问?(没有登录、没有付费墙、没有绕过访问控制)→ 如果是,UCAL 风险较低。
- 网站 ToS 是否禁止抓取? → 如果是,评估合同风险;考虑替代数据来源。
- 你是否在收集 APPI 所定义的个人信息?(姓名、邮箱、电话、ID)→ 如果是,确保符合 APPI。
- 你是否会把抓到的个人数据传到日本境外? → 如果会,遵守 APPI 第 28 条的跨境传输规则。
- 你是否计划把抓到的数据共享或出售给第三方? → 如果会,按 APPI 第 27 条执行退出机制程序,或先取得同意。
- 这些数据是否受著作权保护? → 如果抓取用于信息分析(而不是重新发布创作内容),第 30-4 条很可能适用。
- 你的抓取行为会不会替代原作品? → 如果会,第 30-4 条的保护大概率不适用。
- 你是否绕过了任何身份验证、CAPTCHA 或访问控制? → 如果是,UCAL 风险很高——没有法律意见不要继续。
- 你的抓取量是否可能让服务器过载? → 如果会,限流、加延迟、用分布式抓取。
- 目标数据是否被公司按商业秘密管理? → 如果是非公开专有数据,UCPA 可能适用。
如果每个答案都指向公开、事实性、非个人、限速、且不重新发布的分析——那情况就很稳。任何红旗都应在开始前触发法律审查。

Thunderbit 如何帮助你合规抓取日本网站
我想先说清楚:Thunderbit 是工具,不是法律意见。但它的设计方式与我上面讲的合规原则是相契合的。
- AI 建议字段:Thunderbit 的 AI 会读取页面,并精确建议要提取哪些数据列。这能帮助你有意识地只定义所需的非个人数据字段——通过设计而不是事后补救,减少不必要的个人数据收集。
- 云端抓取:把请求分散到多个服务器,自然分担负载,降低压垮单个日本服务器的风险。(可以把它理解为内置的“友好限流”设计。)
- 免费邮箱和电话提取器:当你确实需要从日本网站收集联系信息时,和可以一键提取。但请同时参考上面的 APPI 指引——收集个人数据意味着你需要理解自己的合规义务。
- 导出到 Excel、Google Sheets、Airtable 或 Notion:抓取数据可以立即结构化并导出分析,支持第 30-4 条所保护的“信息分析”目的。
- 无需维护:Thunderbit 的 AI 每次都会重新读取网站,自动适应页面变化。这意味着不会有损坏的爬虫反复用失败请求轰击服务器——这是一种实际可行的方法,可避免导致冈崎图书馆事件的那类服务器负载问题。
如果你想实际了解如何使用 Thunderbit,可以看看我们的 或。你也可以通过 免费试用。
实用场景示例
| 使用场景 | 建议提取字段 | 法律依据 |
|---|---|---|
| 日本电商价格监测 | 商品名、标价、库存、卖家、SKU、URL、时间戳 | 事实性业务数据;第 30-4 条的信息分析;避免重新发布商品图片或评论 |
| 日本房地产市场分析 | 要价、区域位置、建筑面积、房龄、房产类型、最近车站、URL、时间戳 | 支持聚合市场分析;除非已符合 APPI,否则排除中介姓名、电话和业主姓名 |
| B2B 运营监控 | 公司名、分支地址、通用公司邮箱、营业时间、服务类别 | 如果不识别到在世个人,则 APPI 风险较低;仍需检查 ToS 和限流 |
关于在日本网页抓取合法性的关键结论
在大多数情况下,网页抓取在日本是合法的——尤其是当你抓取的是公开可访问、非个人、事实性的数据,并用于分析时。但“多数情况”不等于“全部情况”。
- 著作权法(第 30-4 条): 允许对公开数据进行分析型抓取;不允许重新发布创作内容。
- UCAL: 不要绕过身份验证或访问控制。
- APPI: 个人数据要谨慎处理,尤其是跨境传输和第三方共享。
- UCPA: 公开数据通常不是商业秘密;受限或付费数据风险更高。
- 刑法: 不要把服务器搞崩。
在开始任何抓取项目之前,先使用这份 10 步清单。如果不确定,先咨询法律顾问——尤其是涉及个人数据或受限内容的项目。
如果你已经准备好合规地开始抓取日本网站, 就是专为非技术用户设计的工具。定义字段、提取数据、导出到你常用的工具,然后专注分析即可。
常见问题
在日本抓取公开网站合法吗?
通常是合法的。只要你不压垮服务器、不绕过访问控制、不在未符合 APPI 的情况下收集个人数据,也不重新发布受著作权保护的表达,对公开可得数据进行信息分析式抓取通常是合法的。关键区别在于目的:是分析,而不是重新发布。
我可以从日本网站抓取个人数据(邮箱、电话)吗?
可以,但 APPI 适用。你需要有合法目的,必须说明你会如何使用这些数据,并且跨境传输和第三方共享都受到限制。2022 年修法大幅收紧了这些规则——尤其是数据离开日本或与其他公司共享时。
如果日本网站的服务条款禁止抓取,会怎样?
违反 ToS 属于合同问题(可能产生损害赔偿或禁令等民事责任),不是刑事犯罪。不过,它可以支持更广泛的法律主张并升级执法力度。在抓取前一定要先读 ToS,并考虑是否存在其他获取方式。
在登录墙后面抓取在日本合法吗?
使用自己的账号是灰色地带——UCAL 可能不直接适用,但 ToS 违规和合同风险仍然存在。绕过身份验证、使用他人凭据或规避访问控制,很可能构成《禁止非法访问计算机法》的刑事违法,处罚可达 3 年以下监禁或 100 万日元罚款。
我可以出售从日本网站抓来的数据吗?
如果数据包含个人信息,你必须遵守 APPI 第 27 条的第三方提供退出机制——这需要正式向 PPC 备案、通知个人并提供退出方式。未经适当程序出售个人数据属于合规违规。对于非个人的事实性聚合数据,APPI 风险较低,但著作权、UCPA、ToS 和 仍然适用。
了解更多
