日本有五部法規管轄網頁爬取;但它們其實都沒有直接使用「web scraping」這個詞。
如果你曾經想弄清楚自己的爬取專案在日本是否合法,八成也碰過一堆模糊的論壇貼文、偏重 AI 訓練的文章,以及互相矛盾的建議。我花了好幾週深入查閱日本官方法規、政府指引、執法數據與法律評論,整理出這份盡可能清楚的英文指南。
無論你是在監控樂天上的競爭對手價格、抓取房地產資料做市場分析,還是建立 B2B 潛在客戶名單,這篇文章都會帶你走過所有相關法律——附上實用表格、真實情境,以及一份可在開始擷取資料前使用的 10 步合規檢查清單。
「日本的網頁爬取是否合法」到底是什麼意思?
網頁爬取——也就是用軟體自動從網站抓資料——並不受日本任何單一法律直接規範。沒有哪條法規會說「爬取合法」或「爬取違法」。你的專案是否合法,取決於三件事:你爬什麼、你怎麼存取、以及你之後怎麼使用這些資料。
日本的法律堆疊由五部法規構成:
| 法規 | 對爬取者的規範內容 |
|---|---|
| 著作權法(1970 年第 48 號法) | 保護創作作品、圖片、文字與資料庫結構。第 30-4 條為資料分析提供廣泛例外。 |
| APPI(個人資訊保護法,2003 年第 57 號法) | 規範對在世個人之個人資料的蒐集、使用、共享與跨境移轉。 |
| UCAL(不正存取禁止法,1999 年第 128 號法) | 將繞過驗證與存取控制定罪——也就是日本的反駭客法。 |
| UCPA(不正競爭防止法,1993 年第 47 號法) | 保護營業秘密與「有限存取之共享資料」不被不當取得。 |
| 刑法(1907 年第 45 號法) | 當爬取行為干擾網站運作時,第 233、234 與 234-2 條可能適用。 |
本文後續會逐一拆解每部法律,搭配實際範例與風險評估。想直接看行動項目?可以先跳到 。
日本著作權法與第 30-4 條:資訊分析例外
日本著作權法保護創作作品:文章、照片、商品說明、具有創意編排的資料庫結構。當爬蟲下載網頁時,從技術上說,依照 會構成對內容的「重製」——也就是著作人的專有重製權。
但日本特別之處就在這裡。
2018 年,日本通過一項廣泛修法(自 2019 年 1 月 1 日生效),新增了 ——這是一項彈性的著作權例外,使大多數分析型網頁爬取成為合法。 甚至將其視為全球對資料分析與 AI 發展最寬鬆的框架之一。
多數英文文章把第 30-4 條只解讀成與 AI 訓練相關,這樣太狹隘了。該法條明文涵蓋「資訊分析」——包括資料的擷取、比較、分類與其他統計分析。換句話說,這正是商業爬蟲每天在做的事。
第 30-4 條到底怎麼說?(白話版)
第 30-4 條允許在「目的不是為了親自享受,或讓他人享受作品所表達之思想或感情」時使用受著作權保護的作品。實務上,必須同時符合兩個條件:
-
「享受」測試。 如果你擷取的是價格、日期、坪數、庫存等事實資料,而不是消費或重新發布創作內容,那就站在較安全的一方。 也再次確認,非享受用途包括資料分析、分類與索引。
-
「不當損害」測試。 你的爬取行為不應取代原作品,或削弱著作權人的市場。例如,若你爬取的是原本要付費的可分析資料集,目的只是為了不去購買它,即使你的用途是分析,仍可能不符合這項測試。

第 30-4 條下的真實爬取情境
這裡才是真正落地的地方。該條文適用範圍遠不只 AI 訓練:
| 使用情境 | 第 30-4 條適用嗎? | 原因 |
|---|---|---|
| 擷取房地產刊登資訊做市場價格分析 | ✅ 是 | 售價、面積與屋齡是資訊分析的事實輸入,而不是在享受表達內容 |
| 從交易所網站擷取股市資料 | ✅ 是 | 目的為統計分析 |
| 擷取商品圖片供競品電商網站使用 | ❌ 否 | 這是在利用創作表達內容本身 |
| 擷取新聞文章並重新發布 | ❌ 否 | 會取代原作品 |
| 擷取商品說明做價格監控 | ✅ 大概率是 | 擷取的是事實資料,而非享受表達內容 |
| 建立以爬取文件為基礎的 RAG 系統 | ⚠️ 需視情況 | 向量化可能屬非享受用途,但若輸出受保護段落,仍需進一步分析 |
還有一個細節:第 47-5 條針對電腦化資訊處理中附帶的「微量利用」提供較狹義的保護——例如搜尋結果中的小段摘要或縮圖。這不是主要的爬取安全港,但可支撐搜尋或分析服務所需的預備性複製。 則以比例、數量與顯示精確度來判斷是否屬於「微量」。
結論是:如果你擷取的是事實資料、用途是分析而非重新發布創作內容,日本的著作權架構對你相當有利。
日本的不正存取禁止法(UCAL):爬取何時越線
幾乎沒有英文爬取文章會解釋這部法。它可以說是日本法律中最重要的紅線。
(不正アクセス禁止法,1999 年第 128 號法)可視為日本版的美國 CFAA。它將未經授權存取受驗證措施保護的電腦行為定為犯罪。 的罰則最高可處 3 年以下有期徒刑,或 100 萬日圓以下罰金。
UCAL 不會禁止爬取公開網頁。這部法律只有在你繞過或規避驗證時才會啟動——像是登入牆、密碼、存取權杖或類似控制。這個區別非常關鍵。
常見爬取情境的 UCAL 風險等級
| 情境 | UCAL 風險等級 | 說明 |
|---|---|---|
| 爬取公開商品刊登資訊 | ✅ 低 | 沒有涉及繞過驗證 |
| 使用自己的憑證爬取登入後內容 | ⚠️ 中等——視 ToS 而定 | 若憑證屬於你自己,UCAL 可能不適用,但仍有 ToS 與合約風險 |
| 繞過驗證或 CAPTCHA 取得資料 | ❌ 高——很可能違法 | 第 2 條第 4 項第 2 款涵蓋對存取限制的規避 |
| 未經授權存取受限 API | ❌ 高——很可能違法 | 需驗證或僅限合作夥伴使用的 API,明確落在 UCAL 範圍內 |
| 使用他人憑證或工作階段權杖 | ❌ 高——很可能違法 | 第 2 條第 4 項第 1 款直接規範使用他人識別碼 |
日本警察廳 ,比前一年增加 8.1%。其中 511 件(90.8%)涉及未經授權使用他人識別碼。執法重點壓倒性地放在憑證濫用,而不是一般的公開網頁爬取。
UCAL 與美國 CFAA 的差異
UCAL 在實質上比 CFAA 更窄。它明確聚焦於繞過驗證,而 CFAA 的「超越授權存取」語句在美國法院爭論了數十年。美國最高法院在 後,單純違反網站 ToS 較不容易觸發 CFAA 的刑責。日本也達到類似的實務結果:ToS 違反屬於合約問題,而非 UCAL 刑事問題,除非另有獨立的存取控制規避行為。
APPI 2022 年修正:爬蟲對個人資料要知道什麼
日本的 (APPI)是日本主要的資料保護法,而 讓規則明顯更嚴格。如果你從日本網站爬取姓名、電子郵件、電話號碼,或任何能識別在世個人的資料,APPI 就會適用。
實務上的關鍵問題是:什麼情況下爬取會觸發 APPI 合規?
APPI 下什麼算「個人資訊」
APPI 將個人資訊定義為可識別特定在世個人的資料——包含可與其他資訊容易對照而識別者。 也確認,像 firstname.lastname@company.jp 這類公司信箱,若可識別特定個人時,就可能屬於個人資訊;而 cookie ID 若與其他可識別資料結合,也會成為個人資訊。
2022 年修正還新增了一個類別:「個人相關資訊」——也就是本身不能直接識別某人,但與其他資料結合後可能可以識別的資料(例如 cookie ID、瀏覽紀錄、購買紀錄)。這對爬取很重要:在爬蟲看來像匿名的資料,到了接收端與 CRM 或廣告科技資料合併後,可能就變成可識別資料。
跨境移轉限制
如果你人在日本境外爬取日本網站,並蒐集個人資料,APPI 要求你在將資料移轉海外前先進行分析。 說明了三種常見路徑:接收方位於 PPC 指定的等同保護國家、接收方已建立等同保護措施,或適用第 27 條第 1 項的例外。
如果美國、歐盟或新加坡公司從日本網站爬取個人資料並儲存在日本境外,就需要做 APPI 的境外移轉分析。這常讓很多跨國團隊措手不及。
第三方提供的退出機制(第 27 條)
我在論壇上最常看到的問題是:「如果我分享或出售從日本網站爬來的資料,會怎樣?」
APPI 原則上要求在向第三方提供個人資料前取得事前同意。不過法律提供正式的退出機制——但前提是必須向 申報、通知當事人,並提供其停止第三方提供的方式。2022 年修正進一步收緊:若個人資料是以不正手段取得,或是透過退出機制自其他業者取得,就不能再使用退出提供。
顯示,自 2021 年 10 月以來,已受理的退出申報合計 405 件,其中 2024 財年有 93 件。這套制度確實存在,但很正式,不是隨便就能用。
什麼情況下爬取不會觸發 APPI
無法識別在世個人的資料,不適用 APPI。較低 APPI 風險的欄位包括:
- 商品價格、SKU、庫存量與運費
- 店家營業時間與一般公司聯絡資訊(info@company.jp)
- 房地產刊登價格、坪數、屋齡與車站距離——只要未連結到具名屋主或仲介
- 已去除個別對應關係的彙總市場統計
一個值得注意的實務設計選擇是: 的 AI 建議欄位功能,讓使用者精準定義要擷取哪些資料欄位。你可以刻意排除個人資料欄位,只專注於真正需要的業務事實——這是從設計上降低 APPI 暴露,而不是事後補救。
不正競爭防止法(UCPA):爬取競爭對手資料

當爬取從公開事實跨入機密商業資訊或受限資料集時, 就會登場。
UCPA 將營業秘密定義為同時符合以下條件的資訊:1)被作為秘密管理、2)對商業有用、3)非公知。 也把這三項列為營業秘密保護的要件。
公開網站上的事實——商品價格、門市位置、徵才資訊、商品型錄——通常不屬於營業秘密,因為它們不是秘密且屬於公眾可知。爬取這些資料通常不會違反 UCPA。
什麼情況下 UCPA 可能適用於爬取
| 情境 | UCPA 風險 | 原因 |
|---|---|---|
| 為了價格監控而爬取競爭對手公開商品型錄 | 通常低 | 公開型錄中的事實一般不屬於秘密 |
| 利用 API 漏洞爬取內部定價資料 | 高 | 透過不當手段取得的非公開、可商業利用資訊 |
| 超出範圍使用付費的合作夥伴專用資料庫或授權 API | 高 | 2018 年 UCPA 修正保護「有限存取之共享資料」 |
| 利用爬來的資料建立一個搭便車於昂貴資料庫的競品 | 灰色地帶 | 法院可能會評估存取限制、投資與替代性 |
2018 年 UCPA 修正新增對**「有限存取之共享資料」**的保護——也就是經大量累積、以電子方式管理、並定期提供給特定人士的技術或商業資訊。不過 UCPA 排除了與未以對價公開可得資訊實質相同的資料。所以免費公開的商品刊登資訊,與會員限定的商業資料集並不相同。
伺服器過載與日本刑法:別把網站弄當機
資料本身也許完全可以合法取得,但你怎麼爬,可能會帶來刑事風險。日本的 包含妨害業務相關規定;當自動化存取干擾網站或商業系統時,這些條文就可能適用。
| 刑法條文 | 行為 | 刑罰 |
|---|---|---|
| 第 233 條 | 詐欺性手段妨害業務 | 最長 3 年或 50 萬日圓 |
| 第 234 條 | 強制妨害業務 | 與第 233 條相同 |
| 第 234-2 條 | 透過破壞/干擾電腦妨害業務 | 最長 5 年或 100 萬日圓 |
每次談到日本爬取法律,最後總會提到岡崎市中央圖書館事件(約 2010 年)。一名軟體工程師 ,兩週內產生約 33,000 次自動存取。圖書館伺服器因此變得難以使用,警方以妨害業務嫌疑逮捕該名使用者。此案最終沒有就實體爭點作出判決,但它始終提醒我們:即使資料本身是公開的,伺服器影響仍然很重要。
網站營運者之所以會升級處理,也有其背景: 顯示,2024 年自動化機器人占了 51% 的網路流量,其中惡意機器人達 37%。 機器人占整體網路流量的 42%,其中電商特別受影響。
如何避免伺服器過載問題
- 遵守 robots.txt(即使它不是法規,也可作為營運者意圖的證據)
- 在請求之間加入延遲並限制並發數
- 避開目標網站的流量高峰時段
- 一旦看到錯誤、封鎖或速率限制回應,就停止或降低流量
- 用快取取代反覆打同一組 URL
Thunderbit 的雲端爬取功能會把請求分散到多台伺服器,天然地降低對單一目標伺服器的壓力。這不是法律護身符,但確實是一個符合負責任爬取原則的實務設計。
違反使用條款:合約風險,而非刑事風險
許多日本網站都會在使用條款中禁止爬取或自動化資料蒐集。依日本法,違反 ToS 屬於合約問題——不是刑事犯罪。
說明,只要網站條款已適當納入交易契約中,就具有拘束力。需要按下「同意」的 click-wrap 協議最為有力。藏在頁尾深處、很難注意到的條款連結則較弱。
| ToS 設計 | 可執行性訊號 |
|---|---|
| 明確的 click-wrap,且必須按「同意」 | 最強 |
| 條款與交易相關聯,但沒有同意點擊 | 較不確定 |
| 條款藏在頁尾或很難找到的位置 | 較弱 |
| 與營運者沒有契約關係 | 合約主張可能較弱 |
目前沒有可靠權威顯示,單純違反 ToS、沒有其他因素時,就會升高為日本刑事指控。實務上的定位是:違反 ToS 可能引發民事合約風險(損害賠償、禁制令),但刑事責任通常還需要獨立要件——例如 UCAL 下的存取控制規避、刑法下的妨害業務,或著作權侵害。
我的建議是:在爬取任何日本網站前,先讀 ToS。如果條款明確禁止爬取,就應考慮替代方案——API、資料合作,或其他取得同樣資訊的來源。
日本、 美國與歐盟:網頁爬取法律如何比較
如果你的法律背景來自美國或歐盟,這張表有助於你校準判斷。日本的架構在某些面向更寬鬆,在某些面向則更嚴格。
| 法律面向 | 日本 | 美國 | 歐盟 |
|---|---|---|---|
| 核心爬取法規 | 沒有單一法規;由著作權法、APPI、UCPA、UCAL、刑法拼接而成 | CFAA、州法 | GDPR、資料庫指令、DSM 指令 |
| 資料分析著作權例外 | 第 30-4 條(範圍廣) | 合理使用(個案判斷) | TDM 例外(DSM 指令第 3-4 條)——商業 TDM 可退出 |
| 個人資料爬取 | APPI——第三方提供退出機制(第 27 條) | 依州而異(如 CCPA) | GDPR——嚴格同意/合法利益 |
| 繞過存取控制 | UCAL——刑事犯罪 | CFAA——刑事+民事 | 依會員國而異 |
| 違反 ToS = 違法? | 只屬合約法;未發現刑責 | CFAA 在 Van Buren 後:通常不至於 | 依情況而異;GDPR 仍可能適用 |
| 伺服器過載風險 | 刑法第 233、234-2 條(妨害業務) | CFAA+侵權干擾 | 依情況而異 |
比較後的重點結論
日本的第 30-4 條比美國合理使用或歐盟 TDM 例外都更廣——從著作權角度看,日本是最適合分析型爬取的國家之一。UCAL 比 CFAA 更窄,因為它只聚焦在繞過驗證。APPI 的跨境移轉規則比碎片化的美國隱私框架更嚴格,但在某些操作細節上又比 GDPR 少一些規定。
對國際團隊來說:你對日本公開資料的分析型爬取自由度,可能比你想像中更高。真正複雜的是個人資料處理——特別是跨境移轉與第三方共享。
日本網站爬取合規的 10 步檢查清單
在開始爬取任何日本網站前,先回答下面這十個是/否問題。每一題都對應到前述五部法規之一。
- 資料是否可公開存取?(沒有登入、沒有付費牆、沒有繞過存取控制)→ 若是,UCAL 風險較低。
- 網站 ToS 是否禁止爬取? → 若是,先評估合約風險;考慮替代資料來源。
- 你是否正在蒐集 APPI 所定義的個人資訊?(姓名、電子郵件、電話、ID)→ 若是,請確保符合 APPI。
- 你會把爬來的個人資料移轉到日本境外嗎? → 若是,請遵守 APPI 第 28 條的跨境移轉規則。
- 你打算把爬來的資料分享或出售給第三方嗎? → 若是,請依 APPI 第 27 條的退出程序,或先取得同意。
- 資料是否受著作權保護? → 若是為資訊分析而爬取(而非重新發布創作內容),第 30-4 條很可能適用。
- 你的爬取行為會取代原作品嗎? → 若是,第 30-4 條保護大概率不適用。
- 你是否正在繞過任何驗證、CAPTCHA 或存取控制? → 若是,UCAL 風險很高——未經法律意見不要繼續。
- 爬取量是否可能讓伺服器過載? → 若是,請降速、加入延遲、使用分散式爬取。
- 目標資料是否由公司以營業秘密方式管理? → 若是非公開且專有的資料,UCPA 可能適用。
如果每個答案都指向公開、事實性、非個人、受限速、非重新發布的分析——那你的狀況就相當不錯。任何紅旗都應在開始前觸發法律審查。

Thunderbit 如何協助你以合規方式爬取日本網站
我先說清楚:Thunderbit 是工具,不是法律意見。但它的設計方式,與我上面整理的合規原則是一致的。
- AI 建議欄位:Thunderbit 會讀取頁面,並精準建議要擷取哪些資料欄位。這能幫助你刻意只定義需要的非個人資料欄位——從設計上避免不必要的個人資料蒐集,而不是事後補救。
- 雲端爬取:把請求分散到多台伺服器,自然降低單一日本伺服器的負載風險。(可視為內建的速率友善機制。)
- 免費 Email 與電話提取器:當你確實需要從日本網站蒐集聯絡資訊時, 與 可一鍵擷取。但請搭配上面的 APPI 指引一起使用——蒐集個人資料需要清楚理解你的合規義務。
- 匯出到 Excel、Google Sheets、Airtable 或 Notion:爬來的資料可立即結構化並匯出供分析,支援第 30-4 條所保護的「資訊分析」目的。
- 無需維護:Thunderbit 的 AI 每次都會重新讀取網站,能適應版面變動。這代表不會有壞掉的爬蟲反覆對伺服器送出失敗請求——這是避免引發岡崎圖書館事件那類伺服器負載問題的一種實務方式。
如果你想實際了解如何使用 Thunderbit,可以看看我們的 或 。你也可以透過 免費試用。
實務使用情境範例
| 使用情境 | 建議擷取欄位 | 法律依據 |
|---|---|---|
| 日本電商價格監控 | 商品名稱、標示價格、供應狀態、賣家、SKU、URL、時間戳記 | 事實性商業資料;第 30-4 條資訊分析;避免複製商品圖片或評論再發布 |
| 日本房地產市場分析 | 開價、區域、坪數、屋齡、物件類型、最近車站、URL、時間戳記 | 支援整體市場分析;除非已完成 APPI 合規,否則排除仲介姓名、電話與屋主姓名 |
| B2B 營運監控 | 公司名稱、分公司地址、一般公司信箱、營業時間、服務類別 | 若未識別在世個人,APPI 風險較低;仍需檢視 ToS 與速率限制 |
關於日本網頁爬取合法性的重點整理
在日本,網頁爬取在多數情況下是合法的——尤其是當你爬的是公開可取得、非個人、事實性的資料,且用途是分析。但「多數情況」不等於「所有情況」。
- 著作權法(第 30-4 條): 可允許對公開資料進行分析型爬取;但不能重新發布創作內容。
- UCAL: 不要繞過驗證或存取控制。
- APPI: 請謹慎處理個人資料,特別是跨境移轉與第三方共享。
- UCPA: 公開資料通常不屬於營業秘密;受限或付費資料風險更高。
- 刑法: 不要把伺服器弄當機。
在開始任何爬取專案前,先使用這份 10 步檢查清單。若有疑慮,請諮詢法律顧問——尤其是涉及個人資料或受存取限制內容的專案。
如果你已準備好以合規方式開始爬取日本網站, 的設計就是要讓非技術使用者也能輕鬆上手。先定義欄位、擷取資料、匯出到你偏好的工具,然後把重點放在分析上。
常見問題
在日本爬取公開網站合法嗎?
一般來說合法。只要你是為了資訊分析而爬取公開可得的資料,且不會讓伺服器過載、不會繞過存取控制、不會在未符合 APPI 的情況下蒐集個人資料、也不會重新發布受著作權保護的表達內容,通常都屬合法。關鍵在於用途:是分析,不是重新發布。
我可以從日本網站爬取個人資料(電子郵件、電話號碼)嗎?
可以,但 APPI 會適用。你需要有合法目的,必須揭露資料用途,且在跨境移轉與第三方共享方面都會受到限制。2022 年修正已大幅收緊這些規則——尤其是資料離開日本或提供給其他公司時。
如果日本網站的使用條款禁止爬取,會怎樣?
違反 ToS 屬於合約問題(可能產生損害賠償或禁制令等民事責任),不是刑事犯罪。不過,它可能支持更廣泛的法律主張並升高執法風險。在爬取前務必先看 ToS,並考慮是否有其他取得資料的方式。
在登入牆後面爬取,在日本是否合法?
使用自己的憑證屬於灰色地帶——UCAL 可能不會直接適用,但 ToS 違反與合約風險仍然存在。繞過驗證、使用他人憑證,或規避存取控制,很可能構成《不正存取禁止法》的刑事違反,最高可處 3 年徒刑或 100 萬日圓罰金。
我可以出售從日本網站爬來的資料嗎?
如果資料包含個人資訊,你必須遵守 APPI 第 27 條的第三方提供退出機制——這需要正式向 PPC 申報、個別通知,以及提供退出機制。未經適當程序出售個人資料屬合規違規。至於非個人的事實性彙總資料,APPI 風險較低,但著作權、UCPA、ToS,以及 仍可能適用。
了解更多
