日本的網頁爬取合法嗎？你必須知道的所有法律

日本有五部法規管轄網頁爬取；但它們其實都沒有直接使用「web scraping」這個詞。

如果你曾經想弄清楚自己的爬取專案在日本是否合法，八成也碰過一堆模糊的論壇貼文、偏重 AI 訓練的文章，以及互相矛盾的建議。我花了好幾週深入查閱日本官方法規、政府指引、執法數據與法律評論，整理出這份盡可能清楚的英文指南。

無論你是在監控樂天上的競爭對手價格、抓取房地產資料做市場分析，還是建立 B2B 潛在客戶名單，這篇文章都會帶你走過所有相關法律——附上實用表格、真實情境，以及一份可在開始擷取資料前使用的 10 步合規檢查清單。

「日本的網頁爬取是否合法」到底是什麼意思？

網頁爬取——也就是用軟體自動從網站抓資料——並不受日本任何單一法律直接規範。沒有哪條法規會說「爬取合法」或「爬取違法」。你的專案是否合法，取決於三件事：你爬什麼、你怎麼存取、以及你之後怎麼使用這些資料。

日本的法律堆疊由五部法規構成：

法規	對爬取者的規範內容
著作權法（1970 年第 48 號法）	保護創作作品、圖片、文字與資料庫結構。第 30-4 條為資料分析提供廣泛例外。
APPI（個人資訊保護法，2003 年第 57 號法）	規範對在世個人之個人資料的蒐集、使用、共享與跨境移轉。
UCAL（不正存取禁止法，1999 年第 128 號法）	將繞過驗證與存取控制定罪——也就是日本的反駭客法。
UCPA（不正競爭防止法，1993 年第 47 號法）	保護營業秘密與「有限存取之共享資料」不被不當取得。
刑法（1907 年第 45 號法）	當爬取行為干擾網站運作時，第 233、234 與 234-2 條可能適用。

本文後續會逐一拆解每部法律，搭配實際範例與風險評估。想直接看行動項目？可以先跳到 10 步合規檢查清單。

日本著作權法與第 30-4 條：資訊分析例外

日本著作權法保護創作作品：文章、照片、商品說明、具有創意編排的資料庫結構。當爬蟲下載網頁時，從技術上說，依照第 21 條會構成對內容的「重製」——也就是著作人的專有重製權。

但日本特別之處就在這裡。

2018 年，日本通過一項廣泛修法（自 2019 年 1 月 1 日生效），新增了第 30-4 條——這是一項彈性的著作權例外，使大多數分析型網頁爬取成為合法。文化廳甚至將其視為全球對資料分析與 AI 發展最寬鬆的框架之一。

多數英文文章把第 30-4 條只解讀成與 AI 訓練相關，這樣太狹隘了。該法條明文涵蓋「資訊分析」——包括資料的擷取、比較、分類與其他統計分析。換句話說，這正是商業爬蟲每天在做的事。

第 30-4 條到底怎麼說？（白話版）

第 30-4 條允許在「目的不是為了親自享受，或讓他人享受作品所表達之思想或感情」時使用受著作權保護的作品。實務上，必須同時符合兩個條件：

「享受」測試。 如果你擷取的是價格、日期、坪數、庫存等事實資料，而不是消費或重新發布創作內容，那就站在較安全的一方。ACA 2024 年 AI 與著作權指引也再次確認，非享受用途包括資料分析、分類與索引。
「不當損害」測試。 你的爬取行為不應取代原作品，或削弱著作權人的市場。例如，若你爬取的是原本要付費的可分析資料集，目的只是為了不去購買它，即使你的用途是分析，仍可能不符合這項測試。

ig_0a3cda0b72101bd40169f1b3ed9fd08191a17c22b803fb48ab_compressed.webp

第 30-4 條下的真實爬取情境

這裡才是真正落地的地方。該條文適用範圍遠不只 AI 訓練：

使用情境	第 30-4 條適用嗎？	原因
擷取房地產刊登資訊做市場價格分析	✅ 是	售價、面積與屋齡是資訊分析的事實輸入，而不是在享受表達內容
從交易所網站擷取股市資料	✅ 是	目的為統計分析
擷取商品圖片供競品電商網站使用	❌ 否	這是在利用創作表達內容本身
擷取新聞文章並重新發布	❌ 否	會取代原作品
擷取商品說明做價格監控	✅ 大概率是	擷取的是事實資料，而非享受表達內容
建立以爬取文件為基礎的 RAG 系統	⚠️ 需視情況	向量化可能屬非享受用途，但若輸出受保護段落，仍需進一步分析

還有一個細節：第 47-5 條針對電腦化資訊處理中附帶的「微量利用」提供較狹義的保護——例如搜尋結果中的小段摘要或縮圖。這不是主要的爬取安全港，但可支撐搜尋或分析服務所需的預備性複製。ACA 2019 年評論則以比例、數量與顯示精確度來判斷是否屬於「微量」。

結論是：如果你擷取的是事實資料、用途是分析而非重新發布創作內容，日本的著作權架構對你相當有利。

日本的不正存取禁止法（UCAL）：爬取何時越線

幾乎沒有英文爬取文章會解釋這部法。它可以說是日本法律中最重要的紅線。

不正存取禁止法（不正アクセス禁止法，1999 年第 128 號法）可視為日本版的美國 CFAA。它將未經授權存取受驗證措施保護的電腦行為定為犯罪。第 11 條的罰則最高可處 3 年以下有期徒刑，或 100 萬日圓以下罰金。

UCAL 不會禁止爬取公開網頁。這部法律只有在你繞過或規避驗證時才會啟動——像是登入牆、密碼、存取權杖或類似控制。這個區別非常關鍵。

常見爬取情境的 UCAL 風險等級

情境	UCAL 風險等級	說明
爬取公開商品刊登資訊	✅ 低	沒有涉及繞過驗證
使用自己的憑證爬取登入後內容	⚠️ 中等——視 ToS 而定	若憑證屬於你自己，UCAL 可能不適用，但仍有 ToS 與合約風險
繞過驗證或 CAPTCHA 取得資料	❌ 高——很可能違法	第 2 條第 4 項第 2 款涵蓋對存取限制的規避
未經授權存取受限 API	❌ 高——很可能違法	需驗證或僅限合作夥伴使用的 API，明確落在 UCAL 範圍內
使用他人憑證或工作階段權杖	❌ 高——很可能違法	第 2 條第 4 項第 1 款直接規範使用他人識別碼

日本警察廳 2024 年通報 563 件已偵結的 UCAL 違反案件，比前一年增加 8.1%。其中 511 件（90.8%）涉及未經授權使用他人識別碼。執法重點壓倒性地放在憑證濫用，而不是一般的公開網頁爬取。

UCAL 與美國 CFAA 的差異

UCAL 在實質上比 CFAA 更窄。它明確聚焦於繞過驗證，而 CFAA 的「超越授權存取」語句在美國法院爭論了數十年。美國最高法院在 Van Buren 判決後，單純違反網站 ToS 較不容易觸發 CFAA 的刑責。日本也達到類似的實務結果：ToS 違反屬於合約問題，而非 UCAL 刑事問題，除非另有獨立的存取控制規避行為。

APPI 2022 年修正：爬蟲對個人資料要知道什麼

日本的個人資訊保護法（APPI）是日本主要的資料保護法，而 2022 年修正讓規則明顯更嚴格。如果你從日本網站爬取姓名、電子郵件、電話號碼，或任何能識別在世個人的資料，APPI 就會適用。

實務上的關鍵問題是：什麼情況下爬取會觸發 APPI 合規？

APPI 下什麼算「個人資訊」

APPI 第 2 條將個人資訊定義為可識別特定在世個人的資料——包含可與其他資訊容易對照而識別者。PPC 的問答指引也確認，像 firstname.lastname@company.jp 這類公司信箱，若可識別特定個人時，就可能屬於個人資訊；而 cookie ID 若與其他可識別資料結合，也會成為個人資訊。

2022 年修正還新增了一個類別：「個人相關資訊」——也就是本身不能直接識別某人，但與其他資料結合後可能可以識別的資料（例如 cookie ID、瀏覽紀錄、購買紀錄）。這對爬取很重要：在爬蟲看來像匿名的資料，到了接收端與 CRM 或廣告科技資料合併後，可能就變成可識別資料。

跨境移轉限制

如果你人在日本境外爬取日本網站，並蒐集個人資料，APPI 第 28 條要求你在將資料移轉海外前先進行分析。PPC 的境外移轉指引說明了三種常見路徑：接收方位於 PPC 指定的等同保護國家、接收方已建立等同保護措施，或適用第 27 條第 1 項的例外。

如果美國、歐盟或新加坡公司從日本網站爬取個人資料並儲存在日本境外，就需要做 APPI 的境外移轉分析。這常讓很多跨國團隊措手不及。

第三方提供的退出機制（第 27 條）

我在論壇上最常看到的問題是：「如果我分享或出售從日本網站爬來的資料，會怎樣？」

APPI 第 27 條原則上要求在向第三方提供個人資料前取得事前同意。不過法律提供正式的退出機制——但前提是必須向個人資訊保護委員會申報、通知當事人，並提供其停止第三方提供的方式。2022 年修正進一步收緊：若個人資料是以不正手段取得，或是透過退出機制自其他業者取得，就不能再使用退出提供。

PPC 2024 財年年報顯示，自 2021 年 10 月以來，已受理的退出申報合計 405 件，其中 2024 財年有 93 件。這套制度確實存在，但很正式，不是隨便就能用。

什麼情況下爬取不會觸發 APPI

無法識別在世個人的資料，不適用 APPI。較低 APPI 風險的欄位包括：

商品價格、SKU、庫存量與運費
店家營業時間與一般公司聯絡資訊（info@company.jp）
房地產刊登價格、坪數、屋齡與車站距離——只要未連結到具名屋主或仲介
已去除個別對應關係的彙總市場統計

一個值得注意的實務設計選擇是：Thunderbit 的 AI 建議欄位功能，讓使用者精準定義要擷取哪些資料欄位。你可以刻意排除個人資料欄位，只專注於真正需要的業務事實——這是從設計上降低 APPI 暴露，而不是事後補救。

不正競爭防止法（UCPA）：爬取競爭對手資料

ig_0a3cda0b72101bd40169f1b4462be08191a1ab2d0796a7d30e_compressed.webp

當爬取從公開事實跨入機密商業資訊或受限資料集時，不正競爭防止法就會登場。

UCPA 將營業秘密定義為同時符合以下條件的資訊：1）被作為秘密管理、2）對商業有用、3）非公知。經濟產業省 METI 的摘要也把這三項列為營業秘密保護的要件。

公開網站上的事實——商品價格、門市位置、徵才資訊、商品型錄——通常不屬於營業秘密，因為它們不是秘密且屬於公眾可知。爬取這些資料通常不會違反 UCPA。

什麼情況下 UCPA 可能適用於爬取

情境	UCPA 風險	原因
為了價格監控而爬取競爭對手公開商品型錄	通常低	公開型錄中的事實一般不屬於秘密
利用 API 漏洞爬取內部定價資料	高	透過不當手段取得的非公開、可商業利用資訊
超出範圍使用付費的合作夥伴專用資料庫或授權 API	高	2018 年 UCPA 修正保護「有限存取之共享資料」
利用爬來的資料建立一個搭便車於昂貴資料庫的競品	灰色地帶	法院可能會評估存取限制、投資與替代性

2018 年 UCPA 修正新增對**「有限存取之共享資料」**的保護——也就是經大量累積、以電子方式管理、並定期提供給特定人士的技術或商業資訊。不過 UCPA 第 19 條排除了與未以對價公開可得資訊實質相同的資料。所以免費公開的商品刊登資訊，與會員限定的商業資料集並不相同。

伺服器過載與日本刑法：別把網站弄當機

資料本身也許完全可以合法取得，但你怎麼爬，可能會帶來刑事風險。日本的刑法包含妨害業務相關規定；當自動化存取干擾網站或商業系統時，這些條文就可能適用。

刑法條文	行為	刑罰
第 233 條	詐欺性手段妨害業務	最長 3 年或 50 萬日圓
第 234 條	強制妨害業務	與第 233 條相同
第 234-2 條	透過破壞／干擾電腦妨害業務	最長 5 年或 100 萬日圓

每次談到日本爬取法律，最後總會提到岡崎市中央圖書館事件（約 2010 年）。一名軟體工程師寫了一個爬蟲從圖書館網站蒐集新書資訊，兩週內產生約 33,000 次自動存取。圖書館伺服器因此變得難以使用，警方以妨害業務嫌疑逮捕該名使用者。此案最終沒有就實體爭點作出判決，但它始終提醒我們：即使資料本身是公開的，伺服器影響仍然很重要。

網站營運者之所以會升級處理，也有其背景：Thales/Imperva 報告顯示，2024 年自動化機器人占了 51% 的網路流量，其中惡意機器人達 37%。Akamai 也發現機器人占整體網路流量的 42%，其中電商特別受影響。

如何避免伺服器過載問題

遵守 robots.txt（即使它不是法規，也可作為營運者意圖的證據）
在請求之間加入延遲並限制並發數
避開目標網站的流量高峰時段
一旦看到錯誤、封鎖或速率限制回應，就停止或降低流量
用快取取代反覆打同一組 URL

Thunderbit 的雲端爬取功能會把請求分散到多台伺服器，天然地降低對單一目標伺服器的壓力。這不是法律護身符，但確實是一個符合負責任爬取原則的實務設計。

違反使用條款：合約風險，而非刑事風險

許多日本網站都會在使用條款中禁止爬取或自動化資料蒐集。依日本法，違反 ToS 屬於合約問題——不是刑事犯罪。

METI 的電子商務解釋性指引說明，只要網站條款已適當納入交易契約中，就具有拘束力。需要按下「同意」的 click-wrap 協議最為有力。藏在頁尾深處、很難注意到的條款連結則較弱。

ToS 設計	可執行性訊號
明確的 click-wrap，且必須按「同意」	最強
條款與交易相關聯，但沒有同意點擊	較不確定
條款藏在頁尾或很難找到的位置	較弱
與營運者沒有契約關係	合約主張可能較弱

目前沒有可靠權威顯示，單純違反 ToS、沒有其他因素時，就會升高為日本刑事指控。實務上的定位是：違反 ToS 可能引發民事合約風險（損害賠償、禁制令），但刑事責任通常還需要獨立要件——例如 UCAL 下的存取控制規避、刑法下的妨害業務，或著作權侵害。

我的建議是：在爬取任何日本網站前，先讀 ToS。如果條款明確禁止爬取，就應考慮替代方案——API、資料合作，或其他取得同樣資訊的來源。

日本、美國與歐盟：網頁爬取法律如何比較

如果你的法律背景來自美國或歐盟，這張表有助於你校準判斷。日本的架構在某些面向更寬鬆，在某些面向則更嚴格。

法律面向	日本	美國	歐盟
核心爬取法規	沒有單一法規；由著作權法、APPI、UCPA、UCAL、刑法拼接而成	CFAA、州法	GDPR、資料庫指令、DSM 指令
資料分析著作權例外	第 30-4 條（範圍廣）	合理使用（個案判斷）	TDM 例外（DSM 指令第 3-4 條）——商業 TDM 可退出
個人資料爬取	APPI——第三方提供退出機制（第 27 條）	依州而異（如 CCPA）	GDPR——嚴格同意／合法利益
繞過存取控制	UCAL——刑事犯罪	CFAA——刑事＋民事	依會員國而異
違反 ToS = 違法？	只屬合約法；未發現刑責	CFAA 在 Van Buren 後：通常不至於	依情況而異；GDPR 仍可能適用
伺服器過載風險	刑法第 233、234-2 條（妨害業務）	CFAA＋侵權干擾	依情況而異

比較後的重點結論

日本的第 30-4 條比美國合理使用或歐盟 TDM 例外都更廣——從著作權角度看，日本是最適合分析型爬取的國家之一。UCAL 比 CFAA 更窄，因為它只聚焦在繞過驗證。APPI 的跨境移轉規則比碎片化的美國隱私框架更嚴格，但在某些操作細節上又比 GDPR 少一些規定。

對國際團隊來說：你對日本公開資料的分析型爬取自由度，可能比你想像中更高。真正複雜的是個人資料處理——特別是跨境移轉與第三方共享。

日本網站爬取合規的 10 步檢查清單

在開始爬取任何日本網站前，先回答下面這十個是／否問題。每一題都對應到前述五部法規之一。

資料是否可公開存取？（沒有登入、沒有付費牆、沒有繞過存取控制）→ 若是，UCAL 風險較低。
網站 ToS 是否禁止爬取？ → 若是，先評估合約風險；考慮替代資料來源。
你是否正在蒐集 APPI 所定義的個人資訊？（姓名、電子郵件、電話、ID）→ 若是，請確保符合 APPI。
你會把爬來的個人資料移轉到日本境外嗎？ → 若是，請遵守 APPI 第 28 條的跨境移轉規則。
你打算把爬來的資料分享或出售給第三方嗎？ → 若是，請依 APPI 第 27 條的退出程序，或先取得同意。
資料是否受著作權保護？ → 若是為資訊分析而爬取（而非重新發布創作內容），第 30-4 條很可能適用。
你的爬取行為會取代原作品嗎？ → 若是，第 30-4 條保護大概率不適用。
你是否正在繞過任何驗證、CAPTCHA 或存取控制？ → 若是，UCAL 風險很高——未經法律意見不要繼續。
爬取量是否可能讓伺服器過載？ → 若是，請降速、加入延遲、使用分散式爬取。
目標資料是否由公司以營業秘密方式管理？ → 若是非公開且專有的資料，UCPA 可能適用。

如果每個答案都指向公開、事實性、非個人、受限速、非重新發布的分析——那你的狀況就相當不錯。任何紅旗都應在開始前觸發法律審查。

ig_0a3cda0b72101bd40169f1b4db54888191a61af73340d78e18_compressed.webp

Thunderbit 如何協助你以合規方式爬取日本網站

我先說清楚：Thunderbit 是工具，不是法律意見。但它的設計方式，與我上面整理的合規原則是一致的。

AI 建議欄位：Thunderbit 會讀取頁面，並精準建議要擷取哪些資料欄位。這能幫助你刻意只定義需要的非個人資料欄位——從設計上避免不必要的個人資料蒐集，而不是事後補救。
雲端爬取：把請求分散到多台伺服器，自然降低單一日本伺服器的負載風險。（可視為內建的速率友善機制。）
免費 Email 與電話提取器：當你確實需要從日本網站蒐集聯絡資訊時，Thunderbit 的電子郵件提取器與電話提取器可一鍵擷取。但請搭配上面的 APPI 指引一起使用——蒐集個人資料需要清楚理解你的合規義務。
匯出到 Excel、Google Sheets、Airtable 或 Notion：爬來的資料可立即結構化並匯出供分析，支援第 30-4 條所保護的「資訊分析」目的。
無需維護：Thunderbit 的 AI 每次都會重新讀取網站，能適應版面變動。這代表不會有壞掉的爬蟲反覆對伺服器送出失敗請求——這是避免引發岡崎圖書館事件那類伺服器負載問題的一種實務方式。

如果你想實際了解如何使用 Thunderbit，可以看看我們的 YouTube 頻道或快速開始指南。你也可以透過 Chrome 擴充功能免費試用。

試用 Thunderbit 進行日本網頁爬取

實務使用情境範例

使用情境	建議擷取欄位	法律依據
日本電商價格監控	商品名稱、標示價格、供應狀態、賣家、SKU、URL、時間戳記	事實性商業資料；第 30-4 條資訊分析；避免複製商品圖片或評論再發布
日本房地產市場分析	開價、區域、坪數、屋齡、物件類型、最近車站、URL、時間戳記	支援整體市場分析；除非已完成 APPI 合規，否則排除仲介姓名、電話與屋主姓名
B2B 營運監控	公司名稱、分公司地址、一般公司信箱、營業時間、服務類別	若未識別在世個人，APPI 風險較低；仍需檢視 ToS 與速率限制

關於日本網頁爬取合法性的重點整理

在日本，網頁爬取在多數情況下是合法的——尤其是當你爬的是公開可取得、非個人、事實性的資料，且用途是分析。但「多數情況」不等於「所有情況」。

著作權法（第 30-4 條）： 可允許對公開資料進行分析型爬取；但不能重新發布創作內容。
UCAL： 不要繞過驗證或存取控制。
APPI： 請謹慎處理個人資料，特別是跨境移轉與第三方共享。
UCPA： 公開資料通常不屬於營業秘密；受限或付費資料風險更高。
刑法： 不要把伺服器弄當機。

在開始任何爬取專案前，先使用這份 10 步檢查清單。若有疑慮，請諮詢法律顧問——尤其是涉及個人資料或受存取限制內容的專案。

如果你已準備好以合規方式開始爬取日本網站，Thunderbit 的設計就是要讓非技術使用者也能輕鬆上手。先定義欄位、擷取資料、匯出到你偏好的工具，然後把重點放在分析上。

試用 AI 網頁爬蟲爬取日本網站 Get Started Free

常見問題

在日本爬取公開網站合法嗎？

一般來說合法。只要你是為了資訊分析而爬取公開可得的資料，且不會讓伺服器過載、不會繞過存取控制、不會在未符合 APPI 的情況下蒐集個人資料、也不會重新發布受著作權保護的表達內容，通常都屬合法。關鍵在於用途：是分析，不是重新發布。

我可以從日本網站爬取個人資料（電子郵件、電話號碼）嗎？

可以，但 APPI 會適用。你需要有合法目的，必須揭露資料用途，且在跨境移轉與第三方共享方面都會受到限制。2022 年修正已大幅收緊這些規則——尤其是資料離開日本或提供給其他公司時。

如果日本網站的使用條款禁止爬取，會怎樣？

違反 ToS 屬於合約問題（可能產生損害賠償或禁制令等民事責任），不是刑事犯罪。不過，它可能支持更廣泛的法律主張並升高執法風險。在爬取前務必先看 ToS，並考慮是否有其他取得資料的方式。

在登入牆後面爬取，在日本是否合法？

使用自己的憑證屬於灰色地帶——UCAL 可能不會直接適用，但 ToS 違反與合約風險仍然存在。繞過驗證、使用他人憑證，或規避存取控制，很可能構成《不正存取禁止法》的刑事違反，最高可處 3 年徒刑或 100 萬日圓罰金。

我可以出售從日本網站爬來的資料嗎？

如果資料包含個人資訊，你必須遵守 APPI 第 27 條的第三方提供退出機制——這需要正式向 PPC 申報、個別通知，以及提供退出機制。未經適當程序出售個人資料屬合規違規。至於非個人的事實性彙總資料，APPI 風險較低，但著作權、UCPA、ToS，以及網頁爬取的法律影響仍可能適用。

了解更多