Năm bộ luật của Nhật Bản điều chỉnh web scraping. Không bộ luật nào trong số đó thực sự dùng cụm từ “web scraping”.
Nếu từng cố tìm hiểu xem dự án scraping của mình có hợp pháp ở Nhật Bản hay không, hẳn bạn đã gặp một “bức tường” toàn bài đăng mơ hồ trên forum, bài viết chỉ xoay quanh AI training, và những lời khuyên trái ngược nhau. Tôi đã dành hàng tuần để đào sâu vào các bộ luật chính thức của Nhật, hướng dẫn của chính phủ, dữ liệu thực thi và bình luận pháp lý để tổng hợp hướng dẫn tiếng Anh rõ ràng nhất có thể.
Dù bạn đang theo dõi giá đối thủ trên Rakuten, kéo dữ liệu bất động sản để phân tích thị trường, hay xây dựng danh sách lead B2B, bài viết này sẽ đi qua từng bộ luật quan trọng — kèm bảng thực tế, tình huống đời thực, và checklist tuân thủ 10 bước bạn có thể dùng trước khi bắt đầu trích xuất dữ liệu.
“Web scraping có hợp pháp ở Nhật Bản không” thực sự có nghĩa là gì?
Web scraping — dùng phần mềm để tự động lấy dữ liệu từ website — không được quy định trong bất kỳ một đạo luật Nhật Bản riêng lẻ nào. Không có bộ luật nào nói thẳng rằng “scraping là hợp pháp” hay “scraping là bất hợp pháp”. Việc dự án của bạn có hợp pháp hay không phụ thuộc vào ba yếu tố: bạn scrape cái gì, bằng cách nào để truy cập, và sau đó bạn làm gì với dữ liệu đó.
Năm bộ luật tạo thành “ngăn xếp” pháp lý:
| Đạo luật | Phạm vi áp dụng với scraper |
|---|---|
| Luật Bản quyền (Luật số 48 năm 1970) | Bảo vệ tác phẩm sáng tạo, hình ảnh, văn bản và cấu trúc cơ sở dữ liệu. Điều 30-4 có ngoại lệ rộng cho phân tích dữ liệu. |
| APPI (Luật Bảo vệ Thông tin Cá nhân, Luật số 57 năm 2003) | Điều chỉnh việc thu thập, sử dụng, chia sẻ và chuyển dữ liệu cá nhân ra nước ngoài về các cá nhân còn sống. |
| UCAL (Luật Cấm Truy cập Máy tính Trái phép, Luật số 128 năm 1999) | Hình sự hóa việc vượt qua xác thực và kiểm soát truy cập — luật chống hack của Nhật. |
| UCPA (Luật Phòng chống Cạnh tranh Không lành mạnh, Luật số 47 năm 1993) | Bảo vệ bí mật kinh doanh và “dữ liệu chia sẻ có giới hạn truy cập” khỏi việc chiếm đoạt trái phép. |
| Bộ luật Hình sự (Luật số 45 năm 1907) | Các điều 233, 234 và 234-2 có thể áp dụng khi scraping làm gián đoạn hoạt động của website. |
Phần còn lại của bài viết sẽ bóc tách từng bộ luật bằng ví dụ thực tế và đánh giá rủi ro. Bạn muốn bỏ qua phần giải thích và đi thẳng tới việc cần làm? Hãy nhảy tới .
Luật Bản quyền Nhật Bản và Điều 30-4: Ngoại lệ phân tích thông tin
Luật Bản quyền Nhật Bản bảo vệ các tác phẩm sáng tạo: bài viết, ảnh, mô tả sản phẩm, cấu trúc cơ sở dữ liệu có sắp xếp sáng tạo. Khi một scraper tải xuống trang web, về mặt kỹ thuật nó đang “sao chép” nội dung đó theo — quyền sao chép độc quyền của tác giả.
Nhưng đây là điểm Nhật Bản rất khác biệt.
Năm 2018, Nhật Bản ban hành một sửa đổi lớn (có hiệu lực từ 1/1/2019) bổ sung — một ngoại lệ bản quyền linh hoạt giúp phần lớn hoạt động web scraping phục vụ phân tích trở nên hợp pháp. xem đây là một trong những khung pháp lý thoáng nhất thế giới cho phân tích dữ liệu và phát triển AI.
Phần lớn các bài viết tiếng Anh chỉ xem Điều 30-4 như thứ liên quan đến training AI. Như vậy là quá hẹp. Điều luật này bao quát rõ ràng “phân tích thông tin” — trích xuất, so sánh, phân loại và các hình thức phân tích thống kê dữ liệu khác. Nói cách khác, đúng thứ mà scraper cho doanh nghiệp làm mỗi ngày.
Điều 30-4 thực sự nói gì (nói đơn giản)
Điều 30-4 cho phép sử dụng tác phẩm có bản quyền “khi mục đích không phải là để cá nhân thưởng thức, hoặc để người khác thưởng thức, những suy nghĩ hay cảm xúc được thể hiện trong tác phẩm.” Trên thực tế, phải đáp ứng hai điều kiện:
-
Bài kiểm tra “thưởng thức”. Nếu bạn đang trích xuất dữ liệu фактичес — giá cả, ngày tháng, diện tích, tồn kho — thay vì tiêu thụ hay đăng lại nội dung sáng tạo, thì bạn đang đứng ở phía an toàn. nhấn mạnh rằng các mục đích không phải “thưởng thức” bao gồm phân tích dữ liệu, phân loại và lập chỉ mục.
-
Bài kiểm tra “gây tổn hại không chính đáng”. Việc scraping của bạn không nên thay thế cho tác phẩm gốc hoặc làm suy yếu thị trường của chủ sở hữu bản quyền. Ví dụ, scraping một bộ dữ liệu đã được chuẩn bị để phân tích nhưng có phí nhằm tránh mua nó có thể không đạt bài kiểm tra này, dù mục đích của bạn là phân tích.

Các tình huống scraping thực tế theo Điều 30-4
Đây là lúc lý thuyết đi vào thực tế. Điều luật này áp dụng rộng hơn rất nhiều so với chỉ training AI:
| Trường hợp sử dụng | Điều 30-4 có áp dụng không? | Vì sao |
|---|---|---|
| Scrape tin đăng bất động sản để phân tích giá thị trường | ✅ Có | Giá chào, diện tích và tuổi tòa nhà là dữ liệu фактичес để phân tích thông tin, không phải để thưởng thức biểu đạt |
| Scrape dữ liệu chứng khoán từ các trang sàn giao dịch | ✅ Có | Mục đích là phân tích thống kê |
| Scrape ảnh sản phẩm cho một website ecommerce đối thủ | ❌ Không | Khai thác chính nội dung biểu đạt |
| Scrape bài báo để đăng lại | ❌ Không | Thay thế cho tác phẩm gốc |
| Scrape mô tả sản phẩm để theo dõi giá | ✅ Có khả năng có | Trích xuất dữ liệu фактичес, không phải thưởng thức biểu đạt |
| Xây dựng hệ thống RAG trên các tài liệu đã scrape | ⚠️ Phụ thuộc | Vector hóa có thể là không phải “thưởng thức”, nhưng việc xuất ra các đoạn được bảo hộ cần phân tích thêm |
Còn một điểm nữa: Điều 47-5 có bảo vệ hẹp hơn cho “khai thác nhỏ” phát sinh phụ trong quá trình xử lý thông tin bằng máy tính — nghĩ đến các đoạn trích nhỏ hoặc thumbnail trong kết quả tìm kiếm. Đây không phải lá chắn chính cho scraping, nhưng có thể hỗ trợ việc sao chép chuẩn bị cần cho dịch vụ tìm kiếm hoặc phân tích. đánh giá “nhỏ” theo tỷ lệ, số lượng và độ chính xác khi hiển thị.
Kết luận: nếu bạn đang trích xuất dữ kiện để phân tích thay vì đăng lại nội dung sáng tạo, khung bản quyền của Nhật đang đứng về phía bạn.
Luật Truy cập Máy tính Trái phép của Nhật Bản (UCAL): Khi scraping đi quá giới hạn
Hầu như không có bài viết scraping tiếng Anh nào giải thích luật này. Đây có lẽ là ranh giới quan trọng nhất trong luật Nhật.
(不正アクセス禁止法, Luật số 128 năm 1999) là phiên bản chức năng tương đương với CFAA của Mỹ. Luật này hình sự hóa việc truy cập trái phép vào máy tính được bảo vệ bằng các biện pháp xác thực. Hình phạt theo có thể lên tới 3 năm tù hoặc phạt đến ¥1,000,000.
UCAL không cấm scraping các trang web công khai. Luật chỉ được kích hoạt khi bạn vượt qua hoặc lách cơ chế xác thực — tường đăng nhập, mật khẩu, token truy cập hoặc các kiểm soát tương tự. Sự khác biệt này là tất cả.
Mức độ rủi ro UCAL cho các tình huống scraping phổ biến
| Tình huống | Mức rủi ro UCAL | Giải thích |
|---|---|---|
| Scrape danh sách sản phẩm công khai | ✅ Thấp | Không có việc vượt qua xác thực |
| Scrape phía sau đăng nhập bằng thông tin của chính bạn | ⚠️ Trung bình — tùy ToS | UCAL có thể không áp dụng nếu thông tin đăng nhập là của bạn, nhưng rủi ro về ToS và hợp đồng vẫn còn |
| Vượt qua xác thực hoặc CAPTCHA để truy cập dữ liệu | ❌ Cao — nhiều khả năng vi phạm | Điều 2(4)(ii) bao quát hành vi né tránh hạn chế truy cập |
| Truy cập API bị hạn chế mà không được phép | ❌ Cao — nhiều khả năng vi phạm | API có xác thực hoặc chỉ dành cho đối tác nằm thẳng trong phạm vi UCAL |
| Dùng thông tin đăng nhập hoặc token phiên của người khác | ❌ Cao — nhiều khả năng vi phạm | Điều 2(4)(i) trực tiếp đề cập đến việc dùng mã định danh của người khác |
Cơ quan Cảnh sát Quốc gia Nhật Bản , tăng 8,1% so với năm trước. Trong đó, 511 vụ (90,8%) liên quan đến việc sử dụng trái phép mã định danh của người khác. Trọng tâm thực thi gần như hoàn toàn nằm ở việc lạm dụng thông tin đăng nhập, chứ không phải scraping công khai thông thường.
UCAL khác CFAA của Mỹ như thế nào
UCAL hẹp hơn CFAA ở một điểm rất đáng kể. Nó tập trung cụ thể vào việc vượt qua xác thực, trong khi ngôn ngữ “exceeds authorized access” của CFAA đã bị tranh luận trong tòa án Mỹ suốt nhiều thập kỷ. Sau phán quyết , chỉ vi phạm ToS của một website thôi thì ít có khả năng kích hoạt trách nhiệm hình sự theo CFAA. Nhật Bản cũng cho kết quả thực tế tương tự: vi phạm ToS là chuyện hợp đồng, không phải chuyện hình sự theo UCAL, trừ khi có yếu tố độc lập về kiểm soát truy cập.
Sửa đổi APPI năm 2022: Scraper cần biết gì về dữ liệu cá nhân
của Nhật Bản (APPI) là luật bảo vệ dữ liệu chính của nước này — và đã làm quy tắc chặt hơn đáng kể. Nếu bạn đang scrape tên, email, số điện thoại hoặc bất kỳ dữ liệu nào có thể nhận diện một cá nhân còn sống từ các website Nhật, APPI sẽ áp dụng.
Câu hỏi thực tế là: khi nào scraping kích hoạt yêu cầu tuân thủ APPI?
Thế nào là “thông tin cá nhân” theo APPI
APPI định nghĩa thông tin cá nhân là dữ liệu có thể nhận diện một cá nhân còn sống cụ thể — bao gồm cả việc đối chiếu dễ dàng với thông tin khác. xác nhận rằng email công việc như firstname.lastname@company.jp có thể là thông tin cá nhân nếu nó nhận diện được một người cụ thể, và cookie ID trở thành thông tin cá nhân khi kết hợp với dữ liệu khác cho phép nhận diện.
Các sửa đổi năm 2022 giới thiệu một nhóm mới: “thông tin liên quan đến cá nhân” — dữ liệu không nhận diện trực tiếp một người nhưng có thể làm được điều đó khi kết hợp với dữ liệu khác (cookie ID, lịch sử duyệt web, lịch sử mua hàng). Vì sao điều này quan trọng với scraping: dữ liệu trông có vẻ ẩn danh với scraper có thể trở nên định danh được khi được ghép với dữ liệu CRM hoặc adtech ở phía nhận.
Hạn chế chuyển dữ liệu ra nước ngoài
Nếu bạn scrape website Nhật từ ngoài Nhật và thu thập dữ liệu cá nhân, APPI yêu cầu phải phân tích trước khi chuyển dữ liệu đó ra nước ngoài. mô tả ba con đường phổ biến: bên nhận ở quốc gia được PPC công nhận tương đương, bên nhận đã thiết lập biện pháp bảo vệ tương đương, hoặc áp dụng ngoại lệ theo Điều 27(1).
Nếu một công ty Mỹ, EU hoặc Singapore scrape dữ liệu cá nhân từ các site Nhật rồi lưu trữ bên ngoài Nhật, cần phân tích chuyển dữ liệu ra nước ngoài theo APPI. Điều này khiến rất nhiều đội quốc tế bất ngờ.
Quy định cung cấp cho bên thứ ba theo cơ chế opt-out (Điều 27)
Câu hỏi trên forum mà tôi gặp nhiều nhất: “Nếu tôi chia sẻ hoặc bán dữ liệu scrape từ các site Nhật thì sao?”
APPI nhìn chung yêu cầu phải có sự đồng ý trước khi cung cấp dữ liệu cá nhân cho bên thứ ba. Có cơ chế opt-out chính thức — nhưng phải nộp hồ sơ với , thông báo cho cá nhân liên quan và cho họ cách ngăn việc cung cấp cho bên thứ ba. Sửa đổi 2022 còn thu hẹp hơn nữa: cơ chế opt-out không thể dùng cho dữ liệu cá nhân có được bằng cách trái phép hoặc nhận từ doanh nghiệp khác thông qua cơ chế opt-out.
cho thấy tổng cộng 405 hồ sơ opt-out đã được chấp nhận kể từ tháng 10/2021, trong đó có 93 hồ sơ trong FY2024. Hệ thống này có tồn tại, nhưng là một quy trình chính thức chứ không phải làm qua loa.
Khi nào scraping không kích hoạt APPI
APPI không áp dụng cho dữ liệu không thể nhận diện một cá nhân còn sống. Các trường dữ liệu rủi ro thấp hơn gồm:
- Giá sản phẩm, SKU, mức tồn kho và phí vận chuyển
- Giờ mở cửa cửa hàng và thông tin liên hệ chung của công ty (info@company.jp)
- Giá tin bất động sản, diện tích, tuổi tòa nhà và khoảng cách đến ga — khi không gắn với tên chủ sở hữu hoặc môi giới
- Thống kê thị trường tổng hợp đã loại bỏ mọi tham chiếu tới cá nhân
Một lựa chọn thiết kế thực tế đáng chú ý: tính năng của Thunderbit cho phép người dùng xác định chính xác những cột dữ liệu cần trích xuất. Bạn có thể chủ động loại bỏ các trường dữ liệu cá nhân và chỉ tập trung vào dữ kiện kinh doanh mình cần — giảm mức độ lộ diện APPI bằng thiết kế, không phải do may rủi.
Luật Phòng chống Cạnh tranh Không lành mạnh (UCPA): Scraping dữ liệu đối thủ

xuất hiện khi scraping đi từ dữ kiện công khai sang thông tin kinh doanh mật hoặc các bộ dữ liệu bị khóa truy cập.
UCPA định nghĩa bí mật kinh doanh là thông tin thỏa cả ba điều kiện: (1) được quản lý như bí mật, (2) hữu ích cho kinh doanh và (3) không được biết đến rộng rãi. đây là ba yêu cầu để được bảo hộ bí mật kinh doanh.
Dữ kiện trên website công khai — giá sản phẩm, địa chỉ cửa hàng, tin tuyển dụng, danh mục sản phẩm — nhìn chung không phải bí mật kinh doanh vì chúng không bí mật và đã được công khai. Scraping chúng thường không vi phạm UCPA.
Khi nào UCPA có thể áp dụng với scraping
| Tình huống | Rủi ro UCPA | Vì sao |
|---|---|---|
| Scrape danh mục sản phẩm công khai của đối thủ để theo dõi giá | Thường thấp | Dữ kiện danh mục công khai thường không phải bí mật |
| Scrape dữ liệu giá nội bộ bằng cách khai thác lỗ hổng API | Cao | Thông tin kinh doanh hữu ích không công khai bị chiếm đoạt bằng cách trái phép |
| Scrape cơ sở dữ liệu trả phí chỉ dành cho đối tác hoặc API có cấp phép ngoài phạm vi | Cao | Sửa đổi UCPA năm 2018 bảo vệ “dữ liệu chia sẻ có giới hạn truy cập” |
| Dùng dữ liệu scrape để tạo sản phẩm cạnh tranh hưởng ké từ cơ sở dữ liệu tốn kém | Vùng xám | Tòa án có thể xem xét hạn chế truy cập, mức đầu tư và tính thay thế |
Sửa đổi UCPA năm 2018 bổ sung bảo vệ cho “dữ liệu chia sẻ có giới hạn truy cập” — thông tin kỹ thuật hoặc kinh doanh được tích lũy ở mức đáng kể, quản lý điện tử và được cung cấp định kỳ cho những người cụ thể. Nhưng của UCPA loại trừ dữ liệu về cơ bản giống với thông tin đã được công bố công khai mà không thu phí. Vì vậy, một danh sách sản phẩm công khai miễn phí khác với một bộ dữ liệu thương mại chỉ dành cho thành viên.
Quá tải máy chủ và Bộ luật Hình sự Nhật Bản: Đừng làm sập website
Bản thân dữ liệu có thể hoàn toàn hợp pháp để thu thập. Nhưng cách bạn scrape có thể tạo ra rủi ro hình sự. của Nhật có các quy định về cản trở hoạt động kinh doanh, được kích hoạt khi truy cập tự động làm gián đoạn website hoặc hệ thống kinh doanh.
| Điều trong Bộ luật Hình sự | Hành vi | Hình phạt |
|---|---|---|
| Điều 233 | Cản trở hoạt động kinh doanh bằng thủ đoạn gian dối | Tối đa 3 năm hoặc ¥500,000 |
| Điều 234 | Cản trở hoạt động kinh doanh bằng cưỡng ép | Tương tự Điều 233 |
| Điều 234-2 | Cản trở bằng cách phá hoại/can thiệp vào máy tính | Tối đa 5 năm hoặc ¥1,000,000 |
Mọi cuộc thảo luận về scraping ở Nhật cuối cùng cũng nhắc tới sự cố Thư viện Trung tâm Thành phố Okazaki (khoảng năm 2010). Một kỹ sư phần mềm từ website thư viện, tạo ra khoảng 33.000 lượt truy cập tự động trong hai tuần. Máy chủ của thư viện trở nên khó sử dụng, và cảnh sát bắt người dùng với nghi ngờ cản trở hoạt động kinh doanh. Vụ việc kết thúc mà không có phán quyết về nội dung, nhưng vẫn là lời nhắc mạnh mẽ rằng tác động lên server rất quan trọng — ngay cả khi dữ liệu tự nó là công khai.
Một chút bối cảnh về lý do nhà vận hành website phản ứng mạnh: bot tự động chiếm 51% lưu lượng web trong năm 2024, trong đó bot xấu là 37%. bot chiếm 42% tổng lưu lượng web, đặc biệt ảnh hưởng mạnh tới ecommerce.
Cách tránh vấn đề quá tải máy chủ
- Tôn trọng robots.txt (dù không phải đạo luật, nó là bằng chứng về ý định của nhà vận hành)
- Thêm độ trễ giữa các request và giới hạn concurrency
- Tránh giờ cao điểm của site mục tiêu
- Dừng hoặc giảm lưu lượng khi thấy lỗi, chặn hoặc phản hồi giới hạn tốc độ
- Cache các trang đã lấy thay vì liên tục gọi lại cùng một URL
Tính năng cloud scraping của Thunderbit phân phối request qua nhiều máy chủ, nên tự nhiên chia tải và giảm nguy cơ làm quá tải một server mục tiêu duy nhất. Đây không phải lá chắn pháp lý, nhưng là một lựa chọn thiết kế thực tế phù hợp với scraping có trách nhiệm.
Vi phạm Điều khoản Dịch vụ: Rủi ro hợp đồng, không phải rủi ro hình sự
Rất nhiều website Nhật có Điều khoản Dịch vụ cấm scraping hoặc thu thập dữ liệu tự động. Theo luật Nhật, vi phạm ToS là vấn đề hợp đồng — không phải tội hình sự.
giải thích rằng điều khoản website có hiệu lực khi được đưa đúng cách vào hợp đồng giao dịch. Hợp đồng kiểu click-wrap (bắt buộc bấm “Đồng ý”) là mạnh nhất. Điều khoản nằm khuất trong link footer khó thấy thì yếu hơn.
| Thiết kế ToS | Mức độ cho thấy khả năng thực thi |
|---|---|
| Click-wrap rõ ràng với nút “Đồng ý” bắt buộc | Mạnh nhất |
| Điều khoản được liên kết gần giao dịch nhưng không có thao tác đồng ý | Kém chắc chắn hơn |
| Điều khoản bị giấu trong footer hoặc vị trí khó thấy | Yếu hơn |
| Không có quan hệ hợp đồng với nhà vận hành | Yêu cầu hợp đồng có thể yếu |
Không tìm thấy cơ quan có thẩm quyền đáng tin cậy nào cho thấy chỉ riêng việc vi phạm ToS, không kèm yếu tố khác, sẽ bị nâng lên thành cáo buộc hình sự ở Nhật. Vị thế thực tế là: vi phạm ToS có thể tạo ra rủi ro hợp đồng dân sự (thiệt hại, lệnh cấm), nhưng trách nhiệm hình sự thường cần một yếu tố độc lập — né cơ chế truy cập theo UCAL, cản trở kinh doanh theo Bộ luật Hình sự, hoặc vi phạm bản quyền.
Lời khuyên của tôi: hãy đọc ToS trước khi scrape bất kỳ website Nhật nào. Nếu ToS nêu rõ cấm scraping, hãy tìm phương án khác — API, hợp tác dữ liệu, hoặc nguồn khác cho cùng thông tin.
Nhật Bản so với Mỹ và EU: Luật web scraping so sánh thế nào?
Nếu bạn quen với bối cảnh pháp lý Mỹ hoặc EU, bảng này sẽ giúp bạn định vị. Khung pháp lý của Nhật thoáng hơn ở vài điểm và chặt hơn ở vài điểm khác.
| Khía cạnh pháp lý | Nhật Bản | Hoa Kỳ | EU |
|---|---|---|---|
| Đạo luật cốt lõi về scraping | Không có một đạo luật riêng; là tập hợp của Luật Bản quyền, APPI, UCPA, UCAL, Bộ luật Hình sự | CFAA, luật bang | GDPR, Chỉ thị Cơ sở dữ liệu, Chỉ thị DSM |
| Ngoại lệ bản quyền cho phân tích dữ liệu | Điều 30-4 (rộng) | Fair use (xét từng trường hợp) | Ngoại lệ TDM (Điều 3-4, Chỉ thị DSM) — có opt-out cho TDM thương mại |
| Scrape dữ liệu cá nhân | APPI — cơ chế cung cấp cho bên thứ ba dạng opt-out (Điều 27) | Tùy bang (CCPA, v.v.) | GDPR — đồng ý/lợi ích hợp pháp rất chặt |
| Vượt qua kiểm soát truy cập | UCAL — tội hình sự | CFAA — vừa hình sự vừa dân sự | Tùy từng quốc gia thành viên |
| Vi phạm ToS = trái pháp luật? | Chỉ là luật hợp đồng; không tìm thấy trách nhiệm hình sự | CFAA sau Van Buren: có khả năng là không | Tùy trường hợp; GDPR vẫn có thể áp dụng |
| Rủi ro quá tải server | Bộ luật Hình sự Điều 233, 234-2 (cản trở kinh doanh) | CFAA + can thiệp trái pháp luật vào quan hệ kinh doanh | Tùy |
Điểm rút ra chính từ so sánh
Điều 30-4 của Nhật rộng hơn fair use của Mỹ hoặc ngoại lệ TDM của EU — khiến Nhật là một trong những quốc gia thoáng nhất về mặt bản quyền đối với scraping phân tích. UCAL hẹp hơn CFAA vì nó chỉ tập trung vào việc vượt qua xác thực. Các quy tắc chuyển dữ liệu ra nước ngoài của APPI chặt hơn các khung quyền riêng tư bị phân mảnh ở Mỹ, nhưng ở một số chi tiết vận hành thì lại ít mang tính quy định cứng hơn GDPR.
Với các đội quốc tế: có thể bạn có nhiều tự do hơn mình tưởng để scrape dữ liệu công khai của Nhật cho mục đích phân tích. Xử lý dữ liệu cá nhân mới là nơi sự phức tạp nằm ở đó — đặc biệt là chuyển dữ liệu xuyên biên giới và chia sẻ cho bên thứ ba.
Checklist tuân thủ 10 bước khi scrape website Nhật Bản
Trước khi bắt đầu scrape bất kỳ website Nhật nào, hãy đi qua mười câu hỏi có/không sau đây. Mỗi câu tương ứng với một trong năm bộ luật ở trên.
- Dữ liệu có thể truy cập công khai không? (Không đăng nhập, không paywall, không vượt qua kiểm soát truy cập) → Nếu có, rủi ro UCAL thấp.
- ToS của website có cấm scraping không? → Nếu có, hãy đánh giá rủi ro hợp đồng; cân nhắc nguồn dữ liệu thay thế.
- Bạn có đang thu thập thông tin cá nhân theo định nghĩa của APPI không? (Tên, email, số điện thoại, ID) → Nếu có, hãy đảm bảo tuân thủ APPI.
- Bạn có định chuyển dữ liệu cá nhân scrape được ra ngoài Nhật không? → Nếu có, phải tuân thủ quy tắc chuyển dữ liệu ra nước ngoài theo Điều 28 của APPI.
- Bạn có dự định chia sẻ hoặc bán dữ liệu scrape cho bên thứ ba không? → Nếu có, hãy làm theo thủ tục opt-out theo Điều 27 của APPI hoặc xin đồng ý.
- Dữ liệu có được bảo vệ bởi bản quyền không? → Nếu scrape để phân tích thông tin (không phải đăng lại nội dung sáng tạo), Điều 30-4 có khả năng áp dụng.
- Hoạt động scraping của bạn có thay thế cho tác phẩm gốc không? → Nếu có, khả năng cao không được bảo vệ bởi Điều 30-4.
- Bạn có đang vượt qua xác thực, CAPTCHA hoặc kiểm soát truy cập không? → Nếu có, rủi ro UCAL cao — đừng tiếp tục nếu chưa có tư vấn pháp lý.
- Khối lượng scraping có nguy cơ làm quá tải máy chủ không? → Nếu có, hãy giảm tốc request, thêm độ trễ, dùng scraping phân tán.
- Dữ liệu mục tiêu có đang được công ty quản lý như bí mật kinh doanh không? → Nếu là dữ liệu độc quyền không công khai, UCPA có thể áp dụng.
Nếu mọi câu trả lời đều nghiêng về dữ liệu công khai, фактичес, không phải dữ liệu cá nhân, có giới hạn tốc độ, và không đăng lại — bạn đang ở trạng thái khá an toàn. Bất kỳ dấu hiệu đỏ nào cũng nên kích hoạt bước rà soát pháp lý trước khi bắt đầu.

Thunderbit giúp bạn scrape website Nhật tuân thủ như thế nào
Tôi muốn nói rõ: Thunderbit là một công cụ, không phải tư vấn pháp lý. Nhưng nó được thiết kế theo những cách phù hợp với các nguyên tắc tuân thủ tôi vừa nêu.
- AI Suggest Fields: AI của Thunderbit đọc trang và gợi ý chính xác những cột dữ liệu cần trích xuất. Điều này giúp bạn chủ động xác định chỉ những trường không phải dữ liệu cá nhân mà mình cần — giảm việc thu thập dữ liệu cá nhân không cần thiết do thiết kế, chứ không phải do may mắn.
- Cloud Scraping: Phân phối request qua nhiều máy chủ, tự nhiên chia tải và giảm nguy cơ làm quá tải một server Nhật duy nhất. (Có thể xem như built-in rate-limit friendliness.)
- Free Email and Phone Extractors: Khi bạn thực sự cần thu thập thông tin liên hệ từ website Nhật, và cho phép trích xuất chỉ bằng một cú nhấp. Nhưng hãy ghép điều này với hướng dẫn APPI ở trên — thu thập dữ liệu cá nhân đòi hỏi bạn hiểu nghĩa vụ tuân thủ của mình.
- Xuất sang Excel, Google Sheets, Airtable hoặc Notion: Dữ liệu scrape có thể được cấu trúc và xuất ngay để phân tích, hỗ trợ mục đích “phân tích thông tin” mà Điều 30-4 bảo vệ.
- Không cần bảo trì: AI của Thunderbit đọc website mới mỗi lần, tự thích ứng khi bố cục thay đổi. Điều này có nghĩa là không có các scraper hỏng liên tục dội request lỗi lên server — một cách thực tế để tránh kiểu sự cố tải server từng dẫn tới vụ Thư viện Okazaki.
Để xem hướng dẫn thực hành sử dụng Thunderbit, hãy xem của chúng tôi hoặc . Bạn có thể dùng thử miễn phí qua .
Ví dụ tình huống sử dụng thực tế
| Trường hợp sử dụng | Trường dữ liệu nên trích xuất | Cơ sở pháp lý |
|---|---|---|
| Theo dõi giá ecommerce Nhật | Tên sản phẩm, giá niêm yết, tình trạng còn hàng, người bán, SKU, URL, thời gian | Dữ liệu kinh doanh фактичес; Điều 30-4 cho phân tích thông tin; tránh sao chép ảnh sản phẩm hoặc review để đăng lại |
| Phân tích thị trường bất động sản Nhật | Giá chào, khu vực, diện tích sàn, tuổi tòa nhà, loại bất động sản, ga gần nhất, URL, thời gian | Hỗ trợ phân tích thị trường tổng hợp; loại trừ tên môi giới, số điện thoại và tên chủ sở hữu trừ khi đã tuân thủ APPI |
| Theo dõi vận hành B2B | Tên công ty, địa chỉ chi nhánh, email chung của công ty, giờ mở cửa, nhóm dịch vụ | Rủi ro APPI thấp hơn nếu không nhận diện cá nhân còn sống; xem lại ToS và giới hạn tốc độ |
Kết luận chính về tính hợp pháp của web scraping ở Nhật Bản
Web scraping là hợp pháp ở Nhật Bản trong phần lớn trường hợp — đặc biệt khi bạn đang scrape dữ liệu công khai, không phải dữ liệu cá nhân, có tính фактичес để phục vụ phân tích. Nhưng “phần lớn trường hợp” không có nghĩa là “mọi trường hợp”.
- Luật Bản quyền (Điều 30-4): Được phép scraping phân tích dữ liệu công khai; không được đăng lại nội dung sáng tạo.
- UCAL: Không được vượt qua xác thực hoặc kiểm soát truy cập.
- APPI: Xử lý dữ liệu cá nhân cẩn trọng, đặc biệt với chuyển dữ liệu ra nước ngoài và chia sẻ cho bên thứ ba.
- UCPA: Dữ liệu công khai nhìn chung không phải bí mật kinh doanh; dữ liệu bị khóa truy cập hoặc trả phí có rủi ro cao hơn.
- Bộ luật Hình sự: Đừng làm sập server.
Hãy dùng checklist 10 bước trước khi bắt đầu bất kỳ dự án scraping nào. Khi không chắc chắn, hãy tham khảo luật sư — đặc biệt với các dự án liên quan đến dữ liệu cá nhân hoặc nội dung bị hạn chế truy cập.
Nếu bạn sẵn sàng bắt đầu scrape website Nhật một cách tuân thủ, được xây dựng để giúp người không chuyên kỹ thuật làm việc này thật đơn giản. Xác định trường dữ liệu, trích xuất dữ liệu, xuất sang công cụ bạn thích và tập trung vào phân tích.
Câu hỏi thường gặp
Scrape website công khai ở Nhật có hợp pháp không?
Nhìn chung là có. Scraping dữ liệu công khai để phân tích thông tin thường là hợp pháp theo Điều 30-4 của Luật Bản quyền Nhật Bản, miễn là bạn không làm quá tải server, không vượt qua kiểm soát truy cập, không thu thập dữ liệu cá nhân mà không tuân thủ APPI, và không đăng lại biểu đạt có bản quyền. Yếu tố phân biệt là mục đích: phân tích, không phải đăng lại.
Tôi có thể scrape dữ liệu cá nhân (email, số điện thoại) từ website Nhật không?
Bạn có thể, nhưng APPI sẽ áp dụng. Bạn cần có mục đích hợp pháp, phải công bố cách sẽ dùng dữ liệu, và bị hạn chế khi chuyển dữ liệu ra nước ngoài cũng như chia sẻ cho bên thứ ba. Sửa đổi năm 2022 đã siết chặt các quy tắc này đáng kể — đặc biệt với dữ liệu rời khỏi Nhật hoặc được chia sẻ cho công ty khác.
Điều gì xảy ra nếu ToS của một website Nhật cấm scraping?
Vi phạm ToS là vấn đề hợp đồng (có thể dẫn tới trách nhiệm dân sự về bồi thường hoặc lệnh cấm), không phải tội hình sự. Tuy nhiên, nó có thể hỗ trợ các yêu cầu pháp lý rộng hơn và khiến việc thực thi căng hơn. Luôn đọc ToS trước khi scrape, và cân nhắc xem dữ liệu có thể lấy bằng cách khác hay không.
Scrape phía sau tường đăng nhập ở Nhật có hợp pháp không?
Dùng thông tin đăng nhập của chính bạn là vùng xám — UCAL có thể không áp dụng trực tiếp, nhưng rủi ro vi phạm ToS và hợp đồng vẫn còn. Vượt qua xác thực, dùng thông tin đăng nhập của người khác hoặc né kiểm soát truy cập rất có thể là vi phạm hình sự Luật Truy cập Máy tính Trái phép, với mức phạt tới 3 năm tù hoặc ¥1,000,000.
Tôi có thể bán dữ liệu mình scrape từ website Nhật không?
Nếu dữ liệu chứa thông tin cá nhân, bạn phải tuân theo hệ thống cung cấp cho bên thứ ba dạng opt-out theo Điều 27 của APPI — vốn đòi hỏi nộp hồ sơ PPC chính thức, thông báo cho từng cá nhân và cơ chế opt-out. Bán dữ liệu cá nhân mà không làm đúng thủ tục là vi phạm tuân thủ. Với các bộ dữ liệu tổng hợp không mang tính cá nhân, rủi ro APPI thấp hơn, nhưng bản quyền, UCPA, ToS và vẫn còn áp dụng.
Tìm hiểu thêm
