Thu thập dữ liệu web ở Hàn Quốc có hợp pháp không? Người không phải luật sư cần biết gì

Cập nhật lần cuối vào April 30, 2026

Vài tháng trước, một người dùng hỏi tôi một câu khiến tôi khựng lại giữa ngụm cà phê: “Nếu tôi thu thập công khai giá sản phẩm từ Coupang, tôi có bị lôi ra tòa ở Hàn Quốc không?” Thành thật mà nói, lúc đó tôi cũng không có sẵn một câu trả lời gọn ghẽ, chắc chắn — và hầu hết các hướng dẫn pháp lý tôi tìm thấy trên mạng cũng vậy.

Câu hỏi ấy cứ đọng lại trong tôi vì nó là thắc mắc mà hàng nghìn người vận hành thương mại điện tử, đội ngũ bán hàng và nhà sáng lập SaaS âm thầm tìm kiếm mỗi tuần. Thị trường dịch vụ thu thập dữ liệu web toàn cầu đã chạm khoảng và đang tăng rất nhanh. Ngày càng nhiều doanh nghiệp thu thập dữ liệu web — và ngày càng nhiều người trong số họ tự hỏi đâu là ranh giới pháp lý ở Hàn Quốc. Hàn Quốc không cấm thu thập dữ liệu web một cách tuyệt đối.

Nhưng có bốn đạo luật lớn có thể áp dụng tùy theo bạn thu thập gì, bằng cách nàovì mục đích gì. Vụ án kinh điển mà ai cũng nhắc tới là phán quyết của Tòa án Tối cao Hàn Quốc trong vụ Yanolja (2021Do1533, quyết định ngày 12/5/2022), trong đó một công cụ thu thập dữ liệu của đối thủ đã được tuyên vô tội ở khía cạnh hình sự — rồi sau đó, ở vụ dân sự riêng biệt, chính công ty đó lại bị buộc bồi thường khoảng 1 tỷ KRW. Kết quả kép này là điều quan trọng nhất mà người không phải luật sư cần hiểu về luật thu thập dữ liệu ở Hàn Quốc, và cũng là xương sống của hướng dẫn này. Không cần bằng luật — chỉ cần một khung đánh giá rủi ro thực tế mà bạn có thể áp dụng ngay.

Độ khó: Cơ bản (không cần nền tảng pháp lý hay kỹ thuật)
Thời gian cần thiết: ~15 phút để đọc; dùng làm tài liệu tham chiếu lâu dài
Bạn sẽ cần: Hiểu cơ bản về việc thu thập dữ liệu web làm gì (nếu cần ôn lại, xem bài viết của chúng tôi về )

Thu thập dữ liệu web ở Hàn Quốc có hợp pháp không? Câu trả lời ngắn gọn

Bản thân việc thu thập dữ liệu web không phải là hành vi bất hợp pháp ở Hàn Quốc. Đây là một công nghệ trung tính — giống như trình duyệt web hay công thức bảng tính. Tòa án Hàn Quốc từ trước đến nay không tập trung vào công cụ, mà vào hành vi xung quanh việc sử dụng nó.

ig_0cdf68974ff22a4a0169f1aba6b77c8191a0d3fa1e58ce2c97_compressed.webp

Mô hình tinh thần tốt nhất đến từ phán quyết của Tòa án Tối cao trong vụ Yanolja: nguyên tắc “cổng mở so với cổng đóng”. Nếu một website không có rào cản truy cập khách quan nào — không có tường đăng nhập, không có CAPTCHA, không yêu cầu API key, không chặn IP — thì “cổng” đang mở, và việc truy cập dữ liệu công khai thường không cấu thành tội phạm theo Đạo luật Mạng Thông tin và Truyền thông của Hàn Quốc (ICNA). Tòa án đặc biệt xem xét liệu “các biện pháp bảo vệ, điều khoản sử dụng và các tình huống được thể hiện một cách khách quan khác” có hạn chế truy cập hay không, và kết luận rằng máy chủ API của Yanolja có thể được truy cập tự do thông qua ứng dụng công khai.

Nhưng “không phải hình sự” không có nghĩa là “không có rủi ro”.

Trách nhiệm dân sự là một câu chuyện hoàn toàn khác. Bạn có thể tránh bị truy tố nhưng vẫn phải chịu phán quyết bồi thường hàng tỷ won. Vụ Yanolja đã chứng minh điều này rất rõ ràng.

Bốn đạo luật Hàn Quốc có thể áp dụng cho việc thu thập dữ liệu web:

  1. ICNA (Đạo luật Mạng Thông tin và Truyền thông) — quy tắc “không xâm nhập”
  2. Luật Bản quyền — quyền của nhà sản xuất cơ sở dữ liệu
  3. PIPA (Đạo luật Bảo vệ Thông tin Cá nhân) — quy tắc thu thập dữ liệu cá nhân
  4. UCPA (Đạo luật Phòng chống Cạnh tranh Không lành mạnh) — quy tắc chung “đừng ăn theo miễn phí”

Phần còn lại của hướng dẫn này sẽ ghép các đạo luật này với các tình huống thực tế để bạn xác định dự án thu thập dữ liệu của mình thực sự nằm ở đâu.

Khung rủi ro xanh - vàng - đỏ cho việc thu thập dữ liệu web ở Hàn Quốc

ig_0cdf68974ff22a4a0169f1abfb386c8191baf73515035c6cdc_compressed.webp

Mọi bài viết pháp lý tôi tìm được về luật thu thập dữ liệu ở Hàn Quốc đều có cảm giác như được viết cho luật sư. Nếu bạn là quản lý vận hành thương mại điện tử hoặc nhà sáng lập SaaS, bạn không cần phân tích luật dài 40 trang — bạn cần một cách nhanh để đánh giá rủi ro trước khi bắt đầu dự án. Hãy coi đây như đèn giao thông. Màu xanh nghĩa là có thể đi tiếp (nhưng vẫn cần cẩn trọng bình thường). Màu vàng nghĩa là chậm lại và kiểm tra gương. Màu đỏ nghĩa là dừng lại và gọi luật sư.

Vùng xanh: Các tình huống rủi ro thấp

Tình huốngMức rủi roĐạo luật chínhVì sao
Thu thập danh sách sản phẩm công khai (không đăng nhập, không CAPTCHA)🟢 ThấpICNA, Luật Bản quyềnPhán quyết Yanolja: không có hạn chế truy cập = không vi phạm ICNA; dữ liệu фактичес như giá, tình trạng còn hàng không phải biểu đạt sáng tạo
Thu thập giá công khai chỉ để phân tích nội bộ🟢 ThấpUCPA, Luật Bản quyềnDữ liệu фактичес, phạm vi hạn chế, không tái phân phối cạnh tranh
Thu thập dữ kiện không mang tính cá nhân, không có bản quyền từ các trang công khai🟢 ThấpICNA, Luật Bản quyềnKhông vượt qua rào cản truy cập; các dữ kiện riêng lẻ không được bảo hộ

Phán quyết hình sự trong vụ Yanolja là mốc chuẩn cho vùng này. Tòa án Tối cao kết luận không có hành vi xâm nhập ICNA vì máy chủ API có thể truy cập tự do — người dùng bình thường có thể vào bằng ứng dụng, có hoặc không có tư cách thành viên, và không có biện pháp bảo vệ riêng nào chặn truy cập API.

Với người dùng , đây là điểm ngọt nhất. Nếu bạn đang thu thập dữ liệu từ các trang thương mại điện tử hoặc bất động sản công khai bằng chế độ cloud scraping — lấy tên sản phẩm, giá, tình trạng còn hàng hoặc metadata của danh sách trong khi loại trừ các trường dữ liệu cá nhân — thì thông thường bạn đang ở vùng xanh. (Tuy nhiên, “thông thường” không đồng nghĩa với “luôn luôn”, và tôi sẽ giải thích các sắc thái bên dưới.)

Vùng vàng: Các tình huống rủi ro trung bình

Tình huốngMức rủi roĐạo luật chínhVì sao
Thu thập dữ liệu cá nhân (tên, email, số điện thoại) dù từ trang công khai🟡 Trung bìnhPIPA, ICNAPIPA vẫn áp dụng dù thông tin hiển thị công khai; sửa đổi năm 2023 siết chặt quy tắc đồng ý
Thu thập khối lượng lớn có thể cấu thành “một phần đáng kể” của cơ sở dữ liệu đối thủ🟡 Trung bìnhLuật Bản quyền, UCPABài kiểm tra định lượng + định tính theo luật Hàn Quốc
Bỏ qua tín hiệu robots.txt🟡 Trung bìnhBằng chứng của thiện chí kémKhông phải tội hình sự tự thân, nhưng có thể bất lợi khi ra tòa
Thu thập dữ liệu công khai nhưng dùng để cạnh tranh trực tiếp với nguồn🟡 Trung bìnhUCPAĂn theo khoản đầu tư của nền tảng khác

Dữ liệu cá nhân là tác nhân kích hoạt vùng vàng lớn nhất.

Ngay cả khi số điện thoại hoặc email hiển thị trên trang web công khai, PIPA vẫn áp dụng. Cải cách PIPA năm 2023 đã mở rộng quyền của chủ thể dữ liệu và siết chặt yêu cầu đồng ý. Và trong năm 2024, Ủy ban Bảo vệ Thông tin Cá nhân Hàn Quốc (PIPC) đã ban hành trong bối cảnh AI và thu thập dữ liệu — làm rõ rằng chỉ riêng việc dữ liệu có thể truy cập công khai không đồng nghĩa với được phép vô điều kiện.

Khối lượng cũng rất quan trọng. Tòa án Tối cao trong vụ Yanolja nói rằng cả yếu tố định lượng lẫn định tính đều quyết định việc bạn có sao chép “một phần đáng kể” của cơ sở dữ liệu hay không. Hãy so sánh phần đã sao chép với toàn bộ cơ sở dữ liệu và xem liệu nó có phản ánh khoản đầu tư đáng kể của nhà sản xuất hay không.

Vùng đỏ: Các tình huống rủi ro cao

Tình huốngMức rủi roĐạo luật chínhVì sao
Thu thập dữ liệu đằng sau tường đăng nhập hoặc vượt qua kiểm soát truy cập🔴 CaoICNA Điều 48“Cổng mở” = truy cập trái phép; rủi ro truy tố cao
Vượt qua CAPTCHA, chặn IP hoặc hệ thống phát hiện bot🔴 CaoICNA Điều 48(4)Sửa đổi năm 2024 nhắm trực tiếp vào công cụ/thiết bị vượt chặn
Sao chép và bán lại toàn bộ cơ sở dữ liệu của đối thủ🔴 CaoLuật Bản quyền (quyền DB), UCPASao chép đáng kể + ăn theo thương mại
Thu thập thông tin cá nhân không có cơ sở pháp lý để tiếp thị/gửi tiếp cận🔴 CaoPIPATối đa 5 năm / phạt 50 triệu KRW; phạt hành chính tới 3% doanh thu

Một bổ sung năm 2024 cho ICNA — Điều 48(4) — hiện cấm cụ thể việc cài đặt, chuyển giao hoặc phân phối chương trình hay thiết bị kỹ thuật dùng để vượt qua “quy trình bảo vệ hoặc xác thực thông thường” mà không có lý do chính đáng.

Ngoài ra, một khẳng định rằng xâm nhập mạng trái phép vẫn có thể tồn tại ngay cả khi không phá hủy vật lý các biện pháp bảo vệ. Chỉ cần dùng định danh của người khác hoặc các lệnh không hợp lệ để lách giới hạn truy cập là đủ.

Bốn đạo luật Hàn Quốc áp dụng cho thu thập dữ liệu web

LuậtBảo vệ điều gìKhi nào áp dụng cho người thu thập dữ liệu
ICNA Điều 48Ổn định mạng, quyền truy cậpVượt qua đăng nhập, CAPTCHA, xác thực, chặn IP, giới hạn API key
Luật Bản quyền (Điều 93)Tác phẩm sáng tạo + quyền của nhà sản xuất cơ sở dữ liệuSao chép nội dung biểu đạt, hình ảnh hoặc toàn bộ/một phần đáng kể của cơ sở dữ liệu
PIPAThông tin cá nhân, quyền của chủ thể dữ liệuThu thập tên, số điện thoại, email, ID — kể cả từ trang công khai
UCPA (Điều 2(1)(k) và (m))Cạnh tranh công bằng, dữ liệu có giá trị thương mạiĂn theo khoản đầu tư dữ liệu của nền tảng khác để phục vụ doanh nghiệp cạnh tranh của bạn

ICNA Điều 48: Quy tắc “không xâm nhập”

ICNA Điều 48(1) quy định không ai được xâm nhập vào mạng thông tin và truyền thông “mà không có quyền truy cập hợp pháp hoặc vượt quá quyền truy cập được phép.” Nói theo ngôn ngữ thu thập dữ liệu: nếu website có rào cản truy cập mà bạn vượt qua, bạn đang vi phạm. Nếu không có rào cản — trang công khai, không đăng nhập — thì khả năng cao là ổn.

Hình phạt cho vi phạm có thể lên đến theo ICNA Điều 71.

Một sắc thái đáng lưu ý: Tòa án Tối cao Hàn Quốc từ trước đến nay luôn coi hạn chế trong Điều khoản Sử dụng khác với hạn chế truy cập. Điều khoản của ứng dụng Yanolja giới hạn tái sử dụng thương mại và cấm các chương trình tự động gây tải lên máy chủ, nhưng Tòa án kết luận các điều khoản đó không hạn chế một cách khách quan việc truy cập vào chính máy chủ API.

Luật Bản quyền: Quyền của nhà sản xuất cơ sở dữ liệu

Luật Bản quyền của Hàn Quốc bảo vệ nhà sản xuất cơ sở dữ liệu tách biệt với bản quyền đối với từng nội dung riêng lẻ. Theo , việc sao chép “toàn bộ hoặc một phần đáng kể” của cơ sở dữ liệu là bất hợp pháp — ngay cả khi từng điểm dữ liệu riêng lẻ chỉ là dữ kiện công khai.

Bài kiểm tra ở đây vừa định lượng (bạn sao chép bao nhiêu so với tổng thể?) vừa định tính (phần sao chép có phản ánh khoản đầu tư đáng kể của nhà sản xuất vào việc xây dựng, xác minh hoặc duy trì cơ sở dữ liệu không?). Việc sao chép lặp đi lặp lại hoặc có hệ thống những phần nhỏ cũng có thể bị coi là vi phạm nếu về thực chất nó đạt cùng kết quả như sao chép một phần đáng kể.

Hình phạt cho vi phạm quyền của nhà sản xuất cơ sở dữ liệu: tối đa 3 năm hoặc 30 triệu KRW theo Điều 136(2)(3). Bồi thường theo luật định tại Điều 125-2 cho phép tối đa 10 triệu KRW cho mỗi tác phẩm, hoặc 50 triệu KRW cho mỗi tác phẩm nếu vi phạm cố ý nhằm mục đích sinh lợi.

PIPA: Đạo luật Bảo vệ Thông tin Cá nhân

PIPA điều chỉnh việc thu thập dữ liệu cá nhân — tên, thông tin liên hệ, ID — kể cả khi chúng hiển thị công khai. Cải cách năm 2023 là rất đáng kể: nó mở rộng quyền của chủ thể dữ liệu, siết chặt yêu cầu đồng ý, đưa ra quy tắc về quyết định tự động và đặt mức phạt hành chính lên đến đối với một số vi phạm xác định.

của PIPC trực tiếp nhắc đến dữ liệu thu được qua “web crawling và scraping” trong bối cảnh thông tin cá nhân có sẵn công khai. Hướng dẫn làm rõ rằng trong một số bối cảnh, lợi ích hợp pháp có thể là căn cứ, nhưng tổ chức vẫn cần cân bằng lợi ích, biện pháp bảo vệ, bảo vệ quyền và quản trị.

Và xu hướng đang siết chặt hơn. Tháng 3/2026, nâng mức phạt tối đa đối với các vụ rò rỉ dữ liệu nghiêm trọng tái phạm lên tới 10% doanh thu, có hiệu lực vào cuối năm 2026.

UCPA: Quy tắc chung về “cạnh tranh không lành mạnh”

UCPA là đạo luật đã “bắt” GC Company trong vụ dân sự Yanolja. Đạo luật hiện hành có hai quy định liên quan:

  • Điều 2(1)(k): bao quát việc sử dụng không công bằng dữ liệu kỹ thuật hoặc kinh doanh được tích lũy và quản lý bằng điện tử mà không phải bí mật
  • Điều 2(1)(m): quy tắc chung rộng hơn về việc sử dụng kết quả của người khác được đạt được nhờ đầu tư hoặc nỗ lực đáng kể, cho doanh nghiệp của mình mà không được phép, trái với thông lệ thương mại công bằng

Các quy định này chỉ xử lý dân sự — không có hình phạt hình sự — nhưng có thể dẫn tới lệnh cấm theo , bồi thường theo Điều 5, và thậm chí bồi thường gấp ba trong một số trường hợp cố ý theo Điều 14-2. Vụ dân sự Yanolja đã tuyên khoảng 1 tỷ KRW theo khuôn khổ này.

Vụ Yanolja: Vì sao bạn có thể thắng hình sự nhưng thua dân sự

Đây là vụ mà bất kỳ người dùng doanh nghiệp nào ở Hàn Quốc cũng cần hiểu. Tôi sẽ kể nó như một câu chuyện hoàn chỉnh, vì đó là cách nó thực sự diễn ra — và vì kết quả tách đôi chính là điều cốt lõi.

Điều gì đã xảy ra: GC Company thu thập dữ liệu du lịch của Yanolja

GC Company vận hành một nền tảng du lịch trực tuyến cạnh tranh. Họ xây dựng một crawler tự phát triển, truy cập máy chủ API của ứng dụng Baro Reservation của Yanolja, tìm ra các URL API và lệnh yêu cầu rồi gửi chúng đến máy chủ. Công cụ thu thập dữ liệu đã lấy thông tin chỗ ở — tên đối tác, địa chỉ, giá, tình trạng còn chỗ và hình ảnh. GC Company dùng dữ liệu này nội bộ cho marketing và định vị cạnh tranh.

Yanolja đã nộp cả đơn tố cáo hình sự lẫn đơn kiện dân sự.

Phán quyết hình sự: Không phạm tội ở tất cả các cáo buộc (Tòa án Tối cao 2021Do1533)

ig_0cdf68974ff22a4a0169f1ac46e080819188cd13d53eebebdf_compressed.webp

Tòa án Tối cao vào ngày 12/5/2022 đối với cả ba cáo buộc:

  • ICNA Điều 48 (xâm nhập): Không có hạn chế truy cập. Máy chủ API có thể truy cập công khai qua trình duyệt và ứng dụng di động. Không có biện pháp chặn kỹ thuật. Điều khoản dịch vụ chỉ giới hạn việc sử dụng, không giới hạn việc truy cập.
  • Luật Bản quyền (quyền của nhà sản xuất cơ sở dữ liệu): Bị cáo không sao chép “toàn bộ hoặc một phần đáng kể” của cơ sở dữ liệu. Dữ liệu sao chép vốn đã được công khai, và bằng chứng không cho thấy phần sao chép phản ánh khoản đầu tư đáng kể của Yanolja.
  • Điều 314 Bộ luật Hình sự (cản trở kinh doanh): Không chứng minh được việc làm gián đoạn thực tế hoạt động của máy chủ API Yanolja. Không có sửa đổi dữ liệu. Không có yếu tố chủ quan cần thiết cho tội cản trở kinh doanh.

Nguyên tắc có thể trích dẫn được: hạn chế truy cập phải được đánh giá thông qua “các biện pháp bảo vệ, điều khoản sử dụng và các tình huống được thể hiện một cách khách quan khác”. Nếu cổng đang mở, đi qua nó không phải là xâm nhập.

Phán quyết dân sự: Bồi thường 1 tỷ KRW theo UCPA

Và rồi câu chuyện rẽ sang hướng khác. Tòa án Quận Trung tâm Seoul — rồi tiếp đến là Tòa án Cấp cao Seoul (vụ 2021Na2034740, quyết định ngày 25/8/2022) — kết luận GC Company đã vi phạm quy định chung của UCPA. Tòa án tuyên bồi thường thiệt hại khoảng 1 tỷ KRW (~800 nghìn USD) và buộc chấm dứt việc sao chép dữ liệu thêm nữa.

Lý do: cơ sở dữ liệu chỗ ở của Yanolja có giá trị thương mại và phản ánh khoản đầu tư đáng kể — thu thập, xác minh và cập nhật dữ liệu chỗ ở. GC Company đã ăn theo khoản đầu tư đó. Bản án dân sự được chốt ở cấp Tòa án Cấp cao Seoul.

Bài học thực tế: Trắng án hình sự không có nghĩa là an toàn dân sự

Đây là bài học nghịch lý nhất trong luật thu thập dữ liệu của Hàn Quốc. Việc truy cập hợp pháp về mặt hình sự không miễn trừ cho việc sử dụng thương mại không công bằng. “Tôi có thể bị truy tố không?” và “Tôi có thể bị kiện không?” là hai câu hỏi khác nhau, và câu trả lời có thể trái ngược nhau.

Với người dùng doanh nghiệp: ngay cả khi phương pháp thu thập của bạn rõ ràng nằm trong vùng xanh cho mục đích hình sự, thì cách bạn sử dụng dữ liệu — đặc biệt nếu nó cạnh tranh trực tiếp với nguồn — mới quyết định rủi ro dân sự.

So sánh luật thu thập dữ liệu web giữa Hàn Quốc, Mỹ và EU

Tôi không tìm được hướng dẫn nào gom tất cả vào một bảng duy nhất — điều này thật đáng ngạc nhiên, vì có quá nhiều doanh nghiệp thu thập dữ liệu xuyên biên giới.

Khía cạnhHàn QuốcHoa KỳEU / EEA
Đạo luật cốt lõiICNA Điều 48, Luật Bản quyềnCFAA (18 U.S.C. §1030), luật tiểu bangGDPR, Chỉ thị Cơ sở dữ liệu (96/9/EC)
Vụ án kinh điểnYanolja kiện GC Company (Tòa án Tối cao 2021Do1533, 2022)hiQ kiện LinkedIn (Khu vực 9, 2022), Van Buren kiện US (2021)Ryanair kiện PR Aviation (CJEU C-30/14, 2015)
Thu thập dữ liệu công khaiHợp pháp nếu không có rào cản truy cập khách quan (“cổng mở”)Hợp pháp theo lập luận hiQ (dữ liệu công khai); Van Buren thu hẹp CFAATùy thuộc vào quyền cơ sở dữ liệu, hợp đồng, bản quyền, GDPR, luật từng quốc gia thành viên
Quy tắc dữ liệu cá nhânPIPA (sửa đổi 2023) — cần đồng ý hoặc cơ sở pháp lýTheo từng ngành: CCPA (California), các luật riêng về quyền riêng tư của bangGDPR — đồng ý nghiêm ngặt / lợi ích hợp pháp; phạt tối đa 20 triệu € hoặc 4% doanh thu toàn cầu
Vi phạm ToS có phải tội hình sự không?Không (tòa án cho rằng ToS ≠ vi phạm ICNA)Không (Van Buren 2021: ToS ≠ CFAA)Thường là không, nhưng có thể vi phạm hợp đồng (Ryanair)
Bảo hộ cơ sở dữ liệuQuyền của nhà sản xuất cơ sở dữ liệu theo Luật Bản quyềnKhông có quyền DB liên bang chungQuyền cơ sở dữ liệu sui generis
Hình phạt hình sự tối đaTối đa 5 năm / 50 triệu KRW (ICNA)Tối đa 10 năm / 250 nghìn USD (CFAA)Tùy từng quốc gia thành viên

Những khác biệt quan trọng với doanh nghiệp của bạn

  • Hàn Quốc không có ngoại lệ rộng cho khai thác văn bản và dữ liệu (TDM) như Chỉ thị DSM của EU. Nếu bạn huấn luyện mô hình AI trên dữ liệu Hàn Quốc thu thập được, bạn không có một miễn trừ luật định sẵn.
  • Quy định chung về cạnh tranh không lành mạnh của Hàn Quốc theo UCPA rộng hơn và khó đoán hơn so với luật cạnh tranh không lành mạnh của Mỹ. Kết quả dân sự trong vụ Yanolja sẽ khó tái hiện hơn nhiều dưới luật Mỹ.
  • Cả ba khu vực pháp lý đều đồng ý: chỉ vi phạm Điều khoản Dịch vụ thôi thì chưa phải là tội hình sự.
  • Bảo hộ cơ sở dữ liệu ở Hàn Quốc là do luật định (giống EU), trong khi Mỹ không có quyền cơ sở dữ liệu liên bang chung. Điều này cho các chủ nền tảng Hàn Quốc nhiều công cụ dân sự hơn.
  • Nếu bạn thu thập dữ liệu xuyên biên giới, luật nghiêm ngặt nhất có thể áp dụng sẽ chi phối. Một dự án thu thập dữ liệu chạm tới Hàn Quốc, Mỹ và EU cần đáp ứng cả ba chế độ pháp lý.

Tình huống theo ngành: Thu thập dữ liệu web ở Hàn Quốc có hợp pháp không với ngành của bạn?

Hồ sơ rủi ro thay đổi rất mạnh theo từng ngành, và chưa có hướng dẫn nào tôi tìm thấy ghép luật thu thập dữ liệu của Hàn Quốc với từng ngành dọc cụ thể. Vì vậy, tôi tự tổng hợp lại.

Thương mại điện tử: Theo dõi giá và dữ liệu sản phẩm

ig_0cdf68974ff22a4a0169f1abfb386c8191baf73515035c6cdc_compressed.webp

Thu thập giá sản phẩm công khai từ Coupang, Gmarket hoặc 11Street là ví dụ “vùng xanh” sạch nhất — chỉ lấy các trường фактичес (giá, tình trạng còn hàng, tên sản phẩm), tránh khu vực chỉ mở sau đăng nhập, không vượt chặn kỹ thuật và dùng dữ liệu cho phân tích nội bộ.

Rủi ro tăng lên khi bạn thu thập mô tả sản phẩm (nội dung sáng tạo → bản quyền), thông tin liên hệ của người bán (PIPA), hình ảnh (bản quyền), hoặc toàn bộ danh mục (quyền của nhà sản xuất cơ sở dữ liệu + UCPA).

Tôi không tìm thấy vụ kiện thu thập dữ liệu thương mại điện tử lớn ở Hàn Quốc tương tự Yanolja. Tiền lệ phát triển hơn nằm ở du lịch và tuyển dụng — nhưng không có vụ kiện không có nghĩa là không có rủi ro.

Chế độ và cloud scraping của Thunderbit được xây dựng đúng cho mô hình này: kiểm tra giá và tồn kho định kỳ trên các trang công khai, với AI Suggest Fields cho phép bạn chọn các cột cần lấy và loại trừ các trường dữ liệu cá nhân.

Bất động sản: Danh sách nhà đất

Bất động sản tự nhiên nằm ở vùng vàng. Các danh sách trên những nền tảng như Zigbang hoặc Naver Real Estate trộn lẫn dữ liệu фактичес (giá, diện tích, khu vực) với tên môi giới, số điện thoại văn phòng, số di động, hình ảnh và cơ sở dữ liệu được nền tảng tuyển chọn.

Thu thập chi tiết bất động sản công khai có thể rủi ro thấp hơn. Nhưng lấy các cột liên hệ của môi giới sẽ kích hoạt PIPA ngay lập tức — và việc thu thập toàn bộ danh sách trong một khu vực bắt đầu giống với sao chép cơ sở dữ liệu đáng kể.

Cách giảm thiểu: loại trừ các cột cá nhân, thu hẹp phạm vi địa lý, ghi lại mục đích kinh doanh hợp pháp, tôn trọng giới hạn tốc độ và tránh tái tạo một dịch vụ danh sách cạnh tranh. AI của Thunderbit có thể được cấu hình để chỉ trích xuất các trường bất động sản bạn cần — giá, mét vuông, vị trí — trong khi bỏ qua dữ liệu liên hệ cá nhân.

Tuyển dụng: Tin đăng việc làm

Tuyển dụng là lĩnh vực rủi ro cao, không cần bàn cãi. Hàn Quốc đã có tiền lệ trực tiếp: JobKorea kiện Saramin. Saramin đã thu thập cơ sở dữ liệu tin tuyển dụng của JobKorea và bị xác định phải chịu trách nhiệm về xâm phạm quyền cơ sở dữ liệu và cạnh tranh không lành mạnh. Dữ liệu tuyển dụng thường kết hợp khoản đầu tư nền tảng (danh sách được tuyển chọn, xác minh), sao chép cơ sở dữ liệu khối lượng lớn và thông tin cá nhân hoặc liên hệ của nhà tuyển dụng.

Khuyến nghị của tôi: nhìn chung đừng thu thập dữ liệu từ một nền tảng việc làm đối thủ để xây dựng hoặc làm giàu cơ sở dữ liệu việc làm của bạn. Nếu trường hợp sử dụng rất hẹp, hãy nhờ luật sư xem xét trước khi thu thập, giảm thiểu khối lượng, xóa liên hệ cá nhân và không phân phối lại kết quả.

Bảng tham chiếu hình phạt đầy đủ: Bạn rủi ro gì nếu thu thập dữ liệu web ở Hàn Quốc sai cách

Đạo luật Hàn QuốcLoại vi phạmHình phạt hình sự tối đaBiện pháp dân sự/hành chính tối đaThay đổi chính 2023–2026
ICNA Điều 48Truy cập trái phép / can thiệp5 năm / phạt 50 triệu KRWBồi thường + lệnh cấm2024: thêm Điều 48(4), nhắm vào công cụ vượt chặn
Luật Bản quyền (quyền DB, Điều 93)Sao chép đáng kể cơ sở dữ liệu3 năm / phạt 30 triệu KRWBồi thường theo luật định tới 50 triệu KRW/tác phẩm (cố ý vì lợi nhuận)
PIPAThu thập dữ liệu cá nhân trái phép5 năm / phạt 50 triệu KRWPhạt hành chính tới 3% tổng doanh thu; có thể kiện tập thểCải cách 2023; hướng dẫn AI về dữ liệu công khai 2024; xu hướng 2026 tăng lên 10% cho rò rỉ tái phạm
UCPA Điều 2(1)(k)/(m)Thu thập / sử dụng dữ liệu không công bằngChỉ dân sự (không có hình phạt hình sự cho quy định chung)Bồi thường + lệnh cấm; bồi thường gấp ba trong một số trường hợp cố ý2022: Luật Khung về Dữ liệu tăng cường các quy định
Bộ luật Hình sự Điều 314Cản trở kinh doanh bằng phương tiện kỹ thuật5 năm / phạt 15 triệu KRWYanolja: không chứng minh được gián đoạn thực tế

Điểm mấu chốt: con đường hình sự và dân sự vận hành độc lập. Bạn có thể đối mặt cả hai cùng lúc — và thắng một bên nhưng thua bên kia.

Danh sách kiểm tra tuân thủ 10 điểm cho việc thu thập dữ liệu web ở Hàn Quốc

Dưới đây là mười câu hỏi có/không để rà soát trước khi bắt đầu bất kỳ dự án thu thập dữ liệu nào. Hãy in ra, đánh dấu trang, dán lên màn hình — miễn cách nào tiện nhất với bạn.

  1. Trang mục tiêu có yêu cầu đăng nhập để truy cập dữ liệu bạn muốn không? Nếu cần đăng nhập, token hoặc tài khoản, rủi ro sẽ nghiêng mạnh về ICNA Điều 48.
  2. Có rào cản truy cập kỹ thuật nào không? CAPTCHA, chặn IP, API key, giới hạn tốc độ và tường bot là tín hiệu đỏ rất mạnh.
  3. Bạn đã xem robots.txt của trang chưa? Bản thân nó không ràng buộc về mặt pháp lý trong tiền lệ Hàn Quốc, nhưng là bằng chứng hữu ích về kỳ vọng của trang và thiện chí của bạn.
  4. Bạn có đang thu thập bất kỳ dữ liệu cá nhân nào không? Nếu có tên, số điện thoại, email, ID hoặc chi tiết liên hệ cá nhân trong phạm vi thu thập, cần phân tích theo PIPA.
  5. Bạn có đang sao chép “một phần đáng kể” của cơ sở dữ liệu trang đó không? Hãy hỏi cả hai mặt — về lượng là bao nhiêu, và về chất thì phần sao chép có phản ánh khoản đầu tư của nguồn không?
  6. Bạn đã xác định rõ mục đích chưa? Phân tích nội bộ ít rủi ro hơn so với tái phân phối hoặc xây dựng cơ sở dữ liệu cạnh tranh. (Nhưng Yanolja cho thấy việc dùng nội bộ mang tính cạnh tranh không phải là lá chắn hoàn toàn.)
  7. Bạn đã ghi lại bằng văn bản mục đích kinh doanh hợp pháp chưa? Tài liệu hóa giúp ích cho việc cân bằng lợi ích hợp pháp theo PIPA và làm bằng chứng thiện chí.
  8. Bạn đã loại bỏ hoặc ẩn danh các trường dữ liệu cá nhân trước khi lưu trữ/sử dụng chưa? Loại trừ chi tiết liên hệ thường giúp việc thu thập dữ liệu bất động sản, tuyển dụng và danh bạ thoát khỏi mô hình rủi ro nhất của PIPA.
  9. Bạn có dùng khoảng cách yêu cầu hợp lý không? Tránh làm quá tải máy chủ — rủi ro theo Bộ luật Hình sự Điều 314 và ICNA Điều 48(3) tăng lên khi việc thu thập gây ảnh hưởng hoạt động dịch vụ.
  10. Bạn đã tham khảo luật sư Hàn Quốc cho dự án khối lượng lớn, thương mại hoặc xuyên biên giới chưa? Luật Hàn Quốc cộng với GDPR / luật riêng tư hoặc luật truy cập máy tính của Mỹ có thể cùng lúc áp dụng.

⚠️ Tuyên bố miễn trừ trách nhiệm: Danh sách này chỉ nhằm định hướng, không phải tư vấn pháp lý. Hãy luôn tham khảo luật sư Hàn Quốc tại địa phương cho các tình huống cụ thể.

Thunderbit giúp bạn thu thập dữ liệu website Hàn Quốc một cách có trách nhiệm như thế nào

Nói thật: tôi làm ở bộ phận marketing của Thunderbit. Nhưng tôi thực sự nghĩ sự phù hợp giữa sản phẩm và pháp lý ở đây là hữu ích, chứ không chỉ là một lời chào bán.

Thunderbit được thiết kế cho các trường hợp vùng xanh mà bài viết này mô tả: thu thập dữ liệu công khai, không cần đăng nhập. Dưới đây là cách một số tính năng cụ thể khớp với khung tuân thủ:

  • Chế độ cloud scraping cho các trang công khai — không cần đăng nhập, không cần phiên đăng nhập cục bộ, vẫn nằm trong ranh giới có thể truy cập công khai. Điều này phù hợp với nguyên tắc “cổng mở” trong vụ Yanolja.
  • AI Suggest Fields cho phép bạn xác định chính xác những cột dữ liệu cần trích xuất. Cần giá sản phẩm và tình trạng còn hàng nhưng không cần số điện thoại người bán? Chỉ cần loại trừ các cột cá nhân. Đây là cách đơn giản nhất để tránh kích hoạt PIPA.
  • Scheduled scraper cho việc kiểm tra giá, tồn kho hoặc danh sách định kỳ với khoảng thời gian hợp lý — không cần dồn dập gửi yêu cầu lên máy chủ.
  • Xuất dữ liệu miễn phí sang Excel, Google Sheets, Airtable và Notion cho quy trình phân tích nội bộ.
  • Thu thập trang con để làm giàu dữ liệu danh sách công khai (ví dụ: nhấp vào từng trang sản phẩm để lấy thông số) mà không cần truy cập các khu vực chỉ mở sau đăng nhập hoặc bị hạn chế.
  • Thích ứng bố cục bằng AI — scraper đọc lại cấu trúc trang mỗi lần, thích nghi với thay đổi bố cục mà không phụ thuộc vào bộ chọn cứng dễ vỡ.

Thunderbit hỗ trợ đa ngôn ngữ trên hàng chục ngôn ngữ, điều này rất quan trọng với các đội ngũ làm việc trên website tiếng Hàn. Bạn có thể dùng thử miễn phí qua .

Không công cụ nào xóa bỏ hoàn toàn rủi ro pháp lý. Nhưng cấu hình có trách nhiệm — trang công khai, dữ liệu ფაქტ적인, loại trừ trường cá nhân, khoảng thời gian hợp lý — sẽ giữ bạn trong khuôn khổ tuân thủ mà bài viết này mô tả.

Những điểm chính cần nhớ về tính hợp pháp của thu thập dữ liệu web ở Hàn Quốc

Năm điều đáng nhớ:

  1. Công nghệ thu thập dữ liệu web tự thân là hợp pháp ở Hàn Quốc. Tòa án Tối cao đã xác nhận điều này trong phán quyết Yanolja.
  2. Rủi ro phụ thuộc vào cách truy cập (cổng mở hay cổng đóng), loại dữ liệu (cá nhân hay фактичес) và cách sử dụng (nội bộ hay tái phân phối cạnh tranh).
  3. Trắng án hình sự ≠ an toàn dân sự. Vụ Yanolja cho thấy bạn có thể tránh truy tố nhưng vẫn phải chịu thiệt hại hàng tỷ won.
  4. Khi thu thập dữ liệu công khai, không mang tính cá nhân, mang tính фактичес để dùng nội bộ và không có rào cản truy cập, bạn thường ở vùng an toàn. Nhưng từ “thường” ở đây rất quan trọng — phạm vi, khối lượng và mục đích đều có ý nghĩa.
  5. Luôn tham khảo luật sư Hàn Quốc cho các dự án quy mô lớn hoặc thương mại. Bài viết này chỉ mang tính định hướng, không phải tư vấn pháp lý.

Nếu bạn muốn bắt đầu thu thập dữ liệu website Hàn Quốc một cách có trách nhiệm, cho phép bạn thử quy trình ở quy mô nhỏ. Để hiểu sâu hơn cách thu thập dữ liệu bằng AI hoạt động trong thực tế, hãy xem các hướng dẫn của chúng tôi về . Và nếu bạn muốn xem công cụ hoạt động, của chúng tôi có các video hướng dẫn cho những tình huống phổ biến.

Câu hỏi thường gặp

1. Việc thu thập dữ liệu công khai có hợp pháp ở Hàn Quốc không?

Nhìn chung là có, xét về mặt hình sự — theo phán quyết của Tòa án Tối cao trong vụ Yanolja, việc truy cập dữ liệu từ một trang không có rào cản truy cập khách quan không vi phạm ICNA. Tuy nhiên, trách nhiệm dân sự theo UCPA hoặc Luật Bản quyền vẫn có thể áp dụng, tùy thuộc vào khối lượng, khoản đầu tư của nguồn và cách bạn sử dụng dữ liệu cho mục đích thương mại.

2. Tôi có thể bị kiện vì thu thập dữ liệu web ở Hàn Quốc dù không phạm tội hình sự không?

Có. Con đường hình sự và dân sự độc lập với nhau. GC Company được tuyên vô tội ở tất cả cáo buộc hình sự nhưng vẫn bị buộc trả khoảng 1 tỷ KRW tiền bồi thường dân sự theo quy định chung của UCPA. Trắng án hình sự không che chắn bạn khỏi các yêu cầu dân sự.

3. Việc vi phạm Điều khoản Dịch vụ của website có làm cho việc thu thập dữ liệu trở thành bất hợp pháp ở Hàn Quốc không?

Tòa án Hàn Quốc từ trước đến nay cho rằng chỉ vi phạm ToS thôi thì không cấu thành tội hình sự theo ICNA — Tòa án phân biệt giữa hạn chế việc sử dụng (ToS) và hạn chế việc truy cập (rào cản kỹ thuật). Tuy vậy, vi phạm ToS vẫn có thể hỗ trợ cho yêu cầu bồi thường do vi phạm hợp đồng hoặc làm bằng chứng về thiện chí kém trong phân tích cạnh tranh không lành mạnh.

4. Luật thu thập dữ liệu web của Hàn Quốc khác gì so với Mỹ?

Cả hai khu vực đều bảo vệ việc thu thập dữ liệu công khai (Yanolja ở Hàn Quốc, hiQ kiện LinkedIn ở Mỹ) và đều cho rằng chỉ vi phạm ToS thôi chưa phải là tội hình sự (Van Buren ở Mỹ). Khác biệt chính: Hàn Quốc có bảo hộ cơ sở dữ liệu theo luật mạnh hơn và quy tắc chung về cạnh tranh không lành mạnh rộng hơn Mỹ, nơi không có quyền cơ sở dữ liệu liên bang chung. Chủ nền tảng Hàn Quốc có nhiều công cụ dân sự hơn để theo đuổi người thu thập dữ liệu.

5. Điều gì xảy ra nếu tôi thu thập dữ liệu cá nhân từ website Hàn Quốc?

PIPA áp dụng bất kể thông tin đó có hiển thị công khai hay không. Thu thập thông tin cá nhân — tên, số điện thoại, email — mà không có sự đồng ý hoặc căn cứ pháp lý khác là vi phạm. Sửa đổi PIPA năm 2023 đã tăng cường các bảo vệ này, và hướng dẫn năm 2024 của PIPC về thông tin cá nhân công khai có đề cập trực tiếp đến web crawling và scraping. Hình phạt có thể lên đến 5 năm tù, phạt 50 triệu KRW và phạt hành chính tới 3% tổng doanh thu.

Dùng Thunderbit để thu thập dữ liệu web có trách nhiệm

Tìm hiểu thêm

Fawad Khan
Fawad Khan
Fawad sống bằng nghề viết, và nói thật là anh ấy khá yêu công việc này. Anh đã dành nhiều năm để tìm hiểu điều gì khiến một câu chữ in đậm trong tâm trí người đọc — và điều gì khiến họ lướt qua. Hỏi anh về marketing, anh có thể nói hàng giờ. Hỏi anh về carbonara, anh sẽ nói còn lâu hơn.
Mục lục

Thử Thunderbit

Trích xuất lead và dữ liệu khác chỉ trong 2 cú nhấp. Powered by AI.

Nhận Thunderbit Miễn phí
Trích xuất dữ liệu bằng AI
Dễ dàng chuyển dữ liệu sang Google Sheets, Airtable hoặc Notion
Chrome Store Rating
PRODUCT HUNT#1 Product of the Week