Web scraping có hợp pháp ở châu Âu không? Cách thu thập dữ liệu và vẫn an toàn

Vào ngày 1 tháng 5 năm 2024, Cơ quan Bảo vệ Dữ liệu Hà Lan đã tung ra một tiêu đề khiến mọi nhóm dữ liệu ở châu Âu phải chú ý: “scraping hầu như luôn luôn là bất hợp pháp.” Nếu bạn làm trong sales, ecommerce hay bất động sản — nói chung là bất kỳ ai dựa vào dữ liệu web — câu đó chắc hẳn làm bạn thấy lạnh gáy.

Tôi hiểu cảm giác đó. Tại Thunderbit, chúng tôi nói chuyện với các nhóm kinh doanh mỗi ngày, những người cần dữ liệu web để theo dõi giá, tìm lead và nghiên cứu thị trường. Điều khiến họ bực nhất gần như luôn giống nhau: họ Google “is web scraping legal in Europe”, và mọi câu trả lời đều na ná “còn tùy”. Câu đó chẳng giúp ích gì khi bạn đang sát hạn dự án và trước mắt là cả danh sách URL cần thu thập.

Vì vậy, tôi đã dành nhiều tuần để đào sâu vào quy định thực tế, hướng dẫn của các cơ quan bảo vệ dữ liệu, các vụ việc thực thi và án lệ để tạo ra một thứ hữu ích hơn: một checklist ra quyết định thực tế, một bảng biện pháp bảo vệ tổng hợp, các mức phạt cụ thể, và hướng dẫn từng bước để thu thập dữ liệu từ website châu Âu mà không rơi vào thế bất lợi trước cơ quan quản lý. Dù bạn đang thu thập giá sản phẩm trên Amazon hay lấy thông tin liên hệ B2B từ một thư mục, bài viết này sẽ giúp bạn xác định ranh giới nằm ở đâu — và cách đứng đúng phía của ranh giới đó.

Web Scraping là gì (và vì sao doanh nghiệp châu Âu nên quan tâm)?

Web scraping là việc trích xuất dữ liệu tự động từ website sang một định dạng có cấu trúc — bảng tính, cơ sở dữ liệu, CRM. Thay vì sao chép thủ công tên sản phẩm và giá từ 200 trang, một công cụ scrape sẽ ghé từng trang và lấy các trường bạn cần thành những cột gọn gàng.

Vì sao điều này quan trọng với các nhóm không chuyên kỹ thuật? Vì dữ liệu web nuôi dưỡng những quyết định kinh doanh rất thật. Nhóm sales scrape thư mục để tìm lead. Quản lý ecommerce theo dõi giá đối thủ mỗi ngày. Chuyên viên bất động sản theo dõi xu hướng tin đăng trên nhiều cổng. Nhà nghiên cứu thị trường thu thập đánh giá và xếp hạng công khai ở quy mô lớn. Thị trường web scraping toàn cầu đang tăng rất nhanh, và các công ty scrape hàng triệu điểm dữ liệu mỗi ngày.

Nhưng môi trường quản lý ở châu Âu khác với Mỹ. GDPR, Chỉ thị Cơ sở dữ liệu và hướng dẫn đang thay đổi của các cơ quan bảo vệ dữ liệu (DPA) có nghĩa là “công khai” không đồng nghĩa với “tự do sử dụng”. Như chủ tịch DPA Hà Lan Aleid Wolfsen đã nói: “công khai không tự động có nghĩa là được phép scrape.” Hiểu luật trước khi bắt đầu không phải lựa chọn thêm — đó là sự khác biệt giữa một bộ dữ liệu sạch và một khoản phạt sáu chữ số.

Dùng thử Thunderbit để web scraping tuân thủ quy định

Web scraping có hợp pháp ở châu Âu không? Câu trả lời ngắn

Web scraping không vốn dĩ là bất hợp pháp ở châu Âu. Nhưng tính hợp pháp của nó phụ thuộc vào ba thứ: bạn scrape dữ liệu gì, bằng cách nào, và vì mục đích gì.

Ba lớp pháp lý chồng lấn nhau điều chỉnh hoạt động scraping trong EU:

GDPR — áp dụng bất cứ khi nào bạn scrape dữ liệu cá nhân (tên, email, số điện thoại, địa chỉ IP, thậm chí cả mã định danh đã bút danh hóa).
Chỉ thị Cơ sở dữ liệu của EU — bảo vệ các cơ sở dữ liệu mà bên tạo ra đã đầu tư “đáng kể” vào việc tổ chức dữ liệu.
Luật hợp đồng/Điều khoản dịch vụ — nhiều website cấm scrape trong ToS, và tòa án EU đã thực thi các điều khoản đó.

Điểm mấu chốt: “công khai” không có nghĩa là “không bị quản lý”. Ngay cả dữ liệu không phải dữ liệu cá nhân cũng có thể được bảo vệ bởi quyền cơ sở dữ liệu hoặc luật hợp đồng. Mọi dự án scraping đều cần xem xét cả ba lớp cùng lúc.

Các luật quan trọng của EU điều chỉnh web scraping

GDPR: Khi bạn scrape dữ liệu cá nhân

Bất kỳ dữ liệu nào gắn với một người có thể nhận diện đều kích hoạt nghĩa vụ theo GDPR. Điều đó bao gồm tên, địa chỉ email, số điện thoại, địa chỉ IP, ảnh, và thậm chí cả dữ liệu đã bút danh hóa nhưng vẫn có thể tái nhận diện. Ngay khi bạn scrape dữ liệu cá nhân, bạn trở thành “bên kiểm soát dữ liệu” với các nghĩa vụ theo GDPR:

Cơ sở pháp lý (Điều 6): Bạn cần một lý do hợp pháp để xử lý dữ liệu. Xin đồng ý gần như không khả thi khi scrape ở quy mô lớn — bạn không thể hỏi hàng triệu người xin phép trước khi thu thập thông tin họ đã đăng công khai. Cơ sở thường được viện dẫn nhất là lợi ích hợp pháp (Điều 6(1)(f)), nhưng nó đòi hỏi một bài kiểm tra ba phần có ghi chép: (1) lợi ích của bạn là hợp pháp, (2) việc xử lý là cần thiết, và (3) nó không gây ảnh hưởng quá mức đến quyền của chủ thể dữ liệu, xét đến kỳ vọng hợp lý của họ.
Minh bạch (Điều 14): Vì bạn không thu thập dữ liệu trực tiếp từ chính người đó, bạn phải thông báo cho họ — thường trong vòng một tháng — về dữ liệu đã thu thập, lý do, và cách họ có thể thực hiện quyền của mình. Nếu thông báo cho từng cá nhân là không tương xứng, bạn phải đăng một thông báo chung với đầy đủ nội dung theo Điều 14.
Giảm thiểu dữ liệu: Chỉ thu thập những gì thực sự cần. Nếu bạn cần giá sản phẩm, đừng đồng thời lấy cả địa chỉ email của người bán.
Giới hạn lưu trữ và quản lý quyền: Thiết lập thời hạn lưu giữ, tôn trọng yêu cầu xóa, và cung cấp quyền truy cập vào thông tin nguồn.

Báo cáo của EDPB ChatGPT Task Force (thông qua vào tháng 5 năm 2024) đã bổ sung thêm một lớp nữa: báo cáo nêu rằng các giai đoạn xử lý khác nhau — thu thập, tiền xử lý, huấn luyện, prompt và đầu ra — mỗi giai đoạn đều cần phân tích cơ sở pháp lý riêng. EDPB không bác bỏ lợi ích hợp pháp cho web scraping, nhưng yêu cầu phải thực hiện đầy đủ đánh giá ba phần với các biện pháp bảo vệ phù hợp.

Chỉ thị Cơ sở dữ liệu của EU: Bảo vệ cách dữ liệu được tổ chức

Chỉ thị Cơ sở dữ liệu trao quyền sui generis cho người tạo cơ sở dữ liệu nếu họ đã đầu tư “đáng kể” vào việc thu thập, xác minh hoặc trình bày dữ liệu. Nếu việc scrape của bạn trích xuất một “phần đáng kể” của cơ sở dữ liệu đó, bạn có thể xâm phạm quyền này.

Trên thực tế, ngưỡng này khá cao. Việc scrape vài trăm mức giá sản phẩm từ một nhà bán lẻ lớn thường khó bị xem là vi phạm. Nhưng tải hàng loạt toàn bộ catalog của đối thủ — hàng chục nghìn tin đăng — có thể vượt ranh giới, nhất là nếu điều đó đe dọa khả năng thu hồi vốn đầu tư của người tạo ra cơ sở dữ liệu. Tòa án Công lý EU đã ra phán quyết về ngưỡng này trong nhiều vụ, và câu hỏi then chốt luôn là tính tương xứng.

Đối với phần lớn hoạt động scraping phục vụ kinh doanh — lấy các trường cụ thể từ trang sản phẩm, so sánh danh sách giữa các danh mục — Chỉ thị Cơ sở dữ liệu là rủi ro thấp hơn. Nhưng rủi ro không phải bằng không, và bạn nên lưu ý điều đó khi thiết kế phạm vi scraping.

Điều khoản dịch vụ: Biến số khó đoán của luật hợp đồng

Phần này thường khiến mọi người vấp ngã. Nhiều website cấm scraping trong Điều khoản dịch vụ. Ở châu Âu, vi phạm ToS là vấn đề dân sự (không phải hình sự), nhưng vẫn có thể dẫn đến lệnh cấm, kiện vi phạm hợp đồng và rủi ro tài chính thực tế.

Có hai dạng cần biết: browsewrap (điều khoản mang tính thụ động, thường là một liên kết nằm ở cuối trang) khó thực thi hơn vì người dùng chưa từng chủ động đồng ý. Clickwrap (khi bạn tick ô hoặc bấm “Tôi đồng ý”) có khả năng thực thi cao hơn nhiều.

Vụ án tiêu biểu của EU là Ryanair kiện PR Aviation: tòa đã thực thi ToS của Ryanair đối với một scraper dù quyền cơ sở dữ liệu không áp dụng, vì scraper đã đồng ý với điều khoản. Vì vậy: luôn xem ToS của một website trước khi scrape. Nếu đó là thỏa thuận clickwrap và cấm scrape rõ ràng, hãy hết sức thận trọng — hoặc tìm API thay thế.

Chỉ thị DSM và AI Act: Ngoại lệ cho nghiên cứu và text/data mining

Không phải mọi hoạt động scraping đều kích hoạt cùng một hạn chế. Chỉ thị Thị trường số đơn (DSM) năm 2019 đã đưa ra hai ngoại lệ text and data mining (TDM):

Điều 3: Các tổ chức nghiên cứu và tổ chức di sản văn hóa có thể thực hiện TDM trên nội dung được truy cập hợp pháp.
Điều 4: Bất kỳ ai — bao gồm cả doanh nghiệp thương mại — đều có thể thực hiện TDM, trừ khi chủ thể quyền đã từ chối rõ ràng (ví dụ qua robots.txt, ai.txt hoặc tiêu đề TDMRep).

EU AI Act (Điều 53) bổ sung nghĩa vụ cho các nhà cung cấp mô hình AI: họ phải tuân thủ cơ chế từ chối TDM và ghi chép nguồn dữ liệu huấn luyện.

Một điểm cần lưu ý: các ngoại lệ này áp dụng cho quyền tác giả và quyền cơ sở dữ liệu, chứ không áp dụng cho GDPR. Nếu TDM của bạn liên quan đến dữ liệu cá nhân, bạn vẫn cần một cơ sở pháp lý riêng theo GDPR.

Checklist quyết định “Tôi có thể scrape cái này không?” cho dữ liệu châu Âu

Đây là phần tôi ước mình đã có khi mới bắt đầu nghiên cứu chủ đề này. Mọi bài viết pháp lý đều nói “còn tùy” — nhưng cây quyết định thực sự trông như thế nào? Dưới đây là checklist tuân thủ từng bước với các ngưỡng rõ ràng. Mỗi bước sẽ dẫn đến ✅ tiếp tục, ⚠️ thêm biện pháp bảo vệ, hoặc 🛑 dừng lại.

Bước 1: Dữ liệu là dữ liệu cá nhân hay không phải dữ liệu cá nhân?

Dữ liệu không phải dữ liệu cá nhân (giá sản phẩm, mã SKU, địa chỉ doanh nghiệp không gắn với cá nhân): gánh nặng quản lý thấp hơn. Bạn vẫn cần kiểm tra Chỉ thị Cơ sở dữ liệu và ToS, nhưng GDPR không áp dụng. ✅ Sang Bước 3.

Dữ liệu cá nhân (tên, email, số điện thoại, ảnh, bất kỳ định danh nào gắn với một người): GDPR áp dụng. ⚠️ Tiếp tục sang Bước 2.

Bước 2: Cơ sở pháp lý nào của GDPR áp dụng?

Đồng ý: Gần như không khả thi cho scraping quy mô lớn. 🛑 Trừ khi bạn có một tình huống rất hẹp và rất cụ thể.
Lợi ích hợp pháp (Điều 6(1)(f)): Cơ sở phổ biến nhất. Nhưng nó đòi hỏi bài kiểm tra ba phần có ghi chép:
1. Lợi ích của bạn là hợp pháp (lợi ích thương mại có thể đủ điều kiện, theo phán quyết CJEU năm 2024 trong vụ C-621/22).
2. Việc xử lý là cần thiết cho lợi ích đó.
3. Bài kiểm tra cân bằng: lợi ích của bạn không lấn át quyền của chủ thể dữ liệu, xét đến kỳ vọng hợp lý của họ.
Ghi chép bài kiểm tra cân bằng trước khi scrape. Nếu bạn không thể giải thích vì sao những người có dữ liệu bị scrape lại hợp lý khi kỳ vọng việc sử dụng này, đó là một tín hiệu cảnh báo. ⚠️ Tiếp tục với lợi ích hợp pháp đã được ghi chép.

Bước 3: ToS của website có hạn chế việc scrape không?

Thỏa thuận clickwrap cấm scrape: 🛑 Rủi ro cao. Hãy cân nhắc nguồn dữ liệu thay thế hoặc truy cập API chính thức.
Browsewrap hoặc không có hạn chế ToS: ⚠️ Rủi ro thấp hơn, nhưng vẫn nên tôn trọng robots.txt và các tín hiệu phản đối kỹ thuật.

Bước 4: Chỉ thị Cơ sở dữ liệu có áp dụng không?

Mục tiêu có phải là một cơ sở dữ liệu với khoản đầu tư đáng kể vào tổ chức dữ liệu không?
Việc scrape của bạn có trích xuất “một phần đáng kể” của cơ sở dữ liệu đó không?
Nếu cả hai đều “có”: ⚠️ Rủi ro xâm phạm quyền sui generis. Hãy giới hạn phạm vi trích xuất.

Bước 5: Bạn có được bảo vệ bởi ngoại lệ nghiên cứu hoặc TDM không?

Là tổ chức nghiên cứu đã đăng ký hoặc tổ chức di sản văn hóa? Có thể áp dụng Điều 3 của Chỉ thị DSM. ✅
TDM thương mại? Kiểm tra tín hiệu từ chối ở Điều 4 (robots.txt, ai.txt, TDMRep). Nếu website đã từ chối, 🛑 dừng lại với nguồn đó.

Bước 6: Bạn đã áp dụng các biện pháp bảo vệ do DPA khuyến nghị chưa?

Nếu bạn đã vượt qua các ngưỡng trên, bước cuối là triển khai các biện pháp bảo vệ mà CNIL, DPA Hà Lan và EDPB khuyến nghị. Phần này sẽ được trình bày chi tiết ở phần tiếp theo. ✅ Tiếp tục với các biện pháp bảo vệ đã triển khai.

Biện pháp bảo vệ tuân thủ DPA: CNIL, DPA Hà Lan và EDPB khuyến nghị gì

Tôi không tìm thấy một bài viết đối thủ nào tổng hợp đầy đủ các biện pháp bảo vệ từ ba cơ quan quản lý năng động nhất châu Âu về scraping. Vì vậy tôi đã xây dựng bảng này bằng cách đối chiếu tài liệu hướng dẫn web scraping của CNIL, hướng dẫn của AP Hà Lan, và báo cáo của EDPB ChatGPT Task Force.

Biện pháp	CNIL	DPA Hà Lan (AP)	Lực lượng đặc nhiệm EDPB	Gợi ý triển khai
Thông báo minh bạch theo Điều 14	✅ Bắt buộc	✅ Bắt buộc	✅ Bắt buộc	Công khai thông báo nêu rõ loại nguồn, mục đích, cơ sở pháp lý, thời hạn lưu giữ, kênh thực hiện quyền và thông tin liên hệ DPO
DPIA trước khi scrape	✅ Khuyến nghị (bắt buộc nếu rủi ro cao)	✅ Bắt buộc	✅ Bắt buộc	Ghi chép bài kiểm tra cân bằng, loại dữ liệu, rủi ro và biện pháp giảm thiểu trước khi triển khai
Giảm thiểu dữ liệu	✅ Bắt buộc (xác định tiêu chí thu thập chính xác)	✅ Bắt buộc	✅ Bắt buộc	Cấu hình scraper chỉ lấy các trường cần thiết; xóa ngay dữ liệu không liên quan
Giới hạn tần suất / tôn trọng robots.txt	✅ Bắt buộc (loại trừ các site phản đối qua robots.txt/CAPTCHA)	—	—	Phân tích robots.txt, thêm độ trễ giữa các request, xác định user agent
Bút danh hóa / ẩn danh hóa	⚠️ Khuyến nghị (ngay sau khi thu thập)	✅ Rất được khuyến nghị	✅ Khuyến nghị	Băm hoặc ngẫu nhiên hóa ID; bỏ URL hồ sơ; làm mờ khuôn mặt khi không cần nhận dạng
Thời hạn lưu giữ	✅ Có giới hạn rõ ràng	✅ Ngắn nhất có thể	✅ Có giới hạn rõ ràng	Tự động hóa lịch xóa; tách cache thô khỏi dữ liệu đã trích xuất
Cơ chế từ chối / danh sách chặn	✅ Khuyến nghị (phản đối trước khi xử lý theo quyết định của từng cá nhân)	✅ Bắt buộc (quyền phản đối theo Điều 21)	✅ Bắt buộc	Cung cấp form opt-out, danh sách chặn theo domain, và cơ chế loại trừ theo từng người
Loại trừ nguồn nhạy cảm	✅ Bắt buộc (diễn đàn sức khỏe, site dành cho trẻ vị thành niên, site khiêu dâm, phả hệ)	✅ Bắt buộc	✅ Bắt buộc	Duy trì danh sách chặn mặc định cho sức khỏe, tôn giáo, chính trị, sinh trắc học, trẻ vị thành niên

Một ghi chú thực tế từ phía chúng tôi: tính năng “AI Suggest Fields” của Thunderbit cho phép người dùng xác định chính xác những cột cần trích xuất — giá, SKU, tên sản phẩm — để scraper chỉ thu thập những gì cần thiết. Bạn không tải hàng loạt toàn bộ trang; bạn đang chọn các trường có cấu trúc phù hợp với nguyên tắc giới hạn mục đích và giảm thiểu dữ liệu. Dù vậy, không công cụ nào biến hoạt động scraping không tuân thủ thành hợp pháp. Phân tích pháp lý luôn phải đặt lên trước.

Web scraping có hợp pháp ở châu Âu cho trường hợp của bạn không? Hướng dẫn theo từng ngành

Câu hỏi tôi thường thấy nhất trên các diễn đàn không phải là “scraping có hợp pháp không?” — mà là “scraping của tôi có hợp pháp không?”. Lý thuyết GDPR trừu tượng không trả lời được điều đó. Vì vậy đây là phân tích theo từng trường hợp kinh doanh phổ biến.

Trường hợp sử dụng	Loại dữ liệu	Rủi ro pháp lý chính	Kết quả có khả năng xảy ra
Theo dõi giá ecommerce (danh sách sản phẩm công khai)	Không phải dữ liệu cá nhân (giá, SKU, tên sản phẩm)	Quyền sui generis của Chỉ thị Cơ sở dữ liệu; vi phạm ToS	Thường rủi ro thấp hơn nếu không có dữ liệu cá nhân và không trích xuất có hệ thống “một phần đáng kể” của cơ sở dữ liệu
Tạo lead B2B (thông tin liên hệ từ thư mục)	Dữ liệu cá nhân (tên, email, số điện thoại)	Cơ sở pháp lý GDPR Điều 6; thông báo Điều 14; ePrivacy đối với liên hệ điện tử	Rủi ro cao hơn — cần bài kiểm tra cân bằng lợi ích hợp pháp có ghi chép và nghĩa vụ thông báo
Tin đăng bất động sản (dữ liệu tài sản từ cổng thông tin)	Hỗn hợp (địa chỉ có thể không phải dữ liệu cá nhân; tên chủ sở hữu là dữ liệu cá nhân)	Chỉ thị Cơ sở dữ liệu; ToS; GDPR nếu gắn với chủ sở hữu	Rủi ro trung bình — ẩn danh dữ liệu chủ sở hữu, kiểm tra ToS, tôn trọng robots.txt
Dữ liệu huấn luyện AI (scrape nội dung web quy mô lớn)	Có thể là dữ liệu cá nhân nếu không được lọc	GDPR + nghĩa vụ TDM của EU AI Act Điều 53	Rủi ro cao — phải tuân thủ cả GDPR lẫn AI Act; cần cơ chế từ chối và bộ lọc mạnh

Với những kịch bản rủi ro thấp hơn như dữ liệu ecommerce công khai, các công cụ có mẫu cấu trúc — như mẫu tức thì của Thunderbit cho Amazon và Shopify — giúp giảm rủi ro vì chúng trích xuất các trường dữ liệu cụ thể, không phải dữ liệu cá nhân, mà không thu thập nội dung thừa. Với những kịch bản rủi ro cao hơn liên quan đến dữ liệu cá nhân (ví dụ như tạo lead), phân tích pháp lý phải đặt lên trước. Không có scraper nào, dù thông minh đến đâu, có thể biến việc thu thập không tuân thủ thành tuân thủ.

EU vs. US vs. UK: Luật web scraping khác nhau thế nào

Nếu doanh nghiệp của bạn hoạt động xuyên biên giới, bạn cần hiểu các quy tắc khác nhau ra sao. Tôi không tìm thấy một bài viết đối thủ nào trình bày điều này dưới dạng bảng so sánh dễ quét, nên đây là bảng đó.

Khía cạnh	EU	Mỹ	UK (sau Brexit)
Luật chính	GDPR + Chỉ thị Cơ sở dữ liệu + ePrivacy	CFAA + luật tiểu bang (bảo vệ dữ liệu liên bang hạn chế)	UK GDPR + Đạo luật Bảo vệ Dữ liệu 2018
Scrape dữ liệu công khai	Vẫn cần cơ sở pháp lý GDPR nếu là dữ liệu cá nhân	Nói chung là hợp pháp theo hiQ v. LinkedIn (dữ liệu công khai)	Tương tự EU; áp dụng hướng dẫn của ICO
Thực thi ToS	Vấn đề dân sự; Ryanair v. PR Aviation đã thực thi quyền sui generis	Van Buren thu hẹp CFAA; vi phạm ToS ≠ hình sự	Vấn đề dân sự, tương tự EU
Bảo vệ cơ sở dữ liệu	Quyền sui generis (mạnh)	Không có quyền liên bang tương đương	Giữ lại quyền sui generis
Ngoại lệ AI/TDM	DSM Directive Điều 3–4; AI Act Điều 53	Không có ngoại lệ TDM ở cấp liên bang (học thuyết fair use)	UK đang xem xét ngoại lệ TDM (đến 2026 vẫn bế tắc)
Cơ quan thực thi chính	DPA quốc gia (CNIL, AP Hà Lan, v.v.)	FTC + luật sư tiểu bang	ICO
Xu hướng gần đây	Siết chặt hơn (AP Hà Lan: “hầu như luôn bất hợp pháp” với dữ liệu cá nhân)	Cởi mở hơn sau hiQ	Trung bình; nhìn chung đi theo hướng EU

Nếu bạn scrape website châu Âu hoặc dữ liệu về cư dân châu Âu, quy định EU vẫn áp dụng — ngay cả khi công ty bạn đặt tại Mỹ hay UK.

Các khoản phạt và vụ việc thực tế: Điều gì thực sự xảy ra nếu bị phát hiện (2022–2026)

Đây là phần trả lời câu hỏi ẩn sau câu hỏi: “Rủi ro thực sự là gì?” Tôi đã tổng hợp mọi hành động thực thi công khai của DPA liên quan đến web scraping hoặc dữ liệu cá nhân đã scrape từ năm 2022 đến tháng 4 năm 2026.

Năm	Cơ quan xử lý	Đối tượng	Vi phạm	Tiền phạt/Kết quả
2022	Garante Ý	Clearview AI	Scrape ảnh khuôn mặt không có cơ sở pháp lý	Phạt €20 triệu + cấm + lệnh xóa
2022	DPA Hy Lạp	Clearview AI	Tương tự — scrape nhận diện khuôn mặt	Phạt €20 triệu + cấm + xóa dữ liệu
2022	CNIL (Pháp)	Clearview AI	Cơ sở dữ liệu nhận diện khuôn mặt	Phạt €20 triệu + có thể phạt €100K/ngày
2023	CNIL (Pháp)	Clearview AI	Không tuân thủ lệnh năm 2022	Khoản phạt bổ sung €5,2 triệu
2023	DSB Áo	Clearview AI	Hơn 30 tỷ ảnh khuôn mặt từ web công khai	Lệnh xóa + chỉ định đại diện EU (không công bố tiền phạt)
2024	AP Hà Lan	Clearview AI	Thu thập dữ liệu nhận diện khuôn mặt bất hợp pháp	Phạt €30,5 triệu + lệnh tuân thủ
2024	CNIL (Pháp)	KASPR	Scrape dữ liệu liên hệ LinkedIn để tạo lead	Phạt €240.000 — 160 triệu liên hệ, dữ liệu có giới hạn hiển thị, lưu giữ 5 năm
2024	DPC Ireland	X / Grok	Bài đăng công khai dùng để huấn luyện AI	Thỏa thuận đình chỉ; mở điều tra theo luật định vào năm 2025
2024	DPC Ireland	Meta	Kế hoạch huấn luyện LLM trên nội dung công khai của Facebook/Instagram	Meta tạm dừng kế hoạch huấn luyện AI tại EU
2024	Garante Ý	OpenAI	Dữ liệu huấn luyện ChatGPT và tính minh bạch	Đã ban hành phạt €15 triệu, bị tòa án Rome hủy bỏ vào tháng 3 năm 2026

Tổng số tiền phạt tại EU/EEA trong nhóm scraping/open web: hơn €95 triệu (không tính khoản phạt OpenAI đã bị hủy).

Tất cả các khoản phạt lớn này đều nhắm vào việc scrape hàng loạt dữ liệu sinh trắc học hoặc dữ liệu cá nhân mà không có bất kỳ cơ sở pháp lý nào. Clearview scrape hàng tỷ ảnh khuôn mặt. KASPR scrape 160 triệu liên hệ, bao gồm dữ liệu từ hồ sơ LinkedIn có giới hạn hiển thị, và lưu giữ trong 5 năm.

Việc scrape có mục tiêu, tương xứng đối với dữ liệu công khai không phải dữ liệu cá nhân — như giá sản phẩm hoặc mã SKU — chưa phải là đối tượng của các hành động thực thi như vậy. Điều đó không có nghĩa là nó không có rủi ro, nhưng giúp đặt các con số vào đúng bối cảnh.

Cách scrape website châu Âu an toàn: Hướng dẫn từng bước

Mức độ khó: Người mới bắt đầu
Thời gian cần thiết: ~15 phút (bao gồm rà soát tuân thủ)
Bạn cần gì: Trình duyệt Chrome, tiện ích Thunderbit (bản miễn phí vẫn dùng được), một URL mục tiêu, và kiểm tra nhanh checklist ở trên

Bước 1: Xác định mục đích và nhu cầu dữ liệu

Trước khi mở bất kỳ công cụ nào, hãy ghi rõ vì sao bạn cần dữ liệu và chính xác những trường nào bạn cần. Đây không chỉ là thực hành tốt — nó là nền tảng cho các nguyên tắc giới hạn mục đích và giảm thiểu dữ liệu của GDPR.

Ví dụ: “Tôi cần tên sản phẩm, giá và tình trạng còn hàng từ 50 trang sản phẩm Amazon để cập nhật bảng giá cạnh tranh của công ty.” Câu đó rất cụ thể. So với: “Tôi muốn scrape mọi thứ từ Amazon.” Câu đầu vượt bài kiểm tra giảm thiểu; câu sau thì không.

Bước 2: Chạy checklist tuân thủ

Đi qua checklist sáu bước “Tôi có thể scrape cái này không?” ở trên. Nếu bất kỳ ngưỡng nào trả về 🛑, hãy dừng lại và tham khảo tư vấn pháp lý trước khi tiếp tục.

Chạy ví dụ giá Amazon của chúng ta qua các ngưỡng: dữ liệu là không phải dữ liệu cá nhân (giá, SKU, tên sản phẩm) ✅, không có vấn đề về dữ liệu cá nhân theo GDPR ✅, ToS của Amazon cần được xem xét (họ có hạn chế scraping, nên hãy cân nhắc dùng API dữ liệu sản phẩm chính thức nếu có) ⚠️, và rủi ro theo Chỉ thị Cơ sở dữ liệu là thấp với 50 sản phẩm ✅.

Bước 3: Chọn phương pháp scraping phù hợp

Phương pháp	Dễ sử dụng	Hỗ trợ tuân thủ	Bảo trì	Độ chính xác
Sao chép thủ công	Thấp	Không áp dụng (bạn kiểm soát thứ mình copy)	Cao (tốn thời gian)	Dễ sai sót
Scraper dựa trên code (Python, Scrapy)	Thấp (cần viết code)	Không có sẵn	Cao (hỏng khi site thay đổi)	Cao nếu được bảo trì
Thunderbit (powered by AI)	Rất cao	Có sẵn tính năng giảm thiểu ở cấp trường dữ liệu	Thấp (AI thích ứng với thay đổi trang)	Cao
API chính thức	Trung bình	Cao nhất (truy cập có cấu trúc, được cấp phép)	Thấp	Cao nhất

Đối với người dùng kinh doanh không có đội dev, Thunderbit là con đường nhanh nhất. Với các website có API chính thức (như Product Advertising API của Amazon), API luôn là lựa chọn an toàn nhất — nhưng thường có giới hạn về khối lượng dữ liệu và các trường dữ liệu.

Bước 4: Cấu hình scraper để tuân thủ

Trong Thunderbit:

Truy cập trang mục tiêu của bạn (ví dụ: trang danh sách sản phẩm Amazon).
Bấm biểu tượng Thunderbit trên thanh công cụ Chrome và chọn “AI Suggest Fields”. AI sẽ quét trang và gợi ý các cột như “Tên sản phẩm,” “Giá,” “Đánh giá,” và “Tình trạng còn hàng.”
Xóa bất kỳ trường nào bạn không cần. Nếu AI gợi ý “Tên người bán” hoặc “Email người bán” trong khi bạn chỉ cần dữ liệu giá, hãy xóa các cột đó. Đây chính là giảm thiểu dữ liệu trong thực tế.
Dùng Field AI Prompt để thêm hướng dẫn như “loại trừ định danh cá nhân” hoặc “chỉ trích xuất dữ liệu giá công khai.”
Chọn Cloud Scraping cho website ecommerce công khai (nhanh hơn, không cần đăng nhập) hoặc Browser Scraping cho site yêu cầu xác thực.
Trước khi bấm “Scrape,” kiểm tra robots.txt có cấm scraping cho trường hợp sử dụng của bạn không. Bạn có thể kiểm tra bằng cách mở [domain]/robots.txt trong trình duyệt.

Lúc này bạn sẽ thấy bản xem trước bảng chỉ có các trường đã cấu hình — không có dữ liệu cá nhân thừa, không có metadata không cần thiết.

Bước 5: Xuất, lưu trữ và quản lý dữ liệu có trách nhiệm

Sau khi scrape, hãy xuất dữ liệu sang Excel, Google Sheets, Airtable hoặc Notion — Thunderbit hỗ trợ tất cả với chức năng xuất miễn phí.

Sau đó:

Đặt thời hạn lưu giữ. Đừng lưu dữ liệu scrape mãi mãi. Nếu bạn chỉ theo dõi giá hàng tuần, có lẽ dữ liệu thô của tháng trước không còn cần thiết.
Nếu đã thu thập dữ liệu cá nhân (ví dụ cho lead generation), hãy ghi lại cơ sở pháp lý, công bố thông báo minh bạch theo Điều 14, và thiết lập quy trình xử lý yêu cầu opt-out và xóa dữ liệu.
Tự động hóa lịch xóa khi có thể. Scheduled Scraper của Thunderbit có thể tự động hóa các lần scrape lặp lại theo chu kỳ đã đặt, đồng thời giữ nguyên cấu hình ở cấp trường dữ liệu, để mỗi lần chạy vẫn nằm trong tham số tuân thủ của bạn.

Mẹo để vẫn tuân thủ khi scraping ở châu Âu

Một vài thực hành tôi rút ra được từ việc nghiên cứu chủ đề này và trò chuyện với các đội ngũ coi trọng tuân thủ:

Luôn xem ToS trước khi scrape một website mới. Mất hai phút nhưng có thể giúp bạn tránh hàng tháng rắc rối pháp lý.
Dùng API khi có thể. Chúng có cấu trúc, được cấp phép và là lựa chọn an toàn nhất. Scraping nên là phương án dự phòng, không phải mặc định.
Thực hiện DPIA cho mọi dự án liên quan đến dữ liệu cá nhân ở quy mô lớn. CNIL nói rằng bộ dữ liệu huấn luyện AI có thể tạo rủi ro cao, và DPIA là bằng chứng cho trách nhiệm giải trình của bạn. Ngay cả với dự án nhỏ hơn, việc ghi chép phân tích của bạn cũng rất thông minh.
Giữ log scraping. Ghi lại bạn đã scrape gì, khi nào, từ đâu, cơ sở pháp lý là gì và thời hạn lưu giữ ra sao. Nếu một DPA từng hỏi, bạn sẽ mừng vì mình có nó.
Theo dõi cập nhật quy định. Hướng dẫn của DPA thay đổi rất nhanh — CNIL đã công bố các tài liệu AI scraping mới vào tháng 1 năm 2026, và EDPB được kỳ vọng sẽ tiếp tục đưa ra thêm ý kiến. Quy định hôm nay có thể siết chặt vào ngày mai.
Đừng scrape từ các nguồn bị hạn chế hoặc nhạy cảm. Danh sách loại trừ bắt buộc của CNIL bao gồm diễn đàn sức khỏe, website chủ yếu dành cho trẻ vị thành niên, website khiêu dâm, site phả hệ và các site dữ liệu cá nhân có cấu trúc cao. Nếu bạn đang xây dựng một dự án scraping, hãy duy trì danh sách chặn mặc định.
Lưu lượng tự động hóa là vấn đề vận hành rất lớn. Akamai báo cáo rằng bot chiếm 42% tổng lưu lượng web năm 2024, và Thales/Imperva phát hiện lưu lượng bot tự động lần đầu tiên vượt lưu lượng người dùng, đạt 51% vào năm 2024. Cơ quan quản lý ngày càng xem hành vi bot, tần suất và kỹ thuật né tránh là bằng chứng cho rủi ro và tính không công bằng. Hành xử như một scraper có trách nhiệm — xác định user agent, giới hạn tần suất, tôn trọng tín hiệu phản đối — không chỉ là lịch sự; nó còn có ý nghĩa pháp lý.

Kết luận

Web scraping không phải là bất hợp pháp ở châu Âu. Nhưng nó được quản lý chặt — đặc biệt khi có liên quan đến dữ liệu cá nhân.

Kết quả pháp lý phụ thuộc vào bạn scrape gì (dữ liệu cá nhân hay không), bạn scrape như thế nào (ToS, robots.txt, giới hạn tần suất, giảm thiểu ở cấp trường dữ liệu), và vì sao (mục đích và cơ sở pháp lý đã được ghi chép). Hồ sơ thực thi rất rõ: scrape hàng loạt, không chọn lọc dữ liệu cá nhân mà không có bất kỳ cơ sở pháp lý nào là nơi doanh nghiệp phải đối mặt với các khoản phạt bảy, thậm chí tám chữ số. Ngược lại, scraping có mục tiêu, tương xứng đối với dữ liệu công khai không phải dữ liệu cá nhân — khi đã có biện pháp bảo vệ — thuộc một nhóm rủi ro rất khác.

Khung thực hành:

Dùng checklist quyết định trước mỗi dự án scraping.
Áp dụng các biện pháp bảo vệ do DPA khuyến nghị (minh bạch, giảm thiểu, giới hạn lưu giữ, cơ chế từ chối).
Chọn công cụ hỗ trợ tuân thủ ngay từ thiết kế. Tính năng chọn trường bằng AI, trích xuất có cấu trúc và xuất miễn phí sang Google Sheets, Excel, Airtable và Notion của Thunderbit giúp việc chỉ thu thập dữ liệu bạn cần trở nên đơn giản — không hơn, không kém.
Ghi chép mọi thứ. Bài kiểm tra cân bằng, danh sách nguồn, lịch lưu giữ, DPIA. Nếu cơ quan quản lý hỏi, hồ sơ của bạn là lá chắn bảo vệ.

Lưu ý bắt buộc: bài viết này chỉ mang tính thông tin, không phải tư vấn pháp lý. Với các tình huống rủi ro cao liên quan đến dữ liệu cá nhân ở quy mô lớn, hãy tham khảo luật sư chuyên về quyền riêng tư có đủ năng lực. Quy định đang thay đổi, và cái giá của việc làm sai là có thật.

Bạn muốn tự thử web scraping có tuân thủ và có mục tiêu? Gói miễn phí của Thunderbit cho phép bạn thử trích xuất có cấu trúc ở quy mô nhỏ — xác định trường dữ liệu, chỉ scrape những gì bạn cần, và xuất chỉ trong vài cú nhấp chuột. Bạn cũng có thể xem kênh YouTube của chúng tôi để xem hướng dẫn từng bước.

Dùng thử AI Web Scraper để trích xuất dữ liệu tuân thủ Get Started Free

Câu hỏi thường gặp

1. Web scraping có hợp pháp ở châu Âu nếu dữ liệu là công khai không?

Việc dữ liệu công khai không có nghĩa là được miễn trừ khỏi GDPR nếu nó chứa thông tin cá nhân. Như DPA Hà Lan đã nói, “công khai không tự động có nghĩa là được phép scrape.” Dữ liệu công khai không phải dữ liệu cá nhân (giá sản phẩm, SKU) thường rủi ro thấp hơn, nhưng bạn vẫn cần kiểm tra Chỉ thị Cơ sở dữ liệu và Điều khoản dịch vụ của website.

2. Tôi có thể scrape email và số điện thoại từ website châu Âu không?

Email và số điện thoại là dữ liệu cá nhân theo GDPR. Bạn cần một cơ sở pháp lý — thường là lợi ích hợp pháp với bài kiểm tra cân bằng đã được ghi chép — và bạn phải thông báo cho từng cá nhân theo Điều 14. CNIL đã phạt KASPR €240.000 vào năm 2024 vì scrape dữ liệu liên hệ LinkedIn mà không có đủ minh bạch hoặc cơ sở pháp lý, nên đây là lĩnh vực đang được thực thi mạnh.

3. Khoản phạt lớn nhất cho web scraping bất hợp pháp ở châu Âu là bao nhiêu?

DPA Hà Lan đã phạt Clearview AI €30,5 triệu vào năm 2024 vì thu thập dữ liệu nhận diện khuôn mặt bất hợp pháp từ web công khai. Nhiều DPA EU khác cũng phạt Clearview €20 triệu mỗi cơ quan. Tổng tiền phạt liên quan đến scraping tại EU/EEA từ 2022–2026 vượt €95 triệu.

4. Tôn trọng robots.txt có làm web scraping hợp pháp ở châu Âu không?

Tôn trọng robots.txt là một thực hành tốt và phù hợp với biện pháp bảo vệ bắt buộc của CNIL, nhưng điều đó không tự động đảm bảo hợp pháp. Bạn vẫn cần tuân thủ GDPR (nếu có dữ liệu cá nhân), Chỉ thị Cơ sở dữ liệu và Điều khoản dịch vụ của website. Hãy xem việc tuân thủ robots.txt là một lớp trong khung tuân thủ nhiều lớp.

5. Luật web scraping ở châu Âu khác Mỹ như thế nào?

EU nghiêm ngặt hơn rất nhiều. GDPR áp dụng cho mọi dữ liệu cá nhân — kể cả dữ liệu công khai — và Chỉ thị Cơ sở dữ liệu bảo vệ mạnh mẽ các bộ dữ liệu có tổ chức. Mỹ không có luật liên bang tương đương với hai luật này; sau hiQ v. LinkedIn, việc scrape dữ liệu công khai nhìn chung được phép ở Mỹ. UK sau Brexit nằm ở giữa, với UK GDPR và quyền cơ sở dữ liệu được giữ lại gần như mô phỏng quy định EU nhưng chịu thực thi bởi ICO. Với doanh nghiệp xuyên biên giới, quy tắc của EU đặt ra ngưỡng cao nhất — và nếu bạn scrape dữ liệu về cư dân EU, những quy tắc đó vẫn áp dụng bất kể công ty bạn đặt ở đâu.

Tìm hiểu thêm

Trích xuất dữ liệu bằng AI

Dễ dàng chuyển dữ liệu sang Google Sheets, Airtable hoặc Notion

Chrome Store Rating

PRODUCT HUNT#1 Product of the Week