Thu thập dữ liệu web có hợp pháp ở Mỹ không? Luật thực sự nói gì

Vài tuần trước, một đồng nghiệp trong đội sales hỏi tôi một câu mà tôi đã nghe đến phát chán: "Mình có thể thu thập lead từ danh bạ doanh nghiệp công khai này không, hay sẽ bị kiện?" Anh ấy tìm thấy cả một kho dữ liệu khách hàng tiềm năng nằm sẵn trên web mở — không cần đăng nhập, không có tường phí — nhưng chỉ cần lên Google vài phút là đã tin chắc mình có thể bị còng tay.

Kiểu lo lắng đó xuất hiện ở khắp nơi. Lưu lượng do bot tự động hiện nay chiếm khoảng 51% tổng lưu lượng web, thị trường phần mềm thu thập dữ liệu web được dự báo tăng từ khoảng 1,08 tỷ USD năm 2025 lên 3,59 tỷ USD vào năm 2031, thế nhưng phần lớn hướng dẫn pháp lý trên mạng hoặc đã lỗi thời, hoặc đơn giản hóa quá mức, hoặc sai hoàn toàn. Vụ hiQ kiện LinkedIn năm 2022 ư? Gần như bài nào cũng xem đó như phán quyết của Tòa án Tối cao rằng "mọi hoạt động thu thập dữ liệu đều hợp pháp." (Spoiler: không phải, và cũng chưa từng là vậy.)

Trong khi đó, những vụ việc lớn mới trong giai đoạn 2024 và 2025 — liên quan đến X (trước đây là Twitter), Meta, Reddit, Google và các công ty AI — đang thay đổi luật chơi theo thời gian thực, nhưng hầu như chẳng ai viết về chúng. Hướng dẫn này sẽ giải thích luật Mỹ thực sự nói gì về thu thập dữ liệu web trong năm 2026, tách huyền thoại khỏi thực tế, và đưa bạn một khung thực hành để tự đánh giá việc gì làm được, việc gì không.

ig_01ef7eecb01f4f920169f063829a4481918da7ee0e1b3f672e_compressed.webp

Thu thập dữ liệu web là gì? Vì sao doanh nghiệp quan tâm?

Thu thập dữ liệu web là việc dùng phần mềm tự động để lấy thông tin từ các website và sắp xếp chúng thành dữ liệu có cấu trúc — như bảng tính, cơ sở dữ liệu hoặc hồ sơ CRM.

Cụ thể hơn, một công cụ thu thập sẽ truy cập các trang web, đọc HTML nền bên dưới, rồi kéo ra những điểm dữ liệu cụ thể — giá, tên, địa chỉ, thông số sản phẩm, bất cứ thứ gì bạn cần — thành các hàng và cột gọn gàng. Có thể hiểu nó như thuê người chép thông tin từ một website sang Excel, chỉ khác là bot làm trong vài giây thay vì hàng giờ.

Thu thập dữ liệu web KHÔNG phải là hack. Nó truy cập cùng một thông tin mà bất kỳ người truy cập nào cũng có thể nhìn thấy trên trình duyệt của mình.

Và nó cũng không phải mánh lới riêng của dân lập trình. Công cụ tìm kiếm, website so sánh giá, nền tảng bất động sản, dashboard nghiên cứu thị trường và các công cụ dùng AI đều dựa vào web crawling và thu thập dữ liệu để hoạt động. Nếu bạn từng dùng Google, xem một trang tổng hợp chuyến bay, hoặc lướt Zillow, thì bạn đã hưởng lợi từ thu thập dữ liệu rồi đấy.

Những trường hợp sử dụng phổ biến nhất mà tôi thường gặp:

Tạo lead: Trích xuất tên công ty, website, chức danh hoặc thông tin liên hệ công khai từ danh bạ doanh nghiệp.
Theo dõi giá đối thủ: Đội ecommerce theo dõi giá SKU, tình trạng còn hàng và thông tin vận chuyển của đối thủ.
Phân tích bất động sản: Tổng hợp danh sách bất động sản công khai, giá và xu hướng thị trường.
Nghiên cứu sản phẩm: Lấy thông số, đánh giá, tình trạng còn hàng và dữ liệu danh mục từ các trang bán lẻ.
Tình báo thị trường: Theo dõi tin tuyển dụng, cửa hàng mới mở, tín hiệu tin tức hoặc dữ liệu tài chính công khai.

Bản thân kỹ thuật này là trung tính. Phân tích pháp lý sẽ phụ thuộc vào cách bạn truy cập dữ liệu và việc bạn làm gì với nó sau đó.

Thu thập dữ liệu web ở Mỹ có hợp pháp không? Câu trả lời ngắn gọn

Không có luật liên bang nào của Mỹ cấm thu thập dữ liệu web một cách tuyệt đối. Việc thu thập dữ liệu công khai nhìn chung là được phép.

Nhưng — và đây là một chữ nhưng rất lớn — tính hợp pháp còn phụ thuộc vào vài yếu tố: loại dữ liệu, cách bạn truy cập, việc bạn có chấp nhận điều khoản dịch vụ nào hay không, dữ liệu có chứa thông tin cá nhân không, và bạn định làm gì với dữ liệu đó.

Nguồn gây nhầm lẫn lớn nhất trên các diễn đàn, thread Reddit, thậm chí cả blog pháp lý? Mọi người thường đánh đồng "bất hợp pháp" với "vi phạm điều khoản dịch vụ của website." Đây là hai chuyện hoàn toàn khác nhau. Vi phạm quy định của website có thể khiến IP của bạn bị chặn hoặc tài khoản bị khóa. Vi phạm luật liên bang có thể dẫn đến bị kiện hoặc, trong trường hợp hiếm, bị truy tố hình sự. Phần lớn hậu quả của việc thu thập dữ liệu đều nằm trong nhóm dân sự.

Phần còn lại của bài này sẽ bóc tách các đạo luật quan trọng, các vụ án kinh điển (kể cả những vụ năm 2024 và 2025 mà hầu như chẳng ai nhắc tới), và một khung ra quyết định thực tế bạn có thể dùng ngay.

Ba kiểu "bất hợp pháp": hình sự, dân sự và vi phạm ToS

Đến lúc làm rõ một hiểu lầm lớn nhất về luật thu thập dữ liệu web. Khi ai đó hỏi "thu thập dữ liệu web có bất hợp pháp không?", họ thường đang gom chung ba nhóm rủi ro hoàn toàn khác nhau. Tách chúng ra sẽ làm thay đổi cả cuộc thảo luận.

ig_01ef7eecb01f4f920169f064039ff881918c7bf5b1db31fa7f_compressed.webp

Loại trách nhiệm	Điều gì kích hoạt	Hậu quả có thể xảy ra	Mức độ nghiêm trọng
Hình sự (CFAA)	Truy cập dữ liệu sau các rào cản xác thực mà không được phép, gian lận, lạm dụng thông tin đăng nhập	Truy tố liên bang, phạt tiền, tù giam	🔴 Nghiêm trọng — nhưng cực kỳ hiếm với hoạt động thu thập dữ liệu doanh nghiệp thông thường
Vụ kiện dân sự	Vi phạm bản quyền, xâm phạm động sản, vi phạm hợp đồng, chiếm đoạt bí mật thương mại, vi phạm quyền riêng tư	Bồi thường tiền, lệnh cấm, buộc xóa dữ liệu	🟡 Đáng kể
Vi phạm ToS	Vi phạm điều khoản dịch vụ dạng browsewrap hoặc clickwrap	Khóa tài khoản, chặn IP, thư yêu cầu chấm dứt, có thể bị kiện dân sự	🟢 Thấp đến trung bình

Chính sách truy tố của Bộ Tư pháp trong năm 2022 về CFAA nêu rõ rằng những vi phạm điều khoản dịch vụ thông thường — như tạo tài khoản giả hoặc vi phạm quy tắc website — tự nó là chưa đủ để cấu thành truy tố hình sự liên bang. Đây là điểm rất quan trọng.

Kết luận thực tế: nếu bạn là đội sales đang thu thập danh sách doanh nghiệp công khai hoặc đội ecommerce đang theo dõi giá đối thủ, gần như chắc chắn bạn đang đối mặt với rủi ro dân sự, chứ không phải nguy cơ hình sự. Điều đó không có nghĩa là bạn có thể bỏ qua quy định, nhưng ít nhất nên điều chỉnh lại mức độ lo lắng của mình.

Những đạo luật quan trọng của Mỹ áp dụng cho thu thập dữ liệu web

Có bốn trụ cột pháp lý giao nhau với thu thập dữ liệu web ở Mỹ, và mỗi trụ cột xử lý một phần khác nhau của bài toán.

Đạo luật CFAA (Computer Fraud and Abuse Act)

Đạo luật CFAA (18 U.S.C. § 1030) ban đầu được viết để truy tố hành vi hack máy tính. Theo thời gian, nó trở thành đạo luật được viện dẫn nhiều nhất trong các vụ kiện thu thập dữ liệu, thường dựa trên lập luận rằng công cụ thu thập đã truy cập website "không được phép."

Rồi đến vụ Van Buren kiện Hoa Kỳ. Tòa án Tối cao phán quyết rằng một người chỉ "vượt quá quyền truy cập được phép" theo CFAA khi họ truy cập vào các khu vực của máy tính — tệp, thư mục, cơ sở dữ liệu — vốn bị cấm đối với họ. Chỉ đơn giản dùng sai thông tin mà bạn vốn được phép xem thì không tính.

Hệ quả đối với thu thập dữ liệu:

Rủi ro CFAA thấp hơn: Các trang web công khai mà bất kỳ ai cũng xem được mà không cần đăng nhập. Không có cổng chặn thì không có vấn đề "truy cập trái phép".
Rủi ro CFAA cao hơn: Dữ liệu nằm sau lớp đăng nhập, tường phí, token truy cập, thao tác phiên hoặc sau khi quyền truy cập đã bị thu hồi.

Vụ hiQ kiện LinkedIn (sẽ phân tích kỹ hơn bên dưới) đã củng cố điều này đối với dữ liệu công khai. Nhưng CFAA chỉ là một mảnh của bức tranh.

Luật bản quyền và DMCA

Luật bản quyền Mỹ bảo vệ biểu đạt sáng tạo nguyên gốc — bài viết, ảnh, video, mô tả sản phẩm mang tính sáng tạo — nhưng không bảo vệ dữ kiện thô. Phán quyết Feist của Tòa án Tối cao là án lệ kinh điển ở đây: các dữ kiện như tên, địa chỉ và số điện thoại không thể được bảo hộ bản quyền, bất kể công sức tổng hợp lớn đến đâu.

Mức độ rủi ro đối với dữ liệu đã thu thập:

Bạn đang thu thập gì	Rủi ro bản quyền	Vì sao
Giá, tên sản phẩm, địa chỉ, ngày tháng, thông số	Thấp hơn	Đây là dữ kiện
Toàn bộ bài viết, ảnh, video, bài đánh giá sáng tạo	Cao hơn	Đây là tác phẩm biểu đạt
Cơ sở dữ liệu được tuyển chọn, bảng xếp hạng, phân loại biên tập	Trung bình đến cao	Cách chọn lọc và sắp xếp có thể được bảo hộ
Nội dung có tường phí hoặc được bảo vệ DRM	Cao	Vừa có vấn đề bản quyền vừa có vấn đề kiểm soát truy cập

Điều khoản chống lách của DMCA (17 U.S.C. § 1201) bổ sung thêm một lớp rủi ro: việc vượt qua biện pháp bảo vệ kỹ thuật (tường phí, DRM, một số hệ thống chống bot) để truy cập nội dung có bản quyền có thể phát sinh trách nhiệm ngay cả khi bạn không hề sao chép nội dung đó. Điều này đang được thử thách mạnh trong các vụ năm 2025–2026, gồm Google kiện SerpApi, nơi Google cáo buộc vi phạm DMCA vì vượt qua hệ thống chống bot SearchGuard của họ.

Sử dụng hợp lý (fair use) cũng rất quan trọng — việc dùng theo hướng biến đổi (phân tích, tổng hợp, hoặc xây dựng trên dữ liệu thay vì chỉ đăng lại) nhìn chung an toàn hơn so với việc sao chép và đăng lại nội dung của người khác.

Luật hợp đồng: Điều khoản dịch vụ (Browsewrap vs. Clickwrap)

Nhiều website có ngôn ngữ chống thu thập dữ liệu trong điều khoản dịch vụ của họ — nhưng khả năng thực thi phụ thuộc hoàn toàn vào cách bạn gặp các điều khoản đó.

Loại hợp đồng	Khả năng thực thi	Điều này có nghĩa gì với công cụ thu thập
Clickwrap (bạn bấm "Tôi đồng ý")	Mạnh	Tòa án thường xuyên thực thi loại này. Điều khoản chống thu thập có thể hỗ trợ yêu cầu dân sự.
Sign-in wrap (thông báo gần trang đăng nhập)	Phụ thuộc tình tiết	Phụ thuộc mức độ hiển thị rõ ràng của thông báo.
Browsewrap (liên kết ở chân trang)	Yếu hơn	Tòa án thường hoài nghi khi người dùng không có thông báo thực sự.
Điều khoản tài khoản/API	Mạnh hơn	Thu thập khi đã đăng nhập hoặc lạm dụng API có rủi ro cao hơn nhiều.

Trong vụ Meta kiện Bright Data (2024), tòa nhận định điều khoản của Meta không bao phủ việc thu thập dữ liệu công khai khi đã đăng xuất theo cách Meta lập luận — Bright Data không bị chứng minh là đã dùng tài khoản đăng nhập cho hoạt động thu thập công khai đang bị tranh chấp. Đây là một khác biệt rất đáng kể.

Lời khuyên thực tế: nếu bạn chưa từng đăng nhập, chưa từng bấm "Tôi đồng ý", và chỉ thu thập các trang công khai, thì các ràng buộc kiểu browsewrap sẽ khó được website thực thi đối với bạn hơn. Nhưng vẫn nên kiểm tra ToS trước khi thu thập, nhất là nếu bạn đã tạo tài khoản.

Luật riêng tư cấp bang ở Mỹ (CCPA và nhiều luật khác)

Nếu dữ liệu bạn thu thập có chứa thông tin cá nhân — tên, email, số điện thoại, dữ liệu vị trí — thì luật quyền riêng tư cấp bang có thể áp dụng. Và bức tranh này đang mở rộng rất nhanh. IAPP ghi nhận 19 luật riêng tư toàn diện cấp bang đã được ban hành tính đến giữa năm 2025, và MultiState cho biết đã có 20 bang có luật riêng tư toàn diện có hiệu lực trong năm 2026.

Phần lớn các luật này đều có ngoại lệ cho thông tin cá nhân "được công khai", nhưng định nghĩa khác nhau. Và việc sử dụng sau đó — bán, chia sẻ, hoặc lập hồ sơ với dữ liệu đó — vẫn có thể phát sinh nghĩa vụ ngay cả khi việc thu thập ban đầu được miễn trừ.

Luật bang	Có hiệu lực	Có áp dụng với PII đã thu thập không?	Yêu cầu quyền từ chối	Mức phạt
CCPA/CPRA (California)	2020/2023	Có	Quyền từ chối bán/chia sẻ; công nhận GPC	2.663–7.988 USD/vi phạm (điều chỉnh năm 2025)
CPA (Colorado)	2023	Có	Tùy chọn từ chối toàn cầu/GPC từ tháng 7 năm 2024	Phạt dân sự theo khung hành vi thương mại gian dối
CTDPA (Connecticut)	2023	Có	OOPS/GPC từ tháng 1 năm 2025	Tối đa 5.000 USD/vi phạm cố ý
VCDPA (Virginia)	2023	Có	Quyền từ chối	Tối đa 7.500 USD/vi phạm
TDPSA (Texas)	2024	Có	Tùy chọn từ chối toàn cầu từ tháng 1 năm 2025	Tối đa 7.500 USD/vi phạm
+ 8 luật nữa được ban hành đến năm 2026	Khác nhau	Khác nhau	Khác nhau	Khác nhau

Các bang khác đã ban hành luật gồm Utah, Oregon, Montana, Delaware, Iowa, Nebraska, New Hampshire, New Jersey, Tennessee, Minnesota, Maryland, Indiana, Kentucky và Rhode Island. Alabama đã ban hành một luật có hiệu lực từ ngày 1 tháng 5 năm 2027.

Với người dùng doanh nghiệp thu thập giá sản phẩm, danh bạ doanh nghiệp hoặc dữ liệu thị trường — tức dữ liệu phi-PII, mang tính факт — rủi ro quyền riêng tư thấp hơn đáng kể. Các công cụ như Thunderbit tập trung vào việc trích xuất có cấu trúc từ các trang công khai (dữ liệu sản phẩm, danh bạ doanh nghiệp, danh sách bất động sản), nên khớp với nhóm thu thập có rủi ro thấp nhất.

Các vụ án web scraping quan trọng: dòng thời gian từ 2000 đến 2026

Đây là chỗ mà tôi nghĩ hầu hết hướng dẫn về chủ đề này còn thiếu. Gần như mọi bài viết đều dừng ở hiQ kiện LinkedIn (2022) và bỏ qua các phán quyết đang thực sự định hình luật thu thập dữ liệu hiện nay. Dưới đây là toàn bộ dòng thời gian:

Vụ án	Năm	Phán quyết chính	Tác động đến công cụ thu thập
eBay kiện Bidder's Edge	2000	Lệnh cấm sơ bộ theo lý thuyết xâm phạm động sản; tải của crawler lên máy chủ là yếu tố quan trọng	⚠️ Thu thập khối lượng lớn gây tải máy chủ có thể tạo ra trách nhiệm dân sự
Facebook kiện Power Ventures	2016	Trách nhiệm CFAA sau khi bị yêu cầu chấm dứt mà vẫn tiếp tục truy cập bằng hệ thống của Facebook	⚠️ Thư yêu cầu chấm dứt + truy cập đã xác thực / có cổng chặn là rủi ro cao
Van Buren kiện US	2021	"Vượt quá quyền truy cập được phép" theo CFAA đòi hỏi truy cập vào khu vực máy tính ngoài giới hạn	✅ Thu hẹp đáng kể phạm vi CFAA
hiQ kiện LinkedIn	2022	Truy cập dữ liệu công khai không vi phạm CFAA (lệnh cấm sơ bộ, sau đó dàn xếp)	✅ Dữ liệu công khai ≠ "truy cập trái phép" — nhưng chưa phải phán quyết cuối cùng
Meta kiện Bright Data	2024	Bright Data thắng phán quyết tóm tắt về lý thuyết hợp đồng của Meta đối với việc thu thập công khai khi đã đăng xuất	✅ Điều khoản có thể không ràng buộc việc thu thập khi chưa đăng nhập nếu chưa có sự đồng ý
X Corp. kiện Bright Data	2024	Bác nhiều yêu cầu vào tháng 5; lệnh tháng 11 từ chối các yêu cầu dựa trên thu thập/bán dữ liệu	✅ Yêu cầu về sao chép dữ liệu công khai bị suy yếu
Compulife kiện Newman/Rutstein	2024-2025	Trách nhiệm bí mật thương mại đối với việc trích xuất hàng loạt dữ liệu báo giá bảo hiểm; Tòa án Tối cao từ chối xét đơn tháng 2 năm 2025	⚠️ Dữ liệu nhìn có vẻ công khai vẫn có thể là cơ sở dữ liệu được bảo hộ
Reddit kiện Perplexity/SerpApi/Oxylabs/AWMProxy	2025-2026	Cáo buộc thu thập gián tiếp quy mô công nghiệp thông qua kết quả Google	⚠️ Các vụ thời AI nhắm vào chuỗi cung ứng dữ liệu
Google kiện SerpApi	2025-2026	Khiếu nại DMCA §1201 về cáo buộc vượt qua hệ thống chống bot	⚠️ Kiểm tra việc hệ thống chống bot có được xem là kiểm soát truy cập theo DMCA hay không

Xu hướng rất rõ: tòa án ngày càng bảo vệ việc truy cập dữ liệu công khai theo CFAA, nhưng các yêu cầu về bản quyền, hợp đồng, quyền riêng tư, bí mật thương mại và hạ tầng vẫn là những rủi ro độc lập đầy đủ. Và làn sóng huấn luyện AI đang tạo ra những câu hỏi pháp lý hoàn toàn mới.

Làm rõ: hiQ kiện LinkedIn thực sự đã quyết định điều gì?

Đây là vụ bị hiểu sai nhiều nhất trong toàn bộ luật thu thập dữ liệu web. Tôi đã thấy nó được trích dẫn trong bài blog, thread Reddit, thậm chí các bản tóm tắt pháp lý như bằng chứng rằng "thu thập dữ liệu web công khai là hợp pháp." Không đơn giản như vậy.

Điều thực sự đã xảy ra:

hiQ đã được phán gì: Tòa Phúc thẩm Khu vực số 9 giữ nguyên một lệnh cấm sơ bộ — tức lệnh tạm thời — ngăn LinkedIn chặn việc hiQ thu thập hồ sơ LinkedIn công khai. Tòa nói rằng truy cập dữ liệu công khai nhiều khả năng không vi phạm CFAA. Từ khóa ở đây: nhiều khả năng. Nguồn: hiQ Labs kiện LinkedIn, Tòa Phúc thẩm Khu vực 9.

hiQ KHÔNG xác lập điều gì:

Không có quyền tuyệt đối để thu thập bất kỳ website công khai nào
Không phải phán quyết cuối cùng về nội dung vụ việc — Tòa án Tối cao đã hủy và trả lại sau Van Buren, Tòa Khu vực 9 xác nhận lại, rồi cuối cùng vụ việc được dàn xếp vào cuối năm 2022 mà không có phán quyết cuối cùng của tòa
Thỏa thuận dàn xếp được báo cáo bao gồm 500.000 USD, một lệnh cấm, và nghĩa vụ tiêu hủy dữ liệu/phần mềm

Điều này có ý nghĩa gì với bạn: hiQ là tín hiệu tích cực cho những ai thu thập dữ liệu công khai. Nó cho thấy tòa án cảnh giác với việc các nền tảng tạo độc quyền tư nhân lên thông tin mà họ không sở hữu. Nhưng đó không phải là một bảo đảm pháp lý. Các yêu cầu khác — bản quyền, hợp đồng, quyền riêng tư, bí mật thương mại — chưa bao giờ được giải quyết dứt điểm. Sau Van Buren, bức tranh CFAA đã rõ hơn, nhưng chỉ dựa vào hiQ như một lá chắn pháp lý thì sẽ là sai lầm.

Hiểu đúng điểm này là điều phân biệt giữa quản trị rủi ro có hiểu biết và hy vọng viển vông.

Tôi có thể thu thập dữ liệu này một cách hợp pháp không? Sơ đồ quyết định thực tế

ig_01ef7eecb01f4f920169f06360a4f0819194734b5fbc60656e_compressed.webp

Tính hợp pháp của thu thập dữ liệu nghe như một "vùng xám" — tôi nghe câu đó suốt. Vì vậy, thay vì thêm lý thuyết pháp lý, đây là một khung ra quyết định bạn có thể dùng ngay. Năm câu hỏi cho bất kỳ dự án thu thập nào:

1. Dữ liệu có thể truy cập công khai không (không cần đăng nhập)?

Nếu KHÔNG → Rủi ro CFAA cao hơn. Hãy xin phép hoặc nhờ đánh giá pháp lý trước khi tiến hành.
Nếu CÓ → Sang câu 2.

2. Bạn có đang vượt qua rào cản kỹ thuật nào không (CAPTCHA, chặn IP, giới hạn tần suất, tường phí)?

Nếu CÓ → Có thể phát sinh vấn đề DMCA và CFAA. Dừng lại hoặc chuyển cho cố vấn pháp lý.
Nếu KHÔNG → Sang câu 3.

3. Bạn đã chấp nhận một ToS kiểu clickwrap có cấm thu thập dữ liệu không?

Nếu CÓ → Có rủi ro trách nhiệm hợp đồng dân sự. Cân nhắc xem dữ liệu có thể lấy từ nguồn khác không hoặc xin phép.
Nếu KHÔNG → Sang câu 4.

4. Dữ liệu có chứa thông tin cá nhân (PII) không?

Nếu CÓ → Kiểm tra CCPA và các luật quyền riêng tư cấp bang áp dụng. Đảm bảo bạn có mục đích sử dụng phù hợp và tôn trọng quyền từ chối.
Nếu KHÔNG → Sang câu 5.

5. Bạn sẽ làm gì với dữ liệu?

Tái xuất bản thương mại nội dung có bản quyền (bài viết đầy đủ, ảnh, video) → Rủi ro bản quyền.
Phân tích có tính biến đổi, nghiên cứu nội bộ hoặc sử dụng dữ liệu факт (giá, thông số, danh sách) → Nhìn chung rủi ro thấp hơn.

Nếu bạn rơi vào vùng "trang công khai, không vượt rào, không clickwrap, không PII, dữ liệu факт dùng cho phân tích nội bộ" thì bạn đang ở nhóm rủi ro thấp nhất. Đó chính là kiểu quy trình Thunderbit được thiết kế cho — trích xuất dữ liệu có cấu trúc, mang tính факт từ các trang web công khai như danh sách sản phẩm, danh bạ doanh nghiệp và dữ liệu bất động sản, rồi xuất sang Excel, Google Sheets, Airtable hoặc Notion để bạn tự phân tích.

Hãy lưu lại sơ đồ quyết định này. Nó không thay thế luật sư, nhưng sẽ giúp bạn tránh rất nhiều hoảng loạn không cần thiết.

Huấn luyện AI và thu thập dữ liệu web: biên giới pháp lý mới

ig_01ef7eecb01f4f920169f063bb1014819192c3bf906b778b39_compressed.webp

AI đã thêm một lớp phức tạp hoàn toàn mới vào luật thu thập dữ liệu. Việc thu thập dữ liệu để huấn luyện các mô hình ngôn ngữ lớn, trình tạo ảnh và các hệ thống AI khác giờ đây là chiến trường pháp lý lớn — và tòa án vẫn chưa chốt các câu hỏi cốt lõi.

Tình hình hiện tại:

| Vụ án | Trạng thái (2026) | Vấn đề chính | |---|---|---|---| | NYT kiện OpenAI/Microsoft | Đang tiếp diễn. Các yêu cầu bản quyền cốt lõi được phép tiếp tục vào tháng 4 năm 2025; tranh chấp khám phá tài liệu bao gồm hơn 20 triệu log ChatGPT. | Việc huấn luyện trên các bài báo đã thu thập có cấu thành fair use hay vi phạm bản quyền không? | | Bartz kiện Anthropic | Thẩm phán Alsup cho rằng một số mục đích huấn luyện là fair use, nhưng việc lấy nguồn vi phạm bản quyền thì không. Thỏa thuận được báo cáo: khoảng 1,5 tỷ USD. | Huấn luyện có thể là chuyển đổi, nhưng sao chép nguồn vi phạm bản quyền là một vấn đề riêng. | | Thomson Reuters kiện Ross | Tòa Delaware bác fair use đối với việc dùng headnote của Westlaw để xây dựng sản phẩm nghiên cứu pháp lý cạnh tranh. | Sản phẩm thay thế trực tiếp đối mặt rủi ro bản quyền cao hơn. | | Getty kiện Stability AI | Vụ tại Anh phần lớn nghiêng về phía Stability trong năm 2025; vụ tại Mỹ vẫn đang chờ xử lý. | Luật về huấn luyện hình ảnh vẫn chưa được chốt. |

Báo cáo AI năm 2025 của Văn phòng Bản quyền Mỹ bổ sung một sắc thái hữu ích: huấn luyện trên tập dữ liệu lớn, đa dạng thường có thể được xem là mang tính biến đổi, nhưng sao chép từ nguồn lậu và các cách sử dụng cạnh tranh trực tiếp với thị trường của chủ sở hữu bản quyền sẽ là lập luận fair use yếu hơn nhiều.

Với phần lớn người dùng doanh nghiệp đang đọc bài này, sự khác biệt khá đơn giản: thu thập dữ liệu để phân tích nội bộ hoặc vận hành doanh nghiệp của bạn (tạo lead, theo dõi giá, nghiên cứu thị trường) là một vấn đề pháp lý rất khác so với thu thập dữ liệu để huấn luyện và thương mại hóa một mô hình AI. Trường hợp đầu rủi ro bản quyền thấp hơn. Trường hợp sau mới là nơi các vụ kiện lớn đang diễn ra.

Thu thập dữ liệu có trách nhiệm như thế nào? Các thực hành tốt nhất cho đội doanh nghiệp

Đủ luật rồi. Đây là cách thực sự thu thập dữ liệu mà không tự tạo rắc rối pháp lý cho đội của bạn.

Chỉ lấy dữ liệu có sẵn công khai

Tập trung vào dữ liệu ai cũng xem được mà không cần đăng nhập — danh sách sản phẩm, danh bạ doanh nghiệp, hồ sơ công khai, trang giá. Một khi bạn đi qua lớp đăng nhập, bạn đã bước sang vùng rủi ro cao hơn.

Đừng vượt qua các rào cản kỹ thuật

Nếu website dùng CAPTCHA, chặn IP, giới hạn tần suất hoặc tường phí, đó là những tín hiệu rõ ràng. Vượt qua chúng có thể kích hoạt DMCA, CFAA hoặc các yêu cầu theo hợp đồng. Nếu dữ liệu đủ quan trọng, hãy tìm API chính thức hoặc thỏa thuận dữ liệu thay thế.

Kiểm tra điều khoản dịch vụ

Đặc biệt nếu bạn đã tạo tài khoản hoặc bấm "Tôi đồng ý." Đọc ToS để tìm các điều khoản cấm thu thập dữ liệu. Nếu điều khoản cấm thu thập và bạn đã chấp thuận, hãy cân nhắc xem dữ liệu có thể lấy từ nguồn khác không.

Giảm thiểu việc thu thập dữ liệu cá nhân

Nếu bạn đang thu thập PII (tên, email, số điện thoại), hãy bảo đảm bạn có mục đích sử dụng phù hợp theo luật quyền riêng tư cấp bang áp dụng. Thu thập dữ liệu doanh nghiệp mang tính факт — tên công ty, giá sản phẩm, thông tin danh sách — rủi ro thấp hơn nhiều so với thu thập hồ sơ người tiêu dùng cá nhân.

Tôn trọng robots.txt và giới hạn tốc độ

Robots.txt (RFC 9309) tự nó không có tính ràng buộc pháp lý, nhưng việc tôn trọng nó cho thấy thiện chí. Và đừng “đập” máy chủ của website — hãy giới hạn tốc độ yêu cầu, dùng khoảng ngắt hợp lý, và đừng gây hại cho hạ tầng.

Dùng dữ liệu để phân tích, không phải để đăng lại

Cách dùng mang tính biến đổi — phân tích, tổng hợp, nghiên cứu nội bộ, tình báo cạnh tranh — an toàn hơn nhiều so với việc sao chép và đăng lại bài viết, hình ảnh hoặc đánh giá của người khác. Nếu bạn đang xây dashboard hoặc bảng tính cho đội mình, bạn ở vị thế tốt hơn nhiều so với việc đăng lại nội dung đã thu thập lên chính website của mình.

Chọn công cụ được thiết kế cho việc thu thập tuân thủ

Đây là lúc tôi nhắc đến thứ chúng tôi xây dựng tại Thunderbit. Tiện ích Chrome AI web scraper của chúng tôi được thiết kế cho người dùng doanh nghiệp muốn trích xuất dữ liệu có cấu trúc từ các trang web công khai — danh sách sản phẩm, danh bạ doanh nghiệp, dữ liệu bất động sản, thông tin lead — mà không cần viết code hay vượt qua rào cản kỹ thuật. AI sẽ đọc trang, gợi ý các trường và cho phép bạn xuất sang Excel, Google Sheets, Airtable hoặc Notion. Nó được xây dựng cho nhánh rủi ro thấp nhất trong sơ đồ quyết định ở trên: trang công khai, dữ liệu факт, không cần vượt đăng nhập.

Dù vậy, không có công cụ nào khiến bạn miễn nhiễm với rủi ro pháp lý. Trách nhiệm về việc bạn thu thập gì và dùng nó ra sao vẫn luôn thuộc về bạn.

Ghi log và dừng khi nhận thư yêu cầu chấm dứt

Hãy ghi lại hoạt động thu thập và mục đích kinh doanh của bạn. Nếu nhận thư cease-and-desist, hãy dừng lại và tham khảo luật sư. Tiếp tục thu thập sau khi đã nhận thông báo chính thức sẽ làm hồ sơ rủi ro của bạn tăng đáng kể, đặc biệt nếu có liên quan đến hệ thống có cổng chặn.

Những điểm chính về tính hợp pháp của thu thập dữ liệu web ở Mỹ

Bản tóm tắt ngắn:

Không có luật liên bang Mỹ nào cấm thu thập dữ liệu web. Thu thập dữ liệu факт công khai nhìn chung là được phép.
Tính hợp pháp phụ thuộc vào bạn thu thập gì, bạn truy cập bằng cách nào và bạn làm gì với dữ liệu đó. Trang công khai + dữ liệu факт + phân tích nội bộ = rủi ro thấp nhất.
Phạm vi CFAA đã hẹp hơn sau Van Buren và hiQ, nhưng các yêu cầu về bản quyền, hợp đồng, quyền riêng tư và bí mật thương mại vẫn là những rủi ro độc lập còn nguyên hiệu lực.
Trách nhiệm hình sự hiếm gặp đối với hoạt động thu thập dữ liệu doanh nghiệp thông thường. Phần lớn rủi ro là dân sự — bị kiện, chứ không phải bị còng tay.
hiQ kiện LinkedIn không phải giấy phép chung cho mọi việc. Đó chỉ là lệnh cấm sơ bộ rồi sau đó được dàn xếp. Có tín hiệu tích cực, nhưng không phải bảo đảm.
Luật riêng tư cấp bang rất quan trọng khi có PII, nhưng dữ liệu không phải PII (giá, danh sách, thông số) là nhóm rủi ro thấp nhất.
Các trường hợp dùng AI để huấn luyện là biên giới pháp lý mới và chưa ổn định. Thu thập dữ liệu cho phân tích của riêng bạn là một hồ sơ rủi ro khác hẳn so với thu thập để xây mô hình AI thương mại.
Tuân theo thực hành tốt nhất — dữ liệu công khai, tôn trọng ToS, tránh PII, không vượt rào cản, sử dụng dữ liệu có trách nhiệm — sẽ giữ đội của bạn ở vùng an toàn.

Một lời miễn trừ cần thiết: bài viết này chỉ nhằm cung cấp thông tin, không phải tư vấn pháp lý. Nếu bạn đang lên kế hoạch cho một chiến dịch thu thập dữ liệu quy mô lớn hoặc xử lý dữ liệu nhạy cảm, hãy hỏi luật sư đủ năng lực. Nhưng với người quản lý sales chỉ muốn lấy lead từ danh bạ công khai, hay đội ecommerce đang theo dõi giá đối thủ thì sao? Luật pháp đang đứng về phía bạn nhiều hơn bạn nghĩ đấy.

Nếu bạn muốn xem Thunderbit giúp việc trích xuất dữ liệu công khai kiểu này trở nên đơn giản như thế nào — không code, không vượt rào, chỉ đẩy dữ liệu có cấu trúc vào quy trình của bạn — hãy xem hướng dẫn bắt đầu nhanh hoặc cài tiện ích Chrome rồi tự thử.

Câu hỏi thường gặp

1. Thu thập dữ liệu web ở Mỹ có hợp pháp vào năm 2026 không?

Có, thu thập dữ liệu web nhìn chung là hợp pháp ở Mỹ khi bạn thu thập dữ liệu có sẵn công khai. Không có luật liên bang nào cấm hoạt động này. Tuy nhiên, cách bạn thu thập, loại dữ liệu bạn lấy, và cách bạn sử dụng nó có thể tạo ra rủi ro pháp lý theo CFAA, luật bản quyền, luật hợp đồng hoặc các quy định quyền riêng tư cấp bang. Cách an toàn nhất là chỉ lấy trang công khai, tránh vượt qua rào cản kỹ thuật, giảm thiểu việc thu thập dữ liệu cá nhân và dùng dữ liệu để phân tích thay vì đăng lại trực tiếp.

2. Tôi có thể vào tù vì thu thập dữ liệu web không?

Việc truy tố hình sự vì thu thập dữ liệu web là cực kỳ hiếm và thường chỉ xảy ra khi truy cập dữ liệu sau các rào cản xác thực mà không được phép (vi phạm CFAA) hoặc có hành vi gian lận. Chính sách truy tố CFAA năm 2022 của Bộ Tư pháp nói rằng những vi phạm ToS thông thường không đủ để truy tố hình sự. Phần lớn tranh chấp thu thập dữ liệu web là dân sự — tức là bị kiện, không phải vụ án hình sự.

3. Vi phạm Điều khoản Dịch vụ của website có làm việc thu thập dữ liệu trở thành bất hợp pháp không?

Không tự động. Vi phạm ToS của website là vấn đề hợp đồng, không phải tội hình sự. Nếu bạn đã đồng ý với điều khoản clickwrap cấm thu thập dữ liệu, website có thể theo đuổi yêu cầu vi phạm hợp đồng dân sự. Nhưng các điều khoản browsewrap (được liên kết ở chân trang) thì khó thực thi hơn nhiều, nhất là nếu bạn chưa từng đăng nhập hay bấm "Tôi đồng ý." Tòa án đã tỏ ra hoài nghi với việc thực thi browsewrap thụ động trong nhiều vụ thu thập dữ liệu.

4. Thu thập dữ liệu cá nhân (email, số điện thoại) ở Mỹ có hợp pháp không?

Tùy trường hợp. Nhiều luật quyền riêng tư cấp bang của Mỹ — bao gồm CCPA, VCDPA, CPA và các luật khác — có ngoại lệ cho thông tin cá nhân được công khai, nhưng định nghĩa và nghĩa vụ sử dụng sau đó khác nhau. Thu thập dữ liệu không phải cá nhân (giá sản phẩm, danh sách doanh nghiệp, hồ sơ công khai) rủi ro thấp hơn nhiều so với thu thập hồ sơ người tiêu dùng cá nhân. Nếu bạn đang thu thập PII ở quy mô lớn, hãy kiểm tra luật bang áp dụng và bảo đảm mục đích sử dụng của bạn phù hợp.

5. hiQ kiện LinkedIn có làm mọi hoạt động thu thập dữ liệu web trở nên hợp pháp không?

Không. Phán quyết hiQ chỉ là lệnh cấm sơ bộ — một lệnh tạm thời dựa trên khả năng thắng kiện — chứ không phải quyết định cuối cùng về nội dung vụ án. Tòa Khu vực 9 nói rằng truy cập dữ liệu công khai nhiều khả năng không vi phạm CFAA, nhưng vụ việc đã được dàn xếp trong năm 2022 mà không có phán quyết cuối cùng của tòa. Nó không cấp quyền chung để thu thập bất kỳ website nào, và cũng không giải quyết các yêu cầu về bản quyền, hợp đồng, quyền riêng tư hay bí mật thương mại. Nó là tín hiệu tích cực cho người thu thập dữ liệu công khai, nhưng không phải là bảo đảm pháp lý.

Tìm hiểu thêm

Trích xuất dữ liệu bằng AI

Dễ dàng chuyển dữ liệu sang Google Sheets, Airtable hoặc Notion

Chrome Store Rating

PRODUCT HUNT#1 Product of the Week