Danh mục trực tuyến của Home Depot có hàng triệu URL sản phẩm — và cũng là một trong những hệ thống chống bot gắt gao nhất trong thương mại điện tử. Nếu bạn từng cố lấy dữ liệu giá, thông số kỹ thuật hoặc tồn kho từ HomeDepot.com mà chỉ nhận về một trang trắng hoặc thông báo khó hiểu kiểu "Oops!! Something went wrong," thì hẳn bạn đã hiểu cảm giác bực bội đó.
Trong vài tuần qua, tôi đã thử 5 công cụ scrape trên cùng một trang danh mục và một trang chi tiết sản phẩm của Home Depot, đo mọi thứ từ thời gian thiết lập đến độ đầy đủ của dữ liệu và khả năng vượt qua chống bot. Đây không phải là một bài tổng hợp tính năng sao chép từ các trang marketing. Đây là so sánh thực tế, đặt cạnh nhau, dành cho bất kỳ ai cần dữ liệu sản phẩm Home Depot đáng tin cậy — dù bạn đang theo dõi giá đối thủ, giám sát tồn kho hay xây dựng cơ sở dữ liệu sản phẩm cho hoạt động ecommerce của mình.
Vì sao việc scrape dữ liệu sản phẩm Home Depot lại quan trọng trong năm 2026
Home Depot ghi nhận doanh số , trong đó doanh số online chiếm 15,9% doanh thu ròng và tăng 8,7% so với cùng kỳ. Điều đó biến Home Depot thành một trong những chuẩn mực ecommerce lớn nhất trong ngành cải thiện nhà cửa — và là một mỏ vàng cho bất kỳ ai làm phân tích cạnh tranh.
Các bài toán kinh doanh rất rõ ràng:
- Định giá cạnh tranh: Nhà bán lẻ và sàn thương mại điện tử dùng giá hiện tại, giá khuyến mãi, nhãn giảm giá và phí vận chuyển của HD để đối chiếu với Lowe's, Menards, Walmart, Amazon và các nhà cung cấp chuyên ngành.
- Giám sát tồn kho: Nhà thầu, đơn vị bán lại và đội vận hành theo dõi tình trạng có hàng theo từng cửa hàng, nhãn "limited stock", khung thời gian giao hàng và tùy chọn nhận tại cửa hàng.
- Phân tích thiếu hụt danh mục: Đội merchandising so sánh độ sâu danh mục, độ phủ thương hiệu, điểm đánh giá và số lượng review để tìm SKU còn thiếu hoặc độ phủ nhãn riêng còn yếu.
- Nghiên cứu thị trường: Nhà phân tích lập bản đồ cấu trúc danh mục, cảm xúc từ review, thông số sản phẩm, bảo hành và tốc độ ra mắt sản phẩm mới.
- Tìm kiếm lead nhà cung cấp: Nhà cung cấp xác định thương hiệu, danh mục, dịch vụ tại cửa hàng và các cụm sản phẩm liên quan đến nhà thầu.
Thu thập thủ công ở quy mô này là cực kỳ vất vả. Một cho thấy người lao động Mỹ dành hơn 9 giờ mỗi tuần cho các tác vụ nhập dữ liệu lặp lại, khiến doanh nghiệp tốn ước tính 8.500 USD mỗi nhân viên mỗi năm. Nếu một nhà phân tích tự kiểm tra 500 SKU của Home Depot vào mỗi thứ Hai, mất 45 giây cho mỗi SKU, thì một năm sẽ tốn hơn 325 giờ — chưa tính thời gian sửa lỗi.
Bạn thực sự scrape được gì từ HomeDepot.com (loại trang và trường dữ liệu)
Hầu hết các hướng dẫn scrape đều rất chung chung. Chúng không cho bạn biết cụ thể những gì có thể lấy được trên từng loại trang của Home Depot.
Trang danh sách sản phẩm (PLP)
Đây là các trang danh mục, phòng ban, tìm kiếm và thương hiệu — điểm bắt đầu của hầu hết quy trình.
| Trường | Ví dụ |
|---|---|
| Tên sản phẩm | DEWALT 20V MAX Cordless 1/2 in. Drill/Driver Kit |
| URL trang chi tiết sản phẩm | /p/DEWALT-20V-MAX.../204279858 |
| Ảnh thumbnail | URL ảnh |
| Giá hiện tại | $99.00 |
| Giá gốc/gạch ngang | $129.00 |
| Nhãn khuyến mãi | "Tiết kiệm $30" |
| Xếp hạng sao | 4.7 |
| Số lượng review | 12.483 |
| Nhãn tình trạng | "Pickup today," "Delivery," "Limited stock" |
| Thương hiệu | DEWALT |
| Model/SKU/Internet # | Đôi khi hiển thị trong markup danh sách |
Sitemap công khai của Home Depot xác nhận phạm vi PLP ở quy mô lớn — một kiểm tra nhanh cho thấy có 45.000 URL trang danh sách sản phẩm trong một tệp sitemap.
Trang chi tiết sản phẩm (PDP)
PDP là nơi chứa dữ liệu phong phú. Bạn cần scrape trang con để đi từ danh sách đến đây.
| Trường | Ghi chú |
|---|---|
| Mô tả đầy đủ | Tổng quan sản phẩm nhiều đoạn |
| Bảng thông số | Kích thước, chất liệu, nguồn điện, nền tảng pin, màu sắc, bảo hành, chứng nhận |
| Tất cả ảnh sản phẩm | URL thư viện ảnh, đôi khi có video |
| Hỏi & Đáp | Câu hỏi, câu trả lời, ngày tháng |
| Review từng người dùng | Người đánh giá, ngày, xếp hạng, nội dung, lượt hữu ích, phản hồi |
| "Frequently bought together" | Liên kết sản phẩm liên quan |
| Tình trạng theo từng cửa hàng | Phụ thuộc vào cửa hàng/ZIP đã chọn |
| Internet #, Model #, Store SKU | Mã định danh chính |
quảng cáo hơn 5,4 triệu bản ghi với các trường gồm URL, số model, SKU, mã sản phẩm, tên sản phẩm, nhà sản xuất, giá cuối cùng, giá ban đầu, tình trạng hàng, danh mục, xếp hạng và review.
Trang danh mục, định vị cửa hàng và review
Trang danh mục/phòng ban: Cây danh mục, liên kết danh mục con, liên kết danh mục tinh chỉnh, sản phẩm nổi bật, giá trị bộ lọc/facet (thương hiệu, giá, xếp hạng, chất liệu, màu sắc).
Trang định vị cửa hàng: Một kiểm tra nhanh ở Atlanta trả về tên cửa hàng, số cửa hàng, địa chỉ, khoảng cách, số điện thoại chính, số điện thoại Rental Center, số điện thoại Pro Desk, giờ làm việc ngày thường, giờ Chủ nhật và các dịch vụ (Free Workshops, Rental Center, dịch vụ lắp đặt, giao hàng bên lề, nhận hàng tại cửa hàng).
Phần review & Q&A: Tên người đánh giá, ngày, xếp hạng sao, tiêu đề review, nội dung review, lượt hữu ích, nhãn đã xác minh mua hàng, phản hồi từ người bán/nhà sản xuất, nội dung câu hỏi, nội dung câu trả lời.
Hệ thống chống bot của Home Depot: thứ gì thực sự vượt qua được vào năm 2026
Đây là chỗ mà hầu hết hướng dẫn scrape chung chung đều vỡ trận.
Trong quá trình thử nghiệm, một request trực tiếp đến PDP của Home Depot trả về HTTP 403 Access Denied từ AkamaiGHost. Một request tới trang danh mục trả về trang lỗi có thương hiệu với nội dung "Oops!! Something went wrong. Please refresh page." Header phản hồi bao gồm _abck, bm_sz, akavpau_prod và _bman — tất cả đều phù hợp với kiểu xác thực trình duyệt của Akamai Bot Manager.
Dấu hiệu thất bại thực tế trông như sau:
- 403 Access Denied ngay ở lớp biên trước khi tải nội dung
- Trang chặn/lỗi nhìn giống Home Depot nhưng không có dữ liệu sản phẩm nào
- Thiếu phần động — giá, tồn kho hoặc mô-đun giao hàng đơn giản không hiển thị
- CAPTCHA sau nhiều request lặp lại
- Chặn theo độ tin cậy IP từ IP trung tâm dữ liệu, VPN dùng chung hoặc host đám mây
- Lệch phiên/vị trí khi giá thay đổi theo cookie ZIP/cửa hàng

Có hai cách tiếp cận vượt qua một cách đáng tin cậy:
- Proxy dân cư + hạ tầng trình duyệt được quản lý: IP dân cư hoặc di động, render đầy đủ bằng trình duyệt, xử lý CAPTCHA và retry. Đây là cách dành cho doanh nghiệp (thế mạnh của Bright Data).
- Scrape dựa trên trình duyệt trong phiên thực của người dùng: Khi một trang hoạt động trong Chrome đã đăng nhập của bạn, browser scraper sẽ đọc trang đã render bằng cookie, cửa hàng đã chọn và ngữ cảnh vị trí sẵn có. Đây là cách dành cho người dùng kinh doanh (thế mạnh của Thunderbit).
Không có công cụ nào đạt 100% thành công trên mọi trang Home Depot, mọi lúc. Câu trả lời trung thực là: những công cụ tốt nhất luôn có đường dự phòng.
Cách tôi kiểm thử: phương pháp so sánh các công cụ scrape Home Depot tốt nhất
Tôi chọn một trang danh mục Home Depot (Power Tools) và một trang chi tiết sản phẩm (một bộ khoan/vặn vít DEWALT phổ biến). Tôi scrape cả hai bằng 5 công cụ và ghi lại:
- Thời gian thiết lập: Số phút từ lúc mở công cụ đến khi có kết quả đầu tiên thành công
- Số trường trích xuất đúng: So với danh sách mục tiêu của PLP và PDP
- Thành công khi phân trang: Có lấy được trang 2, 3, v.v. không?
- Làm giàu trang con: Có tự lấy thông số PDP từ danh sách không?
- Xử lý chống bot: Có trả dữ liệu thật hay trang chặn?
- Tổng thời gian scrape: Từ lúc bắt đầu đến lúc xuất xong
Cách tôi chấm từng tiêu chí như sau:
| Tiêu chí | Tôi đo gì |
|---|---|
| Dễ sử dụng | Thời gian đến lần scrape HD thành công đầu tiên |
| Xử lý chống bot | Tỷ lệ thành công trước cơ chế bảo vệ của HD |
| Trường dữ liệu | Mức độ đầy đủ so với danh sách trường mục tiêu |
| Làm giàu trang con | Từ danh sách → PDP tự động? |
| Lập lịch | Có scrape lặp lại tích hợp sẵn không? |
| Xuất dữ liệu | CSV, Excel, Sheets, Airtable, Notion, JSON |
| Giá (mức khởi điểm) | Chi phí ở quy mô 500–5.000 SKU |
| Không cần code vs. cần code | Có phù hợp với người dùng doanh nghiệp không? |
1. Thunderbit
là một tiện ích Chrome ứng dụng AI, được xây dựng cho người dùng kinh doanh không chuyên kỹ thuật, cần dữ liệu có cấu trúc từ website — mà không cần viết code, xây quy trình hay quản lý proxy. Trên Home Depot, đây là con đường nhanh nhất từ "Tôi đang nhìn một trang" đến "Tôi có một bảng tính."
Cách Thunderbit xử lý Home Depot:
Thunderbit có hai chế độ scrape. Cloud Scraping xử lý tối đa 50 trang mỗi lần qua các máy chủ đám mây ở Mỹ/Châu Âu/Châu Á — hữu ích cho các trang danh mục công khai. Browser Scraping dùng chính phiên Chrome của bạn, giữ nguyên cửa hàng đã chọn, mã ZIP, cookie và trạng thái đăng nhập. Khi IP đám mây bị Home Depot chặn bởi Akamai, browser scraping sẽ đọc trang chính xác như cách bạn đang thấy.
Tính năng chính:
- AI Suggest Fields: Chỉ cần một nút trên PDP của Home Depot, Thunderbit sẽ đề xuất các cột như tên sản phẩm, giá, thông số, review, ảnh, tình trạng hàng, số Internet và hơn thế nữa. Không cần cấu hình bộ chọn thủ công.
- Scrape subpage: Bắt đầu từ một trang danh mục, Thunderbit sẽ tự động truy cập từng liên kết sản phẩm để bổ sung thông số, mô tả đầy đủ, số model, ảnh và tình trạng hàng. Không cần tự xây workflow.
- Lập lịch bằng ngôn ngữ tự nhiên: Đặt lịch scrape định kỳ bằng tiếng Anh đơn giản ("every Monday at 8am") cho việc theo dõi giá hoặc tồn kho liên tục.
- Xuất dữ liệu miễn phí: Google Sheets, Excel, CSV, JSON, Airtable, Notion — tất cả đều có sẵn, không bị chặn bởi paywall.
- Field AI Prompt: Gắn nhãn hoặc phân loại tùy chỉnh cho từng cột (ví dụ: "extract battery voltage from specs" hoặc "classify as cordless drill, impact driver, or combo kit").
Giá: Có gói miễn phí. Mô hình tín dụng, trong đó 1 credit = 1 dòng đầu ra. Gói trả phí bắt đầu khoảng từ ~$9/tháng khi thanh toán theo năm. Xem để biết chi tiết mới nhất.
Phù hợp nhất cho: Người dùng doanh nghiệp, đội ecommerce ops, đội sales và nhà nghiên cứu thị trường cần dữ liệu Home Depot vào spreadsheet thật nhanh.
AI Suggest Fields của Thunderbit hoạt động thế nào trên Home Depot
Đây là quy trình thực tế tôi đã dùng:

- Mở trang danh mục Home Depot trong Chrome
- Nhấp vào
- Nhấp AI Suggest Fields — Thunderbit đề xuất các cột: Product Name, Price, Rating, Review Count, Product URL, Image URL, Brand, Availability
- Nhấp Scrape để trích xuất trang danh sách
- Dùng Scrape Subpages trên cột Product URL — Thunderbit truy cập từng PDP và bổ sung thông số, mô tả đầy đủ, số model, toàn bộ ảnh, số Internet và chi tiết tình trạng hàng
- Xuất trực tiếp sang Google Sheets
Thời gian thiết lập: dưới 8 phút từ lúc nhấp extension đến lúc có bảng tính hoàn chỉnh. Không cần workflow builder, không phải bảo trì selector, không phải cấu hình proxy.
Kết quả kiểm thử của tôi trên Home Depot:
| Mục kiểm thử | Kết quả |
|---|---|
| Thời gian thiết lập | ~7 phút |
| Số trường PLP trích xuất | 9/10 trường mục tiêu |
| Làm giàu PDP | ✅ Tự động qua Scrape Subpages |
| Phân trang | ✅ Xử lý tự động |
| Thành công chống bot | ✅ Browser Scraping vượt chặn; Cloud hoạt động trên một số trang công khai |
| Ngữ cảnh cửa hàng/vị trí | ✅ Giữ nguyên qua phiên trình duyệt |
Hạn chế chính: Cloud Scraping có thể gặp chặn Akamai trên một số trang Home Depot. Cách khắc phục rất đơn giản — chuyển sang Browser Scraping, vốn dùng phiên thực của bạn. Với đa số người dùng doanh nghiệp, đây gần như không phải vấn đề vì bạn vốn đã đang xem trang đó rồi.
2. Octoparse
là ứng dụng desktop với trình dựng workflow trực quan kiểu click. Không cần code, nhưng bạn vẫn phải xây một workflow nhiều bước — nhấp thẻ sản phẩm, cấu hình vòng lặp phân trang và thiết lập điều hướng sang trang con thủ công.
Cách Octoparse xử lý Home Depot:
Octoparse dùng trích xuất trên cloud với xoay IP và các add-on tùy chọn để giải CAPTCHA. Trước các cơ chế bảo vệ của Home Depot, nó ở mức trung bình — hoạt động trên một số trang nhưng có thể bị chặn ở những trang khác nếu không nâng cấp proxy.
Tính năng chính:
- Trình dựng workflow trực quan với ghi lại thao tác nhấp
- Lập lịch cloud ở các gói trả phí
- Có sẵn xoay IP và add-on CAPTCHA
- Xuất ra CSV, Excel, JSON, kết nối database
- Mẫu tác vụ cho các kiểu website phổ biến
Giá: Có gói miễn phí với 10 tasks và 50K data export/tháng. Gói Standard khoảng 75–83 USD/tháng với cloud extraction và lập lịch. Gói Professional khoảng 99 USD/tháng với 20 cloud nodes. Add-on: proxy dân cư khoảng 3 USD/GB, giải CAPTCHA khoảng 1–1,50 USD cho mỗi 1.000 lần.
Phù hợp nhất cho: Người dùng quen thiết kế workflow trực quan và muốn kiểm soát thủ công nhiều hơn đối với logic scrape.
Điểm mạnh và hạn chế của Octoparse trên Home Depot
Kết quả kiểm thử của tôi:
| Mục kiểm thử | Kết quả |
|---|---|
| Thời gian thiết lập | ~35 phút (xây workflow + thử nghiệm) |
| Số trường PLP trích xuất | 8/10 trường mục tiêu |
| Làm giàu PDP | ⚠️ Cần cấu hình vòng lặp click-through thủ công |
| Phân trang | ⚠️ Cần thiết lập trang tiếp theo thủ công |
| Thành công chống bot | ⚠️ Hoạt động trên một số trang, bị chặn ở trang khác nếu không có add-on proxy |
| Ngữ cảnh cửa hàng/vị trí | ⚠️ Có thể làm được nhưng cần các bước workflow |
Octoparse khá ổn nếu bạn thích xây workflow và không ngại dành 30+ phút cho lần thiết lập đầu tiên. Điểm đổi lại so với Thunderbit rất rõ: nhiều kiểm soát hơn, tốn thời gian hơn và phát hiện trường tự động ít hơn.
3. Bright Data
là lựa chọn cấp doanh nghiệp. Nó kết hợp một mạng proxy khổng lồ (hơn 400 triệu IP dân cư), Web Scraper API với render trình duyệt đầy đủ, xử lý CAPTCHA và — quan trọng nhất ở đây — một dataset Home Depot dựng sẵn với .
Cách Bright Data xử lý Home Depot:
Bright Data có hạ tầng chống bot mạnh nhất trong số các công cụ ở đây. Proxy dân cư, IP di động, geotargeting, fingerprint trình duyệt và retry tự động khiến nó rất hiếm khi bị chặn. Nhưng thiết lập thì không dành cho người yếu tim.
Tính năng chính:
- Dataset Home Depot dựng sẵn (mua dữ liệu trực tiếp, không cần scrape)
- Web Scraper API với mô hình tính phí theo bản ghi thành công
- Hơn 400 triệu IP dân cư ở 195 quốc gia
- Render trình duyệt đầy đủ và giải CAPTCHA
- Giao dữ liệu tới Snowflake, S3, Google Cloud, Azure, SFTP
- Định dạng JSON, NDJSON, CSV, Parquet
Giá: Không có gói miễn phí. Web Scraper API: 3,50 USD cho mỗi 1.000 bản ghi thành công (pay-as-you-go) hoặc gói Scale 499 USD/tháng bao gồm 384.000 bản ghi. Mức đặt hàng tối thiểu cho dataset Home Depot: 50 USD. Proxy dân cư bắt đầu khoảng 4 USD/GB.
Phù hợp nhất cho: Đội dữ liệu doanh nghiệp, chương trình giám sát quy mô lớn (10.000+ SKU) và các tổ chức thích mua dataset được duy trì sẵn hơn là tự xây scraper.
Điểm mạnh và hạn chế của Bright Data trên Home Depot
Kết quả kiểm thử của tôi:
| Mục kiểm thử | Kết quả |
|---|---|
| Thời gian thiết lập | ~90 phút (cấu hình API + thiết lập schema) |
| Số trường PLP trích xuất | 10/10 trường mục tiêu (qua dataset) |
| Làm giàu PDP | ✅ Qua dataset hoặc cấu hình API tùy chỉnh |
| Phân trang | ✅ Hạ tầng xử lý |
| Thành công chống bot | ✅ Mạnh nhất — proxy dân cư + cơ chế unblocking |
| Ngữ cảnh cửa hàng/vị trí | ⚠️ Cần cấu hình geotargeting |
Nếu bạn là một nhà phân tích đơn lẻ hoặc một nhóm nhỏ, Bright Data là quá mức cần thiết. Nếu bạn đang vận hành chương trình theo dõi 50.000 SKU với đội ngũ kỹ sư dữ liệu, đây là hạ tầng đáng tin cậy nhất hiện có.
4. Apify
là một nền tảng cloud theo kiểu actor, nơi người dùng chạy các script scrape dựng sẵn hoặc tùy chỉnh ("actors") trên đám mây. Với Home Depot, bạn sẽ tìm thấy nhiều actor cộng đồng trong marketplace — nhưng chất lượng và mức độ duy trì của chúng rất khác nhau.
Cách Apify xử lý Home Depot:
Thành công của Apify phụ thuộc hoàn toàn vào actor bạn chọn. Tôi đã thử (từ 0,50 USD cho mỗi 1.000 kết quả) và một actor scrape sản phẩm. Kết quả khá lẫn lộn.
Tính năng chính:
- Marketplace lớn với nhiều actor dựng sẵn
- Phát triển actor tùy chỉnh bằng JavaScript/Python
- Scheduler tích hợp cho các lần chạy định kỳ
- Tích hợp API, CSV, JSON, Google Sheets
- Quản lý proxy và tự động hóa trình duyệt
Giá: Có gói miễn phí với 5 USD credit compute mỗi tháng. Starter 49 USD/tháng, Scale 499 USD/tháng. Giá theo từng actor khác nhau (một số miễn phí, một số thu phí theo kết quả).
Phù hợp nhất cho: Nhà phát triển muốn kiểm soát hoàn toàn logic scrape và thoải mái đánh giá, fork hoặc bảo trì actor.
Điểm mạnh và hạn chế của Apify trên Home Depot
Kết quả kiểm thử của tôi:
| Mục kiểm thử | Kết quả |
|---|---|
| Thời gian thiết lập | ~25 phút (tìm actor + cấu hình đầu vào) |
| Số trường PLP trích xuất | 6/10 trường mục tiêu (phụ thuộc actor) |
| Làm giàu PDP | ⚠️ Phụ thuộc actor — có cái hỗ trợ, có cái không |
| Phân trang | ⚠️ Phụ thuộc actor |
| Thành công chống bot | ⚠️ Biến động — một actor hoạt động, actor khác trả về trang chặn |
| Ngữ cảnh cửa hàng/vị trí | ⚠️ Cần nhập ZIP/cửa hàng nếu actor hỗ trợ |
Actor cộng đồng mà tôi thử cho dữ liệu sản phẩm chỉ lấy được các trường cơ bản nhưng thiếu thông số kỹ thuật và tình trạng hàng ở cửa hàng. Actor review hoạt động tốt cho nội dung review và xếp hạng. Rủi ro chính: actor cộng đồng có thể hỏng khi Home Depot thay đổi markup, và không có gì đảm bảo chúng được bảo trì.
5. ParseHub
là một ứng dụng desktop với trình dựng point-and-click trực quan, được thiết kế cho người mới bắt đầu. Nó render JavaScript và xử lý được một số nội dung động, nhưng lại yếu khi gặp các cơ chế bảo vệ nặng của Home Depot.
Cách ParseHub xử lý Home Depot:
ParseHub tải trang trong trình duyệt tích hợp sẵn và cho phép bạn nhấp vào các phần tử để định nghĩa quy tắc trích xuất. Trước hệ thống Akamai của Home Depot, đây là công cụ yếu nhất trong danh sách này — tôi nhận được dữ liệu một phần ở một số trang và trang chặn ở những trang khác.
Tính năng chính:
- Chọn dữ liệu bằng point-and-click trực quan
- Render JavaScript
- Chạy theo lịch ở các gói trả phí
- Xoay IP ở các gói trả phí
- Xuất CSV, JSON
- Truy cập API để lấy dữ liệu theo chương trình
Giá: Có gói miễn phí với 5 dự án, 200 trang mỗi lần chạy và giới hạn 40 phút cho mỗi lần chạy. Gói Standard bắt đầu từ 89 USD/tháng. Gói Professional ở mức 599 USD/tháng.
Phù hợp nhất cho: Người mới hoàn toàn muốn thử scrape trực quan ở quy mô nhỏ và chấp nhận tỷ lệ thành công hạn chế trên các website được bảo vệ.
Điểm mạnh và hạn chế của ParseHub trên Home Depot
Kết quả kiểm thử của tôi:
| Mục kiểm thử | Kết quả |
|---|---|
| Thời gian thiết lập | ~30 phút |
| Số trường PLP trích xuất | 5/10 trường mục tiêu (một số mô-đun động không render) |
| Làm giàu PDP | ⚠️ Cần tự theo dõi liên kết thủ công |
| Phân trang | ⚠️ Bị giới hạn số trang trên gói miễn phí |
| Thành công chống bot | ❌ Bị chặn trong 3/5 lần thử |
| Ngữ cảnh cửa hàng/vị trí | ⚠️ Khó giữ nguyên |
ParseHub khá dễ tiếp cận để học cách scrape trực quan hoạt động ra sao, nhưng riêng với Home Depot vào năm 2026, nó chưa đủ tin cậy cho giám sát production. Mức khởi điểm 89 USD/tháng cho gói trả phí cũng kém hấp dẫn hơn khi có các lựa chọn miễn phí như Thunderbit.
So sánh song song: cả 5 công cụ scrape Home Depot được thử trên cùng một trang

So sánh đầy đủ dựa trên thử nghiệm của tôi:
| Tính năng | Thunderbit | Octoparse | Bright Data | Apify | ParseHub |
|---|---|---|---|---|---|
| Thiết lập không cần code | ✅ AI 2 click | ✅ Trình dựng trực quan | ⚠️ IDE + dataset | ⚠️ Actors (bán code) | ✅ Trình dựng trực quan |
| Chống bot của Home Depot | ✅ Có tùy chọn cloud + browser | ⚠️ Trung bình | ✅ Mạng proxy | ⚠️ Tùy actor | ❌ Yếu |
| Làm giàu trang con | ✅ Tích hợp sẵn | ⚠️ Cấu hình thủ công | ⚠️ Thiết lập tùy chỉnh | ⚠️ Phụ thuộc actor | ⚠️ Cấu hình thủ công |
| Lập lịch scrape | ✅ Ngôn ngữ tự nhiên | ✅ Tích hợp sẵn | ✅ Tích hợp sẵn | ✅ Tích hợp sẵn | ✅ Gói trả phí |
| Xuất sang Sheets/Airtable/Notion | ✅ Tất cả miễn phí | ⚠️ CSV/Excel/DB | ⚠️ API/CSV | ⚠️ API/CSV/Sheets | ⚠️ CSV/JSON |
| Gói miễn phí | ✅ Có | ✅ Có giới hạn | ❌ Chỉ trả phí | ✅ Có giới hạn | ✅ Có giới hạn |
| Thời gian thiết lập (thử nghiệm của tôi) | ~7 phút | ~35 phút | ~90 phút | ~25 phút | ~30 phút |
| Trường PLP (trên 10) | 9 | 8 | 10 | 6 | 5 |
| Tỷ lệ thành công làm giàu PDP | ✅ | ⚠️ | ✅ | ⚠️ | ⚠️ |
| Phù hợp nhất cho | Người dùng doanh nghiệp, ecommerce ops | Người dùng tầm trung | Đội doanh nghiệp/kỹ thuật | Nhà phát triển | Người mới |
Người chiến thắng theo từng tiêu chí:
- Bảng tính đầu tiên nhanh nhất: Thunderbit
- Thiết lập AI không cần code tốt nhất: Thunderbit
- Kiểm soát workflow trực quan tốt nhất: Octoparse
- Hạ tầng chống bot doanh nghiệp tốt nhất: Bright Data
- Dataset Home Depot dựng sẵn tốt nhất: Bright Data
- Kiểm soát tốt nhất cho nhà phát triển: Apify
- Bản dùng thử miễn phí tốt nhất cho người mới: ParseHub (có lưu ý)
- Giám sát định kỳ tốt nhất với xuất sang Sheets/Airtable/Notion: Thunderbit
Giám sát giá và tồn kho tự động: vượt xa việc scrape một lần
Hầu hết đội ecommerce không cần một lần scrape duy nhất. Họ cần giám sát liên tục — thay đổi giá hàng tuần, trạng thái tồn kho hàng ngày, phát hiện sản phẩm mới. Dưới đây là 3 mẫu workflow có thể áp dụng.
Theo dõi giá hàng tuần cho 500 SKU
- Nhập các URL danh mục hoặc kết quả tìm kiếm của Home Depot vào Thunderbit
- Dùng AI Suggest Fields để lấy Product Name, URL, Price, Original Price, Rating, Review Count, Availability
- Dùng Scrape Subpages để lấy Internet Number, Model Number, Specs
- Xuất sang Google Sheets
- Đặt lịch bằng ngôn ngữ tự nhiên: "every Monday at 8am"
- Trong Google Sheets, thêm cột
scrape_datevà công thứcprice_deltaso sánh tuần này với tuần trước
Công thức đơn giản để phát hiện thay đổi giá:
1=current_price - XLOOKUP(product_url, previous_week_urls, previous_week_prices)
Toàn bộ thiết lập này chỉ mất khoảng 15 phút và tự chạy mỗi tuần. Hãy so với Bright Data (cần cấu hình API và đội kỹ thuật) hoặc Octoparse (cần duy trì workflow trực quan và kiểm tra selector có bị hỏng không).
Kiểm tra tồn kho hằng ngày
Với SKU ưu tiên cao ở nhiều cửa hàng Home Depot:
- Đặt trình duyệt theo ZIP/cửa hàng mục tiêu
- Scrape các trường tình trạng trên PDP (in stock, limited stock, out of stock, delivery window, pickup options)
- Kết hợp với dữ liệu store locator (tên cửa hàng, địa chỉ, số điện thoại, giờ mở cửa)
- Xuất sang bảng theo dõi với các cột: SKU, store_id, ZIP, availability, delivery_window, scrape_time
- Lên lịch chạy hàng ngày
Browser Scraping là yếu tố then chốt ở đây vì tình trạng hàng theo cửa hàng phụ thuộc vào cookie cửa hàng bạn đã chọn.
Cảnh báo sản phẩm mới trong một danh mục
- Scrape cùng một trang danh mục mỗi ngày
- Lấy Product URL, Internet Number, Product Name, Brand, Price
- So sánh Internet Number hôm nay với hôm qua
- Gắn nhãn các dòng mới là "mới thêm"
- Đẩy cảnh báo sang Sheets, Airtable, Notion hoặc Slack
Lập lịch bằng ngôn ngữ tự nhiên của Thunderbit và giúp các workflow này cực kỳ dễ duy trì. Không cron job, không script tùy chỉnh, không phải trả phí tích hợp theo tầng.
Công cụ scrape Home Depot nào phù hợp với bạn? Hướng dẫn quyết định nhanh
Sơ đồ quyết định:
💡 "Tôi không biết code và cần dữ liệu trong tuần này." → Thunderbit. Scrape AI 2 click, tiện ích Chrome, xuất miễn phí sang Sheets/Excel. Con đường nhanh nhất từ trang đến bảng tính.
💡 "Tôi quen với trình dựng workflow point-and-click và muốn kiểm soát nhiều hơn." → Octoparse (nhiều tính năng hơn, thiết lập nhiều hơn) hoặc ParseHub (đơn giản hơn nhưng yếu hơn trước cơ chế bảo vệ của HD).
💡 "Tôi cần dữ liệu quy mô doanh nghiệp ở mức 10.000+ SKU với xoay proxy." → Bright Data. Hạ tầng mạnh nhất, có dataset Home Depot dựng sẵn, nhưng cần kỹ thuật hoặc quản lý nhà cung cấp.
💡 "Tôi là developer và muốn kiểm soát hoàn toàn logic scrape." → Apify. Dựa trên actor, có thể script, marketplace lớn — nhưng hãy sẵn sàng bảo trì hoặc fork actor khi Home Depot thay đổi markup.
Hướng dẫn theo ngân sách:
| Quy mô | Phù hợp nhất | Ghi chú |
|---|---|---|
| 50–500 dòng, một lần | Thunderbit miễn phí, ParseHub miễn phí, Apify miễn phí | Chống bot vẫn có thể quyết định thành bại |
| 500 dòng mỗi tuần | Thunderbit, Octoparse Standard | Lập lịch và xuất dữ liệu rất quan trọng |
| 5.000 dòng mỗi tháng | Thunderbit trả phí, Octoparse trả phí, Apify | Làm giàu trang con làm tăng số trang cần xử lý |
| 10.000+ dòng định kỳ | Bright Data, Apify tùy chỉnh | Cần proxy, giám sát, retry và QA |
| Hàng triệu bản ghi | Dataset/API của Bright Data | Mua dữ liệu được duy trì có thể tốt hơn tự scrape |
Mẹo scrape Home Depot mà không bị chặn
Một vài khuyến nghị thực tế rút ra từ quá trình thử nghiệm của tôi:
- Bắt đầu với lô nhỏ trước khi mở rộng. Thử 10 sản phẩm, xác minh chất lượng dữ liệu rồi mới tăng quy mô.
- Dùng Browser Scraping khi trang đang hiển thị trong phiên Chrome đã đăng nhập của bạn — cách này giữ nguyên cookie, cửa hàng đã chọn và ngữ cảnh vị trí.
- Chỉ dùng Cloud Scraping cho các trang công khai khi nó trả về dữ liệu sản phẩm thật (không phải trang chặn).
- Giữ nguyên ngữ cảnh vị trí: Cửa hàng đã chọn, ZIP code và khu vực giao hàng đều ảnh hưởng đến giá và tình trạng hàng.
- Rải lịch chạy thay vì dồn hàng nghìn PDP trong một đợt.
- Theo dõi chất lượng đầu ra, không chỉ trạng thái hoàn thành. Một scraper có thể "thành công" nhưng lại trả về trang lỗi. Kiểm tra trường giá bị thiếu, HTML ngắn bất thường hoặc văn bản kiểu "Access Denied."
- Phát hiện trang chặn bằng cách xác thực rằng các trường mong đợi (giá, tên sản phẩm, thông số) thực sự có trong đầu ra.
- Với khối lượng lớn, dùng hạ tầng unblocking được quản lý hoặc proxy dân cư.
- Tôn trọng giới hạn tốc độ và tránh làm quá tải máy chủ. Scraping không phải là DDoS.
- Lưu ý pháp lý: Việc scrape dữ liệu sản phẩm công khai thường được xem xét khác với hack hoặc truy cập dữ liệu riêng tư theo án lệ ở Mỹ (xem ). Tuy vậy, vẫn cần xem Điều khoản sử dụng của Home Depot, tránh dữ liệu cá nhân/tài khoản, không vượt qua cơ chế kiểm soát truy cập và nên hỏi ý kiến luật sư khi dùng cho sản xuất thương mại.
Kết luận
Công cụ nào thắng còn tùy vào đội ngũ, mức độ thoải mái về kỹ thuật và quy mô của bạn.
Với người dùng kinh doanh không chuyên kỹ thuật cần dữ liệu Home Depot đáng tin cậy trong spreadsheet — cùng phát hiện trường bằng AI, làm giàu trang con tự động, lập lịch bằng ngôn ngữ tự nhiên và xuất miễn phí — Thunderbit là người chiến thắng rõ ràng. Công cụ này xử lý cơ chế chống bot của Home Depot qua Browser Scraping, trích xuất được nhiều trường nhất với thời gian thiết lập ít nhất, và không cần bảo trì workflow.
Với hoạt động quy mô doanh nghiệp có hỗ trợ kỹ thuật, Bright Data cung cấp hạ tầng mạnh nhất và tùy chọn dataset dựng sẵn. Với nhà phát triển muốn toàn quyền kiểm soát, Apify cho bạn sự linh hoạt theo kiểu actor. Và với người dùng thích trình dựng workflow trực quan, Octoparse đem lại khả năng kiểm soát thủ công nhiều hơn, đổi lại là thời gian thiết lập lâu hơn.
Nếu bạn muốn xem scrape Home Depot hiện đại trông như thế nào, hãy thử trên chính những trang của bạn. Bạn có thể sẽ ngạc nhiên vì lượng dữ liệu mình lấy được chỉ trong chưa đầy 10 phút.
Muốn tìm hiểu thêm về web scraping dùng AI? Hãy xem để xem hướng dẫn, hoặc đọc bài viết của chúng tôi về .
Câu hỏi thường gặp
1. Có hợp pháp để scrape dữ liệu sản phẩm Home Depot không?
Việc scrape dữ liệu sản phẩm công khai — giá, thông số, xếp hạng — nhìn chung được xem khác với việc truy cập thông tin riêng tư hoặc được bảo vệ bằng tài khoản theo luật Mỹ. Dòng án lệ hiQ v. LinkedIn phần nào hạn chế lập luận CFAA đối với dữ liệu web công khai trong một số bối cảnh. Tuy nhiên, điều đó không loại bỏ hoàn toàn rủi ro. Hãy xem Điều khoản sử dụng của Home Depot, tránh scrape dữ liệu cá nhân hoặc dữ liệu tài khoản, không làm quá tải máy chủ của họ và nên xin tư vấn pháp lý trước khi xây dựng pipeline dữ liệu thương mại.
2. Công cụ scrape Home Depot nào phù hợp nhất cho việc theo dõi giá liên tục?
Thunderbit là lựa chọn phù hợp nhất cho hầu hết đội ngũ vì nó kết hợp phát hiện trường bằng AI, lập lịch bằng ngôn ngữ tự nhiên tích hợp sẵn, làm giàu trang con và xuất miễn phí trực tiếp sang Google Sheets. Bạn có thể thiết lập một trình theo dõi giá hàng tuần cho 500 SKU chỉ trong khoảng 15 phút. Octoparse và Bright Data cũng hỗ trợ lập lịch, nhưng phức tạp hơn và tốn chi phí hơn.
3. Tôi có thể scrape dữ liệu tồn kho theo từng cửa hàng của Home Depot không?
Có, nhưng còn tùy cách tiếp cận. Tình trạng hàng theo cửa hàng xuất hiện trong các mô-đun fulfillment trên PDP và thay đổi theo cửa hàng/ZIP bạn chọn. Scrape dựa trên trình duyệt (như chế độ Browser Scraping của Thunderbit) là cách đáng tin cậy nhất vì nó đọc trang trong ngữ cảnh cửa hàng bạn đã chọn. Các công cụ cấp doanh nghiệp như Bright Data có thể làm được điều này bằng geotargeting, nhưng cần cấu hình tùy chỉnh.
4. Tôi có cần biết code để scrape Home Depot không?
Không — các công cụ như Thunderbit và ParseHub hoàn toàn không cần code. Octoparse dùng trình dựng trực quan, cần logic workflow nhưng không cần lập trình. Apify và Bright Data thiên về kỹ thuật hơn, nhất là với thiết lập tùy chỉnh, tích hợp API và giám sát production ở quy mô lớn.
5. Vì sao một số scraper thất bại trên Home Depot nhưng lại hoạt động ở website khác?
Home Depot dùng cơ chế phát hiện bot rất mạnh (phù hợp với Akamai Bot Manager). Nó xác thực độ tin cậy IP, hành vi trình duyệt, cookie và render động. Những công cụ chỉ dựa vào request HTTP đơn giản hoặc IP trung tâm dữ liệu thường nhận lỗi 403 hoặc trang chặn. Cách đáng tin cậy nhất là dùng hạ tầng proxy dân cư (Bright Data) hoặc scrape trong phiên trình duyệt kế thừa cookie và trạng thái phiên thực của người dùng (Thunderbit).
Tìm hiểu thêm
