Cách trích xuất dữ liệu Google Shopping — Có hoặc không cần code

Cập nhật lần cuối vào April 14, 2026

Google Shopping xử lý hơn . Đó là một kho dữ liệu cực lớn về giá cả, xu hướng sản phẩm và thông tin người bán — tất cả đều nằm ngay trong trình duyệt của bạn, được tổng hợp từ hàng nghìn nhà bán lẻ.

Lấy dữ liệu đó ra khỏi Google Shopping rồi đưa vào bảng tính? Đó mới là phần phiền phức. Tôi đã dành khá nhiều thời gian để thử đủ kiểu cách tiếp cận — từ tiện ích mở rộng không cần code cho đến các script Python hoàn chỉnh — và trải nghiệm thì lúc “wow, dễ thật”, lúc lại thành “tôi đã gỡ lỗi CAPTCHA ba ngày rồi và muốn bỏ cuộc”. Phần lớn hướng dẫn trên mạng đều mặc định bạn là lập trình viên Python, nhưng theo kinh nghiệm của tôi, phần lớn người cần dữ liệu Google Shopping lại là người vận hành ecommerce, chuyên viên phân tích giá và marketer — họ chỉ cần con số, không muốn ngồi viết code. Vì vậy, bài hướng dẫn này sẽ đi qua ba phương pháp, sắp xếp từ dễ nhất đến kỹ thuật nhất, để bạn chọn cách hợp với kỹ năng và quỹ thời gian của mình.

Dữ liệu Google Shopping là gì?

Google Shopping là một công cụ tìm kiếm sản phẩm. Chỉ cần gõ “wireless noise-cancelling headphones”, Google sẽ kéo về danh sách từ hàng chục cửa hàng online — tên sản phẩm, giá, người bán, đánh giá, hình ảnh, liên kết. Đây là một danh mục sản phẩm sống động, liên tục cập nhật những gì đang được bán trên toàn internet.

Vì sao nên trích xuất dữ liệu Google Shopping?

Một trang sản phẩm riêng lẻ gần như không nói lên nhiều điều. Nhưng khi có hàng trăm sản phẩm, được sắp xếp gọn trong một bảng tính — đó là lúc các mẫu hình bắt đầu lộ ra.

google-shopping-manual-vs-auto (1).png

Dưới đây là những trường hợp sử dụng phổ biến nhất mà tôi từng thấy:

Trường hợp sử dụngAi hưởng lợiBạn đang tìm gì
Phân tích giá cạnh tranhĐội ecommerce, chuyên viên phân tích giáGiá đối thủ, xu hướng khuyến mãi, biến động giá theo thời gian
Khám phá xu hướng sản phẩmĐội marketing, quản lý sản phẩmSản phẩm mới, danh mục đang tăng trưởng, tốc độ tăng đánh giá
Phân tích quảng cáoQuản lý PPC, đội growthDanh sách được tài trợ, ai đang đấu thầu, tần suất xuất hiện quảng cáo
Nghiên cứu người bán/leadĐội sales, B2BNhà bán hàng đang hoạt động, người bán mới gia nhập danh mục
Theo dõi MAPBrand managerNhà bán lẻ vi phạm chính sách giá quảng cáo tối thiểu
Theo dõi tồn kho và danh mụcQuản lý danh mụcTình trạng còn hàng, khoảng trống trong danh mục sản phẩm

hiện đã dùng công cụ định giá có tích hợp AI. Những doanh nghiệp đầu tư vào tình báo giá cạnh tranh báo cáo mức lợi nhuận lên tới 29 lần. Amazon cập nhật giá khoảng mỗi 10 phút. Nếu bạn vẫn đang kiểm tra giá đối thủ bằng tay, thì rõ ràng phép tính này không có lợi cho bạn.

Thunderbit là một tiện ích mở rộng AI Web Scraper trên Chrome, giúp người dùng doanh nghiệp trích xuất dữ liệu từ website bằng AI. Công cụ này đặc biệt hữu ích cho các nhà vận hành ecommerce, chuyên viên phân tích giá và marketer muốn có dữ liệu Google Shopping có cấu trúc mà không cần viết code.

Bạn có thể trích xuất những dữ liệu nào từ Google Shopping?

Trước khi chọn công cụ hay viết bất kỳ dòng code nào, bạn nên biết chính xác những trường dữ liệu nào có sẵn — và trường nào cần thêm công sức mới lấy được.

Các trường lấy từ kết quả tìm kiếm Google Shopping

Khi bạn tìm kiếm trên Google Shopping, mỗi thẻ sản phẩm trên trang kết quả thường chứa:

TrườngLoạiVí dụGhi chú
Tên sản phẩmVăn bản"Sony WH-1000XM5 Wireless Headphones"Luôn hiển thị
GiáSố$278.00Có thể hiển thị giá khuyến mãi + giá gốc
Người bán/Cửa hàngVăn bản"Best Buy"Một sản phẩm có thể có nhiều người bán
Đánh giáSố4.7Tính trên 5 sao; không phải lúc nào cũng hiện
Số lượng đánh giáSố12,453Đôi khi không có với sản phẩm mới
URL hình ảnh sản phẩmURLhttps://...Có thể trả về placeholder base64 ở lần tải đầu
Liên kết sản phẩmURLhttps://...Dẫn tới trang sản phẩm của Google hoặc cửa hàng trực tiếp
Thông tin vận chuyểnVăn bản"Free shipping"Không phải lúc nào cũng có
Nhãn tài trợBooleanYes/NoCho biết vị trí trả phí — hữu ích cho phân tích quảng cáo

Các trường từ trang chi tiết sản phẩm (dữ liệu trang con)

Nếu bạn bấm vào trang chi tiết của một sản phẩm trên Google Shopping, bạn có thể lấy được dữ liệu phong phú hơn:

TrườngLoạiGhi chú
Mô tả đầy đủVăn bảnPhải truy cập vào trang sản phẩm
Tất cả giá từ người bánSố (nhiều giá trị)So sánh giá giữa các nhà bán lẻ theo từng cột
Thông số kỹ thuậtVăn bảnThay đổi theo danh mục sản phẩm (kích thước, trọng lượng, v.v.)
Nội dung đánh giá từng cá nhânVăn bảnToàn bộ nội dung review từ người mua
Tóm tắt ưu/nhược điểmVăn bảnGoogle đôi khi tự tạo các phần này

Để lấy được các trường này, bạn cần truy cập từng trang con của sản phẩm sau khi đã thu thập kết quả tìm kiếm. Những công cụ có khả năng sẽ làm việc này tự động — tôi sẽ trình bày quy trình ngay bên dưới.

Ba cách để trích xuất dữ liệu Google Shopping (chọn lộ trình của bạn)

thunderbit-web-scraping-paths.png

Ba phương pháp, sắp xếp từ dễ nhất đến kỹ thuật nhất. Hãy chọn hướng phù hợp với bạn và đi tiếp:

Phương phápMức độ kỹ năngThời gian cài đặtXử lý chống botPhù hợp nhất cho
Không cần code (Thunderbit Chrome Extension)Người mới~2 phútTự động xử lýVận hành ecommerce, marketer, nghiên cứu một lần
Python + SERP APITrung cấp~30 phútAPI xử lý hộDeveloper cần truy cập theo chương trình, có thể lặp lại
Python + Playwright (tự động hóa trình duyệt)Nâng cao~1 giờ+Bạn tự quản lýPipeline tùy chỉnh, xử lý các tình huống đặc biệt

Phương pháp 1: Trích xuất dữ liệu Google Shopping không cần code (dùng Thunderbit)

  • Độ khó: Người mới
  • Thời gian cần: ~2–5 phút
  • Bạn cần gì: Trình duyệt Chrome, (bản miễn phí vẫn dùng được), một truy vấn tìm kiếm trên Google Shopping

Đây là con đường nhanh nhất từ “tôi cần dữ liệu Google Shopping” đến “đây là bảng tính của bạn”. Không code, không API key, không phải cấu hình proxy. Tôi đã hướng dẫn quy trình này cho đồng đội không rành kỹ thuật hàng chục lần — chưa ai bị kẹt cả.

Bước 1: Cài Thunderbit và mở Google Shopping

Cài từ Chrome Web Store và đăng ký tài khoản miễn phí.

Sau đó mở Google Shopping. Bạn có thể vào thẳng shopping.google.com hoặc dùng tab Shopping trong tìm kiếm Google thông thường. Tìm sản phẩm hoặc danh mục bạn quan tâm — ví dụ: “wireless noise-cancelling headphones”.

Bạn sẽ thấy một lưới sản phẩm với giá, người bán và đánh giá.

Bước 2: Bấm “AI Suggest Fields” để tự nhận diện cột

Nhấn biểu tượng tiện ích Thunderbit để mở thanh bên, rồi bấm “AI Suggest Fields.” AI sẽ quét trang Google Shopping và đề xuất các cột: Tên sản phẩm, Giá, Người bán, Đánh giá, Số lượng review, URL hình ảnh, Liên kết sản phẩm.

Kiểm tra các trường được đề xuất. Bạn có thể đổi tên cột, xóa những cột không cần, hoặc thêm trường tùy chỉnh. Nếu muốn chi tiết hơn — ví dụ, “chỉ lấy phần số của giá, bỏ ký hiệu tiền tệ” — bạn có thể thêm Field AI Prompt cho cột đó.

Bạn sẽ thấy bản xem trước cấu trúc cột trong bảng điều khiển Thunderbit.

Bước 3: Bấm “Scrape” và xem kết quả

Nhấn nút xanh “Scrape”. Thunderbit sẽ kéo toàn bộ sản phẩm đang hiển thị vào một bảng có cấu trúc.

Có nhiều trang? Thunderbit sẽ tự xử lý phân trang — bấm qua từng trang hoặc cuộn để tải thêm kết quả tùy bố cục. Nếu kết quả rất nhiều, bạn có thể chọn giữa Cloud Scraping (nhanh hơn, xử lý tới 50 trang mỗi lần, chạy trên hạ tầng phân tán của Thunderbit) hoặc Browser Scraping (dùng chính phiên Chrome của bạn — hữu ích khi Google hiển thị kết quả theo khu vực hoặc yêu cầu đăng nhập).

Trong quá trình thử nghiệm của tôi, việc scrape 50 sản phẩm mất khoảng 30 giây. Nếu làm thủ công — mở từng sản phẩm, sao chép tên, giá, người bán, đánh giá — chắc tôi phải mất hơn 20 phút.

Bước 4: Làm giàu dữ liệu bằng Scrape Subpages

Sau khi scrape lần đầu, hãy bấm “Scrape Subpages” trong bảng Thunderbit. AI sẽ truy cập từng trang chi tiết sản phẩm và bổ sung các trường như mô tả đầy đủ, toàn bộ giá từ người bán, thông số kỹ thuật và review vào bảng gốc.

Không cần cấu hình thêm — AI sẽ tự hiểu cấu trúc từng trang chi tiết và lấy đúng dữ liệu cần thiết. Tôi từng xây một bảng so sánh giá cạnh tranh đầy đủ (sản phẩm + toàn bộ giá từ người bán + thông số) cho 40 sản phẩm trong chưa đầy 5 phút theo cách này.

Bước 5: Xuất sang Google Sheets, Excel, Airtable hoặc Notion

Bấm “Export” và chọn nơi muốn xuất — , Excel, Airtable hoặc Notion. Tất cả đều miễn phí. Bạn cũng có thể tải xuống CSV và JSON.

Hai cú nhấp để scrape, một cú nhấp để xuất. Còn script Python tương đương? Khoảng 60 dòng code, cấu hình proxy, xử lý CAPTCHA và bảo trì liên tục.

Phương pháp 2: Trích xuất dữ liệu Google Shopping bằng Python + SERP API

  • Độ khó: Trung cấp
  • Thời gian cần: ~30 phút
  • Bạn cần gì: Python 3.10+, thư viện requestspandas, một SERP API key (ScraperAPI, SerpApi hoặc tương tự)

Nếu bạn cần truy cập dữ liệu Google Shopping theo kiểu lập trình và có thể lặp lại, SERP API là cách ổn định nhất dựa trên Python. Các biện pháp chống bot, render JavaScript, xoay vòng proxy — tất cả đều được xử lý ở phía sau. Bạn gửi yêu cầu HTTP, rồi nhận JSON có cấu trúc trả về.

Bước 1: Thiết lập môi trường Python

Cài Python 3.12 (mặc định an toàn nhất cho môi trường sản xuất trong 2025–2026) và các gói cần thiết:

1pip install requests pandas

Đăng ký với một nhà cung cấp SERP API. cho phép 100 lượt tìm kiếm miễn phí mỗi tháng; cho 5.000 credit miễn phí. Lấy API key trong bảng điều khiển.

Bước 2: Cấu hình yêu cầu API

Đây là ví dụ tối giản dùng endpoint Google Shopping của ScraperAPI:

1import requests
2import pandas as pd
3API_KEY = "YOUR_API_KEY"
4query = "wireless noise cancelling headphones"
5resp = requests.get(
6    "https://api.scraperapi.com/structured/google/shopping",
7    params={"api_key": API_KEY, "query": query, "country_code": "us"}
8)
9data = resp.json()

API sẽ trả về JSON có cấu trúc với các trường như title, price, link, thumbnail, source (người bán) và rating.

Bước 3: Phân tích JSON trả về và trích xuất trường dữ liệu

1products = data.get("shopping_results", [])
2rows = []
3for p in products:
4    rows.append({
5        "title": p.get("title"),
6        "price": p.get("price"),
7        "seller": p.get("source"),
8        "rating": p.get("rating"),
9        "reviews": p.get("reviews"),
10        "link": p.get("link"),
11        "thumbnail": p.get("thumbnail"),
12    })
13df = pd.DataFrame(rows)

Bước 4: Xuất ra CSV hoặc JSON

1df.to_csv("google_shopping_results.csv", index=False)

Phù hợp cho xử lý hàng loạt: lặp qua 50 từ khóa và tạo ra một bộ dữ liệu đầy đủ chỉ trong một lần chạy script. Đổi lại là chi phí — các SERP API tính phí theo truy vấn, và khi lên tới hàng nghìn truy vấn mỗi ngày thì hóa đơn sẽ tăng nhanh. Phần giá sẽ nói rõ hơn ở bên dưới.

Phương pháp 3: Trích xuất dữ liệu Google Shopping bằng Python + Playwright (tự động hóa trình duyệt)

  • Độ khó: Nâng cao
  • Thời gian cần: ~1 giờ+ (chưa kể bảo trì liên tục)
  • Bạn cần gì: Python 3.10+, Playwright, proxy residential, sự kiên nhẫn

Đây là hướng “toàn quyền kiểm soát”. Bạn khởi chạy một trình duyệt thật, điều hướng tới Google Shopping và lấy dữ liệu từ trang đã render. Linh hoạt nhất, nhưng cũng dễ hỏng nhất — hệ thống chống bot của Google rất gắt, và cấu trúc trang thay đổi nhiều lần trong năm.

Cảnh báo thẳng: tôi đã nghe nhiều người dùng vật lộn hàng tuần với CAPTCHA và chặn IP theo cách này. Nó hoạt động, nhưng bạn phải chấp nhận bảo trì liên tục.

Bước 1: Cài Playwright và proxy

1pip install playwright
2playwright install chromium

Bạn sẽ cần proxy residential. IP datacenter bị chặn gần như ngay lập tức — một người dùng trên diễn đàn nói rất thẳng: “Tất cả IP AWS sẽ bị chặn hoặc gặp CAPTCHA sau 1/2 kết quả.” Các dịch vụ như Bright Data, Oxylabs hoặc Decodo cung cấp pool proxy residential với giá khởi điểm khoảng $1–5/GB.

Cấu hình Playwright với user-agent hợp lý và proxy của bạn:

1from playwright.sync_api import sync_playwright
2with sync_playwright() as p:
3    browser = p.chromium.launch(
4        headless=True,
5        proxy={"server": "http://your-proxy:port", "username": "user", "password": "pass"}
6    )
7    context = browser.new_context(
8        user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 ..."
9    )
10    page = context.new_page()

Bước 2: Điều hướng tới Google Shopping và xử lý chống bot

Tạo URL Google Shopping rồi truy cập:

1query = "wireless noise cancelling headphones"
2url = f"https://www.google.com/search?udm=28&q={query}&gl=us&hl=en"
3page.goto(url, wait_until="networkidle")

Nếu popup đồng ý cookie của EU xuất hiện, hãy xử lý:

1try:
2    page.click("button#L2AGLb", timeout=3000)
3except:
4    pass

Thêm độ trễ giống hành vi con người giữa các thao tác — chờ ngẫu nhiên 2–5 giây giữa mỗi lần tải trang. Hệ thống phát hiện của Google rất nhạy với các mẫu yêu cầu quá nhanh và quá đều.

Bước 3: Cuộn, phân trang và trích xuất dữ liệu sản phẩm

Google Shopping tải kết quả động. Cuộn trang để kích hoạt tải lười, sau đó lấy các thẻ sản phẩm:

1import time, random
2# Cuộn để tải toàn bộ kết quả
3for _ in range(3):
4    page.evaluate("window.scrollBy(0, 1000)")
5    time.sleep(random.uniform(1.5, 3.0))
6# Lấy các thẻ sản phẩm
7cards = page.query_selector_all("[jsname='ZvZkAe']")
8results = []
9for card in cards:
10    title = card.query_selector("h3")
11    price = card.query_selector("span.a8Pemb")
12    # ... lấy các trường khác
13    results.append({
14        "title": title.inner_text() if title else None,
15        "price": price.inner_text() if price else None,
16    })

Một lưu ý rất quan trọng: các selector CSS trên chỉ mang tính ước lượng và sẽ thay đổi. Google xoay vòng tên class rất thường xuyên. Chỉ riêng giai đoạn 2024–2026 đã có ba bộ selector khác nhau được ghi nhận. Hãy ưu tiên các thuộc tính ổn định hơn như jsname, data-cid, thẻ <h3>img[alt] thay vì class name.

Bước 4: Lưu thành CSV hoặc JSON

1import json
2from datetime import datetime
3filename = f"shopping_{datetime.now().strftime('%Y%m%d_%H%M')}.json"
4with open(filename, "w") as f:
5    json.dump(results, f, indent=2)

Bạn nên chuẩn bị tinh thần bảo trì script này thường xuyên. Khi Google thay đổi cấu trúc trang — điều này xảy ra nhiều lần mỗi năm — selector của bạn sẽ hỏng và bạn lại phải quay về giai đoạn gỡ lỗi.

Nỗi đau lớn nhất: CAPTCHA và chặn chống bot

Từ diễn đàn này sang diễn đàn khác, câu chuyện vẫn giống nhau: “Tôi đã mất vài tuần nhưng cuối cùng vẫn bỏ cuộc trước các biện pháp chống bot của Google.” CAPTCHA và chặn IP là lý do số một khiến người ta bỏ dở các scraper Google Shopping tự làm.

Google chặn scraper như thế nào (và nên làm gì)

Thách thức chống botGoogle làm gìCách khắc phục
Nhận diện IPChặn IP datacenter sau vài yêu cầuProxy residential hoặc scrape bằng trình duyệt
CAPTCHAKích hoạt khi có mẫu truy cập quá nhanh hoặc tự độngGiới hạn tốc độ (10–20 giây giữa các request), độ trễ giống người, dịch vụ giải CAPTCHA
Render JavaScriptKết quả Shopping tải động bằng JSDùng trình duyệt headless (Playwright) hoặc API render JS
Nhận diện user-agentChặn các user-agent bot phổ biếnXoay vòng chuỗi user-agent thực tế, cập nhật mới
TLS fingerprintingPhát hiện dấu vết TLS không giống trình duyệtDùng curl_cffi để giả lập trình duyệt hoặc dùng trình duyệt thật
Chặn IP AWS/cloudChặn dải IP của nhà cung cấp cloud đã biếtTránh hoàn toàn IP datacenter

Vào tháng 1 năm 2025, Google bắt buộc phải thực thi JavaScript cho kết quả SERP và Shopping, — bao gồm cả các pipeline được dùng bởi SemRush và SimilarWeb. Rồi đến tháng 9 năm 2025, Google ngừng hỗ trợ URL trang chi tiết sản phẩm kiểu cũ, chuyển sang giao diện “Immersive Product” mới tải qua AJAX bất đồng bộ. Bất kỳ hướng dẫn nào viết trước cuối 2025 giờ gần như đều đã lỗi thời.

Mỗi phương pháp xử lý các thách thức này ra sao

SERP API xử lý mọi thứ ở phía sau — proxy, render, giải CAPTCHA. Bạn gần như không phải nghĩ về chúng.

Thunderbit Cloud Scraping dùng hạ tầng đám mây phân tán ở Mỹ, EU và châu Á để tự động xử lý render JS và các biện pháp chống bot. Chế độ Browser Scraping dùng chính phiên Chrome đã đăng nhập của bạn, nhờ đó vượt qua phát hiện vì trông giống hệt người dùng bình thường.

DIY Playwright đặt toàn bộ gánh nặng lên bạn — quản lý proxy, tinh chỉnh độ trễ, giải CAPTCHA, duy trì selector và liên tục theo dõi lỗi.

Chi phí thật để trích xuất dữ liệu Google Shopping: so sánh thẳng thắn

“$50 cho khoảng 20k request… hơi đắt với dự án cá nhân của tôi.” Câu than này xuất hiện liên tục trên các diễn đàn. Nhưng phần lớn cuộc thảo luận lại bỏ qua chi phí lớn nhất.

Bảng so sánh chi phí

Cách tiếp cậnChi phí ban đầuChi phí mỗi truy vấn (ước tính)Gánh nặng bảo trìChi phí ẩn
DIY Python (không proxy)Miễn phí$0CAO (lỗi, CAPTCHA)Thời gian gỡ lỗi của bạn
DIY Python + proxy residentialCode miễn phí~$1–5/GBTRUNG BÌNH-CAOPhí nhà cung cấp proxy
SERP API (SerpApi, ScraperAPI)Bản miễn phí giới hạn~$0.50–5.00/1K truy vấnTHẤPTăng nhanh khi khối lượng lớn
Thunderbit Chrome ExtensionGói miễn phí (6 trang)Theo credit, ~1 credit/hàngRẤT THẤPCần gói trả phí khi dùng nhiều
Thunderbit Open API (Extract)Theo credit~20 credit/trangTHẤPTrả theo lượt trích xuất

Chi phí ẩn mà ai cũng bỏ qua: thời gian của bạn

Một giải pháp DIY giá $0 nhưng ngốn 40 giờ gỡ lỗi thì không hề miễn phí. Tính $50/giờ, bạn đã mất $2.000 tiền công — cho một scraper có thể lại hỏng vào tháng sau khi Google đổi DOM.

google-shopping-cost-vs (2).png

Báo cáo Technology Outlook của McKinsey cho thấy . Dưới ngưỡng đó, việc tự xây “ngốn ngân sách mà không mang lại ROI.” Với phần lớn đội ecommerce chỉ cần vài trăm đến vài nghìn lượt tra cứu mỗi tuần, một công cụ no-code hoặc một SERP API thường tiết kiệm hơn nhiều so với tự làm từ đầu.

Cách thiết lập theo dõi giá Google Shopping tự động

Phần lớn hướng dẫn chỉ xem scraping như một tác vụ làm một lần. Nhưng nhu cầu thực sự của đội ecommerce là theo dõi tự động, liên tục. Bạn không chỉ cần giá hôm nay — bạn còn cần giá hôm qua, tuần trước, và cả ngày mai.

Thiết lập scraping theo lịch với Thunderbit

Scheduled Scraper của Thunderbit cho phép bạn mô tả khoảng thời gian bằng ngôn ngữ tự nhiên — “mỗi ngày lúc 9 giờ sáng” hoặc “mỗi thứ Hai và thứ Năm lúc 12 giờ trưa” — rồi AI sẽ chuyển thành lịch lặp lại. Chỉ cần nhập URL Google Shopping, bấm “Schedule,” và xong.

Mỗi lần chạy sẽ tự động xuất dữ liệu sang Google Sheets, Airtable hoặc Notion. Kết quả cuối cùng: một bảng tính tự động cập nhật hằng ngày với giá đối thủ, sẵn sàng cho pivot table hoặc cảnh báo.

Không cần cron job. Không cần quản lý server. Không cần đau đầu với Lambda function. (Tôi từng thấy nhiều bài đăng của dev mất cả ngày chỉ để chạy Selenium trên AWS Lambda — bộ lập lịch của Thunderbit bỏ qua hết những thứ đó.)

Nếu bạn muốn tìm hiểu sâu hơn về , chúng tôi có một bài phân tích riêng.

Lên lịch bằng Python (cho developer)

Nếu bạn dùng cách SERP API, bạn có thể lên lịch bằng cron job (Linux/Mac), Windows Task Scheduler hoặc các bộ lập lịch cloud như AWS Lambda hay Google Cloud Functions. Thư viện Python như APScheduler cũng dùng được.

Đổi lại: bạn phải tự chịu trách nhiệm giám sát tình trạng script, xử lý lỗi, xoay proxy theo lịch và cập nhật selector khi Google thay đổi trang. Với phần lớn team, công sức kỹ thuật để duy trì một scraper Python theo lịch còn lớn hơn chi phí của một công cụ chuyên dụng.

Mẹo và thực hành tốt khi trích xuất dữ liệu Google Shopping

Dù dùng phương pháp nào, một vài lưu ý sau sẽ giúp bạn tránh đau đầu.

Tôn trọng giới hạn tốc độ

Đừng bắn hàng trăm request dồn dập vào Google — bạn sẽ bị chặn, và IP có thể bị đánh dấu trong một thời gian. Với cách tự làm: hãy giãn request 10–20 giây và thêm độ lệch ngẫu nhiên. Công cụ và API sẽ lo phần này cho bạn.

Chọn phương pháp theo khối lượng dữ liệu

Hướng dẫn quyết định nhanh:

  • < 10 truy vấn/tuần → gói miễn phí của Thunderbit hoặc gói miễn phí của SerpApi
  • 10–1.000 truy vấn/tuần → gói trả phí SERP API hoặc
  • 1.000+ truy vấn/tuần → gói doanh nghiệp của SERP API hoặc Thunderbit Open API

Làm sạch và kiểm tra dữ liệu

Giá có thể đi kèm ký hiệu tiền tệ, định dạng theo locale (1.299,00 € vs $1,299.00) và đôi khi có ký tự rác. Bạn có thể dùng Field AI Prompts của Thunderbit để chuẩn hóa ngay khi trích xuất, hoặc làm sạch bằng pandas sau đó:

1df["price_num"] = df["price"].str.replace(r"[^\d.]", "", regex=True).astype(float)

Kiểm tra trùng lặp giữa danh sách organic và sponsored — chúng thường chồng lên nhau. Hãy khử trùng lặp theo bộ (title, price, seller).

Hiểu bối cảnh pháp lý

Việc trích xuất dữ liệu sản phẩm công khai thường được xem là hợp pháp, nhưng khung pháp lý đang thay đổi rất nhanh. Diễn biến gần đây quan trọng nhất: theo DMCA § 1201 vì cho rằng SerpApi vượt qua hệ thống chống scraping “SearchGuard” của Google. Đây là một hướng thực thi mới, tách khỏi các lập luận bào chữa trong những vụ trước như hiQ v. LinkedIn và Van Buren v. United States.

Một vài nguyên tắc thực tế:

  • Chỉ scrape dữ liệu công khai — đừng đăng nhập để lấy nội dung bị giới hạn
  • Đừng trích xuất thông tin cá nhân (tên người đánh giá, chi tiết tài khoản)
  • Lưu ý rằng Điều khoản dịch vụ của Google cấm truy cập tự động — dùng SERP API hoặc tiện ích trình duyệt sẽ giảm bớt (nhưng không loại bỏ hoàn toàn) vùng xám pháp lý
  • Với hoạt động tại EU, hãy nhớ đến GDPR, dù danh sách sản phẩm phần lớn là dữ liệu thương mại không mang tính cá nhân
  • Cân nhắc tư vấn pháp lý nếu bạn định xây sản phẩm thương mại dựa trên dữ liệu đã scrape

Nếu bạn muốn xem sâu hơn về , chúng tôi đã có bài riêng.

Nên dùng phương pháp nào để trích xuất dữ liệu Google Shopping?

Sau khi chạy cả ba cách trên cùng một nhóm danh mục sản phẩm, đây là kết luận của tôi:

Nếu bạn là người không chuyên kỹ thuật nhưng cần dữ liệu nhanh — hãy dùng Thunderbit. Mở Google Shopping, bấm hai lần, rồi xuất. Bạn sẽ có một bảng tính sạch trong chưa đầy 5 phút. cho phép bạn thử mà không cần cam kết, và tính năng scrape trang con còn cho dữ liệu phong phú hơn hầu hết script Python.

Nếu bạn là developer cần truy cập theo chương trình và có thể lặp lại — hãy dùng SERP API. Độ ổn định xứng đáng với chi phí mỗi truy vấn, và bạn tránh được toàn bộ nỗi đau chống bot. SerpApi có tài liệu tốt nhất; ScraperAPI có gói miễn phí hào phóng nhất.

Nếu bạn cần kiểm soát tối đa và đang xây pipeline tùy chỉnh — Playwright vẫn làm được, nhưng hãy đi với tâm thế rõ ràng. Hãy dự trù nhiều thời gian cho quản lý proxy, bảo trì selector và xử lý CAPTCHA. Trong 2025–2026, bộ vượt chặn tối thiểu thường là curl_cffi với giả lập Chrome + proxy residential + nhịp độ 10–20 giây. Một script requests đơn giản với user-agent xoay vòng thì coi như không còn đủ.

Phương pháp tốt nhất là phương pháp giúp bạn có dữ liệu chính xác mà không nuốt mất cả tuần của bạn. Với đa số người, đó không phải là script Python 60 dòng — mà là hai cú nhấp chuột.

Hãy xem nếu bạn cần số lượng lớn, hoặc xem các video hướng dẫn trên để thấy quy trình hoạt động thực tế.

Dùng thử Thunderbit để scrape Google Shopping

Câu hỏi thường gặp

Trích xuất dữ liệu Google Shopping có hợp pháp không?

Việc scrape dữ liệu sản phẩm công khai thường là hợp pháp theo các tiền lệ như hiQ v. LinkedIn và Van Buren v. United States. Tuy nhiên, Điều khoản dịch vụ của Google cấm truy cập tự động, và vụ kiện Google chống SerpApi vào tháng 12 năm 2025 đã đưa ra một lập luận mới theo DMCA § 1201 về việc vượt qua biện pháp bảo vệ. Sử dụng các công cụ và API uy tín sẽ giảm rủi ro. Với mục đích thương mại, bạn nên hỏi ý kiến tư vấn pháp lý.

Có thể scrape Google Shopping mà không bị chặn không?

Có, nhưng phương pháp rất quan trọng. SERP API tự xử lý các biện pháp chống bot. Cloud Scraping của Thunderbit dùng hạ tầng phân tán để tránh chặn, còn chế độ Browser Scraping sử dụng chính phiên Chrome của bạn (trông giống như người dùng bình thường). Script Python tự làm sẽ cần proxy residential, độ trễ giống người và quản lý TLS fingerprint — và ngay cả vậy, việc bị chặn vẫn rất thường xuyên.

Cách dễ nhất để trích xuất dữ liệu Google Shopping là gì?

Là tiện ích Chrome của Thunderbit. Vào Google Shopping, bấm “AI Suggest Fields”, bấm “Scrape”, rồi xuất sang Google Sheets hoặc Excel. Không cần code, không cần API key, không cần cấu hình proxy. Toàn bộ quy trình mất khoảng 2 phút.

Tôi có thể scrape Google Shopping với tần suất bao lâu để theo dõi giá?

Với Scheduled Scraper của Thunderbit, bạn có thể thiết lập theo dõi hằng ngày, hằng tuần hoặc theo chu kỳ tùy chỉnh bằng mô tả ngôn ngữ tự nhiên. Với SERP API, tần suất phụ thuộc vào giới hạn credit của gói bạn dùng — đa số nhà cung cấp đủ để theo dõi hằng ngày vài trăm SKU. Script tự làm có thể chạy bao lâu tùy hạ tầng của bạn cho phép, nhưng tần suất cao hơn đồng nghĩa với nhiều rắc rối chống bot hơn.

Tôi có thể xuất dữ liệu Google Shopping sang Google Sheets hoặc Excel không?

Có. Thunderbit xuất trực tiếp sang Google Sheets, Excel, Airtable và Notion miễn phí. Script Python có thể xuất ra CSV hoặc JSON, rồi bạn nhập vào bất kỳ công cụ bảng tính nào. Với theo dõi liên tục, các lần xuất theo lịch của Thunderbit sang Google Sheets sẽ tạo ra một bộ dữ liệu sống, tự cập nhật.

Shuai Guan
Shuai Guan
Co-founder/CEO @ Thunderbit. Passionate about cross section of AI and Automation. He's a big advocate of automation and loves making it more accessible to everyone. Beyond tech, he channels his creativity through a passion for photography, capturing stories one picture at a time.
Topics
Scrape Google shopping with pythonPython google shopping scraperGoogle shopping data extraction pythonScrape product prices from google shopping python
Mục lục

Thử Thunderbit

Trích xuất lead và dữ liệu khác chỉ với 2 cú nhấp. Được hỗ trợ bởi AI.

Nhận Thunderbit Miễn phí
Trích xuất dữ liệu bằng AI
Dễ dàng chuyển dữ liệu sang Google Sheets, Airtable hoặc Notion
PRODUCT HUNT#1 Product of the Week