Có khoảng trên GitHub khớp với cụm từ “google maps scraper”. Phần lớn trong số đó đều hỏng.
Nghe có vẻ hơi kịch tính, nhưng nếu bạn từng clone repo, vật lộn với phụ thuộc của Playwright, rồi nhìn scraper trả về một file CSV trống vào lúc 2 giờ sáng, chắc bạn sẽ hiểu cảm giác này. Google Maps hiện có trên toàn cầu — đây là một trong những cơ sở dữ liệu doanh nghiệp địa phương lớn nhất hành tinh. Tất nhiên, từ nhân viên sales đến chủ agency đều muốn trích xuất dữ liệu đó. Vấn đề là Google thay đổi giao diện Maps theo chu kỳ vài tuần đến vài tháng, và mỗi lần đổi đều có thể âm thầm làm hỏng scraper mà bạn vừa mất cả tiếng để cài xong. Như một người dùng GitHub đã viết trong issue vào tháng 3 năm 2026: công cụ Đó không phải là một lỗi lặt vặt hiếm gặp. Đó là luồng xử lý chính bị gãy. Năm nay tôi đã theo sát các repo này khá kỹ, và khoảng cách giữa “trông như vẫn chạy trên GitHub” với “thực sự trả về dữ liệu hôm nay” lớn hơn đa số mọi người nghĩ. Hướng dẫn này là nỗ lực trung thực của tôi để tách tín hiệu ra khỏi nhiễu — gồm repo nào còn dùng được, repo nào đã hỏng, khi nào nên bỏ qua GitHub hoàn toàn, và nên làm gì sau khi bạn đã scrape xong dữ liệu.
Google Maps Scraper trên GitHub là gì (và vì sao người ta dùng chúng)?
Google Maps scraper trên GitHub thường là một script Python hoặc Go (đôi khi bọc trong Docker) mở Google Maps bằng trình duyệt headless, chạy một truy vấn tìm kiếm như “dentists in Chicago”, rồi trích xuất dữ liệu danh sách doanh nghiệp hiện ra — tên, địa chỉ, số điện thoại, website, xếp hạng, số lượng đánh giá, danh mục, giờ mở cửa, và đôi khi cả tọa độ vĩ độ/kinh độ.
GitHub là nơi mặc định cho các công cụ này vì mã nguồn miễn phí, mã nguồn mở, và (về mặt lý thuyết) có thể tùy chỉnh. Bạn có thể fork một repo, chỉnh tham số tìm kiếm, thêm logic proxy riêng, và xuất ra bất kỳ định dạng nào bạn cần.

Các trường dữ liệu phổ biến mà người dùng thường muốn lấy trông như sau:
| Trường | Mức độ phổ biến giữa các repo |
|---|---|
| Tên doanh nghiệp | Gần như phổ biến tuyệt đối |
| Địa chỉ | Gần như phổ biến tuyệt đối |
| Số điện thoại | Gần như phổ biến tuyệt đối |
| URL website | Gần như phổ biến tuyệt đối |
| Xếp hạng sao | Gần như phổ biến tuyệt đối |
| Số lượng đánh giá | Rất phổ biến |
| Danh mục / loại hình | Phổ biến |
| Giờ mở cửa | Phổ biến |
| Vĩ độ / kinh độ | Phổ biến trong các repo mạnh hơn |
| Email / liên kết mạng xã hội | Chỉ có khi scraper cũng truy cập website của doanh nghiệp |
| Toàn bộ nội dung đánh giá | Phổ biến trong các scraper đánh giá chuyên biệt, nhưng kém ổn định hơn khi scrape hàng loạt |
Ai dùng những công cụ này? Các đội sales xây dựng danh sách lead để outbound. Chuyên gia bất động sản lập bản đồ thị trường địa phương. Đội thương mại điện tử phân tích đối thủ. Marketer chạy audit SEO địa phương. Điểm chung là: họ đều cần dữ liệu doanh nghiệp địa phương có cấu trúc, và họ không muốn copy-paste từng danh sách một từ trình duyệt.
Vì sao các đội Sales và Ops tìm repo Google Maps Scraper trên GitHub
Google Maps hấp dẫn vì một lý do rất đơn giản: đó là nơi thông tin doanh nghiệp địa phương thực sự tồn tại. Không phải một thư mục ngách nào đó. Không bị chặn sau tường phí. Mà nằm ngay trong kết quả tìm kiếm.
Giá trị kinh doanh có thể chia thành ba nhóm chính.
Tạo lead và prospecting
Đây là mục đích lớn nhất. Một nhà sáng lập xây dựng Google Maps scraper cho freelancer và agency rất thẳng thắn: tìm lead ở các thành phố và ngách cụ thể, thu thập thông tin liên hệ để cold outreach, và tạo CSV có tên, địa chỉ, số điện thoại, website, xếp hạng, số lượng đánh giá, danh mục, giờ mở cửa, email và tài khoản mạng xã hội. Một trong những repo hoạt động mạnh nhất (gosom/google-maps-scraper) thậm chí nói rõ rằng người dùng có thể bảo tác tử của nó Đây không phải là một case để nghịch thử — đây là một dây chuyền bán hàng.
Nghiên cứu thị trường và phân tích cạnh tranh
Các đội vận hành và chiến lược dùng dữ liệu Maps đã scrape để đếm đối thủ theo khu vực, phân tích cảm xúc từ đánh giá, và phát hiện khoảng trống. Một người làm local SEO trong một ngách duy nhất bằng cách trích xuất dữ liệu công khai từ Google Maps. Kiểu phân tích này gần như không thể làm thủ công ở quy mô lớn.
Audit local SEO và xây dựng directory
Marketer scrape Google Maps để audit sự hiện diện trong tìm kiếm địa phương, kiểm tra tính nhất quán của NAP (Name, Address, Phone), và xây dựng website directory. Một người dùng vào WordPress bằng WP All Import.
Bài toán chi phí lao động khiến scraping trở nên hấp dẫn
Thu thập thủ công không hề miễn phí chỉ vì nó diễn ra trong một cửa sổ trình duyệt. Upwork định giá trợ lý ảo nhập liệu hành chính ở mức . Nếu một người mất 1 phút cho mỗi doanh nghiệp để ghi lại các thông tin cơ bản, thì 1.000 doanh nghiệp sẽ tiêu tốn khoảng 16,7 giờ — tương đương khoảng $200–$334 tiền nhân công trước khi QA. Nếu mất 2 phút cho mỗi doanh nghiệp, cùng danh sách đó sẽ tốn $400–$668. Đó mới là chuẩn so sánh thực sự mà mọi “GitHub scraper miễn phí” phải cạnh tranh.
Google Maps API vs. repo scraper trên GitHub vs. công cụ no-code: sơ đồ quyết định cho năm 2026
Hãy chọn đường đi trước khi clone bất cứ thứ gì. Khối lượng, ngân sách, kỹ năng kỹ thuật và mức chịu đựng việc bảo trì đều rất quan trọng ở đây.
| Tiêu chí | Google Places API | GitHub Scraper | Công cụ no-code (ví dụ: Thunderbit) |
|---|---|---|---|
| Chi phí cho 1.000 lượt tra cứu | $7–32 (các lượt gọi Pro phổ biến) | Phần mềm miễn phí + chi phí proxy + thời gian | Có gói miễn phí, sau đó tính theo credit |
| Trường dữ liệu | Có cấu trúc, giới hạn theo schema API | Linh hoạt, tùy repo | Cấu hình bằng AI theo từng website |
| Truy cập review | Tối đa 5 review cho mỗi địa điểm | Đầy đủ (nếu scraper hỗ trợ) | Tùy công cụ |
| Giới hạn tốc độ | Hạn mức miễn phí theo SKU, sau đó trả phí | Tự quản lý (phụ thuộc proxy) | Nhà cung cấp quản lý |
| Tính rõ ràng pháp lý | Giấy phép rõ ràng | Vùng xám (rủi ro theo điều khoản sử dụng) | Nhà cung cấp xử lý vận hành tuân thủ |
| Bảo trì | Google bảo trì | Bạn tự bảo trì | Nhà cung cấp bảo trì |
| Độ phức tạp khi thiết lập | API key + code | Python + phụ thuộc + proxy | Cài extension, bấm scrape |
Khi nào Google Places API là lựa chọn hợp lý
Với nhu cầu tra cứu khối lượng nhỏ đến vừa, cần giấy phép chính thức và hóa đơn có thể dự đoán, API là lựa chọn rõ ràng nhất. Thay đổi giá đã thay credit tháng dùng chung bằng các hạn mức miễn phí theo từng SKU: cho nhiều SKU Essentials, 5.000 cho Pro, và 1.000 cho Enterprise. Sau đó, Text Search Pro tính , còn Place Details Enterprise + Atmosphere là $5 cho 1.000.
Hạn chế lớn nhất: review. API chỉ trả về . Nếu bạn cần toàn bộ lớp review, API sẽ không đáp ứng được.
Khi nào một Google Maps scraper trên GitHub là hợp lý
Khám phá hàng loạt theo từ khóa + địa lý, dữ liệu nhìn thấy trên trình duyệt ngoài các field của API, toàn bộ nội dung review, logic parsing tùy biến — nếu bạn cần bất kỳ thứ nào trong số này và có kỹ năng Python/Docker để duy trì scraper, repo GitHub là lựa chọn đúng. Đổi lại, “miễn phí” sẽ chuyển hóa hóa đơn sang thời gian, proxy, retry và lỗi hỏng. Chỉ riêng chi phí proxy cũng có thể tăng nhanh: , , và .
Khi nào một công cụ no-code như Thunderbit là hợp lý
Đội không thiên về kỹ thuật? Ưu tiên là đưa dữ liệu vào Sheets, Airtable, Notion hoặc CSV càng nhanh càng tốt? Công cụ no-code giúp bỏ qua toàn bộ phần thiết lập Python/Docker/proxy. Với , bạn cài Chrome extension, mở Google Maps, bấm “AI Suggest Fields”, rồi “Scrape” — và . Chế độ scrape trên cloud tự xử lý các lớp chống bot, mà không cần cấu hình proxy.
Luồng quyết định đơn giản: Nếu bạn cần <500 doanh nghiệp và có ngân sách → API. Nếu bạn cần hàng nghìn doanh nghiệp và có kỹ năng Python → repo GitHub. Nếu bạn cần dữ liệu nhanh mà không muốn thiết lập kỹ thuật → công cụ no-code.
Kiểm tra độ tươi mới năm 2026: repo Google Maps Scraper nào thực sự chạy được hôm nay?
Đây là phần tôi ước mình đã có khi bắt đầu nghiên cứu. Hầu hết các bài “Google Maps scraper tốt nhất” chỉ liệt kê repo với mô tả một dòng và số sao. Không ai nói cho bạn biết thứ đó có thực sự trả về dữ liệu trong tháng này hay không.
Làm sao biết một repo Google Maps Scraper trên GitHub còn sống hay không
Trước khi clone bất cứ thứ gì, hãy chạy checklist này:
- Đẩy mã gần đây: Tìm một commit thật trong 3–6 tháng gần nhất (không chỉ comment trong issue).
- Sức khỏe issue: Đọc 3 issue được cập nhật gần đây nhất. Chúng là lỗi cốt lõi (field trống, lỗi selector, trình duyệt sập) hay chỉ là yêu cầu tính năng?
- Chất lượng README: Có mô tả stack trình duyệt hiện tại, cách dựng Docker, và cấu hình proxy không?
- Cụm từ cảnh báo trong issue: Tìm “search box,” “reviews_count = 0,” “driver,” “Target page,” “selector,” “empty.”
- Hoạt động fork và PR: Fork hoạt động và PR được merge là dấu hiệu cho thấy cộng đồng vẫn đang sống.
Không có hoạt động code gần đây, có bug scrape cốt lõi chưa xử lý, và cũng không có hướng dẫn về proxy hay bảo trì trình duyệt? Repo đó có lẽ chưa đủ “sống” để dùng cho công việc kinh doanh — dù số sao nhìn có vẻ ấn tượng.
Đánh giá các repo Google Maps Scraper GitHub hàng đầu

Tôi đã đánh giá các repo có nhiều sao nhất dựa trên phương pháp trên. Dưới đây là bảng tóm tắt, sau đó là ghi chú chi tiết từng repo.
| Repo | Sao | Lần đẩy cuối | Chạy được trong 2026? | Chịu được thay đổi giao diện không? | Hỗ trợ proxy | Stack |
|---|---|---|---|---|---|---|
| gosom/google-maps-scraper | 3,7k | 2026-04-19 | ⚠️ Trích xuất lõi vẫn sống; field review chập chờn | Đang bảo trì tích cực | Có, ghi rõ | Go + Playwright |
| omkarcloud/google-maps-scraper | 2,6k | 2026-04-10 | ⚠️ Ứng dụng còn hoạt động, nhưng có lỗi crash/hỗ trợ | Do nhà cung cấp bảo trì | Không được tài liệu hóa rõ | Ứng dụng desktop / binary |
| gaspa93/googlemaps-scraper | 498 | 2026-03-26 | ⚠️ Ngách scraper review rất hẹp | Bằng chứng còn hạn chế | Không có câu chuyện proxy mạnh | Python |
| conor-is-my-name/google-maps-scraper | 284 | 2026-04-14 | ⚠️ Luồng Docker nhiều hứa hẹn, nhưng bị vỡ selector vào tháng 3 | Có một số dấu hiệu đã sửa | Đã container hóa, proxy chưa rõ | Python + Docker |
| Zubdata/Google-Maps-Scraper | 120 | 2025-01-19 | ❌ Quá nhiều vấn đề stale/null-field | Ít bằng chứng | Không được nhấn mạnh | Python GUI |
| patxijuaristi/google_maps_scraper | 113 | 2025-02-24 | ❌ Tín hiệu thấp, vấn đề Chrome-driver cũ | Ít bằng chứng | Không có bằng chứng mạnh | Python |
gosom/google-maps-scraper
Hiện là lựa chọn mã nguồn mở tổng quát mạnh nhất trong nhóm. README của nó chín muồi một cách hiếm thấy: CLI, web UI, REST API, hướng dẫn Docker, cấu hình proxy, chế độ grid/bounding box, trích xuất email và nhiều đích xuất khác nhau. Nó tuyên bố có và tài liệu hóa proxy rất rõ vì “với các job scrape lớn hơn, proxy giúp tránh giới hạn tốc độ.”
Điểm yếu không phải là bị bỏ rơi — mà là độ lệch chính xác ở các field biên. Các issue mới trong năm 2026 cho thấy , , và . Vì vậy, nó khá đáng tin cho việc trích xuất danh sách doanh nghiệp, nhưng sẽ chập chờn hơn với dữ liệu review phong phú và giờ mở cửa cho tới khi bản sửa được đưa vào.
omkarcloud/google-maps-scraper
Nổi bật nhờ số sao và thời gian tồn tại lâu, nhưng cảm giác của nó giống một sản phẩm extractor đóng gói hơn là OSS minh bạch — kênh hỗ trợ, trình cài đặt desktop, upsell phần enrichment. Một người dùng vào tháng 4 năm 2026 nói ứng dụng mở lên rồi tràn terminal bằng lỗi cho đến khi bị treo. Một issue khác than rằng công cụ Chưa chết, nhưng cũng không phải câu trả lời sạch sẽ nhất cho những độc giả muốn OSS có thể kiểm tra và tự vá một cách tự tin.
gaspa93/googlemaps-scraper
Không phải scraper lead-gen tổng quát để tìm kiếm hàng loạt. Đây là một chuyên biệt, bắt đầu từ một URL review POI cụ thể trên Google Maps và lấy các review gần đây, với tùy chọn scrape metadata và sắp xếp review. Phạm vi hẹp đó thực ra lại là điểm mạnh cho một số quy trình — nhưng nó không giải quyết bài toán khám phá truy vấn chính mà đa số người dùng kinh doanh đang nghĩ tới.
conor-is-my-name/google-maps-scraper
Có tư duy đúng cho các đội vận hành hiện đại: cài đặt ưu tiên Docker, JSON API, field thân thiện với kinh doanh, và có độ hiện diện cộng đồng trong . Nhưng issue tháng 3 năm 2026 là ví dụ hoàn hảo cho thấy danh mục này mong manh đến mức nào: một người dùng cập nhật container và kết quả báo scraper Đó là lỗi ở luồng cốt lõi, không phải một lỗi thẩm mỹ ở rìa.
Zubdata/Google-Maps-Scraper
Trên giấy, bộ field khá rộng: email, review, xếp hạng, địa chỉ, website, điện thoại, danh mục, giờ mở cửa. Nhưng thực tế, bề mặt issue công khai lại kể một câu chuyện khác: người dùng báo , , và . Kết hợp với lịch sử push cũ hơn, rất khó để khuyên dùng cho năm 2026.
patxijuaristi/google_maps_scraper
Dễ tìm trong tìm kiếm GitHub, nhưng tín hiệu công khai mạnh nhất lại là một hơn là bảo trì tích cực. Nó nằm trong bài viết này chủ yếu như một ví dụ cho thấy “trông có vẻ còn sống trong tìm kiếm nhưng rất rủi ro trong thực tế” nghĩa là gì.
Từng bước: thiết lập một Google Maps scraper từ GitHub
Bạn đã quyết định rằng một repo GitHub là con đường phù hợp? Đây là cách thiết lập thực sự trông như thế nào. Tôi giữ phần này ở mức tổng quát thay vì riêng cho từng repo — các bước khá giống nhau giữa các lựa chọn còn hoạt động.
Bước 1: Clone repo và cài phụ thuộc
Đường đi phổ biến:
git clonerepo- Tạo môi trường ảo Python (hoặc kéo về một Docker image)
- Cài phụ thuộc bằng
pip install -r requirements.txthoặcdocker-compose up - Đôi khi cài runtime cho trình duyệt (Chromium cho Playwright, ChromeDriver cho Selenium)
Các repo ưu tiên Docker như và giảm bớt đau đầu về phụ thuộc nhưng không loại bỏ hoàn toàn — bạn vẫn cần Docker đang chạy và đủ dung lượng đĩa cho image trình duyệt.
Bước 2: Cấu hình tham số tìm kiếm
Hầu hết các scraper tổng quát sẽ muốn:
- Từ khóa + địa điểm (ví dụ: “plumbers in Austin TX”)
- Giới hạn kết quả (bao nhiêu danh sách sẽ trích xuất)
- Định dạng đầu ra (CSV, JSON, database)
- Đôi khi là bounding box địa lý hoặc bán kính cho tìm kiếm theo lưới
Các repo mạnh hơn sẽ hiển thị những thứ này qua cờ CLI hoặc body JSON request. Các repo cũ hơn có thể yêu cầu chỉnh trực tiếp một file Python.
Bước 3: Thiết lập proxy (nếu cần)
Bất cứ thứ gì vượt quá một bài test nhỏ? Bạn sẽ muốn proxy. và nói rõ proxy là câu trả lời tiêu chuẩn cho job lớn hơn. Không có proxy, hãy chuẩn bị gặp CAPTCHA hoặc chặn IP sau vài chục request.
Bước 4: Chạy scraper và xuất dữ liệu
Chạy script, theo dõi trình duyệt đi qua các thẻ kết quả, rồi chờ đầu ra CSV hoặc JSON. Đường đi thuận lợi chỉ mất vài phút. Còn đường đi khó khăn — vốn phổ biến hơn mọi người thừa nhận — thường gồm:
- Trình duyệt tự đóng bất ngờ
- Lệch phiên bản Chrome driver
- Lỗi selector/search box
- Số lượng review hoặc giờ mở cửa trả về trống
Cả bốn mẫu này đều xuất hiện trong các .
Bước 5: Xử lý lỗi và sự cố vỡ
Khi scraper trả về kết quả trống hoặc lỗi:
- Kiểm tra GitHub Issues của repo xem có báo cáo tương tự không
- Tìm các thay đổi UI của Google Maps (selector mới, cấu trúc trang khác)
- Cập nhật repo lên commit mới nhất
- Nếu maintainer chưa sửa, kiểm tra các fork để tìm bản vá từ cộng đồng
- Cân nhắc xem thời gian debug có đáng so với việc đổi công cụ hay không
Thời gian thiết lập thực tế lần đầu: Với người đã quen terminal nhưng chưa có sẵn bộ Playwright/Docker/proxy chạy ổn, khoảng 30–90 phút để scrape thành công lần đầu là mức thực tế. Không phải năm phút.
Cách tránh bị chặn và giới hạn tốc độ khi scrape Google Maps
Không có ngưỡng công khai nào từ Google Maps nói rằng “bạn sẽ bị chặn ở X request.” Google cố tình giữ nó mập mờ. Một số người dùng báo CAPTCHA sau khoảng trên các thiết lập Playwright chạy trên server. Một người khác lại nói họ đạt cho một scraper Maps do công ty xây. Ngưỡng không cao cũng không thấp. Nó không ổn định và phụ thuộc bối cảnh.
Đây là bảng chiến lược thực dụng:
| Chiến lược | Độ khó | Hiệu quả | Chi phí |
|---|---|---|---|
| Thêm độ trễ ngẫu nhiên (2–5 giây giữa các request) | Dễ | Trung bình | Miễn phí |
| Giảm concurrency (ít phiên song song hơn) | Dễ | Trung bình | Miễn phí |
| Xoay vòng residential proxy | Trung bình | Cao | $1–6/GB |
| Datacenter proxy (cho mục tiêu dễ) | Trung bình | Trung bình | $0.02–0.6/GB |
| Random hóa fingerprint của trình duyệt headless | Khó | Cao | Miễn phí |
| Duy trì phiên trình duyệt / phiên đã “làm nóng” | Trung bình | Trung bình | Miễn phí |
| Scrape trên cloud (chuyển gánh nặng đi chỗ khác) | Dễ | Cao | Tùy biến |
Thêm độ trễ ngẫu nhiên giữa các request
Khoảng cách cố định 1 giây là một tín hiệu đáng ngờ. Hãy dùng jitter ngẫu nhiên — 2 đến 5 giây giữa các hành động, thỉnh thoảng có những khoảng nghỉ dài hơn. Đây là thứ dễ làm nhất và không tốn gì.
Xoay vòng proxy (residential vs. datacenter)
Residential proxy hiệu quả hơn vì trông giống người dùng thật, nhưng đắt hơn. Giá hiện tại: , , . Datacenter proxy có thể dùng cho việc scrape nhẹ nhưng dễ bị Google phát hiện sớm hơn trên các sản phẩm của họ.
Random hóa fingerprint của trình duyệt
Với scraper dùng trình duyệt headless: hãy xoay vòng user agent, kích thước viewport và các tín hiệu fingerprint khác. Cấu hình mặc định của Playwright/Puppeteer rất dễ bị phát hiện. Cách này khó triển khai hơn nhưng miễn phí và cực kỳ hiệu quả.
Dùng scraping trên cloud để chuyển gánh nặng đi chỗ khác
Các công cụ như xử lý lớp chống bot, xoay IP và giới hạn tốc độ tự động thông qua hạ tầng scraping trên cloud. Thunderbit ở chế độ cloud — không cần thiết lập proxy hay cấu hình độ trễ. Với các đội không muốn trở thành kỹ sư chống bot bán thời gian, đây là con đường thực dụng nhất.
Giới hạn tốc độ của Google thực sự trông như thế nào
Dấu hiệu bạn đang bị giới hạn tốc độ:
- CAPTCHA xuất hiện giữa lúc scrape
- Bộ kết quả trống sau khi trước đó truy vấn vẫn thành công
- Chặn IP tạm thời (thường 1–24 giờ)
- Tải trang kém hơn (chậm hơn, nội dung bị thiếu một phần)
Cách khôi phục: dừng scrape, đổi IP, chờ 15–60 phút, rồi tiếp tục với concurrency thấp hơn. Nếu bạn thường xuyên chạm ngưỡng này, thiết lập của bạn cần proxy hoặc một hướng đi nền tảng khác.
Lối thoát no-code: khi repo Google Maps Scraper trên GitHub không đáng để bạn mất thời gian
Khoảng 90% bài viết về scraping Google Maps mặc định rằng bạn biết Python. Nhưng một phần lớn độc giả — chủ agency, sales rep, đội local SEO, nhà nghiên cứu — chỉ cần các hàng dữ liệu trong bảng tính. Không phải một dự án tự động hóa trình duyệt. Nếu đó là bạn, phần này sẽ nói thẳng về các đánh đổi.
Chi phí thực sự của “scraper miễn phí” trên GitHub
| Yếu tố | Cách tiếp cận repo GitHub | Phương án no-code thay thế (ví dụ: Thunderbit) | |---|---|---|---| | Thời gian thiết lập | 30–90 phút (Python/Docker/proxy) | ~2 phút (browser extension) | | Bảo trì | Thủ công (bạn tự sửa lỗi vỡ) | Tự động (nhà cung cấp bảo trì) | | Tùy chỉnh | Cao (toàn quyền truy cập mã) | Trung bình (field cấu hình bằng AI) | | Chi phí | Phần mềm miễn phí, nhưng tốn thời gian + proxy | Có gói miễn phí, sau đó tính theo credit | | Quy mô | Phụ thuộc hạ tầng của bạn | Mở rộng dựa trên cloud |
“Free” scraper trên GitHub chỉ chuyển hóa đơn sang thời gian. Nếu bạn định giá thời gian của mình $50/giờ và mất 2 giờ để thiết lập + 1 giờ để xử lý lỗi + 30 phút cấu hình proxy, bạn đã tiêu $175 trước khi scrape được một danh sách nào. Cộng thêm chi phí proxy và công bảo trì liên tục khi Google thay đổi giao diện, lựa chọn “miễn phí” bắt đầu trông khá đắt.
Thunderbit đơn giản hóa Google Maps scraping như thế nào
Đây là quy trình thực tế với :
- Cài
- Mở Google Maps và chạy tìm kiếm của bạn
- Bấm “AI Suggest Fields” — AI của Thunderbit đọc trang và gợi ý các cột (tên doanh nghiệp, địa chỉ, số điện thoại, xếp hạng, website, v.v.)
- Bấm “Scrape” và dữ liệu sẽ được cấu trúc tự động
- Dùng subpage scraping để truy cập website của từng doanh nghiệp từ các URL đã scrape và trích xuất thêm thông tin liên hệ (email, số điện thoại) — tự động hóa phần mà người dùng repo GitHub thường làm thủ công
- Xuất sang — không có tường phí cho việc xuất dữ liệu
Không cần Python. Không cần Docker. Không cần proxy. Không cần bảo trì. Với nhóm sales và marketing làm lead generation, điều này loại bỏ toàn bộ gánh nặng thiết lập mà các repo GitHub đòi hỏi.
Bối cảnh giá: Thunderbit dùng mô hình credit, trong đó . Gói miễn phí bao gồm 6 trang mỗi tháng, bản dùng thử miễn phí bao gồm 10 trang, và gói starter là .
Sau khi scrape: dọn dẹp và làm giàu dữ liệu Google Maps của bạn
Hầu hết các hướng dẫn dừng lại ở bước trích xuất thô. Dữ liệu thô không phải là danh sách lead. Người dùng trên diễn đàn thường báo và hỏi “Bạn xử lý trùng lặp với thiết lập này thế nào?” Đây là những gì xảy ra sau khi scrape.
Khử trùng lặp kết quả
Bản ghi trùng xuất hiện từ chồng lấp phân trang, tìm kiếm lặp lại trên các vùng giao nhau, chiến lược grid/bounding box bao phủ cùng một doanh nghiệp, và các doanh nghiệp có nhiều danh sách.
Thứ tự best practice để khử trùng lặp:
- So khớp theo place_id nếu scraper của bạn có xuất field này (đáng tin nhất)
- So khớp chính xác theo tên doanh nghiệp đã chuẩn hóa + địa chỉ
- So khớp mờ theo tên + địa chỉ, sau đó xác nhận bằng điện thoại hoặc website
Các công thức đơn giản trong Excel/Sheets (COUNTIF, Remove Duplicates) xử lý được phần lớn trường hợp. Với bộ dữ liệu lớn hơn, một script Python khử trùng lặp nhanh bằng pandas sẽ rất hiệu quả.
Chuẩn hóa số điện thoại và địa chỉ
Số điện thoại đã scrape xuất hiện với đủ loại định dạng: (555) 123-4567, 555-123-4567, +15551234567, 5551234567. Để import vào CRM, hãy chuẩn hóa tất cả về định dạng E.164 — tức là + mã quốc gia + số quốc gia, ví dụ +15551234567.
khi scrape — bớt đi một bước dọn dẹp.
Với địa chỉ, hãy chuẩn hóa về một định dạng nhất quán: đường, thành phố, bang, mã bưu chính. Bỏ khoảng trắng thừa, sửa khác biệt viết tắt (St vs Street), và xác thực bằng dịch vụ geocoding nếu độ chính xác là quan trọng.
Làm giàu bằng email, website và hồ sơ mạng xã hội
Danh sách Google Maps gần như luôn có URL website. Gần như không bao giờ có email trực tiếp. Mẫu chiến thắng là:
- Scrape Maps để khám phá doanh nghiệp (tên, địa chỉ, số điện thoại, URL website)
- Truy cập website của từng doanh nghiệp để trích xuất email, liên kết mạng xã hội và các thông tin liên hệ khác
Đây là điểm mà các repo GitHub tốt nhất và công cụ no-code gặp nhau:
- bằng cách truy cập website của doanh nghiệp
- có thể truy cập website của từng doanh nghiệp từ các URL đã scrape và trích xuất email cùng số điện thoại — tất cả được gắn thêm vào bảng gốc của bạn
Với người dùng repo GitHub không có enrichment tích hợp, điều này đồng nghĩa phải viết scraper thứ hai hoặc truy cập từng website thủ công. Thunderbit gộp cả hai bước vào một quy trình.
Xuất sang CRM hoặc công cụ quy trình làm việc của bạn
Các đích xuất thực tế nhất:
- Google Sheets để dọn dẹp và chia sẻ cộng tác
- Airtable cho database có cấu trúc, bộ lọc và view
- Notion cho database vận hành nhẹ
- CSV/JSON để import vào CRM hoặc tự động hóa downstream
Thunderbit hỗ trợ . Hầu hết repo GitHub chỉ xuất CSV hoặc JSON — bạn sẽ phải tự lo tích hợp CRM riêng. Nếu bạn đang tìm thêm cách đưa dữ liệu scrape vào bảng tính, hãy xem hướng dẫn của chúng tôi về .
Repo Google Maps Scraper trên GitHub: bảng so sánh đầy đủ
Đây là bảng tóm tắt đáng lưu bookmark cho tất cả các cách tiếp cận:
| Công cụ / Repo | Loại | Mô hình chi phí | Thời gian thiết lập | Quản lý proxy | Bảo trì | Tùy chọn xuất | Chạy được trong 2026? |
|---|---|---|---|---|---|---|---|
| Google Places API | API chính thức | $7–32 / 1K lượt gọi (Pro) | Thấp | Không cần | Thấp | JSON / tích hợp ứng dụng | ✅ |
| gosom/google-maps-scraper | OSS trên GitHub | Miễn phí + proxy + thời gian | Trung bình | Có, tài liệu hóa | Cao | CSV, JSON, DB, API | ⚠️ |
| omkarcloud/google-maps-scraper | GitHub đóng gói | Gần như miễn phí, có tính sản phẩm | Trung bình | Không rõ | Trung bình-Cao | Đầu ra ứng dụng | ⚠️ |
| gaspa93/googlemaps-scraper | GitHub review scraper | Miễn phí + thời gian | Trung bình | Hạn chế | Trung bình-Cao | CSV | ⚠️ (ngách) |
| conor-is-my-name/google-maps-scraper | GitHub Docker API | Miễn phí + thời gian | Trung bình | Có thể | Cao | JSON / dịch vụ Docker | ⚠️ |
| Zubdata/Google-Maps-Scraper | Ứng dụng GUI trên GitHub | Miễn phí + thời gian | Trung bình | Hạn chế | Cao | Đầu ra ứng dụng | ❌ |
| Thunderbit | Extension no-code | Credit / hàng | Thấp | Được ẩn đi (cloud) | Thấp-Trung bình | Sheets, Excel, Airtable, Notion, CSV, JSON | ✅ |
Để có thêm bối cảnh khi chọn giữa các cách scrape, bạn cũng có thể thấy bài tổng hợp về hữu ích, hoặc bài so sánh .
Cân nhắc pháp lý và điều khoản dịch vụ
Phần này ngắn, nhưng rất quan trọng.
Điều khoản hiện tại của Google Maps Platform nói rất rõ: khách hàng không được bao gồm việc sao chép và lưu tên doanh nghiệp, địa chỉ, hoặc review của người dùng bên ngoài phạm vi sử dụng được phép của dịch vụ. Điều khoản riêng theo dịch vụ của Google cũng chỉ cho phép caching có giới hạn đối với một số API, thường là .
Thứ bậc pháp lý khá rõ:
- Dùng API có nền tảng hợp đồng rõ ràng nhất
- Scraper trên GitHub hoạt động trong vùng mờ hơn nhiều
- Công cụ no-code giảm gánh nặng vận hành nhưng không xóa bỏ nghĩa vụ tuân thủ của chính bạn
Hãy hỏi cố vấn pháp lý của riêng bạn cho trường hợp sử dụng cụ thể. Để xem sâu hơn về bối cảnh pháp lý, chúng tôi đã có bài riêng về .
Kết luận chính: chọn cách tiếp cận Google Maps Scraper nào trong năm 2026
Sau khi mổ xẻ repo, issue, diễn đàn và trang giá, đây là bức tranh hiện tại:
-
Luôn kiểm tra độ mới của repo trước khi đầu tư thời gian thiết lập. Số sao không phải là tín hiệu thay cho “chạy được hôm nay”. Hãy đọc ba issue gần nhất. Tìm commit code trong 3–6 tháng gần đây.
-
Lựa chọn mã nguồn mở tốt nhất hiện tại là gosom/google-maps-scraper — nhưng ngay cả nó cũng đang có các regression field mới trong năm 2026. Hãy coi nó như một hệ thống sống cần theo dõi, không phải công cụ cắm rồi quên.
-
Google Places API là câu trả lời phù hợp cho độ ổn định và sự rõ ràng pháp lý — nhưng nó có giới hạn (tối đa 5 review, tính phí theo lượt gọi) và không giải quyết tốt bài toán khám phá hàng loạt.
-
Với đội không thiên về kỹ thuật, công cụ no-code như là phương án thực dụng. Khoảng cách từ thiết lập đến dữ liệu đầu tiên chỉ tính bằng phút thay vì giờ, và bạn không phải nhận thêm vai trò “người bảo trì scraper” bán thời gian.
-
Dữ liệu thô chỉ là một nửa công việc. Hãy dành ngân sách thời gian cho khử trùng lặp, chuẩn hóa số điện thoại, làm giàu email, và xuất sang CRM. Những công cụ tự động hóa các bước này (như subpage scraping và chuẩn hóa E.164 của Thunderbit) tiết kiệm thời gian nhiều hơn đa số mọi người nghĩ.
-
“Scraper miễn phí” nên được hiểu là phần mềm kèm theo công bảo trì chưa trả tiền. Điều đó ổn nếu bạn có kỹ năng và thích công việc này. Nhưng đó là một thỏa thuận tệ nếu bạn là nhân viên sales chỉ cần 500 lead bác sĩ nha khoa ở Phoenix trước thứ Sáu.
Nếu bạn muốn khám phá thêm các lựa chọn để trích xuất dữ liệu doanh nghiệp, hãy xem các hướng dẫn của chúng tôi về , , và . Bạn cũng có thể xem các video hướng dẫn trên .
Câu hỏi thường gặp
Dùng Google Maps scraper từ GitHub có miễn phí không?
Phần mềm thì miễn phí. Công việc thì không. Bạn sẽ đầu tư 30–90 phút để thiết lập, thời gian liên tục để xử lý lỗi vỡ, và thường là $10–100+/tháng cho proxy nếu làm ở quy mô đáng kể. Nếu thời gian của bạn có giá trị, “miễn phí” là cách gọi không chính xác.
Tôi có cần biết Python để dùng Google Maps scraper từ GitHub không?
Phần lớn repo phổ biến yêu cầu kiến thức cơ bản về Python và dòng lệnh. Các repo ưu tiên Docker giảm gánh nặng nhưng không loại bỏ hoàn toàn — bạn vẫn cần debug lỗi container, cấu hình tham số tìm kiếm, và xử lý thiết lập proxy. Với người không thiên về kỹ thuật, công cụ no-code như cung cấp phương án 2 cú nhấp không cần viết code.
Repo Google Maps scraper trên GitHub thường hỏng bao lâu một lần?
Không có lịch cố định, nhưng lịch sử issue hiện tại cho thấy lỗi cốt lõi và regression field xuất hiện theo chu kỳ vài tuần đến vài tháng. Google cập nhật UI Maps thường xuyên, có thể làm hỏng selector và logic parsing chỉ sau một đêm. Repo đang hoạt động sẽ sửa nhanh; repo bị bỏ rơi sẽ cứ hỏng mãi.
Tôi có thể scrape review Google Maps bằng scraper GitHub không?
Một số repo hỗ trợ trích xuất review đầy đủ (gaspa93/googlemaps-scraper được thiết kế riêng cho việc này), trong khi những repo khác chỉ lấy dữ liệu tóm tắt như xếp hạng và số lượng review. Review cũng là một trong những nhóm field đầu tiên bị lệch khi Google thay đổi hành vi trang — vì vậy ngay cả repo có hỗ trợ review cũng có thể trả về dữ liệu không đầy đủ sau khi UI cập nhật.
Nếu không muốn dùng scraper GitHub thì giải pháp thay thế tốt nhất là gì?
Có hai hướng chính: Google Places API để truy cập chính thức, có cấu trúc (nhưng bị giới hạn về chi phí và field), hoặc công cụ no-code như để trích xuất nhanh bằng AI mà không cần viết code. API là tốt nhất cho lập trình viên cần sự chắc chắn về tuân thủ. Thunderbit là tốt nhất cho người dùng kinh doanh cần dữ liệu trong bảng tính thật nhanh.
Tìm hiểu thêm