Facebook Scraper GitHub: Cái nào còn hoạt động và cái nào không

Cập nhật lần cuối vào April 23, 2026

Tìm kiếm trên GitHub với từ khóa "facebook scraper" trả về . Chỉ có được cập nhật trong 6 tháng gần đây.

Khoảng cách giữa "có sẵn" và "thực sự hoạt động" chính là toàn bộ câu chuyện về scraping Facebook trên GitHub trong năm 2026.

Tôi đã dành rất nhiều thời gian lần theo các tab issue của repo, các lời phàn nàn trên Reddit và cả đầu ra thực tế từ những công cụ này. Mẫu số chung rất rõ: phần lớn dự án có nhiều sao nhất đã âm thầm hỏng, người duy trì đã bỏ cuộc, và các cơ chế chống scraping của Facebook ngày càng tinh vi hơn. Lập trình viên lẫn người dùng doanh nghiệp cứ tìm đến cùng một kết quả, cài cùng những repo đó, rồi lại gặp đúng một kiểu đầu ra rỗng. Bài viết này là một cuộc kiểm tra thực tế cho năm 2026 — một bản đánh giá thẳng thắn về repo nào còn đáng để bạn dành thời gian, Facebook đang làm gì để phá chúng, và khi nào bạn nên bỏ qua GitHub hoàn toàn.

Vì sao mọi người tìm một Facebook Scraper trên GitHub

Các nhu cầu đằng sau truy vấn này vẫn giống như nhiều năm trước — dù công cụ liên tục hỏng hóc:

  • Tạo khách hàng tiềm năng: Trích xuất thông tin liên hệ từ trang doanh nghiệp (email, số điện thoại, địa chỉ) để tiếp cận
  • Theo dõi Marketplace: Giám sát danh sách sản phẩm, giá và thông tin người bán cho ecommerce hoặc arbitrage
  • Nghiên cứu nhóm: Lưu trữ bài đăng và bình luận cho nghiên cứu thị trường, OSINT hoặc quản lý cộng đồng
  • Lưu trữ nội dung và bài đăng: Lưu bài viết công khai trên trang, phản ứng, hình ảnh và dấu thời gian
  • Tổng hợp sự kiện: Lấy tiêu đề, ngày, địa điểm và người tổ chức của sự kiện

Sức hút của GitHub là điều dễ hiểu: mã nguồn công khai, miễn phí, cộng đồng có thể duy trì (về lý thuyết), và toàn quyền kiểm soát trường dữ liệu lẫn pipeline.

Vấn đề là sao và fork không đồng nghĩa với "đang hoạt động tốt". Trong top 10 repo khớp chính xác theo cụm từ, tính đến tháng 4/2026. Đây không phải là ngoại lệ — mà là chuyện bình thường.

Một người dùng Reddit trong đã nói rất rõ sau 6 tháng thử nghiệm: việc này "bất khả thi nếu không trả tiền cho một ứng dụng scraping dữ liệu bên ngoài" hoặc phải dùng Python cộng với render JS cộng với rất nhiều tài nguyên tính toán. Một người khác trong tóm tắt ngắn gọn rằng: "Facebook là một trong những nền tảng khó scrape nhất vì họ chặn tự động hóa rất mạnh" và tự động hóa trình duyệt thì "dễ hỏng vì Facebook liên tục thay đổi DOM của họ."

Nhu cầu là thật. Sự bực bội cũng là thật. Phần còn lại của bài viết này là cách vượt qua khoảng trống đó.

Chính xác thì một repo Facebook Scraper trên GitHub là gì?

Một "Facebook scraper" trên GitHub là một script mã nguồn mở — thường là Python — dùng để trích xuất có lập trình dữ liệu công khai từ các trang, bài đăng, nhóm, Marketplace hoặc hồ sơ Facebook. Không phải cái nào cũng hoạt động giống nhau. Ba kiến trúc phổ biến nhất là:

Scraper tự động hóa trình duyệt vs. wrapper API vs. scraper HTTP trực tiếp

Cách tiếp cậnNgăn xếp điển hìnhĐiểm mạnhĐiểm yếu
Tự động hóa trình duyệtSelenium, Playwright, PuppeteerXử lý được tường đăng nhập, mô phỏng hành vi người dùng thậtChậm, tốn tài nguyên, dễ bị nhận diện nếu không cấu hình cẩn thận
Wrapper API chính thứcMeta Graph API / Pages APIỔn định, có tài liệu, tuân thủ nếu được phê duyệtBị hạn chế nghiêm ngặt — phần lớn dữ liệu bài đăng/nhóm công khai hiện không còn доступ
Scraper HTTP trực tiếprequests, phân tích HTML, endpoint không được tài liệu hóaNhanh và nhẹ khi hoạt độngHỏng ngay khi Facebook đổi cấu trúc trang hoặc biện pháp chống bot

là ví dụ HTTP trực tiếp kinh điển: nó scrape các trang công khai "không cần API key" bằng cách gửi request trực tiếp và phân tích dữ liệu. là ví dụ tự động hóa trình duyệt. đại diện cho thời kỳ Graph API cũ, khi script có thể lấy bài đăng của trang/nhóm qua các endpoint chính thức mà hiện nay không còn phổ biến nữa.

Dữ liệu mục tiêu điển hình trên các repo này gồm văn bản bài đăng, dấu thời gian, số lượng phản ứng/bình luận, URL hình ảnh, siêu dữ liệu trang (danh mục, điện thoại, email, số người theo dõi), các trường của danh sách Marketplace, và siêu dữ liệu của nhóm hoặc sự kiện.

Trong năm 2026, đánh đổi thực sự không phải là ngôn ngữ lập trình bạn thích. Mà là kiểu lỗi nào bạn có thể chấp nhận.

Kiểm tra độ mới của Facebook Scraper GitHub năm 2026: Repo nào thực sự còn dùng được?

Tôi đã kiểm tra các repo Facebook scraper được nhiều sao và được khuyến nghị nhất trên GitHub đối chiếu với dữ liệu thực tế năm 2026 — không phải lời hứa trong README, mà là ngày commit thực, hàng đợi issue và báo cáo từ cộng đồng. Đây là phần quan trọng nhất.

Bảng kiểm tra độ mới đầy đủ

RepoSaoLần đẩy cuốiIssue mởNgôn ngữ / runtimeCòn scrape được gìTrạng thái
kevinzg/facebook-scraper3.1572024-06-22438Python ^3.6Bài đăng công khai bị giới hạn, một số bình luận/hình ảnh, siêu dữ liệu trang⚠️ Hỏng một phần / đã cũ
moda20/facebook-scraper1102024-06-1429Python ^3.6Như kevinzg + các hàm hỗ trợ Marketplace⚠️ Fork hỏng một phần / đã cũ
minimaxir/facebook-page-post-scraper2.1282019-05-2353Thời Python 2/3, phụ thuộc Graph APIChỉ còn giá trị tham khảo lịch sử❌ Bị bỏ rơi
apurvmishra99/facebook-scraper-selenium2322020-06-287Python + SeleniumTự động hóa trình duyệt để scrape trang❌ Bị bỏ rơi
passivebot/facebook-marketplace-scraper3752024-04-293Python 3.x + Playwright 1.40Danh sách Marketplace qua tự động hóa trình duyệt⚠️ Mong manh / ngách
Mhmd-Hisham/selenium_facebook_scraper372022-11-291Python + SeleniumScraping bằng Selenium tổng quát❌ Bị bỏ rơi
anabastos/faceteer202023-07-115JavaScriptThiên về tự động hóa❌ Rủi ro / ít bằng chứng

Một vài điểm nổi bật:

  • Ngay cả fork "đang hoạt động" (moda20) cũng chưa được đẩy từ tháng 6/2024.
  • Hàng đợi issue kể câu chuyện thật nhanh hơn README rất nhiều.
  • Cả kevinzg và moda20 vẫn khai báo Python ^3.6 trong file — dấu hiệu cho thấy nền phụ thuộc chưa được hiện đại hóa.

kevinzg/facebook-scraper

Repo Facebook scraper bằng Python nổi tiếng nhất trên GitHub. mô tả việc scrape trang, scrape nhóm, đăng nhập bằng thông tin xác thực hoặc cookie, và các trường ở cấp bài đăng như comments, image, images, likes, post_id, post_text, text, và time.

Tuy nhiên, tín hiệu vận hành lại yếu:

  • Lần đẩy cuối: 22/06/2024
  • Issue mở: — bao gồm các tiêu đề như "Example Scrape does not return any posts"
  • Người duy trì không phản hồi các issue gần đây

Kết luận: Hỏng một phần. Vẫn có giá trị cho thử nghiệm quy mô nhỏ trên trang công khai và như một tài liệu tham chiếu tên trường, nhưng không đáng tin cho môi trường production.

moda20/facebook-scraper (fork cộng đồng)

Fork nổi bật nhất của kevinzg, bổ sung tùy chọn và các helper hướng tới Marketplace như extract_listing (được mô tả trong ).

cho thấy rất rõ tình trạng hỏng:

  • "mbasic is gone"
  • "CLI 'Couldn't get any posts.'"
  • "https://mbasic.facebook.com is no longer working"

Khi giao diện mbasic đơn giản thay đổi hoặc biến mất, cả một lớp scraper sẽ suy yếu cùng lúc.

Kết luận: Fork đáng chú ý nhất, nhưng cũng đã cũ và mong manh trong năm 2026. Đáng thử đầu tiên nếu bạn nhất quyết dùng giải pháp từ GitHub, nhưng đừng kỳ vọng ổn định.

minimaxir/facebook-page-post-scraper

Từng là công cụ Graph API rất thực dụng để thu thập bài đăng, phản ứng, bình luận và siêu dữ liệu từ các Page công khai và Open Group vào CSV. vẫn còn giải thích cách dùng App ID và App Secret của ứng dụng Facebook.

Đến năm 2026, nó chỉ còn là một di vật lịch sử:

  • Lần đẩy cuối: 23/05/2019
  • Issue mở: 53 — bao gồm "HTTP 400 Error Bad Request" và "No data retrieved!!"

Kết luận: Đã bị bỏ rơi. Phụ thuộc chặt vào mô hình phân quyền API mà Meta sau này đã siết lại rất nhiều.

Các repo đáng chú ý khác

  • passivebot/facebook-marketplace-scraper: Hữu ích cho nhu cầu Marketplace, nhưng có các phản ánh như "login to view the content", "CSS selectors outdated" và "Getting blocked". Một case study gói gọn trong một dòng về những gì dễ hỏng khi scrape Marketplace.
  • apurvmishra99/facebook-scraper-selenium: Có một issue hỏi thẳng từ tháng 9/2020. Chỉ thế thôi đã nói lên gần như tất cả.
  • Mhmd-Hisham/selenium_facebook_scraperanabastos/faceteer: Không có đủ hoạt động gần đây để tạo niềm tin.

facebook_scraper_repo_audit_v1.png

Cơ chế chống scraping của Facebook: Mỗi scraper GitHub phải đối mặt với gì

Phần lớn bài viết về chủ đề này chỉ đưa ra những cảnh báo chung chung kiểu "hãy xem ToS". Điều đó không hữu ích.

Facebook có một trong những hệ thống chống scraping mạnh tay nhất trong số các nền tảng lớn. Hiểu các lớp phòng vệ cụ thể khác nhau thế nào chính là ranh giới giữa một scraper hoạt động được và một buổi chiều chỉ nhận đầu ra rỗng.

Bài đăng kỹ thuật mô tả một "Anti Scraping team" dùng phân tích tĩnh trên toàn bộ codebase để xác định các vector scraping, gửi thư yêu cầu chấm dứt, vô hiệu hóa tài khoản và dựa vào hệ thống giới hạn tốc độ. Đây không phải giả định — mà là một cam kết ở cấp tổ chức.

facebook_scraper_defense_layers_v1.png

DOM và tên lớp CSS thay đổi ngẫu nhiên

Facebook cố tình làm ngẫu nhiên ID phần tử HTML, tên lớp và cấu trúc trang. Như một bình luận trên đã nói: "Không có scraper bình thường nào có thể chạy trên Facebook. HTML thay đổi giữa các lần refresh."

Điều bị phá: XPath và bộ chọn CSS từng chạy tuần trước giờ trả về rỗng.

Cách giảm thiểu: Dùng bộ chọn dựa trên văn bản hoặc thuộc tính khi có thể. Phân tích bằng AI, tức đọc nội dung trang thay vì bám vào selector cứng nhắc, sẽ xử lý tốt hơn. Hãy xem việc bảo trì selector là chi phí lặp lại.

Tường đăng nhập và quản lý phiên

Nhiều khu vực của Facebook — hồ sơ, nhóm, một số danh sách Marketplace — yêu cầu đăng nhập mới xem được. Trình duyệt headless sẽ bị chuyển hướng hoặc chỉ nhận HTML tối giản. Tab của scraper Marketplace passivebot có complaint lớn nhất là "login to view the content".

Điều bị phá: Request ẩn danh không lấy được nội dung hoặc bị chuyển hướng hoàn toàn.

Cách giảm thiểu: Dùng cookie phiên từ một phiên trình duyệt thật, hoặc công cụ scrape dựa trên trình duyệt chạy trong chính phiên đã đăng nhập của bạn. Có thể xoay vòng tài khoản, nhưng rất rủi ro.

Dấu vân tay kỹ thuật số

Bài đăng kỹ thuật của Meta cho biết các scraper trái phép — về bản chất là một tuyên bố rằng chất lượng trình duyệt và chất lượng hành vi là yếu tố cốt lõi để phát hiện. Các cuộc thảo luận cộng đồng vào vẫn tiếp tục khuyên dùng trình duyệt anti-detect và fingerprint ổn định.

Điều bị phá: Các cấu hình Selenium hoặc Puppeteer tiêu chuẩn rất dễ bị nhận diện.

Cách giảm thiểu: Dùng công cụ như undetected-chromedriver hoặc profile trình duyệt anti-detect. Phiên làm việc thực tế và fingerprint nhất quán quan trọng hơn việc chỉ giả user-agent.

Giới hạn tốc độ và chặn theo IP

Bài đăng kỹ thuật của Meta công khai bàn về rate limiting như một phần của chiến lược phòng thủ, bao gồm việc giới hạn số lượng trong danh sách người theo dõi để buộc thêm request rồi . Trong thực tế, người dùng báo cáo bị giới hạn tốc độ sau khi đăng vào .

Điều bị phá: Request hàng loạt từ cùng một IP sẽ bị làm chậm hoặc chặn trong vài phút. IP proxy datacenter thường đã bị chặn sẵn.

Cách giảm thiểu: Xoay vòng proxy residential, không dùng proxy datacenter, và điều chỉnh nhịp request hợp lý.

Thay đổi schema GraphQL

Một số scraper dựa vào các endpoint GraphQL nội bộ của Facebook vì chúng trả về dữ liệu có cấu trúc sạch hơn HTML thô. Nhưng Meta không công bố cam kết ổn định cho GraphQL nội bộ, nên các truy vấn này có thể hỏng âm thầm — trả về dữ liệu rỗng thay vì báo lỗi.

Điều bị phá: Trích xuất có cấu trúc nhưng âm thầm không trả về gì.

Cách giảm thiểu: Thêm bước kiểm tra hợp lệ, theo dõi các endpoint schema và cố định vào những truy vấn đã biết còn hoạt động. Hãy chuẩn bị cho việc bảo trì.

Tóm tắt các lớp phòng vệ chống scraping

Lớp phòng vệNó phá scraper của bạn như thế nàoCách giảm thiểu thực tế
Cấu trúc thay đổi / selector không ổn địnhXPath và CSS selector trả về rỗng hoặc chỉ một phần trườngƯu tiên các điểm neo bền vững, kiểm tra với nội dung hiển thị, chấp nhận chi phí bảo trì
Tường đăng nhậpRequest khi chưa đăng nhập sẽ thiếu nội dung hoặc bị chuyển hướngDùng cookie phiên hợp lệ hoặc công cụ chạy trong phiên trình duyệt
Nhận diện vân tayTự động hóa tiêu chuẩn trông rất giảDùng trình duyệt thật, chất lượng phiên nhất quán, biện pháp anti-detect
Giới hạn tốc độĐầu ra rỗng, bị chặn, bị làm chậmChạy chậm hơn, batch nhỏ hơn, xoay vòng proxy residential
Thay đổi truy vấn nội bộTrích xuất có cấu trúc nhưng trả về dữ liệu rỗng âm thầmThêm bước kiểm tra hợp lệ, chấp nhận bảo trì truy vấn

Khi repo GitHub thất bại: lối thoát không cần code

Rất nhiều người tìm đến "facebook scraper github" không phải là lập trình viên. Họ là nhân viên sales cần email từ trang doanh nghiệp, người vận hành ecommerce theo dõi giá Marketplace, hoặc marketer làm nghiên cứu đối thủ. Họ không muốn quản lý môi trường Python, gỡ lỗi selector hỏng hay xoay vòng proxy.

Nếu bạn thấy mình trong đó, quyết định rất ngắn gọn:

facebook_scraper_no_code_v1.png

Scrape thông tin liên hệ của Page Facebook (email, số điện thoại)

Nếu công việc là lấy email và số điện thoại từ phần "Giới thiệu" của Page, thì một repo GitHub là quá mức cần thiết. miễn phí của có thể quét một trang web và xuất kết quả sang Sheets, Excel, Airtable hoặc Notion. AI đọc lại trang mỗi lần, nên thay đổi DOM của Facebook không phá hỏng công việc.

Scrape dữ liệu có cấu trúc từ Marketplace hoặc trang doanh nghiệp

Với việc trích xuất danh sách sản phẩm, giá, địa điểm hoặc thông tin doanh nghiệp, AI Web Scraper của Thunderbit cho phép bạn bấm "AI Suggest Fields" — AI sẽ đọc trang và đề xuất các cột như giá, tiêu đề, địa điểm — rồi bấm "Scrape." Không cần bảo trì XPath, không cần cài code. Xuất trực tiếp sang .

Theo dõi theo lịch trình (cảnh báo giá Marketplace, theo dõi đối thủ)

Với nhu cầu giám sát liên tục — "báo cho tôi khi một listing trên Marketplace khớp khoảng giá của tôi" — của Thunderbit cho phép bạn mô tả khoảng thời gian bằng ngôn ngữ tự nhiên (như ) và đặt URL. Công cụ sẽ chạy tự động, không cần cron job.

Khi nào repo GitHub vẫn là lựa chọn đúng

Nếu bạn cần kiểm soát lập trình sâu, trích xuất quy mô lớn hoặc pipeline dữ liệu tùy chỉnh, repo GitHub (hoặc cho trích xuất có cấu trúc) là công cụ phù hợp. Quyết định rất rõ: người dùng doanh nghiệp có nhu cầu trích xuất đơn giản → ưu tiên no-code; lập trình viên xây dựng pipeline dữ liệu → repo GitHub hoặc API.

Mẫu đầu ra thực tế: Bạn sẽ thực sự nhận được gì

Mỗi bài viết đối thủ đều cho xem đoạn code nhưng không bao giờ đưa đầu ra thực tế. Dưới đây là những gì bạn có thể kỳ vọng một cách thực tế từ từng cách tiếp cận.

Mẫu đầu ra: kevinzg/facebook-scraper (hoặc fork đang hoạt động)

Từ , một bài đăng công khai được scrape sẽ trả về JSON như sau:

1{
2  "comments": 459,
3  "comments_full": null,
4  "image": "https://...",
5  "images": ["https://..."],
6  "likes": 3509,
7  "post_id": "2257188721032235",
8  "post_text": "Đừng để phiên bản nhỏ bé này...",
9  "text": "Đừng để phiên bản nhỏ bé này...",
10  "time": "2019-04-30T05:00:01"
11}

Lưu ý các trường có thể rỗng như comments_full. Trong năm 2026, hãy kỳ vọng nhiều trường trả về rỗng hoặc bị thiếu hơn — thường đó là dấu hiệu bị chặn, chứ không phải lỗi vô hại. Đầu ra là JSON thô và cần xử lý thêm sau đó.

Mẫu đầu ra: Facebook Graph API

hiện tại của Meta mô tả các request lấy thông tin page như GET /<PAGE_ID>?fields=id,name,about,fan_count. bao gồm các trường như followers_count, fan_count, category, emails, phone và các siêu dữ liệu công khai khác — nhưng chỉ khi có đúng quyền như .

Đó là dạng dữ liệu hẹp hơn nhiều so với kỳ vọng của phần lớn người dùng scraper trên GitHub. Nó tập trung vào Page, bị ràng buộc quyền, và không phải là thay thế cho việc scrape bài đăng công khai hoặc nhóm một cách tùy ý.

Mẫu đầu ra: Thunderbit AI Web Scraper

Các cột được AI đề xuất của Thunderbit cho một trang doanh nghiệp Facebook sẽ tạo ra một bảng sạch và có cấu trúc:

URL trangTên doanh nghiệpEmailSố điện thoạiDanh mụcĐịa chỉSố người theo dõi
facebook.com/exampleExample Bizinfo@example.com(555) 123-4567Nhà hàng123 Main St12.400

Với bài đăng và bình luận, đầu ra trông như sau:

URL bài đăngTác giảNội dung bài đăngNgày đăngNội dung bình luậnNgười bình luậnNgày bình luậnSố lượt thích
fb.com/post/123Tên trang"Khai trương hoành tráng vào thứ Bảy này..."2026-04-20"Không thể chờ được!"Jane D.2026-04-2147

Các cột có cấu trúc, số điện thoại được định dạng sẵn, dữ liệu dùng được ngay — không cần bước xử lý sau. Sự khác biệt so với JSON thô từ các công cụ GitHub là rất rõ.

Ma trận loại dữ liệu Facebook × công cụ tốt nhất

Không có công cụ nào làm tốt mọi thứ trên Facebook trong năm 2026.

Ma trận này giúp bạn đi thẳng đến đúng nhu cầu thay vì phải đọc hết bài với hy vọng tìm được câu trả lời phù hợp.

Loại dữ liệu FacebookRepo GitHub tốt nhấtTùy chọn APITùy chọn no-codeĐộ khóĐộ tin cậy trong 2026
Bài đăng công khai trên trangNhánh kevinzg hoặc scraper dựa trên trình duyệtPage Public Content Access, giới hạnThunderbit AI ScraperTrung bình–Cao⚠️ Mong manh
Phần Giới thiệu / thông tin liên hệ của PagePhân tích nhẹ hoặc siêu dữ liệu trangCác trường trong trang tham chiếu Page với quyền phù hợpThunderbit Email/Phone ExtractorThấp–Trung bình✅ Khá ổn định
Bài đăng trong nhóm (thành viên)Tự động hóa trình duyệt có đăng nhậpGroups API đã bị ngừngNo-code dựa trên trình duyệt (đã đăng nhập)Cao⚠️ Chủ yếu hỏng / rủi ro cao
Danh sách MarketplaceScraper dựa trên PlaywrightKhông có đường API chính thứcAI của Thunderbit hoặc scraping trình duyệt theo lịchTrung bình–Cao⚠️ Mong manh
Sự kiệnTự động hóa trình duyệt hoặc phân tích ad hocHỗ trợ API lịch sử phần lớn đã không cònTrích xuất dựa trên trình duyệtCao❌ Mong manh
Bình luận / phản ứngRepo GitHub có hỗ trợ bình luậnMột số luồng bình luận trên Page có quyền phù hợpThunderbit scrape trang conTrung bình⚠️ Mong manh

Đội ngũ của bạn phù hợp với cách nào?

  • Đội sales trích xuất lead: Bắt đầu với Email/Phone Extractor hoặc AI Scraper của Thunderbit. Không cần thiết lập, có kết quả ngay.
  • Đội ecommerce theo dõi Marketplace: Scheduled Scraper của Thunderbit hoặc thiết lập tùy chỉnh Scrapy + proxy residential (nếu có nguồn lực kỹ thuật).
  • Lập trình viên xây dựng pipeline dữ liệu: Repo GitHub (fork còn hoạt động) + proxy residential + ngân sách bảo trì. Hãy chuẩn bị cho công việc dài hạn.
  • Nhà nghiên cứu lưu trữ nội dung nhóm: Chỉ nên dùng workflow dựa trên trình duyệt (Thunderbit hoặc Selenium có đăng nhập), kèm rà soát tuân thủ.

Sự thật thà — và cũng là kết luận mà — là không có một giải pháp duy nhất đáng tin cậy. Hãy ghép đúng nhu cầu dữ liệu của bạn với đúng công cụ.

facebook_scraper_tool_matrix_v1.png

Từng bước: Cách thiết lập một Facebook Scraper từ GitHub (khi nó thật sự hợp lý)

Nếu bạn đã đọc bảng kiểm tra độ mới mà vẫn muốn đi theo hướng GitHub, cũng hợp lý. Dưới đây là lộ trình thực tế — kèm ghi chú trung thực về chỗ nào sẽ hỏng.

facebook_scraper_setup_flow_v1.png

Bước 1: Chọn đúng repo (dùng bảng kiểm tra độ mới)

Hãy quay lại bảng audit ở trên. Chọn repo ít cũ nhất và khớp với bề mặt mục tiêu của bạn. Trước khi cài bất cứ thứ gì, hãy kiểm tra tab Issues — tiêu đề issue gần đây nói cho bạn biết nhiều hơn về khả năng hiện tại của repo so với README.

Bước 2: Thiết lập môi trường Python

1python3 -m venv fb-scraper-env
2source fb-scraper-env/bin/activate
3pip install -r requirements.txt

Lỗi phổ biến: xung đột phiên bản với các dependency, đặc biệt là Selenium/Playwright. Cả kevinzg lẫn moda20 đều khai báo Python ^3.6 trong — một nền cũ có thể xung đột với các thư viện mới hơn. Scraper Marketplace của passivebot ghim , điều này ổn cho thử nghiệm nhưng không chứng minh được độ bền.

Bước 3: Cấu hình proxy và chống nhận diện

Nếu bạn làm gì đó hơn một bài test nhanh:

  • Thiết lập xoay vòng proxy residential (tìm nhà cung cấp có pool IP riêng cho Facebook)
  • Nếu dùng tự động hóa trình duyệt, cài undetected-chromedriver hoặc cấu hình chống fingerprint
  • Đừng bỏ qua bước này — Selenium hoặc Puppeteer chuẩn sẽ bị gắn cờ rất nhanh

Bước 4: Chạy thử một lần scrape nhỏ và kiểm tra đầu ra

Hãy bắt đầu với một trang công khai duy nhất, không phải một batch lớn. Kiểm tra kết quả thật kỹ:

  • Trường rỗng hoặc thiếu dữ liệu thường có nghĩa là phòng vệ của Facebook đang chặn bạn
  • So sánh đầu ra với thứ bạn thực sự thấy trên trang trong trình duyệt
  • Một bài test một trang thành công quan trọng hơn một README đẹp

Bước 5: Xử lý lỗi, giới hạn tốc độ và bảo trì

  • Xây dựng logic thử lại và xử lý lỗi
  • Hãy kỳ vọng phải cập nhật selector hoặc cấu hình thường xuyên — đây là bảo trì liên tục, không phải cài một lần rồi quên
  • Nếu bạn thấy mình dành nhiều thời gian để bảo trì scraper hơn là dùng dữ liệu, đó là tín hiệu nên cân nhắc lại hướng no-code

Những cân nhắc pháp lý và đạo đức khi scrape Facebook

Phần này ngắn gọn và mang tính факт. Nó không phải trọng tâm bài viết, nhưng bỏ qua thì là thiếu trách nhiệm.

của Facebook nêu rõ người dùng "không được truy cập hoặc thu thập dữ liệu từ Sản phẩm của chúng tôi bằng phương tiện tự động (khi chưa có sự cho phép trước của chúng tôi)." của Meta, cập nhật ngày 3/2/2026, cũng nói rõ thực thi có thể bao gồm đình chỉ, thu hồi quyền truy cập API và các biện pháp ở cấp tài khoản.

Đây không phải là lý thuyết. Bài đăng kỹ thuật mô tả việc điều tra tích cực các hoạt động scraping trái phép, gửi thư yêu cầu chấm dứt và vô hiệu hóa tài khoản. Meta cũng đã chống lại các công ty scraping (ví dụ vụ kiện Voyager Labs).

Cách diễn giải an toàn nhất:

  • Điều khoản của Meta nói rõ là chống scraping
  • Dùng API có cấp phép an toàn hơn scraping trái phép
  • Dữ liệu công khai không đồng nghĩa với việc được miễn trừ nghĩa vụ về quyền riêng tư (GDPR, CCPA, v.v.)
  • Nếu vận hành ở quy mô lớn, hãy hỏi ý kiến luật sư
  • Thunderbit được thiết kế để scrape dữ liệu công khai và không vượt qua yêu cầu đăng nhập khi dùng cloud scraping

Kết luận chính: Điều gì thực sự hoạt động cho việc scrape Facebook trong năm 2026

Phần lớn repo Facebook scraper trên GitHub đã hỏng hoặc không đáng tin trong năm 2026. Đây không phải là lời hù dọa — mà là điều mà ngày commit, hàng đợi issue và báo cáo từ cộng đồng cho thấy rất nhất quán.

Một vài fork còn hoạt động chỉ xử lý được dữ liệu công khai ở mức giới hạn, nhưng chúng đòi hỏi bảo trì liên tục, thiết lập chống nhận diện và chấp nhận thực tế rằng mọi thứ sẽ lại hỏng. Graph API thì hữu ích nhưng hẹp — nó bao phủ siêu dữ liệu cấp Page với đúng quyền, chứ không phải dạng scrape bài đăng công khai hay nhóm rộng rãi mà hầu hết mọi người muốn.

Với người dùng doanh nghiệp cần dữ liệu Facebook mà không muốn gánh nặng kỹ thuật, các công cụ no-code như mang lại lộ trình đáng tin cậy hơn và ít phải bảo trì hơn. AI đọc lại trang mỗi lần, nên thay đổi DOM không phá hỏng quy trình của bạn. Bạn có thể dùng thử miễn phí và xuất sang Sheets, Excel, Airtable hoặc Notion.

Khuyến nghị thực tế: hãy bắt đầu với bảng kiểm tra độ mới. Nếu bạn không phải lập trình viên, hãy thử tùy chọn no-code trước. Nếu bạn là lập trình viên, chỉ nên đầu tư vào một thiết lập GitHub khi bạn có đủ nguồn lực kỹ thuật — và sự kiên nhẫn — để duy trì nó. Và bất kể bạn chọn con đường nào, hãy ghép đúng nhu cầu dữ liệu cụ thể với đúng công cụ, thay vì hy vọng có một giải pháp làm được tất cả.

Nếu bạn muốn đào sâu hơn về việc scrape dữ liệu mạng xã hội và các công cụ liên quan, chúng tôi có các hướng dẫn về , . Bạn cũng có thể xem các video hướng dẫn trên .

Thử AI Web Scraper cho dữ liệu Facebook

Câu hỏi thường gặp

Có Facebook scraper nào trên GitHub còn hoạt động trong năm 2026 không?

Có, nhưng lựa chọn rất hạn chế. Nổi bật nhất là fork từ repo gốc của kevinzg — hãy xem bảng kiểm tra độ mới ở trên để biết trạng thái hiện tại. Nó có thể scrape một phần bài đăng công khai và một số siêu dữ liệu, nhưng hàng đợi issue cho thấy lỗi cốt lõi liên quan đến mbasic và đầu ra rỗng. Hầu hết các repo khác đã bị bỏ rơi hoặc hỏng hoàn toàn.

Tôi có thể scrape Facebook mà không cần code không?

Có. Các công cụ như và các Email/Phone Extractor miễn phí cho phép bạn trích xuất dữ liệu Facebook ngay trên trình duyệt chỉ với vài cú nhấp, không cần thiết lập Python hay GitHub. AI đọc lại trang mỗi lần, nên bạn không phải duy trì selector khi Facebook đổi giao diện.

Scrape Facebook có hợp pháp không?

của Facebook cấm thu thập dữ liệu tự động khi chưa được phép. Meta thực thi điều này thông qua khóa tài khoản, thư yêu cầu chấm dứt và . Tính hợp pháp còn tùy vào khu vực pháp lý và mục đích sử dụng. Hãy chỉ làm việc với dữ liệu doanh nghiệp công khai, tránh hồ sơ cá nhân, và hỏi luật sư nếu bạn vận hành ở quy mô lớn.

Tôi còn có thể lấy dữ liệu gì từ Facebook Graph API?

Trong năm 2026, bị hạn chế rất mạnh. Bạn có thể truy cập một lượng dữ liệu Page có giới hạn — các trường như id, name, about, fan_count, emails, phone — với các quyền phù hợp như . Phần lớn dữ liệu bài đăng công khai, dữ liệu nhóm () và dữ liệu cấp người dùng không còn доступ qua API nữa.

Các repo Facebook scraper trên GitHub thường hỏng với tần suất thế nào?

Rất thường xuyên. Facebook liên tục thay đổi cấu trúc DOM, biện pháp chống bot và internal API — không có chu kỳ công bố chính thức, nhưng báo cáo từ cộng đồng cho thấy các scraper đang hoạt động thường bị hỏng sau vài tuần. Hàng đợi issue của fork moda20 quanh việc mbasic biến mất là một ví dụ gần đây. Nếu bạn phụ thuộc vào một repo GitHub, hãy dành ngân sách cho bảo trì định kỳ và kiểm tra đầu ra.

Tìm hiểu thêm

Ke
Ke
CTO @ Thunderbit. Ke là người mà ai cũng nhắn khi dữ liệu trở nên lộn xộn. Anh ấy đã dành cả sự nghiệp để biến những công việc tẻ nhạt, lặp đi lặp lại thành các tự động hóa âm thầm chạy nền. Nếu bạn từng ước một bảng tính có thể tự điền dữ liệu, rất có thể Ke đã xây sẵn thứ làm được điều đó rồi.
Mục lục

Thử Thunderbit

Trích xuất lead và dữ liệu khác chỉ trong 2 cú nhấp. Powered by AI.

Nhận Thunderbit Miễn phí
Trích xuất dữ liệu bằng AI
Dễ dàng chuyển dữ liệu sang Google Sheets, Airtable hoặc Notion
Chrome Store Rating
PRODUCT HUNT#1 Product of the Week