Substack Scraper của Thunderbit giúp bạn biến các trang Substack thành bộ dữ liệu sạch, có cấu trúc nhờ AI. Bạn có thể trích xuất danh sách newsletter, danh mục, tác giả và thông tin publication từ Substack Discover cũng như các trang dạng tài nguyên/bảng xếp hạng, rồi làm giàu kết quả bằng cách scrape trang con để lấy thêm dữ liệu chi tiết. Xuất dữ liệu sang Excel, Google Sheets, Airtable hoặc Notion chỉ trong vài phút với AI Web Scraper (https://thunderbit.com/ai-web-scraper).
🧠 Substack Scraper là gì
AI Powered Substack Scraper là một cho phép bạn lấy dữ liệu từ theo quy trình cực đơn giản: mở trang → bấm AI Suggest Columns → bấm Scrape. AI của Thunderbit sẽ đọc bố cục trang, gợi ý các trường dữ liệu phù hợp nhất và chuẩn hóa thành bảng để bạn tải xuống hoặc đẩy thẳng sang các công cụ đang dùng.

🧾 Bạn có thể scrape gì trên Substack
Substack có rất nhiều thông tin công khai hữu ích cho nghiên cứu, hợp tác, theo dõi truyền thông và phát triển tệp độc giả. Với Thunderbit, bạn có thể scrape các trang danh sách (như Discover), sau đó dùng Subpage Scraping để truy cập từng trang newsletter/publication nhằm bổ sung các chi tiết không hiển thị ở chế độ danh sách.
Dưới đây là 2 workflow phổ biến và có giá trị cao khi dùng Substack Scraper.
🗞️ Scrape newsletter từ Substack Discover
Dùng workflow này để xây dựng cơ sở dữ liệu newsletter từ trang . Rất hữu ích khi bạn muốn tìm publication theo chủ đề, đánh giá đối tác tài trợ tiềm năng hoặc theo dõi xu hướng theo từng danh mục.

Các bước:
- Cài và đăng ký tài khoản.
- Mở trang cần scrape, ví dụ: .
- Bấm AI Suggest Columns để AI đề xuất tên cột và kiểu dữ liệu.
- Bấm Scrape để chạy, sau đó xuất sang Excel, Google Sheets, Airtable hoặc Notion.
Tên cột
| Cột | Mô tả |
|---|---|
| 📰 Tên Newsletter / Publication | Tên newsletter hoặc publication hiển thị trên Discover. |
| 🔗 URL Publication | Liên kết đến trang publication (rất phù hợp để làm giàu bằng trang con). |
| ✍️ Tác giả / Người tạo | Tác giả hoặc thương hiệu đứng sau publication (nếu có hiển thị). |
| 🏷️ Danh mục / Chủ đề | Thẻ danh mục gắn với mục đó (ví dụ: Tech, Politics, Culture). |
| 📝 Mô tả | Đoạn tóm tắt/ngắn gọn hiển thị trong danh sách. |
| 👥 Số người đăng ký | Số subscriber nếu có hiển thị (hoặc để trống và bổ sung qua trang con). |
| 🖼️ Ảnh Publication | URL logo/ảnh bìa của publication. |
| ⭐ Nhãn nổi bật / Xếp hạng | Badge nổi bật, nhãn trending hoặc chỉ dấu vị trí/xếp hạng trên trang. |
🏆 Scrape các publication top từ Substack Leaderboard (Resources)
Workflow này giúp bạn trích xuất danh sách publication được tuyển chọn từ trang dạng tài nguyên/bảng xếp hạng của Substack: . Phù hợp cho nghiên cứu đối thủ, tiếp cận hợp tác và xây dựng danh sách “bản đồ truyền thông” theo ngách.

Các bước:
- Cài và đăng ký tài khoản.
- Mở trang cần scrape, ví dụ: .
- Bấm AI Suggest Columns để tạo các trường gợi ý theo bố cục trang.
- Bấm Scrape để trích xuất bảng, rồi tải xuống hoặc xuất dữ liệu.
Tên cột
| Cột | Mô tả |
|---|---|
| 🏷️ Tên Publication | Tên publication được liệt kê trên trang. |
| 🔗 URL Publication | Link trực tiếp đến publication (lý tưởng để scrape trang con). |
| 🧑💼 Tác giả / Nhóm | Tên tác giả hoặc tổ chức đứng sau publication (nếu có). |
| 🗂️ Danh mục / Bộ sưu tập | Mục/nhóm mà publication xuất hiện (nếu áp dụng). |
| 📝 Tóm tắt | Mô tả ngắn hoặc thông điệp định vị. |
| 👥 Subscribers / Tệp độc giả | Chỉ dấu về quy mô audience nếu có hiển thị. |
| 🖼️ Logo / Ảnh | URL logo hoặc ảnh thumbnail của publication. |
| 🕒 Cập nhật gần đây / Độ mới | Tín hiệu về độ mới nếu có (hoặc lấy từ trang con nếu khả dụng). |
🎯 Vì sao nên dùng công cụ Substack
Scrape Substack có thể phục vụ các workflow kinh doanh thực tế, đặc biệt khi bạn cần dữ liệu có cấu trúc để phân tích, outreach hoặc theo dõi.
Những lý do phổ biến để scrape Substack bằng một :
- Marketing & hợp tác: Tạo danh sách newsletter để tiếp cận tài trợ, cross-promotion hoặc hợp tác affiliate. Bạn có thể làm giàu danh sách bằng cách scrape trang con để lấy link liên hệ và thông tin publication.
- Sales & tạo lead: Tìm creator và publication theo ngách phù hợp ICP, rồi xuất sang Google Sheets hoặc Airtable để xây pipeline.
- Nghiên cứu truyền thông & phân tích cạnh tranh: Theo dõi danh mục, định vị và tín hiệu tăng trưởng để hiểu nội dung nào đang lên.
- Chiến lược nội dung: Lập bản đồ chủ đề và mô tả newsletter để tìm khoảng trống, xu hướng mới và phân khúc độc giả.
Thunderbit đặc biệt hữu ích khi:
- Bố cục trang thay đổi thường xuyên khiến các scraper truyền thống dễ “gãy”
- Bạn muốn dùng Subpage Scraping để bổ sung thông tin sâu cho từng dòng
- Bạn muốn xuất nhanh sang các công cụ quen dùng (Sheets, Airtable, Notion)
Nếu bạn mới bắt đầu với scraping, các bài hướng dẫn sau sẽ hữu ích:
🧩 Cách dùng Substack Chrome Extension
- Cài Thunderbit Chrome Extension: Tải từ và tạo tài khoản.
- Mở trang Substack bạn muốn scrape: Ví dụ hoặc .
- Kích hoạt scraper dùng AI: Bấm AI Suggest Columns để tạo tên cột, chỉnh lại các trường nếu cần, rồi bấm Scrape.
Mẹo: Sau lần scrape đầu tiên, hãy dùng Scrape Subpages để Thunderbit truy cập từng URL publication và bổ sung thêm trường (như mô tả dài hơn, thông tin tác giả, liên kết hoặc metadata khác hiển thị) vào bảng của bạn.
💳 Giá cho Substack
Thunderbit dùng hệ thống credit đơn giản, dễ hiểu:
- 1 credit = 1 dòng đầu ra trong bảng kết quả.
- Trải nghiệm AI Powered Scraper (AI Suggest Columns + Scrape) có sẵn ngay từ đầu, và xuất dữ liệu là miễn phí (CSV/JSON, Excel, Google Sheets, Airtable, Notion).
Bạn có thể dùng thử Thunderbit miễn phí:
- Gói Free: scrape 6 trang mỗi tháng
- Free trial: scrape 10 trang miễn phí trước khi chọn gói trả phí
Ví dụ: nếu bạn scrape Substack Discover và lấy 200 dòng newsletter, lượt chạy đó sẽ tốn khoảng 200 credits. Nếu bạn tiếp tục làm giàu các dòng này bằng subpage scraping, tổng credits sẽ phụ thuộc vào số dòng được bổ sung dữ liệu và xuất ra.
Các gói trả phí (theo tháng và theo năm) phù hợp cho nhiều mức nhu cầu khác nhau; và gói năm thường tiết kiệm hơn vì có chiết khấu so với trả theo tháng. Xem chi tiết tại .
| Gói | Giá (Theo tháng) | Giá (Theo năm) | Tổng giá theo năm | Credits (Theo tháng) | Credits (Theo năm) |
|---|---|---|---|---|---|
| Free | Free | Free | Free | 6 trang | N/A |
| Starter | $15 | $9 | $108 | 500 | 5,000 |
| Pro 1 | $38 | $16.5 | $199 | 3,000 | 30,000 |
| Pro 2 | $75 | $33.8 | $398 | 6,000 | 60,000 |
| Pro 3 | $125 | $68.4 | $796 | 10,000 | 120,000 |
| Pro 4 | $249 | $137.5 | $1,592 | 20,000 | 240,000 |
Sẵn sàng scrape Substack bằng AI
- Cài đặt:
- Sản phẩm:
❓ FAQ
-
AI Powered Substack Scraper là gì?
AI Powered Substack Scraper là một giúp trích xuất dữ liệu có cấu trúc từ các trang Substack như Discover và các danh sách publication. Bạn chỉ cần mở trang, bấm AI Suggest Columns, Thunderbit sẽ tạo schema phù hợp cho bảng và scrape dữ liệu thành các dòng để bạn xuất đi. -
Thunderbit là gì?
là Chrome Extension về web scraping và năng suất ứng dụng AI, giúp bạn thu thập dữ liệu từ website, PDF và hình ảnh rồi chuyển thành bộ dữ liệu có cấu trúc. Công cụ được thiết kế cho các workflow như tạo lead, nghiên cứu thị trường, vận hành ecommerce và bất động sản, đồng thời xuất nhanh sang Google Sheets, Airtable và Notion. -
Tôi có thể scrape những trang Substack nào với Thunderbit?
Bạn có thể scrape nhiều trang Substack công khai, bao gồm , các trang tài nguyên được tuyển chọn và từng trang publication riêng lẻ. Nếu trang yêu cầu đăng nhập, bạn thường có thể dùng Browser Scraping để Thunderbit chạy ngay trong phiên Chrome đã đăng nhập của bạn. -
Thunderbit có thể scrape trang con của publication để lấy thêm chi tiết không?
Có. Subpage Scraping của Thunderbit có thể truy cập từng URL publication bạn thu thập từ trang danh sách và bổ sung thêm các trường vào bảng. Điều này rất hữu ích khi trang danh sách chỉ hiển thị mô tả ngắn, còn trang publication có metadata phong phú hơn mà bạn muốn lấy. -
Làm sao chọn cột phù hợp khi scrape Substack?
Hãy bắt đầu với AI Suggest Columns, sau đó chỉnh tên trường và kiểu dữ liệu theo nhu cầu. Bạn cũng có thể thêm Field AI Prompt cho một cột để hướng dẫn cách trích xuất/định dạng, ví dụ chuẩn hóa danh mục hoặc tách tên tác giả cho “sạch”. -
Tôi có thể xuất dữ liệu Substack sang Google Sheets, Airtable hoặc Notion không?
Có, và việc xuất dữ liệu là miễn phí. Sau khi scrape, bạn có thể tải CSV/JSON hoặc gửi thẳng dataset sang Google Sheets, Airtable hoặc Notion để cộng tác, lọc và làm giàu dữ liệu. -
Khác nhau giữa Cloud Scraping và Browser Scraping khi scrape Substack là gì?
Cloud Scraping chạy nhanh hơn, phù hợp với các trang công khai không cần đăng nhập. Browser Scraping chạy trong phiên Chrome của bạn, phù hợp khi cần truy cập trang sau đăng nhập hoặc khi bạn muốn scraper hoạt động đúng như trình duyệt. -
Tôi có thể scrape bao nhiêu dòng từ Substack trong một lần chạy?
Giới hạn thực tế phụ thuộc vào cấu trúc trang, phân trang/infinite scroll và số credits trong gói của bạn. Tuy vậy, nhiều workflow thường nhắm tới hàng trăm dòng mỗi lần (thường lên đến khoảng 500 dòng cho một lượt chạy điển hình). Nếu trang dùng infinite scroll hoặc nhiều trang, Thunderbit có thể xử lý phân trang và tiếp tục thu thập khi bạn tải thêm kết quả. -
Scrape Substack có ổn không?
Bạn nên scrape một cách có trách nhiệm và tuân thủ luật áp dụng, kỳ vọng về quyền riêng tư và điều khoản của Substack. Thunderbit là công cụ giúp cấu trúc dữ liệu mà bạn có thể truy cập trong trình duyệt, và bạn là người quyết định thu thập gì cũng như sử dụng ra sao.
📚 Tìm hiểu thêm
- Bắt đầu với sản phẩm:
- Cài extension:
- Đọc thêm hướng dẫn tại
- Kiến thức nền tảng:
- Khái niệm list scraping:
- Quy trình với Excel:
- Trích xuất PDF:
- Best practices thu thập email:
- So sánh công cụ:
