Thunderbit 的 Substack 爬虫 可通过 AI 将 Substack 页面快速整理成干净、结构化的数据集。你可以从 Substack Discover 以及资源页/榜单类页面中提取通讯列表、分类、作者与刊物信息;再通过抓取子页面补充更深层的详情,让数据更完整。使用 AI 网页爬虫 (https://thunderbit.com/ai-web-scraper),几分钟内即可将数据导出到 Excel、Google Sheets、Airtable 或 Notion。
🧠 什么是 Substack 爬虫
AI 驱动的 Substack 爬虫 是一款 ,让你用非常简单的流程从 抓取数据:打开页面 → 点击 AI Suggest Columns → 再点击 Scrape。Thunderbit 的 AI 会自动识别页面结构,推荐最适合提取的字段,并把结果整理成表格,你可以下载或直接同步到常用工具中。

🧾 可以用 Substack 抓取哪些内容
Substack 上有大量公开信息,适用于研究、合作拓展、媒体监测与受众增长等场景。借助 Thunderbit,你既可以抓取 Discover 等列表页,也可以使用 Subpage Scraping 自动访问每个通讯/刊物的详情页,把列表页看不到的关键信息补充进数据集。
下面是两种常见且价值很高的 Substack 爬虫用法。
🗞️ 从 Substack Discover 抓取通讯列表
适合用来从 搭建通讯数据库。无论你想按主题寻找刊物、评估潜在赞助合作对象,还是追踪各分类的热门趋势,都很实用。

操作步骤:
- 安装 并注册账号。
- 打开目标页面,例如:。
- 点击 AI Suggest Columns,让 AI 自动推荐列名与数据类型。
- 点击 Scrape 开始抓取,然后导出到 Excel、Google Sheets、Airtable 或 Notion。
字段(列)建议
| 列名 | 说明 |
|---|---|
| 📰 通讯 / 刊物名称 | Discover 列表中展示的通讯或刊物名称。 |
| 🔗 刊物链接 | 指向刊物主页的链接(便于后续抓取子页面补全信息)。 |
| ✍️ 作者 / 创作者 | 列表中展示的作者或品牌(如有)。 |
| 🏷️ 分类 / 主题 | 该条目对应的分类标签(如 Tech、Politics、Culture 等)。 |
| 📝 简介 | 列表中展示的简短介绍/定位文案。 |
| 👥 订阅人数 | 若页面展示则抓取;也可先留空,后续通过子页面补全。 |
| 🖼️ 刊物图片 | 刊物的 logo/封面图 URL。 |
| ⭐ 精选 / 排名标识 | 页面上出现的精选徽章、趋势标签或排名提示等。 |
🏆 从 Substack 榜单(Resources)抓取头部刊物
该流程用于从 Substack 的资源页/榜单类页面提取精选刊物清单:。适合做竞品研究、合作拓展,以及按细分领域建立媒体版图清单。

操作步骤:
- 安装 并注册账号。
- 打开目标页面,例如:。
- 点击 AI Suggest Columns,根据该页面布局生成推荐字段。
- 点击 Scrape 抓取表格,然后下载或导出数据。
字段(列)建议
| 列名 | 说明 |
|---|---|
| 🏷️ 刊物名称 | 页面中列出的刊物名称。 |
| 🔗 刊物链接 | 刊物直达链接(非常适合用于子页面抓取)。 |
| 🧑💼 作者 / 团队 | 刊物背后的作者姓名或机构/团队(如有展示)。 |
| 🗂️ 分类 / 合集 | 刊物所在的分组或栏目(如适用)。 |
| 📝 摘要 | 简短介绍或定位说明。 |
| 👥 订阅者 / 受众规模 | 页面上展示的受众规模指标(如有)。 |
| 🖼️ Logo / 图片 | 刊物 logo 或缩略图 URL。 |
| 🕒 最近更新 / 活跃度 | 页面上展示的更新/新鲜度信号(或从子页面提取)。 |
🎯 为什么要用 Substack 工具
抓取 Substack 数据能直接服务于真实的业务流程,尤其当你需要把信息结构化后用于分析、外联或持续监测时。
使用 抓取 Substack 的常见原因包括:
- 市场营销与合作:整理通讯清单,用于赞助投放、互推或联盟合作;并可通过抓取子页面补充联系方式与刊物详情。
- 销售与线索获取:筛选符合 ICP 的创作者与垂直刊物,导出到 Google Sheets 或 Airtable 搭建线索与跟进流程。
- 媒体研究与竞品分析:追踪不同刊物的分类、定位与增长信号,判断哪些方向正在升温。
- 内容策略:梳理主题与简介,发现内容空白、潜在新趋势与受众细分。
Thunderbit 尤其适合以下情况:
- 页面布局经常变化,传统爬虫容易失效
- 你需要用 Subpage Scraping 为每一行补充更完整的刊物信息
- 你希望快速导出到日常使用的工具(Sheets、Airtable、Notion)
如果你刚开始接触数据抓取,这些指南会很有帮助:
🧩 如何使用 Substack Chrome 扩展
- 安装 Thunderbit Chrome 扩展:在 获取并创建账号。
- 打开你要抓取的 Substack 页面:例如 或 。
- 启用 AI 抓取:点击 AI Suggest Columns 生成列名,按需调整字段后点击 Scrape。
提示:首次抓取完成后,可以使用 Scrape Subpages 让 Thunderbit 自动访问每个刊物链接,并把额外字段(如更长的简介、作者信息、外链或其他可见元数据)回填到同一张表中。
💳 Substack 抓取的计费方式
Thunderbit 采用简单直观的积分机制:
- 1 积分 = 结果表中的 1 行输出。
- AI 驱动的抓取体验(AI Suggest Columns + Scrape)开箱即用,且数据导出免费(CSV/JSON、Excel、Google Sheets、Airtable、Notion)。
你可以零成本试用 Thunderbit:
- 免费版:每月可抓取 6 个页面
- 免费试用:在选择付费方案前,可先免费抓取 10 个页面
例如,你从 Substack Discover 抓取到 200 行通讯数据,本次大约消耗 200 积分。如果你再对这些行进行子页面补全,最终消耗的积分取决于你输出了多少行补全后的结果。
付费方案(按月/按年)覆盖不同的数据量需求;通常年付更划算,因为相较月付会有折扣。完整信息请查看 。
| 档位 | 月付价格 | 年付价格 | 年付总价 | 每月积分 | 每年积分 |
|---|---|---|---|---|---|
| Free | 免费 | 免费 | 免费 | 6 pages | N/A |
| Starter | $15 | $9 | $108 | 500 | 5,000 |
| Pro 1 | $38 | $16.5 | $199 | 3,000 | 30,000 |
| Pro 2 | $75 | $33.8 | $398 | 6,000 | 60,000 |
| Pro 3 | $125 | $68.4 | $796 | 10,000 | 120,000 |
| Pro 4 | $249 | $137.5 | $1,592 | 20,000 | 240,000 |
准备好用 AI 抓取 Substack 了吗
- 安装扩展:
- 产品入口:
❓ 常见问题(FAQ)
-
什么是 AI 驱动的 Substack 爬虫?
AI 驱动的 Substack 爬虫是一款 ,可从 Discover、刊物列表等 Substack 页面提取结构化数据。你只需打开页面、点击 AI Suggest Columns,Thunderbit 就会生成可直接用于表格的字段方案,并把数据抓取成可导出的行记录。 -
Thunderbit 是什么?
是一款面向效率与数据采集的 AI 网页爬虫 Chrome 扩展,可从网站、PDF 与图片中收集信息并整理为结构化数据集。它适用于线索获取、市场调研、电商运营、房地产等业务场景,并可快速导出到 Google Sheets、Airtable、Notion 等工具。 -
Thunderbit 可以抓取哪些 Substack 页面?
你可以抓取许多公开的 Substack 页面,包括 、精选资源页以及单个刊物主页等。若页面需要登录,通常可以使用 Browser Scraping,让 Thunderbit 在你已登录的 Chrome 会话中完成抓取。 -
Thunderbit 能抓取刊物子页面来获取更多细节吗?
可以。Thunderbit 的 Subpage Scraping 会访问你从列表页收集到的每个刊物链接,并把额外字段追加到表格中。当列表页只展示简短简介,而刊物页包含更丰富的元数据时,这个功能尤其有用。 -
如何为 Substack 抓取选择合适的列?
先用 AI Suggest Columns 生成建议字段,再根据你的业务需求调整字段名与数据类型。你也可以为某一列添加 Field AI Prompt 来引导提取或格式化,例如统一分类命名、或提取更干净的作者名称。 -
可以把 Substack 数据导出到 Google Sheets、Airtable 或 Notion 吗?
可以,而且导出免费。抓取完成后,你既可以下载 CSV/JSON,也可以直接同步到 Google Sheets、Airtable 或 Notion,便于协作、筛选与二次补全。 -
Substack 抓取时,Cloud Scraping 和 Browser Scraping 有什么区别?
Cloud Scraping 速度更快,适合无需登录的公开页面。Browser Scraping 在你的 Chrome 会话中运行,更适合需要登录验证的页面,或你希望抓取行为与浏览器完全一致的场景。 -
一次最多能从 Substack 抓取多少行?
实际上限取决于页面结构、分页/无限滚动方式以及你的套餐积分。很多常见场景会一次抓取数百行(通常可到约 500 行)。如果页面是无限滚动或多页结构,Thunderbit 也能处理分页,并在你加载更多结果时持续采集。 -
抓取 Substack 合规吗?
建议你以负责任的方式抓取,并遵守适用法律、隐私预期以及 Substack 的条款。Thunderbit 只是把你在浏览器中可访问的数据结构化整理,具体抓取哪些内容以及如何使用,均由你自行决定。
📚 了解更多
- 产品上手:
- 安装扩展:
- 阅读更多指南:
- 基础概念:
- 列表抓取:
- Excel 流程:
- PDF 提取:
- 邮箱采集最佳实践:
- 工具对比:
