substack-scraper

Substack 爬虫

Thunderbit 的 Substack 爬虫借助 AI,帮助你从 Substack Discover 和各类刊物页面提取结构化数据。可抓取通讯列表、分类、作者与订阅者等信息,并通过抓取子页面进一步补全更深入的刊物详情。几分钟内即可导出到 Excel、Google Sheets、Airtable 或 Notion。
4.8
月活用户8.2k
AI 驱动
新闻
免费开始使用
提供免费版
支持中文

Thunderbit 的 Substack 爬虫 可通过 AI 将 Substack 页面快速整理成干净、结构化的数据集。你可以从 Substack Discover 以及资源页/榜单类页面中提取通讯列表、分类、作者与刊物信息;再通过抓取子页面补充更深层的详情,让数据更完整。使用 AI 网页爬虫 (https://thunderbit.com/ai-web-scraper),几分钟内即可将数据导出到 Excel、Google Sheets、Airtable 或 Notion。

🧠 什么是 Substack 爬虫

AI 驱动的 Substack 爬虫 是一款 ,让你用非常简单的流程从 抓取数据:打开页面 → 点击 AI Suggest Columns → 再点击 Scrape。Thunderbit 的 AI 会自动识别页面结构,推荐最适合提取的字段,并把结果整理成表格,你可以下载或直接同步到常用工具中。

Substack — A new economic engine for culture

🧾 可以用 Substack 抓取哪些内容

Substack 上有大量公开信息,适用于研究、合作拓展、媒体监测与受众增长等场景。借助 Thunderbit,你既可以抓取 Discover 等列表页,也可以使用 Subpage Scraping 自动访问每个通讯/刊物的详情页,把列表页看不到的关键信息补充进数据集。

下面是两种常见且价值很高的 Substack 爬虫用法。

🗞️ 从 Substack Discover 抓取通讯列表

适合用来从 搭建通讯数据库。无论你想按主题寻找刊物、评估潜在赞助合作对象,还是追踪各分类的热门趋势,都很实用。

Scrape Newsletters from Substack Discover

操作步骤:

  1. 安装 并注册账号。
  2. 打开目标页面,例如:
  3. 点击 AI Suggest Columns,让 AI 自动推荐列名与数据类型。
  4. 点击 Scrape 开始抓取,然后导出到 Excel、Google Sheets、Airtable 或 Notion。

字段(列)建议

列名说明
📰 通讯 / 刊物名称Discover 列表中展示的通讯或刊物名称。
🔗 刊物链接指向刊物主页的链接(便于后续抓取子页面补全信息)。
✍️ 作者 / 创作者列表中展示的作者或品牌(如有)。
🏷️ 分类 / 主题该条目对应的分类标签(如 Tech、Politics、Culture 等)。
📝 简介列表中展示的简短介绍/定位文案。
👥 订阅人数若页面展示则抓取;也可先留空,后续通过子页面补全。
🖼️ 刊物图片刊物的 logo/封面图 URL。
精选 / 排名标识页面上出现的精选徽章、趋势标签或排名提示等。

🏆 从 Substack 榜单(Resources)抓取头部刊物

该流程用于从 Substack 的资源页/榜单类页面提取精选刊物清单:。适合做竞品研究、合作拓展,以及按细分领域建立媒体版图清单。

Scrape Top Publications from Substack Leaderboard

操作步骤:

  1. 安装 并注册账号。
  2. 打开目标页面,例如:
  3. 点击 AI Suggest Columns,根据该页面布局生成推荐字段。
  4. 点击 Scrape 抓取表格,然后下载或导出数据。

字段(列)建议

列名说明
🏷️ 刊物名称页面中列出的刊物名称。
🔗 刊物链接刊物直达链接(非常适合用于子页面抓取)。
🧑‍💼 作者 / 团队刊物背后的作者姓名或机构/团队(如有展示)。
🗂️ 分类 / 合集刊物所在的分组或栏目(如适用)。
📝 摘要简短介绍或定位说明。
👥 订阅者 / 受众规模页面上展示的受众规模指标(如有)。
🖼️ Logo / 图片刊物 logo 或缩略图 URL。
🕒 最近更新 / 活跃度页面上展示的更新/新鲜度信号(或从子页面提取)。

🎯 为什么要用 Substack 工具

抓取 Substack 数据能直接服务于真实的业务流程,尤其当你需要把信息结构化后用于分析、外联或持续监测时。

使用 抓取 Substack 的常见原因包括:

  • 市场营销与合作:整理通讯清单,用于赞助投放、互推或联盟合作;并可通过抓取子页面补充联系方式与刊物详情。
  • 销售与线索获取:筛选符合 ICP 的创作者与垂直刊物,导出到 Google Sheets 或 Airtable 搭建线索与跟进流程。
  • 媒体研究与竞品分析:追踪不同刊物的分类、定位与增长信号,判断哪些方向正在升温。
  • 内容策略:梳理主题与简介,发现内容空白、潜在新趋势与受众细分。

Thunderbit 尤其适合以下情况:

  • 页面布局经常变化,传统爬虫容易失效
  • 你需要用 Subpage Scraping 为每一行补充更完整的刊物信息
  • 你希望快速导出到日常使用的工具(Sheets、Airtable、Notion)

如果你刚开始接触数据抓取,这些指南会很有帮助:

🧩 如何使用 Substack Chrome 扩展

  1. 安装 Thunderbit Chrome 扩展:在 获取并创建账号。
  2. 打开你要抓取的 Substack 页面:例如
  3. 启用 AI 抓取:点击 AI Suggest Columns 生成列名,按需调整字段后点击 Scrape

提示:首次抓取完成后,可以使用 Scrape Subpages 让 Thunderbit 自动访问每个刊物链接,并把额外字段(如更长的简介、作者信息、外链或其他可见元数据)回填到同一张表中。

💳 Substack 抓取的计费方式

Thunderbit 采用简单直观的积分机制:

  • 1 积分 = 结果表中的 1 行输出
  • AI 驱动的抓取体验(AI Suggest Columns + Scrape)开箱即用,且数据导出免费(CSV/JSON、Excel、Google Sheets、Airtable、Notion)。

你可以零成本试用 Thunderbit:

  • 免费版:每月可抓取 6 个页面
  • 免费试用:在选择付费方案前,可先免费抓取 10 个页面

例如,你从 Substack Discover 抓取到 200 行通讯数据,本次大约消耗 200 积分。如果你再对这些行进行子页面补全,最终消耗的积分取决于你输出了多少行补全后的结果。

付费方案(按月/按年)覆盖不同的数据量需求;通常年付更划算,因为相较月付会有折扣。完整信息请查看

档位月付价格年付价格年付总价每月积分每年积分
Free免费免费免费6 pagesN/A
Starter$15$9$1085005,000
Pro 1$38$16.5$1993,00030,000
Pro 2$75$33.8$3986,00060,000
Pro 3$125$68.4$79610,000120,000
Pro 4$249$137.5$1,59220,000240,000

准备好用 AI 抓取 Substack 了吗

  • 安装扩展:
  • 产品入口:

❓ 常见问题(FAQ)

  1. 什么是 AI 驱动的 Substack 爬虫?
    AI 驱动的 Substack 爬虫是一款 ,可从 Discover、刊物列表等 Substack 页面提取结构化数据。你只需打开页面、点击 AI Suggest Columns,Thunderbit 就会生成可直接用于表格的字段方案,并把数据抓取成可导出的行记录。

  2. Thunderbit 是什么?
    是一款面向效率与数据采集的 AI 网页爬虫 Chrome 扩展,可从网站、PDF 与图片中收集信息并整理为结构化数据集。它适用于线索获取、市场调研、电商运营、房地产等业务场景,并可快速导出到 Google Sheets、Airtable、Notion 等工具。

  3. Thunderbit 可以抓取哪些 Substack 页面?
    你可以抓取许多公开的 Substack 页面,包括 、精选资源页以及单个刊物主页等。若页面需要登录,通常可以使用 Browser Scraping,让 Thunderbit 在你已登录的 Chrome 会话中完成抓取。

  4. Thunderbit 能抓取刊物子页面来获取更多细节吗?
    可以。Thunderbit 的 Subpage Scraping 会访问你从列表页收集到的每个刊物链接,并把额外字段追加到表格中。当列表页只展示简短简介,而刊物页包含更丰富的元数据时,这个功能尤其有用。

  5. 如何为 Substack 抓取选择合适的列?
    先用 AI Suggest Columns 生成建议字段,再根据你的业务需求调整字段名与数据类型。你也可以为某一列添加 Field AI Prompt 来引导提取或格式化,例如统一分类命名、或提取更干净的作者名称。

  6. 可以把 Substack 数据导出到 Google Sheets、Airtable 或 Notion 吗?
    可以,而且导出免费。抓取完成后,你既可以下载 CSV/JSON,也可以直接同步到 Google Sheets、Airtable 或 Notion,便于协作、筛选与二次补全。

  7. Substack 抓取时,Cloud Scraping 和 Browser Scraping 有什么区别?
    Cloud Scraping 速度更快,适合无需登录的公开页面。Browser Scraping 在你的 Chrome 会话中运行,更适合需要登录验证的页面,或你希望抓取行为与浏览器完全一致的场景。

  8. 一次最多能从 Substack 抓取多少行?
    实际上限取决于页面结构、分页/无限滚动方式以及你的套餐积分。很多常见场景会一次抓取数百行(通常可到约 500 行)。如果页面是无限滚动或多页结构,Thunderbit 也能处理分页,并在你加载更多结果时持续采集。

  9. 抓取 Substack 合规吗?
    建议你以负责任的方式抓取,并遵守适用法律、隐私预期以及 Substack 的条款。Thunderbit 只是把你在浏览器中可访问的数据结构化整理,具体抓取哪些内容以及如何使用,均由你自行决定。

📚 了解更多

  • 产品上手:
  • 安装扩展:
  • 阅读更多指南:
  • 基础概念:
  • 列表抓取:
  • Excel 流程:
  • PDF 提取:
  • 邮箱采集最佳实践:
  • 工具对比: