Thunderbit 的 PubMed 爬虫 可通过 AI 将 PubMed 页面整理成干净、可用的结构化数据集。你可以提取热门医学研究、临床试验证据、摘要、作者、作者单位、发表日期、PMID 以及论文链接,并导出到 Excel、Google Sheets、Airtable 或 Notion。操作也很简单:用 Chrome 打开 PubMed,让 AI 推荐合适的字段列,然后开始抓取。
🧬 什么是 PubMed 爬虫
PubMed 爬虫 是面向 的 AI 网页爬虫。通过 (一款 AI 网页爬虫 Chrome 扩展),你只需进入任意 PubMed 结果页,点击 AI Suggest Columns,再点击 Scrape,无需写代码即可提取结构化数据。

🔎 PubMed 可以抓取哪些内容
PubMed 汇集了大量高价值的生物医学元数据,但原始页面并不总是“可直接分析”的格式。Thunderbit 的 AI 网页爬虫 (https://thunderbit.com/) 能帮你采集并结构化 PubMed 列表数据,并通过 Subpage Scraping 进一步补全论文级字段(自动打开每篇文章详情页,把摘要、作者单位、DOI 等信息追加到同一张表里)。
下面是两种常见的工作流,几分钟就能跑完。
📈 抓取 PubMed 热门医学研究(趋势监测)
这个流程适合用来监控 PubMed Trending 页面上的研究热点。可用于跟进最新进展、生成内部简报、追踪竞品发表动态,或为文献监测流程提供数据输入。
目标页面示例:

操作步骤:
- 下载 并注册账号。
- 打开目标页面,例如:。
- 点击 AI Suggest Columns,让 AI 推荐合适的字段名与数据类型。
- 点击 Scrape 抓取数据,然后导出到 Excel、Google Sheets、Airtable 或 Notion。
字段列示例
| Column | Description |
|---|---|
| 🧾 Article Title | 热门 PubMed 文章标题。 |
| 🔗 Article URL | 直达该 PubMed 记录页的链接。 |
| 🆔 PMID | 该记录的 PubMed 标识符(适合作为稳定主键)。 |
| 🏛️ Journal | 文章发表的期刊名称。 |
| 📅 Publication Date | 列表中显示的发表日期。 |
| ✍️ Authors | 结果卡片上展示的作者信息。 |
| 🧪 Article Type | 可用时的发表类型(如 Review、Clinical Trial)。 |
| 🏷️ Keywords / Topics | 列表中可见的主题标签或关键词(如有)。 |
| 📝 Snippet / Summary | 列表中展示的简短摘要/片段(如有)。 |
| 🧷 DOI | 可用时的 DOI(通常更适合通过子页面抓取获取)。 |
| 🧑🔬 Affiliations | 作者单位信息(通常通过子页面抓取提取)。 |
| 📄 Abstract | 摘要正文(通常通过子页面抓取提取)。 |
🧫 抓取 PubMed 临床试验证据(证据提取)
该流程用于从 PubMed 搜索结果中批量提取与临床试验相关的文献,并进一步进入每篇文章详情页补全摘要、试验信号与审阅所需的元数据。
目标页面示例:

操作步骤:
- 下载 并注册账号。
- 打开目标页面,例如:。
- 点击 AI Suggest Columns 生成推荐字段(你也可以自行重命名或新增)。
- 点击 Scrape 抓取列表结果;如需摘要/作者单位/DOI 等信息,再运行 Scrape Subpages 为每一行补全更多字段。
字段列示例
| Column | Description |
|---|---|
| 🧾 Title | 搜索结果中的文章标题。 |
| 🔗 PubMed URL | PubMed 文章详情页链接(用于子页面补全)。 |
| 🆔 PMID | PubMed 标识符,便于去重与引用。 |
| 🧑⚕️ Authors | 结果摘要片段中列出的作者。 |
| 🏛️ Journal | 结果中显示的期刊名称与引文信息。 |
| 📅 Date | 列表中显示的发表日期(或 ePub 日期)。 |
| 🧪 Publication Type | 如 Clinical Trial、Randomized Controlled Trial、Meta-Analysis 等信号(通常在详情页更清晰)。 |
| 🧾 Abstract | 完整摘要正文(建议通过子页面抓取)。 |
| 🧬 MeSH Terms | 可用时的 MeSH 主题词(通常在详情页)。 |
| 🧷 DOI | DOI(用于跳转出版社页面或文献管理工具)。 |
| 🏥 Affiliations | 作者单位信息(子页面抓取)。 |
| 🌍 Country / Institution | 可用 Field AI Prompts 从作者单位中解析国家/机构(可选)。 |
| 🔍 Clinical Trial Keywords | 由 AI 标注的关键词/信号,如“randomized”“double-blind”“placebo”(可选,使用 Field AI Prompt)。 |
| 📎 Full Text Links | 指向出版社或免费全文的外链(如有)。 |
🎯 为什么要用 PubMed 工具
抓取 PubMed 的核心价值在于:更快、更一致,并让研究数据能直接进入你的工作流。相比逐条复制引文信息,你可以快速生成可筛选、可打标签、可共享的结构化数据集。
团队常见的 PubMed 抓取场景包括:
- 医学事务与药企团队:跟踪特定治疗领域的新发表,监控竞品试验进展,整理内部审阅所需的证据表。
- 生物科技与临床运营:汇总试验相关文献,梳理机构与研究者网络,维护可持续更新的参考文献库。
- 医疗营销与内容团队:识别热门主题、高影响力期刊与新兴关键词,用于内容选题与规划。
- 学术研究者与图书馆员:构建系统综述/文献回顾数据集,按 PMID 去重,并导出到表格进行筛选。
- 数据团队:为后续分析、仪表盘或内部知识库提供结构化输入。
当你需要的不止是列表页时,Thunderbit 尤其好用。借助 Subpage Scraping,你可以批量提取摘要、作者单位、DOI、MeSH 主题词与全文链接等信息。
🧩 如何使用 PubMed Chrome 扩展
- 安装 Thunderbit Chrome 扩展:在 获取并创建账号。
- 进入 PubMed 页面:打开 、如 这样的趋势页,或类似 的检索结果页。
- 启用 AI 抓取:点击 AI Suggest Columns 生成字段;按需调整数据类型(文本/日期/URL),并可添加 Field AI Prompts(用于标注、格式化或提取试验信号等)。
- 抓取并导出:点击 Scrape。如果需要摘要/作者单位/MeSH 等信息,运行 Scrape Subpages 为每一行补全字段,然后导出到 Excel、Google Sheets、Airtable 或 Notion。
如果你想把流程做成可重复的标准化工作流,这些文章会有帮助:
💳 PubMed 抓取的计费方式
Thunderbit 采用简单的积分(credit)机制:
- 1 credit = 结果表中的 1 行输出(例如一条 PubMed 记录)。
- 导出免费:可下载 CSV/JSON,或发送到 Excel、Google Sheets、Airtable、Notion。
你可以从以下方式开始:
- 免费版:每月可抓取 6 个页面(免费版按页面计量)。
- 免费试用:可免费抓取 10 个页面,适合用来测试 PubMed Trending 与少量临床试验结果页。
如果你需要定期抓取(每周监测、证据更新或大规模检索),付费方案会提供更多 credits。通常年付更划算,因为相较月付会有折扣。
可在 查看具体方案。
❓ 常见问题(FAQ)
-
什么是 AI 驱动的 PubMed 爬虫?
AI 驱动的 PubMed 爬虫是 Thunderbit 中的一套工作流,用于从 PubMed 搜索结果与文章详情页提取结构化数据。你可以让 AI 自动推荐字段列,先抓取列表,再通过文章子页面补全摘要、作者单位、DOI 等信息。 -
Thunderbit 是什么?
是一款 AI 网页爬虫 Chrome 扩展,面向需要从网站获取结构化数据的业务与研究场景。它能帮助你快速提取、标注并导出数据,无需开发或维护爬虫脚本。 -
PubMed 的 Trending 页面和普通搜索结果都能抓取吗?
可以。你既能抓取 页面,也能抓取常规关键词检索与各类筛选后的结果页(例如聚焦临床试验的查询)。Thunderbit 的 AI 会读取页面结构并给出字段建议,适配不同布局。 -
Thunderbit 能提取摘要、作者单位和 MeSH 主题词吗?
可以,而这正是 Subpage Scraping 最有价值的地方。你可以先抓取结果列表,再让 Thunderbit 逐条打开 PubMed 记录页,把摘要、作者单位、MeSH、DOI 等元数据写回同一张表。 -
PubMed 的分页与无限滚动怎么处理?
Thunderbit 支持分页抓取,包括“下一页”式的翻页。如果 PubMed 调整了加载方式,AI 抽取通常比固定选择器更稳健,因为每次运行都会重新理解页面结构。 -
PubMed 数据可以导出到哪些格式?
你可以导出为 CSV 或 JSON,也可以直接发送到 Excel、Google Sheets、Airtable 或 Notion。适用于筛选流程、证据表、仪表盘以及与协作者共享。 -
免费能抓取多少条 PubMed 记录?
免费版每月可抓取 6 个页面,通常足够小规模监测。免费试用可抓取 10 个页面,便于验证字段设置与子页面补全策略。 -
能否按证据提取需求自定义字段列?
可以。你可以重命名字段、设置数据类型(文本/日期/URL),并添加 Field AI Prompts 来提取或标注信息,例如试验设计关键词、研究人群、干预措施、对照、结局指标,或从作者单位中解析国家等。这能让你从“原始抓取”进一步走向“结构化证据准备”。 -
抓取 PubMed 合规吗?
PubMed 是公开资源,许多团队会收集书目元数据用于研究与分析。但你仍应遵守适用法律、尊重网站条款,并采用负责任的抓取方式,尤其是在高频或大规模抓取时。
📚 了解更多
- 获取扩展:
- 浏览指南:
- 基础入门:
- 列表抓取工作流:
- 导出到表格:
- 如果你在研究运营中也需要抓取 PDF:
