Thunderbit 的 **PubMed 爬虫** 可以借助 AI，将 PubMed 页面转成干净、结构化的数据集。你可以提取热门医学研究、临床试验证据、摘要、作者、机构、发表日期、PMID 和文章链接，然后导出到 Excel、Google Sheets、Airtable 或 Notion。只需在 Chrome 中打开 PubMed，让 AI 推荐最佳字段，再点击抓取即可。

## 🧬 什么是 PubMed 爬虫
**PubMed 爬虫** 是专为 [PubMed | US National Library of Medicine](https://pubmed.ncbi.nlm.nih.gov) 打造的 **AI 网页爬虫**。借助 [Thunderbit](https://thunderbit.com/)（一款 AI 网页爬虫 Chrome 扩展），你可以进入任意 PubMed 结果页，点击 **AI Suggest Columns**，再点击 **Scrape**，无需写代码即可提取结构化数据。

![PubMed | US National Library of Medicine Screenshot](https://strapi.thunderbit.com/uploads/pubmed_ncbi_nlm_nih_gov_screenshot_1772523322985_c610f1af26.png)

## 🔎 PubMed 能抓取什么
PubMed 里有大量高价值的生物医学元数据，但这些内容并不总是适合直接分析。Thunderbit 的 **AI 网页爬虫** (https://thunderbit.com/) 可以帮你收集和整理 PubMed 列表，并通过 **子页面抓取** 进一步补充文章级详情（打开每篇文章页面，追加摘要、机构、DOI 等字段）。

下面是两个你可以在几分钟内完成的常见工作流。

### 📈 抓取 PubMed 热门医学研究监测数据
这个工作流适合监控 PubMed 热门页面上的医学研究趋势。你可以用它来保持信息更新、生成内部简报、跟踪竞争对手的论文发布，或为文献监测流程提供数据。

目标页示例：[PubMed Trending](https://pubmed.ncbi.nlm.nih.gov/trending/)

![PubMed Trending Screenshot](https://strapi.thunderbit.com/uploads/Screenshot_20260303_at_15_48_25_7fe202bfc6.png)

#### 步骤：
1. 下载 [Thunderbit Chrome 扩展](https://chromewebstore.google.com/detail/thunderbit-ai-web-scraper/hbkblmodhbmcakopmmfbaopfckopccgp) 并注册账号。
2. 打开目标页面，例如：[PubMed Trending](https://pubmed.ncbi.nlm.nih.gov/trending/)。
3. 点击 **AI Suggest Columns**，让 AI 推荐最佳列名和数据类型。
4. 点击 **Scrape** 提取数据，然后导出到 Excel、Google Sheets、Airtable 或 Notion。

#### 列名
<Table content={`| **列** | **说明** |
|---|---|
| 🧾 **Article Title** | 热门 PubMed 文章标题。 |
| 🔗 **Article URL** | 指向 PubMed 记录页的直接链接。 |
| 🆔 **PMID** | 该记录的 PubMed 标识符（适合作为稳定键）。 |
| 🏛️ **Journal** | 文章发表的期刊名称。 |
| 📅 **Publication Date** | 列表中显示的发表日期。 |
| ✍️ **Authors** | 结果卡片上显示的作者字符串。 |
| 🧪 **Article Type** | 发表类型（如有，例如 Review、Clinical Trial）。 |
| 🏷️ **Keywords / Topics** | 列表中可见的主题标签或关键词（如有）。 |
| 📝 **Snippet / Summary** | 列表中显示的简短摘要文本（如有）。 |
| 🧷 **DOI** | DOI（如有，通常通过子页面抓取效果更好）。 |
| 🧑‍🔬 **Affiliations** | 作者机构信息（通常通过子页面抓取提取）。 |
| 📄 **Abstract** | 摘要正文（通常通过子页面抓取提取）。 |`} />

### 🧫 抓取 PubMed 临床试验证据
这个工作流用于从 PubMed 搜索结果中提取与临床试验相关的证据，再逐条访问文章页面补充摘要、试验信号和你做审阅所需的元数据。

目标页示例：[临床试验搜索结果](https://pubmed.ncbi.nlm.nih.gov/?term=clinical+trial&filter=simsearch2.ffrft)

![PubMed Clinical Trial Search Screenshot](https://strapi.thunderbit.com/uploads/Screenshot_20260303_at_15_49_32_1ec18c9d60.png)

#### 步骤：
1. 下载 [Thunderbit Chrome 扩展](https://chromewebstore.google.com/detail/thunderbit-ai-web-scraper/hbkblmodhbmcakopmmfbaopfckopccgp) 并注册账号。
2. 打开目标页面，例如：[临床试验搜索结果](https://pubmed.ncbi.nlm.nih.gov/?term=clinical+trial&filter=simsearch2.ffrft)。
3. 点击 **AI Suggest Columns** 生成推荐字段（你也可以自行重命名或新增字段）。
4. 点击 **Scrape** 收集结果，再使用 **Scrape Subpages** 逐条补充摘要、机构、DOI 等信息。

#### 列名
<Table content={`| **列** | **说明** |
|---|---|
| 🧾 **Title** | 搜索结果中的文章标题。 |
| 🔗 **PubMed URL** | 指向 PubMed 文章页的链接，方便后续子页面补充。 |
| 🆔 **PMID** | 用于去重和引用的 PubMed 标识符。 |
| 🧑‍⚕️ **Authors** | 结果摘要中列出的作者。 |
| 🏛️ **Journal** | 结果中显示的期刊名称和引文信息。 |
| 📅 **Date** | 列表中显示的发表日期（或 ePub 日期）。 |
| 🧪 **Publication Type** | 如 Clinical Trial、Randomized Controlled Trial、Meta-Analysis 等信号（通常在文章页更清晰）。 |
| 🧾 **Abstract** | 完整摘要正文（建议通过子页面抓取）。 |
| 🧬 **MeSH Terms** | 如有可用的医学主题词（通常在文章页）。 |
| 🧷 **DOI** | 用于链接到出版社页面和参考文献管理工具的 DOI。 |
| 🏥 **Affiliations** | 作者机构信息，便于机构分析（子页面抓取）。 |
| 🌍 **Country / Institution** | 可通过 Field AI Prompts 从机构信息中解析（可选）。 |
| 🔍 **Clinical Trial Keywords** | 例如 “randomized”、“double-blind”、“placebo” 这类 AI 标注信号（可通过 Field AI Prompt 可选实现）。 |
| 📎 **Full Text Links** | 如有可见，则为出版社或免费全文的外链。 |`} />

## 🎯 为什么要用 PubMed 工具
抓取 PubMed 的核心价值在于速度、一致性，以及让研究数据能在整个工作流程中真正可用。你不必再一条条复制引文，而是可以构建一个可筛选、可打标签、可共享的结构化数据集。

团队选择抓取 PubMed 的常见原因包括：

- **医学事务与制药团队**：追踪某个治疗领域的新发表成果，监测竞争对手试验，并为内部审查建立证据表。
- **生物科技与临床运营团队**：收集与试验相关的论文，梳理机构和研究者信息，维护持续更新的文献库。
- **医疗营销与内容团队**：识别热门主题、高影响力期刊和新兴关键词，用于内容规划。
- **学术研究人员与图书馆员**：构建文献综述数据集，按 PMID 去重，并导出到表格进行筛选。
- **数据团队**：为后续分析、仪表盘或内部知识库创建结构化输入。

当你需要的不只是列表页时，Thunderbit 尤其有用。借助 **Subpage Scraping**，你可以批量提取摘要、机构、DOI、MeSH 术语和全文链接。

## 🧩 如何使用 PubMed Chrome 扩展
1. **安装 Thunderbit Chrome 扩展**：前往 [Chrome Web Store](https://chromewebstore.google.com/detail/thunderbit-ai-web-scraper/hbkblmodhbmcakopmmfbaopfckopccgp) 下载并创建账号。
2. **进入 PubMed 页面**：打开 [PubMed](https://pubmed.ncbi.nlm.nih.gov)、热门页面如 [Trending](https://pubmed.ncbi.nlm.nih.gov/trending/)，或某个查询页面如 [clinical trial results](https://pubmed.ncbi.nlm.nih.gov/?term=clinical+trial&filter=simsearch2.ffrft)。
3. **启用 AI 驱动的爬虫**：点击 **AI Suggest Columns** 生成字段，调整数据类型（文本/日期/URL），并添加可选的 *Field AI Prompts*（用于标注、格式化或提取试验信号）。
4. **抓取并导出**：点击 **Scrape**。如果你需要摘要/机构/MeSH 信息，再运行 **Scrape Subpages** 为每一行补充数据，然后导出到 Excel、Google Sheets、Airtable 或 Notion。

如果你正在搭建可重复的工作流，这些文章会很有帮助：
- [如何使用 AI 抓取任意网站](https://thunderbit.com/blog/scrape-any-website-using-ai)
- [什么是数据抓取，以及 2025 年如何操作](https://thunderbit.com/blog/what-is-data-scraping-and-how-to-do-it)
- [如何使用 AI 将网页数据抓取到 Excel](https://thunderbit.com/blog/scrape-website-data-into-excel)
- [什么是列表爬取，以及如何使用 AI 完成](https://thunderbit.com/blog/what-is-list-crawling)

## 💳 PubMed 价格
Thunderbit 采用简单的积分系统：
- **1 个积分 = 结果表中的 1 行输出**（例如一条 PubMed 记录）。
- 数据导出免费：可下载 CSV/JSON，或发送到 Excel、Google Sheets、Airtable 或 Notion。

你可以从以下方案开始：
- **免费版**：每月可抓取 **6 个页面**（免费额度按页面计算）。
- **免费试用**：可免费抓取 **10 个页面**，非常适合测试 PubMed 热门页面和少量临床试验结果页。

如果你需要定期抓取（每周监测、证据更新或大规模查询），付费方案会提供更多积分。年度方案通常更划算，因为相比按月付费会有折扣。

你可以在 [Thunderbit Pricing](https://thunderbit.com/pricing) 查看具体方案。

## ❓ 常见问题
1. **什么是 AI 驱动的 PubMed 爬虫？**  
   AI 驱动的 PubMed 爬虫是 Thunderbit 中的一套工作流，用于从 PubMed 搜索结果和文章页面中提取结构化数据。你可以用 AI 推荐字段、抓取列表，并通过访问文章子页面补充摘要、机构、DOI 等信息。

2. **什么是 Thunderbit？**  
   [Thunderbit](https://thunderbit.com/) 是一款 AI 网页爬虫 Chrome 扩展，专为需要从网站中获取结构化数据的商业与研究工作流而设计。它可以帮助你快速提取、标注并导出数据，无需编写或维护抓取脚本。

3. **可以抓取 PubMed 热门页面和普通搜索结果吗？**  
   可以。你既能抓取 [PubMed Trending](https://pubmed.ncbi.nlm.nih.gov/trending/) 页面，也能抓取常规关键词搜索和带筛选条件的结果页（例如聚焦临床试验的查询）。Thunderbit 的 AI 会读取页面并自动建议字段，因此可以适配不同布局。

4. **Thunderbit 能提取摘要、机构和 MeSH 术语吗？**  
   可以，而且这正是 **Subpage Scraping** 最有用的地方。你可以先抓取结果列表，再让 Thunderbit 打开每条 PubMed 记录页面，把摘要、机构、MeSH 术语、DOI 和其他元数据提取到同一张表里。

5. **PubMed 的分页和无限滚动该怎么处理？**  
   Thunderbit 支持分页抓取，包括“下一页”式导航。如果 PubMed 改变了结果加载方式，基于 AI 的提取通常比固定选择器更稳健，因为它每次运行都会重新读取页面结构。

6. **PubMed 数据可以导出成哪些格式？**  
   你可以导出为 CSV 或 JSON，也可以直接发送到 Excel、Google Sheets、Airtable 或 Notion。这对筛选流程、证据表、仪表盘以及与协作者共享都很有用。

7. **我可以免费抓取多少条 PubMed 记录？**  
   在免费版中，你每月可以抓取 6 个页面，这通常已经足够小规模监测任务。免费试用期内，你可以免费抓取 10 个页面，用来验证字段设置和子页面补充策略。

8. **我能否针对特定证据提取需求自定义列？**  
   可以。你可以重命名列、设置数据类型（文本/日期/URL），并添加 *Field AI Prompts*，提取或标注如试验设计关键词、研究人群、干预措施、对照、结局或机构所在国家等信息。这样你就能从原始抓取进一步走向结构化证据准备。

9. **抓取 PubMed 合规吗？**  
   PubMed 是公开资源，许多团队都会收集其书目信息用于研究和分析。但你仍然应遵守适用法律、尊重网站条款，并采用负责任的抓取方式，尤其是在执行大规模、高频任务时。

## 📚 了解更多
- 获取扩展：[Thunderbit Chrome 扩展下载页](https://chromewebstore.google.com/detail/thunderbit-ai-web-scraper/hbkblmodhbmcakopmmfbaopfckopccgp)  
- 浏览指南：[Thunderbit 博客](https://thunderbit.com/blog)  
- 学习基础：[什么是数据抓取，以及 2025 年如何操作](https://thunderbit.com/blog/what-is-data-scraping-and-how-to-do-it)  
- 构建列表工作流：[什么是列表爬取，以及如何使用 AI 完成](https://thunderbit.com/blog/what-is-list-crawling)  
- 导出到表格：[如何使用 AI 将网页数据抓取到 Excel](https://thunderbit.com/blog/scrape-website-data-into-excel)  
- 如果你也在研究场景中抓取 PDF：[如何使用 AI 从 PDF 中抓取数据](https://thunderbit.com/blog/scrape-data-from-pdf-using-ai)

Thunderbit 的 PubMed 爬虫可借助 AI 帮你从 PubMed 搜索结果和文章页面中提取结构化数据。轻松抓取热门医学研究、临床试验证据、摘要、作者、机构、发表日期和链接，并可导出到 Excel、Google Sheets、Airtable 或 Notion。

PubMed 爬虫

Вам также может понравиться

Похожие статьи