pubmed-scraper

PubMed 爬蟲

Thunderbit 的 PubMed 爬蟲可透過 AI 從 PubMed 搜尋結果與文章頁面擷取結構化資料。輕鬆抓取熱門醫學研究、臨床試驗證據、摘要、作者、作者機構、發表日期與連結,並可匯出到 Excel、Google Sheets、Airtable 或 Notion。
4.7
每月使用者3.6k
AI 驅動
新聞
免費開始使用
提供免費方案
支援繁體中文

Thunderbit 的 PubMed 爬蟲 透過 AI,能把 PubMed 頁面快速整理成乾淨、可分析的結構化資料集。你可以擷取熱門醫學研究、臨床試驗相關證據、摘要、作者、作者機構、發表日期、PMID 與文章連結,並匯出到 Excel、Google Sheets、Airtable 或 Notion。操作也很直覺:用 Chrome 打開 PubMed,讓 AI 建議最合適的欄位,接著一鍵抓取即可。

🧬 什麼是 PubMed 爬蟲

PubMed 爬蟲 是專為 打造的 人工智慧網頁爬蟲。透過 (AI 網頁爬蟲 Chrome 擴充功能),你只要進到任一 PubMed 結果頁,點擊 AI Suggest Columns,再按 Scrape,就能在不寫程式的情況下擷取結構化資料。

PubMed | US National Library of Medicine Screenshot

🔎 你可以用 PubMed 抓取哪些資料

PubMed 擁有大量高價值的生醫文獻中繼資料,但原始頁面內容不一定能直接拿來分析。Thunderbit 的 人工智慧網頁爬蟲 (https://thunderbit.com/) 能協助你收集並整理 PubMed 清單資料,並透過 Subpage Scraping 進一步補齊文章層級資訊(自動打開每篇文章頁,追加摘要、作者機構、DOI 等欄位)。

以下提供兩種常見情境,通常幾分鐘內就能完成。

📈 抓取 PubMed 熱門醫學研究趨勢監測

這個流程適合用來追蹤 PubMed Trending 頁面上正在升溫的研究主題。可用於掌握最新動態、製作內部快報、追蹤競品發表,或串接到文獻監測流程中。

目標頁面範例:

PubMed Trending Screenshot

操作步驟:

  1. 下載 並註冊帳號。
  2. 前往目標頁面,例如:
  3. 點擊 AI Suggest Columns,讓 AI 推薦最合適的欄位名稱與資料類型。
  4. 點擊 Scrape 擷取資料,並匯出到 Excel、Google Sheets、Airtable 或 Notion。

欄位名稱

欄位說明
🧾 文章標題Trending 清單中顯示的文章標題。
🔗 文章 URL直達該筆 PubMed 紀錄頁的連結。
🆔 PMID該筆紀錄的 PubMed 識別碼(適合作為穩定主鍵)。
🏛️ 期刊文章發表的期刊名稱。
📅 發表日期清單中顯示的發表日期。
✍️ 作者結果卡片上顯示的作者字串。
🧪 文章類型若有提供,顯示出版類型(如 Review、Clinical Trial)。
🏷️ 關鍵字 / 主題清單上可見的主題標籤或關鍵字(若有)。
📝 摘要片段 / 簡述清單中顯示的短摘要片段(若有)。
🧷 DOI若有提供 DOI(通常用子頁抓取更完整)。
🧑‍🔬 作者機構作者隸屬機構(通常透過子頁抓取)。
📄 摘要文章摘要全文(通常透過子頁抓取)。

🧫 抓取 PubMed 臨床試驗證據整理

此流程適合從 PubMed 搜尋結果中擷取與臨床試驗相關的文獻,並再逐篇進入文章頁補齊摘要、試驗訊號與審閱所需的中繼資料。

目標頁面範例:

PubMed Clinical Trial Search Screenshot

操作步驟:

  1. 下載 並註冊帳號。
  2. 前往目標頁面,例如:
  3. 點擊 AI Suggest Columns 產生建議欄位(也可自行改名或新增)。
  4. 點擊 Scrape 先抓取清單,再用 Scrape Subpages 逐筆補齊摘要、作者機構、DOI 等資訊。

欄位名稱

欄位說明
🧾 標題搜尋結果中的文章標題。
🔗 PubMed URL文章頁連結,用於子頁補齊欄位。
🆔 PMIDPubMed 識別碼,便於去重與引用。
🧑‍⚕️ 作者結果摘要片段中列出的作者。
🏛️ 期刊結果中顯示的期刊名稱與引用資訊。
📅 日期清單顯示的發表日期(或 ePub 日期)。
🧪 出版類型如 Clinical Trial、Randomized Controlled Trial、Meta-Analysis(通常在文章頁更清楚)。
🧾 摘要摘要全文(建議用子頁抓取)。
🧬 MeSH 詞彙若有提供的 Medical Subject Headings(多在文章頁)。
🧷 DOIDOI,便於連到出版社頁或文獻管理工具。
🏥 作者機構用於機構分析的作者隸屬資訊(子頁抓取)。
🌍 國家 / 機構可用 Field AI Prompts 從作者機構中解析(選用)。
🔍 臨床試驗關鍵訊號例如「randomized」「double-blind」「placebo」等 AI 標記(可用 Field AI Prompt 選用)。
📎 全文連結若有提供,指向出版社或免費全文的外部連結。

🎯 為什麼要用 PubMed 工具

抓取 PubMed 的核心價值在於:更快、更一致,並讓研究資料能直接融入你的工作流程。與其逐筆複製引用資訊,不如一次建立可篩選、可標記、可共享的結構化資料集。

團隊常見的 PubMed 抓取需求包括:

  • 醫藥事務與藥廠團隊:追蹤特定治療領域的新發表、監測競品試驗、建立內部審閱用的證據表。
  • 生技與臨床營運:彙整試驗相關文獻、盤點機構與研究者、維護可持續更新的書目清單。
  • 醫療行銷與內容團隊:找出熱門主題、高影響力期刊與新興關鍵字,支援內容規劃。
  • 學術研究者與圖書館員:建立系統性文獻回顧資料集、用 PMID 去重,並匯出到試算表進行篩選。
  • 資料團隊:為後續分析、儀表板或內部知識庫建立結構化輸入。

當你不只需要清單頁資訊時,Thunderbit 特別好用。透過 Subpage Scraping,你可以批次擷取摘要、作者機構、DOI、MeSH 詞彙與全文連結等欄位。

🧩 如何使用 PubMed Chrome 擴充功能

  1. 安裝 Thunderbit Chrome Extension:到 下載並建立帳號。
  2. 前往 PubMed 頁面:打開 、像 這類趨勢頁,或像 這類查詢結果。
  3. 啟用 AI 抓取:點擊 AI Suggest Columns 產生欄位,調整資料類型(文字/日期/URL),並視需要加入 Field AI Prompts(用於標記、格式化或抽取臨床試驗訊號)。
  4. 抓取並匯出:點擊 Scrape。若需要摘要/作者機構/MeSH,使用 Scrape Subpages 補齊每列資料後,再匯出到 Excel、Google Sheets、Airtable 或 Notion。

若你想把流程做成可重複執行的工作法,以下文章也很有幫助:

💳 PubMed 的計費方式

Thunderbit 採用簡單的點數制:

  • 1 點數 = 結果表中的 1 筆輸出列(例如 1 筆 PubMed 紀錄)。
  • 匯出資料免費:可下載 CSV/JSON,或直接送到 Excel、Google Sheets、Airtable、Notion。

你可以從以下方案開始:

  • 免費方案:每月可抓取 6 個頁面(免費方案以頁面數計)。
  • 免費試用:可免費抓取 10 個頁面,很適合先測試 Trending 頁與幾個臨床試驗結果頁。

若你需要固定抓取(每週監測、定期更新證據、或大量查詢),付費方案會提供更多點數。年繳通常更划算,因為相較月繳會有折扣。

可至 查看方案細節。

❓ 常見問題

  1. 什麼是 AI Powered PubMed Scraper?
    AI Powered PubMed Scraper 是 Thunderbit 內的一套流程,可從 PubMed 搜尋結果與文章頁擷取結構化資料。你可以用 AI 建議欄位、抓取清單,並透過文章子頁補齊摘要、作者機構、DOI 等資訊。

  2. Thunderbit 是什麼?
    是一款 AI 網頁爬蟲 Chrome 擴充功能,適合商務與研究情境中需要從網站取得結構化資料的工作流程。它能協助你快速擷取、標記並匯出資料,無需自行開發或維護爬蟲腳本。

  3. 可以抓取 PubMed Trending 與一般搜尋結果嗎?
    可以。你能抓取 頁、一般關鍵字搜尋,以及各種篩選後的結果頁(例如聚焦臨床試驗的查詢)。Thunderbit 的 AI 會讀取頁面版型並自動提出欄位建議,能適應不同布局。

  4. Thunderbit 能擷取摘要、作者機構與 MeSH 詞彙嗎?
    可以,而這正是 Subpage Scraping 最有價值的地方。你可以先抓取結果清單,再讓 Thunderbit 逐筆打開每個 PubMed 紀錄頁,把摘要、作者機構、MeSH、DOI 等中繼資料補進同一張表。

  5. PubMed 的分頁與無限捲動怎麼處理?
    Thunderbit 支援分頁抓取,包括「下一頁」這類導覽方式。若 PubMed 調整載入方式,AI 型擷取通常比固定選擇器更有韌性,因為每次執行都會重新理解頁面結構。

  6. PubMed 資料可以匯出成哪些格式?
    你可以匯出為 CSV 或 JSON,也能直接送到 Excel、Google Sheets、Airtable 或 Notion。這對文獻篩選流程、證據表、儀表板與協作分享都很實用。

  7. 免費可以抓取多少筆 PubMed 紀錄?
    免費方案每月可抓取 6 個頁面,通常足以應付小型監測需求。免費試用則可抓取 10 個頁面,方便你驗證欄位設計與子頁補齊策略。

  8. 我可以依照證據整理需求自訂欄位嗎?
    可以。你能重新命名欄位、設定資料類型(文字/日期/URL),並加入 Field AI Prompts 來抽取或標記資訊,例如試驗設計關鍵字、族群、介入、對照、結局,或從作者機構解析國家等。這能讓你從「單純抓取」進一步走向「結構化證據整理」。

  9. 抓取 PubMed 合適嗎?
    PubMed 是公開資源,許多團隊會蒐集書目中繼資料用於研究與分析。不過你仍應遵守適用法律、尊重網站條款,並採取負責任的抓取方式,尤其在大量且高頻的情境下。

📚 延伸閱讀

  • 下載擴充功能:
  • 更多教學指南:
  • 基礎概念:
  • 清單型流程:
  • 匯出到試算表:
  • 研究營運也常用的 PDF 抓取: