wordpress-org-scraper

WordPress.org 爬虫

Thunderbit 的 WordPress.org 爬虫借助 AI,帮助你从 WordPress 插件目录与区块样板库中提取结构化数据。既能抓取列表页,也能通过子页面补全插件统计、版本信息、评分与样板元数据等细节,并可一键导出到 Excel、Google Sheets、Airtable 或 Notion。
4.9
月活用户15.2k
AI 驱动
其他
免费开始使用
提供免费版
支持中文

Thunderbit 的 WordPress.org 爬虫 通过 AI 将 WordPress.org 页面整理成干净、可用的结构化数据集。你可以提取插件目录的关键指标与区块样板库的元数据,并导出到 Excel、Google Sheets、Airtable 或 Notion。操作也很高效:点击 AI Suggest Columns,再点 Scrape,AI 就会自动帮你把数据结构化。

🧩 什么是 WordPress.org 爬虫

WordPress.org 爬虫 是一款 ,让你无需写代码也能用 AI 从 抓取数据。你只要打开目标页面(例如插件目录或样板库),点击 AI Suggest Columns 自动生成可直接使用的字段结构,然后点击 Scrape,就能把数据按行采集到表格里。

WordPress.org Screenshot

使用 Thunderbit,你还可以开启 Subpage Scraping,自动访问每个插件或样板的详情页,把更深入的信息补充进数据集(例如评分分布、版本号、最近更新、标签、样板分类等)。如果你刚接触数据抓取,可以先看这些指南:

🗂️ 在 WordPress.org 上可以抓取什么

WordPress.org 上有大量“结构化但分散”的信息:插件列表、插件详情页、样板图库、样板详情页等。Thunderbit 的 AI 会理解页面布局并推荐合适的字段列,你再把结果导出到常用工具里即可进入后续流程。

下面是两种常见的抓取场景。

📈 抓取 WordPress 插件市场占有与增长趋势

中,你可以抓取插件表现信号并长期跟踪增长变化——非常适合竞品研究、合作伙伴挖掘与产品规划。

Plugin Market Share & Growth Screenshot

操作步骤:

  1. 安装 并注册账号。
  2. 打开目标页面,例如:
  3. 点击 AI Suggest Columns,让 AI 推荐字段列。
  4. 点击 Scrape 运行爬虫,获取数据并下载文件。

字段列示例

列名说明
🧩 插件名称插件在目录列表中展示的名称。
🔗 插件链接插件详情页链接(便于做子页面补全)。
🏷️ Slug插件的 slug(常用于 URL 与内部引用)。
评分列表页展示的平均星级评分。
🗳️ 评分人数参与评分/评论的数量。
⬇️ 启用安装量活跃安装量(衡量采用度的重要指标)。
🕒 最近更新插件显示的“Last updated”时间。
🧑‍💻 作者插件作者或组织名称。
🧾 简短描述列表卡片上的一句话简介。
🏷️ 标签插件相关标签/分类(如页面可见)。
🧠 已测试的 WP 版本兼容性信息,如 “Tested up to”(通常在子页面)。
🧱 PHP / WP 要求运行要求字段(常见于插件详情页)。
🧾 当前版本最新版本号(常见于插件详情页)。

小贴士: 列表页抓取完成后,可用 Scrape Subpages 进一步补全每一行的详情字段,例如完整介绍、更新日志要点、支持情况、兼容性等。如果你需要按周追踪变化,搭配 Scheduled Scraper 可自动生成时间序列数据。

🎨 抓取 WordPress 区块样板库用于素材沉淀

中,你可以抓取样板元数据,用于灵感收集、内容运营、主题研究,或搭建内部设计素材库。

Block Pattern Library Sourcing Screenshot

操作步骤:

  1. 安装 并注册账号。
  2. 打开目标页面,例如:
  3. 点击 AI Suggest Columns,让 AI 推荐字段列。
  4. 点击 Scrape 运行爬虫,获取数据并下载文件。

字段列示例

列名说明
🧩 样板名称样板库中展示的标题。
🔗 样板链接样板详情页链接,用于获取更完整的元数据。
🗂️ 分类样板分类(如页眉、推荐语等),若页面有展示。
🏷️ 标签样板相关标签(通常在子页面)。
🖼️ 预览图样板预览缩略图的图片 URL。
🧱 区块类型样板使用的区块类型(常见于详情页)。
🧑‍🎨 作者 / 来源署名或来源信息(如可获取)。
📝 描述简短说明或摘要文本。
📄 样板内容样板的标记/内容(建议从详情页抓取)。
🕒 最近更新若样板页提供更新日期,则抓取该时间。

小贴士: 导出到 Notion 或 Airtable 后,可以快速搭建可搜索的内部样板目录。Thunderbit 支持图片字段,预览图也能在数据库里保持可视化展示。

🎯 为什么要用 WordPress.org 工具

当你需要可重复、结构化的数据来做分析、监控或素材收集时,抓取 WordPress.org 会非常高效——尤其是当手动复制粘贴变成日常重复劳动。

团队常见的使用动机包括:

  • 产品与增长团队:跟踪插件采用度信号(活跃安装量、评分、更新频率),识别品类头部与新兴工具。
  • 电商与代理机构:为客户技术栈整理插件候选清单、对比替代方案,并记录兼容性要求。
  • 市场团队:定位潜在合作对象(插件作者/公司),建立外联名单,监测竞品定位变化。
  • 主题与设计团队:收集区块样板并分类沉淀,形成可复用素材库,加速页面搭建。
  • 研究与分析人员:构建数据集,用于跨分类、标签与更新频率的趋势分析。

Thunderbit 面向业务流程设计:支持 分页、支持 子页面补全,并可导出到你已经在用的工具。更多技巧可参考:

🧭 如何使用 WordPress.org Chrome 扩展

  1. 安装 Thunderbit Chrome 扩展:在 获取,并在 创建账号。
  2. 打开 WordPress.org 页面:例如
  3. 启用 AI 驱动的抓取:点击 AI Suggest Columns 生成字段列,按需调整数据类型(文本、数字、日期、URL、图片),也可添加字段提取说明。
  4. 抓取并导出:点击 Scrape,然后导出到 Excel/CSV/JSONGoogle SheetsAirtableNotion(导出免费)。

如果你希望持续监控(例如安装量或评分变化),可以用 Scheduled Scraper 按你设定的频率自动运行。

💳 WordPress.org 的定价说明

Thunderbit 采用积分机制:1 积分 = 1 行输出数据。例如从列表页抓取 200 个插件,大约消耗 200 积分(子页面补全只有在你生成额外表格时才可能增加更多行;通常对同一行做补全,仍按你最终输出的行数计费)。

免费可体验内容:

  • 免费版:每月可抓取 6 个页面(按页面计的免费额度)。
  • 免费试用:在选择付费方案前,可先免费抓取 10 个页面
  • 可完整体验 AI 驱动抓取(AI Suggest Columns + Scrape),快速验证你的工作流。

付费方案(按月/按年)会随使用量扩展;并且由于折扣原因,年付通常更划算。详情见:

套餐月付价格年付价格(折算每月)年付总价月度积分年度积分
FreeFreeFreeFree6 pagesN/A
Starter$15$9$1085005,000
Pro 1$38$16.5$1993,00030,000
Pro 2$75$33.8$3986,00060,000
Pro 3$125$68.4$79610,000120,000
Pro 4$249$137.5$1,59220,000240,000

❓ 常见问题

  1. 什么是 AI 驱动的 WordPress.org 爬虫?
    这是 Thunderbit 中的一套工作流:用 AI 读取 WordPress.org 页面并转换成结构化表格。你先点 AI Suggest Columns 生成字段,再点 Scrape 抓取插件或样板数据并导出。

  2. Thunderbit 是什么?
    是一款 AI 网页爬虫与效率型 Chrome 扩展,可将网站、PDF、图片中的信息提取为结构化数据。它面向业务团队,强调快速上手、稳定提取,并能轻松导出到 Google Sheets、Airtable、Notion 等工具。

  3. 能抓取插件详情页,而不仅是列表页吗?
    可以。抓取完插件列表(如 Popular)后,使用 Subpage Scraping 自动进入每个插件详情页,为表格补充版本号、运行要求、最近更新等字段。当列表页信息不够用时尤其有价值。

  4. Thunderbit 能处理 WordPress.org 目录的分页吗?
    可以。Thunderbit 支持分页抓取,包括点击翻页与出现时的无限滚动等模式,帮助你无需手动翻页也能采集多页数据。

  5. 抓取结果可以导出哪些格式/平台?
    你可以导出 CSV/JSON 供本地使用,也可以直接导出到 ExcelGoogle SheetsAirtableNotion。这些导出方式适合做分析与运营,例如搭建看板、追踪变化或建立内部目录。

  6. AI Suggest Columns 对插件与样板的识别准确吗?
    通常它能在几秒内识别列表卡片上的核心字段(名称、URL、评分、安装量、图片等),并给出可用的字段结构。你也可以自行调整列名、设置数据类型,并添加字段说明以获得更符合预期的格式(例如从 “Active installs” 中只提取数字)。

  7. 能否自动监控插件随时间的增长?
    可以。使用 Scheduled Scraper 按日/周/月定时抓取同一插件列表,并导出到表格中做时间序列追踪。这是监控安装量、评分变化与更新节奏的实用方法。

  8. 抓取 WordPress.org 合规吗?
    WordPress.org 的页面是公开的,很多团队会采集公开网页数据用于研究与运营。但你仍应查看 WordPress.org 的条款并遵守适用法律,尊重访问频率限制,避免采集敏感信息。

  9. 如果 WordPress.org 改版,爬虫会失效吗?
    传统爬虫常因 HTML 结构变化而失效,但 Thunderbit 的 AI 每次运行都会基于页面语境理解内容,能适应不少布局更新。若页面变化较大,重新运行 AI Suggest Columns 通常一分钟内就能刷新字段结构。

📚 了解更多

  • 快速开始:
  • 更多指南:
  • 基础入门:
  • 批量抓取列表:
  • 导出到 Excel 的流程:
  • 工具选型参考:
  • 价格详情:
  • 教程与演示: