Thunderbit 的 WordPress.org 爬虫 通过 AI 将 WordPress.org 页面整理成干净、可用的结构化数据集。你可以提取插件目录的关键指标与区块样板库的元数据,并导出到 Excel、Google Sheets、Airtable 或 Notion。操作也很高效:点击 AI Suggest Columns,再点 Scrape,AI 就会自动帮你把数据结构化。
🧩 什么是 WordPress.org 爬虫
WordPress.org 爬虫 是一款 ,让你无需写代码也能用 AI 从 抓取数据。你只要打开目标页面(例如插件目录或样板库),点击 AI Suggest Columns 自动生成可直接使用的字段结构,然后点击 Scrape,就能把数据按行采集到表格里。

使用 Thunderbit,你还可以开启 Subpage Scraping,自动访问每个插件或样板的详情页,把更深入的信息补充进数据集(例如评分分布、版本号、最近更新、标签、样板分类等)。如果你刚接触数据抓取,可以先看这些指南: 和 。
🗂️ 在 WordPress.org 上可以抓取什么
WordPress.org 上有大量“结构化但分散”的信息:插件列表、插件详情页、样板图库、样板详情页等。Thunderbit 的 AI 会理解页面布局并推荐合适的字段列,你再把结果导出到常用工具里即可进入后续流程。
下面是两种常见的抓取场景。
📈 抓取 WordPress 插件市场占有与增长趋势
在 中,你可以抓取插件表现信号并长期跟踪增长变化——非常适合竞品研究、合作伙伴挖掘与产品规划。

操作步骤:
- 安装 并注册账号。
- 打开目标页面,例如:。
- 点击 AI Suggest Columns,让 AI 推荐字段列。
- 点击 Scrape 运行爬虫,获取数据并下载文件。
字段列示例
| 列名 | 说明 |
|---|---|
| 🧩 插件名称 | 插件在目录列表中展示的名称。 |
| 🔗 插件链接 | 插件详情页链接(便于做子页面补全)。 |
| 🏷️ Slug | 插件的 slug(常用于 URL 与内部引用)。 |
| ⭐ 评分 | 列表页展示的平均星级评分。 |
| 🗳️ 评分人数 | 参与评分/评论的数量。 |
| ⬇️ 启用安装量 | 活跃安装量(衡量采用度的重要指标)。 |
| 🕒 最近更新 | 插件显示的“Last updated”时间。 |
| 🧑💻 作者 | 插件作者或组织名称。 |
| 🧾 简短描述 | 列表卡片上的一句话简介。 |
| 🏷️ 标签 | 插件相关标签/分类(如页面可见)。 |
| 🧠 已测试的 WP 版本 | 兼容性信息,如 “Tested up to”(通常在子页面)。 |
| 🧱 PHP / WP 要求 | 运行要求字段(常见于插件详情页)。 |
| 🧾 当前版本 | 最新版本号(常见于插件详情页)。 |
小贴士: 列表页抓取完成后,可用 Scrape Subpages 进一步补全每一行的详情字段,例如完整介绍、更新日志要点、支持情况、兼容性等。如果你需要按周追踪变化,搭配 Scheduled Scraper 可自动生成时间序列数据。
🎨 抓取 WordPress 区块样板库用于素材沉淀
在 中,你可以抓取样板元数据,用于灵感收集、内容运营、主题研究,或搭建内部设计素材库。

操作步骤:
- 安装 并注册账号。
- 打开目标页面,例如:。
- 点击 AI Suggest Columns,让 AI 推荐字段列。
- 点击 Scrape 运行爬虫,获取数据并下载文件。
字段列示例
| 列名 | 说明 |
|---|---|
| 🧩 样板名称 | 样板库中展示的标题。 |
| 🔗 样板链接 | 样板详情页链接,用于获取更完整的元数据。 |
| 🗂️ 分类 | 样板分类(如页眉、推荐语等),若页面有展示。 |
| 🏷️ 标签 | 样板相关标签(通常在子页面)。 |
| 🖼️ 预览图 | 样板预览缩略图的图片 URL。 |
| 🧱 区块类型 | 样板使用的区块类型(常见于详情页)。 |
| 🧑🎨 作者 / 来源 | 署名或来源信息(如可获取)。 |
| 📝 描述 | 简短说明或摘要文本。 |
| 📄 样板内容 | 样板的标记/内容(建议从详情页抓取)。 |
| 🕒 最近更新 | 若样板页提供更新日期,则抓取该时间。 |
小贴士: 导出到 Notion 或 Airtable 后,可以快速搭建可搜索的内部样板目录。Thunderbit 支持图片字段,预览图也能在数据库里保持可视化展示。
🎯 为什么要用 WordPress.org 工具
当你需要可重复、结构化的数据来做分析、监控或素材收集时,抓取 WordPress.org 会非常高效——尤其是当手动复制粘贴变成日常重复劳动。
团队常见的使用动机包括:
- 产品与增长团队:跟踪插件采用度信号(活跃安装量、评分、更新频率),识别品类头部与新兴工具。
- 电商与代理机构:为客户技术栈整理插件候选清单、对比替代方案,并记录兼容性要求。
- 市场团队:定位潜在合作对象(插件作者/公司),建立外联名单,监测竞品定位变化。
- 主题与设计团队:收集区块样板并分类沉淀,形成可复用素材库,加速页面搭建。
- 研究与分析人员:构建数据集,用于跨分类、标签与更新频率的趋势分析。
Thunderbit 面向业务流程设计:支持 分页、支持 子页面补全,并可导出到你已经在用的工具。更多技巧可参考: 与 。
🧭 如何使用 WordPress.org Chrome 扩展
- 安装 Thunderbit Chrome 扩展:在 获取,并在 创建账号。
- 打开 WordPress.org 页面:例如 或 。
- 启用 AI 驱动的抓取:点击 AI Suggest Columns 生成字段列,按需调整数据类型(文本、数字、日期、URL、图片),也可添加字段提取说明。
- 抓取并导出:点击 Scrape,然后导出到 Excel/CSV/JSON、Google Sheets、Airtable 或 Notion(导出免费)。
如果你希望持续监控(例如安装量或评分变化),可以用 Scheduled Scraper 按你设定的频率自动运行。
💳 WordPress.org 的定价说明
Thunderbit 采用积分机制:1 积分 = 1 行输出数据。例如从列表页抓取 200 个插件,大约消耗 200 积分(子页面补全只有在你生成额外表格时才可能增加更多行;通常对同一行做补全,仍按你最终输出的行数计费)。
免费可体验内容:
- 免费版:每月可抓取 6 个页面(按页面计的免费额度)。
- 免费试用:在选择付费方案前,可先免费抓取 10 个页面。
- 可完整体验 AI 驱动抓取(AI Suggest Columns + Scrape),快速验证你的工作流。
付费方案(按月/按年)会随使用量扩展;并且由于折扣原因,年付通常更划算。详情见:。
| 套餐 | 月付价格 | 年付价格(折算每月) | 年付总价 | 月度积分 | 年度积分 |
|---|---|---|---|---|---|
| Free | Free | Free | Free | 6 pages | N/A |
| Starter | $15 | $9 | $108 | 500 | 5,000 |
| Pro 1 | $38 | $16.5 | $199 | 3,000 | 30,000 |
| Pro 2 | $75 | $33.8 | $398 | 6,000 | 60,000 |
| Pro 3 | $125 | $68.4 | $796 | 10,000 | 120,000 |
| Pro 4 | $249 | $137.5 | $1,592 | 20,000 | 240,000 |
❓ 常见问题
-
什么是 AI 驱动的 WordPress.org 爬虫?
这是 Thunderbit 中的一套工作流:用 AI 读取 WordPress.org 页面并转换成结构化表格。你先点 AI Suggest Columns 生成字段,再点 Scrape 抓取插件或样板数据并导出。 -
Thunderbit 是什么?
是一款 AI 网页爬虫与效率型 Chrome 扩展,可将网站、PDF、图片中的信息提取为结构化数据。它面向业务团队,强调快速上手、稳定提取,并能轻松导出到 Google Sheets、Airtable、Notion 等工具。 -
能抓取插件详情页,而不仅是列表页吗?
可以。抓取完插件列表(如 Popular)后,使用 Subpage Scraping 自动进入每个插件详情页,为表格补充版本号、运行要求、最近更新等字段。当列表页信息不够用时尤其有价值。 -
Thunderbit 能处理 WordPress.org 目录的分页吗?
可以。Thunderbit 支持分页抓取,包括点击翻页与出现时的无限滚动等模式,帮助你无需手动翻页也能采集多页数据。 -
抓取结果可以导出哪些格式/平台?
你可以导出 CSV/JSON 供本地使用,也可以直接导出到 Excel、Google Sheets、Airtable 或 Notion。这些导出方式适合做分析与运营,例如搭建看板、追踪变化或建立内部目录。 -
AI Suggest Columns 对插件与样板的识别准确吗?
通常它能在几秒内识别列表卡片上的核心字段(名称、URL、评分、安装量、图片等),并给出可用的字段结构。你也可以自行调整列名、设置数据类型,并添加字段说明以获得更符合预期的格式(例如从 “Active installs” 中只提取数字)。 -
能否自动监控插件随时间的增长?
可以。使用 Scheduled Scraper 按日/周/月定时抓取同一插件列表,并导出到表格中做时间序列追踪。这是监控安装量、评分变化与更新节奏的实用方法。 -
抓取 WordPress.org 合规吗?
WordPress.org 的页面是公开的,很多团队会采集公开网页数据用于研究与运营。但你仍应查看 WordPress.org 的条款并遵守适用法律,尊重访问频率限制,避免采集敏感信息。 -
如果 WordPress.org 改版,爬虫会失效吗?
传统爬虫常因 HTML 结构变化而失效,但 Thunderbit 的 AI 每次运行都会基于页面语境理解内容,能适应不少布局更新。若页面变化较大,重新运行 AI Suggest Columns 通常一分钟内就能刷新字段结构。
📚 了解更多
- 快速开始:
- 更多指南:
- 基础入门:
- 批量抓取列表:
- 导出到 Excel 的流程:
- 工具选型参考:
- 价格详情:
- 教程与演示:
