AI 驱动的 Web Scraper API

零维护,永远如此。

一次 API 调用即可将任意网页转换为 Markdown 或表格。用实时网页数据为你的 Agent 提供支持,构建 RAG,并增强数据库——基础设施交给我们。

全球超过 100,000+ 用户信赖

tsinghua_university logomeituan logopumc logoharvard_university logobcg logomit logoadidas logored_bull_technology logowix logored_hat logocolliers logooliver_wyman logotsinghua_university logomeituan logopumc logoharvard_university logobcg logomit logoadidas logored_bull_technology logowix logored_hat logocolliers logooliver_wyman logotsinghua_university logomeituan logopumc logoharvard_university logobcg logomit logoadidas logored_bull_technology logowix logored_hat logocolliers logooliver_wyman logotsinghua_university logomeituan logopumc logoharvard_university logobcg logomit logoadidas logored_bull_technology logowix logored_hat logocolliers logooliver_wyman logotsinghua_university logomeituan logopumc logoharvard_university logobcg logomit logoadidas logored_bull_technology logowix logored_hat logocolliers logooliver_wyman logotsinghua_university logomeituan logopumc logoharvard_university logobcg logomit logoadidas logored_bull_technology logowix logored_hat logocolliers logooliver_wyman logo

几分钟即可上线运行

现在就可以在终端中试用。

>_
URL 转 Markdown
1import requests
2
3resp = requests.post(
4 "https://open.thunderbit.com/v1/distill",
5 headers={"Authorization": f"Bearer {API_KEY}"},
6 json={"url": "https://example.com/article"}
7)
8
9markdown = resp.json()["data"]["markdown"]
核心 API

两项核心能力

Distill 用于清晰内容,Extract 用于结构化数据

Distill
URLMarkdown
去除广告、导航和干扰信息 — 只保留重要内容
内置完整 JS 渲染和反爬绕过
每个请求最多批量处理 100 个 URL
Extract
URL + SchemaJSON / CSV
一个 Schema 适用于所有网站 — 无需逐站维护
自动适应网站改版
每个请求最多批量处理 50 个 URL
优势

为什么使用 Thunderbit

你的 AI Agent 值得拥有的抓取 / 数据提取基础设施

定义要什么,而不是怎么做
无需 CSS 选择器、无需 XPath、无需逐站规则。用 JSON Schema 描述你需要的数据——AI 会自动判断数据位置以及获取方式。
一个 Schema,适用于所有网站
同一个 Schema 可适用于电商网站、销售列表或你提供的任何 URL。新增数据源只是一次配置变更,而不是一场工程冲刺。
即使网站改版也能持续运行
传统抓取器会在每次改版后失效。Thunderbit 读取的是语义,而不是 DOM 结构——因此即使底层 HTML 发生变化,抓取依然可用。
行业

使用场景

使用 Thunderbit 可以构建什么

支持网页访问的 AI Agent
让你的 Agent 能够读取并理解任何网页。一次 API 调用即可返回结构化上下文,为下一步操作做好准备。
RAG 与知识库
将任意 URL 转换为干净的 Markdown,并直接输入向量数据库。无需 HTML 解析,也无需内容清洗脚本。
将任何网站转化为 API
定义一个 Schema,指向一个 URL,即可返回 JSON。构建商品价格 API、职位列表 API 或新闻流 API——无需编写任何抓取器。
数据库增强
用实时网页数据保持数据库最新。按计划抓取公司资料、联系信息或列表详情——即使数据源变化,Schema 也保持不变。
竞品监控
跨数百个页面跟踪价格、库存、评论或内容变化。相同的 Schema,相同的流程,几秒内即可添加新数据源。
数据集构建
从开放网络构建训练集、评估基准或研究数据集。批量处理数千个 URL,输出结构一致的数据。

我们基于此 API 构建 Thunderbit

你正在查看的同一个 API 支撑着 Thunderbit 的 Chrome 扩展 和网页应用——被 100,000+ 用户用于每月提取数千万个页面。 这不是一个副项目,而是我们愿意押上自家产品的基础设施。

0M+
每月处理的页面数持续增长
0K+
Thunderbit 扩展用户
0%
正常运行时间
方案

定价

先免费开始,按需扩展付费

免费版
轻量试用抓取功能。无需费用、无需信用卡、无需麻烦。
600 单位 / 一次性
$0一次性
 
Distill 600 个页面
Extract 30 个页面
2 个并发请求
入门版
非常适合副项目和小工具。快速、简单,不过度复杂。
60,000 API 单位 / 年
$16/月
按年计费,所有单位一次性预付。
Distill 60,000 个页面
Extract 3,000 个页面
30 个并发请求
基础支持
专业版1最受欢迎
专为高吞吐和高速设计。Thunderbit 全力以赴。
600,000 API 单位 / 年
$40/月
按年计费,所有单位一次性预付。
600K1200K2400K4800K
Distill 600,000 个页面
Extract 30,000 个页面
50 个并发请求
优先支持

常见 问题

关于产品和计费,你需要知道的一切。