AI 驱动的 Web Scraper API

零维护。永远如此。

一次 API 调用即可将任意网页转换为 Markdown 或表格。用实时网页数据为你的 Agent 提供支持,构建 RAG,并丰富数据库——基础设施交给我们。

全球超过 100,000+ 用户信赖

tsinghua_university logomeituan logopumc logoharvard_university logobcg logomit logoadidas logored_bull_technology logowix logored_hat logocolliers logooliver_wyman logotsinghua_university logomeituan logopumc logoharvard_university logobcg logomit logoadidas logored_bull_technology logowix logored_hat logocolliers logooliver_wyman logotsinghua_university logomeituan logopumc logoharvard_university logobcg logomit logoadidas logored_bull_technology logowix logored_hat logocolliers logooliver_wyman logotsinghua_university logomeituan logopumc logoharvard_university logobcg logomit logoadidas logored_bull_technology logowix logored_hat logocolliers logooliver_wyman logotsinghua_university logomeituan logopumc logoharvard_university logobcg logomit logoadidas logored_bull_technology logowix logored_hat logocolliers logooliver_wyman logotsinghua_university logomeituan logopumc logoharvard_university logobcg logomit logoadidas logored_bull_technology logowix logored_hat logocolliers logooliver_wyman logo

几分钟即可上手运行

现在就在你的终端里试试。

>_
URL 转 Markdown
1import requests
2
3resp = requests.post(
4 "https://open.thunderbit.com/v1/distill",
5 headers={"Authorization": f"Bearer {API_KEY}"},
6 json={"url": "https://example.com/article"}
7)
8
9markdown = resp.json()["data"]["markdown"]
核心 API

两大核心能力

Distill 用于清理内容,Extract 用于结构化数据

Distill
URLMarkdown
去除广告、导航和干扰内容——只保留重要内容
内置完整 JS 渲染和反爬绕过
每个请求最多批量处理 100 个 URL
Extract
URL + SchemaJSON / CSV
一个 Schema 适用于所有网站——无需按站点维护
可自动适应网站改版
每个请求最多批量处理 50 个 URL
优势

为什么使用 Thunderbit

你的 AI Agent 值得拥有的抓取 / 数据提取基础设施

定义要什么,而不是怎么做
无需 CSS 选择器、无需 XPath、无需按站点编写规则。用 JSON Schema 描述你需要的数据——AI 会自动判断数据在哪里以及如何获取。
一个 Schema,适用于所有网站
同一个 Schema 可适用于电商网站、销售列表或你提供的任何 URL。新增数据源只需改配置,不需要一个工程冲刺。
即使网站改版也能继续工作
传统抓取器每次改版都会失效。Thunderbit 读取的是语义,而不是 DOM 结构——因此即使底层 HTML 变化,提取依然可用。
行业

使用场景

你可以用 Thunderbit 构建什么

可访问网页的 AI Agent
让你的 Agent 能够读取并理解任意网页。一次 API 调用即可返回结构化上下文,供你的 Agent 执行下一步。
RAG 与知识库
将任意 URL 转换为干净的 Markdown,并直接输入向量数据库。无需 HTML 解析,也无需内容清理脚本。
将任意网站转化为 API
定义一个 Schema,指向一个 URL,即可获得 JSON 返回。构建商品价格 API、职位列表 API 或新闻源 API——无需编写任何抓取器。
数据库丰富
用实时网页数据保持数据库新鲜。按计划抓取公司资料、联系方式或列表详情——即使数据源变化,Schema 也保持不变。
竞品监控
跨数百个页面追踪价格、库存、评论或内容变化。相同的 Schema,相同的流程,几秒钟即可添加新来源。
数据集构建
从开放网络构建训练集、评估基准或研究数据集。批量处理数千个 URL,输出保持统一结构。

我们基于这个 API 构建 Thunderbit

你正在查看的同一个 API 支撑着 Thunderbit 的 Chrome 扩展 和网页应用——被 100,000+ 用户用于每月提取数千万个页面。 这不是一个副项目。这是我们 押注自家产品 的基础设施。

0M+
每月处理页面数持续增长
0K+
Thunderbit 扩展用户
0%
正常运行时间
方案

价格

免费开始,按需扩展付费

免费版
轻量体验抓取功能。无需费用、无需信用卡、毫无负担。
600 单位 / 一次性
$0一次性
 
Distill 600 个页面
Extract 30 个页面
2 个并发请求
入门版
非常适合副项目和小工具。快速、简单,不过度设计。
每年 60,000 API 单位
$16/月
按年计费。单位一次性预付。
Distill 60,000 个页面
Extract 3,000 个页面
30 个并发请求
基础支持
专业版1最受欢迎
专为高并发和高速场景打造,Thunderbit 全力出击。
每年 600,000 API 单位
$40/月
按年计费。单位一次性预付。
600K1200K2400K4800K
Distill 600,000 个页面
Extract 30,000 个页面
50 个并发请求
优先支持

常见 问题

关于产品和计费,你需要知道的一切。