AI 驅動的網頁爬蟲 API

零維護,永遠如此。

一次 API 呼叫即可將任何網頁轉為 Markdown 或表格。用即時網頁資料為你的代理提供動力、建立 RAG、增補資料庫——基礎設施交給我們。

深受全球超過 100,000+ 位使用者信賴

ntnu logoccu logodelta_electronics logotsinghua_university logoharvard_university logobcg logomit logoadidas logored_bull_technology logowix logored_hat logontnu logoccu logodelta_electronics logotsinghua_university logoharvard_university logobcg logomit logoadidas logored_bull_technology logowix logored_hat logontnu logoccu logodelta_electronics logotsinghua_university logoharvard_university logobcg logomit logoadidas logored_bull_technology logowix logored_hat logontnu logoccu logodelta_electronics logotsinghua_university logoharvard_university logobcg logomit logoadidas logored_bull_technology logowix logored_hat logontnu logoccu logodelta_electronics logotsinghua_university logoharvard_university logobcg logomit logoadidas logored_bull_technology logowix logored_hat logontnu logoccu logodelta_electronics logotsinghua_university logoharvard_university logobcg logomit logoadidas logored_bull_technology logowix logored_hat logo

幾分鐘即可上手運行

現在就能在你的終端機中試用。

>_
URL 轉 Markdown
1import requests
2
3resp = requests.post(
4 "https://open.thunderbit.com/v1/distill",
5 headers={"Authorization": f"Bearer {API_KEY}"},
6 json={"url": "https://example.com/article"}
7)
8
9markdown = resp.json()["data"]["markdown"]
核心 API

兩大核心功能

Distill 用於整理乾淨內容,Extract 用於結構化資料

Distill
URLMarkdown
去除廣告、導覽與雜訊——只保留重要內容
內建完整 JS 渲染與反機器人繞過
每次請求可批次處理最多 100 個 URL
Extract
URL + SchemaJSON / CSV
一套 schema 即可適用所有網站——無需逐站維護
自動適應網站改版
每次請求可批次處理最多 50 個 URL
優勢

為什麼使用 Thunderbit

你的 AI 代理值得擁有的抓取/資料擷取基礎設施

定義要什麼,而不是怎麼做
不需要 CSS selector、不需要 XPath、不需要逐站規則。用 JSON Schema 描述你需要的資料——AI 會自動判斷資料在哪裡,以及如何取得。
一套 Schema,適用所有網站
同一套 schema 可用於電商網站、銷售列表或任何你提供的 URL。新增資料來源只是設定變更,不需要一場工程衝刺。
即使網站改版也能持續運作
傳統爬蟲每次改版都會失效。Thunderbit 讀取的是語意,而不是 DOM 結構——因此即使底層 HTML 改變,抓取仍能持續運作。
產業

使用情境

你可以用 Thunderbit 建立什麼

具備網頁存取能力的 AI 代理
讓你的代理能讀取並理解任何網頁。一次 API 呼叫即可回傳結構化上下文,供代理進行下一步。
RAG 與知識庫
將任何 URL 轉為乾淨的 Markdown,並直接送入你的向量資料庫。無需 HTML 解析,也不需要內容清理腳本。
把任何網站變成 API
定義一個 schema,指向一個 URL,就能拿回 JSON。打造商品價格 API、職缺列表 API 或新聞摘要 API——完全不用寫任何爬蟲。
資料庫增補
用即時網頁資料讓你的資料庫保持最新。定期擷取公司檔案、聯絡資訊或列表細節——即使資料來源變動,schema 也保持不變。
競品監控
追蹤數百個頁面的價格、庫存、評論或內容變化。相同的 schema、相同的流程,幾秒內即可新增資料來源。
資料集建置
從公開網路建立訓練集、評估基準或研究資料集。批次處理數千個 URL,輸出一致的結構化結果。

我們用這個 API 打造 Thunderbit

你現在看到的同一套 API,支撐著 Thunderbit 的 Chrome 擴充功能 和網頁應用程式——被 100,000+ 使用者用來每月擷取數千萬個頁面。 這不是副業專案,而是 我們自家產品也押注其上的 基礎設施。

0M+
每月處理的頁面數持續成長
0K+
Thunderbit 擴充功能使用者
0%
正常運行時間
方案

價格

先免費開始,隨規模成長再付費

免費版
輕量試用抓取功能,免付費、免信用卡、免麻煩。
600 點數 / 一次性
$0一次性
 
Distill 600 個頁面
Extract 30 個頁面
2 個並行請求
入門版
非常適合副業專案與小型工具。快速、簡單、不過度設計。
60,000 API 點數 / 年
$16/月
按年計費,點數一次付清。
Distill 60,000 個頁面
Extract 3,000 個頁面
30 個並行請求
基本支援
專業版1最受歡迎
為高流量與高速而生。Thunderbit 全力輸出。
600,000 API 點數 / 年
$40/月
按年計費,點數一次付清。
600K1200K2400K4800K
Distill 600,000 個頁面
Extract 30,000 個頁面
50 個並行請求
優先支援

常見 問題

關於產品與帳單,你需要知道的一切。