開始使用
開始使用
面向 AI 應用的生產級網頁擷取基礎設施
Thunderbit Open API 把任何網頁變成 LLM 真正能用的乾淨結構化資料 —— 同時透明處理 JavaScript 渲染、反爬保護、地理路由與代理輪換。
為什麼選 Thunderbit
| 痛點 | 不用 Thunderbit | 用 Thunderbit |
|---|---|---|
| 重 JavaScript 的 SPA | 自架 headless Chrome、調逾時、盯記憶體流失 | renderMode: "full" |
| 驗證碼 / 反爬牆 | 輪代理、解謎題、看著 IP 被燒 | 我們替你扛 |
| 地理封鎖內容 | 按國家維護代理池 | countryCode: "DE" |
| HTML 雜訊(廣告、導覽、彈窗) | 為每個站點手寫可讀性啟發式 | 自動剝離的 Markdown |
| 結構化擷取 | 訓練擷取器、維護每週都壞的 CSS 選擇器 | JSON Schema → JSON 輸出 |
| 擴展到 10k+ URL | 自建佇列、重試、去重、狀態面板 | 批次端點 + Webhook |
| LLM token 成本 | 餵模型原始 HTML 然後付錢 | 預蒸餾過的 Markdown —— token 數減少 5–10 倍 |
三個核心端點
🔥 Distill —— 網頁 → 乾淨 Markdown
curl -X POST https://openapi.thunderbit.com/openapi/v1/distill \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{"url": "https://example.com/article"}'回傳 LLM 就緒的 Markdown,已剝除 metadata。比原始 HTML 少 5–10 倍 token。
🧠 Extract —— JSON Schema → 結構化欄位
curl -X POST https://openapi.thunderbit.com/openapi/v1/extract \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"url": "https://example.com/product",
"schema": {
"type": "object",
"properties": {
"name": { "type": "string" },
"price": { "type": "number" }
},
"required": ["name", "price"]
}
}'AI 會讀取你 schema 中各欄位的 description —— 寫得越具體越好("product MSRP in USD before discount" 比 "price" 強)。
⚡ Batch —— 最多 100 個 URL,非同步搭配 Webhook
curl -X POST https://openapi.thunderbit.com/openapi/v1/batch/distill \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"urls": ["https://example.com/page1", "https://example.com/page2"],
"webhook": {
"url": "https://your-server.com/webhook/distill",
"secret": "whsec_your_secret_key"
}
}'提交 → 觸發 Webhook → 拉結果。詳見 批次任務生命週期。