はじめに
はじめに
AI アプリケーション向けの本番品質ウェブ抽出インフラ
Thunderbit Open API は任意のウェブページを LLM が実際に使えるクリーンな構造化データに変換します —— JavaScript レンダリング、ボット対策、ジオルーティング、プロキシローテーションをすべて透過的に処理しながら。
なぜ Thunderbit
| 痛点 | Thunderbit なし | Thunderbit あり |
|---|---|---|
| JavaScript 重めの SPA | headless Chrome を自前運用、タイムアウトを調整、メモリリークを監視 | renderMode: "full" |
| CAPTCHA / ボット対策 | プロキシをローテート、パズルを解く、IP が焼ける | こちらで吸収 |
| 地理ブロックされたコンテンツ | 国別にプロキシプールを管理 | countryCode: "DE" |
| HTML ノイズ(広告、ナビ、ポップアップ) | サイトごとに可読性ヒューリスティクスを手書き | 自動で除去された Markdown |
| 構造化抽出 | 抽出器を訓練し、毎週壊れる CSS セレクタを保守 | JSON Schema → JSON 出力 |
| 1 万 URL+ へのスケーリング | キュー、リトライ、重複排除、ステータス画面を自前で構築 | バッチエンドポイント + Webhook |
| LLM トークンコスト | モデルに生 HTML を食わせて課金 | 事前蒸留された Markdown —— トークン数 5–10 倍削減 |
3 つのコアエンドポイント
🔥 Distill —— ページ → クリーンな Markdown
curl -X POST https://openapi.thunderbit.com/openapi/v1/distill \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{"url": "https://example.com/article"}'LLM 即対応の Markdown(メタデータ除去済み)を返します。生 HTML よりトークン数が 5–10 倍少なくなります。
🧠 Extract —— JSON Schema → 構造化フィールド
curl -X POST https://openapi.thunderbit.com/openapi/v1/extract \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"url": "https://example.com/product",
"schema": {
"type": "object",
"properties": {
"name": { "type": "string" },
"price": { "type": "number" }
},
"required": ["name", "price"]
}
}'AI はあなたの schema の description を読みます —— 具体的に書いてください("product MSRP in USD before discount" のほうが "price" より優れています)。
⚡ Batch —— 最大 100 URL、Webhook 連動の非同期処理
curl -X POST https://openapi.thunderbit.com/openapi/v1/batch/distill \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"urls": ["https://example.com/page1", "https://example.com/page2"],
"webhook": {
"url": "https://your-server.com/webhook/distill",
"secret": "whsec_your_secret_key"
}
}'サブミット → Webhook 発火 → 結果を取得。詳細は バッチライフサイクル。