はじめに

Thunderbit Open API は任意のウェブページを LLM が実際に使えるクリーンな構造化データに変換します —— JavaScript レンダリング、ボット対策、ジオルーティング、プロキシローテーションをすべて透過的に処理しながら。

クイックスタート

5 分のウォークスルー。cURL、Python、Node.js のサンプル。

API リファレンス

エンドポイント、エラーコード、リトライ戦略。

なぜ Thunderbit

痛点	Thunderbit なし	Thunderbit あり
JavaScript 重めの SPA	headless Chrome を自前運用、タイムアウトを調整、メモリリークを監視	`renderMode: "full"`
CAPTCHA / ボット対策	プロキシをローテート、パズルを解く、IP が焼ける	こちらで吸収
地理ブロックされたコンテンツ	国別にプロキシプールを管理	`countryCode: "DE"`
HTML ノイズ（広告、ナビ、ポップアップ）	サイトごとに可読性ヒューリスティクスを手書き	自動で除去された Markdown
構造化抽出	抽出器を訓練し、毎週壊れる CSS セレクタを保守	JSON Schema → JSON 出力
1 万 URL+ へのスケーリング	キュー、リトライ、重複排除、ステータス画面を自前で構築	バッチエンドポイント + Webhook
LLM トークンコスト	モデルに生 HTML を食わせて課金	事前蒸留された Markdown —— トークン数 5–10 倍削減

3 つのコアエンドポイント

🔥 Distill —— ページ → クリーンな Markdown

curl -X POST https://openapi.thunderbit.com/openapi/v1/distill \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/article"}'

LLM 即対応の Markdown（メタデータ除去済み）を返します。生 HTML よりトークン数が 5–10 倍少なくなります。

🧠 Extract —— JSON Schema → 構造化フィールド

curl -X POST https://openapi.thunderbit.com/openapi/v1/extract \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com/product",
    "schema": {
      "type": "object",
      "properties": {
        "name":  { "type": "string" },
        "price": { "type": "number" }
      },
      "required": ["name", "price"]
    }
  }'

AI はあなたの schema の description を読みます —— 具体的に書いてください（"product MSRP in USD before discount" のほうが "price" より優れています）。

⚡ Batch —— 最大 100 URL、Webhook 連動の非同期処理

curl -X POST https://openapi.thunderbit.com/openapi/v1/batch/distill \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "urls": ["https://example.com/page1", "https://example.com/page2"],
    "webhook": {
      "url":    "https://your-server.com/webhook/distill",
      "secret": "whsec_your_secret_key"
    }
  }'