はじめに

はじめに

AI アプリケーション向けの本番品質ウェブ抽出インフラ

Thunderbit Open API は任意のウェブページを LLM が実際に使えるクリーンな構造化データに変換します —— JavaScript レンダリング、ボット対策、ジオルーティング、プロキシローテーションをすべて透過的に処理しながら。

なぜ Thunderbit

痛点Thunderbit なしThunderbit あり
JavaScript 重めの SPAheadless Chrome を自前運用、タイムアウトを調整、メモリリークを監視renderMode: "full"
CAPTCHA / ボット対策プロキシをローテート、パズルを解く、IP が焼けるこちらで吸収
地理ブロックされたコンテンツ国別にプロキシプールを管理countryCode: "DE"
HTML ノイズ(広告、ナビ、ポップアップ)サイトごとに可読性ヒューリスティクスを手書き自動で除去された Markdown
構造化抽出抽出器を訓練し、毎週壊れる CSS セレクタを保守JSON Schema → JSON 出力
1 万 URL+ へのスケーリングキュー、リトライ、重複排除、ステータス画面を自前で構築バッチエンドポイント + Webhook
LLM トークンコストモデルに生 HTML を食わせて課金事前蒸留された Markdown —— トークン数 5–10 倍削減

3 つのコアエンドポイント

🔥 Distill —— ページ → クリーンな Markdown

curl -X POST https://openapi.thunderbit.com/openapi/v1/distill \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/article"}'

LLM 即対応の Markdown(メタデータ除去済み)を返します。生 HTML よりトークン数が 5–10 倍少なくなります。

🧠 Extract —— JSON Schema → 構造化フィールド

curl -X POST https://openapi.thunderbit.com/openapi/v1/extract \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com/product",
    "schema": {
      "type": "object",
      "properties": {
        "name":  { "type": "string" },
        "price": { "type": "number" }
      },
      "required": ["name", "price"]
    }
  }'

AI はあなたの schema の description を読みます —— 具体的に書いてください("product MSRP in USD before discount" のほうが "price" より優れています)。

⚡ Batch —— 最大 100 URL、Webhook 連動の非同期処理

curl -X POST https://openapi.thunderbit.com/openapi/v1/batch/distill \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "urls": ["https://example.com/page1", "https://example.com/page2"],
    "webhook": {
      "url":    "https://your-server.com/webhook/distill",
      "secret": "whsec_your_secret_key"
    }
  }'

サブミット → Webhook 発火 → 結果を取得。詳細は バッチライフサイクル

リソース