Démarrer

Thunderbit Open API transforme n'importe quelle page web en données propres et structurées que tes LLM peuvent réellement utiliser — tout en gérant de façon transparente le rendu JavaScript, la protection anti-bot, le routage géographique et la rotation des proxys.

Quickstart

Tour guidé de cinq minutes. Exemples cURL, Python et Node.js.

Référence API

Endpoints, codes d'erreur, stratégie de réessai.

Pourquoi Thunderbit

Point de douleur	Sans Thunderbit	Avec Thunderbit
SPA chargées en JavaScript	Auto-héberger headless Chrome, déboguer les timeouts, surveiller les fuites mémoire	`renderMode: "full"`
CAPTCHA / murs anti-bot	Faire tourner les proxys, résoudre les énigmes, voir les IP grillées	On l'absorbe
Contenu géo-bloqué	Gérer des pools de proxys par pays	`countryCode: "DE"`
Bruit HTML (pubs, navigation, popups)	Écrire à la main des heuristiques de lisibilité par site	Markdown nettoyé automatiquement
Extraction structurée	Entraîner des extracteurs, maintenir des sélecteurs CSS qui cassent chaque semaine	JSON Schema → sortie JSON
Passage à 10k+ URLs	Construire sa propre file, retry, déduplication, tableau de statut	Endpoint batch + webhook
Coûts en tokens LLM	Donner du HTML brut au modèle et le payer	Markdown pré-distillé — 5 à 10× moins de tokens

Trois endpoints clés

🔥 Distill — page → Markdown propre

curl -X POST https://openapi.thunderbit.com/openapi/v1/distill \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/article"}'

Renvoie du Markdown prêt pour LLM, métadonnées retirées. 5 à 10× moins de tokens que le HTML brut.

🧠 Extract — JSON Schema → champs structurés

curl -X POST https://openapi.thunderbit.com/openapi/v1/extract \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com/product",
    "schema": {
      "type": "object",
      "properties": {
        "name":  { "type": "string" },
        "price": { "type": "number" }
      },
      "required": ["name", "price"]
    }
  }'

L'IA lit les description de ton schéma — sois précis ("product MSRP in USD before discount" vaut mieux que "price").

⚡ Batch — jusqu'à 100 URLs, asynchrone avec webhooks

curl -X POST https://openapi.thunderbit.com/openapi/v1/batch/distill \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "urls": ["https://example.com/page1", "https://example.com/page2"],
    "webhook": {
      "url":    "https://your-server.com/webhook/distill",
      "secret": "whsec_your_secret_key"
    }
  }'