Commencer

Démarrer

Infrastructure d'extraction web de niveau production pour les applications IA

Thunderbit Open API transforme n'importe quelle page web en données propres et structurées que tes LLM peuvent réellement utiliser — tout en gérant de façon transparente le rendu JavaScript, la protection anti-bot, le routage géographique et la rotation des proxys.

Pourquoi Thunderbit

Point de douleurSans ThunderbitAvec Thunderbit
SPA chargées en JavaScriptAuto-héberger headless Chrome, déboguer les timeouts, surveiller les fuites mémoirerenderMode: "full"
CAPTCHA / murs anti-botFaire tourner les proxys, résoudre les énigmes, voir les IP grilléesOn l'absorbe
Contenu géo-bloquéGérer des pools de proxys par payscountryCode: "DE"
Bruit HTML (pubs, navigation, popups)Écrire à la main des heuristiques de lisibilité par siteMarkdown nettoyé automatiquement
Extraction structuréeEntraîner des extracteurs, maintenir des sélecteurs CSS qui cassent chaque semaineJSON Schema → sortie JSON
Passage à 10k+ URLsConstruire sa propre file, retry, déduplication, tableau de statutEndpoint batch + webhook
Coûts en tokens LLMDonner du HTML brut au modèle et le payerMarkdown pré-distillé — 5 à 10× moins de tokens

Trois endpoints clés

🔥 Distill — page → Markdown propre

curl -X POST https://openapi.thunderbit.com/openapi/v1/distill \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/article"}'

Renvoie du Markdown prêt pour LLM, métadonnées retirées. 5 à 10× moins de tokens que le HTML brut.

🧠 Extract — JSON Schema → champs structurés

curl -X POST https://openapi.thunderbit.com/openapi/v1/extract \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com/product",
    "schema": {
      "type": "object",
      "properties": {
        "name":  { "type": "string" },
        "price": { "type": "number" }
      },
      "required": ["name", "price"]
    }
  }'

L'IA lit les description de ton schéma — sois précis ("product MSRP in USD before discount" vaut mieux que "price").

⚡ Batch — jusqu'à 100 URLs, asynchrone avec webhooks

curl -X POST https://openapi.thunderbit.com/openapi/v1/batch/distill \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "urls": ["https://example.com/page1", "https://example.com/page2"],
    "webhook": {
      "url":    "https://your-server.com/webhook/distill",
      "secret": "whsec_your_secret_key"
    }
  }'

Soumets → déclenche le webhook → récupère les résultats. Voir Cycle de vie batch.

Ressources