Démarrer
Infrastructure d'extraction web de niveau production pour les applications IA
Thunderbit Open API transforme n'importe quelle page web en données propres et structurées que tes LLM peuvent réellement utiliser — tout en gérant de façon transparente le rendu JavaScript, la protection anti-bot, le routage géographique et la rotation des proxys.
Quickstart
Tour guidé de cinq minutes. Exemples cURL, Python et Node.js.
Référence API
Endpoints, codes d'erreur, stratégie de réessai.
Pourquoi Thunderbit
| Point de douleur | Sans Thunderbit | Avec Thunderbit |
|---|---|---|
| SPA chargées en JavaScript | Auto-héberger headless Chrome, déboguer les timeouts, surveiller les fuites mémoire | renderMode: "full" |
| CAPTCHA / murs anti-bot | Faire tourner les proxys, résoudre les énigmes, voir les IP grillées | On l'absorbe |
| Contenu géo-bloqué | Gérer des pools de proxys par pays | countryCode: "DE" |
| Bruit HTML (pubs, navigation, popups) | Écrire à la main des heuristiques de lisibilité par site | Markdown nettoyé automatiquement |
| Extraction structurée | Entraîner des extracteurs, maintenir des sélecteurs CSS qui cassent chaque semaine | JSON Schema → sortie JSON |
| Passage à 10k+ URLs | Construire sa propre file, retry, déduplication, tableau de statut | Endpoint batch + webhook |
| Coûts en tokens LLM | Donner du HTML brut au modèle et le payer | Markdown pré-distillé — 5 à 10× moins de tokens |
Trois endpoints clés
🔥 Distill — page → Markdown propre
curl -X POST https://openapi.thunderbit.com/openapi/v1/distill \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{"url": "https://example.com/article"}'Renvoie du Markdown prêt pour LLM, métadonnées retirées. 5 à 10× moins de tokens que le HTML brut.
🧠 Extract — JSON Schema → champs structurés
curl -X POST https://openapi.thunderbit.com/openapi/v1/extract \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"url": "https://example.com/product",
"schema": {
"type": "object",
"properties": {
"name": { "type": "string" },
"price": { "type": "number" }
},
"required": ["name", "price"]
}
}'L'IA lit les description de ton schéma — sois précis ("product MSRP in USD before discount" vaut mieux que "price").
⚡ Batch — jusqu'à 100 URLs, asynchrone avec webhooks
curl -X POST https://openapi.thunderbit.com/openapi/v1/batch/distill \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"urls": ["https://example.com/page1", "https://example.com/page2"],
"webhook": {
"url": "https://your-server.com/webhook/distill",
"secret": "whsec_your_secret_key"
}
}'Soumets → déclenche le webhook → récupère les résultats. Voir Cycle de vie batch.
Ressources
Guides
Modes de rendu, conception de schéma, webhooks, cycle de vie batch, limites de débit, crédits.
Recettes
Base de connaissances RAG, surveillance des prix, agrégation de news, outillage pour agents.
SDKs
Python, Node.js, Go, Java, Kotlin, Swift, Elixir, Dart, Bash et plus.
Intégrations
LangChain, Vercel AI SDK, MCP, n8n, Zapier et plus.
Référence API
Endpoints, codes d'erreur, stratégie de réessai.
Modèles
Structures de réponse et d'erreur partagées.