Aan de slag
Productiewaardige web-extractie-infrastructuur voor AI-applicaties
Thunderbit Open API verandert elke webpagina in schone, gestructureerde data die je LLM's daadwerkelijk kunnen gebruiken — terwijl JavaScript-rendering, anti-bot-bescherming, geo-routing en proxy-rotatie transparant worden afgehandeld.
Quickstart
Walkthrough van vijf minuten. cURL-, Python- en Node.js-voorbeelden.
API-referentie
Endpoints, foutcodes, retry-strategie.
Waarom Thunderbit
| Pijnpunt | Zonder Thunderbit | Met Thunderbit |
|---|---|---|
| JavaScript-zware SPA's | Zelf headless Chrome hosten, timeouts debuggen, memory leaks bewaken | renderMode: "full" |
| CAPTCHA / bot-muren | Proxies roteren, puzzels oplossen, IP's zien opbranden | Wij vangen het op |
| Geo-geblokkeerde inhoud | Per land proxy-pools beheren | countryCode: "DE" |
| HTML-ruis (advertenties, navigatie, popups) | Per site readability-heuristieken handmatig schrijven | Automatisch ontdane Markdown |
| Gestructureerde extractie | Extractors trainen, CSS-selectors onderhouden die wekelijks breken | JSON Schema → JSON-output |
| Schalen naar 10k+ URL's | Eigen queue, retry, dedupe en statusdashboard bouwen | Batch-endpoint + Webhook |
| LLM-tokenkosten | Het model ruwe HTML voeren en ervoor betalen | Voorgedistilleerde Markdown — 5–10× minder tokens |
Drie kern-endpoints
🔥 Distill — pagina → schone Markdown
curl -X POST https://openapi.thunderbit.com/openapi/v1/distill \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{"url": "https://example.com/article"}'Geeft LLM-klare Markdown terug met metadata verwijderd. 5–10× minder tokens dan ruwe HTML.
🧠 Extract — JSON Schema → gestructureerde velden
curl -X POST https://openapi.thunderbit.com/openapi/v1/extract \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"url": "https://example.com/product",
"schema": {
"type": "object",
"properties": {
"name": { "type": "string" },
"price": { "type": "number" }
},
"required": ["name", "price"]
}
}'De AI leest de descriptions in je schema — wees specifiek ("product MSRP in USD before discount" is beter dan "price").
⚡ Batch — tot 100 URL's, async met webhooks
curl -X POST https://openapi.thunderbit.com/openapi/v1/batch/distill \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"urls": ["https://example.com/page1", "https://example.com/page2"],
"webhook": {
"url": "https://your-server.com/webhook/distill",
"secret": "whsec_your_secret_key"
}
}'Indienen → Webhook wordt afgevuurd → resultaten ophalen. Zie Batch Lifecycle.
Bronnen
Gidsen
Render modes, schema-ontwerp, webhooks, batch lifecycle, rate limits, credits.
Recepten
RAG-kennisbank, prijsmonitoring, nieuwsaggregatie, agent-tooling.
SDK's
Python, Node.js, Go, Java, Kotlin, Swift, Elixir, Dart, Bash en meer.
Integraties
LangChain, Vercel AI SDK, MCP, n8n, Zapier en meer.
API-referentie
Endpoints, foutcodes, retry-strategie.
Modellen
Gedeelde response- en foutstructuren.