Erste Schritte
Produktionsreife Web-Extraktions-Infrastruktur für KI-Anwendungen
Thunderbit Open API verwandelt jede Webseite in saubere, strukturierte Daten, mit denen deine LLMs tatsächlich arbeiten können — und übernimmt dabei JavaScript-Rendering, Bot-Schutz, Geo-Routing und Proxy-Rotation transparent für dich.
Quickstart
Fünf-Minuten-Walkthrough. Beispiele für cURL, Python und Node.js.
API-Referenz
Endpunkte, Fehlercodes, Wiederholungsstrategie.
Warum Thunderbit
| Schmerzpunkt | Ohne Thunderbit | Mit Thunderbit |
|---|---|---|
| JavaScript-lastige SPAs | headless Chrome selbst betreiben, Timeouts debuggen, Memory Leaks beobachten | renderMode: "full" |
| CAPTCHA / Bot-Schranken | Proxies rotieren, Puzzles lösen, IPs verbrennen | Wir absorbieren es |
| Geo-blockierte Inhalte | Proxy-Pools pro Land verwalten | countryCode: "DE" |
| HTML-Rauschen (Werbung, Navigation, Pop-ups) | Pro Seite eigene Lesbarkeits-Heuristiken schreiben | Automatisch bereinigtes Markdown |
| Strukturierte Extraktion | Extraktoren trainieren, wöchentlich brechende CSS-Selektoren pflegen | JSON Schema → JSON-Ausgabe |
| Skalierung auf 10.000+ URLs | Eigene Queue, Retry, Dedupe und Statusboard bauen | Batch-Endpunkt + Webhook |
| LLM-Token-Kosten | Modell mit rohem HTML füttern und dafür zahlen | Vorab destilliertes Markdown — 5–10× weniger Tokens |
Drei Kern-Endpunkte
🔥 Distill — Seite → sauberes Markdown
curl -X POST https://openapi.thunderbit.com/openapi/v1/distill \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{"url": "https://example.com/article"}'Liefert LLM-fertiges Markdown ohne Metadaten zurück. 5–10× weniger Tokens als rohes HTML.
🧠 Extract — JSON Schema → strukturierte Felder
curl -X POST https://openapi.thunderbit.com/openapi/v1/extract \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"url": "https://example.com/product",
"schema": {
"type": "object",
"properties": {
"name": { "type": "string" },
"price": { "type": "number" }
},
"required": ["name", "price"]
}
}'Die KI liest die description-Felder deines Schemas — sei konkret ("product MSRP in USD before discount" schlägt "price").
⚡ Batch — bis zu 100 URLs, asynchron mit Webhooks
curl -X POST https://openapi.thunderbit.com/openapi/v1/batch/distill \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"urls": ["https://example.com/page1", "https://example.com/page2"],
"webhook": {
"url": "https://your-server.com/webhook/distill",
"secret": "whsec_your_secret_key"
}
}'Einreichen → Webhook feuert → Ergebnisse abrufen. Siehe Batch Lifecycle.
Ressourcen
Guides
Render-Modi, Schema-Design, Webhooks, Batch Lifecycle, Rate Limits, Credits.
Rezepte
RAG-Wissensdatenbank, Preisüberwachung, News-Aggregation, Agent-Tooling.
SDKs
Python, Node.js, Go, Java, Kotlin, Swift, Elixir, Dart, Bash und mehr.
Integrationen
LangChain, Vercel AI SDK, MCP, n8n, Zapier und mehr.
API-Referenz
Endpunkte, Fehlercodes, Wiederholungsstrategie.
Modelle
Gemeinsame Antwort- und Fehlerstrukturen.