Erste Schritte

Erste Schritte

Produktionsreife Web-Extraktions-Infrastruktur für KI-Anwendungen

Thunderbit Open API verwandelt jede Webseite in saubere, strukturierte Daten, mit denen deine LLMs tatsächlich arbeiten können — und übernimmt dabei JavaScript-Rendering, Bot-Schutz, Geo-Routing und Proxy-Rotation transparent für dich.

Warum Thunderbit

SchmerzpunktOhne ThunderbitMit Thunderbit
JavaScript-lastige SPAsheadless Chrome selbst betreiben, Timeouts debuggen, Memory Leaks beobachtenrenderMode: "full"
CAPTCHA / Bot-SchrankenProxies rotieren, Puzzles lösen, IPs verbrennenWir absorbieren es
Geo-blockierte InhalteProxy-Pools pro Land verwaltencountryCode: "DE"
HTML-Rauschen (Werbung, Navigation, Pop-ups)Pro Seite eigene Lesbarkeits-Heuristiken schreibenAutomatisch bereinigtes Markdown
Strukturierte ExtraktionExtraktoren trainieren, wöchentlich brechende CSS-Selektoren pflegenJSON Schema → JSON-Ausgabe
Skalierung auf 10.000+ URLsEigene Queue, Retry, Dedupe und Statusboard bauenBatch-Endpunkt + Webhook
LLM-Token-KostenModell mit rohem HTML füttern und dafür zahlenVorab destilliertes Markdown — 5–10× weniger Tokens

Drei Kern-Endpunkte

🔥 Distill — Seite → sauberes Markdown

curl -X POST https://openapi.thunderbit.com/openapi/v1/distill \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/article"}'

Liefert LLM-fertiges Markdown ohne Metadaten zurück. 5–10× weniger Tokens als rohes HTML.

🧠 Extract — JSON Schema → strukturierte Felder

curl -X POST https://openapi.thunderbit.com/openapi/v1/extract \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com/product",
    "schema": {
      "type": "object",
      "properties": {
        "name":  { "type": "string" },
        "price": { "type": "number" }
      },
      "required": ["name", "price"]
    }
  }'

Die KI liest die description-Felder deines Schemas — sei konkret ("product MSRP in USD before discount" schlägt "price").

⚡ Batch — bis zu 100 URLs, asynchron mit Webhooks

curl -X POST https://openapi.thunderbit.com/openapi/v1/batch/distill \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "urls": ["https://example.com/page1", "https://example.com/page2"],
    "webhook": {
      "url":    "https://your-server.com/webhook/distill",
      "secret": "whsec_your_secret_key"
    }
  }'

Einreichen → Webhook feuert → Ergebnisse abrufen. Siehe Batch Lifecycle.

Ressourcen