Aan de slag

Aan de slag

Productiewaardige web-extractie-infrastructuur voor AI-applicaties

Thunderbit Open API verandert elke webpagina in schone, gestructureerde data die je LLM's daadwerkelijk kunnen gebruiken — terwijl JavaScript-rendering, anti-bot-bescherming, geo-routing en proxy-rotatie transparant worden afgehandeld.

Waarom Thunderbit

PijnpuntZonder ThunderbitMet Thunderbit
JavaScript-zware SPA'sZelf headless Chrome hosten, timeouts debuggen, memory leaks bewakenrenderMode: "full"
CAPTCHA / bot-murenProxies roteren, puzzels oplossen, IP's zien opbrandenWij vangen het op
Geo-geblokkeerde inhoudPer land proxy-pools beherencountryCode: "DE"
HTML-ruis (advertenties, navigatie, popups)Per site readability-heuristieken handmatig schrijvenAutomatisch ontdane Markdown
Gestructureerde extractieExtractors trainen, CSS-selectors onderhouden die wekelijks brekenJSON Schema → JSON-output
Schalen naar 10k+ URL'sEigen queue, retry, dedupe en statusdashboard bouwenBatch-endpoint + Webhook
LLM-tokenkostenHet model ruwe HTML voeren en ervoor betalenVoorgedistilleerde Markdown — 5–10× minder tokens

Drie kern-endpoints

🔥 Distill — pagina → schone Markdown

curl -X POST https://openapi.thunderbit.com/openapi/v1/distill \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/article"}'

Geeft LLM-klare Markdown terug met metadata verwijderd. 5–10× minder tokens dan ruwe HTML.

🧠 Extract — JSON Schema → gestructureerde velden

curl -X POST https://openapi.thunderbit.com/openapi/v1/extract \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com/product",
    "schema": {
      "type": "object",
      "properties": {
        "name":  { "type": "string" },
        "price": { "type": "number" }
      },
      "required": ["name", "price"]
    }
  }'

De AI leest de descriptions in je schema — wees specifiek ("product MSRP in USD before discount" is beter dan "price").

⚡ Batch — tot 100 URL's, async met webhooks

curl -X POST https://openapi.thunderbit.com/openapi/v1/batch/distill \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "urls": ["https://example.com/page1", "https://example.com/page2"],
    "webhook": {
      "url":    "https://your-server.com/webhook/distill",
      "secret": "whsec_your_secret_key"
    }
  }'

Indienen → Webhook wordt afgevuurd → resultaten ophalen. Zie Batch Lifecycle.

Bronnen