Inizia

Per Iniziare

Infrastruttura di estrazione web di livello produzione per applicazioni AI

Thunderbit Open API trasforma qualsiasi pagina web in dati strutturati e puliti che i tuoi LLM possono effettivamente usare — gestendo in modo trasparente il rendering JavaScript, la protezione anti-bot, il routing geografico e la rotazione dei proxy.

Perché Thunderbit

ProblemaSenza ThunderbitCon Thunderbit
SPA pesanti in JavaScriptSelf-host di headless Chrome, debug dei timeout, monitoraggio dei memory leakrenderMode: "full"
CAPTCHA / muri anti-botRuotare proxy, risolvere puzzle, vedere gli IP bruciatiLo assorbiamo noi
Contenuti geo-bloccatiGestire pool di proxy per paesecountryCode: "DE"
Rumore HTML (annunci, nav, popup)Scrivere a mano euristiche di leggibilità per ogni sitoMarkdown ripulito automaticamente
Estrazione strutturataAddestrare estrattori, mantenere selettori CSS che si rompono ogni settimanaJSON Schema → output JSON
Scaling a 10k+ URLCostruire la propria coda, retry, deduplica, dashboard di statoEndpoint batch + Webhook
Costi dei token LLMDare al modello HTML grezzo e pagarloMarkdown pre-distillato — 5–10× meno token

Tre endpoint principali

🔥 Distill — pagina → Markdown pulito

curl -X POST https://openapi.thunderbit.com/openapi/v1/distill \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/article"}'

Restituisce Markdown pronto per LLM, con i metadati rimossi. 5–10× meno token rispetto all'HTML grezzo.

🧠 Extract — JSON Schema → campi strutturati

curl -X POST https://openapi.thunderbit.com/openapi/v1/extract \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com/product",
    "schema": {
      "type": "object",
      "properties": {
        "name":  { "type": "string" },
        "price": { "type": "number" }
      },
      "required": ["name", "price"]
    }
  }'

L'AI legge le description del tuo schema — sii specifico ("product MSRP in USD before discount" è meglio di "price").

⚡ Batch — fino a 100 URL, asincrono con webhook

curl -X POST https://openapi.thunderbit.com/openapi/v1/batch/distill \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "urls": ["https://example.com/page1", "https://example.com/page2"],
    "webhook": {
      "url":    "https://your-server.com/webhook/distill",
      "secret": "whsec_your_secret_key"
    }
  }'

Invia → il Webhook si attiva → recupera i risultati. Vedi Batch Lifecycle.

Risorse