Per Iniziare
Infrastruttura di estrazione web di livello produzione per applicazioni AI
Thunderbit Open API trasforma qualsiasi pagina web in dati strutturati e puliti che i tuoi LLM possono effettivamente usare — gestendo in modo trasparente il rendering JavaScript, la protezione anti-bot, il routing geografico e la rotazione dei proxy.
Quickstart
Tutorial di cinque minuti. Esempi in cURL, Python e Node.js.
API Reference
Endpoint, codici di errore, strategia di retry.
Perché Thunderbit
| Problema | Senza Thunderbit | Con Thunderbit |
|---|---|---|
| SPA pesanti in JavaScript | Self-host di headless Chrome, debug dei timeout, monitoraggio dei memory leak | renderMode: "full" |
| CAPTCHA / muri anti-bot | Ruotare proxy, risolvere puzzle, vedere gli IP bruciati | Lo assorbiamo noi |
| Contenuti geo-bloccati | Gestire pool di proxy per paese | countryCode: "DE" |
| Rumore HTML (annunci, nav, popup) | Scrivere a mano euristiche di leggibilità per ogni sito | Markdown ripulito automaticamente |
| Estrazione strutturata | Addestrare estrattori, mantenere selettori CSS che si rompono ogni settimana | JSON Schema → output JSON |
| Scaling a 10k+ URL | Costruire la propria coda, retry, deduplica, dashboard di stato | Endpoint batch + Webhook |
| Costi dei token LLM | Dare al modello HTML grezzo e pagarlo | Markdown pre-distillato — 5–10× meno token |
Tre endpoint principali
🔥 Distill — pagina → Markdown pulito
curl -X POST https://openapi.thunderbit.com/openapi/v1/distill \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{"url": "https://example.com/article"}'Restituisce Markdown pronto per LLM, con i metadati rimossi. 5–10× meno token rispetto all'HTML grezzo.
🧠 Extract — JSON Schema → campi strutturati
curl -X POST https://openapi.thunderbit.com/openapi/v1/extract \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"url": "https://example.com/product",
"schema": {
"type": "object",
"properties": {
"name": { "type": "string" },
"price": { "type": "number" }
},
"required": ["name", "price"]
}
}'L'AI legge le description del tuo schema — sii specifico ("product MSRP in USD before discount" è meglio di "price").
⚡ Batch — fino a 100 URL, asincrono con webhook
curl -X POST https://openapi.thunderbit.com/openapi/v1/batch/distill \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"urls": ["https://example.com/page1", "https://example.com/page2"],
"webhook": {
"url": "https://your-server.com/webhook/distill",
"secret": "whsec_your_secret_key"
}
}'Invia → il Webhook si attiva → recupera i risultati. Vedi Batch Lifecycle.
Risorse
Guide
Modalità di rendering, progettazione dello schema, webhook, ciclo di vita batch, rate limit, crediti.
Ricette
Knowledge base RAG, monitoraggio prezzi, aggregazione notizie, tooling per agent.
SDK
Python, Node.js, Go, Java, Kotlin, Swift, Elixir, Dart, Bash e altri.
Integrazioni
LangChain, Vercel AI SDK, MCP, n8n, Zapier e altri.
API Reference
Endpoint, codici di errore, strategia di retry.
Modelli
Strutture condivise di risposta ed errore.