Empezar
Infraestructura de extracción web de calidad productiva para aplicaciones de IA
Thunderbit Open API convierte cualquier página web en datos limpios y estructurados que tus LLMs pueden usar de verdad — gestionando de forma transparente el renderizado de JavaScript, la protección anti-bots, el enrutamiento geográfico y la rotación de proxies.
Inicio rápido
Guía de cinco minutos. Ejemplos en cURL, Python y Node.js.
Referencia de la API
Endpoints, códigos de error, estrategia de reintentos.
Por qué Thunderbit
| Punto de dolor | Sin Thunderbit | Con Thunderbit |
|---|---|---|
| SPAs cargados de JavaScript | Auto-alojar headless Chrome, depurar timeouts, vigilar fugas de memoria | renderMode: "full" |
| Muros CAPTCHA / anti-bot | Rotar proxies, resolver puzzles, ver cómo se queman las IPs | Lo absorbemos nosotros |
| Contenido bloqueado por geo | Gestionar pools de proxies por país | countryCode: "DE" |
| Ruido HTML (anuncios, navegación, popups) | Escribir heurísticas de legibilidad por sitio a mano | Markdown auto-depurado |
| Extracción estructurada | Entrenar extractores, mantener selectores CSS que se rompen cada semana | JSON Schema → salida JSON |
| Escalar a más de 10k URLs | Construir tu propia cola, reintentos, deduplicación, panel de estado | Endpoint de batch + webhook |
| Costes de tokens del LLM | Alimentar al modelo con HTML crudo y pagar por ello | Markdown pre-destilado — 5–10× menos tokens |
Tres endpoints centrales
🔥 Distill — página → Markdown limpio
curl -X POST https://openapi.thunderbit.com/openapi/v1/distill \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{"url": "https://example.com/article"}'Devuelve Markdown listo para LLM con metadatos eliminados. 5–10× menos tokens que el HTML crudo.
🧠 Extract — JSON Schema → campos estructurados
curl -X POST https://openapi.thunderbit.com/openapi/v1/extract \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"url": "https://example.com/product",
"schema": {
"type": "object",
"properties": {
"name": { "type": "string" },
"price": { "type": "number" }
},
"required": ["name", "price"]
}
}'La IA lee los description de tu schema — sé específico ("product MSRP in USD before discount" supera a "price").
⚡ Batch — hasta 100 URLs, asíncrono con webhooks
curl -X POST https://openapi.thunderbit.com/openapi/v1/batch/distill \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"urls": ["https://example.com/page1", "https://example.com/page2"],
"webhook": {
"url": "https://your-server.com/webhook/distill",
"secret": "whsec_your_secret_key"
}
}'Envía → dispara webhook → recoge resultados. Ver Ciclo de vida del batch.
Recursos
Guías
Modos de renderizado, diseño de schema, webhooks, ciclo de vida del batch, límites de tasa, créditos.
Recetas
Base de conocimiento RAG, monitorización de precios, agregación de noticias, herramientas para agentes.
SDKs
Python, Node.js, Go, Java, Kotlin, Swift, Elixir, Dart, Bash y más.
Integraciones
LangChain, Vercel AI SDK, MCP, n8n, Zapier y más.
Referencia de la API
Endpoints, códigos de error, estrategia de reintentos.
Modelos
Estructuras compartidas de respuesta y error.