Empezar

Infraestructura de extracción web de calidad productiva para aplicaciones de IA

Thunderbit Open API convierte cualquier página web en datos limpios y estructurados que tus LLMs pueden usar de verdad — gestionando de forma transparente el renderizado de JavaScript, la protección anti-bots, el enrutamiento geográfico y la rotación de proxies.

Inicio rápido

Guía de cinco minutos. Ejemplos en cURL, Python y Node.js.

Referencia de la API

Endpoints, códigos de error, estrategia de reintentos.

Por qué Thunderbit

Punto de dolor	Sin Thunderbit	Con Thunderbit
SPAs cargados de JavaScript	Auto-alojar headless Chrome, depurar timeouts, vigilar fugas de memoria	`renderMode: "full"`
Muros CAPTCHA / anti-bot	Rotar proxies, resolver puzzles, ver cómo se queman las IPs	Lo absorbemos nosotros
Contenido bloqueado por geo	Gestionar pools de proxies por país	`countryCode: "DE"`
Ruido HTML (anuncios, navegación, popups)	Escribir heurísticas de legibilidad por sitio a mano	Markdown auto-depurado
Extracción estructurada	Entrenar extractores, mantener selectores CSS que se rompen cada semana	JSON Schema → salida JSON
Escalar a más de 10k URLs	Construir tu propia cola, reintentos, deduplicación, panel de estado	Endpoint de batch + webhook
Costes de tokens del LLM	Alimentar al modelo con HTML crudo y pagar por ello	Markdown pre-destilado — 5–10× menos tokens

Tres endpoints centrales

🔥 Distill — página → Markdown limpio

curl -X POST https://openapi.thunderbit.com/openapi/v1/distill \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/article"}'

Devuelve Markdown listo para LLM con metadatos eliminados. 5–10× menos tokens que el HTML crudo.

🧠 Extract — JSON Schema → campos estructurados

curl -X POST https://openapi.thunderbit.com/openapi/v1/extract \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com/product",
    "schema": {
      "type": "object",
      "properties": {
        "name":  { "type": "string" },
        "price": { "type": "number" }
      },
      "required": ["name", "price"]
    }
  }'

La IA lee los description de tu schema — sé específico ("product MSRP in USD before discount" supera a "price").

⚡ Batch — hasta 100 URLs, asíncrono con webhooks

curl -X POST https://openapi.thunderbit.com/openapi/v1/batch/distill \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "urls": ["https://example.com/page1", "https://example.com/page2"],
    "webhook": {
      "url":    "https://your-server.com/webhook/distill",
      "secret": "whsec_your_secret_key"
    }
  }'