Comenzar

Empezar

Infraestructura de extracción web de calidad productiva para aplicaciones de IA

Thunderbit Open API convierte cualquier página web en datos limpios y estructurados que tus LLMs pueden usar de verdad — gestionando de forma transparente el renderizado de JavaScript, la protección anti-bots, el enrutamiento geográfico y la rotación de proxies.

Por qué Thunderbit

Punto de dolorSin ThunderbitCon Thunderbit
SPAs cargados de JavaScriptAuto-alojar headless Chrome, depurar timeouts, vigilar fugas de memoriarenderMode: "full"
Muros CAPTCHA / anti-botRotar proxies, resolver puzzles, ver cómo se queman las IPsLo absorbemos nosotros
Contenido bloqueado por geoGestionar pools de proxies por paíscountryCode: "DE"
Ruido HTML (anuncios, navegación, popups)Escribir heurísticas de legibilidad por sitio a manoMarkdown auto-depurado
Extracción estructuradaEntrenar extractores, mantener selectores CSS que se rompen cada semanaJSON Schema → salida JSON
Escalar a más de 10k URLsConstruir tu propia cola, reintentos, deduplicación, panel de estadoEndpoint de batch + webhook
Costes de tokens del LLMAlimentar al modelo con HTML crudo y pagar por elloMarkdown pre-destilado — 5–10× menos tokens

Tres endpoints centrales

🔥 Distill — página → Markdown limpio

curl -X POST https://openapi.thunderbit.com/openapi/v1/distill \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/article"}'

Devuelve Markdown listo para LLM con metadatos eliminados. 5–10× menos tokens que el HTML crudo.

🧠 Extract — JSON Schema → campos estructurados

curl -X POST https://openapi.thunderbit.com/openapi/v1/extract \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com/product",
    "schema": {
      "type": "object",
      "properties": {
        "name":  { "type": "string" },
        "price": { "type": "number" }
      },
      "required": ["name", "price"]
    }
  }'

La IA lee los description de tu schema — sé específico ("product MSRP in USD before discount" supera a "price").

⚡ Batch — hasta 100 URLs, asíncrono con webhooks

curl -X POST https://openapi.thunderbit.com/openapi/v1/batch/distill \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "urls": ["https://example.com/page1", "https://example.com/page2"],
    "webhook": {
      "url":    "https://your-server.com/webhook/distill",
      "secret": "whsec_your_secret_key"
    }
  }'

Envía → dispara webhook → recoge resultados. Ver Ciclo de vida del batch.

Recursos