Começar

Comece Agora

Infraestrutura de extração web de nível de produção para aplicações de IA

A Thunderbit Open API transforma qualquer página web em dados limpos e estruturados que seus LLMs podem realmente usar — enquanto trata de forma transparente a renderização de JavaScript, proteção anti-bot, roteamento geográfico e rotação de proxies.

Por que Thunderbit

Ponto de dorSem ThunderbitCom Thunderbit
SPAs com muito JavaScriptHospedar headless Chrome, depurar timeouts, vigiar memory leaksrenderMode: "full"
CAPTCHA / barreiras anti-botRotacionar proxies, resolver puzzles, ver IPs queimandoNós absorvemos
Conteúdo bloqueado por regiãoGerenciar pools de proxy por paíscountryCode: "DE"
Ruído no HTML (anúncios, navegação, popups)Escrever heurísticas de legibilidade por siteMarkdown auto-limpo
Extração estruturadaTreinar extratores, manter seletores CSS que quebram toda semanaJSON Schema → saída JSON
Escalar para 10k+ URLsConstruir sua própria fila, retry, dedupe e painel de statusEndpoint de batch + Webhook
Custo de tokens do LLMAlimentar o modelo com HTML cru e pagar por issoMarkdown pré-destilado — 5 a 10× menos tokens

Três endpoints principais

🔥 Distill — página → Markdown limpo

curl -X POST https://openapi.thunderbit.com/openapi/v1/distill \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/article"}'

Retorna Markdown pronto para LLM, com metadados removidos. 5 a 10× menos tokens do que o HTML cru.

🧠 Extract — JSON Schema → campos estruturados

curl -X POST https://openapi.thunderbit.com/openapi/v1/extract \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com/product",
    "schema": {
      "type": "object",
      "properties": {
        "name":  { "type": "string" },
        "price": { "type": "number" }
      },
      "required": ["name", "price"]
    }
  }'

A IA lê os campos description do seu schema — seja específico ("product MSRP in USD before discount" é melhor do que "price").

⚡ Batch — até 100 URLs, assíncrono com Webhooks

curl -X POST https://openapi.thunderbit.com/openapi/v1/batch/distill \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "urls": ["https://example.com/page1", "https://example.com/page2"],
    "webhook": {
      "url":    "https://your-server.com/webhook/distill",
      "secret": "whsec_your_secret_key"
    }
  }'

Submeter → disparar Webhook → buscar resultados. Veja Ciclo de Vida do Batch.

Recursos