Comece Agora

Infraestrutura de extração web de nível de produção para aplicações de IA

A Thunderbit Open API transforma qualquer página web em dados limpos e estruturados que seus LLMs podem realmente usar — enquanto trata de forma transparente a renderização de JavaScript, proteção anti-bot, roteamento geográfico e rotação de proxies.

Início Rápido

Passo a passo de cinco minutos. Exemplos em cURL, Python e Node.js.

Referência da API

Endpoints, códigos de erro e estratégia de retry.

Por que Thunderbit

Ponto de dor	Sem Thunderbit	Com Thunderbit
SPAs com muito JavaScript	Hospedar headless Chrome, depurar timeouts, vigiar memory leaks	`renderMode: "full"`
CAPTCHA / barreiras anti-bot	Rotacionar proxies, resolver puzzles, ver IPs queimando	Nós absorvemos
Conteúdo bloqueado por região	Gerenciar pools de proxy por país	`countryCode: "DE"`
Ruído no HTML (anúncios, navegação, popups)	Escrever heurísticas de legibilidade por site	Markdown auto-limpo
Extração estruturada	Treinar extratores, manter seletores CSS que quebram toda semana	JSON Schema → saída JSON
Escalar para 10k+ URLs	Construir sua própria fila, retry, dedupe e painel de status	Endpoint de batch + Webhook
Custo de tokens do LLM	Alimentar o modelo com HTML cru e pagar por isso	Markdown pré-destilado — 5 a 10× menos tokens

Três endpoints principais

🔥 Distill — página → Markdown limpo

curl -X POST https://openapi.thunderbit.com/openapi/v1/distill \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/article"}'

Retorna Markdown pronto para LLM, com metadados removidos. 5 a 10× menos tokens do que o HTML cru.

🧠 Extract — JSON Schema → campos estruturados

curl -X POST https://openapi.thunderbit.com/openapi/v1/extract \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com/product",
    "schema": {
      "type": "object",
      "properties": {
        "name":  { "type": "string" },
        "price": { "type": "number" }
      },
      "required": ["name", "price"]
    }
  }'

A IA lê os campos description do seu schema — seja específico ("product MSRP in USD before discount" é melhor do que "price").

⚡ Batch — até 100 URLs, assíncrono com Webhooks

curl -X POST https://openapi.thunderbit.com/openapi/v1/batch/distill \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "urls": ["https://example.com/page1", "https://example.com/page2"],
    "webhook": {
      "url":    "https://your-server.com/webhook/distill",
      "secret": "whsec_your_secret_key"
    }
  }'