Comece Agora
Infraestrutura de extração web de nível de produção para aplicações de IA
A Thunderbit Open API transforma qualquer página web em dados limpos e estruturados que seus LLMs podem realmente usar — enquanto trata de forma transparente a renderização de JavaScript, proteção anti-bot, roteamento geográfico e rotação de proxies.
Início Rápido
Passo a passo de cinco minutos. Exemplos em cURL, Python e Node.js.
Referência da API
Endpoints, códigos de erro e estratégia de retry.
Por que Thunderbit
| Ponto de dor | Sem Thunderbit | Com Thunderbit |
|---|---|---|
| SPAs com muito JavaScript | Hospedar headless Chrome, depurar timeouts, vigiar memory leaks | renderMode: "full" |
| CAPTCHA / barreiras anti-bot | Rotacionar proxies, resolver puzzles, ver IPs queimando | Nós absorvemos |
| Conteúdo bloqueado por região | Gerenciar pools de proxy por país | countryCode: "DE" |
| Ruído no HTML (anúncios, navegação, popups) | Escrever heurísticas de legibilidade por site | Markdown auto-limpo |
| Extração estruturada | Treinar extratores, manter seletores CSS que quebram toda semana | JSON Schema → saída JSON |
| Escalar para 10k+ URLs | Construir sua própria fila, retry, dedupe e painel de status | Endpoint de batch + Webhook |
| Custo de tokens do LLM | Alimentar o modelo com HTML cru e pagar por isso | Markdown pré-destilado — 5 a 10× menos tokens |
Três endpoints principais
🔥 Distill — página → Markdown limpo
curl -X POST https://openapi.thunderbit.com/openapi/v1/distill \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{"url": "https://example.com/article"}'Retorna Markdown pronto para LLM, com metadados removidos. 5 a 10× menos tokens do que o HTML cru.
🧠 Extract — JSON Schema → campos estruturados
curl -X POST https://openapi.thunderbit.com/openapi/v1/extract \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"url": "https://example.com/product",
"schema": {
"type": "object",
"properties": {
"name": { "type": "string" },
"price": { "type": "number" }
},
"required": ["name", "price"]
}
}'A IA lê os campos description do seu schema — seja específico ("product MSRP in USD before discount" é melhor do que "price").
⚡ Batch — até 100 URLs, assíncrono com Webhooks
curl -X POST https://openapi.thunderbit.com/openapi/v1/batch/distill \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"urls": ["https://example.com/page1", "https://example.com/page2"],
"webhook": {
"url": "https://your-server.com/webhook/distill",
"secret": "whsec_your_secret_key"
}
}'Submeter → disparar Webhook → buscar resultados. Veja Ciclo de Vida do Batch.
Recursos
Guias
Modos de renderização, design de schema, webhooks, ciclo de vida do batch, rate limits, créditos.
Receitas
Base de conhecimento RAG, monitoramento de preços, agregação de notícias, ferramentas para agentes.
SDKs
Python, Node.js, Go, Java, Kotlin, Swift, Elixir, Dart, Bash e mais.
Integrações
LangChain, Vercel AI SDK, MCP, n8n, Zapier e mais.
Referência da API
Endpoints, códigos de erro e estratégia de retry.
Modelos
Estruturas compartilhadas de resposta e erro.