Guias

Distill vs Extract

Qual endpoint usar, quando e por quê

A Thunderbit expõe dois endpoints de IA — /distill e /extract — que resolvem problemas diferentes. Escolher o certo é o maior fator isolado em custo, latência e qualidade da saída.

Quando usar Distill

  • Você quer Markdown limpo e pronto para LLM de uma página inteira
  • O consumidor downstream é um vector store, pipeline RAG ou contexto de LLM
  • Você não sabe de antemão quais campos vai precisar

Quando usar Extract

  • Você sabe os campos exatos que quer como dados estruturados (JSON)
  • O consumidor downstream é um banco de dados, dashboard ou código tipado
  • Você quer que o modelo faça raciocínio em nível de campo (ex.: "qual é o desconto?")

Tradeoffs de custo e latência

DistillExtract
Créditos1 / página20 / página
LatênciaMenor (sem etapa de extração por IA)Maior (etapa de IA + validação de schema)
SaídaMarkdownJSON conforme seu schema

Matriz de decisão

Se sua saída é conteúdo (texto, artigos, entradas de base de conhecimento) → Distill. Se sua saída são registros (linhas, campos, valores tipados) → Extract. Se estiver em dúvida, comece com Distill — você sempre pode rodar Extract no markdown depois.

Esta página está sendo expandida com exemplos concretos — volte em breve.