Guías

Buenas prácticas

Consejos operativos para uso en producción

  • Cachea de forma agresiva. Las respuestas de Distill son deterministas para páginas estáticas — cachea el Markdown en tu lado por hash de URL y omite la caché con forceRefresh: true solo cuando necesites datos frescos.
  • Usa include en lugar de los booleanos legacy. includeHtml: true y extractLinks: true siguen funcionando; el nuevo array include: ["metadata", "links"] es composable y más claro en la revisión de código.
  • Prefiere batch antes que bucles. Un batch de 50 URLs devuelve un único Job ID; 50 llamadas individuales a /distill queman límite de tasa y concurrencia.
  • Usa Webhooks para jobs >10 URLs. Hacer polling cada 5 segundos para un job de 5 minutos desperdicia ~60 round-trips. Ver Webhooks.
  • Espera solo cuando lo necesites. waitFor: 2000 duplica tu presupuesto de latencia — configúralo solo para SPAs que se hidratan despacio.
  • Fija un countryCode al hacer scraping de sitios sensibles a la geolocalización (precios, resultados de búsqueda, e-commerce). Por defecto es US.
  • Empieza con renderMode: "none" y sube a basic o full solo si la página devuelve vacío — la mayoría de páginas no necesitan un navegador headless. Ver Modos de renderizado.
  • Sé específico en los Schemas. Las description de los campos las lee la IA; "product MSRP in USD before discount" extrae con más fiabilidad que "price". Ver Diseño de Schema.
  • Haz que los manejadores de Webhook sean idempotentes. Un Webhook puede dispararse más de una vez para el mismo Job ID bajo particiones de red.