Guías
Buenas prácticas
Consejos operativos para uso en producción
- Cachea de forma agresiva. Las respuestas de Distill son deterministas para páginas estáticas — cachea el Markdown en tu lado por hash de URL y omite la caché con
forceRefresh: truesolo cuando necesites datos frescos. - Usa
includeen lugar de los booleanos legacy.includeHtml: trueyextractLinks: truesiguen funcionando; el nuevo arrayinclude: ["metadata", "links"]es composable y más claro en la revisión de código. - Prefiere batch antes que bucles. Un batch de 50 URLs devuelve un único Job ID; 50 llamadas individuales a
/distillqueman límite de tasa y concurrencia. - Usa Webhooks para jobs >10 URLs. Hacer polling cada 5 segundos para un job de 5 minutos desperdicia ~60 round-trips. Ver Webhooks.
- Espera solo cuando lo necesites.
waitFor: 2000duplica tu presupuesto de latencia — configúralo solo para SPAs que se hidratan despacio. - Fija un
countryCodeal hacer scraping de sitios sensibles a la geolocalización (precios, resultados de búsqueda, e-commerce). Por defecto es US. - Empieza con
renderMode: "none"y sube abasicofullsolo si la página devuelve vacío — la mayoría de páginas no necesitan un navegador headless. Ver Modos de renderizado. - Sé específico en los Schemas. Las
descriptionde los campos las lee la IA;"product MSRP in USD before discount"extrae con más fiabilidad que"price". Ver Diseño de Schema. - Haz que los manejadores de Webhook sean idempotentes. Un Webhook puede dispararse más de una vez para el mismo Job ID bajo particiones de red.