Guides

Bonnes pratiques

Conseils opérationnels pour la prod

  • Mets en cache agressivement. Les réponses Distill sont déterministes pour les pages statiques — cache le Markdown par hash d'URL de ton côté et contourne avec forceRefresh: true uniquement quand tu as besoin de données fraîches.
  • Utilise include plutôt que les booléens hérités. includeHtml: true et extractLinks: true fonctionnent encore ; le nouveau tableau include: ["metadata", "links"] est composable et plus clair en revue de code.
  • Préfère le batch aux boucles. Un batch de 50 URLs renvoie un seul ID de tâche ; 50 appels /distill individuels brûlent ta rate limit et ta concurrence.
  • Utilise les Webhook pour les tâches > 10 URLs. Poller toutes les 5 secondes pour une tâche de 5 minutes gaspille ~60 allers-retours. Voir Webhooks.
  • N'attends que quand c'est nécessaire. waitFor: 2000 double ton budget de latence — règle-le seulement pour les SPA qui s'hydratent lentement.
  • Fixe un countryCode quand tu scrapes des sites sensibles à la géo (prix, résultats de recherche, e-commerce). La valeur par défaut est US.
  • Commence avec renderMode: "none" et passe à basic ou full seulement si la page renvoie du vide — la plupart des pages n'ont pas besoin d'un navigateur headless. Voir Modes de rendu.
  • Sois précis dans les Schema. Les description des champs sont lues par l'IA ; "product MSRP in USD before discount" extrait plus fiablement que "price". Voir Conception de Schema.
  • Rends tes handlers de Webhook idempotents. Un Webhook peut se déclencher plus d'une fois pour le même ID de tâche en cas de partition réseau.