Gidsen

Best Practices

Operationele tips voor productiegebruik

  • Cache agressief. Distill-responses zijn deterministisch voor statische pagina's — cache de markdown aan jouw kant op URL-hash en omzeil alleen met forceRefresh: true wanneer je verse data nodig hebt.
  • Gebruik include boven legacy-booleans. includeHtml: true en extractLinks: true werken nog; de nieuwe include: ["metadata", "links"]-array is composeerbaar en duidelijker in code review.
  • Geef de voorkeur aan batch boven loops. Een batch van 50 URL's geeft één Job-ID terug; 50 individuele /distill-aanroepen verbruiken rate limit en concurrency.
  • Gebruik Webhooks voor jobs >10 URL's. Elke 5 seconden pollen voor een job van 5 minuten verspilt ~60 round-trips. Zie Webhooks.
  • Wacht alleen wanneer het moet. waitFor: 2000 verdubbelt je latency-budget — stel het alleen in voor SPA's die langzaam hydrateren.
  • Fixeer een countryCode bij het scrapen van geo-bewuste sites (prijzen, zoekresultaten, e-commerce). Standaard US.
  • Begin met renderMode: "none" en upgrade alleen naar basic of full als de pagina leeg terugkomt — de meeste pagina's hebben geen headless browser nodig. Zie Render Modes.
  • Wees specifiek in Schema's. descriptions op velden worden door de AI gelezen; "product MSRP in USD before discount" extraheert betrouwbaarder dan "price". Zie Schema Design.
  • Maak Webhook-handlers idempotent. Een Webhook kan meer dan eens vuren voor dezelfde Job-ID bij netwerkpartitie.