Anleitungen

Best Practices

Operative Tipps für den Produktiveinsatz

  • Aggressiv cachen. Distill-Antworten sind für statische Seiten deterministisch — cache das Markdown auf deiner Seite per URL-Hash und umgehe es nur mit forceRefresh: true, wenn du frische Daten brauchst.
  • Verwende include statt Legacy-Booleans. includeHtml: true und extractLinks: true funktionieren weiterhin; das neue include: ["metadata", "links"]-Array ist komponierbar und im Code-Review klarer.
  • Bevorzuge Batch über Schleifen. Ein Batch von 50 URLs liefert eine Job-ID; 50 einzelne /distill-Aufrufe verbrennen Rate-Limit und Concurrency.
  • Verwende Webhooks für Jobs > 10 URLs. Alle 5 Sekunden für einen 5-Minuten-Job zu pollen verschwendet ~60 Round-Trips. Siehe Webhooks.
  • Warte nur, wenn nötig. waitFor: 2000 verdoppelt dein Latenzbudget — setz es nur für SPAs, die langsam hydratisieren.
  • Setze einen countryCode fest, wenn du geo-bewusste Sites scrapest (Preise, Suchergebnisse, E-Commerce). Default ist US.
  • Starte mit renderMode: "none" und upgrade nur auf basic oder full, wenn die Seite leer zurückkommt — die meisten Seiten brauchen keinen headless Browser. Siehe Render-Modi.
  • Sei konkret in Schemas. Feld-descriptions werden von der KI gelesen; "product MSRP in USD before discount" extrahiert zuverlässiger als "price". Siehe Schema-Design.
  • Mach Webhook-Handler idempotent. Ein Webhook kann bei Netzwerk-Partition mehrfach für dieselbe Job-ID feuern.