Guide

Best Practice

Suggerimenti operativi per l'uso in produzione

  • Fai cache aggressivamente. Le risposte di Distill sono deterministiche per le pagine statiche — fai cache del markdown per hash dell'URL dal tuo lato e bypassa con forceRefresh: true solo quando hai bisogno di dati freschi.
  • Usa include invece dei booleani legacy. includeHtml: true ed extractLinks: true funzionano ancora; il nuovo array include: ["metadata", "links"] è componibile e più chiaro nelle code review.
  • Preferisci il batch ai loop. Un batch di 50 URL restituisce un solo job ID; 50 chiamate /distill individuali bruciano rate limit e concorrenza.
  • Usa i webhook per job > 10 URL. Fare polling ogni 5 secondi su un job di 5 minuti spreca ~60 round-trip. Vedi Webhooks.
  • Aspetta solo quando serve. waitFor: 2000 raddoppia il tuo budget di latenza — impostalo solo per SPA che si idratano lentamente.
  • Fissa un countryCode quando fai scraping di siti geo-aware (prezzi, risultati di ricerca, e-commerce). Default a US.
  • Inizia con renderMode: "none" e aggiorna a basic o full solo se la pagina restituisce vuoto — la maggior parte delle pagine non ha bisogno di un browser headless. Vedi Render Modes.
  • Sii specifico negli schema. Le description dei campi vengono lette dall'AI; "product MSRP in USD before discount" estrae in modo più affidabile rispetto a "price". Vedi Schema Design.
  • Rendi gli handler dei webhook idempotenti. Un webhook può attivarsi più di una volta per lo stesso job ID in caso di partizione di rete.