Guide
Best Practice
Suggerimenti operativi per l'uso in produzione
- Fai cache aggressivamente. Le risposte di Distill sono deterministiche per le pagine statiche — fai cache del markdown per hash dell'URL dal tuo lato e bypassa con
forceRefresh: truesolo quando hai bisogno di dati freschi. - Usa
includeinvece dei booleani legacy.includeHtml: trueedextractLinks: truefunzionano ancora; il nuovo arrayinclude: ["metadata", "links"]è componibile e più chiaro nelle code review. - Preferisci il batch ai loop. Un batch di 50 URL restituisce un solo job ID; 50 chiamate
/distillindividuali bruciano rate limit e concorrenza. - Usa i webhook per job > 10 URL. Fare polling ogni 5 secondi su un job di 5 minuti spreca ~60 round-trip. Vedi Webhooks.
- Aspetta solo quando serve.
waitFor: 2000raddoppia il tuo budget di latenza — impostalo solo per SPA che si idratano lentamente. - Fissa un
countryCodequando fai scraping di siti geo-aware (prezzi, risultati di ricerca, e-commerce). Default a US. - Inizia con
renderMode: "none"e aggiorna abasicofullsolo se la pagina restituisce vuoto — la maggior parte delle pagine non ha bisogno di un browser headless. Vedi Render Modes. - Sii specifico negli schema. Le
descriptiondei campi vengono lette dall'AI;"product MSRP in USD before discount"estrae in modo più affidabile rispetto a"price". Vedi Schema Design. - Rendi gli handler dei webhook idempotenti. Un webhook può attivarsi più di una volta per lo stesso job ID in caso di partizione di rete.