指南
最佳實踐
正式環境使用的營運訣竅
- 盡量快取。 對靜態頁面來說 Distill 回應是確定性的 —— 在你這邊以 URL hash 快取 Markdown,只在真的需要新鮮資料時用
forceRefresh: true繞過。 - 用
include取代舊版 boolean。includeHtml: true與extractLinks: true仍可用;新的include: ["metadata", "links"]陣列可組合,code review 時更清楚。 - 批次優於迴圈。 一個 50 URL 的批次回傳一個任務 ID;50 次單獨的
/distill呼叫會燒掉速率限制與併發。 - 超過 10 個 URL 用 Webhook。 一個 5 分鐘任務每 5 秒輪詢一次會浪費約 60 個來回。見 Webhook。
- 只在需要時等待。
waitFor: 2000會讓你的延遲預算翻倍 —— 只對注水較慢的 SPA 設定。 - 抓取與地理位置相關的站點時鎖
countryCode(價格、搜尋結果、電商)。預設為 US。 - 先用
renderMode: "none",只在頁面回空時升級到basic或full—— 大多數頁面不需要 headless 瀏覽器。見 渲染模式。 - Schema 寫得具體。 欄位
description會被 AI 讀取;"product MSRP in USD before discount"比"price"擷取得更穩。見 Schema 設計。 - Webhook 處理器要冪等。 在網路分區下,同一個任務 ID 的 Webhook 可能會多次觸發。