指南

最佳实践

生产环境的运维建议

  • 激进缓存。 对静态页面,Distill 响应是确定性的 —— 在你这边按 URL 哈希缓存 Markdown,仅在确实需要新数据时用 forceRefresh: true 绕过。
  • include 替代旧版布尔参数。 includeHtml: trueextractLinks: true 仍可用;但新的 include: ["metadata", "links"] 数组更可组合,在代码评审里也更清晰。
  • 优先用批量而非循环。 一个 50 URL 的批量任务返回一个任务 ID;50 次单独的 /distill 调用会烧光速率限制和并发。
  • 任务超过 10 URL 时用 Webhook。 一个 5 分钟任务每 5 秒轮一次会浪费约 60 次往返。详见 Webhooks
  • 只在需要时才等待。 waitFor: 2000 会让你的延迟预算翻倍 —— 只对 hydrate 慢的 SPA 设置它。
  • 抓取地理感知站点时锁定 countryCode(价格、搜索结果、电商)。默认是 US。
  • renderMode: "none" 起步,仅当页面返回空时才升级到 basicfull —— 大多数页面用不上 headless 浏览器。详见 渲染模式
  • Schema 写得具体些。 字段的 description 会被 AI 读取;"product MSRP in USD before discount""price" 提取得更稳。详见 Schema 设计
  • 让 Webhook 处理器幂等。 网络分区下,同一任务 ID 的 Webhook 可能被多次触发。