指南
最佳实践
生产环境的运维建议
- 激进缓存。 对静态页面,Distill 响应是确定性的 —— 在你这边按 URL 哈希缓存 Markdown,仅在确实需要新数据时用
forceRefresh: true绕过。 - 用
include替代旧版布尔参数。includeHtml: true和extractLinks: true仍可用;但新的include: ["metadata", "links"]数组更可组合,在代码评审里也更清晰。 - 优先用批量而非循环。 一个 50 URL 的批量任务返回一个任务 ID;50 次单独的
/distill调用会烧光速率限制和并发。 - 任务超过 10 URL 时用 Webhook。 一个 5 分钟任务每 5 秒轮一次会浪费约 60 次往返。详见 Webhooks。
- 只在需要时才等待。
waitFor: 2000会让你的延迟预算翻倍 —— 只对 hydrate 慢的 SPA 设置它。 - 抓取地理感知站点时锁定
countryCode(价格、搜索结果、电商)。默认是 US。 - 从
renderMode: "none"起步,仅当页面返回空时才升级到basic或full—— 大多数页面用不上 headless 浏览器。详见 渲染模式。 - Schema 写得具体些。 字段的
description会被 AI 读取;"product MSRP in USD before discount"比"price"提取得更稳。详见 Schema 设计。 - 让 Webhook 处理器幂等。 网络分区下,同一任务 ID 的 Webhook 可能被多次触发。