ガイド

ベストプラクティス

本番運用のための実践的なヒント

  • 積極的にキャッシュする。 Distill のレスポンスは静的ページに対して決定論的です —— Markdown を URL ハッシュごとに自分側でキャッシュし、新鮮なデータが必要なときだけ forceRefresh: true でバイパスしてください。
  • レガシーの真偽値より include を使う。 includeHtml: trueextractLinks: true も引き続き動作しますが、新しい include: ["metadata", "links"] 配列のほうが組み合わせ可能でコードレビューでも明確です。
  • ループよりバッチを優先する。 50 URL のバッチは 1 つのジョブ ID を返します。/distill を 50 回個別に呼ぶとレート制限と並列度を消費します。
  • 10 URL 超のジョブには Webhook を使う。 5 分のジョブで 5 秒ごとにポーリングすると約 60 ラウンドトリップを浪費します。Webhook を参照。
  • 必要なときだけ待機する。 waitFor: 2000 はレイテンシ予算を倍にします —— ハイドレーションが遅い SPA だけに設定してください。
  • 地域対応サイトをスクレイピングするときは countryCode を固定する(価格、検索結果、e コマース)。デフォルトは US です。
  • renderMode: "none" から始める そしてページが空を返した場合のみ basic または full にアップグレードしてください —— ほとんどのページに headless ブラウザは不要です。レンダリングモード を参照。
  • Schema を具体的に書く。 フィールドの description は AI に読まれます。"product MSRP in USD before discount""price" よりも確実に抽出できます。Schema 設計 を参照。
  • Webhook ハンドラを冪等にする。 ネットワーク分断下では同じジョブ ID に対して Webhook が複数回発火する可能性があります。