ガイド
ベストプラクティス
本番運用のための実践的なヒント
- 積極的にキャッシュする。 Distill のレスポンスは静的ページに対して決定論的です —— Markdown を URL ハッシュごとに自分側でキャッシュし、新鮮なデータが必要なときだけ
forceRefresh: trueでバイパスしてください。 - レガシーの真偽値より
includeを使う。includeHtml: trueとextractLinks: trueも引き続き動作しますが、新しいinclude: ["metadata", "links"]配列のほうが組み合わせ可能でコードレビューでも明確です。 - ループよりバッチを優先する。 50 URL のバッチは 1 つのジョブ ID を返します。
/distillを 50 回個別に呼ぶとレート制限と並列度を消費します。 - 10 URL 超のジョブには Webhook を使う。 5 分のジョブで 5 秒ごとにポーリングすると約 60 ラウンドトリップを浪費します。Webhook を参照。
- 必要なときだけ待機する。
waitFor: 2000はレイテンシ予算を倍にします —— ハイドレーションが遅い SPA だけに設定してください。 - 地域対応サイトをスクレイピングするときは
countryCodeを固定する(価格、検索結果、e コマース)。デフォルトは US です。 renderMode: "none"から始める そしてページが空を返した場合のみbasicまたはfullにアップグレードしてください —— ほとんどのページに headless ブラウザは不要です。レンダリングモード を参照。- Schema を具体的に書く。 フィールドの
descriptionは AI に読まれます。"product MSRP in USD before discount"は"price"よりも確実に抽出できます。Schema 設計 を参照。 - Webhook ハンドラを冪等にする。 ネットワーク分断下では同じジョブ ID に対して Webhook が複数回発火する可能性があります。