ガイド

FAQ

よくある質問

Q:ログインが必要なサイトをスクレイピングできますか? A:現時点ではできません。受け入れるサイトであれば headers パラメータで Cookie や認証 Token を渡せますが、対話的なログインフローは API 経由ではサポートされていません。エンタープライズオプションについてはお問い合わせください。

Q:最大ページサイズは? A:処理前で HTML 10 MB です。これを超えるページは SCRAPE_CONTENT_TOO_LARGE を返します。

Q:データの鮮度は? A:デフォルトの動作では呼び出しごとにライブで取得します。内部キャッシュ層を明示的にバイパスするには forceRefresh: true を設定してください。

Q:複数のバッチジョブを並列で実行できますか? A:はい —— バッチごとの上限は 100 URL ですが、並列実行するバッチジョブ数に上限はありません(プランの並列度に従います)。

Q:バッチ内の単一 URL が失敗するとどうなりますか? A:バッチは継続します。失敗した URL はエラーコードとともに status: "FAILED" になり、残りは成功します。すべての URL が終了状態に達するとジョブは COMPLETED に遷移します。

Q:API は robots.txt を尊重しますか? A:デフォルトで Distill は robots.txt を尊重します。エンタープライズプランは認可の証明とともにドメイン単位でのオーバーライドをリクエスト可能です。

Q:/extractschemaprompt の両方を使えますか? A:いいえ —— 相互排他です(SCHEMA_AND_PROMPT_EXCLUSIVE)。現時点では schema のみがサポートされており、prompt のみの抽出はロードマップにあります。

Q:長時間バッチが完了したときに通知を受け取るには? A:サブミット時に webhook フィールドを使用してください。ポーリングも可能ですが、1 分を超えるジョブには Webhook のほうが安価です。Webhook を参照。

Q:バグ報告や機能リクエストはどうすればいいですか? A:support@thunderbit.com にメールするか、ダッシュボードのアプリ内お問い合わせフォームをご利用ください。