FAQ
よくある質問
Q:ログインが必要なサイトをスクレイピングできますか?
A:現時点ではできません。受け入れるサイトであれば headers パラメータで Cookie や認証 Token を渡せますが、対話的なログインフローは API 経由ではサポートされていません。エンタープライズオプションについてはお問い合わせください。
Q:最大ページサイズは?
A:処理前で HTML 10 MB です。これを超えるページは SCRAPE_CONTENT_TOO_LARGE を返します。
Q:データの鮮度は?
A:デフォルトの動作では呼び出しごとにライブで取得します。内部キャッシュ層を明示的にバイパスするには forceRefresh: true を設定してください。
Q:複数のバッチジョブを並列で実行できますか? A:はい —— バッチごとの上限は 100 URL ですが、並列実行するバッチジョブ数に上限はありません(プランの並列度に従います)。
Q:バッチ内の単一 URL が失敗するとどうなりますか?
A:バッチは継続します。失敗した URL はエラーコードとともに status: "FAILED" になり、残りは成功します。すべての URL が終了状態に達するとジョブは COMPLETED に遷移します。
Q:API は robots.txt を尊重しますか?
A:デフォルトで Distill は robots.txt を尊重します。エンタープライズプランは認可の証明とともにドメイン単位でのオーバーライドをリクエスト可能です。
Q:/extract で schema と prompt の両方を使えますか?
A:いいえ —— 相互排他です(SCHEMA_AND_PROMPT_EXCLUSIVE)。現時点では schema のみがサポートされており、prompt のみの抽出はロードマップにあります。
Q:長時間バッチが完了したときに通知を受け取るには?
A:サブミット時に webhook フィールドを使用してください。ポーリングも可能ですが、1 分を超えるジョブには Webhook のほうが安価です。Webhook を参照。
Q:バグ報告や機能リクエストはどうすればいいですか? A:support@thunderbit.com にメールするか、ダッシュボードのアプリ内お問い合わせフォームをご利用ください。