FAQ | Thunderbit API

Q：ログインが必要なサイトをスクレイピングできますか？ A：現時点ではできません。受け入れるサイトであれば headers パラメータで Cookie や認証 Token を渡せますが、対話的なログインフローは API 経由ではサポートされていません。エンタープライズオプションについてはお問い合わせください。

Q：最大ページサイズは？ A：処理前で HTML 10 MB です。これを超えるページは SCRAPE_CONTENT_TOO_LARGE を返します。

Q：データの鮮度は？ A：デフォルトの動作では呼び出しごとにライブで取得します。内部キャッシュ層を明示的にバイパスするには forceRefresh: true を設定してください。

Q：複数のバッチジョブを並列で実行できますか？ A：はい —— バッチごとの上限は 100 URL ですが、並列実行するバッチジョブ数に上限はありません（プランの並列度に従います）。

Q：バッチ内の単一 URL が失敗するとどうなりますか？ A：バッチは継続します。失敗した URL はエラーコードとともに status: "FAILED" になり、残りは成功します。すべての URL が終了状態に達するとジョブは COMPLETED に遷移します。

Q：API は robots.txt を尊重しますか？ A：デフォルトで Distill は robots.txt を尊重します。エンタープライズプランは認可の証明とともにドメイン単位でのオーバーライドをリクエスト可能です。

Q：/extract で schema と prompt の両方を使えますか？ A：いいえ —— 相互排他です（SCHEMA_AND_PROMPT_EXCLUSIVE）。現時点では schema のみがサポートされており、prompt のみの抽出はロードマップにあります。

Q：長時間バッチが完了したときに通知を受け取るには？ A：サブミット時に webhook フィールドを使用してください。ポーリングも可能ですが、1 分を超えるジョブには Webhook のほうが安価です。Webhook を参照。

Q：バグ報告や機能リクエストはどうすればいいですか？ A：support@thunderbit.com にメールするか、ダッシュボードのアプリ内お問い合わせフォームをご利用ください。