FAQ | Thunderbit API

Q：能抓取需要登录的站点吗？ A：目前不能。对接受 cookie 或鉴权 token 的站点，你可以通过 headers 参数传过去，但 API 不支持交互式登录流程。如有企业版需求请联系我们。

Q：单页最大尺寸是多少？ A：处理前 HTML 不超过 10 MB。超出会返回 SCRAPE_CONTENT_TOO_LARGE。

Q：数据有多新？ A：默认行为是每次都实时抓取。设置 forceRefresh: true 可显式绕过任何内部缓存层。

Q：能并发跑多个批量任务吗？ A：可以 —— 每个批量上限是 100 URL，但并发批量任务的数量没有上限（受套餐并发限制约束）。

Q：批量里某个 URL 失败会怎样？ A：批量任务会继续。失败的 URL 拿到 status: "FAILED" 和错误码；其余成功。所有 URL 都到达终态后，任务转入 COMPLETED。

Q：API 是否遵守 robots.txt？ A：Distillation 默认遵守 robots.txt。企业版可凭授权证明按域名申请覆盖。

Q：可以同时在 /extract 上用 schema 和 prompt 吗？ A：不可以 —— 二者互斥（SCHEMA_AND_PROMPT_EXCLUSIVE）。目前只支持 schema 模式；纯 prompt 提取在路线图上。

Q：长批量任务结束时怎么收到通知？ A：提交时填 webhook 字段。轮询也行，但对于超过 1 分钟的任务，Webhook 更划算。详见 Webhooks。

Q：怎么报 bug 或提需求？ A：发邮件到 support@thunderbit.com，或在控制台用应用内联系表单。