指南
FAQ
常见问题
Q:能抓取需要登录的站点吗?
A:目前不能。对接受 cookie 或鉴权 token 的站点,你可以通过 headers 参数传过去,但 API 不支持交互式登录流程。如有企业版需求请联系我们。
Q:单页最大尺寸是多少?
A:处理前 HTML 不超过 10 MB。超出会返回 SCRAPE_CONTENT_TOO_LARGE。
Q:数据有多新?
A:默认行为是每次都实时抓取。设置 forceRefresh: true 可显式绕过任何内部缓存层。
Q:能并发跑多个批量任务吗? A:可以 —— 每个批量上限是 100 URL,但并发批量任务的数量没有上限(受套餐并发限制约束)。
Q:批量里某个 URL 失败会怎样?
A:批量任务会继续。失败的 URL 拿到 status: "FAILED" 和错误码;其余成功。所有 URL 都到达终态后,任务转入 COMPLETED。
Q:API 是否遵守 robots.txt?
A:Distillation 默认遵守 robots.txt。企业版可凭授权证明按域名申请覆盖。
Q:可以同时在 /extract 上用 schema 和 prompt 吗?
A:不可以 —— 二者互斥(SCHEMA_AND_PROMPT_EXCLUSIVE)。目前只支持 schema 模式;纯 prompt 提取在路线图上。
Q:长批量任务结束时怎么收到通知?
A:提交时填 webhook 字段。轮询也行,但对于超过 1 分钟的任务,Webhook 更划算。详见 Webhooks。
Q:怎么报 bug 或提需求? A:发邮件到 support@thunderbit.com,或在控制台用应用内联系表单。