指南

FAQ

常见问题

Q:能抓取需要登录的站点吗? A:目前不能。对接受 cookie 或鉴权 token 的站点,你可以通过 headers 参数传过去,但 API 不支持交互式登录流程。如有企业版需求请联系我们。

Q:单页最大尺寸是多少? A:处理前 HTML 不超过 10 MB。超出会返回 SCRAPE_CONTENT_TOO_LARGE

Q:数据有多新? A:默认行为是每次都实时抓取。设置 forceRefresh: true 可显式绕过任何内部缓存层。

Q:能并发跑多个批量任务吗? A:可以 —— 每个批量上限是 100 URL,但并发批量任务的数量没有上限(受套餐并发限制约束)。

Q:批量里某个 URL 失败会怎样? A:批量任务会继续。失败的 URL 拿到 status: "FAILED" 和错误码;其余成功。所有 URL 都到达终态后,任务转入 COMPLETED

Q:API 是否遵守 robots.txt A:Distillation 默认遵守 robots.txt。企业版可凭授权证明按域名申请覆盖。

Q:可以同时在 /extract 上用 schemaprompt 吗? A:不可以 —— 二者互斥(SCHEMA_AND_PROMPT_EXCLUSIVE)。目前只支持 schema 模式;纯 prompt 提取在路线图上。

Q:长批量任务结束时怎么收到通知? A:提交时填 webhook 字段。轮询也行,但对于超过 1 分钟的任务,Webhook 更划算。详见 Webhooks

Q:怎么报 bug 或提需求? A:发邮件到 support@thunderbit.com,或在控制台用应用内联系表单。