指南
常見問答
常見問題
Q:可以抓需要登入的站點嗎?
A:目前不行。對接受 cookie 或驗證 token 的站點,你可以透過 headers 參數帶上;但互動式登入流程目前不支援透過 API。請洽詢企業方案。
Q:頁面大小上限是多少?
A:處理前 HTML 上限 10 MB。超過會回傳 SCRAPE_CONTENT_TOO_LARGE。
Q:資料新鮮度如何?
A:預設行為每次都即時抓取。設 forceRefresh: true 可明確繞過任何內部快取層。
Q:可以同時跑多個批次任務嗎? A:可以 —— 單批次上限是 100 URL,但併發批次任務數量沒有上限(受你方案的併發限制)。
Q:批次中某個 URL 失敗會怎樣?
A:批次會繼續。失敗的 URL 會拿到 status: "FAILED" 並附錯誤碼;其餘成功。當所有 URL 都到了終態,任務會進入 COMPLETED。
Q:API 會遵守 robots.txt 嗎?
A:蒸餾預設遵守 robots.txt。企業方案可在提供授權證明後,按網域申請覆寫。
Q:可以對 /extract 同時用 schema 與 prompt 嗎?
A:不行 —— 兩者互斥(SCHEMA_AND_PROMPT_EXCLUSIVE)。目前只支援 schema;純 prompt 擷取在路線圖上。
Q:長批次完成時要怎麼通知我?
A:提交時用 webhook 欄位。輪詢也可以,但對超過 1 分鐘的任務 Webhook 更便宜。見 Webhook。
Q:怎麼回報 bug 或申請新功能? A:寄信到 support@thunderbit.com,或在主控台用 App 內聯絡表單。