FAQ | Thunderbit API

Q: 로그인이 필요한 사이트를 스크레이핑할 수 있나요? A: 현재는 안 됩니다. 사이트가 받아주면 headers 파라미터로 쿠키나 인증 토큰을 전달할 수 있지만, 인터랙티브 로그인 플로우는 API로 지원하지 않습니다. 엔터프라이즈 옵션은 문의해 주세요.

Q: 최대 페이지 크기는 얼마인가요? A: 처리 전 HTML 기준 10 MB입니다. 이를 초과하는 페이지는 SCRAPE_CONTENT_TOO_LARGE를 반환합니다.

Q: 데이터는 얼마나 신선한가요? A: 기본 동작은 매 호출마다 라이브로 가져옵니다. 어떤 내부 캐싱 레이어든 명시적으로 우회하려면 forceRefresh: true를 설정하세요.

Q: 여러 배치 작업을 병렬로 실행할 수 있나요? A: 네 —— 배치당 한도는 100 URL이지만, 동시에 실행 가능한 배치 작업 수에는 상한이 없습니다(플랜 동시성 한도에 따름).

Q: 배치 안의 단일 URL이 실패하면 어떻게 되나요? A: 배치는 계속 진행됩니다. 실패한 URL은 오류 코드와 함께 status: "FAILED"를 받고, 나머지는 성공합니다. 모든 URL이 종료 상태에 도달하면 작업이 COMPLETED로 이동합니다.

Q: API가 robots.txt를 준수하나요? A: 디스틸에 대해서는 기본적으로 robots.txt를 준수합니다. 엔터프라이즈 플랜은 권한 증빙과 함께 도메인 단위 override를 요청할 수 있습니다.

Q: /extract에서 schema와 prompt를 함께 쓸 수 있나요? A: 안 됩니다 —— 상호 배타적입니다(SCHEMA_AND_PROMPT_EXCLUSIVE). 현재 schema만 지원되며, prompt 단독 추출은 로드맵에 있습니다.

Q: 긴 배치가 끝났을 때 어떻게 알림을 받나요? A: 제출 시 webhook 필드를 사용하세요. 폴링도 동작하지만 1분 넘는 작업에서는 Webhook이 더 저렴합니다. Webhook을 참고하세요.

Q: 버그를 신고하거나 기능을 요청하려면 어떻게 하나요? A: support@thunderbit.com으로 이메일을 보내거나 대시보드의 인앱 문의 폼을 사용하세요.