가이드
베스트 프랙티스
프로덕션 사용을 위한 운영 팁
- 공격적으로 캐싱하세요. Distill 응답은 정적 페이지에서 결정론적입니다 —— Markdown을 URL 해시로 당신 측에서 캐싱하고, 신선한 데이터가 필요할 때만
forceRefresh: true로 우회하세요. - 레거시 boolean 대신
include를 사용하세요.includeHtml: true와extractLinks: true도 여전히 동작하지만, 새로운include: ["metadata", "links"]배열이 조합 가능하고 코드 리뷰에서 더 명확합니다. - 루프 대신 배치를 선호하세요. 50 URL 배치는 하나의 Job ID를 반환합니다; 개별
/distill호출 50번은 속도 제한과 동시성을 태웁니다. - 10 URL 이상 작업에는 Webhook을 사용하세요. 5분 작업에 5초마다 폴링하면 약 60회 왕복을 낭비합니다. Webhook을 참고하세요.
- 필요할 때만 기다리세요.
waitFor: 2000은 지연 시간 예산을 두 배로 늘립니다 —— hydrate가 느린 SPA에만 설정하세요. - 지역 인식 사이트(가격, 검색 결과, 이커머스)를 스크레이핑할 때는
countryCode를 고정하세요. 기본값은 US입니다. renderMode: "none"으로 시작하고, 페이지가 비어 있을 때만basic또는full로 올리세요 —— 대부분의 페이지는 headless 브라우저가 필요 없습니다. Render Modes를 참고하세요.- Schema에서 구체적으로 작성하세요. 필드
description을 AI가 읽습니다;"product MSRP in USD before discount"가"price"보다 더 안정적으로 추출됩니다. Schema 설계를 참고하세요. - Webhook 핸들러를 idempotent하게 만드세요. 네트워크 분할 상황에서는 동일한 Job ID에 대해 Webhook이 두 번 이상 발사될 수 있습니다.