시작하기
시작하기
AI 애플리케이션을 위한 프로덕션급 웹 추출 인프라
Thunderbit Open API는 어떤 웹 페이지든 LLM이 실제로 사용할 수 있는 깔끔한 구조화된 데이터로 변환합니다 —— JavaScript 렌더링, 봇 차단 우회, 지역 라우팅, 프록시 로테이션을 모두 투명하게 처리하면서.
왜 Thunderbit인가
| 통점 | Thunderbit 없이 | Thunderbit와 함께 |
|---|---|---|
| JavaScript 의존 SPA | headless Chrome 직접 호스팅, 타임아웃 디버깅, 메모리 누수 감시 | renderMode: "full" |
| CAPTCHA / 봇 차단 | 프록시 로테이션, 퍼즐 풀이, IP 소진 감수 | 우리가 흡수 |
| 지역 차단 콘텐츠 | 국가별 프록시 풀 관리 | countryCode: "DE" |
| HTML 노이즈(광고, 내비, 팝업) | 사이트별 가독성 휴리스틱 직접 작성 | 자동 정리된 Markdown |
| 구조화 추출 | 추출기 학습, 매주 깨지는 CSS 셀렉터 유지보수 | JSON Schema → JSON 출력 |
| 1만 URL+ 확장 | 큐, 재시도, 중복 제거, 상태 보드 자체 구축 | 배치 엔드포인트 + Webhook |
| LLM 토큰 비용 | 모델에 raw HTML 먹이고 비용 지불 | 사전 디스틸된 Markdown —— 토큰 5–10배 절감 |
세 가지 핵심 엔드포인트
🔥 Distill —— 페이지 → 깔끔한 Markdown
curl -X POST https://openapi.thunderbit.com/openapi/v1/distill \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{"url": "https://example.com/article"}'LLM 즉시 사용 가능한 Markdown 반환(메타데이터 제거됨). raw HTML보다 5–10배 적은 토큰.
🧠 Extract —— JSON Schema → 구조화 필드
curl -X POST https://openapi.thunderbit.com/openapi/v1/extract \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"url": "https://example.com/product",
"schema": {
"type": "object",
"properties": {
"name": { "type": "string" },
"price": { "type": "number" }
},
"required": ["name", "price"]
}
}'AI는 schema의 description을 읽습니다 —— 구체적으로 작성하세요("product MSRP in USD before discount"가 "price"보다 낫습니다).
⚡ Batch —— 최대 100 URL, Webhook 연동 비동기
curl -X POST https://openapi.thunderbit.com/openapi/v1/batch/distill \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"urls": ["https://example.com/page1", "https://example.com/page2"],
"webhook": {
"url": "https://your-server.com/webhook/distill",
"secret": "whsec_your_secret_key"
}
}'제출 → Webhook 발사 → 결과 가져오기. 배치 라이프사이클 참고.