시작하기

시작하기

AI 애플리케이션을 위한 프로덕션급 웹 추출 인프라

Thunderbit Open API는 어떤 웹 페이지든 LLM이 실제로 사용할 수 있는 깔끔한 구조화된 데이터로 변환합니다 —— JavaScript 렌더링, 봇 차단 우회, 지역 라우팅, 프록시 로테이션을 모두 투명하게 처리하면서.

왜 Thunderbit인가

통점Thunderbit 없이Thunderbit와 함께
JavaScript 의존 SPAheadless Chrome 직접 호스팅, 타임아웃 디버깅, 메모리 누수 감시renderMode: "full"
CAPTCHA / 봇 차단프록시 로테이션, 퍼즐 풀이, IP 소진 감수우리가 흡수
지역 차단 콘텐츠국가별 프록시 풀 관리countryCode: "DE"
HTML 노이즈(광고, 내비, 팝업)사이트별 가독성 휴리스틱 직접 작성자동 정리된 Markdown
구조화 추출추출기 학습, 매주 깨지는 CSS 셀렉터 유지보수JSON Schema → JSON 출력
1만 URL+ 확장큐, 재시도, 중복 제거, 상태 보드 자체 구축배치 엔드포인트 + Webhook
LLM 토큰 비용모델에 raw HTML 먹이고 비용 지불사전 디스틸된 Markdown —— 토큰 5–10배 절감

세 가지 핵심 엔드포인트

🔥 Distill —— 페이지 → 깔끔한 Markdown

curl -X POST https://openapi.thunderbit.com/openapi/v1/distill \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/article"}'

LLM 즉시 사용 가능한 Markdown 반환(메타데이터 제거됨). raw HTML보다 5–10배 적은 토큰.

🧠 Extract —— JSON Schema → 구조화 필드

curl -X POST https://openapi.thunderbit.com/openapi/v1/extract \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com/product",
    "schema": {
      "type": "object",
      "properties": {
        "name":  { "type": "string" },
        "price": { "type": "number" }
      },
      "required": ["name", "price"]
    }
  }'

AI는 schema의 description을 읽습니다 —— 구체적으로 작성하세요("product MSRP in USD before discount""price"보다 낫습니다).

⚡ Batch —— 최대 100 URL, Webhook 연동 비동기

curl -X POST https://openapi.thunderbit.com/openapi/v1/batch/distill \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "urls": ["https://example.com/page1", "https://example.com/page2"],
    "webhook": {
      "url":    "https://your-server.com/webhook/distill",
      "secret": "whsec_your_secret_key"
    }
  }'

제출 → Webhook 발사 → 결과 가져오기. 배치 라이프사이클 참고.

리소스