AI 기반 Web Scraper API

유지보수 제로. 영원히.

API 한 번 호출로 어떤 웹페이지든 Markdown 또는 표로 변환하세요. 실시간 웹 데이터로 에이전트를 구동하고, RAG를 구축하고, 데이터베이스를 보강하세요 — 인프라는 저희가 맡습니다.

전 세계 100,000명 이상의 사용자가 신뢰합니다

gnu logoshopl_and_company logoharvard_university logobcg logoadidas logored_bull_technology logowix logosams_club logored_hat logopatagonia logomit logognu logoshopl_and_company logoharvard_university logobcg logoadidas logored_bull_technology logowix logosams_club logored_hat logopatagonia logomit logognu logoshopl_and_company logoharvard_university logobcg logoadidas logored_bull_technology logowix logosams_club logored_hat logopatagonia logomit logognu logoshopl_and_company logoharvard_university logobcg logoadidas logored_bull_technology logowix logosams_club logored_hat logopatagonia logomit logognu logoshopl_and_company logoharvard_university logobcg logoadidas logored_bull_technology logowix logosams_club logored_hat logopatagonia logomit logognu logoshopl_and_company logoharvard_university logobcg logoadidas logored_bull_technology logowix logosams_club logored_hat logopatagonia logomit logo

몇 분 만에 시작

지금 바로 터미널에서 사용해 보세요.

>_
URL에서 Markdown으로
1import requests
2
3resp = requests.post(
4 "https://open.thunderbit.com/v1/distill",
5 headers={"Authorization": f"Bearer {API_KEY}"},
6 json={"url": "https://example.com/article"}
7)
8
9markdown = resp.json()["data"]["markdown"]
Core API

두 가지 핵심 기능

Distill은 깔끔한 콘텐츠용, Extract는 구조화된 데이터용

Distill
URLMarkdown
광고, 내비게이션, 불필요한 요소를 제거하고 — 중요한 콘텐츠만 남깁니다
완전한 JS 렌더링 및 안티봇 우회 기능 내장
요청당 최대 100개 URL 배치
Extract
URL + 스키마JSON / CSV
하나의 스키마로 모든 웹사이트에서 작동 — 사이트별 유지보수 불필요
사이트 리디자인에도 자동으로 대응
요청당 최대 50개 URL 배치
장점

Thunderbit를 사용하는 이유

당신의 AI 에이전트에 걸맞은 스크래핑 / 데이터 추출 인프라

방법이 아니라 무엇을 정의하세요
CSS 선택자도, XPath도, 사이트별 규칙도 필요 없습니다. 필요한 데이터를 JSON Schema로 설명하면 — AI가 어디에 있고 어떻게 가져올지 알아냅니다.
하나의 스키마, 모든 웹사이트
같은 스키마가 이커머스 사이트, 매물 목록, 또는 어떤 URL에도 적용됩니다. 새로운 데이터 소스를 추가하는 것은 엔지니어링 프로젝트가 아니라 설정 변경입니다.
사이트가 바뀌어도 계속 작동
기존 스크래퍼는 리디자인마다 무너집니다. Thunderbit는 DOM 구조가 아니라 의미를 읽기 때문에, HTML이 바뀌어도 추출이 계속 작동합니다.
산업

사용 사례

Thunderbit로 만들 수 있는 것

웹 접근이 가능한 AI 에이전트
에이전트가 어떤 웹페이지든 읽고 이해할 수 있게 하세요. API 한 번 호출로 구조화된 컨텍스트를 반환해 다음 단계에 바로 사용할 수 있습니다.
RAG 및 지식 베이스
어떤 URL이든 깔끔한 Markdown으로 변환해 벡터 데이터베이스에 바로 넣으세요. HTML 파싱도, 콘텐츠 정리 스크립트도 필요 없습니다.
어떤 웹사이트든 API로 바꾸세요
스키마를 정의하고 URL을 지정하면 JSON을 받을 수 있습니다. 스크래퍼를 한 줄도 작성하지 않고도 상품 가격 API, 채용 공고 API, 뉴스 피드 API를 만들 수 있습니다.
데이터베이스 보강
실시간 웹 데이터로 데이터베이스를 최신 상태로 유지하세요. 일정에 따라 회사 정보, 연락처, 매물 세부 정보를 가져올 수 있으며 — 소스가 바뀌어도 스키마는 그대로 유지됩니다.
경쟁 모니터링
수백 개 페이지의 가격, 재고, 리뷰, 콘텐츠 변경을 추적하세요. 같은 스키마, 같은 파이프라인으로 새 소스를 몇 초 만에 추가할 수 있습니다.
데이터셋 구축
오픈 웹에서 학습 세트, 평가 벤치마크 또는 연구용 데이터셋을 구축하세요. 수천 개의 URL을 일관된 구조의 출력으로 배치 처리할 수 있습니다.

Thunderbit는 이 API 위에 구축되었습니다

지금 보고 계신 동일한 API가 Thunderbit의 Chrome Extension과 웹 앱을 구동합니다 — 100,000명 이상의 사용자가 매달 수천만 페이지를 추출하는 데 사용하고 있습니다. 이것은 부업 프로젝트가 아닙니다. 저희가 자사 제품의 미래를 걸고 있는 인프라입니다.

0M+
매달 처리되는 페이지 수는 계속 증가 중
0K+
Thunderbit 확장 프로그램 사용자
0%
가동 시간
요금제

가격

무료로 시작하고, 성장에 따라 결제하세요

무료
가볍게 스크래핑을 체험해 보세요. 비용도, 카드도, 번거로움도 없습니다.
600 유닛 / 일회성
$0일회성
 
600개 페이지 Distill
30개 페이지 Extract
동시 요청 2개
스타터
사이드 프로젝트와 소규모 도구에 적합합니다. 빠르고 간단하며 과하지 않습니다.
60,000 API 유닛 / 년
$16/월
연간 청구. 모든 유닛은 선불.
60,000개 페이지 Distill
3,000개 페이지 Extract
동시 요청 30개
기본 지원
Pro1가장 인기
대용량과 고속 처리를 위해 설계되었습니다. Thunderbit의 진가를 보여줍니다.
600,000 API 유닛 / 년
$40/월
연간 청구. 모든 유닛은 선불.
600K1200K2400K4800K
600,000개 페이지 Distill
30,000개 페이지 Extract
동시 요청 50개
우선 지원

자주 묻는 질문

제품과 결제에 대해 알아야 할 모든 것