What's the difference between Distill and Extract?

Distill converts any URL into clean Markdown, stripping ads, navigation, and noise. Extract takes a URL plus a JSON Schema and returns structured JSON or CSV data. Use Distill for content ingestion (RAG, knowledge bases) and Extract for structured data collection (prices, listings, contacts).

Does it work with JavaScript-heavy sites?

Yes. Thunderbit's API includes full JavaScript rendering and anti-bot bypass built in. It handles SPAs, dynamic content, and pages that require JS execution to load data.

Will extraction break when a site redesigns?

No. Thunderbit reads meaning, not DOM structure. Traditional scrapers rely on CSS selectors and XPath that break on every redesign. Thunderbit's AI understands the semantic content of the page, so extraction keeps working even when the HTML changes underneath.

What is the confidence score?

The confidence score indicates how certain Thunderbit's AI is about the extracted data. It helps you programmatically decide whether to trust a result or flag it for review.

How long do batch jobs take?

Batch processing times depend on the number of URLs and complexity. Distill supports up to 100 URLs per request and Extract supports up to 50 URLs per request. Most batch jobs complete within minutes.

AI 기반 Web Scraper API

유지보수 제로. 영원히.

API 호출 한 번으로 어떤 웹페이지든 Markdown이나 표로 변환하세요. 실시간 웹 데이터로 에이전트를 강화하고, RAG를 구축하고, 데이터베이스를 보강하세요 — 인프라는 저희가 맡습니다.

무료 API 키 받기 문서 보기

Chrome Store Rating

G2 Rating

Capterra Rating

Software Advice Rating

GetApp Rating

PRODUCT HUNT#1 Product of the Week

Users Worldwide200K+

몇 분 만에 바로 사용 가능

지금 바로 터미널에서 사용해 보세요.

URL에서 Markdown으로

1import requests

3resp = requests.post(

4 "https://openapi.thunderbit.com/openapi/v1/distill",

5 headers={"Authorization": f"Bearer {API_KEY}"},

6 json={"url": "https://example.com/article"}

9markdown = resp.json()["data"]["markdown"]

Core API

두 가지 핵심 기능

깔끔한 콘텐츠에는 Distill, 구조화된 데이터에는 Extract

Distill

URL→Markdown

광고, 내비게이션, 불필요한 요소는 제거하고 중요한 콘텐츠만 남깁니다

완전한 JS 렌더링과 안티봇 우회 기능 내장

요청당 최대 100개 URL 일괄 처리

Extract

URL + 스키마→JSON / CSV

하나의 스키마로 모든 웹사이트에 적용 — 사이트별 유지보수 불필요

사이트 리디자인에도 자동으로 대응

요청당 최대 50개 URL 일괄 처리

장점

Thunderbit를 사용하는 이유

당신의 AI 에이전트에 꼭 필요한 스크래핑 / 데이터 추출 인프라

방법이 아니라 무엇을 정의하세요

CSS 선택자도, XPath도, 사이트별 규칙도 필요 없습니다. 필요한 데이터를 JSON Schema로 설명하면 AI가 어디에 있는지와 어떻게 가져올지 알아냅니다.

하나의 스키마, 모든 웹사이트

동일한 스키마가 이커머스 사이트, 매물 목록, 또는 어떤 URL에도 적용됩니다. 새로운 데이터 소스를 추가하는 것은 대규모 개발이 아니라 설정 변경입니다.

사이트가 바뀌어도 계속 작동

전통적인 스크래퍼는 사이트가 리디자인될 때마다 작동을 멈춥니다. Thunderbit는 DOM 구조가 아니라 의미를 읽기 때문에, HTML이 바뀌어도 추출은 계속 작동합니다.

산업

사용 사례

Thunderbit로 만들 수 있는 것

웹 접근이 가능한 AI 에이전트

에이전트가 어떤 웹페이지든 읽고 이해할 수 있도록 하세요. API 호출 한 번으로 구조화된 컨텍스트를 반환해 다음 단계를 바로 진행할 수 있습니다.

RAG 및 지식 베이스

어떤 URL이든 깔끔한 Markdown으로 변환해 벡터 데이터베이스에 바로 입력하세요. HTML 파싱도, 콘텐츠 정리 스크립트도 필요 없습니다.

어떤 웹사이트든 API로 전환

스키마를 정의하고 URL을 지정하면 JSON을 돌려받습니다. 스크래퍼를 한 줄도 작성하지 않고도 상품 가격 API, 채용 공고 API, 뉴스 피드 API를 만들 수 있습니다.

데이터베이스 보강

실시간 웹 데이터로 데이터베이스를 최신 상태로 유지하세요. 회사 프로필, 연락처 정보, 매물 상세 정보를 정기적으로 가져오며, 소스가 바뀌어도 스키마는 그대로 유지됩니다.

경쟁사 모니터링

수백 개 페이지의 가격, 재고, 리뷰 또는 콘텐츠 변경을 추적하세요. 동일한 스키마, 동일한 파이프라인으로 새 소스를 몇 초 만에 추가할 수 있습니다.

데이터셋 구축

오픈 웹에서 학습 세트, 평가 벤치마크 또는 연구용 데이터셋을 구축하세요. 수천 개의 URL을 일관된 구조의 출력으로 배치 처리할 수 있습니다.

우리는 이 API 위에 Thunderbit를 구축합니다

지금 보고 있는 바로 그 API가 Thunderbit의 Chrome Extension과 웹 앱을 구동합니다 — 200,000명 이상의 사용자가 매달 수천만 페이지를 추출하는 데 사용하고 있습니다. 이것은 부업 프로젝트가 아닙니다. 우리 제품의 미래를 걸고 있는 인프라입니다.

0M+

월간 처리 페이지 수 증가 중

0K+

Thunderbit 확장 프로그램 사용자

가동 시간

플랜

요금제

무료로 시작하고, 성장할수록 결제하세요

무료

가볍게 스크래핑을 체험해 보세요. 비용도, 카드도, 번거로움도 없습니다.

600 유닛 / 일회성

$0일회성

시작하기

페이지 600개 Distill

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

페이지 30개 Extract

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

동시 요청 2개

스타터

사이드 프로젝트와 작은 도구에 적합합니다. 빠르고 간단하며 과하지 않습니다.

60,000 API 유닛 / 년

$16/월

연간 결제. 모든 유닛 선결제.

페이지 60,000개 Distill

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

페이지 3,000개 Extract

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

동시 요청 30개

기본 지원

프로1가장 인기 있음

대량 처리와 고속 작업을 위해 설계되었습니다. Thunderbit의 진가를 경험하세요.

600,000 API 유닛 / 년

$40/월

연간 결제. 모든 유닛 선결제.

600K1200K2400K4800K

페이지 600,000개 Distill

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

페이지 30,000개 Extract

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

동시 요청 50개

우선 지원

자주 묻는 질문

제품과 결제에 대해 알아야 할 모든 것

Capterra

Edge Add-ons

AI 기반 Web Scraper API

유지보수 제로. 영원히.

몇 분 만에 바로 사용 가능

두 가지 핵심 기능

Thunderbit를 사용하는 이유

사용 사례

우리는 이 API 위에 Thunderbit를 구축합니다

요금제

자주 묻는 질문

Distill과 Extract의 차이점은 무엇인가요?

JavaScript가 많은 사이트에서도 작동하나요?

사이트가 리디자인되면 추출이 중단되나요?

신뢰도 점수는 무엇인가요?

배치 작업은 얼마나 걸리나요?