AI 기반 Web Scraper API

유지보수 제로. 영구적으로.

API 한 번 호출로 어떤 웹페이지든 Markdown이나 표로 변환하세요. 실시간 웹 데이터로 에이전트를 강화하고, RAG를 구축하고, 데이터베이스를 보강하세요 — 인프라는 저희가 맡습니다.

전 세계 100,000명 이상의 사용자가 신뢰

gnu logoshopl_and_company logoharvard_university logobcg logoadidas logored_bull_technology logowix logosams_club logored_hat logopatagonia logomit logognu logoshopl_and_company logoharvard_university logobcg logoadidas logored_bull_technology logowix logosams_club logored_hat logopatagonia logomit logognu logoshopl_and_company logoharvard_university logobcg logoadidas logored_bull_technology logowix logosams_club logored_hat logopatagonia logomit logognu logoshopl_and_company logoharvard_university logobcg logoadidas logored_bull_technology logowix logosams_club logored_hat logopatagonia logomit logognu logoshopl_and_company logoharvard_university logobcg logoadidas logored_bull_technology logowix logosams_club logored_hat logopatagonia logomit logognu logoshopl_and_company logoharvard_university logobcg logoadidas logored_bull_technology logowix logosams_club logored_hat logopatagonia logomit logo

몇 분 만에 바로 시작

지금 바로 터미널에서 사용해 보세요.

>_
URL을 Markdown으로
1import requests
2
3resp = requests.post(
4 "https://open.thunderbit.com/v1/distill",
5 headers={"Authorization": f"Bearer {API_KEY}"},
6 json={"url": "https://example.com/article"}
7)
8
9markdown = resp.json()["data"]["markdown"]
Core API

두 가지 핵심 기능

깨끗한 콘텐츠는 Distill, 구조화된 데이터는 Extract

Distill
URLMarkdown
광고, 내비게이션, 잡음을 제거하고 — 중요한 콘텐츠만 남깁니다
전체 JS 렌더링 및 안티봇 우회 기능 내장
요청당 최대 100개 URL 일괄 처리
Extract
URL + 스키마JSON / CSV
하나의 스키마로 모든 웹사이트에서 작동 — 사이트별 유지보수 불필요
사이트 리디자인에도 자동으로 유지
요청당 최대 50개 URL 일괄 처리
장점

왜 Thunderbit를 사용해야 하나요

당신의 AI 에이전트가 필요로 하는 스크래핑 / 데이터 추출 인프라

방법이 아니라 무엇을 정의하세요
CSS 선택자도, XPath도, 사이트별 규칙도 필요 없습니다. 필요한 데이터를 JSON Schema로 설명하면 — AI가 위치와 가져오는 방법을 찾아냅니다.
하나의 스키마, 모든 웹사이트
동일한 스키마는 이커머스 사이트, 매물 목록, 또는 어떤 URL에도 적용됩니다. 새 데이터 소스를 추가하는 일은 엔지니어링 프로젝트가 아니라 설정 변경입니다.
사이트가 변경돼도 계속 작동
기존 스크래퍼는 리디자인될 때마다 망가집니다. Thunderbit는 DOM 구조가 아니라 의미를 읽기 때문에 HTML이 바뀌어도 추출은 계속 작동합니다.
업종

활용 사례

Thunderbit로 만들 수 있는 것

웹 접근이 가능한 AI 에이전트
에이전트가 어떤 웹페이지든 읽고 이해할 수 있게 하세요. API 한 번 호출로 구조화된 컨텍스트를 반환해 다음 단계에 바로 활용할 수 있습니다.
RAG 및 지식 베이스
아무 URL이나 깔끔한 Markdown으로 변환해 벡터 데이터베이스에 바로 넣으세요. HTML 파싱도, 콘텐츠 정리 스크립트도 필요 없습니다.
어떤 웹사이트든 API로 전환
스키마를 정의하고 URL을 지정하면 JSON을 반환합니다. 스크래퍼를 한 줄도 작성하지 않고도 상품 가격 API, 채용 목록 API, 뉴스 피드 API를 만들 수 있습니다.
데이터베이스 보강
실시간 웹 데이터로 데이터베이스를 최신 상태로 유지하세요. 일정에 따라 회사 프로필, 연락처 정보, 또는 목록 세부 정보를 가져올 수 있으며 — 소스가 바뀌어도 스키마는 그대로입니다.
경쟁 모니터링
수백 개의 페이지에서 가격, 재고, 리뷰 또는 콘텐츠 변경 사항을 추적하세요. 동일한 스키마, 동일한 파이프라인으로 새 소스도 몇 초 만에 추가할 수 있습니다.
데이터셋 구축
오픈 웹에서 학습 세트, 평가 벤치마크 또는 연구용 데이터셋을 구축하세요. 수천 개의 URL을 일괄 처리해 일관된 구조의 결과를 얻을 수 있습니다.

우리는 이 API로 Thunderbit를 구축합니다

지금 보고 계신 바로 그 API가 Thunderbit의 Chrome Extension과 웹 앱을 구동합니다 — 100,000명 이상의 사용자가 매달 수천만 개의 페이지를 추출하는 데 사용합니다. 이것은 부가 프로젝트가 아닙니다. 바로 우리 제품 전체를 걸고 있는 인프라입니다.

0M+
월간 처리 페이지 수와 지속적인 성장
0K+
Thunderbit 확장 프로그램 사용자
0%
가동 시간
요금제

요금

무료로 시작하고, 성장하면서 결제하세요

무료
스크래핑을 가볍게 체험하는 방법. 비용도, 카드도, 번거로움도 없습니다.
600 유닛 / 일회성
$0일회성
 
600개 페이지 Distill
30개 페이지 Extract
동시 요청 2개
스타터
사이드 프로젝트와 소규모 도구에 적합. 빠르고 간단하며 과하지 않습니다.
60,000 API 유닛 / 년
$16/월
연간 청구. 모든 유닛은 선불입니다.
60,000개 페이지 Distill
3,000개 페이지 Extract
동시 요청 30개
기본 지원
프로1인기
대용량과 고속 처리를 위해 설계. Thunderbit의 진가를 보여줍니다.
600,000 API 유닛 / 년
$40/월
연간 청구. 모든 유닛은 선불입니다.
600K1200K2400K4800K
600,000개 페이지 Distill
30,000개 페이지 Extract
동시 요청 50개
우선 지원

자주 묻는 질문

제품과 결제에 대해 알아야 할 모든 것.