What's the difference between Distill and Extract?

Distill converts any URL into clean Markdown, stripping ads, navigation, and noise. Extract takes a URL plus a JSON Schema and returns structured JSON or CSV data. Use Distill for content ingestion (RAG, knowledge bases) and Extract for structured data collection (prices, listings, contacts).

Does it work with JavaScript-heavy sites?

Yes. Thunderbit's API includes full JavaScript rendering and anti-bot bypass built in. It handles SPAs, dynamic content, and pages that require JS execution to load data.

Will extraction break when a site redesigns?

No. Thunderbit reads meaning, not DOM structure. Traditional scrapers rely on CSS selectors and XPath that break on every redesign. Thunderbit's AI understands the semantic content of the page, so extraction keeps working even when the HTML changes underneath.

What is the confidence score?

The confidence score indicates how certain Thunderbit's AI is about the extracted data. It helps you programmatically decide whether to trust a result or flag it for review.

How long do batch jobs take?

Batch processing times depend on the number of URLs and complexity. Distill supports up to 100 URLs per request and Extract supports up to 50 URLs per request. Most batch jobs complete within minutes.

AI 搭載 Web Scraper API

保守ゼロ。ずっと。

API を 1 回呼ぶだけで、あらゆる Web ページを Markdown または表に変換。ライブ Web データでエージェントを強化し、RAG を構築し、データベースを拡張できます — インフラは私たちが担います。

無料 API キーを取得ドキュメントを読む

Chrome Store Rating

G2 Rating

Capterra Rating

Software Advice Rating

GetApp Rating

PRODUCT HUNT#1 Product of the Week

Users Worldwide200K+

数分で稼働開始

今すぐターミナルで試してみてください。

URL から Markdown へ

1import requests

3resp = requests.post(

4 "https://openapi.thunderbit.com/openapi/v1/distill",

5 headers={"Authorization": f"Bearer {API_KEY}"},

6 json={"url": "https://example.com/article"}

9markdown = resp.json()["data"]["markdown"]

コア API

2 つのコア機能

Distill は整ったコンテンツ向け、Extract は構造化データ向け

Distill

URL→Markdown

広告、ナビゲーション、不要な要素を除去 — 必要なコンテンツだけを保持

完全な JS レンダリングとアンチボット回避を標準搭載

1 リクエストで最大 100 URL を一括処理

Extract

URL + スキーマ→JSON / CSV

1 つのスキーマで全サイトに対応 — サイトごとの保守不要

サイトのリニューアルにも自動で対応

1 リクエストで最大 50 URL を一括処理

メリット

Thunderbit を使う理由

あなたの AI エージェントにふさわしいスクレイピング / データ抽出基盤

方法ではなく、何を定義する

CSS セレクタも XPath も、サイトごとのルールも不要。必要なデータを JSON Schema で記述するだけで、AI が場所と取得方法を判断します。

1 つのスキーマ、すべての Web サイト

同じスキーマが、E コマースサイト、販売リスト、あるいは任意の URL でそのまま使えます。新しいデータソースの追加は、開発プロジェクトではなく設定変更です。

サイトが変更されても動作し続ける

従来のスクレイパーは、サイトのリニューアルのたびに壊れます。Thunderbit は DOM 構造ではなく意味を読み取るため、HTML が裏側で変わっても抽出は動き続けます。

業界

ユースケース

Thunderbit で作れるもの

Web アクセス付き AI エージェント

あなたのエージェントに、あらゆる Web ページを読み取り理解する能力を与えます。API を 1 回呼ぶだけで、次の処理に使える構造化コンテキストを返します。

RAG & ナレッジベース

任意の URL をきれいな Markdown に変換し、そのままベクトルデータベースへ投入できます。HTML 解析も、コンテンツ整形スクリプトも不要です。

あらゆる Web サイトを API に変える

スキーマを定義して URL を指定すれば、JSON が返ってきます。商品価格 API、求人一覧 API、ニュースフィード API などを、スクレイパーを書かずに構築できます。

データベース強化

ライブ Web データでデータベースを常に最新に保てます。会社概要、連絡先情報、掲載詳細を定期的に取得 — 情報源が変わってもスキーマはそのままです。

競合モニタリング

数百ページにわたる価格、在庫、レビュー、コンテンツの変化を追跡。スキーマもパイプラインも同じまま、新しい情報源を数秒で追加できます。

データセット構築

オープンウェブから学習用データセット、評価ベンチマーク、研究用データセットを構築できます。数千の URL を一括処理し、常に一貫した構造の出力を得られます。

私たちはこの API で Thunderbit を構築しています

今ご覧の同じ API が、Thunderbit の Chrome Extension と Web アプリを支えています — 20 万人以上のユーザーが毎月数千万ページの抽出に利用しています。これは片手間のプロジェクトではありません。私たち自身の製品をかけている基盤です。

0M+

月間処理ページ数は増加中

0K+

Thunderbit 拡張機能のユーザー

稼働率

プラン

料金

無料で始めて、成長に合わせて支払う

無料

気軽にスクレイピングを試せる方法。無料、カード不要、手間なし。

600 ユニット / 買い切り

$0買い切り

始める

600 ページを Distill

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

30 ページを Extract

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

同時リクエスト 2 件

スターター

サイドプロジェクトや小規模ツールに最適。高速、シンプル、過剰機能なし。

60,000 API ユニット / 年

$16/月

年額請求。全ユニット前払い。

登録する

60,000 ページを Distill

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

3,000 ページを Extract

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

同時リクエスト 30 件

基本サポート

Pro1最も人気

大規模処理と高速化のために設計。Thunderbit の真価を発揮。

600,000 API ユニット / 年

$40/月

年額請求。全ユニット前払い。

600K1200K2400K4800K

登録する

600,000 ページを Distill

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

30,000 ページを Extract

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

同時リクエスト 50 件

優先サポート

よくある質問 questions

製品と請求に関する知っておくべきことすべて。

Capterra

Edge Add-ons

AI 搭載 Web Scraper API

保守ゼロ。ずっと。

数分で稼働開始

2 つのコア機能

Thunderbit を使う理由

ユースケース

私たちはこの API で Thunderbit を構築しています

料金

よくある 質問 questions

Distill と Extract の違いは何ですか？

JavaScript が多いサイトでも動作しますか？

サイトをリニューアルすると抽出は壊れますか？

信頼度スコアとは何ですか？

バッチジョブにはどれくらい時間がかかりますか？

よくある質問 questions