AI搭載 Web Scraper API

保守ゼロ。ずっと。

1回のAPI呼び出しで、あらゆるWebページをMarkdownまたは表に変換。ライブWebデータでエージェントを強化し、RAGを構築し、データベースを充実させましょう — 基盤は私たちが担います。

世界中で100,000人以上のユーザーに信頼されています

keio_university logotokyo_gas logoaidma_hd logoakippa logoharvard_university logobcg logoadidas logored_bull_technology logowix logomit logokeio_university logotokyo_gas logoaidma_hd logoakippa logoharvard_university logobcg logoadidas logored_bull_technology logowix logomit logokeio_university logotokyo_gas logoaidma_hd logoakippa logoharvard_university logobcg logoadidas logored_bull_technology logowix logomit logokeio_university logotokyo_gas logoaidma_hd logoakippa logoharvard_university logobcg logoadidas logored_bull_technology logowix logomit logokeio_university logotokyo_gas logoaidma_hd logoakippa logoharvard_university logobcg logoadidas logored_bull_technology logowix logomit logokeio_university logotokyo_gas logoaidma_hd logoakippa logoharvard_university logobcg logoadidas logored_bull_technology logowix logomit logo

数分で起動

今すぐ端末で試してみてください。

>_
URLをMarkdownに
1import requests
2
3resp = requests.post(
4 "https://open.thunderbit.com/v1/distill",
5 headers={"Authorization": f"Bearer {API_KEY}"},
6 json={"url": "https://example.com/article"}
7)
8
9markdown = resp.json()["data"]["markdown"]
Core API

2つのコア機能

Distillはクリーンなコンテンツ向け、Extractは構造化データ向け

Distill
URLMarkdown
広告、ナビ、不要な要素を削除 — 必要なコンテンツだけを保持
完全なJSレンダリングとアンチボット回避を標準搭載
1回のリクエストで最大100URLをバッチ処理
Extract
URL + スキーマJSON / CSV
1つのスキーマで全サイトに対応 — サイトごとの保守は不要
サイトのリニューアルにも自動で対応
1回のリクエストで最大50URLをバッチ処理
利点

Thunderbitを使う理由

あなたのAIエージェントにふさわしいスクレイピング/データ抽出基盤

やり方ではなく、何を定義するか
CSSセレクタもXPathもサイトごとのルールも不要です。必要なデータをJSON Schemaで記述するだけで、AIが場所と取得方法を判断します。
1つのスキーマで、すべてのサイトに
同じスキーマが、Eコマースサイト、販売リスト、そしてどんなURLにも対応します。新しいデータソースの追加は、開発ではなく設定変更で済みます。
サイトが変更されても動作し続ける
従来のスクレイパーはサイト改修のたびに壊れます。ThunderbitはDOM構造ではなく意味を読み取るため、裏側のHTMLが変わっても抽出は動き続けます。
業界

ユースケース

Thunderbitで作れるもの

Webアクセス可能なAIエージェント
エージェントに、あらゆるWebページを読み解く力を与えます。1回のAPI呼び出しで構造化されたコンテキストを返し、次の処理にすぐ使えます。
RAG とナレッジベース
任意のURLをクリーンなMarkdownに変換し、そのままベクターデータベースへ投入。HTML解析もコンテンツ整形スクリプトも不要です。
あらゆるWebサイトをAPIに
スキーマを定義し、URLを指定すれば、JSONが返ってきます。スクレイパーを1つも書かずに、商品価格API、求人一覧API、ニュースフィードAPIを構築できます。
データベース強化
ライブWebデータでデータベースを常に最新に保てます。会社情報、連絡先、掲載情報などを定期的に取得 — ソースが変わってもスキーマはそのままです。
競合モニタリング
数百ページにわたる価格、在庫、レビュー、コンテンツの変更を追跡。同じスキーマ、同じパイプラインで、新しいソースも数秒で追加できます。
データセット構築
公開Webから学習データセット、評価ベンチマーク、研究用データセットを構築できます。数千URLを一括処理し、一貫した構造の出力に変換します。

ThunderbitはこのAPI上に構築されています

あなたが見ているこのAPIは、ThunderbitのChrome拡張機能とWebアプリを支えています。100,000人以上のユーザーが毎月、数千万ページの抽出に利用しています。 これは片手間のプロジェクトではありません。私たち自身の製品を託している基盤です。

0M+
月間処理ページ数は増加中
0K+
Thunderbit拡張機能のユーザー
0%
稼働率
プラン

料金

無料で始めて、成長に合わせて支払う

無料
気軽にスクレイピングを試せる方法。費用なし、カード不要、手間なし。
600ユニット / 買い切り
$0買い切り
 
600ページをDistill
30ページをExtract
同時リクエスト2件
スターター
サイドプロジェクトや小規模ツールに最適。高速、シンプル、過剰機能なし。
60,000 APIユニット / 年
$16/月
年額請求。ユニットは一括前払い。
60,000ページをDistill
3,000ページをExtract
同時リクエスト30件
基本サポート
Pro1人気
大量処理と高速性のために設計。Thunderbitの真価を発揮。
600,000 APIユニット / 年
$40/月
年額請求。ユニットは一括前払い。
600K1200K2400K4800K
600,000ページをDistill
30,000ページをExtract
同時リクエスト50件
優先サポート

よくある 質問

製品と請求に関する知っておくべきすべて。