AI搭載Web Scraper API

保守ゼロ。ずっと。

1回のAPI呼び出しで、あらゆるWebページをMarkdownや表に変換。ライブWebデータでエージェントを強化し、RAGを構築し、データベースを拡張できます — インフラは私たちが担当します。

世界中で100,000人以上のユーザーに支持されています

keio_university logotokyo_gas logoaidma_hd logoakippa logoharvard_university logobcg logoadidas logored_bull_technology logowix logomit logokeio_university logotokyo_gas logoaidma_hd logoakippa logoharvard_university logobcg logoadidas logored_bull_technology logowix logomit logokeio_university logotokyo_gas logoaidma_hd logoakippa logoharvard_university logobcg logoadidas logored_bull_technology logowix logomit logokeio_university logotokyo_gas logoaidma_hd logoakippa logoharvard_university logobcg logoadidas logored_bull_technology logowix logomit logokeio_university logotokyo_gas logoaidma_hd logoakippa logoharvard_university logobcg logoadidas logored_bull_technology logowix logomit logokeio_university logotokyo_gas logoaidma_hd logoakippa logoharvard_university logobcg logoadidas logored_bull_technology logowix logomit logo

数分で稼働開始

今すぐターミナルで試してみてください。

>_
URLをMarkdownに
1import requests
2
3resp = requests.post(
4 "https://open.thunderbit.com/v1/distill",
5 headers={"Authorization": f"Bearer {API_KEY}"},
6 json={"url": "https://example.com/article"}
7)
8
9markdown = resp.json()["data"]["markdown"]
Core API

2つの主要機能

Distillはクリーンなコンテンツ向け、Extractは構造化データ向け

Distill
URLMarkdown
広告、ナビ、ノイズを除去 — 必要なコンテンツだけを残します
完全なJSレンダリングとアンチボット回避を標準搭載
1回のリクエストで最大100URLをバッチ処理
Extract
URL + スキーマJSON / CSV
1つのスキーマで全Webサイトに対応 — サイトごとの保守は不要
サイトのリニューアルにも自動で対応
1回のリクエストで最大50URLをバッチ処理
特長

Thunderbitを使う理由

あなたのAIエージェントにふさわしいスクレイピング/データ抽出基盤

やり方ではなく、何を定義する
CSSセレクタも、XPathも、サイトごとのルールも不要。必要なデータをJSON Schemaで記述するだけで、AIが場所と取得方法を判断します。
1つのスキーマで、すべてのWebサイトに
同じスキーマが、Eコマースサイト、営業リスト、その他どんなURLにも対応。新しいデータソースの追加は、開発ではなく設定変更で済みます。
サイトが変わっても動作し続ける
従来のスクレイパーは、デザイン変更のたびに壊れます。ThunderbitはDOM構造ではなく意味を読み取るため、HTMLが変わっても抽出は動き続けます。
業界

ユースケース

Thunderbitで構築できるもの

Webアクセス可能なAIエージェント
あなたのエージェントに、あらゆるWebページを読み解く力を。1回のAPI呼び出しで構造化された文脈を返し、次の処理にすぐ使えます。
RAGとナレッジベース
任意のURLをクリーンなMarkdownに変換し、そのままベクトルデータベースへ。HTML解析も、コンテンツ整形スクリプトも不要です。
あらゆるWebサイトをAPIに変える
スキーマを定義してURLを指定すれば、JSONを取得可能。商品価格API、求人一覧API、ニュースフィードAPIを、スクレイパーを1行も書かずに構築できます。
データベース強化
ライブWebデータでデータベースを常に最新に保てます。会社情報、連絡先、掲載情報を定期的に取得しても、ソースが変わってもスキーマはそのままです。
競合モニタリング
数百ページにわたる価格、在庫、レビュー、コンテンツの変化を追跡。同じスキーマ、同じパイプラインで、新しいソースも数秒で追加できます。
データセット作成
公開Webから学習用データセット、評価ベンチマーク、研究用データセットを作成。数千URLを一括処理し、一貫した構造の出力を得られます。

ThunderbitはこのAPI上に構築されています

今ご覧の同じAPIが、ThunderbitのChrome拡張機能とWebアプリを支えています — 100,000人以上のユーザーが毎月数千万ページの抽出に利用しています。 これは片手間のプロジェクトではありません。私たち自身の製品を託している基盤です。

0M+
月間処理ページ数は増加中
0K+
Thunderbit拡張機能のユーザー
0%
稼働率
プラン

料金

無料で始めて、成長に合わせて支払う

無料
気軽にスクレイピングを試せる方法。無料、カード不要、手間なし。
600ユニット / 買い切り
$0買い切り
 
600ページをDistill
30ページをExtract
同時リクエスト2件
スターター
サイドプロジェクトや小規模ツールに最適。高速、シンプル、過剰機能なし。
60,000 APIユニット / 年
$16/月
年額請求。ユニットは全額前払い。
60,000ページをDistill
3,000ページをExtract
同時リクエスト30件
基本サポート
Pro1人気
大量処理と高速化のために設計。Thunderbitの真価を発揮。
600,000 APIユニット / 年
$40/月
年額請求。ユニットは全額前払い。
600K1200K2400K4800K
600,000ページをDistill
30,000ページをExtract
同時リクエスト50件
優先サポート

よくある 質問

製品と請求に関する知っておくべきことをすべて。