What's the difference between Distill and Extract?

Distill converts any URL into clean Markdown, stripping ads, navigation, and noise. Extract takes a URL plus a JSON Schema and returns structured JSON or CSV data. Use Distill for content ingestion (RAG, knowledge bases) and Extract for structured data collection (prices, listings, contacts).

Does it work with JavaScript-heavy sites?

Yes. Thunderbit's API includes full JavaScript rendering and anti-bot bypass built in. It handles SPAs, dynamic content, and pages that require JS execution to load data.

Will extraction break when a site redesigns?

No. Thunderbit reads meaning, not DOM structure. Traditional scrapers rely on CSS selectors and XPath that break on every redesign. Thunderbit's AI understands the semantic content of the page, so extraction keeps working even when the HTML changes underneath.

What is the confidence score?

The confidence score indicates how certain Thunderbit's AI is about the extracted data. It helps you programmatically decide whether to trust a result or flag it for review.

How long do batch jobs take?

Batch processing times depend on the number of URLs and complexity. Distill supports up to 100 URLs per request and Extract supports up to 50 URLs per request. Most batch jobs complete within minutes.

KI-gestützter Web Scraper API

Kein Wartungsaufwand. Nie.

Ein API-Aufruf, um jede Webseite in Markdown oder Tabellen zu verwandeln. Versorgen Sie Ihren Agenten mit aktuellen Webdaten, bauen Sie RAG auf und reichern Sie Datenbanken an — wir übernehmen die Infrastruktur.

Kostenlosen API-Schlüssel erhalten Doku lesen

Chrome Store Rating

G2 Rating

Capterra Rating

Software Advice Rating

GetApp Rating

PRODUCT HUNT#1 Product of the Week

Users Worldwide200K+

In wenigen Minuten einsatzbereit

Jetzt direkt im Terminal ausprobieren.

URL zu Markdown

1import requests

3resp = requests.post(

4 "https://openapi.thunderbit.com/openapi/v1/distill",

5 headers={"Authorization": f"Bearer {API_KEY}"},

6 json={"url": "https://example.com/article"}

9markdown = resp.json()["data"]["markdown"]

Core API

Zwei Kernfunktionen

Distill für saubere Inhalte, Extract für strukturierte Daten

Distill

URL→Markdown

Entfernt Werbung, Navigation und Störfaktoren — behält nur den relevanten Inhalt

Vollständiges JS-Rendering und Anti-Bot-Bypass integriert

Bis zu 100 URLs pro Anfrage im Batch

Extract

URL + Schema→JSON / CSV

Ein Schema funktioniert für alle Websites — keine Wartung pro Website

Übersteht Website-Redesigns automatisch

Bis zu 50 URLs pro Anfrage im Batch

Vorteile

Warum Thunderbit nutzen

Die Scraping-/Datenextraktions-Infrastruktur, die Ihr KI-Agent verdient

Definieren, was, nicht wie

Keine CSS-Selektoren, kein XPath, keine Regeln pro Website. Beschreiben Sie die benötigten Daten mit einem JSON Schema — die KI findet heraus, wo sie sich befinden und wie man sie erhält.

Ein Schema, jede Website

Dasselbe Schema funktioniert für E-Commerce-Websites, Verkaufsanzeigen oder jede beliebige URL. Eine neue Datenquelle hinzuzufügen ist eine Konfigurationsänderung, kein Engineering-Sprint.

Funktioniert weiter, wenn Websites sich ändern

Traditionelle Scraper scheitern bei jedem Redesign. Thunderbit liest die Bedeutung, nicht die DOM-Struktur — daher funktioniert die Extraktion weiter, selbst wenn sich das HTML darunter ändert.

Branchen

Anwendungsfälle

Was Sie mit Thunderbit bauen können

KI-Agenten mit Webzugriff

Geben Sie Ihrem Agenten die Fähigkeit, jede Webseite zu lesen und zu verstehen. Ein API-Aufruf liefert strukturierten Kontext, bereit für den nächsten Schritt Ihres Agenten.

RAG & Wissensdatenbanken

Verwandeln Sie jede URL in sauberes Markdown und speisen Sie es direkt in Ihre Vektordatenbank ein. Kein HTML-Parsing, keine Skripte zur Inhaltsbereinigung.

Jede Website in eine API verwandeln

Schema definieren, URL angeben, JSON zurückerhalten. Erstellen Sie eine Produktpreis-API, eine Jobanzeigen-API oder eine News-Feed-API — ohne einen einzigen Scraper zu schreiben.

Datenbank-Anreicherung

Halten Sie Ihre Datenbank mit aktuellen Webdaten frisch. Rufen Sie Firmenprofile, Kontaktdaten oder Anzeigen-Details nach Zeitplan ab — das Schema bleibt gleich, auch wenn sich die Quellen ändern.

Wettbewerbsmonitoring

Verfolgen Sie Preise, Lagerbestände, Bewertungen oder Inhaltsänderungen über Hunderte von Seiten hinweg. Gleiches Schema, gleiche Pipeline, neue Quellen in Sekunden hinzufügen.

Datensatz-Erstellung

Erstellen Sie Trainingsdatensätze, Evaluierungs-Benchmarks oder Forschungsdatensätze aus dem offenen Web. Verarbeiten Sie Tausende von URLs im Batch zu einheitlich strukturierten Ausgaben.

Wir bauen Thunderbit auf dieser API

Dieselbe API, die Sie hier sehen, treibt Thunderbits Chrome-Erweiterung und Web-App an — genutzt von über 200.000 Nutzern, um jeden Monat zig Millionen Seiten zu extrahieren. Das ist kein Nebenprojekt. Es ist die Infrastruktur, auf die wir unser eigenes Produkt setzen.

0M+

Monatlich verarbeitete Seiten und wachsend

0K+

Nutzer der Thunderbit-Erweiterung

Verfügbarkeit

Plan

Preise

Kostenlos starten, mit dem Wachstum zahlen

Kostenlos

Eine unkomplizierte Möglichkeit, Scraping auszuprobieren. Kostenlos, keine Karte, kein Aufwand.

600 Einheiten / einmalig

$0einmalig

Loslegen

Distill 600 Seiten

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

Extract 30 Seiten

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

2 gleichzeitige Anfragen

Starter

Ideal für Nebenprojekte und kleine Tools. Schnell, einfach, ohne Overkill.

60,000 API-Einheiten / Jahr

$16/Monat

Jährliche Abrechnung. Alle Einheiten im Voraus.

Distill 60,000 Seiten

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

Extract 3,000 Seiten

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

30 gleichzeitige Anfragen

Basis-Support

Pro1Am beliebtesten

Für hohes Volumen und hohe Geschwindigkeit entwickelt. Thunderbit in voller Stärke.

600,000 API-Einheiten / Jahr

$40/Monat

Jährliche Abrechnung. Alle Einheiten im Voraus.

600K1200K2400K4800K

Distill 600,000 Seiten

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

Extract 30,000 Seiten

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

50 gleichzeitige Anfragen

Prioritäts-Support

Häufig gestellte Fragen

Alles, was Sie über das Produkt und die Abrechnung wissen müssen.

Capterra

Edge Add-ons

KI-gestützter Web Scraper API

Kein Wartungsaufwand. Nie.

In wenigen Minuten einsatzbereit

Zwei Kernfunktionen

Warum Thunderbit nutzen

Anwendungsfälle

Wir bauen Thunderbit auf dieser API

Preise

Häufig gestellte Fragen

Was ist der Unterschied zwischen Distill und Extract?

Funktioniert es mit JavaScript-lastigen Websites?

Bricht die Extraktion bei einem Website-Redesign?

Was ist der Vertrauenswert?

Wie lange dauern Batch-Jobs?