What's the difference between Distill and Extract?

Distill converts any URL into clean Markdown, stripping ads, navigation, and noise. Extract takes a URL plus a JSON Schema and returns structured JSON or CSV data. Use Distill for content ingestion (RAG, knowledge bases) and Extract for structured data collection (prices, listings, contacts).

Does it work with JavaScript-heavy sites?

Yes. Thunderbit's API includes full JavaScript rendering and anti-bot bypass built in. It handles SPAs, dynamic content, and pages that require JS execution to load data.

Will extraction break when a site redesigns?

No. Thunderbit reads meaning, not DOM structure. Traditional scrapers rely on CSS selectors and XPath that break on every redesign. Thunderbit's AI understands the semantic content of the page, so extraction keeps working even when the HTML changes underneath.

What is the confidence score?

The confidence score indicates how certain Thunderbit's AI is about the extracted data. It helps you programmatically decide whether to trust a result or flag it for review.

How long do batch jobs take?

Batch processing times depend on the number of URLs and complexity. Distill supports up to 100 URLs per request and Extract supports up to 50 URLs per request. Most batch jobs complete within minutes.

AI-aangedreven Web Scraper API

Geen onderhoud. Nooit.

Eén API-aanroep om elke webpagina om te zetten in Markdown of tabellen. Voorzie je agent van live webdata, bouw RAG en verrijk databases — wij regelen de infrastructuur.

Gratis API-sleutel krijgen Documentatie lezen

Chrome Store Rating

G2 Rating

Capterra Rating

Software Advice Rating

GetApp Rating

PRODUCT HUNT#1 Product of the Week

Users Worldwide200K+

Binnen enkele minuten operationeel

Probeer het nu direct in je terminal.

URL naar Markdown

1import requests

3resp = requests.post(

4 "https://openapi.thunderbit.com/openapi/v1/distill",

5 headers={"Authorization": f"Bearer {API_KEY}"},

6 json={"url": "https://example.com/article"}

9markdown = resp.json()["data"]["markdown"]

Core API

Twee kernmogelijkheden

Distill voor schone content, Extract voor gestructureerde data

Distill

URL→Markdown

Verwijdert advertenties, navigatie en ruis — behoudt alleen de content die ertoe doet

Volledige JS-rendering en anti-botomzeiling ingebouwd

Verwerk tot 100 URL's per verzoek

Extract

URL + schema→JSON / CSV

Eén schema werkt op alle websites — geen onderhoud per site

Blijft automatisch werken bij site-redesigns

Verwerk tot 50 URL's per verzoek

Voordelen

Waarom Thunderbit gebruiken

De scraping- / data-extractie-infrastructuur die je AI-agent verdient

Bepaal wat, niet hoe

Geen CSS-selectors, geen XPath, geen regels per site. Beschrijf de data die je nodig hebt met een JSON Schema — AI bepaalt waar het staat en hoe je het krijgt.

Eén schema, elke website

Hetzelfde schema werkt op e-commercesites, verkoopvermeldingen of elke URL die je erop loslaat. Een nieuwe databron toevoegen is een configuratiewijziging, geen engineeringtraject.

Blijft werken wanneer websites veranderen

Traditionele scrapers vallen bij elke redesign uit. Thunderbit leest betekenis, niet DOM-structuur — dus de extractie blijft werken, zelfs als de HTML onderliggend verandert.

Sectoren

Toepassingen

Wat je met Thunderbit kunt bouwen

AI-agents met webtoegang

Geef je agent de mogelijkheid om elke webpagina te lezen en te begrijpen. Eén API-aanroep levert gestructureerde context, klaar voor de volgende stap van je agent.

RAG & kennisbanken

Zet elke URL om in schone Markdown en stuur die rechtstreeks naar je vector database. Geen HTML-parsing, geen scripts voor contentopschoning.

Zet elke website om in een API

Definieer een schema, wijs naar een URL en ontvang JSON terug. Bouw een API voor productprijzen, vacatures of nieuwsfeeds — zonder ook maar één scraper te schrijven.

Databaseverrijking

Houd je database actueel met live webdata. Haal bedrijfprofielen, contactgegevens of listingdetails op volgens schema — het schema blijft hetzelfde, zelfs als bronnen veranderen.

Concurrentiemonitoring

Volg prijzen, voorraad, reviews of contentwijzigingen op honderden pagina's. Zelfde schema, zelfde pipeline, nieuwe bronnen toevoegen in seconden.

Datasetopbouw

Bouw trainingssets, evaluatiebenchmarks of onderzoeksdatasets uit het open web. Verwerk duizenden URL's in batches tot consequent gestructureerde output.

We bouwen Thunderbit op deze API

Dezelfde API die je hier ziet, drijft Thunderbit's Chrome-extensie en webapp aan — gebruikt door 200.000+ gebruikers om elke maand tientallen miljoenen pagina's te extraheren. Dit is geen zijproject. Het is de infrastructuur waarop we ons eigen product inzetten.

0M+

Maandelijks verwerkte pagina's en groeiend

0K+

Gebruikers van de Thunderbit-extensie

Uptime

Abonnement

Prijzen

Begin gratis, betaal naarmate je groeit

Gratis

Een laagdrempelige manier om scrapen te proberen. Geen kosten, geen kaart, geen gedoe.

600 units / eenmalig

$0eenmalig

Aan de slag

Distill 600 pagina's

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

Extract 30 pagina's

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

2 gelijktijdige verzoeken

Starter

Geweldig voor side-projects en kleine tools. Snel, simpel, zonder overkill.

60,000 API-units / jaar

$16/maand

Jaarlijkse facturatie. Alle units vooraf.

Abonneren

Distill 60,000 pagina's

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

Extract 3,000 pagina's

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

30 gelijktijdige verzoeken

Basisondersteuning

Pro1Meest populair

Gebouwd voor grote volumes en snelheid. Thunderbit op volle kracht.

600,000 API-units / jaar

$40/maand

Jaarlijkse facturatie. Alle units vooraf.

600K1200K2400K4800K

Abonneren

Distill 600,000 pagina's

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

Extract 30,000 pagina's

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

50 gelijktijdige verzoeken

Prioriteitsondersteuning

Veelgestelde vragen

Alles wat je moet weten over het product en de facturatie.

Capterra

Edge Add-ons

AI-aangedreven Web Scraper API

Geen onderhoud. Nooit.

Binnen enkele minuten operationeel

Twee kernmogelijkheden

Waarom Thunderbit gebruiken

Toepassingen

We bouwen Thunderbit op deze API

Prijzen

Veelgestelde vragen

Wat is het verschil tussen Distill en Extract?

Werkt het met websites die veel JavaScript gebruiken?

Breekt de extractie bij een website-redesign?

Wat is de betrouwbaarheidscore?

Hoe lang duren batchjobs?