What's the difference between Distill and Extract?

Distill converts any URL into clean Markdown, stripping ads, navigation, and noise. Extract takes a URL plus a JSON Schema and returns structured JSON or CSV data. Use Distill for content ingestion (RAG, knowledge bases) and Extract for structured data collection (prices, listings, contacts).

Does it work with JavaScript-heavy sites?

Yes. Thunderbit's API includes full JavaScript rendering and anti-bot bypass built in. It handles SPAs, dynamic content, and pages that require JS execution to load data.

Will extraction break when a site redesigns?

No. Thunderbit reads meaning, not DOM structure. Traditional scrapers rely on CSS selectors and XPath that break on every redesign. Thunderbit's AI understands the semantic content of the page, so extraction keeps working even when the HTML changes underneath.

What is the confidence score?

The confidence score indicates how certain Thunderbit's AI is about the extracted data. It helps you programmatically decide whether to trust a result or flag it for review.

How long do batch jobs take?

Batch processing times depend on the number of URLs and complexity. Distill supports up to 100 URLs per request and Extract supports up to 50 URLs per request. Most batch jobs complete within minutes.

AI-drevet Web Scraper API

Null vedlikehold. Noensinne.

Én API-kall for å gjøre enhver nettside om til Markdown eller tabeller. Gi agenten din ferske nettdata, bygg RAG og berik databaser — vi tar oss av infrastrukturen.

Få gratis API-nøkkel Les dokumentasjonen

Chrome Store Rating

G2 Rating

Capterra Rating

Software Advice Rating

GetApp Rating

PRODUCT HUNT#1 Product of the Week

Users Worldwide200K+

I gang på få minutter

Prøv det i terminalen din akkurat nå.

URL til Markdown

1import requests

3resp = requests.post(

4 "https://openapi.thunderbit.com/openapi/v1/distill",

5 headers={"Authorization": f"Bearer {API_KEY}"},

6 json={"url": "https://example.com/article"}

9markdown = resp.json()["data"]["markdown"]

Kjerne-API

To kjernefunksjoner

Distill for rent innhold, Extract for strukturerte data

Distill

URL→Markdown

Fjerner annonser, navigasjon og støy — beholder bare innholdet som betyr noe

Full JS-rendering og innebygd anti-bot-omgåelse

Batch opptil 100 URL-er per forespørsel

Extract

URL + skjema→JSON / CSV

Ett skjema fungerer på alle nettsteder — ingen vedlikehold per nettsted

Overlever redesign av nettsteder automatisk

Batch opptil 50 URL-er per forespørsel

Fordeler

Hvorfor bruke Thunderbit

Scraping- / datauthentingsinfrastrukturen AI-agenten din fortjener

Definer hva, ikke hvordan

Ingen CSS-selektorer, ingen XPath, ingen regler per nettsted. Beskriv dataene du trenger med et JSON Schema — AI finner ut hvor de finnes og hvordan de hentes.

Ett skjema, alle nettsteder

Det samme skjemaet fungerer på tvers av nettbutikker, salgsannonser eller hvilken som helst URL du kaster på det. Å legge til en ny datakilde er en konfigurasjonsendring, ikke en utviklingssprinter.

Fortsetter å fungere når nettsteder endres

Tradisjonelle scrapers dør ved hver redesign. Thunderbit leser mening, ikke DOM-struktur — så uthenting fortsetter å fungere selv når HTML-en endres under.

Bransjer

Bruksområder

Hva du kan bygge med Thunderbit

AI-agenter med nettilgang

Gi agenten din muligheten til å lese og forstå enhver nettside. Én API-kall returnerer strukturert kontekst, klar for agentens neste steg.

RAG og kunnskapsbaser

Distill enhver URL til ren Markdown og send den rett inn i vektordatabasen din. Ingen HTML-parsing, ingen skript for innholdsrensing.

Gjør hvilket som helst nettsted om til et API

Definer et skjema, pek på en URL, og få JSON tilbake. Bygg et API for produktpriser, stillingsannonser eller nyhetsstrømmer — uten å skrive en eneste scraper.

Berikelse av database

Hold databasen din oppdatert med ferske nettdata. Hent bedriftsprofiler, kontaktinformasjon eller annonseopplysninger etter en tidsplan — skjemaet forblir det samme selv når kilder endres.

Konkurranseovervåking

Følg priser, lagerbeholdning, anmeldelser eller innholdsendringer på tvers av hundrevis av sider. Samme skjema, samme pipeline, legg til nye kilder på sekunder.

Datasettbygging

Bygg treningssett, evalueringsbenchmarker eller forskningsdatasett fra det åpne nettet. Batchbehandle tusenvis av URL-er til konsekvent strukturert output.

Vi bygger Thunderbit på dette API-et

Det samme API-et du ser på driver Thunderbits Chrome-utvidelse og nettapp — brukt av 200 000+ brukere til å hente ut titalls millioner sider hver måned. Dette er ikke et sideprosjekt. Det er infrastrukturen vi satset vårt eget produkt på.

0M+

Sider behandlet månedlig og i vekst

0K+

Brukere av Thunderbit-utvidelsen

Oppetid

Plan

Priser

Start gratis, betal etter hvert som du vokser

Gratis

En enkel måte å prøve scraping på. Ingen kostnad, intet kort, ingen hassle.

600 enheter / engangs

$0engangs

Kom i gang

Distill 600 sider

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

Extract 30 sider

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

2 samtidige forespørsler

Startpakke

Flott for sideprosjekter og små verktøy. Raskt, enkelt, uten overkill.

60,000 API-enheter / år

$16/måned

Faktureres årlig. Alle enheter betales på forhånd.

Abonner

Distill 60,000 sider

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

Extract 3,000 sider

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

30 samtidige forespørsler

Grunnleggende støtte

Pro1Mest populær

Bygget for høyt volum og høy hastighet. Thunderbit på full kraft.

600,000 API-enheter / år

$40/måned

Faktureres årlig. Alle enheter betales på forhånd.

600K1200K2400K4800K

Abonner

Distill 600,000 sider

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

Extract 30,000 sider

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

50 samtidige forespørsler

Prioritert støtte

Ofte stilte spørsmål

Alt du trenger å vite om produktet og fakturering.

Capterra

Edge Add-ons

AI-drevet Web Scraper API

Null vedlikehold. Noensinne.

I gang på få minutter

To kjernefunksjoner

Hvorfor bruke Thunderbit

Bruksområder

Vi bygger Thunderbit på dette API-et

Priser

Ofte stilte spørsmål

Hva er forskjellen mellom Distill og Extract?

Fungerer det med nettsteder som er tunge på JavaScript?

Vil uthenting slutte å fungere når et nettsted redesignes?

Hva er konfidensscoren?

Hvor lang tid tar batchjobber?