What's the difference between Distill and Extract?

Distill converts any URL into clean Markdown, stripping ads, navigation, and noise. Extract takes a URL plus a JSON Schema and returns structured JSON or CSV data. Use Distill for content ingestion (RAG, knowledge bases) and Extract for structured data collection (prices, listings, contacts).

Does it work with JavaScript-heavy sites?

Yes. Thunderbit's API includes full JavaScript rendering and anti-bot bypass built in. It handles SPAs, dynamic content, and pages that require JS execution to load data.

Will extraction break when a site redesigns?

No. Thunderbit reads meaning, not DOM structure. Traditional scrapers rely on CSS selectors and XPath that break on every redesign. Thunderbit's AI understands the semantic content of the page, so extraction keeps working even when the HTML changes underneath.

What is the confidence score?

The confidence score indicates how certain Thunderbit's AI is about the extracted data. It helps you programmatically decide whether to trust a result or flag it for review.

How long do batch jobs take?

Batch processing times depend on the number of URLs and complexity. Distill supports up to 100 URLs per request and Extract supports up to 50 URLs per request. Most batch jobs complete within minutes.

AI-driven Web Scraper API

Ingen underhåll. Någonsin.

Ett API-anrop för att förvandla vilken webbsida som helst till Markdown eller tabeller. Ge din agent live webdata, bygg RAG och berika databaser — vi sköter infrastrukturen.

Få gratis API-nyckel Läs dokumentationen

Chrome Store Rating

G2 Rating

Capterra Rating

Software Advice Rating

GetApp Rating

PRODUCT HUNT#1 Product of the Week

Users Worldwide200K+

Igång på några minuter

Testa det i din terminal direkt nu.

URL till Markdown

1import requests

3resp = requests.post(

4 "https://openapi.thunderbit.com/openapi/v1/distill",

5 headers={"Authorization": f"Bearer {API_KEY}"},

6 json={"url": "https://example.com/article"}

9markdown = resp.json()["data"]["markdown"]

Core API

Två kärnfunktioner

Distill för rent innehåll, Extract för strukturerad data

Distill

URL→Markdown

Tar bort annonser, navigation och brus — behåller bara innehållet som spelar roll

Fullständig JS-rendering och anti-bot-bypass inbyggt

Batcha upp till 100 URL:er per förfrågan

Extract

URL + Schema→JSON / CSV

Ett schema fungerar på alla webbplatser — inget underhåll per webbplats

Tål webbplatsomdesign automatiskt

Batcha upp till 50 URL:er per förfrågan

Fördelar

Varför använda Thunderbit

Infrastrukturen för scraping / dataextrahering som din AI-agent förtjänar

Definiera vad, inte hur

Inga CSS-selektorer, ingen XPath, inga regler per webbplats. Beskriv datan du behöver med ett JSON Schema — AI:n tar reda på var den finns och hur den hämtas.

Ett schema, alla webbplatser

Samma schema fungerar på e-handelswebbplatser, försäljningsannonser eller vilken URL du än kastar på det. Att lägga till en ny datakälla är en konfigurationsändring, inte ett utvecklingsprojekt.

Fortsätter fungera när webbplatser ändras

Traditionella scrapers slutar fungera vid varje omdesign. Thunderbit läser betydelse, inte DOM-struktur — så extraheringen fortsätter fungera även när HTML:en ändras under ytan.

Branscher

Användningsområden

Vad du kan bygga med Thunderbit

AI-agenter med webbåtkomst

Ge din agent förmågan att läsa och förstå vilken webbsida som helst. Ett API-anrop returnerar strukturerad kontext, redo för agentens nästa steg.

RAG och kunskapsbaser

Förvandla vilken URL som helst till ren Markdown och mata den direkt till din vektordatabas. Ingen HTML-tolkning, inga skript för att rensa innehåll.

Gör vilken webbplats som helst till ett API

Definiera ett schema, peka på en URL, få JSON tillbaka. Bygg ett API för produktpriser, jobbannonser eller nyhetsflöden — utan att skriva en enda scraper.

Berikning av databaser

Håll din databas uppdaterad med live webdata. Hämta företagsprofiler, kontaktuppgifter eller annonsdetaljer enligt schema — schemat förblir detsamma även när källor ändras.

Konkurrensbevakning

Följ priser, lager, recensioner eller innehållsförändringar på hundratals sidor. Samma schema, samma pipeline, lägg till nya källor på sekunder.

Skapande av dataset

Bygg träningsmängder, utvärderingsbenchmarks eller forskningsdataset från öppna webben. Batchbearbeta tusentals URL:er till konsekvent strukturerad utdata.

Vi bygger Thunderbit på detta API

Samma API som du tittar på driver Thunderbits Chrome Extension och webbapp — använd av 200 000+ användare för att extrahera tiotals miljoner sidor varje månad. Det här är inget sidoprojekt. Det är infrastrukturen som vi satsar vår egen produkt på.

0M+

Sidor som bearbetas varje månad och växer

0K+

Användare av Thunderbit-tillägget

Drifttid

Plan

Priser

Börja gratis, betala i takt med att du växer

Gratis

Ett lätt sätt att testa scraping. Ingen kostnad, inget kort, inget krångel.

600 enheter / engångs

$0engångs

Kom igång

Distill 600 sidor

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

Extract 30 sidor

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

2 samtidiga förfrågningar

Start

Perfekt för sidoprojekt och små verktyg. Snabbt, enkelt, inga överdrifter.

60,000 API-enheter / år

$16/månad

Faktureras årligen. Alla enheter i förskott.

Prenumerera

Distill 60,000 sidor

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

Extract 3,000 sidor

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

30 samtidiga förfrågningar

Grundläggande support

Pro1Mest populär

Byggt för hög volym och hastighet. Thunderbit på full kraft.

600,000 API-enheter / år

$40/månad

Faktureras årligen. Alla enheter i förskott.

600K1200K2400K4800K

Prenumerera

Distill 600,000 sidor

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

Extract 30,000 sidor

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

50 samtidiga förfrågningar

Prioriterad support

Vanliga frågor

Allt du behöver veta om produkten och faktureringen.

Capterra

Edge Add-ons

AI-driven Web Scraper API

Ingen underhåll. Någonsin.

Igång på några minuter

Två kärnfunktioner

Varför använda Thunderbit

Användningsområden

Vi bygger Thunderbit på detta API

Priser

Vanliga frågor

Vad är skillnaden mellan Distill och Extract?

Fungerar det med JavaScript-tunga webbplatser?

Kommer extraheringen att sluta fungera när en webbplats designas om?

Vad är förtroendepoängen?

Hur lång tid tar batchjobb?