What's the difference between Distill and Extract?

Distill converts any URL into clean Markdown, stripping ads, navigation, and noise. Extract takes a URL plus a JSON Schema and returns structured JSON or CSV data. Use Distill for content ingestion (RAG, knowledge bases) and Extract for structured data collection (prices, listings, contacts).

Does it work with JavaScript-heavy sites?

Yes. Thunderbit's API includes full JavaScript rendering and anti-bot bypass built in. It handles SPAs, dynamic content, and pages that require JS execution to load data.

Will extraction break when a site redesigns?

No. Thunderbit reads meaning, not DOM structure. Traditional scrapers rely on CSS selectors and XPath that break on every redesign. Thunderbit's AI understands the semantic content of the page, so extraction keeps working even when the HTML changes underneath.

What is the confidence score?

The confidence score indicates how certain Thunderbit's AI is about the extracted data. It helps you programmatically decide whether to trust a result or flag it for review.

How long do batch jobs take?

Batch processing times depend on the number of URLs and complexity. Distill supports up to 100 URLs per request and Extract supports up to 50 URLs per request. Most batch jobs complete within minutes.

AI-Powered Web Scraper API

Zero konserwacji. Zawsze.

Jedno wywołanie API, by zamienić dowolną stronę w Markdown lub tabele. Zasil swojego agenta aktualnymi danymi z sieci, buduj RAG i wzbogacaj bazy danych — my zajmiemy się infrastrukturą.

Uzyskaj darmowy klucz API Przeczytaj dokumentację

Chrome Store Rating

G2 Rating

Capterra Rating

Software Advice Rating

GetApp Rating

PRODUCT HUNT#1 Product of the Week

Users Worldwide200K+

Działa w kilka minut

Wypróbuj to teraz w swoim terminalu.

URL do Markdown

1import requests

3resp = requests.post(

4 "https://openapi.thunderbit.com/openapi/v1/distill",

5 headers={"Authorization": f"Bearer {API_KEY}"},

6 json={"url": "https://example.com/article"}

9markdown = resp.json()["data"]["markdown"]

Core API

Dwie podstawowe możliwości

Distill do czystej treści, Extract do danych strukturalnych

Distill

URL→Markdown

Usuwa reklamy, nawigację i zbędne elementy — zostawia tylko to, co ważne

Pełne renderowanie JS i wbudowane omijanie zabezpieczeń anty-bot

Przetwarzaj wsadowo do 100 adresów URL na żądanie

Extract

URL + schemat→JSON / CSV

Jeden schemat działa na wszystkich stronach — bez utrzymania dla każdej z osobna

Automatycznie wytrzymuje przebudowy stron

Przetwarzaj wsadowo do 50 adresów URL na żądanie

Zalety

Dlaczego warto używać Thunderbit

Infrastruktura do pobierania i ekstrakcji danych, na którą zasługuje Twój agent AI

Określ co, nie jak

Bez selektorów CSS, bez XPath, bez reguł dla poszczególnych stron. Opisz potrzebne dane za pomocą JSON Schema — AI ustali, gdzie się znajdują i jak je pobrać.

Jeden schemat, każda strona

Ten sam schemat działa na stronach e-commerce, ofertach sprzedaży lub dowolnym URL, który mu podasz. Dodanie nowego źródła danych to zmiana konfiguracji, a nie sprint inżynieryjny.

Działa nawet wtedy, gdy strony się zmieniają

Tradycyjne scrapery przestają działać przy każdej przebudowie. Thunderbit odczytuje znaczenie, a nie strukturę DOM — dzięki czemu ekstrakcja działa nawet wtedy, gdy HTML pod spodem się zmienia.

Branże

Przypadki użycia

Co możesz zbudować z Thunderbit

Agenci AI z dostępem do sieci

Daj swojemu agentowi możliwość czytania i rozumienia dowolnej strony internetowej. Jedno wywołanie API zwraca uporządkowany kontekst, gotowy na kolejny krok agenta.

RAG i bazy wiedzy

Przekształć dowolny URL w czysty Markdown i podaj go bezpośrednio do swojej bazy wektorowej. Bez parsowania HTML, bez skryptów czyszczących treść.

Zamień dowolną stronę w API

Zdefiniuj schemat, wskaż URL i otrzymaj JSON. Zbuduj API cen produktów, API ofert pracy albo API wiadomości — bez pisania ani jednego scrapera.

Wzbogacanie bazy danych

Utrzymuj bazę danych na bieżąco dzięki aktualnym danym z sieci. Pobieraj profile firm, dane kontaktowe lub szczegóły ofert według harmonogramu — schemat pozostaje ten sam nawet wtedy, gdy źródła się zmieniają.

Monitorowanie konkurencji

Śledź ceny, stan magazynowy, recenzje lub zmiany treści na setkach stron. Ten sam schemat, ten sam pipeline, a nowe źródła dodasz w kilka sekund.

Tworzenie zbiorów danych

Twórz zestawy treningowe, benchmarki ewaluacyjne lub zbiory badawcze z otwartej sieci. Przetwarzaj wsadowo tysiące adresów URL do spójnie ustrukturyzowanego wyniku.

Budujemy Thunderbit na tym API

To samo API, które właśnie oglądasz, napędza rozszerzenie Chrome i aplikację webową Thunderbit — używaną przez ponad 200 000 użytkowników do استخراجania dziesiątek milionów stron każdego miesiąca. To nie jest poboczny projekt. To infrastruktura, na którą postawiliśmy nasz własny produkt.

0M+

Strony przetwarzane miesięcznie i stale rosnące

0K+

Użytkownicy rozszerzenia Thunderbit

Dostępność

Plan

Cennik

Zacznij za darmo, płacisz wraz ze wzrostem

Darmowy

Lekki sposób na wypróbowanie pobierania danych. Bez kosztów, bez karty, bez problemów.

600 jednostek / jednorazowo

$0jednorazowo

Rozpocznij

Distill 600 stron

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

Extract 30 stron

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

2 równoczesne żądania

Starter

Świetne do pobocznych projektów i małych narzędzi. Szybkie, proste, bez przesady.

60,000 jednostek API / rok

$16/miesiąc

Rozliczane rocznie. Wszystkie jednostki z góry.

Subskrybuj

Distill 60,000 stron

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

Extract 3,000 stron

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

30 równoczesnych żądań

Podstawowe wsparcie

Pro1Najpopularniejsze

Stworzone z myślą o dużej skali i szybkości. Thunderbit w pełnej mocy.

600,000 jednostek API / rok

$40/miesiąc

Rozliczane rocznie. Wszystkie jednostki z góry.

600K1200K2400K4800K

Subskrybuj

Distill 600,000 stron

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

Extract 30,000 stron

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

50 równoczesnych żądań

Priorytetowe wsparcie

Często zadawane pytania

Wszystko, co musisz wiedzieć o produkcie i rozliczeniach.

Capterra

Edge Add-ons

AI-Powered Web Scraper API

Zero konserwacji. Zawsze.

Działa w kilka minut

Dwie podstawowe możliwości

Dlaczego warto używać Thunderbit

Przypadki użycia

Budujemy Thunderbit na tym API

Cennik

Często zadawane pytania

Jaka jest różnica między Distill a Extract?

Czy działa na stronach mocno opartych na JavaScript?

Czy ekstrakcja przestanie działać po przebudowie strony?

Czym jest wynik pewności?

Ile czasu zajmują zadania wsadowe?