What's the difference between Distill and Extract?

Distill converts any URL into clean Markdown, stripping ads, navigation, and noise. Extract takes a URL plus a JSON Schema and returns structured JSON or CSV data. Use Distill for content ingestion (RAG, knowledge bases) and Extract for structured data collection (prices, listings, contacts).

Does it work with JavaScript-heavy sites?

Yes. Thunderbit's API includes full JavaScript rendering and anti-bot bypass built in. It handles SPAs, dynamic content, and pages that require JS execution to load data.

Will extraction break when a site redesigns?

No. Thunderbit reads meaning, not DOM structure. Traditional scrapers rely on CSS selectors and XPath that break on every redesign. Thunderbit's AI understands the semantic content of the page, so extraction keeps working even when the HTML changes underneath.

What is the confidence score?

The confidence score indicates how certain Thunderbit's AI is about the extracted data. It helps you programmatically decide whether to trust a result or flag it for review.

How long do batch jobs take?

Batch processing times depend on the number of URLs and complexity. Distill supports up to 100 URLs per request and Extract supports up to 50 URLs per request. Most batch jobs complete within minutes.

AI-Powered Web Scraper API

बिल्कुल रखरखाव नहीं। कभी नहीं।

किसी भी वेबपेज को Markdown या tables में बदलने के लिए एक API call. अपने agent को live web data से शक्ति दें, RAG बनाएं, और databases को enrich करें — infrastructure हम संभालते हैं।

निःशुल्क API कुंजी प्राप्त करें डॉक्स पढ़ें

Chrome Store Rating

G2 Rating

Capterra Rating

Software Advice Rating

GetApp Rating

PRODUCT HUNT#1 Product of the Week

Users Worldwide200K+

कुछ ही मिनटों में चालू

इसे अभी अपने टर्मिनल में आज़माएँ।

URL से Markdown

1import requests

3resp = requests.post(

4 "https://openapi.thunderbit.com/openapi/v1/distill",

5 headers={"Authorization": f"Bearer {API_KEY}"},

6 json={"url": "https://example.com/article"}

9markdown = resp.json()["data"]["markdown"]

Core API

दो मुख्य क्षमताएँ

साफ़-सुथरी सामग्री के लिए Distill, संरचित डेटा के लिए Extract

Distill

URL→Markdown

विज्ञापन, नेविगेशन और अनावश्यक चीज़ें हटाता है — केवल ज़रूरी सामग्री रखता है

पूर्ण JS rendering और anti-bot bypass शामिल है

प्रति अनुरोध 100 URL तक बैच करें

Extract

URL + Schema→JSON / CSV

एक schema सभी वेबसाइटों पर काम करता है — प्रति-साइट रखरखाव नहीं

साइट के पुनःडिज़ाइन के बाद भी अपने आप चलता रहता है

प्रति अनुरोध 50 URL तक बैच करें

फायदे

Thunderbit का उपयोग क्यों करें

वह scraping / data extraction infrastructure जिसका आपका AI agent हकदार है

क्या चाहिए, यह बताएं; कैसे नहीं

न CSS selectors, न XPath, न प्रति-साइट नियम। अपनी ज़रूरत का डेटा JSON Schema से बताइए — AI खुद तय करता है कि वह कहाँ है और उसे कैसे लेना है।

एक schema, हर वेबसाइट

वही schema E-commerce sites, Sales Listings या किसी भी URL पर काम करता है। नया data source जोड़ना एक config change है, कोई engineering sprint नहीं।

साइटें बदलने पर भी काम करता रहता है

पारंपरिक scrapers हर redesign पर टूट जाते हैं। Thunderbit अर्थ पढ़ता है, DOM structure नहीं — इसलिए HTML बदलने पर भी extraction काम करता रहता है।

उद्योग

उपयोग के मामले

Thunderbit से आप क्या बना सकते हैं

वेब एक्सेस वाले AI एजेंट

अपने agent को किसी भी वेबपेज को पढ़ने और समझने की क्षमता दें। एक API कॉल संरचित संदर्भ लौटाती है, जो आपके agent के अगले कदम के लिए तैयार होता है।

RAG और ज्ञान आधार

किसी भी URL को साफ़ Markdown में Distill करें और सीधे अपने vector database में भेजें। न HTML parsing, न content cleaning scripts.

किसी भी वेबसाइट को API में बदलें

एक schema तय करें, URL दें, और JSON वापस पाएं। बिना एक भी scraper लिखे product price API, job listing API, या news feed API बनाएं।

डेटाबेस समृद्धिकरण

लाइव वेब डेटा से अपने database को ताज़ा रखें। कंपनी प्रोफ़ाइल, संपर्क जानकारी, या listing विवरण को शेड्यूल पर खींचें — स्रोत बदलने पर भी schema वही रहता है।

प्रतिस्पर्धी निगरानी

सैकड़ों पृष्ठों में कीमतों, इन्वेंटरी, समीक्षाओं या सामग्री परिवर्तनों को ट्रैक करें। वही schema, वही pipeline, नए स्रोत कुछ ही सेकंड में जोड़ें।

डेटासेट निर्माण

खुले वेब से training sets, evaluation benchmarks, या research datasets बनाएं। हज़ारों URLs को batch process करके लगातार संरचित output प्राप्त करें।

हम Thunderbit को इसी API पर बनाते हैं

आप जिस API को देख रहे हैं, वही Thunderbit के Chrome Extension और web app को शक्ति देता है — जिसका उपयोग 200,000+ उपयोगकर्ता हर महीने करोड़ों पृष्ठों को extract करने के लिए करते हैं। यह कोई साइड प्रोजेक्ट नहीं है। यह वही infrastructure है जिस पर हमने अपना उत्पाद दांव पर लगाया है.

0M+

प्रति माह प्रोसेस किए गए पृष्ठ और बढ़ रहे हैं

0K+

Thunderbit एक्सटेंशन पर उपयोगकर्ता

अपटाइम

प्लान

मूल्य निर्धारण

निःशुल्क शुरू करें, बढ़ने पर भुगतान करें

निःशुल्क

scraping आज़माने का एक आसान तरीका। कोई लागत नहीं, कोई कार्ड नहीं, कोई झंझट नहीं।

600 यूनिट / एक बार

$0एक बार

शुरू करें

600 पृष्ठों को Distill करें

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

30 पृष्ठों को Extract करें

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

2 समानांतर अनुरोध

स्टार्टर

साइड प्रोजेक्ट्स और छोटे टूल्स के लिए बढ़िया। तेज़, सरल, बिना अनावश्यक जटिलता के।

60,000 API यूनिट / वर्ष

$16/माह

वार्षिक बिलिंग। सभी यूनिट पहले ही।

सदस्यता लें

60,000 पृष्ठों को Distill करें

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

3,000 पृष्ठों को Extract करें

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

30 समानांतर अनुरोध

मूलभूत सहायता

प्रो1सबसे लोकप्रिय

उच्च मात्रा और गति के लिए बनाया गया। Thunderbit पूरी ताकत के साथ।

600,000 API यूनिट / वर्ष

$40/माह

वार्षिक बिलिंग। सभी यूनिट पहले ही।

600K1200K2400K4800K

सदस्यता लें

600,000 पृष्ठों को Distill करें

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

30,000 पृष्ठों को Extract करें

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

50 समानांतर अनुरोध

प्राथमिकता सहायता

अक्सर पूछे जाने वाले प्रश्न

उत्पाद और बिलिंग के बारे में आपको जो कुछ भी जानना है।

Capterra

Edge Add-ons

AI-Powered Web Scraper API

बिल्कुल रखरखाव नहीं। कभी नहीं।

कुछ ही मिनटों में चालू

दो मुख्य क्षमताएँ

Thunderbit का उपयोग क्यों करें

उपयोग के मामले

हम Thunderbit को इसी API पर बनाते हैं

मूल्य निर्धारण

अक्सर पूछे जाने वाले प्रश्न

Distill और Extract में क्या अंतर है?

क्या यह JavaScript-heavy साइटों के साथ काम करता है?

साइट के पुनःडिज़ाइन होने पर extraction टूटेगा क्या?

कॉन्फिडेंस स्कोर क्या है?

बैच जॉब्स में कितना समय लगता है?