What's the difference between Distill and Extract?

Distill converts any URL into clean Markdown, stripping ads, navigation, and noise. Extract takes a URL plus a JSON Schema and returns structured JSON or CSV data. Use Distill for content ingestion (RAG, knowledge bases) and Extract for structured data collection (prices, listings, contacts).

Does it work with JavaScript-heavy sites?

Yes. Thunderbit's API includes full JavaScript rendering and anti-bot bypass built in. It handles SPAs, dynamic content, and pages that require JS execution to load data.

Will extraction break when a site redesigns?

No. Thunderbit reads meaning, not DOM structure. Traditional scrapers rely on CSS selectors and XPath that break on every redesign. Thunderbit's AI understands the semantic content of the page, so extraction keeps working even when the HTML changes underneath.

What is the confidence score?

The confidence score indicates how certain Thunderbit's AI is about the extracted data. It helps you programmatically decide whether to trust a result or flag it for review.

How long do batch jobs take?

Batch processing times depend on the number of URLs and complexity. Distill supports up to 100 URLs per request and Extract supports up to 50 URLs per request. Most batch jobs complete within minutes.

AI-Powered Web Scraper API

Zéro maintenance. Jamais.

Un seul appel API pour transformer n’importe quelle page web en Markdown ou en tableaux. Alimentez votre agent avec des données web en direct, construisez du RAG et enrichissez vos bases de données — nous gérons l’infrastructure.

Obtenir une clé API gratuite Lire la documentation

Chrome Store Rating

G2 Rating

Capterra Rating

Software Advice Rating

GetApp Rating

PRODUCT HUNT#1 Product of the Week

Users Worldwide200K+

Opérationnel en quelques minutes

Essayez-le dans votre terminal dès maintenant.

URL vers Markdown

1import requests

3resp = requests.post(

4 "https://openapi.thunderbit.com/openapi/v1/distill",

5 headers={"Authorization": f"Bearer {API_KEY}"},

6 json={"url": "https://example.com/article"}

9markdown = resp.json()["data"]["markdown"]

Core API

Deux fonctionnalités clés

Distill pour le contenu brut, Extract pour les données structurées

Distill

URL→Markdown

Supprime les publicités, la navigation et le bruit — ne garde que le contenu pertinent

Rendu JS complet et contournement anti-bot intégrés

Traitez jusqu’à 100 URL par requête

Extract

URL + schéma→JSON / CSV

Un seul schéma fonctionne sur tous les sites — aucune maintenance par site

Résiste automatiquement aux refontes de site

Traitez jusqu’à 50 URL par requête

Avantages

Pourquoi utiliser Thunderbit

L’infrastructure d’extraction de données que votre agent IA mérite

Définissez le quoi, pas le comment

Pas de sélecteurs CSS, pas de XPath, pas de règles par site. Décrivez les données dont vous avez besoin avec un schéma JSON — l’IA détermine où elles se trouvent et comment les obtenir.

Un seul schéma, tous les sites

Le même schéma fonctionne sur les sites e-commerce, les annonces commerciales ou n’importe quelle URL que vous lui donnez. Ajouter une nouvelle source de données est une simple modification de configuration, pas un projet d’ingénierie.

Continue de fonctionner lorsque les sites changent

Les scrapers traditionnels tombent en panne à chaque refonte. Thunderbit lit le sens, pas la structure du DOM — l’extraction continue donc de fonctionner même lorsque le HTML change en dessous.

Secteurs

Cas d’usage

Ce que vous pouvez créer avec Thunderbit

Agents IA avec accès au web

Donnez à votre agent la capacité de lire et comprendre n’importe quelle page web. Un appel API renvoie un contexte structuré, prêt pour l’étape suivante de votre agent.

RAG et bases de connaissances

Convertissez n’importe quelle URL en Markdown propre et envoyez-la directement dans votre base vectorielle. Pas d’analyse HTML, pas de scripts de nettoyage de contenu.

Transformez n’importe quel site web en API

Définissez un schéma, indiquez une URL, obtenez du JSON en retour. Créez une API de prix produit, une API d’offres d’emploi ou une API de flux d’actualités — sans écrire un seul scraper.

Enrichissement de base de données

Gardez votre base de données à jour avec des données web en temps réel. Récupérez des profils d’entreprises, des coordonnées ou des détails d’annonces selon un planning — le schéma reste le même même si les sources changent.

Veille concurrentielle

Suivez les prix, les stocks, les avis ou les changements de contenu sur des centaines de pages. Même schéma, même pipeline, ajoutez de nouvelles sources en quelques secondes.

Création de jeux de données

Créez des jeux d’entraînement, des benchmarks d’évaluation ou des jeux de données de recherche à partir du web ouvert. Traitez par lot des milliers d’URL en sorties toujours structurées de la même façon.

Nous développons Thunderbit sur cette API

La même API que vous consultez alimente l’extension Chrome et l’application web de Thunderbit — utilisée par plus de 200 000 utilisateurs pour extraire des dizaines de millions de pages chaque mois. Ce n’est pas un projet secondaire. C’est l’infrastructure sur laquelle nous misons pour notre propre produit.

0M+

Pages traitées chaque mois et en croissance

0K+

Utilisateurs de l’extension Thunderbit

Disponibilité

Formule

Tarifs

Commencez gratuitement, payez au fur et à mesure

Gratuit

Une façon simple d’essayer l’extraction. Sans frais, sans carte, sans tracas.

600 unités / paiement unique

$0paiement unique

Commencer

Distiller 600 pages

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

Extraire 30 pages

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

2 requêtes simultanées

Starter

Idéal pour les projets personnels et les petits outils. Rapide, simple, sans superflu.

60,000 unités API / an

$16/mois

Facturation annuelle. Toutes les unités à l’avance.

S’abonner

Distiller 60,000 pages

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

Extraire 3,000 pages

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

30 requêtes simultanées

Assistance de base

Pro1Le plus populaire

Conçu pour le volume et la rapidité. Thunderbit à pleine puissance.

600,000 unités API / an

$40/mois

Facturation annuelle. Toutes les unités à l’avance.

600K1200K2400K4800K

S’abonner

Distiller 600,000 pages

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

Extraire 30,000 pages

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

50 requêtes simultanées

Assistance prioritaire

Questions fréquemment posées

Tout ce qu’il faut savoir sur le produit et la facturation.

Capterra

Edge Add-ons

AI-Powered Web Scraper API

Zéro maintenance. Jamais.

Opérationnel en quelques minutes

Deux fonctionnalités clés

Pourquoi utiliser Thunderbit

Cas d’usage

Nous développons Thunderbit sur cette API

Tarifs

Questions fréquemment posées

Quelle est la différence entre Distill et Extract ?

Fonctionne-t-il avec les sites fortement chargés en JavaScript ?

L’extraction cessera-t-elle de fonctionner lors d’une refonte du site ?

Qu’est-ce que le score de confiance ?

Combien de temps prennent les traitements par lot ?