Web Scraper propulsé par l’IA API

Zéro maintenance. Vraiment.

Un seul appel API pour transformer n’importe quelle page web en Markdown ou en tableaux. Alimentez votre agent avec des données web en temps réel, construisez du RAG et enrichissez vos bases de données — nous gérons l’infrastructure.

Plébiscité par plus de 100 000 utilisateurs dans le monde

scaleway logoeminence logolindt_sprungli logoeasyfairs logoharvard_university logobcg logoadidas logored_bull_technology logowix logouniversity_of_st_gallen logozenchef logoillycaffe logoscaleway logoeminence logolindt_sprungli logoeasyfairs logoharvard_university logobcg logoadidas logored_bull_technology logowix logouniversity_of_st_gallen logozenchef logoillycaffe logoscaleway logoeminence logolindt_sprungli logoeasyfairs logoharvard_university logobcg logoadidas logored_bull_technology logowix logouniversity_of_st_gallen logozenchef logoillycaffe logoscaleway logoeminence logolindt_sprungli logoeasyfairs logoharvard_university logobcg logoadidas logored_bull_technology logowix logouniversity_of_st_gallen logozenchef logoillycaffe logoscaleway logoeminence logolindt_sprungli logoeasyfairs logoharvard_university logobcg logoadidas logored_bull_technology logowix logouniversity_of_st_gallen logozenchef logoillycaffe logoscaleway logoeminence logolindt_sprungli logoeasyfairs logoharvard_university logobcg logoadidas logored_bull_technology logowix logouniversity_of_st_gallen logozenchef logoillycaffe logo

Opérationnel en quelques minutes

Essayez-le dans votre terminal dès maintenant.

>_
URL vers Markdown
1import requests
2
3resp = requests.post(
4 "https://open.thunderbit.com/v1/distill",
5 headers={"Authorization": f"Bearer {API_KEY}"},
6 json={"url": "https://example.com/article"}
7)
8
9markdown = resp.json()["data"]["markdown"]
API principale

Deux capacités principales

Distill pour le contenu propre, Extract pour les données structurées

Distill
URLMarkdown
Supprime les publicités, la navigation et le bruit — ne garde que le contenu important
Rendu JS complet et contournement anti-bot intégrés
Traitez jusqu’à 100 URL par requête
Extract
URL + schémaJSON / CSV
Un seul schéma fonctionne sur tous les sites web — aucune maintenance par site
Résiste automatiquement aux refontes de sites
Traitez jusqu’à 50 URL par requête
Avantages

Pourquoi utiliser Thunderbit

L’infrastructure d’extraction de données que votre agent IA mérite

Définissez le quoi, pas le comment
Pas de sélecteurs CSS, pas de XPath, pas de règles par site. Décrivez les données dont vous avez besoin avec un schéma JSON — l’IA détermine où elles se trouvent et comment les obtenir.
Un seul schéma, tous les sites web
Le même schéma fonctionne sur les sites e-commerce, les annonces commerciales ou toute URL que vous lui donnez. Ajouter une nouvelle source de données est un changement de configuration, pas un sprint d’ingénierie.
Continue de fonctionner même quand les sites changent
Les scrapers traditionnels cessent de fonctionner à chaque refonte. Thunderbit lit le sens, pas la structure du DOM — l’extraction continue donc de fonctionner même lorsque le HTML change en dessous.
Secteurs

Cas d’usage

Ce que vous pouvez créer avec Thunderbit

Agents IA avec accès au web
Donnez à votre agent la capacité de lire et comprendre n’importe quelle page web. Un appel API renvoie un contexte structuré, prêt pour l’étape suivante de votre agent.
RAG et bases de connaissances
Convertissez n’importe quelle URL en Markdown propre et alimentez directement votre base vectorielle. Pas d’analyse HTML, pas de scripts de nettoyage de contenu.
Transformez n’importe quel site web en API
Définissez un schéma, indiquez une URL, obtenez du JSON en retour. Créez une API de prix produits, une API d’offres d’emploi ou une API de flux d’actualités — sans écrire un seul scraper.
Enrichissement de base de données
Gardez votre base de données à jour avec des données web en temps réel. Récupérez des profils d’entreprises, des coordonnées ou des détails d’annonces selon un planning — le schéma reste identique même lorsque les sources changent.
Veille concurrentielle
Suivez les prix, les stocks, les avis ou les changements de contenu sur des centaines de pages. Même schéma, même pipeline, ajoutez de nouvelles sources en quelques secondes.
Création de jeux de données
Créez des jeux d’entraînement, des benchmarks d’évaluation ou des ensembles de données de recherche à partir du web ouvert. Traitez par lot des milliers d’URL en sorties structurées de manière cohérente.

Nous développons Thunderbit sur cette API

La même API que vous consultez alimente l’extension Chrome et l’application web de Thunderbit — utilisée par plus de 100 000 utilisateurs pour extraire des dizaines de millions de pages chaque mois. Ce n’est pas un projet secondaire. C’est l’infrastructure sur laquelle nous avons misé notre propre produit.

0M+
Pages traitées chaque mois et en croissance
0K+
Utilisateurs de l’extension Thunderbit
0%
Disponibilité
Forfait

Tarifs

Commencez gratuitement, payez au fur et à mesure

Gratuit
Une façon simple d’essayer l’extraction. Sans frais, sans carte, sans contrainte.
600 unités / paiement unique
$0paiement unique
 
Distiller 600 pages
Extraire 30 pages
2 requêtes simultanées
Starter
Idéal pour les projets annexes et petits outils. Rapide, simple, sans complexité inutile.
60,000 unités API / an
$16/mois
Facturé annuellement. Toutes les unités à l’avance.
Distiller 60,000 pages
Extraire 3,000 pages
30 requêtes simultanées
Support de base
Pro1Le plus populaire
Conçu pour les gros volumes et la vitesse. Thunderbit à pleine puissance.
600,000 unités API / an
$40/mois
Facturé annuellement. Toutes les unités à l’avance.
600K1200K2400K4800K
Distiller 600,000 pages
Extraire 30,000 pages
50 requêtes simultanées
Support prioritaire

Questions fréquemment posées

Tout ce que vous devez savoir sur le produit et la facturation.