What's the difference between Distill and Extract?

Distill converts any URL into clean Markdown, stripping ads, navigation, and noise. Extract takes a URL plus a JSON Schema and returns structured JSON or CSV data. Use Distill for content ingestion (RAG, knowledge bases) and Extract for structured data collection (prices, listings, contacts).

Does it work with JavaScript-heavy sites?

Yes. Thunderbit's API includes full JavaScript rendering and anti-bot bypass built in. It handles SPAs, dynamic content, and pages that require JS execution to load data.

Will extraction break when a site redesigns?

No. Thunderbit reads meaning, not DOM structure. Traditional scrapers rely on CSS selectors and XPath that break on every redesign. Thunderbit's AI understands the semantic content of the page, so extraction keeps working even when the HTML changes underneath.

What is the confidence score?

The confidence score indicates how certain Thunderbit's AI is about the extracted data. It helps you programmatically decide whether to trust a result or flag it for review.

How long do batch jobs take?

Batch processing times depend on the number of URLs and complexity. Distill supports up to 100 URLs per request and Extract supports up to 50 URLs per request. Most batch jobs complete within minutes.

AI-Powered Web Scraper API

Zero manutenção. Sempre.

Uma chamada de API para transformar qualquer página da web em Markdown ou tabelas. Alimente seu agente com dados da web em tempo real, crie RAG e enriqueça bancos de dados — nós cuidamos da infraestrutura.

Obter chave de API grátis Ler a documentação

Chrome Store Rating

G2 Rating

Capterra Rating

Software Advice Rating

GetApp Rating

PRODUCT HUNT#1 Product of the Week

Users Worldwide200K+

Pronto para usar em minutos

Experimente agora no seu terminal.

URL para Markdown

1import requests

3resp = requests.post(

4 "https://openapi.thunderbit.com/openapi/v1/distill",

5 headers={"Authorization": f"Bearer {API_KEY}"},

6 json={"url": "https://example.com/article"}

9markdown = resp.json()["data"]["markdown"]

Core API

Duas capacidades principais

Distill para conteúdo limpo, Extract para dados estruturados

Distill

URL→Markdown

Remove anúncios, navegação e ruído — mantém apenas o conteúdo que importa

Renderização completa de JS e bypass anti-bot integrados

Lote de até 100 URLs por solicitação

Extract

URL + Schema→JSON / CSV

Um schema funciona em todos os sites — sem manutenção por site

Sobrevive automaticamente a redesigns de sites

Lote de até 50 URLs por solicitação

Vantagens

Por que usar o Thunderbit

A infraestrutura de extração de dados que seu agente de IA merece

Defina o quê, não como

Sem seletores CSS, sem XPath, sem regras por site. Descreva os dados de que você precisa com um JSON Schema — a IA descobre onde eles estão e como obtê-los.

Um schema, qualquer site

O mesmo schema funciona em sites de e-commerce, anúncios de vendas ou qualquer URL que você usar. Adicionar uma nova fonte de dados é uma mudança de configuração, não uma maratona de engenharia.

Continua funcionando quando os sites quebram

Scrapers tradicionais quebram a cada redesign. O Thunderbit lê o significado, não a estrutura do DOM — então a extração continua funcionando mesmo quando o HTML muda por baixo.

Setores

Casos de uso

O que você pode construir com o Thunderbit

Agentes de IA com acesso à web

Dê ao seu agente a capacidade de ler e entender qualquer página da web. Uma chamada de API retorna contexto estruturado, pronto para o próximo passo do seu agente.

RAG e bases de conhecimento

Converta qualquer URL em Markdown limpo e envie diretamente para o seu banco vetorial. Sem análise de HTML, sem scripts de limpeza de conteúdo.

Transforme qualquer site em uma API

Defina um schema, aponte para uma URL e receba JSON de volta. Crie uma API de preços de produtos, uma API de vagas ou uma API de notícias — sem escrever nenhum scraper.

Enriquecimento de base de dados

Mantenha seu banco de dados atualizado com dados da web em tempo real. Puxe perfis de empresas, informações de contato ou detalhes de anúncios em um cronograma — o schema permanece o mesmo mesmo quando as fontes mudam.

Monitoramento da concorrência

Monitore preços, estoque, avaliações ou mudanças de conteúdo em centenas de páginas. Mesmo schema, mesmo pipeline, adicione novas fontes em segundos.

Criação de conjuntos de dados

Crie conjuntos de treinamento, benchmarks de avaliação ou datasets de pesquisa a partir da web aberta. Processe milhares de URLs em lote com saída consistentemente estruturada.

Construímos o Thunderbit com esta API

A mesma API que você está vendo alimenta a Extensão do Chrome e o app web do Thunderbit — usada por mais de 200.000 usuários para extrair dezenas de milhões de páginas todos os meses. Isto não é um projeto paralelo. É a infraestrutura na qual apostamos nosso próprio produto.

0M+

Páginas processadas mensalmente e em crescimento

0K+

Usuários da extensão Thunderbit

Disponibilidade

Plano

Preços

Comece grátis, pague conforme crescer

Grátis

Uma forma simples de experimentar a extração. Sem custo, sem cartão, sem complicação.

600 unidades / pagamento único

$0pagamento único

Começar

Distill 600 páginas

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

Extract 30 páginas

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

2 solicitações simultâneas

Starter

Ótimo para projetos paralelos e pequenas ferramentas. Rápido, simples, sem exageros.

60,000 unidades de API / ano

$16/mês

Cobrado anualmente. Todas as unidades antecipadamente.

Assinar

Distill 60,000 páginas

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

Extract 3,000 páginas

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

30 solicitações simultâneas

Suporte básico

Pro1Mais popular

Feito para alto volume e velocidade. Thunderbit em força total.

600,000 unidades de API / ano

$40/mês

Cobrado anualmente. Todas as unidades antecipadamente.

600K1200K2400K4800K

Assinar

Distill 600,000 páginas

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

Extract 30,000 páginas

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

50 solicitações simultâneas

Suporte prioritário

Perguntas frequentes

Tudo o que você precisa saber sobre o produto e a cobrança.

Capterra

Edge Add-ons

AI-Powered Web Scraper API

Zero manutenção. Sempre.

Pronto para usar em minutos

Duas capacidades principais

Por que usar o Thunderbit

Casos de uso

Construímos o Thunderbit com esta API

Preços

Perguntas frequentes

Qual é a diferença entre Distill e Extract?

Funciona em sites com muito JavaScript?

A extração vai quebrar quando um site for redesenhado?

O que é a pontuação de confiança?

Quanto tempo levam os trabalhos em lote?