What's the difference between Distill and Extract?

Distill converts any URL into clean Markdown, stripping ads, navigation, and noise. Extract takes a URL plus a JSON Schema and returns structured JSON or CSV data. Use Distill for content ingestion (RAG, knowledge bases) and Extract for structured data collection (prices, listings, contacts).

Does it work with JavaScript-heavy sites?

Yes. Thunderbit's API includes full JavaScript rendering and anti-bot bypass built in. It handles SPAs, dynamic content, and pages that require JS execution to load data.

Will extraction break when a site redesigns?

No. Thunderbit reads meaning, not DOM structure. Traditional scrapers rely on CSS selectors and XPath that break on every redesign. Thunderbit's AI understands the semantic content of the page, so extraction keeps working even when the HTML changes underneath.

What is the confidence score?

The confidence score indicates how certain Thunderbit's AI is about the extracted data. It helps you programmatically decide whether to trust a result or flag it for review.

How long do batch jobs take?

Batch processing times depend on the number of URLs and complexity. Distill supports up to 100 URLs per request and Extract supports up to 50 URLs per request. Most batch jobs complete within minutes.

AI-Powered Web Scraper API

Không cần bảo trì. Mãi mãi.

Chỉ một lần gọi API để biến bất kỳ trang web nào thành Markdown hoặc bảng. Cung cấp cho tác tử của bạn dữ liệu web trực tiếp, xây dựng RAG và làm giàu cơ sở dữ liệu — chúng tôi lo phần hạ tầng.

Nhận API Key miễn phí Đọc tài liệu

Chrome Store Rating

G2 Rating

Capterra Rating

Software Advice Rating

GetApp Rating

PRODUCT HUNT#1 Product of the Week

Users Worldwide200K+

Thiết lập và chạy trong vài phút

Thử ngay trong terminal của bạn.

URL thành Markdown

1import requests

3resp = requests.post(

4 "https://openapi.thunderbit.com/openapi/v1/distill",

5 headers={"Authorization": f"Bearer {API_KEY}"},

6 json={"url": "https://example.com/article"}

9markdown = resp.json()["data"]["markdown"]

Core API

Hai khả năng cốt lõi

Distill dành cho nội dung sạch, Extract dành cho dữ liệu có cấu trúc

Distill

URL→Markdown

Loại bỏ quảng cáo, thanh điều hướng và các nội dung thừa — chỉ giữ lại phần nội dung quan trọng

Tích hợp sẵn render JS đầy đủ và vượt qua chống bot

Xử lý hàng loạt tối đa 100 URL mỗi yêu cầu

Extract

URL + Schema→JSON / CSV

Một schema hoạt động trên mọi website — không cần bảo trì riêng cho từng trang

Tự động thích ứng khi website được thiết kế lại

Xử lý hàng loạt tối đa 50 URL mỗi yêu cầu

Ưu điểm

Tại sao nên dùng Thunderbit

Hạ tầng scraping / trích xuất dữ liệu xứng đáng cho tác tử AI của bạn

Xác định cái gì, không phải cách làm

Không cần CSS selector, không cần XPath, không cần quy tắc riêng cho từng trang. Chỉ cần mô tả dữ liệu bạn cần bằng JSON Schema — AI sẽ tự xác định dữ liệu nằm ở đâu và lấy như thế nào.

Một schema, mọi trang web

Cùng một schema hoạt động trên các trang thương mại điện tử, danh sách bán hàng hoặc bất kỳ URL nào bạn đưa vào. Thêm nguồn dữ liệu mới chỉ là thay đổi cấu hình, không phải một dự án kỹ thuật kéo dài.

Vẫn hoạt động khi website thay đổi

Các trình scraper truyền thống thường hỏng sau mỗi lần thiết kế lại. Thunderbit đọc ý nghĩa chứ không dựa vào cấu trúc DOM — nên việc trích xuất vẫn hoạt động ngay cả khi HTML bên dưới thay đổi.

Ngành nghề

Trường hợp sử dụng

Những gì bạn có thể xây dựng với Thunderbit

Tác tử AI có quyền truy cập web

Cho tác tử của bạn khả năng đọc và hiểu bất kỳ trang web nào. Chỉ một lần gọi API sẽ trả về ngữ cảnh có cấu trúc, sẵn sàng cho bước tiếp theo của tác tử.

RAG & Cơ sở tri thức

Biến bất kỳ URL nào thành Markdown sạch và đưa thẳng vào cơ sở dữ liệu vector của bạn. Không cần phân tích HTML, không cần script làm sạch nội dung.

Biến bất kỳ website nào thành API

Định nghĩa schema, trỏ tới một URL, nhận JSON trả về. Xây dựng API giá sản phẩm, API tin tuyển dụng hoặc API tin tức — mà không cần viết một trình scraper nào.

Làm giàu dữ liệu cơ sở

Giữ cho cơ sở dữ liệu luôn mới với dữ liệu web trực tiếp. Lấy hồ sơ công ty, thông tin liên hệ hoặc chi tiết tin đăng theo lịch — schema vẫn giữ nguyên ngay cả khi nguồn thay đổi.

Theo dõi đối thủ

Theo dõi giá, tồn kho, đánh giá hoặc thay đổi nội dung trên hàng trăm trang. Cùng một schema, cùng một quy trình, thêm nguồn mới chỉ trong vài giây.

Xây dựng bộ dữ liệu

Xây dựng bộ dữ liệu huấn luyện, bộ đánh giá chuẩn hoặc bộ dữ liệu nghiên cứu từ web công khai. Xử lý hàng loạt hàng nghìn URL để tạo đầu ra có cấu trúc nhất quán.

Chúng tôi xây dựng Thunderbit trên API này

Chính API bạn đang xem đang cung cấp sức mạnh cho tiện ích Chrome và ứng dụng web của Thunderbit — được hơn 200.000 người dùng sử dụng để trích xuất hàng chục triệu trang mỗi tháng. Đây không phải là một dự án phụ. Đây là hạ tầng mà chúng tôi đặt cược cả sản phẩm của mình vào.

0M+

Số trang được xử lý hàng tháng và đang tăng lên

0K+

Người dùng trên tiện ích Thunderbit

Thời gian hoạt động

Gói

Giá

Bắt đầu miễn phí, trả phí khi bạn phát triển

Miễn phí

Cách nhẹ nhàng để thử scraping. Không tốn phí, không cần thẻ, không rườm rà.

600 đơn vị / một lần

$0một lần

Bắt đầu

Distill 600 trang

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

Extract 30 trang

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

2 yêu cầu đồng thời

Cơ bản

Rất phù hợp cho dự án phụ và công cụ nhỏ. Nhanh, đơn giản, không thừa thãi.

60,000 đơn vị API / năm

$16/tháng

Thanh toán theo năm. Toàn bộ đơn vị được cấp trước.

Đăng ký

Distill 60,000 trang

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

Extract 3,000 trang

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

30 yêu cầu đồng thời

Hỗ trợ cơ bản

Pro1Phổ biến nhất

Được xây dựng cho khối lượng lớn và tốc độ cao. Thunderbit phát huy tối đa.

600,000 đơn vị API / năm

$40/tháng

Thanh toán theo năm. Toàn bộ đơn vị được cấp trước.

600K1200K2400K4800K

Đăng ký

Distill 600,000 trang

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

Extract 30,000 trang

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

50 yêu cầu đồng thời

Hỗ trợ ưu tiên

Các câu hỏi thường gặp

Mọi điều bạn cần biết về sản phẩm và thanh toán.

Capterra

Edge Add-ons

AI-Powered Web Scraper API

Không cần bảo trì. Mãi mãi.

Thiết lập và chạy trong vài phút

Hai khả năng cốt lõi

Tại sao nên dùng Thunderbit

Trường hợp sử dụng

Chúng tôi xây dựng Thunderbit trên API này

Giá

Các câu hỏi thường gặp

Sự khác nhau giữa Distill và Extract là gì?

Có hoạt động với các trang web nhiều JavaScript không?

Việc trích xuất có bị lỗi khi website được thiết kế lại không?

Điểm tin cậy là gì?

Các tác vụ hàng loạt mất bao lâu?