Chỉ cần một lần gọi API để biến bất kỳ trang web nào thành Markdown hoặc bảng. Cung cấp cho tác tử của bạn dữ liệu web trực tiếp, xây dựng RAG và làm giàu cơ sở dữ liệu — chúng tôi lo phần hạ tầng.
Được hơn 100.000+ người dùng trên toàn thế giới tin dùng
Thiết lập và chạy chỉ trong vài phút
Hãy thử ngay trong terminal của bạn.
>_
URL thành Markdown
1importrequests
2
3resp=requests.post(
4"https://open.thunderbit.com/v1/distill",
5headers={"Authorization":f"Bearer {API_KEY}"},
6json={"url":"https://example.com/article"}
7)
8
9markdown=resp.json()["data"]["markdown"]
Core API
Hai khả năng cốt lõi
Distill cho nội dung sạch, Extract cho dữ liệu có cấu trúc
Distill
URL→Markdown
Loại bỏ quảng cáo, menu điều hướng và nội dung thừa — chỉ giữ lại phần nội dung quan trọng
Tích hợp sẵn render JS đầy đủ và vượt qua chống bot
Xử lý theo lô tối đa 100 URL mỗi yêu cầu
Extract
URL + Schema→JSON / CSV
Một schema hoạt động trên mọi website — không cần bảo trì riêng cho từng site
Tự động thích nghi khi website được thiết kế lại
Xử lý theo lô tối đa 50 URL mỗi yêu cầu
Ưu điểm
Vì sao nên dùng Thunderbit
Hạ tầng scraping / trích xuất dữ liệu xứng đáng cho tác tử AI của bạn
Xác định cái gì, không phải cách làm
Không cần CSS selector, không cần XPath, không cần quy tắc riêng cho từng site. Chỉ cần mô tả dữ liệu bạn cần bằng JSON Schema — AI sẽ xác định dữ liệu nằm ở đâu và lấy như thế nào.
Một schema, mọi website
Cùng một schema hoạt động trên các trang thương mại điện tử, danh sách bán hàng hoặc bất kỳ URL nào bạn đưa vào. Thêm nguồn dữ liệu mới chỉ là thay đổi cấu hình, không phải một dự án kỹ thuật lớn.
Vẫn hoạt động khi website thay đổi
Các scraper truyền thống sẽ hỏng sau mỗi lần thiết kế lại. Thunderbit đọc ý nghĩa chứ không phụ thuộc vào cấu trúc DOM — vì vậy việc trích xuất vẫn hoạt động ngay cả khi HTML bên dưới thay đổi.
Ngành nghề
Trường hợp sử dụng
Những gì bạn có thể xây dựng với Thunderbit
Tác tử AI có quyền truy cập web
Trao cho tác tử của bạn khả năng đọc và hiểu bất kỳ trang web nào. Một lệnh gọi API trả về ngữ cảnh có cấu trúc, sẵn sàng cho bước tiếp theo của tác tử.
RAG & Cơ sở tri thức
Distill bất kỳ URL nào thành Markdown sạch và đưa trực tiếp vào cơ sở dữ liệu vector của bạn. Không cần phân tích HTML, không cần script dọn nội dung.
Biến bất kỳ website nào thành API
Định nghĩa schema, trỏ tới một URL, nhận JSON trả về. Xây dựng API giá sản phẩm, API danh sách việc làm hoặc API tin tức — mà không cần viết một scraper nào.
Làm giàu cơ sở dữ liệu
Giữ cho cơ sở dữ liệu của bạn luôn mới với dữ liệu web trực tiếp. Lấy hồ sơ công ty, thông tin liên hệ hoặc chi tiết tin đăng theo lịch — schema vẫn giữ nguyên ngay cả khi nguồn thay đổi.
Theo dõi đối thủ
Theo dõi giá, tồn kho, đánh giá hoặc thay đổi nội dung trên hàng trăm trang. Cùng schema, cùng quy trình, thêm nguồn mới chỉ trong vài giây.
Xây dựng bộ dữ liệu
Xây dựng bộ dữ liệu huấn luyện, benchmark đánh giá hoặc bộ dữ liệu nghiên cứu từ web công khai. Xử lý hàng loạt hàng nghìn URL thành đầu ra có cấu trúc nhất quán.
Chúng tôi xây dựng Thunderbit trên API này
Chính API bạn đang xem đang vận hành tiện ích Chrome và ứng dụng web của Thunderbit — được hơn 100.000 người dùng sử dụng để trích xuất hàng chục triệu trang mỗi tháng.
Đây không phải là một dự án phụ. Đây là hạ tầng mà chúng tôi đặt cược cả sản phẩm của mình vào.
0M+
Số trang được xử lý hàng tháng và đang tăng
0K+
Người dùng trên tiện ích Thunderbit
0%
Thời gian hoạt động
Gói
Bảng giá
Bắt đầu miễn phí, trả theo mức sử dụng
Miễn phí
Cách nhẹ nhàng để thử scraping. Không tốn phí, không cần thẻ, không phiền phức.