Chỉ một lần gọi API để biến bất kỳ trang web nào thành Markdown hoặc bảng. Cung cấp dữ liệu web trực tiếp cho tác tử của bạn, xây dựng RAG và làm giàu cơ sở dữ liệu — chúng tôi lo phần hạ tầng.
Được hơn 100.000+ người dùng trên toàn thế giới tin dùng
Thiết lập và chạy trong vài phút
Thử ngay trong terminal của bạn.
>_
URL thành Markdown
1importrequests
2
3resp=requests.post(
4"https://open.thunderbit.com/v1/distill",
5headers={"Authorization":f"Bearer {API_KEY}"},
6json={"url":"https://example.com/article"}
7)
8
9markdown=resp.json()["data"]["markdown"]
Core API
Hai năng lực cốt lõi
Distill để lấy nội dung sạch, Extract để lấy dữ liệu có cấu trúc
Distill
URL→Markdown
Loại bỏ quảng cáo, thanh điều hướng và phần gây nhiễu — chỉ giữ lại nội dung quan trọng
Tích hợp sẵn hiển thị JS đầy đủ và vượt chặn chống bot
Xử lý hàng loạt tối đa 100 URL mỗi yêu cầu
Extract
URL + Schema→JSON / CSV
Một schema hoạt động trên mọi website — không cần bảo trì riêng cho từng trang
Tự động thích ứng với các lần thiết kế lại website
Xử lý hàng loạt tối đa 50 URL mỗi yêu cầu
Ưu điểm
Tại sao dùng Thunderbit
Hạ tầng trích xuất dữ liệu / scraping xứng đáng cho tác tử AI của bạn
Xác định cái gì, không phải cách làm
Không cần CSS selector, không cần XPath, không cần quy tắc riêng cho từng trang. Chỉ cần mô tả dữ liệu bạn cần bằng JSON Schema — AI sẽ xác định dữ liệu nằm ở đâu và lấy như thế nào.
Một schema, mọi website
Cùng một schema hoạt động trên các trang thương mại điện tử, danh sách bán hàng hoặc bất kỳ URL nào bạn đưa vào. Thêm nguồn dữ liệu mới chỉ là thay đổi cấu hình, không phải một dự án kỹ thuật dài hơi.
Vẫn hoạt động khi website thay đổi
Các scraper truyền thống chết mỗi khi website được thiết kế lại. Thunderbit đọc ý nghĩa, không đọc cấu trúc DOM — nên việc trích xuất vẫn hoạt động ngay cả khi HTML bên dưới thay đổi.
Ngành nghề
Trường hợp sử dụng
Bạn có thể xây dựng gì với Thunderbit
Tác tử AI có quyền truy cập web
Trang bị cho tác tử của bạn khả năng đọc và hiểu bất kỳ trang web nào. Một lần gọi API sẽ trả về ngữ cảnh có cấu trúc, sẵn sàng cho bước tiếp theo của tác tử.
RAG & Cơ sở tri thức
Chuyển bất kỳ URL nào thành Markdown sạch và đưa thẳng vào vector database của bạn. Không cần phân tích HTML, không cần script làm sạch nội dung.
Biến bất kỳ website nào thành API
Xác định schema, trỏ đến một URL, nhận JSON trả về. Xây dựng API giá sản phẩm, API tin tuyển dụng hoặc API tin tức — mà không cần viết một scraper nào.
Làm giàu cơ sở dữ liệu
Giữ cho cơ sở dữ liệu của bạn luôn mới với dữ liệu web trực tiếp. Lấy hồ sơ công ty, thông tin liên hệ hoặc chi tiết tin đăng theo lịch — schema vẫn giữ nguyên ngay cả khi nguồn thay đổi.
Theo dõi đối thủ
Theo dõi giá cả, tồn kho, đánh giá hoặc thay đổi nội dung trên hàng trăm trang. Cùng schema, cùng quy trình, thêm nguồn mới chỉ trong vài giây.
Xây dựng bộ dữ liệu
Xây dựng bộ dữ liệu huấn luyện, benchmark đánh giá hoặc bộ dữ liệu nghiên cứu từ web công khai. Xử lý hàng loạt hàng nghìn URL thành đầu ra có cấu trúc nhất quán.
Chúng tôi xây dựng Thunderbit trên API này
Chính API bạn đang xem đang vận hành Tiện ích Chrome và ứng dụng web của Thunderbit — được hơn 100.000 người dùng sử dụng để trích xuất hàng chục triệu trang mỗi tháng.
Đây không phải một dự án phụ. Đây là hạ tầng mà chúng tôi đặt cược cả sản phẩm của mình vào.
0M+
Số trang được xử lý hàng tháng và đang tăng
0K+
Người dùng trên tiện ích Thunderbit
0%
Thời gian hoạt động
Gói
Bảng giá
Bắt đầu miễn phí, trả phí khi mở rộng
Miễn phí
Cách thử trích xuất nhẹ nhàng. Không tốn phí, không cần thẻ, không rườm rà.