What's the difference between Distill and Extract?

Distill converts any URL into clean Markdown, stripping ads, navigation, and noise. Extract takes a URL plus a JSON Schema and returns structured JSON or CSV data. Use Distill for content ingestion (RAG, knowledge bases) and Extract for structured data collection (prices, listings, contacts).

Does it work with JavaScript-heavy sites?

Yes. Thunderbit's API includes full JavaScript rendering and anti-bot bypass built in. It handles SPAs, dynamic content, and pages that require JS execution to load data.

Will extraction break when a site redesigns?

No. Thunderbit reads meaning, not DOM structure. Traditional scrapers rely on CSS selectors and XPath that break on every redesign. Thunderbit's AI understands the semantic content of the page, so extraction keeps working even when the HTML changes underneath.

What is the confidence score?

The confidence score indicates how certain Thunderbit's AI is about the extracted data. It helps you programmatically decide whether to trust a result or flag it for review.

How long do batch jobs take?

Batch processing times depend on the number of URLs and complexity. Distill supports up to 100 URLs per request and Extract supports up to 50 URLs per request. Most batch jobs complete within minutes.

AI-Powered Web Scraper API

ไม่ต้องดูแลรักษาเลย ตลอดไป

เรียก API เพียงครั้งเดียวก็เปลี่ยนหน้าเว็บใดก็ได้เป็น Markdown หรือ ตาราง เติมพลังให้เอเจนต์ด้วยข้อมูลเว็บแบบสด สร้าง RAG และเพิ่มคุณค่าให้ฐานข้อมูล — เราดูแลโครงสร้างพื้นฐานให้

รับคีย์ API ฟรี อ่านเอกสาร

Chrome Store Rating

G2 Rating

Capterra Rating

Software Advice Rating

GetApp Rating

PRODUCT HUNT#1 Product of the Week

Users Worldwide200K+

เริ่มใช้งานได้ภายในไม่กี่นาที

ลองใช้ในเทอร์มินัลของคุณได้เลยตอนนี้

URL เป็น Markdown

1import requests

3resp = requests.post(

4 "https://openapi.thunderbit.com/openapi/v1/distill",

5 headers={"Authorization": f"Bearer {API_KEY}"},

6 json={"url": "https://example.com/article"}

9markdown = resp.json()["data"]["markdown"]

Core API

ความสามารถหลัก 2 อย่าง

Distill สำหรับเนื้อหาที่สะอาดตา ส่วน Extract สำหรับข้อมูลที่มีโครงสร้าง

Distill

URL→Markdown

ตัดโฆษณา เมนูนำทาง และสิ่งรบกวนออก — เหลือเฉพาะเนื้อหาที่สำคัญ

มีการเรนเดอร์ JS แบบเต็มรูปแบบและระบบหลบเลี่ยงบอทในตัว

ประมวลผลได้สูงสุด 100 URL ต่อคำขอ

Extract

URL + Schema→JSON / CSV

Schema เดียวใช้ได้กับทุกเว็บไซต์ — ไม่ต้องดูแลแยกตามแต่ละเว็บไซต์

ยังใช้งานได้แม้เว็บไซต์จะออกแบบใหม่โดยอัตโนมัติ

ประมวลผลได้สูงสุด 50 URL ต่อคำขอ

ข้อดี

ทำไมต้องใช้ Thunderbit

โครงสร้างพื้นฐานสำหรับสแครปและดึงข้อมูลที่เอเจนต์ AI ของคุณคู่ควร

กำหนดว่าอะไร ไม่ใช่วิธีการ

ไม่ต้องใช้ CSS selector ไม่ต้องใช้ XPath ไม่ต้องตั้งกฎแยกตามเว็บไซต์ อธิบายข้อมูลที่ต้องการด้วย JSON Schema — ให้ AI จัดการว่าข้อมูลอยู่ที่ไหนและจะดึงออกมาอย่างไร

Schema เดียว ใช้ได้ทุกเว็บไซต์

schema เดียวใช้ได้กับเว็บไซต์อีคอมเมิร์ซ รายการขาย หรือ URL ใดก็ตามที่คุณใส่เข้ามา การเพิ่มแหล่งข้อมูลใหม่เป็นแค่การเปลี่ยนค่า config ไม่ใช่งานวิศวกรรมขนาดใหญ่

ยังใช้งานได้แม้เว็บไซต์จะเปลี่ยน

สแครปเปอร์แบบดั้งเดิมมักพังทุกครั้งที่เว็บไซต์ออกแบบใหม่ Thunderbit อ่านความหมาย ไม่ใช่โครงสร้าง DOM — จึงยังดึงข้อมูลได้ต่อเนื่องแม้ HTML ข้างใต้จะเปลี่ยนไป

อุตสาหกรรม

กรณีการใช้งาน

สิ่งที่คุณสร้างได้ด้วย Thunderbit

เอเจนต์ AI ที่เข้าถึงเว็บได้

ให้เอเจนต์ของคุณสามารถอ่านและเข้าใจหน้าเว็บใดก็ได้ เรียก API ครั้งเดียวก็ได้บริบทที่มีโครงสร้าง พร้อมสำหรับขั้นตอนถัดไปของเอเจนต์

RAG และฐานความรู้

แปลง URL ใดก็ได้ให้เป็น Markdown ที่สะอาดและส่งตรงเข้าเวกเตอร์ฐานข้อมูลของคุณได้เลย ไม่ต้องแยกวิเคราะห์ HTML ไม่ต้องมีสคริปต์ทำความสะอาดเนื้อหา

เปลี่ยนทุกเว็บไซต์ให้เป็น API

กำหนด schema ชี้ไปที่ URL แล้วรับ JSON กลับมา สร้าง API ราคาสินค้า API รายการงาน หรือ API ฟีดข่าวได้ — โดยไม่ต้องเขียนสแครปเปอร์แม้แต่ตัวเดียว

การเพิ่มคุณค่าให้ฐานข้อมูล

ทำให้ฐานข้อมูลของคุณอัปเดตอยู่เสมอด้วยข้อมูลเว็บแบบสด ดึงโปรไฟล์บริษัท ข้อมูลติดต่อ หรือรายละเอียดรายการตามกำหนดเวลา — schema ยังคงเดิมแม้แหล่งข้อมูลจะเปลี่ยน

การติดตามคู่แข่ง

ติดตามราคา สินค้าคงคลัง รีวิว หรือการเปลี่ยนแปลงของเนื้อหาบนหลายร้อยหน้า Schema เดียว ไปป์ไลน์เดียว เพิ่มแหล่งข้อมูลใหม่ได้ในไม่กี่วินาที

การสร้างชุดข้อมูล

สร้างชุดข้อมูลฝึกสอน เกณฑ์วัดผล หรือชุดข้อมูลวิจัยจากเว็บสาธารณะ ประมวลผล URL หลายพันรายการแบบแบตช์ให้ออกมาเป็นผลลัพธ์ที่มีโครงสร้างสม่ำเสมอ

เราสร้าง Thunderbit บน API นี้

API เดียวกับที่คุณกำลังดูอยู่นี้เป็นพลังขับเคลื่อน Chrome Extension และเว็บแอปของ Thunderbit — ถูกใช้โดยผู้ใช้กว่า 200,000+ คนเพื่อดึงข้อมูลจากหน้าหลายสิบล้านหน้าทุกเดือน นี่ไม่ใช่โปรเจกต์เสริม แต่มันคือโครงสร้างพื้นฐานที่ เราลงเดิมพันกับผลิตภัณฑ์ของเราเอง

0M+

จำนวนหน้าที่ประมวลผลต่อเดือนและเติบโตขึ้นเรื่อย ๆ

0K+

ผู้ใช้บน Thunderbit Extension

ระยะเวลาการทำงาน

แผน

ราคา

เริ่มใช้ฟรี จ่ายตามการใช้งานที่เพิ่มขึ้น

ฟรี

วิธีทดลองสแครปแบบเบา ๆ ไม่มีค่าใช้จ่าย ไม่ต้องใช้บัตร ไม่ยุ่งยาก

600 หน่วย / ครั้งเดียว

$0ครั้งเดียว

เริ่มต้นใช้งาน

Distill 600 หน้า

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

Extract 30 หน้า

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

คำขอพร้อมกัน 2 รายการ

เริ่มต้น

เหมาะสำหรับโปรเจกต์เสริมหรือเครื่องมือขนาดเล็ก เร็ว เรียบง่าย ไม่เกินความจำเป็น

60,000 หน่วย API / ปี

$16/เดือน

เรียกเก็บเงินรายปี ชำระหน่วยทั้งหมดล่วงหน้า

สมัครสมาชิก

Distill 60,000 หน้า

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

Extract 3,000 หน้า

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

คำขอพร้อมกัน 30 รายการ

การสนับสนุนพื้นฐาน

Pro1ยอดนิยมที่สุด

สร้างมาเพื่อปริมาณงานสูงและความเร็ว Thunderbit แบบเต็มพลัง

600,000 หน่วย API / ปี

$40/เดือน

เรียกเก็บเงินรายปี ชำระหน่วยทั้งหมดล่วงหน้า

600K1200K2400K4800K

สมัครสมาชิก

Distill 600,000 หน้า

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

Extract 30,000 หน้า

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

คำขอพร้อมกัน 50 รายการ

การสนับสนุนแบบเร่งด่วน

คำถามที่พบบ่อย questions

ทุกสิ่งที่คุณควรรู้เกี่ยวกับผลิตภัณฑ์และการเรียกเก็บเงิน

Capterra

Edge Add-ons

AI-Powered Web Scraper API

ไม่ต้องดูแลรักษาเลย ตลอดไป

เริ่มใช้งานได้ภายในไม่กี่นาที

ความสามารถหลัก 2 อย่าง

ทำไมต้องใช้ Thunderbit

กรณีการใช้งาน

เราสร้าง Thunderbit บน API นี้

ราคา

คำถามที่พบบ่อย questions

ความแตกต่างระหว่าง Distill กับ Extract คืออะไร?

ใช้งานได้กับเว็บไซต์ที่ใช้ JavaScript หนัก ๆ ไหม?

การดึงข้อมูลจะพังไหมเมื่อเว็บไซต์ออกแบบใหม่?

คะแนนความมั่นใจคืออะไร?

งานแบบแบตช์ใช้เวลานานเท่าไร?