What's the difference between Distill and Extract?

Distill converts any URL into clean Markdown, stripping ads, navigation, and noise. Extract takes a URL plus a JSON Schema and returns structured JSON or CSV data. Use Distill for content ingestion (RAG, knowledge bases) and Extract for structured data collection (prices, listings, contacts).

Does it work with JavaScript-heavy sites?

Yes. Thunderbit's API includes full JavaScript rendering and anti-bot bypass built in. It handles SPAs, dynamic content, and pages that require JS execution to load data.

Will extraction break when a site redesigns?

No. Thunderbit reads meaning, not DOM structure. Traditional scrapers rely on CSS selectors and XPath that break on every redesign. Thunderbit's AI understands the semantic content of the page, so extraction keeps working even when the HTML changes underneath.

What is the confidence score?

The confidence score indicates how certain Thunderbit's AI is about the extracted data. It helps you programmatically decide whether to trust a result or flag it for review.

How long do batch jobs take?

Batch processing times depend on the number of URLs and complexity. Distill supports up to 100 URLs per request and Extract supports up to 50 URLs per request. Most batch jobs complete within minutes.

AI-Powered Web Scraper API

Ноль обслуживания. Всегда.

Один API-запрос, чтобы превратить любую веб-страницу в Markdown или таблицы. Питайте своего агента актуальными веб-данными, создавайте RAG и обогащайте базы данных — мы берём инфраструктуру на себя.

Получить бесплатный API-ключ Читать документацию

Chrome Store Rating

G2 Rating

Capterra Rating

Software Advice Rating

GetApp Rating

PRODUCT HUNT#1 Product of the Week

Users Worldwide200K+

Запуск за считанные минуты

Попробуйте прямо сейчас в вашем терминале.

URL в Markdown

1import requests

3resp = requests.post(

4 "https://openapi.thunderbit.com/openapi/v1/distill",

5 headers={"Authorization": f"Bearer {API_KEY}"},

6 json={"url": "https://example.com/article"}

9markdown = resp.json()["data"]["markdown"]

Core API

Две ключевые возможности

Distill — для чистого контента, Extract — для структурированных данных

Distill

URL→Markdown

Убирает рекламу, навигацию и лишний шум — оставляет только важный контент

Полный рендеринг JS и обход антибот-защиты встроены

Пакетная обработка до 100 URL за запрос

Extract

URL + Schema→JSON / CSV

Одна схема работает на всех сайтах — без обслуживания для каждого сайта

Автоматически переживает редизайн сайтов

Пакетная обработка до 50 URL за запрос

Преимущества

Почему стоит использовать Thunderbit

Инфраструктура для сбора / извлечения данных, которую заслуживает ваш AI-агент

Определяйте что нужно, а не как

Никаких CSS-селекторов, XPath и правил для каждого сайта. Опишите нужные данные с помощью JSON Schema — AI сам определит, где они находятся и как их получить.

Одна схема — для любого сайта

Одна и та же схема работает на e-commerce сайтах, в объявлениях о продажах и на любом другом URL. Добавление нового источника данных — это изменение конфигурации, а не инженерный спринт.

Продолжает работать, даже если сайты меняются

Традиционные парсеры ломаются при каждом редизайне. Thunderbit читает смысл, а не структуру DOM — поэтому сбор данных продолжает работать, даже когда HTML меняется под капотом.

Отрасли

Сценарии использования

Что можно создать с Thunderbit

AI-агенты с доступом к вебу

Дайте вашему агенту возможность читать и понимать любую веб-страницу. Один API-запрос возвращает структурированный контекст, готовый для следующего шага агента.

RAG и базы знаний

Преобразуйте любой URL в чистый Markdown и сразу передавайте его в векторную базу данных. Без разбора HTML и без скриптов очистки контента.

Превратите любой сайт в API

Определите схему, укажите URL и получите JSON. Создайте API цен на товары, вакансий или новостей — без написания ни одного парсера.

Обогащение базы данных

Поддерживайте базу данных актуальной с помощью живых веб-данных. Регулярно получайте профили компаний, контактную информацию или детали объявлений — схема остаётся прежней, даже если источники меняются.

Мониторинг конкурентов

Отслеживайте цены, запасы, отзывы или изменения контента на сотнях страниц. Та же схема, тот же пайплайн, новые источники — за секунды.

Создание датасетов

Создавайте обучающие наборы, оценочные бенчмарки или исследовательские датасеты на основе открытого веба. Пакетно обрабатывайте тысячи URL в единообразно структурированный результат.

Мы создаём Thunderbit на основе этого API

Тот же API, который вы сейчас рассматриваете, лежит в основе расширения Chrome и веб-приложения Thunderbit — им пользуются более 200 000 пользователей, чтобы извлекать десятки миллионов страниц каждый месяц. Это не побочный проект. Это инфраструктура, на которую мы сделали ставку в собственном продукте.

0M+

Страниц обрабатывается ежемесячно и это число растёт

0K+

Пользователи расширения Thunderbit

Время бесперебойной работы

Тариф

Тарифы

Начните бесплатно, платите по мере роста

Бесплатно

Простой способ попробовать сбор данных. Без оплаты, без карты, без лишних хлопот.

600 единиц / разово

$0одноразово

Начать

Distill 600 страниц

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

Extract 30 страниц

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

2 одновременных запроса

Starter

Отлично подходит для побочных проектов и небольших инструментов. Быстро, просто, без излишеств.

60,000 API-единиц / год

$16/месяц

Оплата ежегодно. Все единицы сразу.

Distill 60,000 страниц

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

Extract 3,000 страниц

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

30 одновременных запросов

Базовая поддержка

Pro1Самый популярный

Создано для больших объёмов и высокой скорости. Thunderbit на полную мощность.

600,000 API-единиц / год

$40/месяц

Оплата ежегодно. Все единицы сразу.

600K1200K2400K4800K

Distill 600,000 страниц

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

Extract 30,000 страниц

Distill: 1 Page = 1 API Unit
Extract: 1 Page = 20 API Unit

50 одновременных запросов

Приоритетная поддержка

Часто задаваемые вопросы

Всё, что нужно знать о продукте и оплате.

Capterra

Edge Add-ons

AI-Powered Web Scraper API

Ноль обслуживания. Всегда.

Запуск за считанные минуты

Две ключевые возможности

Почему стоит использовать Thunderbit

Сценарии использования

Мы создаём Thunderbit на основе этого API

Тарифы

Часто задаваемые вопросы

В чём разница между Distill и Extract?

Работает ли это с сайтами, насыщенными JavaScript?

Сломается ли сбор данных при редизайне сайта?

Что такое оценка уверенности?

Сколько времени занимают пакетные задачи?