Amazon Scraper Python Tutorial: How to Extract Product Data

Последнее обновление: April 30, 2026
AI-сводка
В статье показаны два способа собрать данные о товарах Amazon: на Python и с помощью Thunderbit AI Web Scraper. Разбираются сценарии использования, антибот-защита, пагинация, подстраницы и экспорт в Excel или Google Sheets.

Давайте будем честны: Amazon — это по сути и торговый центр, и супермаркет, и магазин электроники для всего интернета. Если вы работаете в продажах, e-commerce или операциях, вы и так знаете: всё, что происходит на Amazon, не остаётся только на Amazon — это влияет на ваши цены, запасы и даже на следующий крупный запуск продукта. Но есть одна проблема: все эти вкусные данные о товарах, ценах, рейтингах и отзывах спрятаны за веб-интерфейсом, который сделан для покупателей, а не для команд, которым нужны данные. Так как же получить доступ к этим данным, не проводя выходные за копированием и вставкой, будто на дворе 1999 год?

Именно здесь на помощь приходит web scraping. В этом руководстве я покажу два способа извлечь данные о товарах Amazon: классический подход «засучить рукава и написать код на Python» и современный путь «пусть AI сделает тяжёлую работу» с no-code web scraper вроде . Я разберу реальный Python-код (со всеми подводными камнями и обходными путями), а затем покажу, как Thunderbit может получить для вас те же данные всего за пару кликов — без программирования. Неважно, разработчик вы, бизнес-аналитик или просто человек, которому надоела ручная работа с данными, — здесь вы найдёте нужный вариант.

Зачем извлекать данные о товарах Amazon? (amazon scraper python, web scraping with python)

Amazon — это не просто крупнейший онлайн-ритейлер в мире. Это ещё и крупнейшая в мире открытая площадка для конкурентной разведки. При и Amazon — настоящая золотая жила для всех, кто хочет:

amazon-scraper-use-cases-price-monitoring-lead-generation.png

  • Отслеживать цены и корректировать свои в реальном времени
  • Анализировать конкурентов и следить за их новыми запусками, рейтингами и отзывами
  • Генерировать лиды — находить продавцов, поставщиков или даже потенциальных партнёров
  • Прогнозировать спрос — следить за уровнем запасов и рейтингами продаж
  • Замечать рыночные тренды — анализируя отзывы и результаты поиска

И это не просто теория: реальные компании получают реальную отдачу. Например, один продавец электроники использовал данные о ценах Amazon, собранные с сайта, чтобы , а другой бренд получил после автоматизации отслеживания цен конкурентов.

Вот краткая таблица сценариев использования и того, какого ROI вы можете ожидать:

СценарийКто используетТипичный ROI / эффект
Мониторинг ценE-commerce, операцииРост маржи прибыли на 15%+, увеличение продаж на 4%, на 30% меньше времени аналитика
Анализ конкурентовПродажи, продукт, операцииБолее быстрая корректировка цен, повышение конкурентоспособности
Исследование рынка (отзывы)Продукт, маркетингБыстрее итерации продукта, более сильные рекламные тексты, SEO-инсайты
Генерация лидовПродажи3000+ лидов в месяц, экономия более 8 часов на каждого менеджера в неделю
Прогноз запасов и спросаОперации, цепочка поставокСнижение избыточных запасов на 20%, меньше дефицита товара
Поиск трендовМаркетинг, руководителиРаннее обнаружение популярных товаров и категорий

И вот ещё важный момент: уже сообщают о измеримой пользе от аналитики данных. Если вы не извлекаете данные с Amazon, вы оставляете инсайты и деньги на столе.

Обзор: Amazon Scraper Python vs. No Code Web Scraper Tools

Есть два основных способа вытащить данные с Amazon из браузера и перенести их в таблицы или дашборды:

  1. Amazon Scraper Python (web scraping with python):

    Пишите собственный скрипт на Python с библиотеками вроде Requests и BeautifulSoup. Это даёт полный контроль, но вам нужно уметь программировать, обходить антибот-защиту и поддерживать скрипт, когда Amazon меняет сайт.

  2. No Code Web Scraper Tools (например, Thunderbit):

    Используйте инструмент, где можно указывать, кликать и извлекать данные — без программирования. Современные решения вроде даже используют AI, чтобы определить, какие данные нужно собрать, обрабатывать подстраницы и пагинацию, а затем экспортировать всё прямо в Excel или Google Sheets.

Вот как они выглядят в сравнении:

КритерийPython ScraperNo Code (Thunderbit)
Время настройкиВысокое (установка, код, отладка)Низкое (установка расширения)
Необходимые навыкиНужен кодингНе нужны (point & click)
ГибкостьБез ограниченийВысокая для типовых задач
ПоддержкаКод исправляете выИнструмент обновляется сам
Работа с антиботомПрокси и заголовки на вашей сторонеВстроено, всё делает за вас
МасштабируемостьВручную (потоки, прокси)Cloud scraping, параллельная обработка
Экспорт данныхНастраиваемый (CSV, Excel, БД)В Excel и Sheets в один клик
СтоимостьБесплатно (ваше время + прокси)Freemium, оплата за масштаб
Лучше всего дляРазработчиков, кастомных задачБизнес-пользователей, быстрых результатов

В следующих разделах я проведу вас по обоим подходам — сначала покажу, как собрать Amazon scraper на Python (с реальным кодом), а затем — как сделать то же самое с помощью AI web scraper от Thunderbit.

Начинаем с Amazon Scraper Python: требования и настройка

Прежде чем переходить к коду, давайте подготовим окружение.

Вам понадобятся:

  • Python 3.x (скачайте с )
  • Редактор кода (я люблю VS Code, но подойдёт любой)
  • Следующие библиотеки:
    • requests (для HTTP-запросов)
    • beautifulsoup4 (для разбора HTML)
    • lxml (быстрый HTML-парсер)
    • pandas (для таблиц и экспорта данных)
    • re (регулярные выражения, встроенный модуль)

Установите библиотеки:

1pip install requests beautifulsoup4 lxml pandas

Настройка проекта:

  • Создайте новую папку для проекта.
  • Откройте редактор, создайте новый Python-файл, например amazon_scraper.py.
  • Можно начинать!

Пошагово: web scraping с Python для данных о товарах Amazon

Давайте разберём, как собрать данные с одной страницы товара Amazon. (Не переживайте, к парсингу нескольких товаров и страниц мы ещё перейдём.)

1. Отправка запроса и получение HTML

Сначала получим HTML страницы товара. (Замените URL на любой товар Amazon.)

1import requests
2url = "<https://www.amazon.com/dp/B0ExampleASIN>"
3response = requests.get(url)
4html_content = response.text
5print(response.status_code)

Внимание: такой простой запрос Amazon, скорее всего, заблокирует. Вместо страницы товара вы можете увидеть ошибку 503 или CAPTCHA. Почему? Потому что Amazon понимает, что вы не настоящий браузер.

Как обходить антибот-защиту Amazon

Amazon не любит ботов. Чтобы не получить блокировку, вам нужно:

  • Задать заголовок User-Agent — притвориться Chrome или Firefox
  • Ротация User-Agent — не использовать один и тот же каждый раз
  • Ограничивать частоту запросов — добавлять случайные задержки
  • Использовать прокси — если нужно собирать данные в большом масштабе

Вот как задать заголовки:

1headers = {
2    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)... Safari/537.36",
3    "Accept-Language": "en-US,en;q=0.9",
4}
5response = requests.get(url, headers=headers)

Хотите сделать всё чуть более продвинуто? Используйте список User-Agent и меняйте их для каждого запроса. Для крупных задач вам пригодится прокси-сервис (их сейчас много), но для небольших объёмов обычно достаточно заголовков и пауз.

Извлечение ключевых полей товара

Когда HTML получен, пора разобрать его с помощью BeautifulSoup.

1from bs4 import BeautifulSoup
2soup = BeautifulSoup(html_content, "lxml")

Теперь достанем главное:

Название товара

1title_elem = soup.find(id="productTitle")
2product_title = title_elem.get_text(strip=True) if title_elem else None

Цена

Цена на Amazon может быть в нескольких местах. Попробуйте так:

1price = None
2price_elem = soup.find(id="priceblock_ourprice") or soup.find(id="priceblock_dealprice")
3if price_elem:
4    price = price_elem.get_text(strip=True)
5else:
6    price_whole = soup.find("span", {"class": "a-price-whole"})
7    price_frac = soup.find("span", {"class": "a-price-fraction"})
8    if price_whole and price_frac:
9        price = price_whole.text + price_frac.text

Рейтинг и количество отзывов

1rating_elem = soup.find("span", {"class": "a-icon-alt"})
2rating = rating_elem.get_text(strip=True) if rating_elem else None
3review_count_elem = soup.find(id="acrCustomerReviewText")
4reviews_text = review_count_elem.get_text(strip=True) if review_count_elem else ""
5reviews_count = reviews_text.split()[0]  # например, "1,554 ratings"

URL главного изображения

Иногда Amazon прячет изображения высокого разрешения в JSON внутри HTML. Вот быстрый вариант через регулярное выражение:

1import re
2match = re.search(r'"hiRes":"(https://.*?.jpg)"', html_content)
3main_image_url = match.group(1) if match else None

Или можно взять основной тег изображения:

1img_tag = soup.find("img", {"id": "landingImage"})
2img_url = img_tag['src'] if img_tag else None

Данные о товаре

Характеристики вроде бренда, веса и размеров обычно находятся в таблице:

1details = {}
2rows = soup.select("#productDetails_techSpec_section_1 tr")
3for row in rows:
4    header = row.find("th").get_text(strip=True)
5    value = row.find("td").get_text(strip=True)
6    details[header] = value

Или, если Amazon использует формат “detailBullets”:

1bullets = soup.select("#detailBullets_feature_div li")
2for li in bullets:
3    txt = li.get_text(" ", strip=True)
4    if ":" in txt:
5        key, val = txt.split(":", 1)
6        details[key.strip()] = val.strip()

Выведите результаты:

1print("Title:", product_title)
2print("Price:", price)
3print("Rating:", rating, "based on", reviews_count, "reviews")
4print("Main image URL:", main_image_url)
5print("Details:", details)

Парсинг нескольких товаров и обработка пагинации

Один товар — это хорошо, но вам, скорее всего, нужен целый список. Вот как парсить результаты поиска и несколько страниц.

Получаем ссылки на товары со страницы поиска

1search_url = "<https://www.amazon.com/s?k=bluetooth+headphones>"
2res = requests.get(search_url, headers=headers)
3soup = BeautifulSoup(res.text, "lxml")
4product_links = []
5for a in soup.select("h2 a.a-link-normal"):
6    href = a['href']
7    full_url = "<https://www.amazon.com>" + href
8    product_links.append(full_url)

Обработка пагинации

В поисковых URL Amazon используется &page=2, &page=3 и так далее.

1for page in range(1, 6):  # собираем первые 5 страниц
2    search_url = f"<https://www.amazon.com/s?k=bluetooth+headphones&page={page}>"
3    res = requests.get(search_url, headers=headers)
4    if res.status_code != 200:
5        break
6    soup = BeautifulSoup(res.text, "lxml")
7    # ... извлекаем ссылки на товары, как выше ...

Проходим по страницам товаров и экспортируем в CSV

Соберите данные о товарах в список словарей, затем используйте pandas:

1import pandas as pd
2df = pd.DataFrame(product_data_list)  # список словарей
3# сохраняем в CSV
4df.to_csv("amazon_products.csv", index=False)

Или в Excel:

1df.to_excel("amazon_products.xlsx", index=False)

Лучшие практики для проектов на Amazon Scraper Python

Если честно, Amazon постоянно меняет сайт и борется со скрейперами. Вот как сохранить проект рабочим:

  • Меняйте заголовки и User-Agent — используйте, например, fake-useragent
  • Используйте прокси для больших объёмов
  • Ограничивайте частоту запросов — случайные time.sleep() между запросами
  • Обрабатывайте ошибки корректно — повторяйте запросы при 503, делайте паузу, если получили блокировку
  • Пишите гибкую логику парсинга — проверяйте несколько селекторов для каждого поля
  • Следите за изменениями HTML — если скрипт вдруг начинает возвращать None для всего, проверьте страницу
  • Соблюдайте robots.txt — Amazon запрещает скрейпинг многих разделов, действуйте ответственно
  • Очищайте данные по ходу — убирайте символы валюты, запятые и пробелы
  • Оставайтесь на связи с сообществом — форумы, Stack Overflow, Reddit r/webscraping

Чек-лист для поддержки скрейпера:

  • [ ] Менять User-Agent и заголовки
  • [ ] Использовать прокси при сборе в масштабе
  • [ ] Добавлять случайные задержки
  • [ ] Структурировать код, чтобы было проще обновлять
  • [ ] Следить за банами и CAPTCHA
  • [ ] Регулярно экспортировать данные
  • [ ] Документировать селекторы и логику

Для более глубокого разбора загляните в мой .

No Code-альтернатива: scraping Amazon с Thunderbit AI Web Scraper

Итак, вы увидели путь через Python. Но что, если вы не хотите программировать — или просто хотите получить данные за два клика и заняться своими делами? Тут и приходит на помощь .

Thunderbit — это AI web scraper в виде расширения Chrome, который позволяет извлекать данные о товарах Amazon (и почти с любого другого сайта) вообще без кода. Вот почему мне он нравится:

thunderbit-key-features-ai-web-scraper.png

  • AI Suggest Fields: просто нажимаете кнопку, и AI Thunderbit сам понимает, какие данные есть на странице, предлагая колонки, например Title, Price, Rating и т. д.
  • Готовые шаблоны данных: для Amazon есть заранее настроенный шаблон, который собирает все обычные поля без настройки.
  • Scraping подстраниц: соберите список товаров, а затем Thunderbit автоматически откроет страницу каждого товара и извлечёт больше информации.
  • Пагинация: Thunderbit может переходить по страницам “Next” или прокручивать бесконечную ленту вместо вас.
  • Экспорт в Excel, Google Sheets, Airtable, Notion: один клик — и данные готовы к работе.
  • Бесплатный тариф: можно попробовать на нескольких страницах бесплатно.
  • Антибот-защита частично берётся на себя: так как инструмент работает в браузере или в облаке, Amazon видит в нём обычного пользователя.

Пошагово: как использовать Thunderbit для сбора данных о товарах Amazon

Вот насколько это просто:

  1. Установите Thunderbit:

    Скачайте и войдите в аккаунт.

  2. Откройте Amazon:

    Перейдите на страницу Amazon, которую хотите собрать: результаты поиска, карточку товара — что угодно.

  3. Нажмите “AI Suggest Fields” или используйте шаблон:

    Thunderbit предложит колонки для извлечения данных, либо вы можете выбрать шаблон Amazon Product.

  4. Проверьте колонки:

    При необходимости настройте их: добавьте или удалите поля, переименуйте и т. д.

  5. Нажмите “Scrape”:

    Thunderbit соберёт данные со страницы и покажет их в таблице.

  6. Обработайте подстраницы и пагинацию:

    Если вы собрали список, нажмите “Scrape Subpages”, чтобы Thunderbit посетил страницу каждого товара и извлёк дополнительную информацию. Он также может автоматически переходить по страницам “Next”.

  7. Экспортируйте данные:

    Нажмите “Export to Excel” или “Export to Google Sheets”. Готово.

  8. (Опционально) Настройте расписание:

    Нужны эти данные каждый день? Используйте планировщик Thunderbit, чтобы автоматизировать процесс.

Вот и всё. Без кода, без отладки, без прокси, без головной боли. Для наглядного обзора посмотрите или страницу шаблона .

Amazon Scraper Python vs. No Code Web Scraper: сравнение бок о бок

Сведём всё вместе:

КритерийPython ScraperThunderbit (No Code)
Время настройкиВысокое (установка, код, отладка)Низкое (установка расширения)
Необходимые навыкиНужен кодингНе нужны (point & click)
ГибкостьБез ограниченийВысокая для типовых задач
ПоддержкаКод исправляете выИнструмент обновляется сам
Работа с антиботомПрокси и заголовки на вашей сторонеВстроено, всё делает за вас
МасштабируемостьВручную (потоки, прокси)Cloud scraping, параллельная обработка
Экспорт данныхНастраиваемый (CSV, Excel, БД)В Excel и Sheets в один клик
СтоимостьБесплатно (ваше время + прокси)Freemium, оплата за масштаб
Лучше всего дляРазработчиков, кастомных задачБизнес-пользователей, быстрых результатов

Если вы разработчик, который любит копаться в деталях и ему нужен суперкастомный инструмент, Python — ваш союзник. Если вам важны скорость, простота и ноль кода, лучше выбрать Thunderbit.

Когда выбирать Python, no-code или AI web scraper для данных Amazon

Выбирайте Python, если:

  • Вам нужна собственная логика или вы хотите встроить scraping в backend-системы
  • Вы собираете данные в очень большом масштабе (десятки тысяч товаров)
  • Вы хотите понять, как устроен scraping изнутри

Выбирайте Thunderbit (no-code, AI web scraper), если:

  • Вам нужны данные быстро и без программирования
  • Вы бизнес-пользователь, аналитик или маркетолог
  • Вы хотите дать команде возможность получать данные самостоятельно
  • Вы хотите избежать возни с прокси, антиботом и поддержкой

Используйте оба варианта, если:

  • Вы хотите быстро сделать прототип в Thunderbit, а затем собрать кастомное Python-решение для продакшена
  • Вы хотите использовать Thunderbit для сбора данных, а Python — для их очистки и анализа

Для большинства бизнес-пользователей Thunderbit закроет 90% потребностей в сборе данных с Amazon в разы быстрее. Для оставшихся 10% — сверхкастомных, крупномасштабных или глубоко интегрированных задач — Python по-прежнему остаётся королём.

Заключение и ключевые выводы

Сбор данных о товарах Amazon — это суперсила для любой команды продаж, e-commerce или операций. Отслеживаете ли вы цены, анализируете конкурентов или просто хотите избавить команду от бесконечного копипаста — решение есть.

  • Сбор на Python даёт полный контроль, но требует времени на обучение и постоянного обслуживания.
  • No-code web scraper вроде Thunderbit делает извлечение данных с Amazon доступным каждому — без кода, без головной боли, просто результат.
  • Лучший подход? Используйте инструмент, который соответствует вашим навыкам, срокам и бизнес-целям.

Если вам интересно, попробуйте Thunderbit — старт бесплатный, и вы удивитесь, как быстро можно получить нужные данные. А если вы разработчик, не бойтесь сочетать подходы: иногда самый быстрый путь к готовому решению — поручить AI скучную часть работы.

FAQ

1. Зачем бизнесу извлекать данные о товарах Amazon?

Сбор данных с Amazon позволяет компаниям отслеживать цены, анализировать конкурентов, собирать отзывы для исследования продукта, прогнозировать спрос и генерировать лиды. При более чем 600 миллионах товаров и почти 2 миллионах продавцов Amazon — богатый источник конкурентной разведки.

2. В чём основные различия между Python и no-code-инструментами вроде Thunderbit для сбора данных с Amazon?

Python-скрейперы дают максимальную гибкость, но требуют навыков кодирования, времени на настройку и постоянной поддержки. Thunderbit, no-code AI web scraper, позволяет мгновенно извлекать данные Amazon через расширение Chrome — без кода, со встроенной защитой от ботов и возможностью экспорта в Excel или Sheets.

3. Законно ли собирать данные с Amazon?

Условия использования Amazon обычно запрещают scraping, и компания активно применяет антибот-механизмы. Однако многие компании всё равно собирают публично доступные данные, действуя ответственно — например, соблюдая лимиты запросов и избегая чрезмерной нагрузки.

4. Какие данные можно извлечь с Amazon с помощью web scraping-инструментов?

Обычно это названия товаров, цены, рейтинги, количество отзывов, изображения, характеристики, наличие товара и даже информация о продавце. Thunderbit также поддерживает scraping подстраниц и пагинацию, чтобы собирать данные по нескольким карточкам и страницам.

5. Когда лучше выбрать Python scraping вместо инструмента вроде Thunderbit и наоборот?

Используйте Python, если вам нужен полный контроль, собственная логика или интеграция в backend-системы. Используйте Thunderbit, если вам нужен быстрый результат без кода, простое масштабирование или low-maintenance-решение для бизнеса.

Хотите углубиться? Вот несколько ресурсов:

Удачного scraping — и пусть ваши таблицы всегда будут актуальными.

Попробовать AI Web Scraper Thunderbit для Amazon
Shuai Guan
Shuai Guan
Сооснователь и генеральный директор Thunderbit. Увлечён пересечением искусственного интеллекта и автоматизации. Активно поддерживает автоматизацию и стремится сделать её доступной каждому. Вне технологий он выражает свою креативность через фотографию, запечатлевая истории кадр за кадром.
Topics
Amazon Scraper PythonNo Code Web ScraperWeb Scraping With PythonAI Web Scraper
Содержание

Попробуй Thunderbit

Собирай лиды и другие данные всего в 2 клика. На базе AI.

Получить Thunderbit Это бесплатно
Извлекай данные с помощью AI
Легко передавай данные в Google Sheets, Airtable или Notion
Chrome Store Rating
PRODUCT HUNT#1 Product of the Week