Otestoval jsem 4 způsoby, jak scrapovat Amazon Best Sellers pomocí Pythonu a ...

Naposledy aktualizováno April 17, 2026

Minulý víkend jsem se při pokusech o stažení stránky Amazon Best Sellers skoro prokousal celým kávovarem. Vyzkoušel jsem čtyři různé přístupy. Dva fungovaly parádně, jeden mě málem dostal k zablokování IP adresy a jeden zabral doslova na dvě kliknutí. Tady je všechno, co jsem zjistil.

Amazon je obrovský tržištní gigant — , a systém Best Sellers Rank (BSR), který se aktualizuje každou hodinu. Pokud děláš průzkum produktů pro FBA, analyzuješ konkurenci nebo se jen snažíš zachytit trendy dřív než soupeři, data z Best Sellers jsou k nezaplacení.

Jenže dostat ta data z Amazonu do tabulky? Tam teprve začíná sranda. Otestoval jsem requests + BeautifulSoup, Selenium, scraping API a (náš vlastní no-code AI web scraper), abych zjistil, který přístup opravdu funguje — a který tě pošle rovnou na CAPTCHA stránku.

Co je Amazon Best Sellers a proč by tě to mělo zajímat?

Amazon Best Sellers Rank (BSR) je průběžné žebříčkové hodnocení produktů podle objemu prodeje v jednotlivých kategoriích. Představ si to jako soutěž popularity, která se aktualizuje každou hodinu podle čerstvých i historických prodejních dat. Amazon to popisuje takto:

„Výpočet Amazon Best Sellers vychází z prodejů na Amazonu a aktualizuje se každou hodinu, aby odrážel nedávné i historické prodeje každé položky prodané na Amazonu.“ —

Stránka Best Sellers ukazuje top 100 produktů v každé kategorii, rozdělených na dvě stránky po 50 položkách. Stránka 1 pokrývá pozice #1–50, stránka 2 pozice #51–100. Amazon potvrdil, že zobrazení stránky ani hodnocení recenzí BSR neovlivňují — jde čistě o prodejní výkon.

Kdo ta data potřebuje? Prodejci v e-commerce hledající produkty pro FBA, obchodní týmy budující konkurenční inteligenci, operations týmy sledující cenové trendy a market research analytici, kteří sledují růst kategorií. Podle mé zkušenosti nakonec každý, kdo prodává na Amazonu nebo s ním soupeří, ta data potřebuje mít v tabulce.

Proč scrapovat Amazon Best Sellers pomocí Pythonu?

Ruční průzkum produktů je ztráta času. Studie zjistila, že zaměstnanci stráví 9,3 hodiny týdně jen vyhledáváním a shromažďováním informací. U e-commerce týmů to znamená hodiny proklikávání Amazonu, kopírování názvů a cen produktů a jejich vkládání do tabulek — a za týden zase nanovo.

Tady je rychlý přehled use casů, kvůli kterým má scrapování Best Sellers smysl:

Use CaseCo získášKdo z toho těží
Průzkum produktů pro FBANajdeš produkty s vysokou poptávkou a nízkou konkurencí podle BSR a počtu recenzíProdejci na Amazonu, dropshippeři
Sledování konkurenceschopných cenHlídáš změny cen u nejlepších produktů ve své kategoriiE-commerce týmy, cenoví analytici
Monitoring trendů na trhuOdhalíš rostoucí kategorie a sezónní výkyvyProduct manažeři, market research týmy
Generování leadůVytvoříš seznamy nejprodávanějších značek a jejich produktových řadObchodní týmy, B2B outreach
Analýza konkurencePorovnáš své produkty s lídry kategorieBrand manažeři, strategické týmy

Návratnost je reálná: průzkum mezi 2 700 lidmi z oblasti commerce zjistil, že AI nástroje ušetří e-commerce profesionálům v průměru . A prodejci používající automatizované sledování cen drží Buy Box oproti 42 % u manuálního sledování — tedy o 37 % vyšší prodeje díky rychlejší reakci na změny cen.

4 způsoby, jak scrapovat Amazon Best Sellers pomocí Pythonu: rychlé srovnání

Než se pustíme do podrobných návodů, tady je srovnání vedle sebe, které bych si býval přál mít před testováním. Tahle tabulka ti pomůže vybrat správnou metodu podle situace:

Kritériumrequests + BS4SeleniumScraping API (např. Scrape.do)Thunderbit (No-Code)
Náročnost nastaveníStředníVysoká (driver, prohlížeč)Nízká (API klíč)Velmi nízká (rozšíření do Chrome)
Zvládá lazy loadingNeAno (simulace scrollování)Ano (renderované HTML)Ano (AI zvládne renderování)
Odolnost proti anti-botuNízká (blokace IP)Střední (detekovatelné)Vysoká (rotující proxy)Vysoká (cloud + browser režim)
Náročnost údržbyVysoká (selektory se lámou)Vysoká (aktualizace driveru + selektory)NízkáVelmi nízká (AI se přizpůsobí změnám rozložení)
CenaZdarmaZdarmaPlacené (za request)Free tier + placené plány
Nejlepší proJednorázové scrapování, učeníStránky s JS, přihlášené relaceŠkála / produkceNetechnické uživatele, rychlý průzkum, opakovaný monitoring

Pokud se chceš naučit základy scrapování v Pythonu, začni metodou 1 nebo 2. Pokud potřebuješ spolehlivost v produkčním měřítku, zvol metodu 3. Pokud chceš výsledky během dvou kliknutí bez psaní kódu, skoč rovnou na metodu 4.

Než začneš

  • Obtížnost: Začátečník až mírně pokročilý (podle metody)
  • Časová náročnost: ~15 minut pro Thunderbit, ~45 minut pro Python metody
  • Co budeš potřebovat: Python 3.8+ (pro metody 1–3), prohlížeč Chrome, (pro metodu 4) a URL cílové kategorie Amazon Best Sellers

Metoda 1: Scrapování Amazon Best Sellers pomocí requests + BeautifulSoup

Tohle je lehký a přívětivý přístup pro začátečníky — žádná automatizace prohlížeče, jen HTTP requesty a parsování HTML. Taky mě naučil nejvíc o anti-scraping ochraně Amazonu.

Krok 1: Nastavte prostředí

Nainstalujte potřebné balíčky:

1pip install requests beautifulsoup4 pandas

Pak si nastavte importy:

1import requests
2from bs4 import BeautifulSoup
3import pandas as pd
4import random
5import time

Krok 2: Pošlete request s realistickými hlavičkami

Amazon blokuje requesty, které vypadají jako od botů. Základní obrana je User-Agent hlavička, která napodobuje skutečný prohlížeč. Tady je ukázka s aktuálními a realistickými User-Agent řetězci (zdroj: , březen 2026):

1USER_AGENTS = [
2    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/147.0.0.0 Safari/537.36",
3    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/147.0.0.0 Safari/537.36",
4    "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:149.0) Gecko/20100101 Firefox/149.0",
5    "Mozilla/5.0 (Macintosh; Intel Mac OS X 15.7; rv:149.0) Gecko/20100101 Firefox/149.0",
6    "Mozilla/5.0 (Macintosh; Intel Mac OS X 15_7_5) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/26.0 Safari/605.1.15",
7]
8headers = {"User-Agent": random.choice(USER_AGENTS)}
9url = "https://www.amazon.com/Best-Sellers-Electronics/zgbs/electronics/"
10response = requests.get(url, headers=headers)
11print(response.status_code)  # Mělo by být 200

Pokud dostaneš stavový kód 200, jsi na správné cestě. Pokud vidíš 503 nebo tě Amazon přesměruje na CAPTCHA stránku, request byl odhalen.

Krok 3: Parsujte data o produktech pomocí BeautifulSoup

Zkontroluj HTML stránky v DevTools prohlížeče (pravé tlačítko → Inspect). Kontejnery produktů používají ID gridItemRoot. Uvnitř každého kontejneru najdeš název produktu, cenu, hodnocení a URL.

1soup = BeautifulSoup(response.text, "html.parser")
2products = []
3for item in soup.find_all("div", id="gridItemRoot"):
4    title_tag = item.find("div", class_="_cDEzb_p13n-sc-css-line-clamp-3_g3dy1")
5    price_tag = item.find("span", class_="_cDEzb_p13n-sc-price_3mJ9Z")
6    link_tag = item.find("a", class_="a-link-normal")
7    title = title_tag.get_text(strip=True) if title_tag else "N/A"
8    price = price_tag.get_text(strip=True) if price_tag else "N/A"
9    url = "https://www.amazon.com" + link_tag["href"] if link_tag else "N/A"
10    products.append({"Title": title, "Price": price, "URL": url})

Upozornění: Třídy začínající na _cDEzb_ jsou hashované CSS module selektory, které Amazon pravidelně mění. ID gridItemRoot a třída a-link-normal bývají stabilnější, ale před spuštěním scrapu si selektory vždy ověř v DevTools.

Krok 4: Export do CSV

1df = pd.DataFrame(products)
2df.to_csv("amazon_best_sellers.csv", index=False)
3print(f"Staženo {len(products)} produktů")

Co čekat — a co se pokazí

V mém testu tahle metoda vrátila asi 30 produktů místo 50. Není to chyba kódu — je to lazy loading od Amazonu. Po úvodním načtení se vykreslí jen asi 30 produktů; zbytek se objeví až po scrollování, což vyžaduje JavaScript, který requests neumí zpracovat.

Další omezení:

  • Bez rotace proxy přijde blokace IP velmi rychle (mně Amazon zablokoval přístup po asi 15 requestech v rychlém sledu)
  • CSS selektory se lámou pokaždé, když Amazon upraví rozložení stránky — a dělá to často
  • Žádné hotové řešení stránkování

Na učení scrapování v Pythonu je to super. Pro produkční použití je to ale křehké.

Metoda 2: Scrapování Amazon Best Sellers pomocí Selenium

Selenium řeší problém lazy loadingu tím, že spouští skutečný prohlížeč — je těžší na nastavení, ale zachytí všech 50 produktů na stránku.

Krok 1: Nainstalujte Selenium

1pip install selenium pandas

Dobrá zpráva: od Selenium 4.6 už nepotřebujete webdriver-manager. Selenium Manager si stahování driverů řeší automaticky.

1from selenium import webdriver
2from selenium.webdriver.chrome.options import Options
3from selenium.webdriver.common.by import By
4from selenium.webdriver.common.keys import Keys
5import time
6import pandas as pd
7options = Options()
8options.add_argument("--headless=new")
9options.add_argument("--window-size=1920,1080")
10options.add_argument("--disable-blink-features=AutomationControlled")
11driver = webdriver.Chrome(options=options)

Přepínač --headless=new (představený v Chrome 109+) používá stejný renderovací pipeline jako běžný Chrome s oknem, takže ho Amazon hůř detekuje.

Krok 2: Proscrollujte přes lazy loading

Tohle je krok, díky kterému se Selenium vyplatí. Amazon Best Sellers načte zpočátku jen asi 30 produktů — zbytek se objeví až po scrollování.

1def scroll_page(driver, scrolls=5, delay=2):
2    for _ in range(scrolls):
3        driver.find_element(By.TAG_NAME, "body").send_keys(Keys.PAGE_DOWN)
4        time.sleep(delay)
5driver.get("https://www.amazon.com/Best-Sellers-Electronics/zgbs/electronics/")
6time.sleep(3)
7scroll_page(driver)

Po scrollování by se mělo v DOM vykreslit všech 50 produktů. Zjistil jsem, že 5 stisků Page Down s prodlevou 2 sekundy obvykle stačí, ale podle rychlosti připojení může být potřeba upravit.

Krok 3: Extrahujte data o produktech

1items = driver.find_elements(By.ID, "gridItemRoot")
2products = []
3for item in items:
4    try:
5        title = item.find_element(By.CSS_SELECTOR, "div._cDEzb_p13n-sc-css-line-clamp-3_g3dy1").text
6    except:
7        title = "N/A"
8    try:
9        price = item.find_element(By.CSS_SELECTOR, "span._cDEzb_p13n-sc-price_3mJ9Z").text
10    except:
11        price = "N/A"
12    try:
13        url = item.find_element(By.CSS_SELECTOR, "a.a-link-normal").get_attribute("href")
14    except:
15        url = "N/A"
16    products.append({"Title": title, "Price": price, "URL": url})

Použití try/except u každé položky je důležité — některé produkty mohou být vyprodané nebo mít chybějící pole a nechceš, aby jeden problematický element shodil celý scraping.

Krok 4: Ošetřete stránkování

Amazon rozděluje 100 Best Sellers do dvou stránek s různou strukturou URL:

1urls = [
2    "https://www.amazon.com/Best-Sellers-Electronics/zgbs/electronics/",
3    "https://www.amazon.com/Best-Sellers-Electronics/zgbs/electronics/ref=zg_bs_pg_2_electronics?_encoding=UTF8&pg=2"
4]
5all_products = []
6for url in urls:
7    driver.get(url)
8    time.sleep(3)
9    scroll_page(driver)
10    # ... extrakce produktů jako výše ...
11    all_products.extend(products)
12driver.quit()

Co čekat

V mém testu Selenium zachytilo všech 50 produktů na stránku — jasné vítězství nad requests + BS4. Nevýhoda: trvalo to asi 45 sekund na stránku (včetně prodlev při scrollování) a i tak jsem byl po příliš mnoha bězích bez rotace proxy odhalen. Selenium je navíc pro Amazon detekovatelné i s anti-detection příznaky — pro větší škálu budeš potřebovat další opatření (viz Anti-Ban Playbook níže).

Další slabiny:

  • Nesoulad verzí WebDriveru se občas pořád objeví, i když Selenium Manager to výrazně omezil
  • CSS selektory je potřeba upravit pokaždé, když Amazon změní DOM
  • Vysoká spotřeba paměti — každá instance prohlížeče zabere 200–400 MB RAM

Metoda 3: Scrapování Amazon Best Sellers pomocí scraping API

Scraping API je přístup typu „nech těžkou práci na někom jiném“. Služby jako Scrape.do, Oxylabs a ScrapingBee se starají o rotaci proxy, renderování JavaScriptu i anti-bot opatření — ty jen pošleš URL a dostaneš HTML nebo JSON.

Jak to funguje

Pošleš cílovou URL na endpoint API. API stránku vyrenderuje na své infrastruktuře v reálném prohlížeči, rotuje proxy, ošetří CAPTCHA a vrátí čisté HTML. Ty pak vrácené HTML zpracuješ přes BeautifulSoup jako obvykle.

Krok 1: Pošlete request přes API

Tady je příklad se Scrape.do (ceny začínají na 29 USD/měsíc za 150 000 kreditů, 1 kredit = 1 request bez ohledu na renderování):

1import requests
2from bs4 import BeautifulSoup
3api_token = "YOUR_API_TOKEN"
4target_url = "https://www.amazon.com/Best-Sellers-Electronics/zgbs/electronics/"
5api_url = f"https://api.scrape.do?token={api_token}&url={target_url}&render=true&geoCode=us"
6response = requests.get(api_url)
7soup = BeautifulSoup(response.text, "html.parser")

Odtud je parsování stejné jako u metody 1 — stejné selektory, stejná logika extrakce.

Realita cen

Tady je přehled, kolik si hlavní API účtují za 1 000 Amazon requestů při nejlepší dostupné sazbě:

PoskytovatelCena za 1 000 requestůPoznámky
Scrape.docca $0.19Paušální sazba, bez násobků kreditů
Oxylabscca $1.805× násobek pro JS renderování
ScrapingBeecca $4.905–25× násobky u prémiových funkcí
Bright Data$5.00+Nejobsáhlejší data (686 polí / produkt), ale nejpomalejší (~66 s / request)

Klady a zápory

Klady: Vysoká spolehlivost ( na Amazonu u top poskytovatelů), žádná údržba driveru, automatická anti-bot ochrana, dobrá škálovatelnost.

Zápory: Placené za každý request (náklady rostou ve velkém), stejně musíš psát parsovací kód a pořád hrozí změny CSS selektorů. U 100 000 stránek měsíčně je rozdíl v celkových nákladech dramatický: vlastní řešení vyjde zhruba na — úspora 71 %.

Bod zlomu bývá obvykle 500 tisíc až 1 milion requestů měsíčně. Pod touto hranicí převáží časová úspora API nad náklady.

Metoda 4: Scrapování Amazon Best Sellers pomocí Thunderbit (bez Pythonu)

Na rovinu: pracuji v Thunderbit, takže tuhle část ber s tím kontextem. Ale opravdu jsem všechny čtyři metody testoval za sebou a rozdíl v rychlosti získání dat byl výrazný.

je AI web scraper jako rozšíření do Chrome. Hlavní myšlenka: místo psaní CSS selektorů nebo Python kódu si AI přečte stránku a sama zjistí, jaká data má vytáhnout. Pro Amazon Best Sellers má Thunderbit předpřipravené šablony, které fungují na jedno kliknutí.

Krok 1: Nainstalujte rozšíření Thunderbit do Chrome

Přejdi do a klikni na „Přidat do Chromu“. Zaregistruj si bezplatný účet — free tier ti dá dost kreditů na vyzkoušení.

Krok 2: Otevřete stránku Amazon Best Sellers

Otevři v Chromu jakoukoli stránku kategorie Amazon Best Sellers. Například: https://www.amazon.com/Best-Sellers-Electronics/zgbs/electronics/

Krok 3: Klikněte na „AI Suggest Fields“

Otevři postranní panel Thunderbit a klikni na „AI Suggest Fields“. AI analyzuje strukturu stránky a navrhne sloupce: Product Name, Price, Rating, Image URL, Vendor, Product URL a Rank. V mém testu správně rozpoznala všechna relevantní pole během asi 3 sekund.

amazon-thunderbit-product-data.webp

Sloupce můžeš přejmenovat, smazat nebo přidat. Můžeš dokonce přidat vlastní AI prompt pro každé pole — například „zařaď jako Electronics/Apparel/Home“ a doplň ke každému produktu kategorii.

Krok 4: Klikněte na „Scrape“

Stiskni tlačítko „Scrape“. Thunderbit vyplní strukturovanou tabulku se všemi daty o produktech ze stránky. V cloud režimu zvládne až 50 stránek najednou paralelně a automaticky řeší lazy loading i stránkování.

Krok 5: Exportujte zdarma

Klikni na „Export“ a vyber cíl: Excel, Google Sheets, Airtable nebo Notion. Všechny exporty jsou zdarma ve všech plánech — bez skrytých poplatků.

product-data-export.webp

Celý proces mi trval asi 90 sekund od otevření stránky po hotovou tabulku. Pro srovnání: metoda 1 zabrala asi 20 minut (včetně ladění lazy loadingu), metoda 2 asi 35 minut (včetně nastavení Selenium) a metoda 3 asi 15 minut (včetně založení účtu u API).

Proč Thunderbit funguje na Amazon dobře

Protože AI stránku čte pokaždé znovu, automaticky se přizpůsobí změnám rozložení — není potřeba spravovat CSS selektory. Tím přímo řeší nejčastější stížnost v diskuzích o scrapingu: „Základní web scraper nestačí, je potřeba přidávat spoustu ošetření změn prvků.“ Když Amazon změní DOM (což se děje často), nemusíš nic upravovat.

Cloudové scrapování transparentně řeší rotaci proxy, renderování i anti-bot opatření. Pro uživatele, kteří chtějí řešení typu „prostě to funguje“, tím odpadá celé trápení s blokacemi.

Anti-ban playbook: jak se vyhnout blokaci ze strany Amazonu

Amazon má agresivní detekci botů. Při testování mi Amazon dočasně zablokoval IP adresu a uživatelé na fórech hlásí totéž: „všude chyby, Amazon mě začal přesměrovávat na homepage.“ Pokud jdeš cestou Pythonu (metody 1–3), tahle část je zásadní.

Tady je vrstvená strategie od základních po pokročilé kroky:

1. Rotujte User-Agent řetězce

Posílat pořád stejný User-Agent je varovný signál. Použij sadu 5+ řetězců z ukázkového kódu v metodě 1 a u každého requestu vyber náhodně jeden:

1headers = {"User-Agent": random.choice(USER_AGENTS)}

2. Přidejte náhodné prodlevy mezi requesty

Pevné prodlevy jsou detekovatelné (vzory). Náhodné jsou bezpečnější:

1time.sleep(random.uniform(2, 5))

Zjistil jsem, že interval 2–5 sekund mezi requesty mě u menších dávek (pod 50 requestů) udržel pod radarem. U větších běhů bych to zvedl na 3–7 sekund.

3. Používejte rotaci proxy

Tohle je zásadní. ukazují, že rezidenční proxy mají na Amazonu průměrnou úspěšnost kolem 94 % oproti ~59 % u datacentrových proxy — rozdíl 35 procentních bodů. Amazon používá TLS fingerprinting, behaviorální analýzu a rate limiting podle IP, takže běžné datacentrové IP adresy jsou odhaleny během několika sekund.

Rezidenční proxy jsou dražší ($2–$12 za GB podle poskytovatele), ale výrazně spolehlivější. Příklad:

1proxies = {
2    "http": "http://user:pass@residential-proxy.example.com:8080",
3    "https": "http://user:pass@residential-proxy.example.com:8080"
4}
5response = requests.get(url, headers=headers, proxies=proxies)

4. Zpevněte fingerprint prohlížeče (Selenium)

1options.add_argument('--disable-blink-features=AutomationControlled')
2options.add_experimental_option("excludeSwitches", ["enable-automation"])
3options.add_experimental_option('useAutomationExtension', False)
4# Po inicializaci driveru odstraňte příznak navigator.webdriver
5driver.execute_cdp_cmd('Page.addScriptToEvaluateOnNewDocument', {
6    'source': "Object.defineProperty(navigator, 'webdriver', {get: () => undefined})"
7})

5. Spravujte relace a cookies

Uchovávání cookies mezi requesty dělá scraper podobnější skutečnému uživatelskému sezení:

1session = requests.Session()
2# Nejdřív navštivte homepage, abyste získali realistické cookies
3session.get("https://www.amazon.com", headers=headers)
4time.sleep(2)
5# Pak scrapujte cílovou stránku
6response = session.get(target_url, headers=headers)

6. Kdy se vyplatí obejít celé trápení

Pro uživatele, kteří nechtějí nic z toho řešit, Thunderbit cloud scraping transparentně zvládá rotaci proxy, renderování i anti-bot opatření. Scraping API navíc řeší většinu těchto věcí už v základu. Podle mých zkušeností často zabere ladění anti-ban problémů víc času než napsání samotného scraperu — takže přístup „prostě to funguje“ má skutečnou návratnost.

Obohacení o detailní stránky: jak získat bohatší data z produktových stránek

Stránka Best Sellers ukazuje jen základní informace — název, cenu, hodnocení, pořadí. Skutečná hodnota pro FBA research ale leží na detailních stránkách jednotlivých produktů. Tohle ti chybí, pokud scrapuješ jen listing:

PoleListing stránkaProduktová detailní stránka
Název produktu
Cena
Hodnocení
BSR pořadí✅ (včetně pořadí v podkategorii)
Značka
ASIN
Datum prvního uvedení
Rozměry / hmotnost
Počet prodejců
Odrážkové vlastnosti
Majitel Buy Boxu

Pole „Date First Available“ je obzvlášť cenné — říká, jak dlouho je produkt na trhu, což je důležitý signál pro analýzu konkurence. A znalost počtu prodejců a vlastníka Buy Boxu pomáhá posoudit, jestli se do dané niky vůbec vyplatí vstupovat (pokud Amazon drží více než 30 % podílu Buy Boxu, je konkurence extrémně obtížná).

Python přístup: procházení URL produktů v cyklu

Po získání URL produktů z listing stránky projdi každou s pauzou:

1for product in products:
2    time.sleep(random.uniform(3, 6))
3    detail_response = session.get(product["URL"], headers={"User-Agent": random.choice(USER_AGENTS)})
4    detail_soup = BeautifulSoup(detail_response.text, "html.parser")
5    # Extrakce značky
6    brand_tag = detail_soup.find("a", id="bylineInfo")
7    product["Brand"] = brand_tag.get_text(strip=True) if brand_tag else "N/A"
8    # Extrakce ASIN z kódu stránky nebo URL
9    # Extrakce Date First Available z tabulky s detaily produktu
10    # ... další pole ...

Upřímné varování: návštěva 100 jednotlivých produktových stránek výrazně zvyšuje riziko blokace. Počítej s rotací proxy a delšími prodlevami.

Thunderbit přístup: scrapování podstránek jedním kliknutím

Po stažení listing stránky do tabulky klikni v Thunderbit na „Scrape Subpages“. AI navštíví každou URL produktu a automaticky obohatí tabulku o další sloupce — značka, ASIN, specifikace, funkce. Bez dalšího kódu, selektorů a nastavování. Je to obzvlášť užitečné pro e-commerce týmy, které potřebují kompletní obraz pro sourcingová rozhodnutí, ale nechtějí psát a udržovat parser detailních stránek.

Automatizace opakovaných scrapeů: sledujte Best Sellers v čase

Jednorázové stažení je užitečné, ale průběžný monitoring je místo, kde leží skutečná konkurenční výhoda. Sledování, které produkty rostou a klesají, včasné odhalování trendů a monitoring cenových posunů během týdnů či měsíců — to odděluje běžný průzkum od rozhodování založeného na datech.

Python přístup: plánování pomocí cron

Na Linuxu nebo Macu můžeš Python skript naplánovat pomocí cronu. Tady je záznam v crontabu pro denní scraping v 8:00:

10 8 * * * /usr/bin/python3 /home/user/amazon_scraper.py >> /home/user/logs/scrape.log 2>&1

Pro týdenní scraping každé pondělí v 9:00:

10 9 * * 1 /usr/bin/python3 /home/user/amazon_scraper.py >> /home/user/logs/scrape.log 2>&1

Na Windows použij Task Scheduler pro stejný efekt. Pokud chceš plánování bez nutnosti nechávat zapnutý notebook, nasaď to na VPS nebo AWS Lambda — ale tím přibude infrastruktura a složitost.

Přidej logging a chybová upozornění, abys zachytil neúspěšné běhy. Nic není horší než zjistit, že scraper ti tiše přestal fungovat před dvěma týdny.

Thunderbit přístup: Scheduled Scraper v běžné řeči

Thunderbit Scheduled Scraper ti umožní popsat interval přirozeným jazykem — napiš „každé pondělí v 9 ráno“ nebo „každý den v 8 ráno“ a AI plán pochopí. Scrapy běží na cloudových serverech Thunderbit (není potřeba žádný spuštěný prohlížeč ani počítač) a data se automaticky exportují do Google Sheets nebo Airtable. Vznikne tak živý monitoring dashboard bez správy serveru — ideální pro operations týmy, které chtějí mít přehled bez DevOps režie.

Právní a etické aspekty scrapování Amazonu

Nejsem právník a tohle není právní rada. Ale ignorovat právní rámec v návodu na scraping by bylo nezodpovědné — uživatelé na fórech se na podmínky používání ptají úplně oprávněně.

Amazon robots.txt: K roku 2026 obsahuje robots.txt Amazonu více než 80 konkrétních cest s Disallow, ale /gp/bestsellers/ není pro standardní user-agenty výslovně blokovaná. Nicméně více než 35 AI specifických user-agentů (ClaudeBot, GPTBot, Scrapy apod.) dostává plošné Disallow: /. To, že něco není výslovně zakázané, neznamená, že Amazon scrapování schvaluje.

Podmínky používání Amazonu: Amazonu (aktualizované v květnu 2025) výslovně zakazují „použití jakéhokoli automatizovaného procesu nebo technologie k přístupu, získávání, kopírování či monitorování jakékoli části webu Amazonu“ bez písemného souhlasu. To není teorie — Amazon v listopadu 2025 kvůli neautorizovanému automatizovanému přístupu a získal předběžné opatření.

Precedent hiQ v. LinkedIn: V případu (Ninth Circuit, 2022) soud rozhodl, že scrapování veřejně dostupných dat pravděpodobně neporušuje Computer Fraud and Abuse Act. hiQ ale nakonec uzavřelo dohodu a souhlasilo se zastavením scrapování — vítězství v rámci CFAA tě neochrání před žalobami z porušení smlouvy.

Praktická doporučení:

  • Scrapuj pouze veřejně dostupná data (ceny, BSR, názvy produktů — ne osobní údaje)
  • Respektuj rate limit a nepřetěžuj servery
  • Používej data pro legitimní konkurenční analýzu
  • Před velkoobjemovým scrapováním se poraď s vlastním právníkem
  • Měj na paměti, že má dnes komplexní legislativu v oblasti ochrany soukromí

Cloudové scrapování Thunderbit používá standardní požadavky podobné běžnému prohlížeči, ale vždy si ověř soulad s právníkem ve své organizaci.

Kterou metodu byste měli použít? Rychlý rozhodovací průvodce

Stručně:

  • „Učím se Python a chci projekt na víkend.“ → Metoda 1 (requests + BeautifulSoup). Naučíš se hodně o HTTP requestech, parsování HTML a anti-bot ochraně Amazonu.
  • „Potřebuji scrapovat stránky s těžkým JavaScriptem nebo přihlášenými relacemi.“ → Metoda 2 (Selenium). Je těžkopádnější, ale zvládá dynamický obsah.
  • „Dělám produkční scraping ve velkém.“ → Metoda 3 (Scraping API). Nech proxy a rendering na někom jiném. vychází ve prospěch API pod 500 tisíc requestů měsíčně.
  • „Nejsem vývojář a chci data do 2 minut.“ → Metoda 4 (). Žádný kód, žádné selektory, žádná údržba.
  • „Potřebuji průběžný monitoring bez správy serveru.“ → Thunderbit Scheduled Scraper. Nastavíš a zapomeneš.

Závěr a hlavní poznatky

Po víkendu testování mi zůstalo hlavně toto:

requests + BeautifulSoup je skvělé na učení, ale omezení lazy loadingu (jen asi 30 z 50 produktů) a křehké CSS selektory z něj dělají nepraktické řešení pro produkci.

Selenium řeší problém lazy loadingu a zachytí všech 50 produktů na stránku, ale je pomalé, náročné na paměť a Amazon ho pořád dokáže detekovat.

Scraping API nabízí nejlepší spolehlivost pro produkční scraping — na Amazonu — ale náklady rostou a stejně musíš psát parsovací kód.

Thunderbit jednoznačně přinesl nejrychlejší čas k datům. AI si poradí se změnami rozložení, lazy loadingem, stránkováním i anti-bot opatřeními bez jakékoli konfigurace. Pro netechnické uživatele nebo týmy, které potřebují opakovaná data bez DevOps režie, je to nejpraktičtější volba.

Největší ponaučení? Anti-bot obrana Amazonu a časté změny rozložení znamenají, že řešení bez údržby ti v dlouhodobém horizontu ušetří nejvíc času. Každá hodina strávená laděním rozbitých selektorů a rotací proxy je hodina, kterou nestrávíš skutečnou analýzou.

Chceš vyzkoušet no-code přístup? ti dá dost kreditů na stažení několika kategorií Best Sellers a můžeš si výsledky ověřit sám. Dáváš přednost Pythonu? Ukázky kódu výše by ti měly pomoct začít. V obou případech budeš mít data z Amazon Best Sellers v tabulce místo zírání do záložky v prohlížeči.

Další informace o přístupech ke scrapování webu najdeš v našich návodech na , a . Můžeš se také podívat na podrobné ukázky na .

Zjistit více

Obsah

Vyzkoušej Thunderbit

Stáhni leady a další data jen na 2 kliknutí. Poháněno AI.

Získej Thunderbit Je to zdarma
Extrahuj data pomocí AI
Snadno přenes data do Google Sheets, Airtable nebo Notion
Chrome Store Rating
PRODUCT HUNT#1 Product of the Week