Kuinka Google Shopping -dataa voidaan kerätä

Google Shopping käsittelee yli . Se on valtava määrä hintadataa, tuotetrendejä ja myyjätietoja — kaikki valmiina selaimessasi, koottuna tuhansilta jälleenmyyjiltä.

Miten tuo data saadaan ulos Google Shoppingista ja taulukkolaskentaan? Siinä kohtaa homma muuttuu hankalaksi. Olen testannut erilaisia lähestymistapoja melko paljon — selainlaajennuksista täysiin Python-skripteihin — ja kokemus vaihtelee tyyliin "vau, olipa helppoa" ja "olen debugannut CAPTCHAa kolme päivää ja haluan lopettaa". Useimmat oppaat olettavat, että olet Python-kehittäjä, mutta omien kokemusteni mukaan iso osa Google Shopping -dataa tarvitsevista on verkkokauppaoperaattoreita, hinnoitteluanalyytikoita ja markkinoijia, jotka haluavat vain numerot ilman koodaamista. Siksi tämä opas kattaa kolme tapaa, helpoimmasta teknisimpään, jotta voit valita omaan osaamistasoosi ja aikatauluusi sopivan vaihtoehdon.

Mitä Google Shopping -data on?

Google Shopping on tuotteiden hakukone. Kirjoita esimerkiksi "langattomat melua vaimentavat kuulokkeet", ja Google näyttää listauksia kymmeniltä verkkokaupoilta — tuotenimikkeet, hinnat, myyjät, arviot, kuvat ja linkit. Elävä, jatkuvasti päivittyvä katalogi siitä, mitä verkossa on myynnissä.

Miksi Google Shopping -data kannattaa kerätä?

Yksittäinen tuotesivu kertoo hyvin vähän. Satoja tuotteita taulukossa järjestettynä — silloin alat nähdä kaavoja.

google-shopping-manual-vs-auto (1).png

Tässä ovat yleisimmät käyttötapaukset, joita olen nähnyt:

Käyttötapaus	Hyötyjät	Mitä etsitään
Kilpailijahinnoittelun analyysi	Verkkokauppatiimit, hinnoitteluanalyytikot	Kilpailijoiden hinnat, alennusmallit, hintamuutokset ajan myötä
Tuotetrendien tunnistaminen	Markkinointitiimit, tuoteomistajat	Uudet tuotteet, nousevat kategoriat, arvostelujen määrä
Mainosälykkyys	PPC-asiantuntijat, kasvutiimit	Sponsorilistaukset, ketkä myyjät mainostavat, mainosten tiheys
Myyjä- ja liiditutkimus	Myyntitiimit, B2B	Aktiiviset kauppiaat, uudet myyjät kategoriassa
MAP-seuranta	Brändipäälliköt	Jälleenmyyjät, jotka rikkovat vähimmäismarkkinointihintaa koskevia käytäntöjä
Varasto- ja valikoimaseuranta	Kategoriapäälliköt	Saatavuus, valikoiman puutteet

käyttää nykyään tekoälyä hyödyntäviä hinnoittelutyökaluja. Yritykset, jotka investoivat kilpailijatiedon hankintaan, ovat raportoineet jopa 29-kertaisia tuottoja. Amazon päivittää hintoja noin 10 minuutin välein. Jos seuraat kilpailijoiden hintoja vielä käsin, yhtälö ei ole puolellasi.

Thunderbit on AI Web Scraper Chrome -laajennus, joka auttaa liiketoimintakäyttäjiä keräämään dataa verkkosivustoilta tekoälyn avulla. Se on erityisen hyödyllinen verkkokauppaoperaattoreille, hinnoitteluanalyytikoille ja markkinoijille, jotka haluavat jäsenneltyä Google Shopping -dataa ilman koodausta.

Mitä dataa Google Shoppingista voi oikeasti kerätä?

Ennen kuin valitset työkalun tai kirjoitat riviäkään koodia, on hyvä tietää tarkalleen, mitä kenttiä on saatavilla — ja mitkä vaativat hieman enemmän työtä.

Kentät Google Shoppingin hakutuloksista

Kun teet haun Google Shoppingissa, jokainen tuotekortti hakutulossivulla sisältää:

Kenttä	Tyyppi	Esimerkki	Huomioita
Tuotenimi	Teksti	"Sony WH-1000XM5 Wireless Headphones"	Aina saatavilla
Hinta	Numero	278,00 $	Saattaa näyttää tarjoushinnan + alkuperäisen hinnan
Myyjä / kauppa	Teksti	"Best Buy"	Samalla tuotteella voi olla useita myyjiä
Arvosana	Numero	4,7	Viidestä tähdestä; ei aina näkyvissä
Arvostelujen määrä	Numero	12 453	Saattaa puuttua uusilta tuotteilta
Tuotekuvan URL	URL	https://...	Saattaa palauttaa alkuvaiheessa base64-paikanvaraajan
Tuotelinkki	URL	https://...	Vie Googlen tuotesivulle tai suoraan kauppaan
Toimitustiedot	Teksti	"Ilmainen toimitus"	Ei aina mukana
Sponsorimerkintä	Totuusarvo	Kyllä / Ei	Ilmaisee maksetun sijoituksen — hyödyllinen mainosanalyysiin

Kentät tuotesivuilta (alatasosivun data)

Jos avaat yksittäisen tuotteen Google Shoppingin tuotesivun, saat käyttöösi rikkaampaa dataa:

Kenttä	Tyyppi	Huomioita
Täysi kuvaus	Teksti	Vaatii tuotesivulla käymisen
Kaikkien myyjien hinnat	Numero (useita)	Hintavertailu jälleenmyyjien välillä rinnakkain
Tekniset tiedot	Teksti	Vaihtelee tuoteryhmittäin (mitat, paino jne.)
Yksittäinen arvosteluteksti	Teksti	Ostajien koko arvostelusisältö
Plussat ja miinukset	Teksti	Google luo nämä joskus automaattisesti

Näiden kenttien saaminen edellyttää, että käyt läpi jokaisen tuotteen alisivun hakutulosten keräämisen jälkeen. Työkalut, joissa on -toiminto, hoitavat tämän automaattisesti — käyn työnkulun läpi alla.

Kolme tapaa kerätä Google Shopping -dataa (valitse itsellesi sopiva)

Kolme menetelmää, helpoimmasta teknisimpään. Valitse oma tilanteesi mukainen rivi ja siirry eteenpäin:

Menetelmä	Taitotaso	Asennusaika	Anti-bot-käsittely	Sopii parhaiten
Ilman koodia (Thunderbit Chrome -laajennus)	Aloittelija	~2 min	Hoituu automaattisesti	Verkkokauppaoperaatiot, markkinoijat, kertaluontoinen tutkimus
Python + SERP API	Keskitaso	~30 min	API hoitaa	Kehittäjille, jotka tarvitsevat ohjelmallista ja toistettavaa pääsyä
Python + Playwright (selaimen automaatio)	Edistynyt	~1 h+	Sinä hallinnoit itse	Räätälöidyt työnkulut, erikoistapaukset

Menetelmä 1: Google Shopping -datan kerääminen ilman koodia (Thunderbitillä)

Vaikeusaste: Aloittelija
Aikaa kuluu: ~2–5 minuuttia
Tarvitset: Chrome-selaimen, (ilmainen taso toimii), Google Shopping -hakukyselyn

Nopein reitti siitä, että "tarvitsen Google Shopping -dataa", siihen, että "tässä on taulukkolaskentani". Ei koodia, ei API-avaimia, ei proxyn asetuksia. Olen opastanut tätä työnkulkua kymmeniä kertoja ei-teknisille kollegoille — eikä kukaan ole jäänyt jumiin.

Vaihe 1: Asenna Thunderbit ja avaa Google Shopping

Asenna Chrome Web Storesta ja luo ilmainen tili.

Siirry sen jälkeen Google Shoppingiin. Voit mennä suoraan osoitteeseen shopping.google.com tai käyttää tavallisen Google-haun Shopping-välilehteä. Hae mitä tahansa tuotetta tai kategoriaa, joka kiinnostaa — esimerkiksi "langattomat melua vaimentavat kuulokkeet".

Sinun pitäisi nähdä ruudukko tuotteita, hintoja, myyjiä ja arvosanoja.

Vaihe 2: Napsauta "AI Suggest Fields" automaattista sarakkeiden tunnistusta varten

Avaa Thunderbit-laajennuksen kuvake sivupalkista ja napsauta "AI Suggest Fields." Tekoäly skannaa Google Shopping -sivun ja ehdottaa sarakkeita: tuotenimi, hinta, myyjä, arvosana, arvostelujen määrä, kuvan URL ja tuotelinkki.

Tarkista ehdotetut kentät. Voit nimetä sarakkeita uudelleen, poistaa tarpeettomia tai lisätä omia kenttiä. Jos haluat tarkentaa, esimerkiksi "poimi vain numeroinen hinta ilman valuuttamerkkiä", voit lisätä kyseiselle sarakkeelle Field AI Prompt -ohjeen.

Thunderbit-paneelissa pitäisi näkyä sarakerakenteen esikatselu.

Vaihe 3: Klikkaa "Scrape" ja tarkista tulokset

Paina sinistä "Scrape"-painiketta. Thunderbit poimii kaikki näkyvät tuotteet jäsenneltyyn taulukkoon.

Useita sivuja? Thunderbit käsittelee sivutuksen automaattisesti — joko klikkaamalla sivuja eteenpäin tai vierittämällä lisää tuloksia esiin sivun rakenteesta riippuen. Jos tuloksia on paljon, voit valita joko Cloud Scraping -tilan (nopeampi, jopa 50 sivua kerrallaan, toimii Thunderbitin hajautetusta infrastruktuurista) tai Browser Scraping -tilan (käyttää omaa Chrome-istuntoasi — hyödyllinen, jos Google näyttää aluesidonnaisia tuloksia tai vaatii kirjautumisen).

Omat testini osoittivat, että 50 tuotteen kerääminen kesti noin 30 sekuntia. Sama työ käsin — jokaisen listauksen avaaminen, nimen, hinnan, myyjän ja arvosanan kopiointi — olisi vienyt yli 20 minuuttia.

Vaihe 4: Rikasta dataa alisivujen keräyksellä

Alkukeräyksen jälkeen napsauta Thunderbit-paneelissa "Scrape Subpages". Tekoäly käy jokaisen tuotteen tuotesivulla ja lisää alkuperäiseen taulukkoon lisäkentät — täydet kuvaukset, kaikkien myyjien hinnat, tekniset tiedot ja arvostelut.

Lisäasetuksia ei tarvita — tekoäly päättelee kunkin tuotesivun rakenteen ja poimii olennaiset tiedot. Rakensin tällä tavalla 40 tuotteen koko kilpailijahinnoittelun matriisin (tuote + kaikki myyjähinnat + tiedot) alle viidessä minuutissa.

Vaihe 5: Vie tiedot Google Sheetsiin, Exceliin, Airtableen tai Notioniin

Napsauta "Export" ja valitse kohde — , Excel, Airtable tai Notion. Kaikki ilmaiseksi. Saatavilla ovat myös CSV- ja JSON-lataukset.

Kaksi klikkausta keräämiseen, yksi klikkaus vientiin. Vastaava Python-skripti? Noin 60 riviä koodia, proxyn asetukset, CAPTCHA-käsittely ja jatkuva ylläpito.

Menetelmä 2: Google Shopping -datan kerääminen Pythonilla + SERP API:lla

Vaikeusaste: Keskitaso
Aikaa kuluu: ~30 minuuttia
Tarvitset: Python 3.10+, requests- ja pandas-kirjastot, SERP API -avaimen (ScraperAPI, SerpApi tai vastaava)

Jos tarvitset ohjelmallisen ja toistettavan pääsyn Google Shopping -dataan, SERP API on luotettavin Python-pohjainen vaihtoehto. Anti-bot-suojaukset, JavaScript-renderöinti, proxyjen kierrätys — kaikki hoituu taustalla. Sinä lähetät HTTP-pyynnön, ja saat takaisin jäsenneltyä JSON-dataa.

Vaihe 1: Aseta Python-ympäristö

Asenna Python 3.12 (turvallinen oletus tuotantokäyttöön vuosina 2025–2026) ja tarvittavat paketit:

1pip install requests pandas

Luo tili SERP API -tarjoajalle. tarjoaa 100 ilmaista hakua kuukaudessa; antaa 5 000 ilmaista krediittiä. Hae API-avain hallintapaneelista.

Vaihe 2: Määritä API-pyyntö

Tässä on minimi-esimerkki, joka käyttää ScraperAPI:n Google Shopping -päätettä:

1import requests
2import pandas as pd
3API_KEY = "YOUR_API_KEY"
4query = "wireless noise cancelling headphones"
5resp = requests.get(
6    "https://api.scraperapi.com/structured/google/shopping",
7    params={"api_key": API_KEY, "query": query, "country_code": "us"}
8)
9data = resp.json()

API palauttaa jäsenneltyä JSON-dataa, jossa on kenttiä kuten title, price, link, thumbnail, source (myyjä) ja rating.

Vaihe 3: Parsii JSON-vastaus ja poimi kentät

1products = data.get("shopping_results", [])
2rows = []
3for p in products:
4    rows.append({
5        "title": p.get("title"),
6        "price": p.get("price"),
7        "seller": p.get("source"),
8        "rating": p.get("rating"),
9        "reviews": p.get("reviews"),
10        "link": p.get("link"),
11        "thumbnail": p.get("thumbnail"),
12    })
13df = pd.DataFrame(rows)

Vaihe 4: Vie CSV- tai JSON-muotoon

1df.to_csv("google_shopping_results.csv", index=False)

Sopii eräajoon: voit käydä läpi 50 avainsanaa ja rakentaa kokonaisen datasetin yhdellä skriptiajolla. Haittapuolena on kustannus — SERP API:t veloittavat per kysely, ja tuhansien kyselyiden päivävauhdilla lasku kasvaa nopeasti. Lisää hinnoittelusta alla.

Menetelmä 3: Google Shopping -datan kerääminen Pythonilla + Playwrightilla (selaimen automaatio)

Vaikeusaste: Edistynyt
Aikaa kuluu: ~1 tunti tai enemmän (sekä jatkuva ylläpito)
Tarvitset: Python 3.10+, Playwrightin, residential-proxyt ja kärsivällisyyttä

"Täysi hallinta" -lähestymistapa. Käynnistät oikean selaimen, siirryt Google Shoppingiin ja poimit datan renderöidyltä sivulta. Erittäin joustava, mutta myös haavoittuvin — Googlen anti-bot-järjestelmät ovat aggressiivisia, ja sivun rakenne muuttuu useita kertoja vuodessa.

Rehellinen varoitus: olen puhunut käyttäjien kanssa, jotka käyttivät viikkoja CAPTCHA- ja IP-estojen kanssa painimiseen tällä menetelmällä. Se toimii, mutta odota jatkuvaa ylläpitoa.

Vaihe 1: Asenna Playwright ja proxyt

1pip install playwright
2playwright install chromium

Tarvitset residential-proxyt. Datakeskus-IP:t estetään lähes heti — yksi foorumikäyttäjä sanoi sen suoraan: "Kaikki AWS-IP:t estetään tai ne törmäävät CAPTCHAan jo 1/2 tuloksen jälkeen." Palvelut kuten Bright Data, Oxylabs tai Decodo tarjoavat residential-proxy-poolit alkaen noin 1–5 $/GB.

Määritä Playwright realistisella user-agentilla ja proxylläsi:

1from playwright.sync_api import sync_playwright
2with sync_playwright() as p:
3    browser = p.chromium.launch(
4        headless=True,
5        proxy={"server": "http://your-proxy:port", "username": "user", "password": "pass"}
6    )
7    context = browser.new_context(
8        user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 ..."
9    )
10    page = context.new_page()

Vaihe 2: Siirry Google Shoppingiin ja käsittele anti-bot-suojaukset

Rakenna Google Shopping -URL ja avaa se:

1query = "wireless noise cancelling headphones"
2url = f"https://www.google.com/search?udm=28&q=\{query\}&gl=us&hl=en"
3page.goto(url, wait_until="networkidle")

Käsittele EU:n evästehyväksyntäikkuna, jos se ilmestyy:

1try:
2    page.click("button#L2AGLb", timeout=3000)
3except:
4    pass

Lisää toimintoihin ihmismäisiä viiveitä — 2–5 sekunnin satunnainen odotus sivulatausten välillä. Googlen tunnistusjärjestelmät havaitsevat nopeat, tasarytmiset pyynnöt.

Vaihe 3: Vieritä, sivuta ja poimi tuotedata

Google Shopping lataa tulokset dynaamisesti. Vieritä, jotta laiska lataus aktivoituu, ja poimi sitten tuotekortit:

1import time, random
2# Vieritä ladataksesi kaikki tulokset
3for _ in range(3):
4    page.evaluate("window.scrollBy(0, 1000)")
5    time.sleep(random.uniform(1.5, 3.0))
6# Poimi tuotekortit
7cards = page.query_selector_all("[jsname='ZvZkAe']")
8results = []
9for card in cards:
10    title = card.query_selector("h3")
11    price = card.query_selector("span.a8Pemb")
12    # ... poimi muut kentät
13    results.append({
14        "title": title.inner_text() if title else None,
15        "price": price.inner_text() if price else None,
16    })

Tärkeä huomio: yllä olevat CSS-valitsimet ovat suuntaa antavia ja tulevat muuttumaan. Google vaihtaa luokkanimiä usein. Vuosina 2024–2026 on dokumentoitu kolme eri valitsinjoukkoa. Tukeudu vakaampiin attribuutteihin kuten jsname, data-cid, <h3>-tageihin ja img[alt]-kenttiin luokkanimien sijaan.

Vaihe 4: Tallenna CSV- tai JSON-muotoon

1import json
2from datetime import datetime
3filename = f"shopping_{datetime.now().strftime('%Y%m%d_%H%M')}.json"
4with open(filename, "w") as f:
5    json.dump(results, f, indent=2)

Varaudu ylläpitämään tätä skriptiä säännöllisesti. Kun Google muuttaa sivun rakennetta — mitä tapahtuu useita kertoja vuodessa — valitsimesi rikkoutuvat ja olet taas debuggaamassa.

Suurin kipukohta: CAPTCHA ja anti-bot-estot

Foorumilta toiselle toistuu sama tarina: "Päätin käyttää pari viikkoa, mutta luovutin Googlen anti-bot-keinojen edessä." CAPTCHA ja IP-estot ovat yleisin syy siihen, että ihmiset hylkäävät itse rakennetut Google Shopping -kerääjät.

Miten Google estää kerääjiä (ja mitä asialle voi tehdä)

Anti-bot-haaste	Mitä Google tekee	Kiertotapa
IP-jäljentäminen	Estää datakeskus-IP:t muutaman pyynnön jälkeen	Residential-proxyt tai selaimeen perustuva keräys
CAPTCHA	Laukeaa nopeiden tai automatisoitujen pyyntökuvioiden vuoksi	Nopeuden rajoitus (10–20 s pyyntöjen välillä), ihmismäiset viiveet, CAPTCHA-ratkaisut
JavaScript-renderöinti	Shopping-tulokset latautuvat dynaamisesti JS:n avulla	Headless-selain (Playwright) tai API, joka renderöi JS:n
User-agentin tunnistus	Estää yleiset botti-user-agentit	Vaihda realistisia ja ajan tasalla olevia user-agent-stringeja
TLS-fingerprinting	Tunnistaa selaimesta poikkeavat TLS-jäljet	Käytä `curl_cffi`:tä selaimen esiintymällä tai oikeaa selainta
AWS-/pilvi-IP-estot	Estää tunnetut pilvipalveluiden IP-alueet	Vältä datakeskus-IP:itä kokonaan

Tammikuussa 2025 Google teki JavaScriptin ajamisesta pakollista SERP- ja Shopping-tuloksille, — mukaan lukien SemRushin ja SimilarWebin käyttämät putket. Syyskuussa 2025 Google poisti käytöstä vanhat tuotesivujen URL-osoitteet ja ohjasi ne uuteen "Immersive Product" -näkymään, joka latautuu async AJAXin kautta. Kaikki ennen loppuvuotta 2025 kirjoitetut ohjeet ovat nykyään pitkälti vanhentuneita.

Miten kukin menetelmä selviää näistä haasteista

SERP API:t hoitavat kaiken taustalla — proxyt, renderöinnin, CAPTCHA-ratkaisun. Sinun ei tarvitse miettiä sitä.

Thunderbit Cloud Scraping käyttää hajautettua pilvi-infrastruktuuria Yhdysvalloissa, EU:ssa ja Aasiassa, jotta JS-renderöinti ja anti-bot-suojaukset hoituvat automaattisesti. Browser Scraping -tila käyttää omaa todennettua Chrome-istuntoasi, mikä kiertää tunnistuksen kokonaan, koska se näyttää tavalliselta selaamiselta.

Itse rakennettu Playwright-ratkaisu siirtää koko vastuun sinulle — proxyjen hallinta, viiveiden säätö, CAPTCHA-ratkaisu, valitsimien ylläpito ja jatkuva rikkoutumisten seuranta.

Google Shopping -datan keräämisen todellinen hinta: rehellinen vertailu

"50 dollaria noin 20 000 pyynnöstä… vähän suolainen hinta harrastusprojektilleni." Tuo kommentti toistuu foorumeilla jatkuvasti. Mutta keskustelussa unohdetaan usein suurin kustannus kaikista.

Kustannusvertailu

Lähestymistapa	Alkukustannus	Kustannus per haku (arvio)	Ylläpitotaakka	Piilokustannukset
Itse tehty Python (ei proxyja)	Ilmainen	$0	KORKEA (rikkoutumiset, CAPTCHA)	Oma aika debuggaamiseen
Itse tehty Python + residential-proxyt	Ilmainen koodi	~1–5 $/GB	KESKIKORKEA–KORKEA	Proxy-palvelun maksut
SERP API (SerpApi, ScraperAPI)	Ilmainen taso rajallinen	~0,50–5,00 $/1 000 hakua	MATALA	Kasvaa nopeasti volyymin mukana
Thunderbit Chrome -laajennus	Ilmainen taso (6 sivua)	Krediittipohjainen, ~1 krediitti/rivi	ERITTÄIN MATALA	Maksullinen taso suurempaan volyymiin
Thunderbit Open API (Extract)	Krediittipohjainen	~20 krediittiä/sivu	MATALA	Maksa käytön mukaan

Piilokustannus, jonka kaikki sivuuttavat: aikasi

Ilmainen DIY-ratkaisu, joka vie 40 tuntia debuggausta, ei ole oikeasti ilmainen. Jos tuntipalkkasi on 50 dollaria, se on 2 000 dollaria työaikaa — ja skripti voi rikkoutua uudelleen jo ensi kuussa, kun Google vaihtaa DOM-rakenteensa.

google-shopping-cost-vs (2).png

McKinseyn Technology Outlookin mukaan . Sen alapuolella oman ratkaisun rakentaminen "kuluttaa budjettia tuottamatta ROI:ta." Useimmille verkkokauppatiimeille, jotka tekevät muutamasta sadasta muutamaan tuhanteen hakuun viikossa, no-code-työkalu tai SERP API on huomattavasti kustannustehokkaampi kuin oman ratkaisun kehittäminen.

Näin otat käyttöön automatisoidun Google Shopping -hintaseurannan

Useimmat oppaat käsittelevät keräystä kertaluontoisena tehtävänä. Verkkokauppatiimien todellinen käyttötapaus on jatkuva, automatisoitu seuranta. Tarvitsetkin tänään hinnat, viime viikon hinnat ja huomisen hinnat.

Aikataulutettu keräys Thunderbitillä

Thunderbitin Scheduled Scraperin avulla voit kuvata aikavälin tavallisella kielellä — "joka päivä klo 9" tai "joka maanantai ja torstai keskipäivällä" — ja tekoäly muuntaa sen toistuvaksi ajastukseksi. Syötä Google Shopping -URL-osoitteesi, klikkaa "Schedule," ja olet valmis.

Jokainen ajo vie tiedot automaattisesti Google Sheetsiin, Airtableen tai Notioniin. Lopputulos: taulukko, joka täyttyy päivittäin kilpailijahinnoilla ja on heti valmis pivot-taulukoihin tai hälytyksiin.

Ei cron-jobeja. Ei palvelinten hallintaa. Ei Lambda-funktioiden murheita. (Olen nähnyt foorumipostauksia kehittäjiltä, jotka käyttivät päiviä yrittäessään saada Seleniumin toimimaan AWS Lambdassa — Thunderbitin ajastin ohittaa kaiken tuon.)

Lisää tietoa löytyy omasta syväluotauksestamme.

Aikataulutus Pythonilla (kehittäjille)

Jos käytät SERP API -mallia, voit ajastaa ajot cronilla (Linux/Mac), Windows Task Schedulerilla tai pilviaikatauluttimilla kuten AWS Lambda tai Google Cloud Functions. Python-kirjastot kuten APScheduler toimivat myös.

Vaihtokauppa: olet nyt itse vastuussa skriptin kunnon valvonnasta, virheiden käsittelystä, proxyjen kierrättämisestä aikataulussa sekä valitsimien päivittämisestä, kun Google muuttaa sivua. Useimmille tiimeille ylläpitoon käytetty aika ylittää omatekoisen ajastetun Python-kerääjän kustannukset.

Vinkkejä ja parhaat käytännöt Google Shopping -datan keräämiseen

Menetelmästä riippumatta muutama asia säästää sinulta vaivaa.

Kunnioita rajoituksia

Älä lähetä Googlelle satoja nopeita pyyntöjä — sinut estetään, ja IP voi jäädä merkityksi joksikin aikaa. Itse tehdyt ratkaisut: laita pyyntöjen väliin 10–20 sekuntia ja satunnaista vaihtelua. Työkalut ja API:t hoitavat tämän puolestasi.

Sovita menetelmä volyymiisi

Pikaohje päätöksentekoon:

< 10 hakua/viikko → Thunderbitin ilmainen taso tai SerpApi:n ilmainen taso
10–1 000 hakua/viikko → SERP API:n maksullinen suunnitelma tai
1 000+ hakua/viikko → SERP API:n yritystaso tai Thunderbit Open API

Puhdista ja validoi data

Hintoihin tulee valuuttamerkkejä, paikallisia muotoiluja (1.299,00 € vs $1,299.00) ja joskus roska-merkkejä. Voit normalisoida ne Thunderbitin Field AI Prompt -ohjeilla jo keräysvaiheessa tai siivota pandasilla jälkeenpäin:

1df["price_num"] = df["price"].str.replace(r"[^\d.]", "", regex=True).astype(float)

Tarkista päällekkäisyydet orgaanisten ja sponsoroitujen listojen välillä — ne usein limittyvät. Poista duplikaatit avainkombinaatiolla (title, price, seller).

Tunne juridinen ympäristö

Julkisesti saatavilla olevan tuotedatan kerääminen on yleensä sallittua, mutta oikeudellinen ympäristö muuttuu nopeasti. Tärkein viimeaikainen kehitys: DMCA § 1201 -pohjalla Googlen "SearchGuard"-anti-scraping-järjestelmän kiertämisestä. Tämä on uusi täytäntöönpanoreitti, joka kiertää aiemmissa tapauksissa kuten hiQ v. LinkedIn ja Van Buren v. United States luodut puolustukset.

Käytännön ohjeet:

Kerää vain julkisesti saatavilla olevaa dataa — älä kirjaudu sisään päästäksesi rajoitettuun sisältöön
Älä poimi henkilötietoja (arvioijien nimet, tilitiedot)
Huomaa, että Googlen käyttöehdot kieltävät automatisoidun pääsyn — SERP API:n tai selainlaajennuksen käyttö pienentää oikeudellisia harmaita alueita, mutta ei poista niitä täysin
EU-toiminnoissa huomioi GDPR, vaikka tuotelistat ovatkin pääosin ei-henkilökohtaista kaupallista dataa
Harkitse lakineuvontaa, jos rakennat kaupallista tuotetta kerätyn datan varaan

Syvempää luettavaa aiheesta löytyy erillisestä artikkelistamme.

Kumpaa menetelmää sinun kannattaa käyttää Google Shopping -datan keräämiseen?

Kun testasin kaikki kolme tapaa samoilla tuoteryhmillä, tähän lopputulokseen päädyin:

Jos olet ei-tekninen käyttäjä ja tarvitset dataa nopeasti — käytä Thunderbitiä. Avaa Google Shopping, klikkaa kahdesti, vie data. Saat siistin taulukon alle viidessä minuutissa. antaa sinun kokeilla ilman sitoumusta, ja alisivujen keräystoiminto tuottaa rikkaampaa dataa kuin useimmat Python-skriptit.

Jos olet kehittäjä ja tarvitset toistettavaa ohjelmallista pääsyä — käytä SERP API:a. Luotettavuus on per kysely -kustannuksen arvoinen, eikä sinun tarvitse taistella anti-bot-ongelmien kanssa. SerpApi:lla on paras dokumentaatio; ScraperAPI:n ilmainen taso on anteliain.

Jos tarvitset maksimaalisen hallinnan ja rakennat räätälöityä putkea — Playwright toimii, mutta lähde mukaan silmät auki. Varaa merkittävästi aikaa proxyjen hallintaan, valitsimien ylläpitoon ja CAPTCHA-käsittelyyn. Vuosina 2025–2026 vähimmäistoimiva ohituspaketti on curl_cffi Chrome-esiintymisellä + residential-proxyt + 10–20 sekunnin rytmitys. Pelkkä requests-skripti vaihtuvilla user-agenteilla on kuollut.

Paras menetelmä on se, joka antaa sinulle täsmällisen datan ilman että se syö koko viikkoasi. Useimmille ihmisille se ei ole 60-rivinen Python-skripti — vaan kaksi klikkausta.

Tutustu , jos tarvitset suurempaa volyymia, tai katso opetusvideoitamme nähdäksesi työnkulun käytännössä.

Kokeile Thunderbitiä Google Shopping -datan keräämiseen

Usein kysytyt kysymykset

Onko Google Shopping -datan kerääminen laillista?

Julkisesti saatavilla olevan tuotedatan kerääminen on yleensä laillista hiQ v. LinkedIn- ja Van Buren v. United States -ennakkotapausten kaltaisissa puitteissa. Googlen käyttöehdot kuitenkin kieltävät automatisoidun käytön, ja Googlen joulukuun 2025 oikeusjuttu SerpApi:a vastaan toi mukaan uuden DMCA § 1201 -kiertämisargumentin. Tunnetut työkalut ja API:t pienentävät riskiä. Kaupallisiin käyttötapauksiin kannattaa kysyä lakineuvontaa.

Voinko kerätä Google Shopping -dataa ilman että minut estetään?

Kyllä, mutta menetelmällä on väliä. SERP API:t hoitavat anti-bot-suojaukset automaattisesti. Thunderbitin Cloud Scraping käyttää hajautettua infrastruktuuria estojen välttämiseksi, ja Browser Scraping -tila käyttää omaa Chrome-istuntoasi (joka näyttää tavalliselta selaamiselta). Itse tehdyt Python-skriptit vaativat residential-proxyt, ihmismäiset viiveet ja TLS-fingerprintin hallinnan — ja siitä huolimatta estot ovat yleisiä.

Mikä on helpoin tapa kerätä Google Shopping -dataa?

Thunderbitin Chrome -laajennus. Siirry Google Shoppingiin, klikkaa "AI Suggest Fields", klikkaa "Scrape" ja vie tiedot Google Sheetsiin tai Exceliin. Ei koodausta, ei API-avaimia, ei proxyjen määritystä. Koko prosessi vie noin 2 minuuttia.

Kuinka usein Google Shoppingia voi kerätä hintaseurantaa varten?

Thunderbitin Scheduled Scraperilla voit määrittää päivittäisen, viikoittaisen tai muun mukautetun aikavälin tavallisella kielellä. SERP API:issa tahti riippuu pakettisi krediittirajoista — useimmat tarjoajat antavat riittävästi kapasiteettia muutaman sadan SKU:n päivittäiseen seurantaan. Itse tehdyt skriptit voivat pyöriä niin usein kuin infrastruktuurisi sallii, mutta korkeampi tahti tuo mukanaan enemmän anti-bot-vaivaa.

Voinko viedä Google Shopping -datan Google Sheetsiin tai Exceliin?

Kyllä. Thunderbit vie tiedot suoraan Google Sheetsiin, Exceliin, Airtableen ja Notioniin ilmaiseksi. Python-skriptit voivat viedä tiedot CSV- tai JSON-muodossa, jonka jälkeen ne voi tuoda mihin tahansa taulukkolaskentatyökaluun. Jatkuvassa seurannassa Thunderbitin ajastetut viennit Google Sheetsiin luovat reaaliaikaisesti päivittyvän datasetin.

Lue lisää

Kuinka Google Shopping -dataa voidaan kerätä — koodilla tai ilman

Tarvitsetko räätälöityä verkkodataa?

Kokeile Thunderbitia