Amazon Scraper GitHub: Bästa praxis för att undvika spärrar

En GitHub-sökning på "amazon scraper" ger ungefär . Begränsar du det till repositorier som pushats de senaste sex månaderna landar du på cirka — knappt 20 %. Resten? Övergivna guider, föråldrade wrappers och skript som slutade fungera i samma ögonblick som Amazon skärpte sitt skydd.

Jag har lagt mycket tid på att gräva i Amazon scraper-repositorier, läsa GitHub-ärenden och följa communitytrådar på Reddit och Stack Overflow. Mönstret är tydligt: någon hittar ett populärt repo, lägger en timme på att sätta upp det, kör det en gång och möts av en vägg av CAPTCHAs eller 503-fel. Amazons anti-bot-strategi 2026 är inte samma som för bara två år sedan — TLS-fingeravtryck, beteendeanalys och aggressiv CAPTCHA-användning har gjort den gamla spelboken "rotera user agents och hoppas på det bästa" nästan värdelös. Den här guiden går igenom de bästa praxis som faktiskt spelar roll om du vill få tillförlitliga Amazon-data från ett GitHub-repo, och vad du ska göra när, inte om, din scraper går sönder.

Vad är en Amazon Scraper på GitHub (och varför misslyckas så många)?

Ett Amazon scraper-GitHub-repo är vanligtvis ett open source-skript — oftast byggt i Python, Node.js eller Scrapy — som extraherar strukturerad data från Amazonsidor. Datamålen är välbekanta: produkttitel, pris, ASIN, betyg, antal recensioner, tillgänglighet, säljarinformation, kort för sökresultat och recensionstext.

Arkitekturen är oftast enkel:

En HTTP-klient eller headless browser hämtar sidan.
En HTML- eller JSON-parser extraherar fälten.
Data sparas i CSV, JSON eller en databas.

Repositorier brukar delas in i fyra kategorier:

Lätta Python-bibliotek (t.ex. )
Scrapy-spindlar (t.ex. )
Selenium- eller Playwright-automatiseringar för webbläsare
API-wrapper-projekt som i praktiken är front ends till en kommersiell scrapingtjänst (t.ex. )

Felmönstret är förutsägbart. De flesta repos går sönder eftersom:

Amazon ändrar sidlayouten eller HTML-fragment
Amazon skickar en 503 eller CAPTCHA i stället för riktigt innehåll
Scraparens TLS- och HTTP-fingeravtryck inte längre ser webbläsarliknande ut
Mismatch i språk, lokalisering eller headers väcker misstänksamhet
Underhållaren går vidare efter att ha löst sitt ursprungliga, smala användningsfall

Höga stjärnbetyg och "för närvarande användbar" är två väldigt olika saker. I granskningen jag gjorde för den här artikeln såg bara ungefär tre av åtta brett synliga repos tydligt aktiva ut 2026.

Kör en färskhetsgranskning för 2026 innan du klonar något Amazon Scraper-GitHub-repo

Det här steget är viktigare för Amazon än för de flesta andra mål. Amazons försvar ändras snabbare än på en vanlig e-handelswebbplats, så ett repo som fungerar fint på en broschyrsajt kan bli värdelöst på Amazon inom några veckor. Ändå rekommenderar de flesta listor över "best amazon scraper github" repos utan att kontrollera om de fortfarande fungerar. Användare slösar timmar på att sätta upp trasiga verktyg.

Så kollar du om ett GitHub-repo fortfarande lever

Innan du git clone-ar något, gå igenom de här kontrollerna:

Datum för senaste commit: Allt äldre än 6 månader är en tydlig varningssignal för Amazon.
Öppna ärenden vs. svarsfrekvens: Sök i Issues-fliken efter "captcha", "503", "blocked" och "not working". Om sådana rapporter hopar sig utan svar från underhållaren, gå vidare.
Tilläggens hälsa: Öppna requirements.txt eller package.json. Föråldrade bibliotek (t.ex. gamla requests utan modern TLS-hantering) är en röd flagga.
Täckning av Amazons sidtyper: Klarar repo:t produktsidor, sökresultat OCH recensioner? Eller bara en av dem?
Anti-bot-strategi: Hårdkodade headers utan proxy-stöd är ett upplägg från 2023 som inte håller 2026.

Checklista för färskhet i Amazon Scraper-GitHub

Färskhetssignal	Vad du ska kontrollera	Varningstecken 🚩
Datum för senaste commit	Commit-flöde eller datum för push till repo	Äldre än 6 månader
Öppna ärenden	Issues-fliken — filtrera på "captcha", "503", "blocked"	Upprepade fel utan svar från underhållaren
Tilläggens hälsa	`requirements.txt` / `package.json`	Föråldrade bibliotek, ingen modern TLS-strategi
Täckning av Amazon-sidor	README + kodexempel	Klarar bara en sidtyp (t.ex. produktsidor men inte sök eller recensioner)
Anti-bot-strategi	Källkod, proxykonfiguration	Bara hårdkodade headers och UA-strängar
Underhållsmodell	Är det en riktig scraper, en handledning eller en kommersiell API-wrapper?	Repo:t är i praktiken bara ett gränssnitt till en betaltjänst

Vad granskningen faktiskt fann

Jag kollade åtta brett synliga Amazon scraper-repos mot de här kriterierna. Resultatet är nedslående:

Repo / verktyg	Stjärnor	Signal för senaste commit	Omfattning	Status 2026	Anteckningar
oxylabs/amazon-scraper	~2 872	2026-04-02	Hanterad scraper-API-wrapper	Lever, men inte DIY	Färskt, men detta är egentligen ett front end till en hanterad tjänst
omkarcloud/amazon-scraper	~214	2026-02-25	Hanterat API för sök, detaljer, recensioner	Lever, men inte DIY	Bra täckning, men det är en API-produkt, inte en rå scraper
theonlyanil/amzpy	~110	2026-02-26	Lättviktigt Python-bibliotek	Lever	Den tydligaste direkta GitHub-scrapern med `curl_cffi`
philipperemy/amazon-reviews-scraper	~134	2024-11-21	Bara recensioner	Smal men användbar	Gammal och väldigt recension-specifik
python-scrapy-playbook/amazon-python-scrapy-scraper	~74	Senaste commit 2023; repo pushat 2024-08-20	Scrapy-spindlar + proxy-mellanvara	Mer som en handledning, åldrande	Bra för lärande, inte en färdig 2026-stack
drawrowfly/amazon-product-api	~744	2022-11-13	Node CLI för sök, detaljer, recensioner	Hög risk	Bred täckning, men underhållet är för gammalt
tducret/amazon-scraper-python	~881	2020-10-13	Sök till CSV	Död för 2026	Populärt historiskt, tydligt föråldrat
scrapehero-code/amazon-scraper	~432	2020-06-21	Handledning för sök/produkt	Död för 2026	I praktiken arkivmaterial

De publika ärendena berättar samma historia. har ett ärende med titeln "All requests receive captcha response." har "Doesn't seem to be working." har "Bypass Amazon protection." Det här är inte ovanliga kantfall — det är det första användare stöter på.

Anti-ban-spelboken: Så undviker du att bli blockerad med en Amazon Scraper från GitHub

Att bli blockerad är den enskilt största smärtpunkten för alla som använder ett amazon scraper github-projekt. Generella råd som "använd proxies och rotera user agents" räcker inte längre. Amazons anti-bot-stack för 2025–2026 omfattar TLS-fingeravtryck, beteendeanalys och aggressiv CAPTCHA-användning. Du behöver en flerskiktad strategi.

TLS-fingeravtrycksmatchning: varför vanlig `requests` leder till spärr

Det här är en av de mest förbisedda anti-ban-teknikerna. TLS-fingeravtryck fungerar så här: när ditt skript öppnar en säker anslutning till Amazon kan servern läsa ut mycket om klienten genom hur den "skakar hand" — vilka cipher suites som erbjuds, i vilken ordning extensioner skickas, inställningarna för HTTP/2. Webbläsare använder relativt fasta TLS- och HTTP/2-inställningar, och de kombinationerna går att identifiera via tekniker som .

Vanlig requests och standardmässiga httpx-upplägg kan kopiera headers, men de kopierar inte Chrome-liknande TLS- och HTTP/2-beteende. Amazon kan se skillnaden.

angriper detta direkt. Det erbjuder webbläsarimitering — stödda mål inkluderar chrome136, safari184 och firefox133 — så att din HTTP-klients TLS-fingeravtryck matchar en riktig webbläsare. I dokumentationen varnas uttryckligen för att generera slumpmässiga JA3-strängar: webbläsarfingeravtryck är i stort sett fasta per version, och slumpmässigt nonsens är lättare att upptäcka än ett verkligt kopierat fingeravtryck.

Communitydata bekräftar det här. En bekräftar att argumentet impersonate är användbart eftersom det roterar webbläsarprofiler och håller headers i synk. En annan noterar att Amazon blockerar klienter baserat på TLS-fingeravtryck "efter ungefär en månad eller två." En frågar specifikt om Amazon fingerprintar python-requests (spoiler: ja).

Om du fortfarande använder vanlig requests som din första Amazon-klient bör du uppdatera det antagandet innan du uppgraderar något annat.

Rätt proxyrotation (inte bara "använd proxies")

Poängen med proxies är inte att rotera så mycket som möjligt. Poängen är att få sessioner att se trovärdiga ut.

Residential vs datacenter: Datacenter-proxies är billigare men lättare att upptäcka. Residential-proxies kostar mer men är mycket svårare för Amazon att flagga. börjar på 4,00 USD/GB pay-as-you-go och ner till 3,50 USD/GB på större planer. börjar på 6 USD/GB. Amazon hör hemma i kategorin "sofistikerat mål" där residential-proxies är värda premiumpriset.

Rotation per begäran vs per session: Här gör de flesta guider fel. Att rotera proxy för varje enskild begäran samtidigt som cookies och headers förblir oförändrade kan se mindre mänskligt ut, inte mer. Det säkrare upplägget:

Behåll flödet sök → produkt → recension på samma sticky session där det går
Byt session när du startar en ny sökresa, inte vid varje begäran
Rotera mellan sessioner, inte slumpmässigt inne i samma webbläsningssession

En noterade att vanliga ISP-IP-adresser inte fungerade alls lika bra som mobil-IP på populära e-handelswebbplatser. En annan rapporterade blockeringar även med roterande user agents och residential-proxies — en bra påminnelse om att proxies ensamma inte räcker.

Begäranshastighet, backoff och rate limiting

Amazons 503-sidor är inte slumpmässig otur. De är feedback.

Ett om att skrapa mer än 500 ASIN rapporterade en 503 på exakt samma punkt varje gång, runt ASIN 101, även med pauser. Mönstret är gammalt, men lärdomen är aktuell: rå volym från en IP eller ett fingeravtryck triggar till slut försvarsmekanismer.

Bästa praxis för pacing i egna GitHub-scrapers:

Slumpmässiga fördröjningar mellan begäranden (inte fasta intervall, som går att upptäcka)
2 till 5 sekunder mellan publika produktbegäranden för enkla HTTP-klienter
Exponentiell backoff efter 503 eller CAPTCHA — backa gradvis i stället för att försöka direkt igen
Lägre concurrency än du tror att du behöver
Fail-open-loggning i stället för hårda retry-loopar

De flesta amazon scraper github-repos saknar inbyggd rate limiting. Du måste lägga till det själv.

Header-orkestrering: mer än bara User-Agent-strängar

Amazon kontrollerar hela header-setet, inte bara User-Agent.

Ett realistiskt webbläsarheader-set bör inkludera:

User-Agent
Accept
Accept-Language
Accept-Encoding
Sec-CH-*-hintar när det är lämpligt
Anslutningsbeteende som stämmer med den valda webbläsarprofilen

Headers bör matcha marknadsplatsens lokalisering. En upptäckte att samma bot-upplägg bara upptäcktes i vissa lokaler, medan en annan kommentator pekade på regionspecifika headers som Accept-Language.

Regeln: headers, TLS-/webbläsarprofil och proxygeografi får inte motsäga varandra. Skicka inte Chrome-headers med en Firefox-UA. Använd inte en amerikansk proxy med Accept-Language: de-DE.

CAPTCHA-hantering: när du ska lösa och när du ska backa

Att stöta på en CAPTCHA betyder att Amazon redan är misstänksamt. Att lösa den nollställer inte din förtroendepoäng.

För enskilda CAPTCHA-händelser med låg frekvens:

PyPI-paketet är en ren Python-lösare för Amazons text-CAPTCHA, men senaste versionen är från maj 2023 — se det som ett taktiskt verktyg, inte en hållbar strategi
anger Amazon Captcha till 0,45 USD per 1 000 lösningar

För upprepade CAPTCHA-loopar:

Sluta lösa och börja backa
Upprepade CAPTCHAs betyder att sessionen är förbrukad — att lösa dem bygger inte upp förtroende för fingeravtrycket, sessionshistoriken eller IP-ryktet
Om CAPTCHAs klustrar per proxy-subnät är problemet nätverkslagret, inte parsern

När du faktiskt behöver en headless browser (och när det är överdrivet)

Den felaktiga instinkten är att köra Playwright för allt.

Bra användningsfall för webbläsare:

Sökresultat som beror på JavaScript-rendering eller lokalspecifikt tillstånd
Recensionsflöden som omdirigerar till inloggnings- eller sign-in-sidor
Flöden där cookies och webbläsarkontext är viktigare än rå hastighet

Dåliga användningsfall för webbläsare:

Vanliga publika produktsidor
Statisk extraktion av produktdetaljer där en webbläsarlik HTTP-klient räcker
Storskalig bulkhämtning där beräkningseffektivitet spelar roll

Börja med den lättaste klient som fungerar. En om skrapning i stor skala beskrev utvecklingen: börja med requests, sedan curl_cffi, och gå bara över till en full webbläsare när de lättare alternativen misslyckas. Headless browsers är påtagligt långsammare och mer resurskrävande än HTTP-klienter för skrapning av Amazon-produktsidor.

Beslutsmatris för anti-ban i Amazon Scraper-GitHub-projekt

Scenario	Rekommenderat upplägg	Varför
Publika produktsidor (liten skala)	`curl_cffi` + sticky residential-session	Billigaste vägen som ändå ser webbläsarlik ut
Sökresultatsidor	`curl_cffi` först, Playwright bara om rendering eller tillstånd bryter HTTP	Sök är mer tillståndsberoende och lokalkänsligt
Recensioner (inloggning krävs)	Webbläsarläge med riktiga cookies/session	Inloggning och dynamiska recensionsflöden är svårare att efterlikna med vanlig HTTP
Storskaligt (5k+ per dag)	Hanterat scraper-API, unlocker eller no-code-plattform	Egen GitHub-kod blir snabbt ett infrastrukturproblem

När ditt Amazon Scraper-GitHub-projekt går sönder: ha en no-code-backup

Varje erfaren scraper har en plan B.

Amazon-uppdateringar kommer till slut att slå sönder vilket GitHub-repo som helst vid sämsta tänkbara tidpunkt. För e-handels-team betyder en trasig scraper missade prisändringar, föråldrad konkurrentdata och hål i dashboards.

Många som söker på "amazon scraper github" är egentligen affärsanvändare — e-handelsoperatörer, marknadsförare, FBA-forskare — som testade kodlösningar eftersom de inte hittade bättre alternativ. Forumdata visar också verklig frustration med Amazons officiella : begränsad åtkomst, begränsad data och som många säljare inte kan uppfylla.

Varför GitHub-Amazon-scrapers behöver ständig underhållning

Granskningen ovan gör det här tydligt:

Föråldrade repos samlar på sig felrapporter utan åtgärder
"Fungerande" repos pratar nu öppet om anti-bot-mekanismer i README:n
Communitytrådar kretsar allt oftare kring TLS-fingeravtryck, CAPTCHA-loopar och proxykvalitet — inte CSS-selektorer

För affärsanvändare är det underhållsarbetet den verkliga dolda kostnaden. Repositoriet är gratis. Din tid att felsöka det klockan 02.00 är det inte.

Thunderbit som ett praktiskt alternativ till Amazon Scraper

erbjuder en som extraherar titel, pris, ASIN, betyg, varumärke, tillgänglighet, fraktursprung och ursprunglig URL — utan att du skriver kod.

Så här ser det ut i praktiken:

Scraping i 2 klick jämfört med att sätta upp Python-miljöer, beroenden och proxykonfigurationer
Omedelbar Amazon-mall — inget AI-overhead, bara extraktion med 1 klick
Webbläsarbaserat scraping-läge för sidor som kräver inloggning (som recensionssidor som ställer till det för GitHub-scraper-användare)
Molnbaserat scraping för publika produktsidor i hög hastighet (50 sidor åt gången)
Gratis export till Google Sheets, Airtable, Notion, Excel — inte bara CSV/JSON
Schemalagd scraper för löpande prisövervakning
AI anpassar sig till layoutändringar — inget underhållsarbete för dig

GitHub Amazon Scraper vs Thunderbit: ärlig jämförelse

Faktor	GitHub-scraper (t.ex. AmzPy)	Thunderbit
Uppstartstid	15–60 min (Python, beroenden, proxies)	~2 min (installera Chrome-tillägget)
Underhåll	Du fixar trasigheter	AI anpassar sig till layoutändringar
Hantering av anti-bot	Görs själv (proxies, headers, TLS)	Inbyggt (moln- och webbläsarlägen)
Scraping av recensioner (inloggad)	Komplex sessionshantering	Webbläsarbaserat scraping-läge
Dataexport	Bara CSV/JSON	Sheets, Airtable, Notion, Excel, CSV, JSON
Schemaläggning	Görs själv (cron, Airflow osv.)	Inbyggd schemalagd scraper
Anpassning	Högre	Lägre
Kostnad	Gratis (plus proxykostnader)	Gratis nivå finns; kreditbaserat

Den ärliga avvägningen: GitHub-repos ger mer anpassning; Thunderbit ger mer tillförlitlighet. Om ditt team prioriterar drifttid framför flexibilitet är no-code-vägen oftast det mer rationella valet.

Bästa praxis för schemalagd och återkommande Amazon-skrapning

De flesta amazon scraper github-projekt är byggda för engångskörningar, men verkliga affärsbehov — prisövervakning, lageruppföljning, konkurrentanalys — kräver återkommande scraping. GitHub-repos innehåller nästan aldrig schemaläggning inbyggd, så användarna får pussla ihop cron-jobb, Airflow eller n8n-flöden.

DIY-schemaläggning för GitHub-Amazon-scrapers

Den minsta fungerande återkommande uppsättningen:

Cron-jobb på Linux eller macOS för att köra skriptet enligt schema
Loggar med endast tillägg så att du kan felsöka fel i efterhand
Deduplicering med ASIN + tidsstämpel så att du inte lagrar dubbletter
Felaviseringar (även ett enkelt mejl vid icke-noll utgång) så att du vet när en körning går sönder klockan 03.00

För mer komplexa team:

n8n för lättviktig workflow-automation (nämns ofta i communitytrådar)
Airflow för tyngre schemalagda pipelines
Tillstånd i databas om du behöver diffar och historik

Nyckeln är inte själva schemaläggaren — det är state management. Spåra senaste lyckade körning, senaste ASIN-mängd, ändrade priser och misslyckade URL:er.

Schemaläggning förenklad med Thunderbit

Thunderbits låter dig beskriva intervallet i vanlig svenska, mata in URL:er och klicka på "Schemalägg". AI:n omvandlar naturligt språk till ett cron-schema — ingen teknisk konfiguration behövs. För e-handelsteam utan utvecklare som bevakar priser eller konkurrenters produktlanseringar är det en tydlig minskning av driftsfriktion.

Bästa praxis för återkommande Amazon-skrapningar

De här gäller oavsett verktyg:

Deduplicera med ASIN + tidsfönster — lagra inte samma produkt två gånger per körning
Lagra priser som tal, inte råa strängar — sparar städning längre fram
Lägg till skrapad tidsstämpel på varje rad — du behöver den för trendanalys
Spåra deltas, inte bara nuvarande tillstånd — "priset sjönk 12 % sedan förra veckan" är mer användbart än "priset är 24,99 USD"
Larma på meningsfulla förändringar — en konkurrent som sänker priset med 15 % är värd en notis; en fluktuation på 0,5 % är brus
Tänk på datalagring — flat files funkar för små körningar; för 5k+ ASIN per dag, överväg databas eller molnark kalkylark

Kvalitet på utdata sida vid sida: vad varje Amazon Scraper-GitHub-lösning faktiskt ger

Ingen jämför faktisk utdatakvalitet mellan amazon scraper github-repositorier. Användare bryr sig djupt om datakvalitet — "vilket verktyg ger den renaste, mest kompletta datan" — men måste själva klona och testa varje repo. Det här avsnittet fyller den luckan.

Vad populära GitHub-repos faktiskt extraherar (och missar)

Baserat på exempel i README, publika exempel och dokumenterade utdataformat:

Lösning	Vad den tydligt extraherar	Vanliga luckor / avvägningar
amzpy	Titel, pris, valuta, bild-URL, betyg, recensioner, varianter, ASIN	Mer inriktad på produktsidor; mindre rik på fullständiga recensioner/spec-avsnitt
tducret/amazon-scraper-python	CSV med titel, betyg, antal recensioner, produkt-URL, bild-URL, ASIN	Föråldrad, listningsfokuserad, svag anti-bot-strategi
python-scrapy-playbook scraper	Sökresultat, produktsidor, recensioner, CSV/JSON-pipelines	Mer som en handledning; förlitar sig på extern proxy-mellanvara; kräver sannolikt mer städning
omkarcloud/amazon-scraper	Sök, kategori, detaljer, topprecensioner, många bilder/videor/specifikationer	Inte en rå scraper — det är en hanterad API-tjänst
Thunderbit Amazon template	Titel, pris, ASIN, varumärke, betyg, recensioner, tillgänglighet, fraktursprung, berikning av undersidor	Mindre kontroll på kodnivå än egna skript

Tabell för jämförelse av utdatakvalitet

Datafält	AmzPy	Repo baserat på Scrapy	Selenium-repo	Thunderbit
Produkttitel	✅	✅	✅	✅
Pris (numeriskt)	⚠️ sträng	✅	⚠️ sträng	✅ (numerisk typ)
Betyg	✅	✅	✅	✅
Antal recensioner	❌	✅	✅	✅
ASIN	✅	✅	✅	✅
Produktbilder	❌	⚠️ endast miniatyr	✅	✅ (full upplösning, exportbar)
Ingredienser/specifikationer	❌	❌	❌	✅ (via scraping av undersidor + AI)
Export till Sheets/Airtable	❌	❌	❌	✅ gratis

Varför dataformat spelar roll för affärsanvändare

Rörig data skapar dolt arbete. Även en lyckad scraper kan bli ett operativt misslyckande om:

Priser är strängar med valutasymboler i stället för rena tal
Saknade värden är inkonsekventa (tom sträng vs null vs "N/A")
Bilder bara är lågupplösta miniatyrer
Recensionsfält eller specifikationer behöver efterbearbetning innan analys

För e-handels-ops-team påverkar ren data direkt analys-hastighet och beslutsfattande. Thunderbits AI formaterar data efter typ — tal som tal, datum som datum, URL:er som URL:er — så den är redo att användas direkt. GitHub-repos varierar kraftigt på den punkten, och städtiden blir snabbt betydande.

Snabbreferens: checklista för bästa praxis i Amazon Scraper-GitHub

Kontrollera datum för senaste commit innan du klonar. Äldre än sex månader är en tydlig varningssignal på Amazon.
Sök i issues efter "captcha", "503", "blocked" och "not working" innan du sätter upp något.
Föredra curl_cffi eller en annan HTTP-klient som imiterar webbläsare framför vanlig requests.
Håll headers, TLS-profil, språk och proxygeografi konsekventa — inga motsägelser.
Använd sticky sessions för webbläsningsflöden; rotera inte blint för varje begäran.
Lägg till slumpmässig pacing och exponentiell backoff.
Behandla upprepade CAPTCHAs som en förbrukad session, inte ett pussel som ska brute-forcas.
Använd headless browsers bara när HTTP-klienter inte tillförlitligt kan återge sidan.
Spara checkpoints och tillstånd så att misslyckade körningar kan återupptas säkert.
Ha en backup-plan — oavsett om det är ett hanterat API eller ett no-code-verktyg som .

Juridiska och etiska överväganden för Amazon-scraping 2026

Några saker att känna till, kortfattat.

Amazons hållning är restriktiv och blir allt mer så. De tydligaste signalerna:

Amazons egna hjälpsidor ger nu en som säger: "To discuss automated access to Amazon data please contact api-services-support@amazon.com."
Amazons förbjuder en bred uppsättning dynamiska sökvägar, recensionssökvägar, profil-sökvägar, önskelistor och erbjudandelistor.
Amazons motsätter sig uttryckligen dold eller maskerad agentåtkomst, kringgående av säkerhetsåtgärder och att felaktigt identifiera en agent som Google Chrome. Amazon har också om incidenten.
Amazon har mot OpenAI-crawlers i slutet av 2025.

Den praktiska risken är tydligt högre när du går från publika produktsidor till autentiserade flöden, maskerad automatisering eller kommersiell extraktion i hög volym. Det här är inte juridisk rådgivning — rådgör med ditt eget juristeam för just din situation.

Viktiga slutsatser: få tillförlitliga Amazon-data utan att bli spärrad

I ordning efter viktighet:

Granska innan du klonar. Utgå från att de flesta GitHub-resultat är föråldrade, handledningar eller wrappers runt kommersiella API:er.
Uppgradera nätverkslagret först. TLS-fingeravtryck och sessionskoherens spelar större roll än HTML-selektorer.
Använd sticky residential-sessioner, inte slumpmässigt proxykaos. Rotera mellan sessioner, inte inom dem.
Pausa begäranden som en människa, inte ett stresstest. Slumpmässiga fördröjningar och exponentiell backoff är icke-förhandlingsbara.
Lös isolerade CAPTCHAs; pensionera upprepade utmanade sessioner. Brute-forca inte ett förbrukat fingeravtryck.
Ha en fallback. Amazon kommer att ändra något mitt i veckan, och din GitHub-scraper går sönder. Ett underhållet no-code-verktyg som eller ett hanterat API kan hålla din datapipeline vid liv medan du felsöker.
Prioritera utdatakvalitet. Ren, typad data sparar mer tid längre fram än en snabb men rörig scraper.

Om du vill ha tillförlitlighet framför anpassning erbjuder Thunderbit ett underhållet alternativ — kolla in eller titta på guider på . Utvecklare som vill ha full kontroll kan absolut använda GitHub-repos — men bara med de anti-ban- och underhållspraxis som beskrivs i den här guiden.

Vanliga frågor

Är det lagligt att skrapa Amazon-produktdata med en GitHub-scraper?

Amazons användarvillkor begränsar automatiserad datainsamling, och Amazon har aktivt drivit detta genom upphör-och-avstå-brev och tekniska motåtgärder (särskilt 2025–2026). Skrapning av offentligt tillgänglig produktdata befinner sig i en gråzon; skrapning bakom inloggning eller att maskera din bot som en riktig webbläsare innebär högre risk. Detta är inte juridisk rådgivning — rådgör med ditt juridiska team för ditt specifika användningsfall.

Hur ofta går Amazon scraper-GitHub-repos sönder?

Ofta. Amazon ändrar sidlayout, lägger till nya anti-bot-lager och avvecklar endpoints regelbundet. I granskningen för den här artikeln var bara ungefär 3 av 8 brett synliga repos tydligt fungerande 2026. Även "fungerande" repos har ofta öppna ärenden om CAPTCHAs och 503-fel. Räkna med att behöva felsöka eller uppdatera din setup varannan till varannan månad.

Vad är den bästa Amazon scraper på GitHub 2026?

Det finns ingen ensam vinnare — det beror på ditt användningsfall och din tekniska komfort. För en lättviktig, direkt Python-scraper är ett av de mer aktuella alternativen. För bredare täckning via ett hanterat API fungerar , men det är inte riktigt DIY. Använd färskhetschecklistan i den här artikeln för att utvärdera vilket repo som helst innan du satsar på det.

Kan Thunderbit skrapa Amazon utan kod?

Ja. Thunderbits extraherar produkttitel, pris, ASIN, betyg, varumärke, tillgänglighet och mer med ett enda klick. Den stöder webbläsarbaserat scraping-läge för sidor som kräver inloggning, molnbaserat scraping för publika sidor i hög hastighet, schemalagd scraping för återkommande jobb och gratis export till Google Sheets, Airtable, Notion och Excel. Du kommer igång genom att installera .

Hur undviker jag att få min IP spärrad när jag skrapar Amazon?

Använd en flerskiktsstrategi: (1) byt från vanlig requests till en TLS-imiterande klient som curl_cffi, (2) använd residential-proxies med sticky sessions i stället för slumpmässig rotation av datacenter-proxies, (3) lägg till slumpmässig pacing och exponentiell backoff, (4) håll hela header-setet konsekvent med din webbläsarprofil och marknadsplatsens lokalisering, och (5) behandla upprepade CAPTCHAs som en signal att pensionera sessionen, inte ett pussel att lösa i all oändlighet. För mer detaljer, se beslutsmatrisen för anti-ban tidigare i artikeln.

Amazon Scraper GitHub: Bästa praxis för att undvika spärrar

Testa Thunderbit