Zillow Scraper na GitHubu: co funguje v roce 2026 (a co se rozbíjí)

Naposledy aktualizováno April 22, 2026

Když teď vyhledáte „zillow scraper github“, najdete . To zní slibně — dokud si neuvědomíte, že nebyly aktualizovány déle než rok.

Strávil jsem hodně času auditem těchto repozitářů, testováním proti živým stránkám Zillow a pročítáním GitHub issues i vláken na Redditu, kde si vývojáři vylévají srdce nad tím, co tentokrát přestalo fungovat. Vzor je stejný: repozitář získá vlnu hvězdiček ve chvíli, kdy začne fungovat, a pak tiše zemře, jakmile Zillow změní DOM, zpřísní anti-bot ochranu nebo zruší interní API endpoint. Jeden frustrovaný vývojář na Redditu to shrnul dokonale: „scraping projekty potřebují neustálou údržbu kvůli změnám na stránce nebo v api.“ Tenhle článek je audit, který bych si přál mít před klonováním svého prvního Zillow scraper repa — upřímný, aktuální pohled na to, co v roce 2026 skutečně běží, co se rozbíjí a proč, a kdy dává mnohem větší smysl přeskočit GitHub zajíce v pytli úplně a použít nástroj jako .

Co je Zillow Scraper GitHub projekt (a kdo ho potřebuje)?

„Zillow scraper“ je jakýkoli skript nebo nástroj, který automaticky sbírá data o nemovitostech z webu Zillow — například cenu, adresu, počet ložnic, koupelen, čtvereční stopáž, Zestimate, stav nabídky, dny na trhu a někdy i detailnější data z detailu nemovitosti, jako je historie ceny nebo daňové záznamy. Lidé hledají na GitHubu hlavně proto, že chtějí něco zdarma, open-source a upravitelného. Forknout repozitář, upravit pole, napojit výstup do vlastního pipeline. Teoreticky to je to nejlepší z obou světů.

Cílové skupiny jsou dost odlišné:

  • Investoři do nemovitostí sledují příležitosti napříč ZIP kódy — zajímají je poklesy cen, rozdíly oproti Zestimate a dny na trhu, aby mohli filtrovat vhodné obchody
  • Realitní makléři sestavují seznamy potenciálních kontaktů — potřebují URL nabídek, kontaktní údaje makléřů a změny stavu inzerátu
  • Průzkumníci trhu a analytici tahají strukturované srovnatelné vzorky — adresu, cenu za čtvereční stopu, poměr prodejní a nabídkové ceny, počet nemovitostí v nabídce
  • Ops týmy sledují ceny nebo dostupnost napříč trhy v pravidelných intervalech

Společný jmenovatel: všichni chtějí strukturovaná, opakovatelná data — ne jednorázové kopírování a vkládání. Právě proto je scraping tak lákavý. A právě proto je údržba tak bolestivá, když repozitář přestane fungovat.

Audit Zillow Scraper GitHub repozitářů 2026: co skutečně ještě běží

Na GitHubu jsem vyhledal repozitáře Zillow scraperů s nejvíce hvězdičkami a forky, zkontroloval datum posledního commitu, přečetl otevřené issues a otestoval je na živých stránkách Zillow. Metodika je jednoduchá: pokud repozitář dokáže vrátit přesná data o nabídkách z výsledků vyhledávání nebo z detailních stránek Zillow k dubnu 2026, dostane štítek „working“. Pokud běží, ale vrací neúplná data nebo po několika stránkách narazí na blokaci, je „partially working“. Pokud selže úplně nebo maintainer říká, že je mrtvý, je „broken“.

Tvrdá realita: většina repozitářů, které vypadaly slibně před 12–18 měsíci, už tiše přestala fungovat.

Kurátorovaná srovnávací tabulka: největší Zillow Scraper GitHub repozitáře

zillow_scraper_repo_audit_v1_0c4f771ad2.png

RepoJazykHvězdičkyPoslední pushPřístupStav v roce 2026Hlavní omezení
johnbalvin/pyzillPython962025-08-28Extrakce z vyhledávání/detailu Zillow + podpora proxyČástečně fungujeREADME říká „Use rotating residential proxies.“ Problémy zahrnují blokace od Cloudflare, 403 přes proxyrack a CAPTCHA i s proxy.
johnbalvin/gozillowGo102025-02-23Go knihovna pro URL/ID nemovitosti a vyhledávací metodyČástečně fungujeStejný maintainer jako pyzill, ale nízké přijetí a slabší stopa v issues. Důvěra je nižší.
cermak-petr/actor-zillow-api-scraperJavaScript592022-05-04Hostovaný actor využívající interní API Zillow s rekurzíČástečně funguje (rizikové)Chytrý návrh — rekurzivně dělí hranice mapy, aby obešel limity výsledků. GitHub repozitář ale nebyl pushnut od roku 2022. Jeden název issue: „is this still working?“
ChrisMuir/ZillowPython1702019-06-09SeleniumRozbitéREADME výslovně uvádí: „As of 2019, this code no longer works for most users.“ Zillow detekuje webdrivery a servíruje nekonečné CAPTCHA.
scrapehero/zillow_real_estatePython1522018-02-26requests + lxmlRozbitéProblémy zahrnují „returns empty dataset“, „No output in .csv file“ a „Is this repo still updated?“
faithfulalabi/Zillow_ScraperPython/notebook302021-07-02Natvrdo zapsané SeleniumRozbitéVzdělávací projekt napevno nastavený na pronájmy v Arlingtonu v Texasu. Není to univerzální scraper.
eswan18/zillow_scraperPython102021-04-10Scraper + zpracovatelský pipelineRozbitéRepozitář je archivovaný.
ThunderbitBez kódu (rozšíření do Chrome)N/APrůběžně aktualizovánoAI čte strukturu stránky + předpřipravená šablona pro ZillowFungujeNení co udržovat na GitHubu. AI se přizpůsobuje změnám rozložení Zillow. K dispozici je zdarma tarif.

Vzor je jasný: GitHub ekosystém pořád obsahuje živý kód, ale většina viditelných repozitářů jsou návody, historické artefakty nebo tenké obaly kolem workflow závislého na proxy.

Co znamená „funguje“, „rozbité“ a „částečně funguje“

U těchto štítků chci být přesný, protože jsou důležitější než počet hvězdiček:

  • Funguje: úspěšně vrací přesná data o nabídkách ze search stránek Zillow a/nebo detailních stránek k datu testování, aniž by maintainer označil projekt za mrtvý
  • Částečně funguje: běží, ale vrací neúplná data, po pár stránkách narazí na blokaci nebo funguje jen na určitých typech stránek — obvykle vyžaduje proxy infrastrukturu a průběžné ladění
  • Rozbité: nevrací data, vyhazuje chyby nebo je maintainerem či komunitou výslovně označeno za nefunkční

Repozitář se 170 hvězdičkami a stavem „broken“ je horší než repozitář s 10 hvězdičkami, který data skutečně vrací. Popularita je historický kontext, ne signál kvality.

Proč se Zillow Scraper GitHub projekty rozbíjejí (5 nejčastějších selhání)

Pochopit proč se Zillow scrapery rozbíjejí vám ušetří víc času než jakýkoli README. Když pochopíte proč se Zillow scrapery rozbíjejí, můžete buď postavit odolnější řešení, nebo se rozhodnout, že daň za údržbu prostě nestojí za to.

1. Přestavba DOMu (React frontend Zillow)

Frontend Zillow je postavený na Reactu a často se mění. Názvy tříd, struktura komponent i datové atributy se posouvají bez varování. Scraper, který dnes cílí na div.list-card-price, může zjistit, že ta třída už zítra neexistuje. Jak poznamenává jeden , na Zillow „se názvy tříd liší stránku od stránky“.

Výsledek: skript běží, vrací prázdná pole a vy si toho všimnete až ve chvíli, kdy už týden sbíráte samé nuly.

2. Změny interního API a GraphQL endpointů

Chytřejší repozitáře obcházejí HTML úplně a míří přímo na interní GraphQL nebo REST API Zillow. Například repozitář výslovně používá interní API Zillow a rekurzivně dělí hranice mapy, aby obešel limity výsledků. Je to chytré řešení — ale Zillow tyto endpointy průběžně přestavuje. Když se to stane, scraper vrací 404 nebo prázdné JSON bez chybové hlášky.

Je to jemnější forma selhání. Kód je v pořádku. Jen se pohnul cíl.

3. Eskalace anti-bot ochrany a CAPTCHA

Zillow postupně zpřísňuje detekci botů. Při vlastním testování v dubnu 2026 mi obyčejné requests.get() volání na zillow.com i zillow.com/homes/Chicago,-IL_rb/ vrátilo — i s user-agentem podobným Chromu a hlavičkou Accept-Language. Komunitní hlášení tomu odpovídají: jeden uživatel uvedl, že jeho reverzně inženýrovaný API flow začal vracet 403 asi po .

Scraper, který při nízkém objemu funguje bez problému, může najednou selhat při škálování. To je pěkně nepříjemné překvapení, když se snažíte sledovat 200 nabídek napříč 3 ZIP kódy.

4. Login stěny u prémiových dat

Některé datové body — detaily Zestimate, daňové záznamy, část historie cen — jsou schované za autentizací. Open-source scrapery zřídka zvládají login flow, takže tato pole vracejí prázdná data. Pokud váš use case závisí na historii cen nebo daňově odhadované hodnotě, narazíte na tuhle bariéru velmi rychle.

5. Rozpad závislostí a neudržované repozitáře

V issues repozitáře se objevují instalační problémy jako No module named 'unicodecsv'. Repozitář popisuje ruční instalaci driverů a bolest kolem GIS závislostí. Aktualizace Python knihoven rozbíjejí kompatibilitu. Repozitáře, které nebyly aktualizovány déle než 6 měsíců, často selžou už při čisté instalaci ještě předtím, než vůbec narazí na anti-bot vrstvu Zillow.

Anti-bot obrana Zillow v roce 2026: proti čemu skutečně stojíte

„Stačí použít proxy a rotovat hlavičky“ byla v roce 2022 ještě přijatelná rada. V roce 2026 už ne.

Mimo blokování IP: TLS fingerprinting a JavaScript challenge

Zillow neblokuje jen IP adresy. Komunitní hlášení popisují Zillow za Cloudflare s , která jde daleko za jednoduché rate limiting. TLS fingerprinting identifikuje neprohlížečové klienty podle jejich „digitálního podání ruky“ — tedy podle toho, jak vyjednávají šifrování. I s čerstvou proxy může být váš scraper označen, pokud jeho TLS podpis neodpovídá skutečnému Chromu.

Další vrstvu přidávají JavaScript challenge. Headless prohlížeče, které plně nespouštějí JS nebo prozrazují automatizaci (například navigator.webdriver = true), jsou odhaleny.

Search výsledky vs. detailní stránka nemovitosti: rozdílná úroveň ochrany

Ne všechny stránky Zillow jsou chráněny stejně. Schema výslovně rozlišuje „Fast Mode“, který detailní stránky přeskočí, od pomalejšího „Full Mode“, který zahrnuje bohatší data. Průvodce Thunderbit pro také odděluje počáteční scraping seznamu od „Scrape Subpages“ pro obohacení dat z detailních stránek.

Praktický závěr: scraper může fungovat dobře na výsledcích vyhledávání, ale selhat na jednotlivých stránkách nemovitostí, kde Zillow nasazuje těžší ochranu, protože data jsou cennější a častěji se scrapují.

HTTP-only tábor: proč se někteří vývojáři vyhýbají automatizaci prohlížeče

Existuje silná skupina vývojářů, kteří výslovně chtějí čistě HTTP přístup — žádné Selenium, žádný Playwright, žádný Puppeteer. Důvody jsou praktické: automatizace prohlížeče je pomalejší, náročnější na zdroje a hůř se nasazuje ve velkém.

Upřímné hodnocení: v roce 2026 jsou čistě HTTP přístupy proti Zillow bez sofistikované správy hlaviček a fingerprintů čím dál těžší. Důkazy z komunity ukazují, že browser rendering se u cílů jako Zillow stává standardem, ne výjimkou.

Konkrétní best practices proti blokacím pro Zillow

zillow_scraper_antibot_v1_316931a4bc.png

Pokud jdete cestou DIY, tady je to, co skutečně pomáhá (a co ne):

  • Náhodné tempo requestů, které napodobuje lidské procházení — ne pevné prodlevy, ale proměnlivé intervaly se session-like chováním
  • Realistická konfigurace hlaviček včetně Accept-Language, rodiny hlaviček Sec-CH-UA a správného referer chainu — ale buďme upřímní: realistické hlavičky jsou nutné, ne dostačující
  • Rotace session — nepoužívejte stejnou kombinaci proxy/cookie pro stovky requestů
  • Vědět, kdy přejít na rendering v prohlížeči — pokud váš HTTP-only přístup vrací po 50 requestech 403, bojujete s předem prohranou bitvou

Nevěřte žádnému článku, který naznačuje, že jeden kouzelný blok hlaviček v roce 2026 vyřeší Zillow.

tohle všechno zvládá automaticky — rotující infrastruktura napříč USA/EU/Asií, rendering i anti-bot ochrana — takže uživatelé úplně přeskočí labyrint kolem proxy konfigurace. Pointa je v tom, kde leží provozní zátěž.

Nejlepší postupy, jak svůj Zillow Scraper GitHub setup připravit na budoucnost

Pro čtenáře, kteří se rozhodnou pro GitHub/DIY cestu, tady jsou postupy, které oddělují scrapery, jež vydrží měsíce, od těch, které se rozbijí během pár dní.

Oddělte selektory od křehkých názvů tříd

Pokud repozitář závisí na automaticky generovaných CSS názvech tříd Zillow, berte to jako varovný signál. Tyto názvy se mění často — někdy týdně. Místo toho:

  • Cilte na elementy podle aria-label, atributů data-* nebo sousedního nadpisu
  • Kde je to možné, používejte selektory založené na textovém obsahu
  • Když Zillow servíruje strukturovaná data ve zdroji stránky, preferujte extrakci z JSON před parsováním HTML

Přidejte automatizované health checky

Berete scraping Zillow jako produkční monitoring, ne jako jednorázový skript. Nastavte si cron job nebo GitHub Action, které:

  1. Denně spustí scraper na jednom známém inzerátu
  2. Ověří výstupní schéma (jsou všechna očekávaná pole přítomná a neprázdná?)
  3. Vyvolá alert, pokud je výstup poškozený nebo prázdný

Tím zachytíte rozbití do 24 hodin místo až za týdny.

Zafixujte verze závislostí a používejte virtuální prostředí

Vždy připínejte verze závislostí v Pythonu (nebo Node). Používejte virtuální prostředí nebo Docker kontejnery. Starší repozitáře v našem auditu ukazují, jak rychle nastává rozpad instalace — rozbité závislosti bývají často první věc, která selže, ještě předtím, než se vůbec dostanete k anti-bot vrstvě Zillow.

Držte objem scrapingu při zemi

Ten práh kolem není univerzální, ale je to věrohodné připomenutí, že objem mění chování scraperu, který v testování vypadal v pohodě. Rozkládejte requesty mezi session. Používejte náhodné prodlevy. Nepokoušejte se nascrapovat 10 000 nabídek v jednom běhu.

Vědět, kdy už se DIY nevyplatí

Jestli trávíte víc času údržbou scraperu než analýzou dat, ekonomika se obrátila. To není selhání — je to signál, že je čas zvážit spravované řešení.

Zillow Scraper GitHub (DIY) vs. no-code nástroje: upřímná rozhodovací matice

Publikum pro „zillow scraper github“ se dá rozdělit do dvou skupin: vývojáři, kteří chtějí vlastnit kód, a realitní profesionálové, kteří prostě chtějí data v tabulce. Obě skupiny mají svůj důvod. Takhle ale skutečně vypadají kompromisy.

Srovnávací tabulka vedle sebe

zillow_scraper_decision_v1_f44b8159c9.png

KritériumGitHub scraper (Python)No-code nástroj (např. Thunderbit)
Doba nastavení30–120 min (prostředí, závislosti, proxy)~2 min (nainstalovat rozšíření, kliknout na scrape)
ÚdržbaPrůběžná — rozbíjí se, když Zillow změní stránkyŽádná — AI se automaticky přizpůsobuje rozložení stránky
Řešení anti-bot ochranyRuční (proxy, hlavičky, prodlevy)Vestavěné (cloud scraping, rotující infrastruktura)
Datová poleVlastní — cokoli si napíšeteNavržená AI nebo podle šablony
Možnosti exportuCSV/JSON přes kódExcel, Google Sheets, Airtable, Notion — zdarma
NákladyZdarma (kód) + náklady na proxy ($3.50–$8/GB pro residential)K dispozici je zdarma tarif; dál kreditový model
Strop přizpůsobeníNeomezený (kód vlastníte)Vysoký (AI prompty pro pole, scraping podstránek), ale přece jen omezený

Realita nákladů na proxy

Argument „je to zdarma, je to na GitHubu“ přestává být přesvědčivý, jakmile započítáte cenu proxy. Aktuální veřejné ceny residential proxy:

PoskytovatelCeník (k dubnu 2026)
Webshare$3.50/GB za 1 GB, při větších balíčcích méně
Decodo~ $3.50/GB pay-as-you-go
Bright Datanominálně $8/GB, $4/GB při současné promo akci
Oxylabsod $8/GB

Repozitář může být zdarma, ale workflow Zillow s proxy obvykle zdarma není.

Kdy zvolit GitHub repozitář

  • Baví vás psát a udržovat kód
  • Potřebujete extrémně specifické úpravy (vlastní transformace dat, napojení na proprietární pipeline)
  • Máte čas a technické dovednosti zvládnout rozbití
  • Jste ochotni spravovat proxy infrastrukturu

Kdy zvolit Thunderbit

  • Potřebujete spolehlivá data hned, bez nastavování a údržby
  • Jste realitní makléř, investor nebo člen ops týmu — ne vývojář
  • Chcete bez psaní exportního kódu
  • Chcete scraping podstránek (obohacení záznamů o data z detailu) bez další konfigurace
  • Chcete naplánovaný scraping popsaný obyčejným jazykem

Krok za krokem: jak scrapovat Zillow s Thunderbit (bez GitHubu)

No-code cesta vypadá úplně jinak než setup na GitHubu.

Krok 1: Nainstalujte rozšíření Thunderbit do Chrome

Otevřete , nainstalujte Thunderbit a zaregistrujte se. K dispozici je zdarma tarif.

Krok 2: Přejděte na Zillow a otevřete Thunderbit

Otevřete libovolnou stránku s výsledky vyhledávání na Zillow — třeba domy na prodej v konkrétním ZIP kódu. Klikněte na ikonu rozšíření Thunderbit v liště prohlížeče.

Krok 3: Použijte okamžitou šablonu Zillow Scraperu (nebo nechte AI navrhnout pole)

Thunderbit má — bez konfigurace, stačí jedno kliknutí. Šablona pokrývá standardní pole: adresa, cena, počet ložnic, počet koupelen, plocha v čtverečních stopách, jméno makléře, telefon makléře a URL nabídky.

Alternativně klikněte na „AI Suggest Fields“ a AI přečte stránku a navrhne sloupce. Z mé zkušenosti obvykle detekuje , včetně Zestimate.

Krok 4: Klikněte na Scrape a zkontrolujte výsledky

Klikněte na „Scrape“. Thunderbit automaticky vyřeší stránkování, anti-bot ochranu i strukturování dat. Dostanete strukturovanou tabulku výsledků — žádné 403 chyby, žádná prázdná pole, žádná konfigurace proxy.

Krok 5: Obohaťte data o podstránky (volitelné)

Klikněte na „Scrape Subpages“ a Thunderbit navštíví detailní stránku každého inzerátu a stáhne další pole: historii cen, daňové záznamy, velikost pozemku, hodnocení škol. V GitHub setupu by to byl složitý druhý průchod scrapingu s vlastní logikou selektorů a anti-bot handlingem. Tady je to jedno kliknutí.

Krok 6: Exportujte data zdarma

Exportujte do Excelu, Google Sheets, Airtable nebo Notion — všechno zdarma. Pokud chcete, stáhněte CSV nebo JSON. Není třeba psát žádný exportní kód.

To je zásadně jiné než uživatelská cesta na GitHubu, která obvykle začíná nastavováním prostředí a končí laděním 403 chyb.

Od CSV k insightům: co s daty ze Zillow vlastně dělat

Většina návodů skončí u „tady máte CSV“. To je jako dát někomu rybářský prut a odejít dřív, než vysvětlíte, jak tu rybu uvařit.

Scraping je první krok. Tady je zbytek.

Krok 1: Scrape — sesbírejte data o nabídkách

Základní pole z výsledků vyhledávání: cena, počet ložnic, počet koupelen, plocha, adresa, Zestimate, stav nabídky, dny na trhu, URL nabídky.

Krok 2: Enrich — stáhněte data z detailních stránek přes scraping podstránek

Další pole z detailních stránek nemovitostí: historie cen, daňové záznamy, velikost pozemku, HOA poplatky, hodnocení škol, kontaktní údaje makléře. Scraping podstránek v Thunderbit to zvládne jedním kliknutím. V GitHub setupu byste potřebovali samostatný průchod scrapingu s vlastními selektory a anti-bot logikou.

Krok 3: Export — pošlete data do preferované platformy

  • Google Sheets pro rychlou analýzu a sdílení
  • Airtable pro mini CRM nebo deal tracker
  • Notion pro týmový dashboard
  • CSV/JSON pro vlastní pipeline

Krok 4: Monitor — naplánujte opakované scrapování

Tohle je bolestivé místo, které ve více vláknách na fórech označují jako nevyřešené. Nechcete jen dnešní data — chcete zachytit poklesy cen, změny stavu (active → pending → sold) a nové nabídky, jakmile se objeví.

Naplánovaný scraper v Thunderbit vám dovolí popsat intervaly běžným jazykem (např. „každé úterý a pátek v 8:00“). V GitHub setupu byste si museli sami napsat cron job, řešit přetrvání autentizace a řízení obnovy po chybě.

Krok 5: Jednejte — filtrujte obchody a napojte outreach workflow

Tady se data mění v rozhodnutí:

  • Pro investory: filtrovat poklesy cen >5 % za 30 dní, dny na trhu >90, cenu pod Zestimate
  • Pro makléře: označit nové nabídky odpovídající kritériím kupujícího, expirované/stažené nabídky pro prospecting
  • Pro výzkumníky: počítat trendy ceny za čtvereční stopu, poměr prodejní a nabídkové ceny, rychlost obrátky zásob

Příklad z praxe: investor sledující 200 nabídek ve 3 ZIP kódech

Tady je, jak vypadají datová pole namapovaná na jednotlivé use casy:

Datové poleInvestováníLeady pro makléřePrůzkum trhu
Cena✅ Základ
Zestimate✅ Základ (analýza rozdílu)
Historie cen✅ Základ (detekce trendu)
Dny na trhu✅ Základ (signál motivace)
Daňově odhadovaná hodnota✅ (kontrola ocenění)
Stav nabídky✅ Základ
Datum nabídky
Jméno/telefon makléře✅ Základ
Cena za čtvereční stopu✅ Základ
Prodejní cena vs. nabídková cena✅ Základ

Investor nastaví týdenní scrape napříč třemi ZIP kódy, exportuje do Google Sheets a použije podmíněné formátování pro poklesy cen a odlehlé hodnoty DOM. Makléř exportuje do Airtable a postaví prospecting pipeline. Výzkumník načte data do tabulky pro analýzu trendů. Stejný krok scrapingu, tři různé workflow.

Právní a etické aspekty scrapování Zillow

Krátké, ale nezbytné.

výslovně zakazují automatizované dotazy, včetně screen scrapingu, crawlerů, spiderů a obcházení ochran podobných CAPTCHA. od Zillow zakazuje široké cesty včetně /api/, /homes/ a URL se stavem dotazu.

Současně americké právo kolem web scrapingu nelze zjednodušit na „veškerý scraping je nelegální“. Řada případů hiQ vs. LinkedIn je důležitá pro scraping veřejně dostupných dat podle CFAA. od Haynes Boone uvádí, že devátý okruh znovu odmítl snahu LinkedIn blokovat scraping veřejných profilů členů. To ale nemaže samostatné argumenty z oblasti smluv, soukromí nebo obcházení technických opatření, a neznamená to, že podmínky používání Zillow jsou irelevantní.

Co z toho plyne:

  • Scraping veřejných stránek může mít silnější právní oporu v rámci CFAA, než tvrdí mnoho provozovatelů webů
  • Zillow ho ale stále smluvně zakazuje
  • Obcházení technických bariér zvyšuje právní riziko
  • Pokud máte komerční nebo vysokoodběrový use case, poraďte se s právníkem
  • Bez ohledu na právní prostředí scrapeujte zodpovědně: respektujte rate limits, nezatěžujte servery, nepoužívejte osobní data ke spamu

Jak vybrat správný nástroj pro váš Zillow workflow

Krajina Zillow scraperů na GitHubu je v roce 2026 řidší, než se zdá. Většina viditelných repozitářů je zastaralá, křehká nebo rozbitá. Malý počet novějších repozitářů — zejména — stále funguje, ale jen s průběžnou údržbou proxy a anti-bot logiky.

Skutečné rozhodnutí není open source versus closed source. Je to kontrola versus provozní zátěž.

  • Pokud chcete plnou kontrolu a baví vás udržovat scrapery, GitHub repozitáře jsou silné — ale vyhraďte si čas na správu proxy, aktualizace selektorů a monitoring zdraví
  • Pokud chcete spolehlivá data hned a bez údržby, vás dostane od vyhledávání k tabulce během minut. AI pokaždé čte strukturu stránky znovu, takže se nikdy nespoléhá na natvrdo zapsané selektory, které se rozbijí

Obě cesty jsou legitimní.

Nejhorší výsledek je strávit hodiny nastavováním GitHub scraperu a pak zjistit, že se rozbil už minulý měsíc a nikdo neaktualizoval README.

Pokud chcete vidět no-code cestu v praxi, — scrapujte Zillow nabídky zhruba na 2 kliknutí a exportujte do platformy, kterou už váš tým používá. Chcete nejdřív vidět postup? má návody.

Vyzkoušejte Thunderbit pro scraping Zillow

Časté dotazy

Existuje v roce 2026 fungující Zillow scraper na GitHubu?

Několik repozitářů funguje částečně — zejména johnbalvin/pyzill, který stále vrací data, ale vyžaduje rotující residential proxy a průběžné ladění. Většina repozitářů s hvězdičkami (včetně ChrisMuir/Zillow se 170 hvězdičkami a scrapehero/zillow_real_estate se 152 hvězdičkami) je rozbitá kvůli anti-bot změnám Zillow a úpravám DOMu. Aktuální stav najdete ve srovnávací tabulce výše.

Umí Zillow detekovat a blokovat GitHub scrapery?

Ano. Zillow používá blokování IP, TLS fingerprinting, JavaScript challenge, CAPTCHA a rate limiting. Při testování dokonce i obyčejné HTTP requesty s hlavičkami podobnými Chromu vracely 403 z CloudFront. GitHub scrapery bez správných anti-detection opatření — residential proxy, realistických hlaviček, renderingu v prohlížeči — se blokují rychle, často během 100 requestů.

Jaká data lze ze Zillow scrapovat?

Běžná pole zahrnují cenu, adresu, počet ložnic, počet koupelen, plochu ve čtverečních stopách, Zestimate, stav nabídky, dny na trhu, URL nabídky a kontaktní údaje makléře. Při scrapingu detailních stránek můžete získat také historii cen, daňové záznamy, velikost pozemku, HOA poplatky a hodnocení škol. Konkrétní pole závisí na schopnostech scraperu a na tom, zda pracujete s výsledky vyhledávání nebo s jednotlivými stránkami nemovitostí.

Je scraping Zillow legální?

To je složitější. Scraping veřejně dostupných dat má po linii případů hiQ v. LinkedIn silnější právní oporu, ale podmínky používání Zillow výslovně zakazují automatizovaný přístup. Obcházení technických bariér (CAPTCHA, rate limitů) přidává další právní riziko. Pro osobní výzkum je riziko obecně nízké. Pro komerční nebo vysokoodběrové use casy se poraďte s právníkem. Bez ohledu na to scrapeujte vždy zodpovědně.

Jak Thunderbit scrapuje Zillow, aniž by se rozbíjel?

Thunderbit používá AI, která při každém spuštění znovu přečte strukturu stránky — nespoléhá na natvrdo zapsané CSS selektory ani XPaths, které se rozbijí, když Zillow aktualizuje frontend. Má také předpřipravenou pro extrakci jedním kliknutím. Cloud scraping automaticky řeší anti-bot ochranu díky rotující infrastruktuře, takže uživatelé nemusí sami nastavovat proxy ani spravovat rendering v prohlížeči. Když Zillow změní rozložení, AI se přizpůsobí — není třeba aktualizovat repozitář.

Další informace

Obsah

Vyzkoušej Thunderbit

Sbírej leady i další data jen na 2 kliknutí. Poháněno AI.

Získat Thunderbit Je to zdarma
Extrahuj data pomocí AI
Snadno přenes data do Google Sheets, Airtable nebo Notion
Chrome Store Rating
PRODUCT HUNT#1 Product of the Week