Zillow Scraper GitHub: co funguje v roce 2026 (a co se rozbíjí)

Když teď vyhledáte „zillow scraper github“, najdete . To zní slibně — dokud si neuvědomíte, že nebyly aktualizovány déle než rok.

Strávil jsem hodně času auditem těchto repozitářů, testováním proti živým stránkám Zillow a pročítáním GitHub issues i vláken na Redditu, kde si vývojáři vylévají srdce nad tím, co tentokrát přestalo fungovat. Vzor je stejný: repozitář získá vlnu hvězdiček ve chvíli, kdy začne fungovat, a pak tiše zemře, jakmile Zillow změní DOM, zpřísní anti-bot ochranu nebo zruší interní API endpoint. Jeden frustrovaný vývojář na Redditu to shrnul dokonale: „scraping projekty potřebují neustálou údržbu kvůli změnám na stránce nebo v api.“ Tenhle článek je audit, který bych si přál mít před klonováním svého prvního Zillow scraper repa — upřímný, aktuální pohled na to, co v roce 2026 skutečně běží, co se rozbíjí a proč, a kdy dává mnohem větší smysl přeskočit GitHub zajíce v pytli úplně a použít nástroj jako .

Co je Zillow Scraper GitHub projekt (a kdo ho potřebuje)?

„Zillow scraper“ je jakýkoli skript nebo nástroj, který automaticky sbírá data o nemovitostech z webu Zillow — například cenu, adresu, počet ložnic, koupelen, čtvereční stopáž, Zestimate, stav nabídky, dny na trhu a někdy i detailnější data z detailu nemovitosti, jako je historie ceny nebo daňové záznamy. Lidé hledají na GitHubu hlavně proto, že chtějí něco zdarma, open-source a upravitelného. Forknout repozitář, upravit pole, napojit výstup do vlastního pipeline. Teoreticky to je to nejlepší z obou světů.

Cílové skupiny jsou dost odlišné:

Investoři do nemovitostí sledují příležitosti napříč ZIP kódy — zajímají je poklesy cen, rozdíly oproti Zestimate a dny na trhu, aby mohli filtrovat vhodné obchody
Realitní makléři sestavují seznamy potenciálních kontaktů — potřebují URL nabídek, kontaktní údaje makléřů a změny stavu inzerátu
Průzkumníci trhu a analytici tahají strukturované srovnatelné vzorky — adresu, cenu za čtvereční stopu, poměr prodejní a nabídkové ceny, počet nemovitostí v nabídce
Ops týmy sledují ceny nebo dostupnost napříč trhy v pravidelných intervalech

Společný jmenovatel: všichni chtějí strukturovaná, opakovatelná data — ne jednorázové kopírování a vkládání. Právě proto je scraping tak lákavý. A právě proto je údržba tak bolestivá, když repozitář přestane fungovat.

Audit Zillow Scraper GitHub repozitářů 2026: co skutečně ještě běží

Na GitHubu jsem vyhledal repozitáře Zillow scraperů s nejvíce hvězdičkami a forky, zkontroloval datum posledního commitu, přečetl otevřené issues a otestoval je na živých stránkách Zillow. Metodika je jednoduchá: pokud repozitář dokáže vrátit přesná data o nabídkách z výsledků vyhledávání nebo z detailních stránek Zillow k dubnu 2026, dostane štítek „working“. Pokud běží, ale vrací neúplná data nebo po několika stránkách narazí na blokaci, je „partially working“. Pokud selže úplně nebo maintainer říká, že je mrtvý, je „broken“.

Tvrdá realita: většina repozitářů, které vypadaly slibně před 12–18 měsíci, už tiše přestala fungovat.

Kurátorovaná srovnávací tabulka: největší Zillow Scraper GitHub repozitáře

Repo	Jazyk	Hvězdičky	Poslední push	Přístup	Stav v roce 2026	Hlavní omezení
johnbalvin/pyzill	Python	96	2025-08-28	Extrakce z vyhledávání/detailu Zillow + podpora proxy	Částečně funguje	README říká „Use rotating residential proxies.“ Problémy zahrnují blokace od Cloudflare, 403 přes proxyrack a CAPTCHA i s proxy.
johnbalvin/gozillow	Go	10	2025-02-23	Go knihovna pro URL/ID nemovitosti a vyhledávací metody	Částečně funguje	Stejný maintainer jako pyzill, ale nízké přijetí a slabší stopa v issues. Důvěra je nižší.
cermak-petr/actor-zillow-api-scraper	JavaScript	59	2022-05-04	Hostovaný actor využívající interní API Zillow s rekurzí	Částečně funguje (rizikové)	Chytrý návrh — rekurzivně dělí hranice mapy, aby obešel limity výsledků. GitHub repozitář ale nebyl pushnut od roku 2022. Jeden název issue: „is this still working?“
ChrisMuir/Zillow	Python	170	2019-06-09	Selenium	Rozbité	README výslovně uvádí: „As of 2019, this code no longer works for most users.“ Zillow detekuje webdrivery a servíruje nekonečné CAPTCHA.
scrapehero/zillow_real_estate	Python	152	2018-02-26	requests + lxml	Rozbité	Problémy zahrnují „returns empty dataset“, „No output in .csv file“ a „Is this repo still updated?“
faithfulalabi/Zillow_Scraper	Python/notebook	30	2021-07-02	Natvrdo zapsané Selenium	Rozbité	Vzdělávací projekt napevno nastavený na pronájmy v Arlingtonu v Texasu. Není to univerzální scraper.
eswan18/zillow_scraper	Python	10	2021-04-10	Scraper + zpracovatelský pipeline	Rozbité	Repozitář je archivovaný.
Thunderbit	Bez kódu (rozšíření do Chrome)	N/A	Průběžně aktualizováno	AI čte strukturu stránky + předpřipravená šablona pro Zillow	Funguje	Není co udržovat na GitHubu. AI se přizpůsobuje změnám rozložení Zillow. K dispozici je zdarma tarif.

Vzor je jasný: GitHub ekosystém pořád obsahuje živý kód, ale většina viditelných repozitářů jsou návody, historické artefakty nebo tenké obaly kolem workflow závislého na proxy.

Co znamená „funguje“, „rozbité“ a „částečně funguje“

U těchto štítků chci být přesný, protože jsou důležitější než počet hvězdiček:

Funguje: úspěšně vrací přesná data o nabídkách ze search stránek Zillow a/nebo detailních stránek k datu testování, aniž by maintainer označil projekt za mrtvý
Částečně funguje: běží, ale vrací neúplná data, po pár stránkách narazí na blokaci nebo funguje jen na určitých typech stránek — obvykle vyžaduje proxy infrastrukturu a průběžné ladění
Rozbité: nevrací data, vyhazuje chyby nebo je maintainerem či komunitou výslovně označeno za nefunkční

Repozitář se 170 hvězdičkami a stavem „broken“ je horší než repozitář s 10 hvězdičkami, který data skutečně vrací. Popularita je historický kontext, ne signál kvality.

Proč se Zillow Scraper GitHub projekty rozbíjejí (5 nejčastějších selhání)

Pochopit proč se Zillow scrapery rozbíjejí vám ušetří víc času než jakýkoli README. Když pochopíte proč se Zillow scrapery rozbíjejí, můžete buď postavit odolnější řešení, nebo se rozhodnout, že daň za údržbu prostě nestojí za to.

1. Přestavba DOMu (React frontend Zillow)

Frontend Zillow je postavený na Reactu a často se mění. Názvy tříd, struktura komponent i datové atributy se posouvají bez varování. Scraper, který dnes cílí na div.list-card-price, může zjistit, že ta třída už zítra neexistuje. Jak poznamenává jeden , na Zillow „se názvy tříd liší stránku od stránky“.

Výsledek: skript běží, vrací prázdná pole a vy si toho všimnete až ve chvíli, kdy už týden sbíráte samé nuly.

2. Změny interního API a GraphQL endpointů

Chytřejší repozitáře obcházejí HTML úplně a míří přímo na interní GraphQL nebo REST API Zillow. Například repozitář výslovně používá interní API Zillow a rekurzivně dělí hranice mapy, aby obešel limity výsledků. Je to chytré řešení — ale Zillow tyto endpointy průběžně přestavuje. Když se to stane, scraper vrací 404 nebo prázdné JSON bez chybové hlášky.

Je to jemnější forma selhání. Kód je v pořádku. Jen se pohnul cíl.

3. Eskalace anti-bot ochrany a CAPTCHA

Zillow postupně zpřísňuje detekci botů. Při vlastním testování v dubnu 2026 mi obyčejné requests.get() volání na zillow.com i zillow.com/homes/Chicago,-IL_rb/ vrátilo — i s user-agentem podobným Chromu a hlavičkou Accept-Language. Komunitní hlášení tomu odpovídají: jeden uživatel uvedl, že jeho reverzně inženýrovaný API flow začal vracet 403 asi po .

Scraper, který při nízkém objemu funguje bez problému, může najednou selhat při škálování. To je pěkně nepříjemné překvapení, když se snažíte sledovat 200 nabídek napříč 3 ZIP kódy.

Některé datové body — detaily Zestimate, daňové záznamy, část historie cen — jsou schované za autentizací. Open-source scrapery zřídka zvládají login flow, takže tato pole vracejí prázdná data. Pokud váš use case závisí na historii cen nebo daňově odhadované hodnotě, narazíte na tuhle bariéru velmi rychle.

5. Rozpad závislostí a neudržované repozitáře

V issues repozitáře se objevují instalační problémy jako No module named 'unicodecsv'. Repozitář popisuje ruční instalaci driverů a bolest kolem GIS závislostí. Aktualizace Python knihoven rozbíjejí kompatibilitu. Repozitáře, které nebyly aktualizovány déle než 6 měsíců, často selžou už při čisté instalaci ještě předtím, než vůbec narazí na anti-bot vrstvu Zillow.

Anti-bot obrana Zillow v roce 2026: proti čemu skutečně stojíte

„Stačí použít proxy a rotovat hlavičky“ byla v roce 2022 ještě přijatelná rada. V roce 2026 už ne.

Mimo blokování IP: TLS fingerprinting a JavaScript challenge

Zillow neblokuje jen IP adresy. Komunitní hlášení popisují Zillow za Cloudflare s , která jde daleko za jednoduché rate limiting. TLS fingerprinting identifikuje neprohlížečové klienty podle jejich „digitálního podání ruky“ — tedy podle toho, jak vyjednávají šifrování. I s čerstvou proxy může být váš scraper označen, pokud jeho TLS podpis neodpovídá skutečnému Chromu.

Další vrstvu přidávají JavaScript challenge. Headless prohlížeče, které plně nespouštějí JS nebo prozrazují automatizaci (například navigator.webdriver = true), jsou odhaleny.

Search výsledky vs. detailní stránka nemovitosti: rozdílná úroveň ochrany

Ne všechny stránky Zillow jsou chráněny stejně. Schema výslovně rozlišuje „Fast Mode“, který detailní stránky přeskočí, od pomalejšího „Full Mode“, který zahrnuje bohatší data. Průvodce Thunderbit pro také odděluje počáteční scraping seznamu od „Scrape Subpages“ pro obohacení dat z detailních stránek.

Praktický závěr: scraper může fungovat dobře na výsledcích vyhledávání, ale selhat na jednotlivých stránkách nemovitostí, kde Zillow nasazuje těžší ochranu, protože data jsou cennější a častěji se scrapují.

HTTP-only tábor: proč se někteří vývojáři vyhýbají automatizaci prohlížeče

Existuje silná skupina vývojářů, kteří výslovně chtějí čistě HTTP přístup — žádné Selenium, žádný Playwright, žádný Puppeteer. Důvody jsou praktické: automatizace prohlížeče je pomalejší, náročnější na zdroje a hůř se nasazuje ve velkém.

Upřímné hodnocení: v roce 2026 jsou čistě HTTP přístupy proti Zillow bez sofistikované správy hlaviček a fingerprintů čím dál těžší. Důkazy z komunity ukazují, že browser rendering se u cílů jako Zillow stává standardem, ne výjimkou.

Konkrétní best practices proti blokacím pro Zillow

Pokud jdete cestou DIY, tady je to, co skutečně pomáhá (a co ne):

Náhodné tempo requestů, které napodobuje lidské procházení — ne pevné prodlevy, ale proměnlivé intervaly se session-like chováním
Realistická konfigurace hlaviček včetně Accept-Language, rodiny hlaviček Sec-CH-UA a správného referer chainu — ale buďme upřímní: realistické hlavičky jsou nutné, ne dostačující
Rotace session — nepoužívejte stejnou kombinaci proxy/cookie pro stovky requestů
Vědět, kdy přejít na rendering v prohlížeči — pokud váš HTTP-only přístup vrací po 50 requestech 403, bojujete s předem prohranou bitvou

Nevěřte žádnému článku, který naznačuje, že jeden kouzelný blok hlaviček v roce 2026 vyřeší Zillow.

tohle všechno zvládá automaticky — rotující infrastruktura napříč USA/EU/Asií, rendering i anti-bot ochrana — takže uživatelé úplně přeskočí labyrint kolem proxy konfigurace. Pointa je v tom, kde leží provozní zátěž.

Nejlepší postupy, jak svůj Zillow Scraper GitHub setup připravit na budoucnost

Pro čtenáře, kteří se rozhodnou pro GitHub/DIY cestu, tady jsou postupy, které oddělují scrapery, jež vydrží měsíce, od těch, které se rozbijí během pár dní.

Oddělte selektory od křehkých názvů tříd

Pokud repozitář závisí na automaticky generovaných CSS názvech tříd Zillow, berte to jako varovný signál. Tyto názvy se mění často — někdy týdně. Místo toho:

Cilte na elementy podle aria-label, atributů data-* nebo sousedního nadpisu
Kde je to možné, používejte selektory založené na textovém obsahu
Když Zillow servíruje strukturovaná data ve zdroji stránky, preferujte extrakci z JSON před parsováním HTML

Přidejte automatizované health checky

Berete scraping Zillow jako produkční monitoring, ne jako jednorázový skript. Nastavte si cron job nebo GitHub Action, které:

Denně spustí scraper na jednom známém inzerátu
Ověří výstupní schéma (jsou všechna očekávaná pole přítomná a neprázdná?)
Vyvolá alert, pokud je výstup poškozený nebo prázdný

Tím zachytíte rozbití do 24 hodin místo až za týdny.

Zafixujte verze závislostí a používejte virtuální prostředí

Vždy připínejte verze závislostí v Pythonu (nebo Node). Používejte virtuální prostředí nebo Docker kontejnery. Starší repozitáře v našem auditu ukazují, jak rychle nastává rozpad instalace — rozbité závislosti bývají často první věc, která selže, ještě předtím, než se vůbec dostanete k anti-bot vrstvě Zillow.

Držte objem scrapingu při zemi

Ten práh kolem není univerzální, ale je to věrohodné připomenutí, že objem mění chování scraperu, který v testování vypadal v pohodě. Rozkládejte requesty mezi session. Používejte náhodné prodlevy. Nepokoušejte se nascrapovat 10 000 nabídek v jednom běhu.

Vědět, kdy už se DIY nevyplatí

Jestli trávíte víc času údržbou scraperu než analýzou dat, ekonomika se obrátila. To není selhání — je to signál, že je čas zvážit spravované řešení.

Zillow Scraper GitHub (DIY) vs. no-code nástroje: upřímná rozhodovací matice

Publikum pro „zillow scraper github“ se dá rozdělit do dvou skupin: vývojáři, kteří chtějí vlastnit kód, a realitní profesionálové, kteří prostě chtějí data v tabulce. Obě skupiny mají svůj důvod. Takhle ale skutečně vypadají kompromisy.

Srovnávací tabulka vedle sebe

Kritérium	GitHub scraper (Python)	No-code nástroj (např. Thunderbit)
Doba nastavení	30–120 min (prostředí, závislosti, proxy)	~2 min (nainstalovat rozšíření, kliknout na scrape)
Údržba	Průběžná — rozbíjí se, když Zillow změní stránky	Žádná — AI se automaticky přizpůsobuje rozložení stránky
Řešení anti-bot ochrany	Ruční (proxy, hlavičky, prodlevy)	Vestavěné (cloud scraping, rotující infrastruktura)
Datová pole	Vlastní — cokoli si napíšete	Navržená AI nebo podle šablony
Možnosti exportu	CSV/JSON přes kód	Excel, Google Sheets, Airtable, Notion — zdarma
Náklady	Zdarma (kód) + náklady na proxy ($3.50–$8/GB pro residential)	K dispozici je zdarma tarif; dál kreditový model
Strop přizpůsobení	Neomezený (kód vlastníte)	Vysoký (AI prompty pro pole, scraping podstránek), ale přece jen omezený

Realita nákladů na proxy

Argument „je to zdarma, je to na GitHubu“ přestává být přesvědčivý, jakmile započítáte cenu proxy. Aktuální veřejné ceny residential proxy:

Poskytovatel	Ceník (k dubnu 2026)
Webshare	$3.50/GB za 1 GB, při větších balíčcích méně
Decodo	~ $3.50/GB pay-as-you-go
Bright Data	nominálně $8/GB, $4/GB při současné promo akci
Oxylabs	od $8/GB

Repozitář může být zdarma, ale workflow Zillow s proxy obvykle zdarma není.

Kdy zvolit GitHub repozitář

Baví vás psát a udržovat kód
Potřebujete extrémně specifické úpravy (vlastní transformace dat, napojení na proprietární pipeline)
Máte čas a technické dovednosti zvládnout rozbití
Jste ochotni spravovat proxy infrastrukturu

Kdy zvolit Thunderbit

Potřebujete spolehlivá data hned, bez nastavování a údržby
Jste realitní makléř, investor nebo člen ops týmu — ne vývojář
Chcete bez psaní exportního kódu
Chcete scraping podstránek (obohacení záznamů o data z detailu) bez další konfigurace
Chcete naplánovaný scraping popsaný obyčejným jazykem

Krok za krokem: jak scrapovat Zillow s Thunderbit (bez GitHubu)

No-code cesta vypadá úplně jinak než setup na GitHubu.

Krok 1: Nainstalujte rozšíření Thunderbit do Chrome

Otevřete , nainstalujte Thunderbit a zaregistrujte se. K dispozici je zdarma tarif.

Krok 2: Přejděte na Zillow a otevřete Thunderbit

Otevřete libovolnou stránku s výsledky vyhledávání na Zillow — třeba domy na prodej v konkrétním ZIP kódu. Klikněte na ikonu rozšíření Thunderbit v liště prohlížeče.

Krok 3: Použijte okamžitou šablonu Zillow Scraperu (nebo nechte AI navrhnout pole)

Thunderbit má — bez konfigurace, stačí jedno kliknutí. Šablona pokrývá standardní pole: adresa, cena, počet ložnic, počet koupelen, plocha v čtverečních stopách, jméno makléře, telefon makléře a URL nabídky.

Alternativně klikněte na „AI Suggest Fields“ a AI přečte stránku a navrhne sloupce. Z mé zkušenosti obvykle detekuje , včetně Zestimate.

Krok 4: Klikněte na Scrape a zkontrolujte výsledky

Klikněte na „Scrape“. Thunderbit automaticky vyřeší stránkování, anti-bot ochranu i strukturování dat. Dostanete strukturovanou tabulku výsledků — žádné 403 chyby, žádná prázdná pole, žádná konfigurace proxy.

Krok 5: Obohaťte data o podstránky (volitelné)

Klikněte na „Scrape Subpages“ a Thunderbit navštíví detailní stránku každého inzerátu a stáhne další pole: historii cen, daňové záznamy, velikost pozemku, hodnocení škol. V GitHub setupu by to byl složitý druhý průchod scrapingu s vlastní logikou selektorů a anti-bot handlingem. Tady je to jedno kliknutí.

Krok 6: Exportujte data zdarma

Exportujte do Excelu, Google Sheets, Airtable nebo Notion — všechno zdarma. Pokud chcete, stáhněte CSV nebo JSON. Není třeba psát žádný exportní kód.

To je zásadně jiné než uživatelská cesta na GitHubu, která obvykle začíná nastavováním prostředí a končí laděním 403 chyb.

Od CSV k insightům: co s daty ze Zillow vlastně dělat

Většina návodů skončí u „tady máte CSV“. To je jako dát někomu rybářský prut a odejít dřív, než vysvětlíte, jak tu rybu uvařit.

Scraping je první krok. Tady je zbytek.

Krok 1: Scrape — sesbírejte data o nabídkách

Základní pole z výsledků vyhledávání: cena, počet ložnic, počet koupelen, plocha, adresa, Zestimate, stav nabídky, dny na trhu, URL nabídky.

Krok 2: Enrich — stáhněte data z detailních stránek přes scraping podstránek

Další pole z detailních stránek nemovitostí: historie cen, daňové záznamy, velikost pozemku, HOA poplatky, hodnocení škol, kontaktní údaje makléře. Scraping podstránek v Thunderbit to zvládne jedním kliknutím. V GitHub setupu byste potřebovali samostatný průchod scrapingu s vlastními selektory a anti-bot logikou.

Krok 3: Export — pošlete data do preferované platformy

Google Sheets pro rychlou analýzu a sdílení
Airtable pro mini CRM nebo deal tracker
Notion pro týmový dashboard
CSV/JSON pro vlastní pipeline

Krok 4: Monitor — naplánujte opakované scrapování

Tohle je bolestivé místo, které ve více vláknách na fórech označují jako nevyřešené. Nechcete jen dnešní data — chcete zachytit poklesy cen, změny stavu (active → pending → sold) a nové nabídky, jakmile se objeví.

Naplánovaný scraper v Thunderbit vám dovolí popsat intervaly běžným jazykem (např. „každé úterý a pátek v 8:00“). V GitHub setupu byste si museli sami napsat cron job, řešit přetrvání autentizace a řízení obnovy po chybě.

Krok 5: Jednejte — filtrujte obchody a napojte outreach workflow

Tady se data mění v rozhodnutí:

Pro investory: filtrovat poklesy cen >5 % za 30 dní, dny na trhu >90, cenu pod Zestimate
Pro makléře: označit nové nabídky odpovídající kritériím kupujícího, expirované/stažené nabídky pro prospecting
Pro výzkumníky: počítat trendy ceny za čtvereční stopu, poměr prodejní a nabídkové ceny, rychlost obrátky zásob

Příklad z praxe: investor sledující 200 nabídek ve 3 ZIP kódech

Tady je, jak vypadají datová pole namapovaná na jednotlivé use casy:

Datové pole	Investování	Leady pro makléře	Průzkum trhu
Cena	✅ Základ	✅	✅
Zestimate	✅ Základ (analýza rozdílu)		✅
Historie cen	✅ Základ (detekce trendu)		✅
Dny na trhu	✅ Základ (signál motivace)	✅	✅
Daňově odhadovaná hodnota	✅ (kontrola ocenění)		✅
Stav nabídky	✅	✅ Základ	✅
Datum nabídky		✅	✅
Jméno/telefon makléře		✅ Základ
Cena za čtvereční stopu	✅		✅ Základ
Prodejní cena vs. nabídková cena			✅ Základ

Investor nastaví týdenní scrape napříč třemi ZIP kódy, exportuje do Google Sheets a použije podmíněné formátování pro poklesy cen a odlehlé hodnoty DOM. Makléř exportuje do Airtable a postaví prospecting pipeline. Výzkumník načte data do tabulky pro analýzu trendů. Stejný krok scrapingu, tři různé workflow.

Právní a etické aspekty scrapování Zillow

Krátké, ale nezbytné.

výslovně zakazují automatizované dotazy, včetně screen scrapingu, crawlerů, spiderů a obcházení ochran podobných CAPTCHA. od Zillow zakazuje široké cesty včetně /api/, /homes/ a URL se stavem dotazu.

Současně americké právo kolem web scrapingu nelze zjednodušit na „veškerý scraping je nelegální“. Řada případů hiQ vs. LinkedIn je důležitá pro scraping veřejně dostupných dat podle CFAA. od Haynes Boone uvádí, že devátý okruh znovu odmítl snahu LinkedIn blokovat scraping veřejných profilů členů. To ale nemaže samostatné argumenty z oblasti smluv, soukromí nebo obcházení technických opatření, a neznamená to, že podmínky používání Zillow jsou irelevantní.

Co z toho plyne:

Scraping veřejných stránek může mít silnější právní oporu v rámci CFAA, než tvrdí mnoho provozovatelů webů
Zillow ho ale stále smluvně zakazuje
Obcházení technických bariér zvyšuje právní riziko
Pokud máte komerční nebo vysokoodběrový use case, poraďte se s právníkem
Bez ohledu na právní prostředí scrapeujte zodpovědně: respektujte rate limits, nezatěžujte servery, nepoužívejte osobní data ke spamu

Jak vybrat správný nástroj pro váš Zillow workflow

Krajina Zillow scraperů na GitHubu je v roce 2026 řidší, než se zdá. Většina viditelných repozitářů je zastaralá, křehká nebo rozbitá. Malý počet novějších repozitářů — zejména — stále funguje, ale jen s průběžnou údržbou proxy a anti-bot logiky.

Skutečné rozhodnutí není open source versus closed source. Je to kontrola versus provozní zátěž.

Pokud chcete plnou kontrolu a baví vás udržovat scrapery, GitHub repozitáře jsou silné — ale vyhraďte si čas na správu proxy, aktualizace selektorů a monitoring zdraví
Pokud chcete spolehlivá data hned a bez údržby, vás dostane od vyhledávání k tabulce během minut. AI pokaždé čte strukturu stránky znovu, takže se nikdy nespoléhá na natvrdo zapsané selektory, které se rozbijí

Obě cesty jsou legitimní.

Nejhorší výsledek je strávit hodiny nastavováním GitHub scraperu a pak zjistit, že se rozbil už minulý měsíc a nikdo neaktualizoval README.

Pokud chcete vidět no-code cestu v praxi, — scrapujte Zillow nabídky zhruba na 2 kliknutí a exportujte do platformy, kterou už váš tým používá. Chcete nejdřív vidět postup? má návody.

Vyzkoušejte Thunderbit pro scraping Zillow

Časté dotazy

Existuje v roce 2026 fungující Zillow scraper na GitHubu?

Několik repozitářů funguje částečně — zejména johnbalvin/pyzill, který stále vrací data, ale vyžaduje rotující residential proxy a průběžné ladění. Většina repozitářů s hvězdičkami (včetně ChrisMuir/Zillow se 170 hvězdičkami a scrapehero/zillow_real_estate se 152 hvězdičkami) je rozbitá kvůli anti-bot změnám Zillow a úpravám DOMu. Aktuální stav najdete ve srovnávací tabulce výše.

Umí Zillow detekovat a blokovat GitHub scrapery?

Ano. Zillow používá blokování IP, TLS fingerprinting, JavaScript challenge, CAPTCHA a rate limiting. Při testování dokonce i obyčejné HTTP requesty s hlavičkami podobnými Chromu vracely 403 z CloudFront. GitHub scrapery bez správných anti-detection opatření — residential proxy, realistických hlaviček, renderingu v prohlížeči — se blokují rychle, často během 100 requestů.

Jaká data lze ze Zillow scrapovat?

Běžná pole zahrnují cenu, adresu, počet ložnic, počet koupelen, plochu ve čtverečních stopách, Zestimate, stav nabídky, dny na trhu, URL nabídky a kontaktní údaje makléře. Při scrapingu detailních stránek můžete získat také historii cen, daňové záznamy, velikost pozemku, HOA poplatky a hodnocení škol. Konkrétní pole závisí na schopnostech scraperu a na tom, zda pracujete s výsledky vyhledávání nebo s jednotlivými stránkami nemovitostí.

Je scraping Zillow legální?

To je složitější. Scraping veřejně dostupných dat má po linii případů hiQ v. LinkedIn silnější právní oporu, ale podmínky používání Zillow výslovně zakazují automatizovaný přístup. Obcházení technických bariér (CAPTCHA, rate limitů) přidává další právní riziko. Pro osobní výzkum je riziko obecně nízké. Pro komerční nebo vysokoodběrové use casy se poraďte s právníkem. Bez ohledu na to scrapeujte vždy zodpovědně.

Jak Thunderbit scrapuje Zillow, aniž by se rozbíjel?

Thunderbit používá AI, která při každém spuštění znovu přečte strukturu stránky — nespoléhá na natvrdo zapsané CSS selektory ani XPaths, které se rozbijí, když Zillow aktualizuje frontend. Má také předpřipravenou pro extrakci jedním kliknutím. Cloud scraping automaticky řeší anti-bot ochranu díky rotující infrastruktuře, takže uživatelé nemusí sami nastavovat proxy ani spravovat rendering v prohlížeči. Když Zillow změní rozložení, AI se přizpůsobí — není třeba aktualizovat repozitář.

Další informace

Zillow Scraper na GitHubu: co funguje v roce 2026 (a co se rozbíjí)

Vyzkoušej Thunderbit