Když teď vyhledáte „zillow scraper github“, najdete . To zní slibně — dokud si neuvědomíte, že nebyly aktualizovány déle než rok.
Strávil jsem hodně času auditem těchto repozitářů, testováním proti živým stránkám Zillow a pročítáním GitHub issues i vláken na Redditu, kde si vývojáři vylévají srdce nad tím, co tentokrát přestalo fungovat. Vzor je stejný: repozitář získá vlnu hvězdiček ve chvíli, kdy začne fungovat, a pak tiše zemře, jakmile Zillow změní DOM, zpřísní anti-bot ochranu nebo zruší interní API endpoint. Jeden frustrovaný vývojář na Redditu to shrnul dokonale: „scraping projekty potřebují neustálou údržbu kvůli změnám na stránce nebo v api.“ Tenhle článek je audit, který bych si přál mít před klonováním svého prvního Zillow scraper repa — upřímný, aktuální pohled na to, co v roce 2026 skutečně běží, co se rozbíjí a proč, a kdy dává mnohem větší smysl přeskočit GitHub zajíce v pytli úplně a použít nástroj jako .
Co je Zillow Scraper GitHub projekt (a kdo ho potřebuje)?
„Zillow scraper“ je jakýkoli skript nebo nástroj, který automaticky sbírá data o nemovitostech z webu Zillow — například cenu, adresu, počet ložnic, koupelen, čtvereční stopáž, Zestimate, stav nabídky, dny na trhu a někdy i detailnější data z detailu nemovitosti, jako je historie ceny nebo daňové záznamy. Lidé hledají na GitHubu hlavně proto, že chtějí něco zdarma, open-source a upravitelného. Forknout repozitář, upravit pole, napojit výstup do vlastního pipeline. Teoreticky to je to nejlepší z obou světů.
Cílové skupiny jsou dost odlišné:
- Investoři do nemovitostí sledují příležitosti napříč ZIP kódy — zajímají je poklesy cen, rozdíly oproti Zestimate a dny na trhu, aby mohli filtrovat vhodné obchody
- Realitní makléři sestavují seznamy potenciálních kontaktů — potřebují URL nabídek, kontaktní údaje makléřů a změny stavu inzerátu
- Průzkumníci trhu a analytici tahají strukturované srovnatelné vzorky — adresu, cenu za čtvereční stopu, poměr prodejní a nabídkové ceny, počet nemovitostí v nabídce
- Ops týmy sledují ceny nebo dostupnost napříč trhy v pravidelných intervalech
Společný jmenovatel: všichni chtějí strukturovaná, opakovatelná data — ne jednorázové kopírování a vkládání. Právě proto je scraping tak lákavý. A právě proto je údržba tak bolestivá, když repozitář přestane fungovat.
Audit Zillow Scraper GitHub repozitářů 2026: co skutečně ještě běží
Na GitHubu jsem vyhledal repozitáře Zillow scraperů s nejvíce hvězdičkami a forky, zkontroloval datum posledního commitu, přečetl otevřené issues a otestoval je na živých stránkách Zillow. Metodika je jednoduchá: pokud repozitář dokáže vrátit přesná data o nabídkách z výsledků vyhledávání nebo z detailních stránek Zillow k dubnu 2026, dostane štítek „working“. Pokud běží, ale vrací neúplná data nebo po několika stránkách narazí na blokaci, je „partially working“. Pokud selže úplně nebo maintainer říká, že je mrtvý, je „broken“.
Tvrdá realita: většina repozitářů, které vypadaly slibně před 12–18 měsíci, už tiše přestala fungovat.
Kurátorovaná srovnávací tabulka: největší Zillow Scraper GitHub repozitáře

| Repo | Jazyk | Hvězdičky | Poslední push | Přístup | Stav v roce 2026 | Hlavní omezení |
|---|---|---|---|---|---|---|
| johnbalvin/pyzill | Python | 96 | 2025-08-28 | Extrakce z vyhledávání/detailu Zillow + podpora proxy | Částečně funguje | README říká „Use rotating residential proxies.“ Problémy zahrnují blokace od Cloudflare, 403 přes proxyrack a CAPTCHA i s proxy. |
| johnbalvin/gozillow | Go | 10 | 2025-02-23 | Go knihovna pro URL/ID nemovitosti a vyhledávací metody | Částečně funguje | Stejný maintainer jako pyzill, ale nízké přijetí a slabší stopa v issues. Důvěra je nižší. |
| cermak-petr/actor-zillow-api-scraper | JavaScript | 59 | 2022-05-04 | Hostovaný actor využívající interní API Zillow s rekurzí | Částečně funguje (rizikové) | Chytrý návrh — rekurzivně dělí hranice mapy, aby obešel limity výsledků. GitHub repozitář ale nebyl pushnut od roku 2022. Jeden název issue: „is this still working?“ |
| ChrisMuir/Zillow | Python | 170 | 2019-06-09 | Selenium | Rozbité | README výslovně uvádí: „As of 2019, this code no longer works for most users.“ Zillow detekuje webdrivery a servíruje nekonečné CAPTCHA. |
| scrapehero/zillow_real_estate | Python | 152 | 2018-02-26 | requests + lxml | Rozbité | Problémy zahrnují „returns empty dataset“, „No output in .csv file“ a „Is this repo still updated?“ |
| faithfulalabi/Zillow_Scraper | Python/notebook | 30 | 2021-07-02 | Natvrdo zapsané Selenium | Rozbité | Vzdělávací projekt napevno nastavený na pronájmy v Arlingtonu v Texasu. Není to univerzální scraper. |
| eswan18/zillow_scraper | Python | 10 | 2021-04-10 | Scraper + zpracovatelský pipeline | Rozbité | Repozitář je archivovaný. |
| Thunderbit | Bez kódu (rozšíření do Chrome) | N/A | Průběžně aktualizováno | AI čte strukturu stránky + předpřipravená šablona pro Zillow | Funguje | Není co udržovat na GitHubu. AI se přizpůsobuje změnám rozložení Zillow. K dispozici je zdarma tarif. |
Vzor je jasný: GitHub ekosystém pořád obsahuje živý kód, ale většina viditelných repozitářů jsou návody, historické artefakty nebo tenké obaly kolem workflow závislého na proxy.
Co znamená „funguje“, „rozbité“ a „částečně funguje“
U těchto štítků chci být přesný, protože jsou důležitější než počet hvězdiček:
- Funguje: úspěšně vrací přesná data o nabídkách ze search stránek Zillow a/nebo detailních stránek k datu testování, aniž by maintainer označil projekt za mrtvý
- Částečně funguje: běží, ale vrací neúplná data, po pár stránkách narazí na blokaci nebo funguje jen na určitých typech stránek — obvykle vyžaduje proxy infrastrukturu a průběžné ladění
- Rozbité: nevrací data, vyhazuje chyby nebo je maintainerem či komunitou výslovně označeno za nefunkční
Repozitář se 170 hvězdičkami a stavem „broken“ je horší než repozitář s 10 hvězdičkami, který data skutečně vrací. Popularita je historický kontext, ne signál kvality.
Proč se Zillow Scraper GitHub projekty rozbíjejí (5 nejčastějších selhání)
Pochopit proč se Zillow scrapery rozbíjejí vám ušetří víc času než jakýkoli README. Když pochopíte proč se Zillow scrapery rozbíjejí, můžete buď postavit odolnější řešení, nebo se rozhodnout, že daň za údržbu prostě nestojí za to.
1. Přestavba DOMu (React frontend Zillow)
Frontend Zillow je postavený na Reactu a často se mění. Názvy tříd, struktura komponent i datové atributy se posouvají bez varování. Scraper, který dnes cílí na div.list-card-price, může zjistit, že ta třída už zítra neexistuje. Jak poznamenává jeden , na Zillow „se názvy tříd liší stránku od stránky“.
Výsledek: skript běží, vrací prázdná pole a vy si toho všimnete až ve chvíli, kdy už týden sbíráte samé nuly.
2. Změny interního API a GraphQL endpointů
Chytřejší repozitáře obcházejí HTML úplně a míří přímo na interní GraphQL nebo REST API Zillow. Například repozitář výslovně používá interní API Zillow a rekurzivně dělí hranice mapy, aby obešel limity výsledků. Je to chytré řešení — ale Zillow tyto endpointy průběžně přestavuje. Když se to stane, scraper vrací 404 nebo prázdné JSON bez chybové hlášky.
Je to jemnější forma selhání. Kód je v pořádku. Jen se pohnul cíl.
3. Eskalace anti-bot ochrany a CAPTCHA
Zillow postupně zpřísňuje detekci botů. Při vlastním testování v dubnu 2026 mi obyčejné requests.get() volání na zillow.com i zillow.com/homes/Chicago,-IL_rb/ vrátilo — i s user-agentem podobným Chromu a hlavičkou Accept-Language. Komunitní hlášení tomu odpovídají: jeden uživatel uvedl, že jeho reverzně inženýrovaný API flow začal vracet 403 asi po .
Scraper, který při nízkém objemu funguje bez problému, může najednou selhat při škálování. To je pěkně nepříjemné překvapení, když se snažíte sledovat 200 nabídek napříč 3 ZIP kódy.
4. Login stěny u prémiových dat
Některé datové body — detaily Zestimate, daňové záznamy, část historie cen — jsou schované za autentizací. Open-source scrapery zřídka zvládají login flow, takže tato pole vracejí prázdná data. Pokud váš use case závisí na historii cen nebo daňově odhadované hodnotě, narazíte na tuhle bariéru velmi rychle.
5. Rozpad závislostí a neudržované repozitáře
V issues repozitáře se objevují instalační problémy jako No module named 'unicodecsv'. Repozitář popisuje ruční instalaci driverů a bolest kolem GIS závislostí. Aktualizace Python knihoven rozbíjejí kompatibilitu. Repozitáře, které nebyly aktualizovány déle než 6 měsíců, často selžou už při čisté instalaci ještě předtím, než vůbec narazí na anti-bot vrstvu Zillow.
Anti-bot obrana Zillow v roce 2026: proti čemu skutečně stojíte
„Stačí použít proxy a rotovat hlavičky“ byla v roce 2022 ještě přijatelná rada. V roce 2026 už ne.
Mimo blokování IP: TLS fingerprinting a JavaScript challenge
Zillow neblokuje jen IP adresy. Komunitní hlášení popisují Zillow za Cloudflare s , která jde daleko za jednoduché rate limiting. TLS fingerprinting identifikuje neprohlížečové klienty podle jejich „digitálního podání ruky“ — tedy podle toho, jak vyjednávají šifrování. I s čerstvou proxy může být váš scraper označen, pokud jeho TLS podpis neodpovídá skutečnému Chromu.
Další vrstvu přidávají JavaScript challenge. Headless prohlížeče, které plně nespouštějí JS nebo prozrazují automatizaci (například navigator.webdriver = true), jsou odhaleny.
Search výsledky vs. detailní stránka nemovitosti: rozdílná úroveň ochrany
Ne všechny stránky Zillow jsou chráněny stejně. Schema výslovně rozlišuje „Fast Mode“, který detailní stránky přeskočí, od pomalejšího „Full Mode“, který zahrnuje bohatší data. Průvodce Thunderbit pro také odděluje počáteční scraping seznamu od „Scrape Subpages“ pro obohacení dat z detailních stránek.
Praktický závěr: scraper může fungovat dobře na výsledcích vyhledávání, ale selhat na jednotlivých stránkách nemovitostí, kde Zillow nasazuje těžší ochranu, protože data jsou cennější a častěji se scrapují.
HTTP-only tábor: proč se někteří vývojáři vyhýbají automatizaci prohlížeče
Existuje silná skupina vývojářů, kteří výslovně chtějí čistě HTTP přístup — žádné Selenium, žádný Playwright, žádný Puppeteer. Důvody jsou praktické: automatizace prohlížeče je pomalejší, náročnější na zdroje a hůř se nasazuje ve velkém.
Upřímné hodnocení: v roce 2026 jsou čistě HTTP přístupy proti Zillow bez sofistikované správy hlaviček a fingerprintů čím dál těžší. Důkazy z komunity ukazují, že browser rendering se u cílů jako Zillow stává standardem, ne výjimkou.
Konkrétní best practices proti blokacím pro Zillow

Pokud jdete cestou DIY, tady je to, co skutečně pomáhá (a co ne):
- Náhodné tempo requestů, které napodobuje lidské procházení — ne pevné prodlevy, ale proměnlivé intervaly se session-like chováním
- Realistická konfigurace hlaviček včetně
Accept-Language, rodiny hlavičekSec-CH-UAa správného referer chainu — ale buďme upřímní: realistické hlavičky jsou nutné, ne dostačující - Rotace session — nepoužívejte stejnou kombinaci proxy/cookie pro stovky requestů
- Vědět, kdy přejít na rendering v prohlížeči — pokud váš HTTP-only přístup vrací po 50 requestech 403, bojujete s předem prohranou bitvou
Nevěřte žádnému článku, který naznačuje, že jeden kouzelný blok hlaviček v roce 2026 vyřeší Zillow.
tohle všechno zvládá automaticky — rotující infrastruktura napříč USA/EU/Asií, rendering i anti-bot ochrana — takže uživatelé úplně přeskočí labyrint kolem proxy konfigurace. Pointa je v tom, kde leží provozní zátěž.
Nejlepší postupy, jak svůj Zillow Scraper GitHub setup připravit na budoucnost
Pro čtenáře, kteří se rozhodnou pro GitHub/DIY cestu, tady jsou postupy, které oddělují scrapery, jež vydrží měsíce, od těch, které se rozbijí během pár dní.
Oddělte selektory od křehkých názvů tříd
Pokud repozitář závisí na automaticky generovaných CSS názvech tříd Zillow, berte to jako varovný signál. Tyto názvy se mění často — někdy týdně. Místo toho:
- Cilte na elementy podle
aria-label, atributůdata-*nebo sousedního nadpisu - Kde je to možné, používejte selektory založené na textovém obsahu
- Když Zillow servíruje strukturovaná data ve zdroji stránky, preferujte extrakci z JSON před parsováním HTML
Přidejte automatizované health checky
Berete scraping Zillow jako produkční monitoring, ne jako jednorázový skript. Nastavte si cron job nebo GitHub Action, které:
- Denně spustí scraper na jednom známém inzerátu
- Ověří výstupní schéma (jsou všechna očekávaná pole přítomná a neprázdná?)
- Vyvolá alert, pokud je výstup poškozený nebo prázdný
Tím zachytíte rozbití do 24 hodin místo až za týdny.
Zafixujte verze závislostí a používejte virtuální prostředí
Vždy připínejte verze závislostí v Pythonu (nebo Node). Používejte virtuální prostředí nebo Docker kontejnery. Starší repozitáře v našem auditu ukazují, jak rychle nastává rozpad instalace — rozbité závislosti bývají často první věc, která selže, ještě předtím, než se vůbec dostanete k anti-bot vrstvě Zillow.
Držte objem scrapingu při zemi
Ten práh kolem není univerzální, ale je to věrohodné připomenutí, že objem mění chování scraperu, který v testování vypadal v pohodě. Rozkládejte requesty mezi session. Používejte náhodné prodlevy. Nepokoušejte se nascrapovat 10 000 nabídek v jednom běhu.
Vědět, kdy už se DIY nevyplatí
Jestli trávíte víc času údržbou scraperu než analýzou dat, ekonomika se obrátila. To není selhání — je to signál, že je čas zvážit spravované řešení.
Zillow Scraper GitHub (DIY) vs. no-code nástroje: upřímná rozhodovací matice
Publikum pro „zillow scraper github“ se dá rozdělit do dvou skupin: vývojáři, kteří chtějí vlastnit kód, a realitní profesionálové, kteří prostě chtějí data v tabulce. Obě skupiny mají svůj důvod. Takhle ale skutečně vypadají kompromisy.
Srovnávací tabulka vedle sebe

| Kritérium | GitHub scraper (Python) | No-code nástroj (např. Thunderbit) |
|---|---|---|
| Doba nastavení | 30–120 min (prostředí, závislosti, proxy) | ~2 min (nainstalovat rozšíření, kliknout na scrape) |
| Údržba | Průběžná — rozbíjí se, když Zillow změní stránky | Žádná — AI se automaticky přizpůsobuje rozložení stránky |
| Řešení anti-bot ochrany | Ruční (proxy, hlavičky, prodlevy) | Vestavěné (cloud scraping, rotující infrastruktura) |
| Datová pole | Vlastní — cokoli si napíšete | Navržená AI nebo podle šablony |
| Možnosti exportu | CSV/JSON přes kód | Excel, Google Sheets, Airtable, Notion — zdarma |
| Náklady | Zdarma (kód) + náklady na proxy ($3.50–$8/GB pro residential) | K dispozici je zdarma tarif; dál kreditový model |
| Strop přizpůsobení | Neomezený (kód vlastníte) | Vysoký (AI prompty pro pole, scraping podstránek), ale přece jen omezený |
Realita nákladů na proxy
Argument „je to zdarma, je to na GitHubu“ přestává být přesvědčivý, jakmile započítáte cenu proxy. Aktuální veřejné ceny residential proxy:
| Poskytovatel | Ceník (k dubnu 2026) |
|---|---|
| Webshare | $3.50/GB za 1 GB, při větších balíčcích méně |
| Decodo | ~ $3.50/GB pay-as-you-go |
| Bright Data | nominálně $8/GB, $4/GB při současné promo akci |
| Oxylabs | od $8/GB |
Repozitář může být zdarma, ale workflow Zillow s proxy obvykle zdarma není.
Kdy zvolit GitHub repozitář
- Baví vás psát a udržovat kód
- Potřebujete extrémně specifické úpravy (vlastní transformace dat, napojení na proprietární pipeline)
- Máte čas a technické dovednosti zvládnout rozbití
- Jste ochotni spravovat proxy infrastrukturu
Kdy zvolit Thunderbit
- Potřebujete spolehlivá data hned, bez nastavování a údržby
- Jste realitní makléř, investor nebo člen ops týmu — ne vývojář
- Chcete bez psaní exportního kódu
- Chcete scraping podstránek (obohacení záznamů o data z detailu) bez další konfigurace
- Chcete naplánovaný scraping popsaný obyčejným jazykem
Krok za krokem: jak scrapovat Zillow s Thunderbit (bez GitHubu)
No-code cesta vypadá úplně jinak než setup na GitHubu.
Krok 1: Nainstalujte rozšíření Thunderbit do Chrome
Otevřete , nainstalujte Thunderbit a zaregistrujte se. K dispozici je zdarma tarif.
Krok 2: Přejděte na Zillow a otevřete Thunderbit
Otevřete libovolnou stránku s výsledky vyhledávání na Zillow — třeba domy na prodej v konkrétním ZIP kódu. Klikněte na ikonu rozšíření Thunderbit v liště prohlížeče.
Krok 3: Použijte okamžitou šablonu Zillow Scraperu (nebo nechte AI navrhnout pole)
Thunderbit má — bez konfigurace, stačí jedno kliknutí. Šablona pokrývá standardní pole: adresa, cena, počet ložnic, počet koupelen, plocha v čtverečních stopách, jméno makléře, telefon makléře a URL nabídky.
Alternativně klikněte na „AI Suggest Fields“ a AI přečte stránku a navrhne sloupce. Z mé zkušenosti obvykle detekuje , včetně Zestimate.
Krok 4: Klikněte na Scrape a zkontrolujte výsledky
Klikněte na „Scrape“. Thunderbit automaticky vyřeší stránkování, anti-bot ochranu i strukturování dat. Dostanete strukturovanou tabulku výsledků — žádné 403 chyby, žádná prázdná pole, žádná konfigurace proxy.
Krok 5: Obohaťte data o podstránky (volitelné)
Klikněte na „Scrape Subpages“ a Thunderbit navštíví detailní stránku každého inzerátu a stáhne další pole: historii cen, daňové záznamy, velikost pozemku, hodnocení škol. V GitHub setupu by to byl složitý druhý průchod scrapingu s vlastní logikou selektorů a anti-bot handlingem. Tady je to jedno kliknutí.
Krok 6: Exportujte data zdarma
Exportujte do Excelu, Google Sheets, Airtable nebo Notion — všechno zdarma. Pokud chcete, stáhněte CSV nebo JSON. Není třeba psát žádný exportní kód.
To je zásadně jiné než uživatelská cesta na GitHubu, která obvykle začíná nastavováním prostředí a končí laděním 403 chyb.
Od CSV k insightům: co s daty ze Zillow vlastně dělat
Většina návodů skončí u „tady máte CSV“. To je jako dát někomu rybářský prut a odejít dřív, než vysvětlíte, jak tu rybu uvařit.
Scraping je první krok. Tady je zbytek.
Krok 1: Scrape — sesbírejte data o nabídkách
Základní pole z výsledků vyhledávání: cena, počet ložnic, počet koupelen, plocha, adresa, Zestimate, stav nabídky, dny na trhu, URL nabídky.
Krok 2: Enrich — stáhněte data z detailních stránek přes scraping podstránek
Další pole z detailních stránek nemovitostí: historie cen, daňové záznamy, velikost pozemku, HOA poplatky, hodnocení škol, kontaktní údaje makléře. Scraping podstránek v Thunderbit to zvládne jedním kliknutím. V GitHub setupu byste potřebovali samostatný průchod scrapingu s vlastními selektory a anti-bot logikou.
Krok 3: Export — pošlete data do preferované platformy
- Google Sheets pro rychlou analýzu a sdílení
- Airtable pro mini CRM nebo deal tracker
- Notion pro týmový dashboard
- CSV/JSON pro vlastní pipeline
Krok 4: Monitor — naplánujte opakované scrapování
Tohle je bolestivé místo, které ve více vláknách na fórech označují jako nevyřešené. Nechcete jen dnešní data — chcete zachytit poklesy cen, změny stavu (active → pending → sold) a nové nabídky, jakmile se objeví.
Naplánovaný scraper v Thunderbit vám dovolí popsat intervaly běžným jazykem (např. „každé úterý a pátek v 8:00“). V GitHub setupu byste si museli sami napsat cron job, řešit přetrvání autentizace a řízení obnovy po chybě.
Krok 5: Jednejte — filtrujte obchody a napojte outreach workflow
Tady se data mění v rozhodnutí:
- Pro investory: filtrovat poklesy cen >5 % za 30 dní, dny na trhu >90, cenu pod Zestimate
- Pro makléře: označit nové nabídky odpovídající kritériím kupujícího, expirované/stažené nabídky pro prospecting
- Pro výzkumníky: počítat trendy ceny za čtvereční stopu, poměr prodejní a nabídkové ceny, rychlost obrátky zásob
Příklad z praxe: investor sledující 200 nabídek ve 3 ZIP kódech
Tady je, jak vypadají datová pole namapovaná na jednotlivé use casy:
| Datové pole | Investování | Leady pro makléře | Průzkum trhu |
|---|---|---|---|
| Cena | ✅ Základ | ✅ | ✅ |
| Zestimate | ✅ Základ (analýza rozdílu) | ✅ | |
| Historie cen | ✅ Základ (detekce trendu) | ✅ | |
| Dny na trhu | ✅ Základ (signál motivace) | ✅ | ✅ |
| Daňově odhadovaná hodnota | ✅ (kontrola ocenění) | ✅ | |
| Stav nabídky | ✅ | ✅ Základ | ✅ |
| Datum nabídky | ✅ | ✅ | |
| Jméno/telefon makléře | ✅ Základ | ||
| Cena za čtvereční stopu | ✅ | ✅ Základ | |
| Prodejní cena vs. nabídková cena | ✅ Základ |
Investor nastaví týdenní scrape napříč třemi ZIP kódy, exportuje do Google Sheets a použije podmíněné formátování pro poklesy cen a odlehlé hodnoty DOM. Makléř exportuje do Airtable a postaví prospecting pipeline. Výzkumník načte data do tabulky pro analýzu trendů. Stejný krok scrapingu, tři různé workflow.
Právní a etické aspekty scrapování Zillow
Krátké, ale nezbytné.
výslovně zakazují automatizované dotazy, včetně screen scrapingu, crawlerů, spiderů a obcházení ochran podobných CAPTCHA. od Zillow zakazuje široké cesty včetně /api/, /homes/ a URL se stavem dotazu.
Současně americké právo kolem web scrapingu nelze zjednodušit na „veškerý scraping je nelegální“. Řada případů hiQ vs. LinkedIn je důležitá pro scraping veřejně dostupných dat podle CFAA. od Haynes Boone uvádí, že devátý okruh znovu odmítl snahu LinkedIn blokovat scraping veřejných profilů členů. To ale nemaže samostatné argumenty z oblasti smluv, soukromí nebo obcházení technických opatření, a neznamená to, že podmínky používání Zillow jsou irelevantní.
Co z toho plyne:
- Scraping veřejných stránek může mít silnější právní oporu v rámci CFAA, než tvrdí mnoho provozovatelů webů
- Zillow ho ale stále smluvně zakazuje
- Obcházení technických bariér zvyšuje právní riziko
- Pokud máte komerční nebo vysokoodběrový use case, poraďte se s právníkem
- Bez ohledu na právní prostředí scrapeujte zodpovědně: respektujte rate limits, nezatěžujte servery, nepoužívejte osobní data ke spamu
Jak vybrat správný nástroj pro váš Zillow workflow
Krajina Zillow scraperů na GitHubu je v roce 2026 řidší, než se zdá. Většina viditelných repozitářů je zastaralá, křehká nebo rozbitá. Malý počet novějších repozitářů — zejména — stále funguje, ale jen s průběžnou údržbou proxy a anti-bot logiky.
Skutečné rozhodnutí není open source versus closed source. Je to kontrola versus provozní zátěž.
- Pokud chcete plnou kontrolu a baví vás udržovat scrapery, GitHub repozitáře jsou silné — ale vyhraďte si čas na správu proxy, aktualizace selektorů a monitoring zdraví
- Pokud chcete spolehlivá data hned a bez údržby, vás dostane od vyhledávání k tabulce během minut. AI pokaždé čte strukturu stránky znovu, takže se nikdy nespoléhá na natvrdo zapsané selektory, které se rozbijí
Obě cesty jsou legitimní.
Nejhorší výsledek je strávit hodiny nastavováním GitHub scraperu a pak zjistit, že se rozbil už minulý měsíc a nikdo neaktualizoval README.
Pokud chcete vidět no-code cestu v praxi, — scrapujte Zillow nabídky zhruba na 2 kliknutí a exportujte do platformy, kterou už váš tým používá. Chcete nejdřív vidět postup? má návody.
Časté dotazy
Existuje v roce 2026 fungující Zillow scraper na GitHubu?
Několik repozitářů funguje částečně — zejména johnbalvin/pyzill, který stále vrací data, ale vyžaduje rotující residential proxy a průběžné ladění. Většina repozitářů s hvězdičkami (včetně ChrisMuir/Zillow se 170 hvězdičkami a scrapehero/zillow_real_estate se 152 hvězdičkami) je rozbitá kvůli anti-bot změnám Zillow a úpravám DOMu. Aktuální stav najdete ve srovnávací tabulce výše.
Umí Zillow detekovat a blokovat GitHub scrapery?
Ano. Zillow používá blokování IP, TLS fingerprinting, JavaScript challenge, CAPTCHA a rate limiting. Při testování dokonce i obyčejné HTTP requesty s hlavičkami podobnými Chromu vracely 403 z CloudFront. GitHub scrapery bez správných anti-detection opatření — residential proxy, realistických hlaviček, renderingu v prohlížeči — se blokují rychle, často během 100 requestů.
Jaká data lze ze Zillow scrapovat?
Běžná pole zahrnují cenu, adresu, počet ložnic, počet koupelen, plochu ve čtverečních stopách, Zestimate, stav nabídky, dny na trhu, URL nabídky a kontaktní údaje makléře. Při scrapingu detailních stránek můžete získat také historii cen, daňové záznamy, velikost pozemku, HOA poplatky a hodnocení škol. Konkrétní pole závisí na schopnostech scraperu a na tom, zda pracujete s výsledky vyhledávání nebo s jednotlivými stránkami nemovitostí.
Je scraping Zillow legální?
To je složitější. Scraping veřejně dostupných dat má po linii případů hiQ v. LinkedIn silnější právní oporu, ale podmínky používání Zillow výslovně zakazují automatizovaný přístup. Obcházení technických bariér (CAPTCHA, rate limitů) přidává další právní riziko. Pro osobní výzkum je riziko obecně nízké. Pro komerční nebo vysokoodběrové use casy se poraďte s právníkem. Bez ohledu na to scrapeujte vždy zodpovědně.
Jak Thunderbit scrapuje Zillow, aniž by se rozbíjel?
Thunderbit používá AI, která při každém spuštění znovu přečte strukturu stránky — nespoléhá na natvrdo zapsané CSS selektory ani XPaths, které se rozbijí, když Zillow aktualizuje frontend. Má také předpřipravenou pro extrakci jedním kliknutím. Cloud scraping automaticky řeší anti-bot ochranu díky rotující infrastruktuře, takže uživatelé nemusí sami nastavovat proxy ani spravovat rendering v prohlížeči. Když Zillow změní rozložení, AI se přizpůsobí — není třeba aktualizovat repozitář.
Další informace