Is Web Scraping Illegal? Understanding the Legal Implications

Naposledy aktualizováno April 8, 2026

Je web scraping nelegální? To je ta milionová otázka, kterou od zakladatelů, marketérů i datových nadšenců slyším prakticky každý týden.

S tím, že — a vůbec poprvé v historii automatizovaný provoz překonal lidskou aktivitu — a že velká část z toho připadá na web scraping pro business intelligence, prodej a trénování AI, není divu, že se všichni snaží zjistit, kde přesně leží hranice zákona.

Jednou narazíte na titulek o rozsudku, podle kterého je scraping veřejných dat v pořádku. Jindy regulátoři varují před „neoprávněným“ sběrem dat ze sociálních sítí. Je v tom zmatek, i pro někoho jako já, kdo každý den vyvíjí AI nástroje pro web scraping v .

Takže: je web scraping nelegální? Odpověď není jednoduché ano nebo ne. Záleží na tom, co scrapujete, odkud data berete, jak je používáte a co říká zákon ve vaší zemi.

V tomhle podrobnějším průvodci rozeberu právní prostředí, vyvrátím pár rozšířených mýtů a přidám i praktické tipy (plus pár historek z praxe), aby vaše scrapingové projekty zůstaly v souladu s pravidly — ať už jste samostatný zakladatel, nebo datový tým ve firmě z Fortune 500.

Web scraping a zákon: existuje jasná hranice?

Pokud čekáte odpověď v jedné větě, ušetřím vám čas: zákon zatím web scrapingu nedal žádnou ostrou a jednoznačnou hranici.

Místo toho jde o spleť překrývajících se pravidel — vlastnictví dat, soukromí, duševní vlastnictví, zákony proti hackingu a nechvalně známé Podmínky používání (ToS). Každá z těchto oblastí může hrát roli a výsledek často závisí na konkrétním případě ().

Rozdělme si to do tří hlavních právních okruhů:

  • Vlastnictví dat: Obecně platí, že fakta a veřejné informace (například ceny nebo telefonní čísla) nejsou autorsky chráněné. Kreativní obsah (články, obrázky) a proprietární databáze ale chráněné být mohou — zvlášť v EU, kde existují i tzv. práva k databázím ().
  • Soukromí: Moderní zákony na ochranu soukromí (GDPR v Evropě, PIPL v Číně) považují osobní údaje za regulovanou oblast — i když jsou veřejně dostupné. Scrapovat jména, e-maily nebo profily na sociálních sítích bez právního základu vás může dostat do problémů ().
  • Smlouvy (Podmínky používání): Mnoho webů scraping výslovně zakazuje v ToS. I když ToS nejsou zákon, soudy je mohou brát jako závaznou smlouvu. Jejich porušení může znamenat žaloby a v některých případech i spuštění anti-hacking předpisů, pokud obejdete technické ochrany ().

Takže: je web scraping nelegální? Někdy ano, někdy ne a často platí „záleží“. Rozhodují detaily.

Srovnání právních pohledů: USA, EU, UK, Čína

Tady je rychlá tabulka, která ukazuje, jak k web scrapingu přistupují hlavní regiony:

RegionScraping veřejných datScraping osobních/soukromých datVymáhání a důležité body
USAObecně povoleno u veřejných dat (viz hiQ v. LinkedIn). Porušení ToS může vést k civilním žalobám.Omezeno/nelegální, pokud obcházíte přihlášení nebo zneužíváte osobní údaje. Mohou se uplatnit státní zákony (např. CCPA).Dopisy o ukončení činnosti, blokace IP, žaloby. CFAA se uplatní, pokud obejdete technické bariéry.
EUPodmíněně povoleno pro neosobní veřejná data. Mohou se uplatnit práva k databázím. EU AI Act (2026) přidává povinnost transparentnosti u dat pro trénování AI.Silně regulováno podle GDPR — i veřejně dostupná osobní data potřebují právní základ.Úřady pro ochranu osobních údajů mohou udělovat pokuty za porušení soukromí. Prosazují se i autorská a databázová práva. EU AI Act zakazuje scraping obličejových snímků pro AI.
UKPodobné jako v EU. Veřejná neosobní data lze scrapovat, ale je nutné respektovat práva k datům a smluvní podmínky.Přísné zacházení s osobními údaji — platí UK GDPR. Computer Misuse Act kriminalizuje neoprávněný přístup.ICO může ukládat sankce za porušení ochrany dat. Soudy mohou vymáhat ToS.
ČínaPřísně kontrolováno. Veřejná neosobní data lze někdy scrapovat pro interní použití, ale prostředí je opatrné.Velmi omezeno — PIPL vyžaduje souhlas pro osobní údaje. Platí zákony proti nekalé soutěži.Trestní případy za rozsáhlý scraping. Soudy používají právo nekalé soutěže k zastavení neoprávněného scrapingu.

(, )

Je web scraping nelegální? Klíčové právní faktory

Co tedy skutečně rozhoduje o tom, jestli je váš scrapingový projekt legální, nebo rizikový? Tady jsou hlavní faktory:

  • Veřejná vs. soukromá data: Scrapování dat, která si kdokoli může prohlédnout na otevřeném webu, je obecně bezpečnější. Scrapovat něco za přihlášením, paywallem nebo technickou bariérou? To už bude velmi pravděpodobně nelegální ().
  • Povaha dat: Osobní údaje (jména, e-maily, profily) spouštějí zákony o ochraně soukromí. Autorsky chráněný obsah (články, obrázky) nelze prostě zkopírovat celý. Čistá fakta (ceny, počasí) bývají většinou volně použitelná ().
  • Zamýšlené použití: Interní analýza nebo výzkum se posuzuje shovívavěji než znovu publikování nebo prodej vyextrahovaných dat. Použití scraped dat k přímé konkurenci proti zdroji? To si koleduje o žalobu ().
  • Dodržování pravidel webu: Vždy zkontrolujte robots.txt a ToS. Robots.txt není právně závazný, ale je dobrá praxe ho respektovat. Porušení ToS může znamenat civilní spor nebo horší následky ().
  • Technické opatření: Důležité je scrapovat lidskou rychlostí a neobcházet bezpečnostní mechanismy. Zatěžování serveru nebo obcházení CAPTCHA může už spadat do roviny hackingu ().

Co se změnilo v letech 2024–2026: klíčové soudní případy a regulace

Právní prostředí web scrapingu se od roku 2023 výrazně proměnilo. Tady jsou vývoje, které by měl znát každý, kdo scrapuje:

Hlavní soudní rozhodnutí

  • Meta v. Bright Data (2024): Federální soud v USA . Soudce uvedl, že „návštěvník není považován za ‚uživatele‘, pokud nemá účet“. Meta krátce poté stáhla zbývající nároky. To je zásadní výhra pro scraping veřejných dat.

  • X Corp v. Bright Data (2024): Twitter (dnes X) prohrál podobný spor, což potvrdilo stejný princip: scraping veřejně dostupných dat bez přihlášení neporušuje ToS, protože scraper s těmito podmínkami nikdy nevyjádřil souhlas.

  • Reddit v. Perplexity AI (říjen 2025): Reddit , odvolávaje se na DMCA a tvrzení o obcházení anti-bot systémů. To ukazuje novou právní strategii: platformy se přesouvají ke copyrightovým a anti-circumvention nárokům místo CFAA.

  • NYT v. OpenAI (březen 2025): Federální soudce a zamítl návrh OpenAI na zastavení řízení. To může vytvořit důležitý precedent pro otázku, zda scraping obsahu pro trénování AI modelů spadá pod „fair use“.

  • Vyrovnání Anthropic (září 2025): Anthropic souhlasila s vyrovnáním ve výši 1,5 miliardy dolarů v americké hromadné copyrightové žalobě kvůli použití chráněných textů pro trénink svého AI modelu — jasný signál, že náklady na scraping pro AI jsou velmi reálné.

Hlavní trend: od CFAA ke smluvnímu a autorskému právu

Vzor je jasný: CFAA (Computer Fraud and Abuse Act) ztrácí sílu jako zbraň proti scraperům veřejných dat. Společnosti, které chtěly CFAA použít proti scrapingu veřejných dat — Meta, X, LinkedIn — většinou neuspěly. Právní boj se přesouvá k:

  • Smluvnímu právu (porušení ToS — ale soudy říkají, že ne-uživatelé nejsou ToS vázáni)
  • Copyrightovým nárokům (zvlášť u dat pro trénink AI)
  • Zákonům proti obcházení ochrany (DMCA Section 1201)

Pro scrapery to znamená, že právní riziko nezmizelo — jen se přesunulo jinam.

Regulační změny

  • Aktualizace CCPA pro rok 2026: Upravené kalifornské předpisy CCPA a přidaly nová pravidla pro technologie automatizovaného rozhodování (ADMT), posouzení rizik a povinnosti datových brokerů.
  • Nové státní zákony o ochraně soukromí v USA: Indiana, Kentucky a Rhode Island přijaly komplexní zákony o soukromí účinné od roku 2026.
  • EU AI Act: Plné vymáhání začíná — požaduje, aby vývojáři AI zveřejňovali zdroje trénovacích dat, respektovali copyrightové opt-outy a zakazuje scraping obličejových snímků pro AI systémy.
  • AI Accountability for Publishers Act (únor 2026): Navrhovaný americký zákon, který by AI firmám nařizoval získat souhlas a zaplatit vydavatelům, než začnou scrapovat jejich obsah.

Pravidla scrapingu na hlavních platformách: co potřebujete vědět

Ne všechny weby k scrapingu přistupují stejně. Tady je přehled podle platformy: co největší weby dovolují, co blokují a co na to říkají soudy:

PlatformaToS o scrapinguTechnické obranyPrávní vymáháníCo je prakticky bezpečné
Google (Search & Maps)V ToS zakazuje automatizovaný přístup. Maps Platform má výslovnou klauzuli „No Scraping“.Challenge typu SearchGuard JS, CAPTCHA, rate limiting. V roce 2025 aktualizoval robots.txt a blokuje AI crawlery.V prosinci 2025 žaloval scrapery s odkazem na DMCA. Aktivně blokuje AI crawlery (Anthropic, Meta, OpenAI).Scraping veřejných firemních dat z Google Maps je právně obhajitelný (precedens hiQ), ale čekejte technické blokace. Pokud lze, používejte oficiální API.
AmazonV Conditions of Use výslovně zakazuje jakýkoli scraping („no robot, spider, scraper, or other automated means“).Agresivní detekce botů, CAPTCHA, blokace IP. robots.txt blokuje všechny boty kromě Googlebota/Bingbota. Od roku 2025 výslovně blokuje AI crawlery.V listopadu 2025 žaloval Perplexity AI. Pravidelně posílá výzvy k ukončení činnosti. V březnu 2026 aktualizoval BSA o pravidla pro AI agenty.Veřejná produktová data (ceny, nabídky) jsou skutková a podle amerického práva scrapovatelná, ale Amazon proti tomu tvrdě bojuje. Omezte četnost požadavků a vyhněte se osobním údajům.
LinkedInV ToS scraping zakazuje; pro přístup ke službám vyžaduje souhlas uživatele.Login wall u většiny dat z profilů, anti-bot ochrany, rate limiting.Případ hiQ potvrdil, že scraping veřejných profilů není porušením CFAA, ale LinkedIn uspěl u smluvních a nekalosoutěžních nároků, když byly použity falešné účty.Veřejné profily (viditelné bez přihlášení) jsou z právního hlediska relativně bezpečné k scrapování. Nikdy nevytvářejte falešné účty ani nescrapujte data za přihlášením.
Meta (Facebook & Instagram)ToS scraping zakazují; pro data za přihlášením a bez přihlášení platí různá pravidla.Login wall u většiny obsahu, pokročilá detekce botů.V roce 2024 prohrála s Bright Data — soud rozhodl, že ToS se na nepřihlášené scrapery nevztahují. Zbytek nároků stáhla.Veřejná data (firemní stránky, veřejné příspěvky) viditelná bez přihlášení jsou právně bezpečnější. Nikdy nescrapujte soukromé profily ani data za přihlášením.
X (Twitter)V roce 2023 aktualizoval ToS tak, aby zakazoval veškerý scraping a crawling bez písemného souhlasu. Zrušil starou výjimku pro robots.txt.robots.txt blokuje všechny crawlery (Disallow: /). Výzvy Cloudflare Turnstile. Přísné rate limity (300 požadavků/hod.). Hodnocení reputace IP.Prohrál s Bright Data ohledně veřejných dat, ale technicky přístup tvrdě omezuje.Veřejné tweety a profily jsou právně obhajitelné k scrapování, ale technické bariéry X patří v roce 2026 k nejtěžším. Bez silné proxy infrastruktury čekejte blokace.

Shrnutí: Soudy opakovaně rozhodly, že scraping veřejně viditelných dat bez přihlášení neporušuje CFAA. Platformy vás ale pořád mohou stíhat přes smluvní právo, copyright nebo anti-circumvention pravidla — a navíc vám technicky znepříjemní život. Scrapujte zodpovědně.

AI trénovací data a web scraping: nová právní hranice

Pokud sledujete zprávy v roce 2026, víte, že scraping dat pro trénování AI modelů se stal nejžhavějším právním bojištěm. Tady je, co se děje:

  • Copyrightových žalob přibývá. New York Times, autoři i vydavatelé žalovali OpenAI, Anthropic a další s tvrzením, že masový scraping chráněného obsahu pro trénování LLM není „fair use“. Anthropic v roce 2025 uzavřela zásadní hromadnou žalobu za 1,5 miliardy dolarů — důkaz, že náklady na scraping pro AI jsou skutečné.
  • Obrana na „fair use“ je nejistá. Americké soudy zatím nevydaly konečné rozhodnutí o tom, zda trénování AI na scraped datech spadá pod fair use. První rozhodnutí naznačují, že hodně záleží na tom, jak byla data získána a co se s výstupy AI dělá.
  • Přichází nová legislativa. (předložený v únoru 2026) chce AI firmám uložit povinnost získat povolení a zaplatit vydavatelům ještě předtím, než začnou jejich obsah scrapovat.
  • EU AI Act (plné vymáhání od ) vyžaduje, aby vývojáři AI zveřejňovali zdroje trénovacích dat, respektovali strojově čitelné opt-outy v copyrightu (v rámci výjimky pro TDM podle směrnice o autorském právu) a označovali AI-generovaný obsah. Zakazuje také AI systémům scrapovat obličejové snímky z internetu.
  • AI/LLM crawlery explodují. Podíl AI crawlerů na webovém provozu vzrostl během pouhých osmi měsíců z 2,6 % na 10,1 %. Samotný GPTBot od OpenAI narostl o 305 %. V reakci na to velké weby (Amazon, Reddit, NYT) upravují robots.txt tak, aby AI crawlery výslovně blokovaly.

Co to znamená pro vás: Pokud scrapujete data pro klasické obchodní účely (lead generation, sledování cen, průzkum trhu), tato AI-specifická pravidla se vás nemusí přímo týkat. Pokud ale scraped data posíláte do AI modelů, postupujte velmi opatrně — a raději si vezměte právní radu.

Zákony o web scrapingu ve světě: rychlé srovnání

Pojďme se podívat na globální obraz:

  • Spojené státy: Žádný plošný zákaz. Scraping veřejně dostupných webů je obecně legální (), a rozhodnutí Meta a X Corp z roku 2024 tento přístup ještě posílila. Scraping za přihlášením nebo přes technické bloky ale může pořád spustit CFAA. Trendem je, že firmy místo toho používají smluvní právo a copyrightové nároky. Zákony o soukromí se rychle rozšiřují: CCPA dostal zásadní aktualizace účinné od 1. ledna 2026, včetně nových pravidel pro automatizované rozhodování a povinností datových brokerů. Indiana, Kentucky a Rhode Island také v roce 2026 přijaly komplexní zákony o ochraně soukromí.
  • Evropská unie: Přísné zákony o ochraně soukromí. GDPR platí i pro veřejně dostupné osobní údaje. Práva k databázím mohou bránit rozsáhlému scrapingu strukturovaných dat (). NOVĚ: vstupuje do plného vymáhání 2. srpna 2026, což vyžaduje, aby vývojáři AI zveřejňovali zdroje trénovacích dat a respektovali copyrightové opt-outy. Zákon také zakazuje scraping obličejových snímků z internetu pro AI systémy.
  • Spojené království: Po brexitu se drží podobných pravidel jako EU. Veřejná data lze scrapovat, ale osobní údaje jsou přísně regulované. Computer Misuse Act může neoprávněný přístup kriminalizovat.
  • Čína: Velmi restriktivní. PIPL a Data Security Law vyžadují pro osobní údaje souhlas. Soudy používají právo nekalé soutěže k omezení scrapingu, který poškozuje podnikání (). Laws Worldwide.png

Závěr: scraping veřejných, neosobních dat pro interní použití je obecně nejbezpečnější. Všechno ostatní? Zkontrolujte místní zákony a postupujte opatrně.

Časté mýty o tom, jestli je web scraping legální

Pojďme si rozbít pár mýtů, které slýchám pořád dokola:

  • Mýtus 1: „Web scraping je nelegální, tečka.“
    Nepravda. Neexistuje zákon, který by zakazoval veškerý web scraping. Rozhoduje to, jaká data scrapujete a jak je získáváte ().
  • Mýtus 2: „Když jsou data veřejná, můžu s nimi dělat cokoli.“
    Ne tak docela. I veřejná data mohou být chráněná zákony o soukromí nebo autorským právem a ToS mohou omezovat určité použití ().
  • Mýtus 3: „Web scraping je totéž co hacking.“
    Není. Scraping veřejných webových stránek není hacking. Jiná situace je obcházení přihlášení nebo technických bariér ().
  • Mýtus 4: „Když mě nechytí, je to v pohodě.“
    Rizikové uvažování. Mnoho webů používá anti-bot technologie a všimne si vás. Mlčení není souhlas.
  • Mýtus 5: „Když uvedu zdroj nebo data použiju jen interně, je to v pořádku.“
    Uvedení zdroje nepřebíjí copyright ani zákony o soukromí. Interní použití je bezpečnější, ale není to volná průkazka.
  • Mýtus 6: „Veškerý web scraping porušuje soukromí.“
    Ne každý scraping se týká osobních údajů. Masový sběr osobních dat bez ochranných opatření je ale téměř vždy nelegální ().
  • Mýtus 7: „Když má web v ToS zákaz scrapingu, je vždy nelegální scrapovat.“
    Ne nutně. V roce 2024 soudy v případech Meta v. Bright Data a X Corp v. Bright Data rozhodly, že ToS nevážou uživatele, kteří s nimi nikdy nesouhlasili — tedy pokud scrapujete bez přihlášení nebo bez účtu, podmínky webu se na vás nemusí vztahovat. Je to stále vyvíjející se oblast, ale jde o zásadní posun.

Jak scrapovat data legálně: osvědčené postupy pro compliance

Tady je můj osvědčený checklist pro legální a etický web scraping:

  1. Přečtěte si a respektujte Podmínky používání webu. Pokud v nich stojí „no scraping“, zvažte, že přestanete, nebo si vyžádejte povolení ().
  2. Držte se veřejných dat. Pokud potřebujete heslo, data jsou omezená — nescrapujte je ().
  3. Kontrolujte robots.txt a chovejte se ohleduplně. Není právně závazný, ale je to dobrá etiketa. Nepřetěžujte servery — požadavky rozprostřete v čase ().
  4. Vyhýbejte se osobním údajům, pokud nemáte právní základ. Pokud je musíte sbírat, držte se GDPR/CCPA a sbírejte jen minimum.
  5. Nezveřejňujte scraped obsah celý. Přidejte hodnotu, analýzu nebo si vyžádejte povolení ().
  6. Neposílejte scraped obsah do AI modelů bez ověření copyrightu. Právní prostředí se rychle mění — pokud je to váš případ, nechte si poradit.
  7. Používejte oficiální API nebo exporty dat, pokud existují. Jsou navržené právě pro tento účel a bývají bezpečnější ().
  8. Buďte transparentní a odpovědní. Pokud sbíráte osobní údaje, informujte lidi a veďte si záznam o činnosti.
  9. Minimalizujte a zabezpečte data. Sbírejte jen to, co opravdu potřebujete, udržujte data přesná a bezpečně je ukládejte.
  10. Sledujte změny a u složitých případů si vezměte právní radu. Zákony i soudní rozhodnutí se mění rychle — zvlášť EU AI Act a státní zákony o soukromí v USA. Když si nejste jistí, zeptejte se odborníka.

Používání nástrojů pro web scraping legálně: co by firmy měly vědět

Nástroje jako zpřístupňují sběr dat i lidem bez programování, ale pořád je musíte používat zodpovědně:

  • Vyberte nástroje zaměřené na compliance. Thunderbit například scrapuje jen to, co vidíte v prohlížeči — žádné skryté API hacky ani neoprávněný přístup ().
  • Držte se legitimních use-caseů. Interní analytika, průzkum trhu a sledování konkurenčních cen bývají obecně bezpečné. Zveřejňování nebo prodej scraped dat? To je mnohem rizikovější.
  • Nastavte nástroje pro soulad s pravidly. Nastavte prodlevy mezi crawlery, respektujte robots.txt a používejte šablony, které sbírají jen to, co opravdu potřebujete.
  • Nechte data interně. Interní použití scraped dat je bezpečnější než jejich publikování.
  • Vzdělávejte tým. Ujistěte se, že všichni rozumí pravidlům a osvědčeným postupům.
  • Využívejte vestavěné compliance funkce. Thunderbit upozorňuje na rizikové weby, scrapuje lidskou rychlostí a neukládá vaše data na své servery.
  • Netlačte na pilu. Pokud nástroj nějaký web nesvede, nezkoušejte to obcházet. Ne všechna data jsou dostupná bez rizika.

Přístup Thunderbit: AI web scraping v souladu s pravidly

V jsme hodně přemýšleli o compliance. Takhle náš AI Web Scraper pomáhá uživatelům držet se na správné straně zákona:

  • Scrapuje jen to, co vidíte. Thunderbit pracuje ve vaší relaci v prohlížeči, takže nemá přístup k datům, která byste ručně nezkopírovali.
  • Upozorňuje uživatele na rizika. Pokud se pokusíte scrapovat web s přísnými anti-scraping pravidly, Thunderbit vás varuje.
  • Rychlost jako u člověka. Ať už scrapujete lokálně, nebo v cloudu, Thunderbit server nezatěžuje zbytečně.
  • Přizpůsobitelný výběr dat. Naše AI doporučuje relevantní sloupce, abyste sbírali jen to, co potřebujete.
  • Práce s podstránkami a stránkováním. Thunderbit se pohybuje webem jako skutečný uživatel a respektuje jeho strukturu.
  • Soukromí a bezpečnost. Vaše data zůstávají u vás — Thunderbit je neukládá ani znovu nepoužívá.
  • Exporty přátelské ke compliance. Data exportujete přímo do Google Sheets, Airtable, Notion nebo CSV pro bezpečné interní použití.
  • Plánování a automatizace. Nastavíte opakované scrapování v rozumných intervalech.
  • Vícejazyčná podpora. Uživatelské rozhraní Thunderbit podporuje 34 jazyků, takže compliance je dostupnější po celém světě.
  • Pravidelné aktualizace šablon. Naše okamžité šablony pro populární weby průběžně udržujeme aktuální podle právních i technických změn.

Tím, že compliance zabudováváme přímo do produktu, pomáhá Thunderbit týmům získat data, která potřebují — bez právních starostí.

Držte krok: jak se přizpůsobit právním a technickým změnám ve web scrapingu

Web scraping není něco, co nastavíte jednou a pak na to zapomenete. Zákony i struktura webů se neustále vyvíjejí. Takhle zůstanete napřed:

  • Sledujte právní vývoj. Tempo změn se v letech 2024–2026 zrychlilo — sledujte novinky z oblasti technologického práva, aktualizace regulátorů i odborné blogy (například ). Dávejte pozor na vymáhání EU AI Act (srpen 2026), nové státní zákony o soukromí v USA a probíhající spory o copyright v AI.
  • Přizpůsobujte se technickým změnám. Weby neustále mění rozložení i anti-bot obranu. Velké platformy (Amazon, X, Google) v letech 2025–2026 výrazně zpřísnily ochranu. AI a šablony Thunderbit jsou navržené tak, aby se přizpůsobovaly automaticky.
  • Když jsou k dispozici, používejte oficiální API. Pokud web přejde na placené API, zvažte přechod kvůli spolehlivosti i souladu s pravidly.
  • Pravidelně auditujte scraping. Dokumentujte zdroje, kontrolujte změny ToS nebo pravidel a podle potřeby upravujte strategii.
  • Využívejte aktualizace šablon Thunderbit. Náš tým drží šablony aktuální, takže nemusíte řešit rozbití skriptů ani nové požadavky na compliance.
  • Zůstaňte flexibilní. Pokud se nějaký zdroj dat stane příliš rizikovým, přejděte na jiný nebo zvažte partnerství.

Se správnými nástroji a přístupem můžete držet datový tok v chodu — a přitom nešlapat na právní miny.

Závěr: jak se orientovat v právním prostředí web scrapingu

Web scraping není sám o sobě nelegální — je to mocný nástroj pro byznys, výzkum i inovace. Ale jako každý nástroj má svá pravidla. Klíčové je pochopit, co scrapujete, jak to scrapujete a co s daty děláte. Respektujte místní zákony, dodržujte pravidla webů a používejte compliance-first nástroje jako , aby vaše postupy byly v pořádku.

Soudní rozhodnutí z let 2024–2026 (Meta v. Bright Data, X Corp v. Bright Data) posílila pozici scrapingu veřejných dat, ale objevují se nová rizika kolem dat pro trénování AI, copyrightových nároků a EU AI Act. Pravidla jednotlivých platforem se výrazně liší — Google, Amazon, LinkedIn, Meta a X prosazují svoje podmínky různými způsoby — takže než začnete scrapovat, zorientujte se v prostředí.

Když si nejste jistí, vyhledejte právní radu — hlavně u větších nebo citlivých projektů. A pamatujte: právní prostředí se pořád mění, takže buďte v obraze a flexibilní.

Chcete se dozvědět víc o web scrapingu, compliance a automatizaci? Podívejte se na pro další návody, nebo si sami vyzkoušejte .

FAQ

1. Je web scraping nelegální všude?
Ne. Web scraping není sám o sobě nelegální, ale jeho legálnost závisí na tom, co scrapujete, jak to scrapujete a kde se nacházíte. Scrapování veřejných, neosobních dat pro interní použití je ve většině regionů obvykle povolené, ale scrapování osobních nebo chráněných dat, případně porušení podmínek webu, může být nelegální ().

2. Učiní robots.txt scrapování nelegálním, když ho ignoruji?
Robots.txt není právně závazný, ale je dobrá praxe ho respektovat. Ignorování robots.txt samo o sobě nezpůsobí žalobu, ale ve sporu vás může ukázat jako „špatného aktéra“ ().

3. Můžu scrapovat Google, Amazon nebo LinkedIn?
Je to složité. Všechny tři platformy scraping ve svých ToS zakazují, ale soudy rozhodly, že ToS nemusí vázat nepřihlášené uživatele (viz Meta v. Bright Data a X Corp v. Bright Data, obě 2024). Scrapování veřejně viditelných dat (ceny produktů, firemní záznamy, veřejné profily) je v USA obecně právně obhajitelné. Každá platforma ale prosazuje pravidla jinak: Amazon je právně nejtvrdší (v listopadu 2025 žaloval Perplexity AI); LinkedIn se opírá hlavně o technické bariéry a smluvní nároky; Google stále častěji využívá vymáhání přes DMCA. Vždy scrapujte zodpovědně a počítejte s technickými protiopatřeními.

4. Můžu scrapovat Facebook nebo Instagram?
Po rozhodnutí Meta v. Bright Data (2024) je scrapování veřejných dat z Facebooku a Instagramu bez přihlášení právně silnější pozice. Soud rozhodl, že ToS společnosti Meta se na ne-uživatele nevztahují. Nikdy ale nevytvářejte falešné účty ani nescrapujte data za login stěnou — to už je za hranou.

5. Můžu scrapovat X (Twitter)?
X v roce 2023 aktualizoval ToS tak, aby zakazoval veškerý scraping bez písemného souhlasu, a nasadil tvrdé technické obrany (Cloudflare Turnstile, limity 300 požadavků/hod., hodnocení reputace IP). Bright Data však v podobné věci uspěla u soudu — veřejná data scrapovaná bez účtu nejsou ToS X vázána. Po technické stránce je X v roce 2026 jednou z nejtěžších platforem pro scraping.

6. Je scraping dat pro trénování AI modelů legální?
To je v roce 2026 největší otevřená otázka. Velké spory (NYT v. OpenAI, vyrovnání Anthropic za 1,5 miliardy dolarů) naznačují značné právní riziko. EU AI Act vyžaduje zveřejnění zdrojů trénovacích dat a respektování copyrightových opt-outů. Navrhovaný AI Accountability for Publishers Act by vyžadoval souhlas a platbu. Pokud scrapujete kvůli tréninku AI, předem si vyžádejte právní radu.

7. Jaký je nejbezpečnější způsob používání nástrojů jako Thunderbit?
Držte se scrapingu veřejných dat, respektujte podmínky webu, vyhýbejte se osobním údajům, pokud na ně nemáte právní základ, a používejte data interně. Thunderbit je navržen tak, aby vám pomohl zůstat v souladu s pravidly — scrapuje jen to, co vidíte v prohlížeči, a upozorňuje na rizikové weby ().

8. Můžu scrapovat data pro komerční použití?
Záleží na okolnostech. Použití scraped dat pro interní analytiku nebo výzkum je obvykle bezpečnější. Znovupublikování nebo prodej scraped dat, zvlášť pokud jsou chráněná autorským právem nebo jde o osobní údaje, je mnohem rizikovější a může vyžadovat povolení nebo licenci.

9. Jak držet krok s právními a technickými změnami ve web scrapingu?
Sledujte novinky z technologického práva, kontrolujte změny ToS nebo pravidel na cílových webech a používejte nástroje jako Thunderbit, které pravidelně aktualizují šablony i compliance funkce. V roce 2026 sledujte hlavně: vymáhání EU AI Act (srpen), probíhající spory o copyright v AI a nové státní zákony o soukromí v USA. Když si nejste jistí, obraťte se na právníka.

Vyzkoušejte AI Web Scraper
Shuai Guan
Shuai Guan
Co-founder/CEO @ Thunderbit. Passionate about cross section of AI and Automation. He's a big advocate of automation and loves making it more accessible to everyone. Beyond tech, he channels his creativity through a passion for photography, capturing stories one picture at a time.
Topics
Is Web Scraping IllegalIs Web Scraping Legal Or IllegalWeb Scraping Is Legal Or Illegal
Obsah

Vyzkoušej Thunderbit

Získej leady a další data jen na 2 kliknutí. Pohání AI.

Získej Thunderbit Je to zdarma
Získej data pomocí AI
Snadno přenes data do Google Sheets, Airtable nebo Notion
PRODUCT HUNT#1 Product of the Week