Dne 1. května 2024 vydal nizozemský Úřad pro ochranu osobních údajů titulek, který otřásl každým datovým týmem v Evropě: Pokud pracujete v prodeji, e-commerce nebo realitách — zkrátka pokud se spoléháte na webová data — tahle věta vám nejspíš zvedla tlak.
Rozumím tomu. V mluvíme každý den s byznys týmy, které potřebují webová data pro sledování cen, generování leadů a průzkum trhu. Frustrace je pořád stejná: zadají do Googlu „is web scraping legal in Europe“ a každá odpověď je jen nějaká variace na „záleží“. To moc nepomůže, když máte deadliny a seznam URL, které je třeba stáhnout.
Proto jsem strávil týdny procházením skutečných předpisů, doporučení úřadů, záznamů o vymáhání a soudní praxe, abych vytvořil něco užitečnějšího: praktický rozhodovací checklist, souhrnnou tabulku ochranných opatření, reálné výše pokut a postup krok za krokem, jak scrapovat evropské weby a neskončit na špatné straně regulátora. Ať už scrapujete ceny produktů na Amazonu, nebo získáváte B2B kontakty z adresáře, tenhle článek vám pomůže zjistit, kde jsou hranice — a jak zůstat na správné straně.
Co je web scraping (a proč by to evropské firmy mělo zajímat)?
Web scraping je automatizované získávání dat z webových stránek do strukturované podoby — tabulky, databáze, CRM. Místo ručního kopírování názvů produktů a cen ze 200 stránek scraper navštíví každou stránku a vytáhne pole, která potřebujete, do přehledných sloupců.
Proč je to důležité pro netechnické týmy? Protože webová data pohánějí skutečná obchodní rozhodnutí. Obchodní týmy scrapují adresáře kvůli leadům. E-commerce manažeři denně sledují ceny konkurence. Analytici v realitách monitorují trendy nabídek napříč portály. Marketéři a výzkumníci sbírají veřejné recenze a hodnocení ve velkém. rychle roste a firmy denně scrapují miliony datových bodů.
Jenže regulační prostředí v Evropě je jiné než v USA. GDPR, směrnice o databázích a vyvíjející se doporučení úřadů znamenají, že „veřejně dostupné“ automaticky neznamená „volně použitelné“. Jak to vystihl předseda nizozemského úřadu Aleid Wolfsen: „veřejné neznamená automaticky souhlas se scrapingem.“ Znalost pravidel předem není volitelná — je to rozdíl mezi čistým datasetem a pokutou v řádu statisíců eur.
Je web scraping v Evropě legální? Stručná odpověď
Web scraping není v Evropě sám o sobě nezákonný. Jeho legálnost ale závisí na třech věcech: jaká data scrapujete, jak je scrapujete a proč.
Scraping v EU řídí tři překrývající se právní vrstvy:
- GDPR — platí vždy, když scrapujete osobní údaje (jména, e-maily, telefonní čísla, IP adresy, dokonce i pseudonymizované identifikátory).
- Směrnice EU o databázích — chrání databáze, do nichž tvůrce vložil „podstatnou investici“ do organizace dat.
- Smluvní právo / podmínky použití — mnoho webů scraping výslovně zakazuje v ToS a soudy v EU tyto podmínky vymáhají.
Klíčový bod: „veřejné“ neznamená „bez regulace“. I neosobní data mohou být chráněna databázovými právy nebo smluvním právem. Každý scrapingový projekt vyžaduje, abyste všechny tři vrstvy posuzovali společně.
Klíčové předpisy EU, které řídí web scraping
GDPR: když scrapujete osobní údaje
Jakákoli data spojená s identifikovatelnou osobou spouští povinnosti podle GDPR. Patří sem jména, e-mailové adresy, telefonní čísla, IP adresy, fotografie a dokonce i pseudonymizovaná data, která lze znovu identifikovat. Ve chvíli, kdy scrapujete osobní údaje, stáváte se „správcem údajů“ s povinnostmi podle GDPR:
- Právní titul (článek 6): Potřebujete právní důvod pro zpracování dat. Souhlas je při scrapování ve velkém téměř nikdy nepraktický — nemůžete si od milionů lidí předem vyžádat povolení ke sběru informací, které veřejně zveřejnili. Nejčastěji uváděným titulem je oprávněný zájem (čl. 6 odst. 1 písm. f), ale vyžaduje zdokumentovaný tříkrokový test: (1) váš zájem je oprávněný, (2) zpracování je nezbytné a (3) nepřeváží práva subjektů údajů s ohledem na jejich přiměřená očekávání.
- Transparentnost (článek 14): Protože data nezískáváte přímo od osoby, musíte ji informovat — obvykle do jednoho měsíce — o tom, co jste získali, proč a jak může uplatnit svá práva. Pokud je individuální oznámení nepřiměřené, musíte zveřejnit obecné oznámení se všemi náležitostmi článku 14.
- Minimalizace údajů: Sbírejte jen to, co skutečně potřebujete. Pokud chcete ceny produktů, nestahujte zároveň e-mailové adresy prodejců.
- Omezení uložení a správa práv: Nastavte retenční lhůty, respektujte žádosti o výmaz a poskytněte přístup k informacím o zdroji.
Zpráva (přijatá v květnu 2024) přidala další vrstvu: uvedla, že různé fáze zpracování — sběr, předzpracování, trénování, prompty a výstup — potřebují vlastní analýzu právního titulu. EDPB web scraping na základě oprávněného zájmu nevyloučil, ale trval na plném tříkrokovém posouzení a odpovídajících zárukách.
Směrnice EU o databázích: ochrana způsobu organizace dat
Směrnice o databázích dává tvůrcům databází sui generis právo, pokud do získání, ověření nebo prezentace dat vložili „podstatnou investici“. Pokud váš scraping extrahuje „podstatnou část“ takové databáze, můžete toto právo porušit.
V praxi je laťka poměrně vysoko. Stažení několika stovek cen produktů z velkého e-shopu se na to pravděpodobně nevztáhne. Ale hromadné stažení celého katalogu konkurenta — desítek tisíc položek — už může překročit hranici, zvlášť pokud to ohrožuje schopnost tvůrce vrátit investici. Soudní dvůr EU se k této hranici vyjádřil v několika případech a klíčovou otázkou je vždy proporcionalita.
Pro většinu firemního scrapingu — získávání konkrétních polí z produktových stránek, porovnávání nabídek v kategorii — představuje směrnice o databázích nižší riziko. Není to ale nulové riziko a při návrhu rozsahu scrapingu je dobré na něj myslet.
Podmínky použití: právně smluvní wildcard
Tady lidé často chybují. Mnoho webů ve svých podmínkách použití scraping zakazuje. V Evropě je porušení ToS občanskoprávní záležitost (ne trestní), ale i tak může vést k soudnímu zákazu, žalobám z porušení smlouvy a reálné finanční odpovědnosti.
Dva pojmy, které je dobré znát: browsewrap (pasivní podmínky, často jen odkaz schovaný dole na stránce) se vymáhá hůře, protože uživatel nikdy aktivně nesouhlasil. Clickwrap (kde zaškrtnete políčko nebo kliknete na „Souhlasím“) je mnohem vymahatelnější.
Přelomový případ v EU je Ryanair v. PR Aviation: soud vymáhal podmínky Ryanairu proti scraperu, i když se databázová práva neuplatnila, protože scraper s podmínkami souhlasil. Takže: před scrapováním si vždy zkontrolujte ToS webu. Pokud jde o clickwrap s výslovným zákazem scrapingu, postupujte opatrně — nebo raději zvažte API.
Směrnice DSM a AI Act: výjimky pro výzkum a text/data mining
Ne každý scraping spouští stejné restrikce. Směrnice o digitálním jednotném trhu (DSM) z roku 2019 zavedla dvě výjimky pro text and data mining (TDM):
- Článek 3: Výzkumné instituce a organizace kulturního dědictví mohou provádět TDM na legálně získaném obsahu.
- Článek 4: Kdokoli — včetně komerčních subjektů — může provádět TDM, pokud držitel práv výslovně nevznesl námitku (např. přes robots.txt, ai.txt nebo hlavičky TDMRep).
EU AI Act (článek 53) přidává povinnosti pro poskytovatele AI modelů: musí respektovat mechanismy pro opt-out z TDM a dokumentovat zdroje trénovacích dat.
Jeden háček: tyto výjimky se vztahují na autorská a databázová práva, ne na GDPR. Pokud váš TDM zahrnuje osobní údaje, potřebujete stále samostatný právní titul podle GDPR.

Rozhodovací checklist „Můžu to scrapovat?“ pro evropská data
Tohle je část, kterou bych si přál mít k dispozici, když jsem s výzkumem teprve začínal. Každý právní článek říká „záleží“ — ale jak ten rozhodovací strom vlastně vypadá? Tady je praktický checklist souladu s předpisy s jasnými branami. Každý krok vede k ✅ pokračujte, ⚠️ přidejte ochranná opatření nebo 🛑 zastavte se.
Krok 1: Jsou data osobní, nebo neosobní?
Neosobní data (ceny produktů, SKU čísla, firemní adresy nespojené s jednotlivci): nižší regulatorní zátěž. Pořád musíte zkontrolovat směrnici o databázích a ToS, ale GDPR se neuplatní. ✅ Pokračujte ke kroku 3.
Osobní data (jména, e-maily, telefonní čísla, fotografie, jakýkoli identifikátor spojený s osobou): GDPR platí. ⚠️ Pokračujte ke kroku 2.
Krok 2: Který právní titul podle GDPR se uplatní?
- Souhlas: Při scrapingu ve velkém je prakticky nikdy použitelný. 🛑 Pokud nemáte velmi úzký a specifický scénář.
- Oprávněný zájem (čl. 6 odst. 1 písm. f): Nejčastější titul. Vyžaduje ale zdokumentovaný tříkrokový test:
- Váš zájem je oprávněný (komerční zájem může obstát, podle ).
- Zpracování je pro tento zájem nezbytné.
- Vyvažovací test: váš zájem nepřebíjí práva subjektů údajů s ohledem na jejich přiměřená očekávání.
- Vyvažovací test zdokumentujte před scrapováním. Pokud nedokážete rozumně vysvětlit, proč by lidé, jejichž data scrapujete, takové použití očekávali, je to varovný signál. ⚠️ Pokračujte s dokumentovaným oprávněným zájmem.
Krok 3: Omezují scraping podmínky webu?
- Clickwrap dohoda, která scraping zakazuje: 🛑 Vysoké riziko. Zvažte alternativní zdroje dat nebo oficiální API.
- Browsewrap nebo žádné omezení v ToS: ⚠️ Nižší riziko, ale i tak respektujte robots.txt a technické signály odporu.
Krok 4: Uplatní se směrnice o databázích?
- Je cílový web databáze s podstatnou investicí do organizace dat?
- Extrahuje váš scraping „podstatnou část“ této databáze?
- Pokud je odpověď na obě otázky ano: ⚠️ Riziko porušení sui generis práva. Omezte rozsah extrakce.
Krok 5: Spadáte pod výjimku pro výzkum nebo TDM?
- Registrovaná výzkumná instituce nebo organizace kulturního dědictví? Může se uplatnit článek 3 směrnice DSM. ✅
- Komerční TDM? Zkontrolujte signály opt-out podle článku 4 (robots.txt, ai.txt, TDMRep). Pokud web opt-out použil, 🛑 pro tento zdroj zastavte.
Krok 6: Uplatnili jste ochranná opatření doporučená úřady?
Pokud jste prošli výše uvedené brány, posledním krokem je zavedení opatření, která doporučují CNIL, nizozemský úřad a EDPB. Podrobně je rozebíráme v další části. ✅ Pokračujte s nasazenými opatřeními.

Opatření pro soulad s předpisy: co doporučují CNIL, nizozemský úřad a EDPB
V žádném konkurenčním článku jsem nenašel souhrn opatření od tří nejaktivnějších evropských regulátorů v oblasti scrapingu. Takže jsem tu tabulku sestavil porovnáním , a .
| Ochranné opatření | CNIL | Nizozemský DPA (AP) | Pracovní skupina EDPB | Tipy k implementaci |
|---|---|---|---|---|
| Oznámení o transparentnosti podle čl. 14 | ✅ Vyžadováno | ✅ Vyžadováno | ✅ Vyžadováno | Zveřejněte veřejné oznámení se seznamem kategorií zdrojů, účelů, právním titulem, dobou uchování, kanály pro uplatnění práv a kontaktem na pověřence |
| DPIA před scrapováním | ✅ Doporučeno (povinné při vysokém riziku) | ✅ Vyžadováno | ✅ Vyžadováno | Před spuštěním zdokumentujte vyvažovací test, kategorie dat, rizika a zmírňující opatření |
| Minimalizace údajů | ✅ Vyžadováno (definujte přesná kritéria sběru) | ✅ Vyžadováno | ✅ Vyžadováno | Nakonfigurujte scraper tak, aby extrahoval jen potřebná pole; irelevantní data ihned mažte |
| Rate limiting / respektování robots.txt | ✅ Vyžadováno (vyloučit weby, které odporují přes robots.txt/CAPTCHA) | — | — | Parsujte robots.txt, přidávejte prodlevy mezi požadavky, identifikujte user agent |
| Pseudonymizace / anonymizace | ⚠️ Doporučeno (bezprostředně po sběru) | ✅ Silně doporučeno | ✅ Doporučeno | Hashujte nebo randomizujte ID; odstraňte URL profilů; rozmažte obličeje, pokud identita není potřeba |
| Retenční doba | ✅ Definovaný limit | ✅ Co nejkratší | ✅ Definovaný limit | Automatizujte mazání; oddělte syrovou cache od extrahovaných faktů |
| Mechanismus opt-out / blacklist | ✅ Doporučeno (diskreční předchozí námitka) | ✅ Vyžadováno (námitka dle čl. 21) | ✅ Vyžadováno | Nabídněte formulář opt-out, blacklist domén, potlačení na úrovni osob |
| Vyloučení citlivých zdrojů | ✅ Vyžadováno (zdravotní fóra, weby pro nezletilé, pornografické weby, genealogie) | ✅ Vyžadováno | ✅ Vyžadováno | Udržujte výchozí blocklisty pro zdravotnictví, náboženství, politiku, biometriku a nezletilé |
Praktická poznámka z naší strany: funkce Thunderbit umožňuje uživatelům přesně určit, které sloupce se mají extrahovat — cena, SKU, název produktu — takže scraper sbírá jen to, co je nutné. Nestahujete celé stránky hromadně; vybíráte strukturovaná pole v souladu se zásadou omezení účelu a minimalizace údajů. To ale neznamená, že jakýkoli non-compliant scraping se tím stane legálním. Právní analýza je vždy na prvním místě.

Je web scraping v Evropě legální pro váš use case? Doporučení podle odvětví
Otázka, kterou ve fórech vídám nejčastěji, nezní „je scraping legální?“, ale „je legální můj scraping?“ Abstraktní teorie GDPR na to neodpoví. Proto tady máte rozpad podle běžných byznysových scénářů.
| Use case | Typ dat | Hlavní právní rizika | Pravděpodobný výsledek |
|---|---|---|---|
| Sledování cen v e-commerce (veřejné produktové nabídky) | Neosobní (ceny, SKU, názvy produktů) | Sui generis právo podle směrnice o databázích; porušení ToS | Obvykle nižší riziko, pokud nejde o osobní data a o systematickou extrakci „podstatné části“ databáze |
| Generování B2B leadů (kontaktní údaje z adresářů) | Osobní (jména, e-maily, telefonní čísla) | Právní titul dle čl. 6 GDPR; oznámení dle čl. 14; ePrivacy pro elektronické kontakty | Vyšší riziko — vyžaduje zdokumentovaný test oprávněného zájmu a zároveň povinnost informovat |
| Nemovitostní inzerce (data o nemovitostech z portálů) | Smíšené (adresy mohou být neosobní; jména vlastníků jsou osobní) | Směrnice o databázích; ToS; GDPR, pokud jsou údaje navázány na vlastníka | Střední riziko — anonymizujte údaje vlastníků, zkontrolujte ToS, respektujte robots.txt |
| Data pro trénink AI (velkoobjemový scraping webového obsahu) | Potenciálně osobní, pokud nejsou filtrována | GDPR + povinnosti dle čl. 53 AI Act ohledně TDM | Vysoké riziko — musíte splnit jak GDPR, tak AI Act; nutné mechanismy opt-out a důkladné filtrování |
Pro scénáře s nižším rizikem, jako jsou veřejná e-commerce data, snižují vystavení nástroje se strukturovanými šablonami — například od Thunderbit — protože extrahují konkrétní neosobní datová pole bez zbytečného obsahu. U rizikovějších scénářů zahrnujících osobní údaje (například lead gen) musí analýza práva přijít jako první. Žádný scraper, ať je jakkoli chytrý, nepřemění nevyhovující sběr na vyhovující.

EU vs. USA vs. UK: jak se zákony o web scrapingu liší
Pokud vaše firma působí přes hranice, musíte rozumět rozdílům v pravidlech. Nenašel jsem jediný konkurenční článek, který by to podal v přehledné srovnávací tabulce, tak tady ji máte.
| Oblast | EU | USA | UK (po brexitu) |
|---|---|---|---|
| Hlavní právo | GDPR + směrnice o databázích + ePrivacy | CFAA + státní zákony (omezená federální ochrana soukromí) | UK GDPR + Data Protection Act 2018 |
| Scraping veřejných dat | I zde je potřeba právní titul podle GDPR, pokud jde o osobní údaje | Obecně legální podle hiQ v. LinkedIn (veřejná data) | Podobné EU; platí doporučení ICO |
| Vymáhání ToS | Občanskoprávní záležitost; Ryanair v. PR Aviation vymáhala sui generis právo | Van Buren zúžil CFAA; porušení ToS ≠ trestný čin | Občanskoprávní záležitost, podobně jako v EU |
| Ochrana databází | Sui generis právo (silné) | Žádné ekvivalentní federální právo | Zachované sui generis právo |
| Výjimka pro AI/TDM | Směrnice DSM čl. 3–4; AI Act čl. 53 | Žádná federální TDM výjimka (doktrína fair use) | UK zvažuje výjimku pro TDM (k roku 2026 uvízla) |
| Hlavní orgán dohledu | Národní DPA (CNIL, Dutch AP atd.) | FTC + státní AG | ICO |
| Nejnovější trend | Přísnější (Dutch AP: „téměř vždy nelegální“ u osobních údajů) | Po hiQ volnější | Mírný; obecně následuje směr EU |
Pokud scrapujete evropské weby nebo data o evropských rezidentech, platí pravidla EU — i když je vaše firma v USA nebo UK.
Reálné pokuty a případy: co se skutečně stane, když vás chytí (2022–2026)
Tohle je část, která odpovídá na otázku skrytou za otázkou: „Jaké je skutečné riziko?“ Sestavil jsem všechna veřejná vymáhání DPA týkající se web scrapingu nebo seškrábaných osobních údajů od roku 2022 do dubna 2026.
| Rok | Orgán | Cíl | Porušení | Pokuta / výsledek |
|---|---|---|---|---|
| 2022 | Italský Garante | Clearview AI | Scraping snímků obličejů bez právního titulu | Pokuta 20 mil. € + zákaz + příkaz k výmazu |
| 2022 | Řecký DPA (Řecko) | Clearview AI | Totéž — scraping pro rozpoznávání obličejů | Pokuta 20 mil. € + zákaz + smazání |
| 2022 | CNIL (Francie) | Clearview AI | Databáze pro rozpoznávání obličejů | Pokuta 20 mil. € + možná sankce 100 tis. €/den |
| 2023 | CNIL (Francie) | Clearview AI | Nesplnění příkazu z roku 2022 | Sankce 5,2 mil. € |
| 2023 | Rakouský DSB | Clearview AI | Více než 30 miliard snímků obličejů z veřejného webu | Výmaz + příkaz jmenovat zástupce v EU (bez zveřejněné pokuty) |
| 2024 | Nizozemský AP | Clearview AI | Nelegální sběr dat pro rozpoznávání obličejů | Pokuta 30,5 mil. € + příkazy k nápravě |
| 2024 | CNIL (Francie) | KASPR | Scraping kontaktních údajů z LinkedIn pro lead gen | Pokuta 240 000 € — 160 mil. kontaktů, data s omezenou viditelností, 5letá retence |
| 2024 | Irský DPC | X / Grok | Veřejné příspěvky použité pro trénování AI | Dohoda o pozastavení; v roce 2025 zahájeno zákonné šetření |
| 2024 | Irský DPC | Meta | Plánovaný trénink LLM na veřejném obsahu Facebooku/Instagramu | Meta pozastavila plány na trénink AI v EU |
| 2024 | Italský Garante | OpenAI | Trénovací data ChatGPT + transparentnost | Vydána pokuta 15 mil. €, v březnu 2026 zrušena římským soudem |
Celková výše peněžitých sankcí v EU/EEA v kategorii scraping / open web: více než 95 milionů € (bez zrušené pokuty pro OpenAI).
Všechny tyto velké pokuty mířily na masový scraping biometrických nebo osobních údajů bez jakéhokoli právního titulu. Clearview scrapovalo miliardy snímků obličejů. KASPR scrapovalo 160 milionů kontaktů, včetně dat z LinkedIn profilů s omezenou viditelností, a uchovávalo je pět let.
Proporcionální, cílený scraping veřejných neosobních dat — například cen produktů nebo SKU čísel — nebyl předmětem vymáhání. To z něj nedělá bezrizikovou činnost, ale pomáhá dát čísla do kontextu.
Jak bezpečně scrapovat evropské weby: postup krok za krokem
- Obtížnost: Začátečník
- Čas potřebný: ~15 minut (včetně kontroly souladu)
- Co budete potřebovat: prohlížeč Chrome, (funguje i bezplatná verze), cílovou URL a rychlou kontrolu checklistu výše
Krok 1: Definujte účel a datové potřeby
Než otevřete jakýkoli nástroj, napište si, proč data potřebujete a přesně která pole. Není to jen dobrá praxe — je to základ zásad omezení účelu a minimalizace údajů podle GDPR.
Například: „Potřebuji názvy produktů, ceny a skladovou dostupnost z 50 stránek s produkty na Amazonu, abych aktualizoval náš tabulkový přehled konkurenčních cen.“ To je konkrétní. Porovnejte to s: „Chci scrapovat všechno z Amazonu.“ První varianta projde testem minimalizace; druhá ne.
Krok 2: Projděte si checklist souladu
Projděte šest kroků z checklistu „Můžu to scrapovat?“ výše. Pokud na jakékoli bráně vyjde 🛑, zastavte se a před pokračováním se poraďte s právníkem.
Když náš amazoní cenový příklad projde branami: data jsou neosobní (ceny, SKU, názvy produktů) ✅, problém s osobními údaji podle GDPR nevzniká ✅, ToS Amazonu je třeba zkontrolovat (scraping omezují, takže kde je to možné, zvažte oficiální Product Advertising API) ⚠️ a riziko podle směrnice o databázích je u 50 produktů nízké ✅.
Krok 3: Zvolte správný přístup k scrapingu
| Metoda | Snadnost použití | Podpora souladu | Údržba | Přesnost |
|---|---|---|---|---|
| Ruční copy-paste | Nízká | N/A (kontrolujete, co kopírujete) | Vysoká (časově náročné) | Náchylné k chybám |
| Scraper založený na kódu (Python, Scrapy) | Nízká (vyžaduje programování) | Žádná vestavěná | Vysoká (rozbíjí se při změnách webu) | Vysoká, pokud se udržuje |
| Thunderbit (s AI) | Velmi vysoká | Vestavěná minimalizace na úrovni polí | Nízká (AI se přizpůsobuje změnám stránky) | Vysoká |
| Oficiální API | Střední | Nejvyšší (strukturovaný, schválený přístup) | Nízká | Nejvyšší |
Pro business uživatele bez vývojového týmu je nejrychlejší cesta. U webů s oficiálním API (například Amazon Product Advertising API) je API vždy nejbezpečnější varianta — často ale má omezení v objemu dat a dostupných polích.
Krok 4: Nakonfigurujte scraper tak, aby byl v souladu s předpisy
V Thunderbit:
- Otevřete cílovou stránku (např. stránku s nabídkou produktu na Amazonu).
- Klikněte na ikonu Thunderbit v liště Chromu a vyberte „AI Suggest Fields“. AI prohledá stránku a navrhne sloupce jako „Název produktu“, „Cena“, „Hodnocení“ a „Skladová dostupnost“.
- Odeberte všechna pole, která nepotřebujete. Pokud AI navrhne „Jméno prodejce“ nebo „E-mail prodejce“ a vy potřebujete jen cenová data, tyto sloupce smažte. To je minimalizace údajů v praxi.
- Použijte Field AI Prompt a přidejte instrukce jako „vyloučit osobní identifikátory“ nebo „extrahovat pouze veřejná cenová data“.
- Zvolte Cloud Scraping pro veřejné e-commerce weby (rychlejší, bez přihlášení) nebo Browser Scraping pro weby, které vyžadují autentizaci.
- Před kliknutím na „Scrape“ ověřte, že robots.txt pro váš use case scraping nezakazuje. Můžete to zkontrolovat zadáním
[doména]/robots.txtdo prohlížeče.
Měli byste nyní vidět náhled tabulky pouze s poli, která jste nastavili — bez zbytečných osobních dat, bez nadbytečných metadat.
Krok 5: Exportujte, ukládejte a spravujte data zodpovědně
Po scrapování exportujte data do — Thunderbit podporuje všechny tyto možnosti s bezplatným exportem.
Pak:
- Nastavte retenční dobu. Neskladujte seškrábaná data neomezeně. Pokud děláte týdenní monitoring cen, syrová data za minulý měsíc už pravděpodobně nepotřebujete.
- Pokud byla získána osobní data (např. pro lead generation), zdokumentujte svůj právní titul, zveřejněte oznámení o transparentnosti podle článku 14 a nastavte proces pro vyřizování opt-out a žádostí o výmaz.
- Automatizujte mazání, kde je to možné. od Thunderbit může automatizovat opakované scrapování v nastavených intervalech a zároveň zachovat stejnou konfiguraci polí, takže každý běh zůstane v mezích vašeho souladu s předpisy.
Tipy, jak zůstat při scrapování v Evropě v souladu s předpisy
Některé postupy, které jsem získal při výzkumu tohoto tématu a rozhovorech s týmy zaměřenými na compliance:
- Před scrapováním nového webu vždy zkontrolujte ToS. Zabere to dvě minuty a může vám to ušetřit měsíce právních problémů.
- Kde je to možné, používejte API. Jsou strukturovaná, schválená a nejbezpečnější. Scraping by měl být záložní varianta, ne výchozí volba.
- U projektů zahrnujících osobní údaje ve velkém dělejte DPIA. CNIL uvádí, že trénovací dataset pro AI může znamenat vysoké riziko, a DPIA je váš důkaz odpovědnosti. I u menších projektů je zdokumentovaná analýza chytrý krok.
- Veďte si scrapingový log. Zaznamenávejte, co jste scrapovali, kdy, odkud, jaký byl váš právní titul a retenční doba. Pokud se vás někdy ptá DPA, budete rádi, že to máte.
- Sledujte regulatorní aktualizace. Doporučení úřadů se rychle vyvíjejí — CNIL zveřejnila nové AI scrapingové sheety v lednu 2026 a EDPB se očekává, že vydá další stanoviska. Dnešní pravidla se mohou zítra zpřísnit.
- Nescrapujte z omezených nebo citlivých zdrojů. Povinný seznam vyloučení CNIL zdravotní fóra, weby používané převážně nezletilými, pornografické weby, genealogické weby a vysoce strukturované weby s osobními údaji. Pokud stavíte scrapingový projekt, udržujte výchozí blocklist.
- Automatizovaný provoz má i provozní dopad. , že boti tvořili v roce 2024 42 % veškerého webového provozu, a , že automatizovaný bot traffic poprvé překonal lidský provoz a dosáhl v roce 2024 51 %. Regulátoři stále častěji vnímají chování botů, rate a obcházení detekce jako důkaz rizika a nefér jednání. Chovat se jako zodpovědný scraper — identifikovat user agent, omezovat rychlost požadavků, respektovat signály odporu — není jen slušnost; má to i právní význam.
Závěr
Web scraping není v Evropě nelegální. Je ale regulovaný — zejména pokud jde o osobní údaje.
Právní výsledek závisí na tom, co scrapujete (osobní vs. neosobní data), jak scrapujete (ToS, robots.txt, rate limiting, minimalizace na úrovni polí) a proč (zdokumentovaný účel a právní titul). Evidence vymáhání je jasná: masový, neselektlivní scraping osobních údajů bez právního titulu je oblast, kde firmy dostávají sedmi- a osmiciferné pokuty. Proporcionální, cílený scraping veřejných neosobních dat — se zavedenými zárukami — je v úplně jiné rizikové kategorii.
Praktický rámec:
- Před každým scrapingovým projektem použijte rozhodovací checklist.
- Použijte ochranná opatření doporučená úřady (transparentnost, minimalizace, retenční limity, mechanismy opt-out).
- Vyberte nástroje, které podporují compliance už svým návrhem. AI výběr polí v Thunderbit, strukturovaná extrakce a usnadňují scrapovat jen data, která potřebujete — ani víc, ani míň.
- Všechno dokumentujte. Vyvažovací test, seznam zdrojů, retenční plán, DPIA. Když se ozve regulátor, váš spis je vaše obrana.
Povinné upozornění: tento článek slouží jen pro informaci, nikoli jako právní rada. U vysoce rizikových scénářů zahrnujících osobní údaje ve velkém se poraďte s kvalifikovaným advokátem na ochranu soukromí. Regulace se vyvíjejí a cena chyby je reálná.
Chcete si bezpečný, cílený web scraping vyzkoušet sami? vám umožní experimentovat se strukturovanou extrakcí v menším měřítku — definujte pole, scrapujte jen to, co potřebujete, a exportujte na pár kliknutí. Můžete si také projít náš s podrobnými návody krok za krokem.
Časté dotazy
1. Je web scraping v Evropě legální, pokud jsou data veřejně dostupná?
Veřejná dostupnost nevyjímá data z GDPR, pokud obsahují osobní údaje. Jak uvedl nizozemský úřad, „veřejné neznamená automaticky povolení ke scrapingu“. Veřejná neosobní data (ceny produktů, SKU) jsou obecně méně riziková, ale i tak je třeba zkontrolovat směrnici o databázích a podmínky použití webu.
2. Můžu scrapovat e-maily a telefonní čísla z evropských webů?
E-maily a telefonní čísla jsou podle GDPR osobní údaje. Potřebujete právní titul — obvykle oprávněný zájem se zdokumentovaným vyvažovacím testem — a musíte jednotlivce informovat podle článku 14. CNIL v roce 2024 udělila KASPR pokutu 240 000 € za scraping kontaktních údajů z LinkedIn bez dostatečné transparentnosti nebo právního titulu, takže jde o oblast, kde je vymáhání aktivní.
3. Jaká je nejvyšší pokuta za nelegální web scraping v Evropě?
Nizozemský AP v roce 2024 uložil Clearview AI pokutu za nelegální sběr dat pro rozpoznávání obličejů z veřejného webu. Několik dalších úřadů v EU udělilo Clearview pokuty 20 milionů € každý. Celkové pokuty v EU/EEA související se scrapingem za období 2022–2026 přesahují 95 milionů €.
4. Znamená respektování robots.txt, že je web scraping v Evropě legální?
Respektování robots.txt je dobrá praxe a odpovídá , ale samo o sobě legalitu nezaručuje. Stále musíte dodržovat GDPR (pokud jde o osobní údaje), směrnici o databázích a podmínky použití webu. Vnímejte soulad s robots.txt jako jednu vrstvu vícevrtstvého rámce souladu.
5. Jak se právo web scrapingu liší v Evropě a USA?
EU je výrazně přísnější. GDPR se vztahuje na jakákoli osobní data — i veřejně dostupná — a směrnice o databázích poskytuje silnou ochranu organizovaným datasetům. USA nemají federální ekvivalent ani jednoho z těchto předpisů; po hiQ v. LinkedIn je scraping veřejných dat v USA obecně přípustný. UK po brexitu stojí mezi tím, s UK GDPR a zachovanými databázovými právy, která z velké části kopírují pravidla EU, ale s dohledem ICO. Pro firmy působící přes hranice nastavuje EU nejvyšší laťku — a pokud scrapujete data o rezidentech EU, tato pravidla platí bez ohledu na to, kde má vaše firma sídlo.
Dozvědět se více
