1 maja 2024 r. holenderski organ ochrony danych opublikował nagłówek, który poruszył każdy zespół pracujący z danymi w Europie: Jeśli pracujesz w sprzedaży, e-commerce albo nieruchomościach — właściwie wszędzie tam, gdzie liczą się dane z internetu — to zdanie pewnie ścisnęło Ci żołądek.
Rozumiem to. W codziennie rozmawiamy z zespołami biznesowymi, które potrzebują danych z sieci do monitorowania cen, pozyskiwania leadów i badań rynku. Frustracja jest zawsze ta sama: wpisują w Google „czy web scraping jest legalny w Europie”, a każda odpowiedź brzmi mniej więcej: „to zależy”. Niewiele to pomaga, gdy goni Cię termin projektu i masz listę adresów URL do zeskrobania.
Dlatego spędziłem tygodnie na analizie przepisów, wytycznych organów ochrony danych, decyzji i orzecznictwa, żeby przygotować coś naprawdę użytecznego: praktyczną checklistę decyzyjną, zestawienie zabezpieczeń w tabeli, konkretne kwoty kar i przewodnik krok po kroku, jak pozyskiwać dane z europejskich stron bez wpadania w konflikt z regulatorem. Niezależnie od tego, czy chcesz zbierać ceny produktów z Amazon, czy wyciągać kontakty B2B z katalogu, ten artykuł pomoże Ci ustalić, gdzie przebiegają granice — i jak pozostać po właściwej stronie.
Czym jest web scraping i dlaczego europejskie firmy powinny się nim interesować?
Web scraping to zautomatyzowane pobieranie danych ze stron internetowych do uporządkowanego formatu — arkusza, bazy danych, CRM. Zamiast kopiować i wklejać nazwy produktów oraz ceny ze 200 stron, scraper odwiedza każdą z nich i wyciąga potrzebne pola do schludnych kolumn.
Dlaczego to ważne dla zespołów nietechnicznych? Bo dane z internetu napędzają realne decyzje biznesowe. Zespoły sprzedaży pozyskują leady z katalogów. Menedżerowie e-commerce codziennie monitorują ceny konkurencji. Analitycy nieruchomości śledzą trendy ogłoszeń na portalach. Badacze rynku zbierają publiczne opinie i oceny na dużą skalę. rośnie szybko, a firmy każdego dnia zbierają miliony punktów danych.
Ale otoczenie regulacyjne w Europie różni się od tego w USA. RODO, dyrektywa o bazach danych i ewoluujące wytyczne organów ochrony danych oznaczają, że „publicznie dostępne” nie znaczy „wolne do użycia”. Jak ujął to przewodniczący holenderskiego AP, Aleid Wolfsen: „publiczne nie oznacza automatycznie zgody na scraping”. Zrozumienie zasad przed startem nie jest opcjonalne — to różnica między czystym zbiorem danych a karą liczonymi w setkach tysięcy euro.
Czy web scraping jest legalny w Europie? Krótka odpowiedź
Web scraping sam w sobie nie jest w Europie nielegalny. Legalność zależy jednak od trzech rzeczy: jakie dane zbierasz, w jaki sposób je pozyskujesz i po co.
W UE scraping regulują trzy nakładające się warstwy prawne:
- RODO — ma zastosowanie zawsze, gdy pozyskujesz dane osobowe (imiona i nazwiska, e-maile, numery telefonów, adresy IP, a nawet pseudonimizowane identyfikatory).
- Unijna dyrektywa o bazach danych — chroni bazy danych, w których twórca zainwestował „istotne nakłady” w organizację danych.
- Prawo umów / regulaminy serwisów — wiele stron wprost zakazuje scrapingu w swoich ToS, a sądy UE egzekwowały te postanowienia.
Kluczowa kwestia: „publiczne” nie znaczy „nieuregulowane”. Nawet dane nieosobowe mogą być chronione przez prawa do baz danych lub prawo umów. Każdy projekt scrapingu trzeba oceniać łącznie przez pryzmat wszystkich trzech warstw.
Najważniejsze przepisy UE dotyczące web scrapingu
RODO: gdy pozyskujesz dane osobowe
Każde dane powiązane z możliwą do zidentyfikowania osobą uruchamiają obowiązki wynikające z RODO. Dotyczy to imion i nazwisk, adresów e-mail, numerów telefonów, adresów IP, zdjęć, a nawet danych pseudonimizowanych, które można ponownie zidentyfikować. W momencie, gdy zbierasz dane osobowe, stajesz się „administratorem danych” i musisz spełniać obowiązki z RODO:
- Podstawa prawna (art. 6): potrzebujesz legalnego powodu przetwarzania. Zgoda przy scrapingu na dużą skalę jest niemal zawsze niepraktyczna — nie da się prosić milionów osób o pozwolenie przed zebraniem ich publicznie zamieszczonych informacji. Najczęściej wskazywaną podstawą jest uzasadniony interes (art. 6 ust. 1 lit. f), ale wymaga on udokumentowanego testu trójstopniowego: (1) interes jest prawnie uzasadniony, (2) przetwarzanie jest niezbędne, oraz (3) nie narusza to nadmiernie praw i wolności osób, których dane dotyczą, z uwzględnieniem ich rozsądnych oczekiwań.
- Przejrzystość (art. 14): ponieważ nie zbierasz danych bezpośrednio od osoby, musisz ją poinformować — zwykle w ciągu miesiąca — co zostało zebrane, dlaczego i jak może skorzystać ze swoich praw. Jeśli indywidualne powiadomienie byłoby nieproporcjonalne, trzeba opublikować ogólne ogłoszenie zawierające wszystkie informacje wymagane w art. 14.
- Minimalizacja danych: zbieraj tylko to, czego faktycznie potrzebujesz. Jeśli interesują Cię ceny produktów, nie pobieraj też adresów e-mail sprzedawców.
- Ograniczenia przechowywania i zarządzanie prawami: ustal okresy retencji, respektuj żądania usunięcia i zapewnij dostęp do informacji o źródle danych.
(przyjęty w maju 2024 r.) dołożył kolejną warstwę: wskazał, że różne etapy przetwarzania — zbieranie, wstępne przetwarzanie, trenowanie, prompty i output — wymagają osobnej analizy podstawy prawnej. EDPB nie odrzucił uzasadnionego interesu jako podstawy przy web scrapingu, ale podkreślił konieczność pełnej, trzyczęściowej oceny oraz odpowiednich zabezpieczeń.
Unijna dyrektywa o bazach danych: ochrona sposobu organizacji danych
Dyrektywa o bazach danych przyznaje twórcom baz danych prawo sui generis, jeśli w pozyskanie, weryfikację lub prezentację danych zainwestowali „istotne nakłady”. Jeśli Twój scraping wyciąga „istotną część” takiej bazy, możesz naruszyć to prawo.
W praktyce próg jest stosunkowo wysoki. Zeskrobanie kilkuset cen produktów z dużego sklepu raczej nie będzie problemem. Ale hurtowe pobranie całego katalogu konkurenta — dziesiątek tysięcy ofert — może już przekroczyć granicę, zwłaszcza jeśli zagraża możliwości odzyskania poniesionych nakładów przez twórcę. Trybunał Sprawiedliwości UE wypowiadał się na ten temat w kilku sprawach, a kluczowym pytaniem zawsze jest proporcjonalność.
Dla większości zastosowań biznesowych — pobierania konkretnych pól z kart produktów, porównywania ofert w kategorii — dyrektywa o bazach danych oznacza niższe ryzyko. Nie oznacza jednak braku ryzyka i warto mieć ją na uwadze przy projektowaniu zakresu scrapingu.
Regulaminy serwisów: zmienna prawnicza prawa umów
Tu wiele osób się potyka. Wiele stron zakazuje scrapingu w swoich regulaminach. W Europie naruszenie ToS jest sprawą cywilną, a nie karną, ale nadal może prowadzić do nakazów sądowych, pozwów kontraktowych i realnej odpowiedzialności finansowej.
Dwa pojęcia, które warto znać: browsewrap (bierne warunki, często jako link ukryty na dole strony) jest trudniejsze do wyegzekwowania, bo użytkownik nigdy aktywnie się na nie nie zgodził. Clickwrap (gdy zaznaczasz checkbox lub klikasz „Akceptuję”) jest znacznie łatwiejszy do wyegzekwowania.
Przełomową sprawą UE jest Ryanair v. PR Aviation: sąd wyegzekwował regulamin Ryanair wobec scrapera, mimo że prawa do bazy danych nie miały zastosowania, ponieważ scraper zgodził się na warunki. Dlatego zawsze sprawdź regulamin strony przed scrapingiem. Jeśli to umowa clickwrap, która wprost zakazuje scrapingu, postępuj ostrożnie — albo poszukaj dostępu przez API.
Dyrektywa DSM i AI Act: wyjątki dla badań oraz text and data mining
Nie każdy scraping podlega takim samym ograniczeniom. Dyrektywa o jednolitym rynku cyfrowym (DSM, 2019) wprowadziła dwa wyjątki dotyczące text and data mining (TDM):
- Art. 3: instytucje badawcze i organizacje dziedzictwa kulturowego mogą prowadzić TDM na legalnie pozyskanych treściach.
- Art. 4: każdy — także podmioty komercyjne — może prowadzić TDM, chyba że uprawniony wyraźnie się wyłączył (np. przez robots.txt, ai.txt lub nagłówki TDMRep).
Unijny AI Act (art. 53) nakłada obowiązki na dostawców modeli AI: muszą oni przestrzegać mechanizmów rezygnacji z TDM i dokumentować źródła danych treningowych.
Jest jednak haczyk: te wyjątki obejmują prawa autorskie i prawa do baz danych, a nie RODO. Jeśli Twoje TDM obejmuje dane osobowe, nadal potrzebujesz odrębnej podstawy prawnej z RODO.

Decyzja „czy mogę to zeskrobać?” — checklist dla danych z Europy
To jest sekcja, której sam chciałbym mieć, gdy zaczynałem zgłębiać ten temat. Każdy artykuł prawny mówi „to zależy” — ale jak wygląda faktyczne drzewo decyzyjne? Oto praktyczna checklista zgodności krok po kroku z jasnymi bramkami. Każdy krok prowadzi do ✅ kontynuuj, ⚠️ dodaj zabezpieczenia albo 🛑 stop.
Krok 1: Czy dane są osobowe czy nieosobowe?
Dane nieosobowe (ceny produktów, numery SKU, adresy firmowe niezwiązane z osobami): niższe obciążenie regulacyjne. Nadal trzeba sprawdzić dyrektywę o bazach danych i ToS, ale RODO nie ma zastosowania. ✅ Przejdź do kroku 3.
Dane osobowe (imiona, e-maile, numery telefonów, zdjęcia, każdy identyfikator powiązany z osobą): stosuje się RODO. ⚠️ Przejdź do kroku 2.
Krok 2: Która podstawa prawna z RODO ma zastosowanie?
- Zgoda: przy scrapingu na dużą skalę niemal nigdy niewykonalna. 🛑 Chyba że masz bardzo wąski, specyficzny przypadek.
- Uzasadniony interes (art. 6 ust. 1 lit. f): najczęstsza podstawa. Wymaga jednak udokumentowanego testu trójstopniowego:
- Twój interes jest prawnie uzasadniony (interes komercyjny może się kwalifikować, zgodnie z ).
- Przetwarzanie jest niezbędne do realizacji tego interesu.
- Test równowagi: Twój interes nie przeważa nad prawami osób, których dane dotyczą, biorąc pod uwagę ich rozsądne oczekiwania.
- Udokumentuj test równowagi przed scrapingiem. Jeśli nie potrafisz jasno uzasadnić, dlaczego osoby, których dane zbierasz, mogłyby rozsądnie spodziewać się takiego użycia, to sygnał ostrzegawczy. ⚠️ Kontynuuj z udokumentowanym uzasadnionym interesem.
Krok 3: Czy ToS strony ogranicza scraping?
- Umowa clickwrap zakazująca scrapingu: 🛑 Wysokie ryzyko. Rozważ alternatywne źródła danych lub oficjalny dostęp przez API.
- Browsewrap albo brak ograniczenia w ToS: ⚠️ Niższe ryzyko, ale nadal respektuj robots.txt i sygnały technicznego sprzeciwu.
Krok 4: Czy ma zastosowanie dyrektywa o bazach danych?
- Czy celem jest baza danych, w którą zainwestowano istotne nakłady w organizację danych?
- Czy Twój scraping wyciągnie „istotną część” tej bazy?
- Jeśli na oba pytania odpowiadasz tak: ⚠️ ryzyko naruszenia prawa sui generis. Ogranicz zakres pobierania.
Krok 5: Czy obejmuje Cię wyjątek dla badań lub TDM?
- Zarejestrowana instytucja badawcza albo organizacja dziedzictwa kulturowego? Może mieć zastosowanie art. 3 dyrektywy DSM. ✅
- Komercyjne TDM? Sprawdź sygnały opt-out z art. 4 (robots.txt, ai.txt, TDMRep). Jeśli strona zrezygnowała, 🛑 zatrzymaj się dla tego źródła.
Krok 6: Czy wdrożono zabezpieczenia zalecane przez organy ochrony danych?
Jeśli przeszedłeś powyższe bramki, ostatnim krokiem jest wdrożenie zabezpieczeń zalecanych przez CNIL, holenderski AP i EDPB. Opisuję je szczegółowo w następnej sekcji. ✅ Kontynuuj z wdrożonymi zabezpieczeniami.

Zabezpieczenia zgodności zalecane przez organy ochrony danych: co rekomendują CNIL, holenderski AP i EDPB
Nie znalazłem żadnego pojedynczego artykułu konkurencyjnego, który zestawiałby zabezpieczenia rekomendowane przez trzy najbardziej aktywne europejskie organy nadzorcze w temacie scrapingu. Dlatego zbudowałem tę tabelę, porównując , oraz .
| Zabezpieczenie | CNIL | Holenderski AP | Zespół roboczy EDPB | Wskazówki wdrożeniowe |
|---|---|---|---|---|
| Informacja o przejrzystości z art. 14 | ✅ Wymagana | ✅ Wymagana | ✅ Wymagana | Opublikuj publiczną informację z kategoriami źródeł, celami, podstawą prawną, retencją, kanałami realizacji praw i kontaktem do IOD |
| DPIA przed scrapingiem | ✅ Zalecana (obowiązkowa przy wysokim ryzyku) | ✅ Wymagana | ✅ Wymagana | Udokumentuj test równowagi, kategorie danych, ryzyka i działania ograniczające przed startem |
| Minimalizacja danych | ✅ Wymagana (określ precyzyjne kryteria zbierania) | ✅ Wymagana | ✅ Wymagana | Skonfiguruj scraper tak, aby pobierał tylko potrzebne pola; od razu usuwaj nieistotne dane |
| Limitowanie zapytań / respektowanie robots.txt | ✅ Wymagane (wykluczaj strony sprzeciwiające się przez robots.txt/CAPTCHA) | — | — | Parsuj robots.txt, dodawaj opóźnienia między żądaniami, identyfikuj user agenta |
| Pseudonimizacja / anonimizacja | ⚠️ Zalecana (natychmiast po zbiorze) | ✅ Silnie zalecana | ✅ Zalecana | Haszuj lub losuj identyfikatory; usuwaj URL-e profili; rozmywaj twarze, gdy tożsamość nie jest potrzebna |
| Okres retencji | ✅ Zdefiniowany limit | ✅ Jak najkrótszy | ✅ Zdefiniowany limit | Automatyzuj harmonogramy usuwania; oddzielaj surowy cache od wyciągniętych faktów |
| Mechanizm rezygnacji / czarnej listy | ✅ Zalecany (uznaniowy wcześniejszy sprzeciw) | ✅ Wymagany (sprzeciw z art. 21) | ✅ Wymagany | Zapewnij formularz opt-out, blacklistę domen, blokadę na poziomie osoby |
| Wykluczanie źródeł wrażliwych | ✅ Wymagane (fora zdrowotne, strony dla nieletnich, strony pornograficzne, genealogia) | ✅ Wymagane | ✅ Wymagane | Utrzymuj domyślne listy blokad dla zdrowia, religii, polityki, biometrii i nieletnich |
Praktyczna uwaga z naszej strony: funkcja Thunderbit pozwala użytkownikom określić dokładnie, które kolumny mają zostać wyciągnięte — cena, SKU, nazwa produktu — dzięki czemu scraper zbiera tylko to, co niezbędne. Nie pobierasz hurtowo całych stron; wybierasz uporządkowane pola zgodne z zasadą ograniczenia celu i minimalizacji danych. To powiedziawszy, żadne narzędzie nie zamienia niezgodnego z prawem scrapingu w legalny. Analiza prawna zawsze jest pierwsza.

Czy web scraping jest legalny w Europie w Twoim przypadku? Wskazówki branżowe
Pytanie, które najczęściej widzę na forach, nie brzmi „czy scraping jest legalny?”, tylko „czy mój scraping jest legalny?”. Abstrakcyjna teoria RODO tego nie odpowie. Oto więc podział według typowych przypadków biznesowych.
| Przypadek użycia | Rodzaj danych | Główne ryzyka prawne | Prawdopodobny wynik |
|---|---|---|---|
| Monitorowanie cen w e-commerce (publiczne oferty produktów) | Nieosobowe (ceny, SKU, nazwy produktów) | Prawo sui generis do bazy danych; naruszenie ToS | Zwykle niższe ryzyko, jeśli nie ma danych osobowych i nie następuje systematyczne pobieranie „istotnej części” bazy |
| Pozyskiwanie leadów B2B (dane kontaktowe z katalogów) | Osobowe (imiona, e-maile, numery telefonów) | Podstawa prawna z art. 6 RODO; powiadomienie z art. 14; ePrivacy dla kontaktu elektronicznego | Wyższe ryzyko — wymaga udokumentowanego testu uzasadnionego interesu oraz obowiązku informacyjnego |
| Ogłoszenia nieruchomości (dane z portali) | Mieszane (adresy mogą być nieosobowe, nazwiska właścicieli są osobowe) | Dyrektywa o bazach danych; ToS; RODO, jeśli dane są powiązane z właścicielem | Średnie ryzyko — anonimizuj dane właścicieli, sprawdź ToS, respektuj robots.txt |
| Dane do trenowania AI (web scraping treści na dużą skalę) | Potencjalnie osobowe, jeśli nieprzefiltrowane | RODO + obowiązki z art. 53 AI Act dotyczące TDM | Wysokie ryzyko — trzeba spełnić zarówno RODO, jak i AI Act; wymagane mechanizmy opt-out i solidne filtrowanie |
W scenariuszach o niższym ryzyku, takich jak publiczne dane e-commerce, narzędzia z gotowymi szablonami — jak — zmniejszają ekspozycję, bo wyciągają konkretne, nieosobowe pola danych bez zbędnych treści. W scenariuszach wyższego ryzyka, obejmujących dane osobowe (na przykład lead generation), analiza prawna musi być pierwsza. Żaden scraper, nawet najbardziej inteligentny, nie zmieni niezgodnego zbierania w zgodne.

UE vs USA vs Wielka Brytania: jak porównać przepisy o web scrapingu
Jeśli Twoja firma działa transgranicznie, musisz rozumieć różnice między tymi zasadami. Nie znalazłem jednego artykułu konkurencyjnego, który pokazuje to w czytelnej tabeli obok siebie, więc oto ona.
| Wymiar | UE | USA | Wielka Brytania (po Brexicie) |
|---|---|---|---|
| Główne prawo | RODO + dyrektywa o bazach danych + ePrivacy | CFAA + przepisy stanowe (ograniczona federalna prywatność danych) | UK GDPR + Data Protection Act 2018 |
| Scraping danych publicznych | Nadal wymaga podstawy z RODO, jeśli są to dane osobowe | Zasadniczo legalny po hiQ v. LinkedIn (dane publiczne) | Podobnie jak w UE; obowiązują wytyczne ICO |
| Egzekwowanie ToS | Sprawa cywilna; Ryanair v. PR Aviation wyegzekwowała prawa sui generis | Van Buren zawęziło CFAA; naruszenie ToS ≠ przestępstwo | Sprawa cywilna, podobnie jak w UE |
| Ochrona baz danych | Prawo sui generis (silne) | Brak równoważnego prawa federalnego | Zachowane prawo sui generis |
| Wyjątek AI/TDM | Dyrektywa DSM art. 3–4; AI Act art. 53 | Brak federalnego wyjątku TDM (doktryna fair use) | Wielka Brytania rozważa wyjątek TDM (na 2026 r. wstrzymany) |
| Główny organ egzekwujący | Krajowe organy ochrony danych (CNIL, holenderski AP itd.) | FTC + prokuratorzy stanowi | ICO |
| Najnowszy trend | Ostrzejsze podejście (holenderski AP: „niemal zawsze nielegalny” dla danych osobowych) | Bardziej liberalne po hiQ | Umiarkowane; generalnie w ślad za UE |
Jeśli scrapujesz europejskie strony internetowe albo dane o mieszkańcach Europy, obowiązują przepisy UE — nawet jeśli Twoja firma ma siedzibę w USA lub Wielkiej Brytanii.
Realne kary i sprawy: co naprawdę się dzieje po wykryciu naruszenia (2022–2026)
To jest sekcja, która odpowiada na pytanie za pytaniem: „Jakie jest realne ryzyko?”. Zestawiłem wszystkie publicznie znane działania egzekucyjne organów ochrony danych dotyczące web scrapingu lub zeskrobanych danych osobowych z lat 2022–kwiecień 2026.
| Rok | Organ | Podmiot | Naruszenie | Kara / wynik |
|---|---|---|---|---|
| 2022 | włoski Garante | Clearview AI | Zbieranie obrazów twarzy bez podstawy prawnej | 20 mln € kary + zakaz + nakaz usunięcia |
| 2022 | grecki DPA | Clearview AI | To samo — scraping do rozpoznawania twarzy | 20 mln € kary + zakaz + usunięcie |
| 2022 | CNIL (Francja) | Clearview AI | Baza do rozpoznawania twarzy | 20 mln € kary + możliwa kara 100 tys. € dziennie |
| 2023 | CNIL (Francja) | Clearview AI | Niewykonanie decyzji z 2022 r. | 5,2 mln € kary pieniężnej |
| 2023 | austriacki DSB | Clearview AI | Ponad 30 mld zdjęć twarzy z publicznej sieci | Usunięcie + nakaz wyznaczenia przedstawiciela w UE (bez opublikowanej kary) |
| 2024 | holenderski AP | Clearview AI | Nielegalne zbieranie danych do rozpoznawania twarzy | 30,5 mln € kary + nakazy zgodności |
| 2024 | CNIL (Francja) | KASPR | Scraping danych kontaktowych z LinkedIn do lead gen | 240 tys. € kary — 160 mln kontaktów, dane o ograniczonej widoczności, 5-letnia retencja |
| 2024 | irlandzki DPC | X / Grok | Publiczne posty wykorzystane do trenowania AI | Porozumienie o wstrzymaniu; w 2025 r. wszczęto postępowanie ustawowe |
| 2024 | irlandzki DPC | Meta | Planowane trenowanie LLM na publicznych treściach z Facebooka/Instagrama | Meta wstrzymała plany trenowania AI w UE |
| 2024 | włoski Garante | OpenAI | Dane treningowe ChatGPT i przejrzystość | Wydano karę 15 mln €, unieważnioną przez sąd w Rzymie w marcu 2026 r. |
Łączna wartość kar pieniężnych w UE/EOG w kategorii scrapingu i otwartej sieci: ponad 95 mln € (z wyłączeniem unieważnionej kary wobec OpenAI).
Każda z tych dużych kar dotyczyła masowego scrapingu danych biometrycznych lub osobowych bez jakiejkolwiek podstawy prawnej. Clearview zeskrobał miliardy zdjęć twarzy. KASPR zeskrobał 160 milionów kontaktów, w tym dane z profili LinkedIn o ograniczonej widoczności, i przechowywał je przez pięć lat.
Proporcjonalny, ukierunkowany scraping publicznych danych nieosobowych — jak ceny produktów czy numery SKU — nie był przedmiotem takich działań egzekucyjnych. Nie oznacza to braku ryzyka, ale pomaga spojrzeć na skalę zagrożenia we właściwej perspektywie.
Jak bezpiecznie pozyskiwać dane z europejskich stron: przewodnik krok po kroku
- Poziom trudności: początkujący
- Czas potrzebny: ~15 minut (wliczając przegląd zgodności)
- Czego potrzebujesz: przeglądarka Chrome, (wystarczy darmowy plan), docelowy adres URL i szybki przegląd checklisty powyżej
Krok 1: Określ cel i potrzeby dotyczące danych
Zanim otworzysz jakiekolwiek narzędzie, zapisz po co potrzebujesz danych i dokładnie których pól. To nie tylko dobra praktyka — to fundament zasad ograniczenia celu i minimalizacji danych z RODO.
Na przykład: „Potrzebuję nazw produktów, cen i stanu magazynowego z 50 stron produktowych Amazon, aby aktualizować nasz arkusz cen konkurencji.” To jest konkret. Porównaj to z: „Chcę zeskrobać wszystko z Amazon.” Pierwsze przechodzi test minimalizacji, drugie nie.
Krok 2: Przejdź przez checklistę zgodności
Przejdź przez sześcioetapową checklistę „czy mogę to zeskrobać?” powyżej. Jeśli którakolwiek bramka zwraca 🛑, zatrzymaj się i skonsultuj z prawnikiem przed dalszym działaniem.
Przeprowadzając nasz przykład monitorowania cen Amazon przez te bramki: dane są nieosobowe (ceny, SKU, nazwy produktów) ✅, nie ma problemu z danymi osobowymi z RODO ✅, regulamin Amazon należy sprawdzić (tak, ograniczają scraping, więc warto rozważyć oficjalne API danych produktowych, jeśli jest dostępne) ⚠️, a ryzyko związane z dyrektywą o bazach danych jest niskie dla 50 produktów ✅.
Krok 3: Wybierz odpowiednie podejście do scrapingu
| Metoda | Łatwość użycia | Wsparcie zgodności | Utrzymanie | Dokładność |
|---|---|---|---|---|
| Ręczne kopiuj-wklej | Niska | Brak (sam kontrolujesz, co kopiujesz) | Wysokie (czasochłonne) | Podatne na błędy |
| Scraper oparty na kodzie (Python, Scrapy) | Niska (wymaga kodowania) | Brak wbudowanego wsparcia | Wysokie (psuje się, gdy strony się zmieniają) | Wysoka, jeśli jest utrzymywany |
| Thunderbit (z AI) | Bardzo wysoka | Wbudowana minimalizacja na poziomie pól | Niskie (AI dostosowuje się do zmian strony) | Wysoka |
| Oficjalne API | Średnia | Najwyższe (ustrukturyzowany, zatwierdzony dostęp) | Niskie | Najwyższa |
Dla użytkowników biznesowych bez zespołu deweloperskiego jest najszybszą drogą. W przypadku stron z oficjalnym API (takim jak Amazon Product Advertising API) API jest zawsze najbezpieczniejszym rozwiązaniem — choć często ma ograniczenia dotyczące wolumenu danych i dostępnych pól.
Krok 4: Skonfiguruj scraper pod kątem zgodności
W Thunderbit:
- Przejdź do docelowej strony (np. strony oferty produktu Amazon).
- Kliknij ikonę Thunderbit na pasku Chrome i wybierz „AI Suggest Fields”. AI przeskanuje stronę i zaproponuje kolumny, takie jak „Nazwa produktu”, „Cena”, „Ocena” i „Stan magazynowy”.
- Usuń wszystkie pola, których nie potrzebujesz. Jeśli AI proponuje „Nazwa sprzedawcy” lub „E-mail sprzedawcy”, a potrzebujesz tylko danych cenowych, usuń te kolumny. To praktyczna minimalizacja danych.
- Użyj Field AI Prompt, aby dodać instrukcje typu „wyklucz identyfikatory osobowe” albo „pobieraj tylko publiczne dane cenowe”.
- Wybierz Cloud Scraping dla publicznych serwisów e-commerce (szybciej, bez logowania) albo Browser Scraping dla stron wymagających uwierzytelnienia.
- Zanim klikniesz „Scrape”, sprawdź, czy robots.txt nie zakazuje scrapingu w Twoim przypadku. Możesz to zrobić, odwiedzając
[domena]/robots.txtw przeglądarce.
Powinieneś teraz widzieć podgląd tabeli tylko z polami, które skonfigurowałeś — bez zbędnych danych osobowych, bez niepotrzebnych metadanych.
Krok 5: Eksportuj, przechowuj i zarządzaj danymi odpowiedzialnie
Po scrapingu wyeksportuj dane do — Thunderbit obsługuje wszystkie te opcje z darmowym eksportem.
Następnie:
- Ustal okres retencji. Nie przechowuj zeskrobanych danych bezterminowo. Jeśli robisz cotygodniowy monitoring cen, surowe dane sprzed miesiąca prawdopodobnie nie są już potrzebne.
- Jeśli zebrano dane osobowe (np. do lead generation), udokumentuj podstawę prawną, opublikuj informację z art. 14 i przygotuj proces obsługi rezygnacji oraz żądań usunięcia.
- Automatyzuj harmonogramy usuwania tam, gdzie to możliwe. od Thunderbit może automatyzować cykliczne scrape’y w ustalonych odstępach czasu, zachowując tę samą konfigurację pól, dzięki czemu każdy przebieg mieści się w Twoich parametrach zgodności.
Wskazówki, jak zachować zgodność podczas scrapingu w Europie
Kilka praktyk, które wyciągnąłem z badań nad tym tematem i rozmów z zespołami dbającymi o compliance:
- Zawsze sprawdzaj ToS przed scrapingiem nowej strony. To zajmuje dwie minuty i może oszczędzić Ci miesięcy problemów prawnych.
- Używaj API, gdy są dostępne. Są uporządkowane, zatwierdzone i najbezpieczniejsze. Scraping powinien być planem awaryjnym, nie domyślnym.
- Przeprowadź DPIA przy każdym projekcie obejmującym dane osobowe na dużą skalę. CNIL uważa, że zbiory danych do trenowania AI mogą stwarzać wysokie ryzyko, a DPIA to dowód rozliczalności. Nawet w mniejszych projektach warto dokumentować analizę.
- Prowadź dziennik scrapingu. Zapisuj, co zostało zeskrobane, kiedy, skąd, jaka była podstawa prawna i jaki okres retencji. Jeśli kiedykolwiek zapyta o to organ, będziesz wdzięczny, że to masz.
- Monitoruj zmiany regulacyjne. Wytyczne organów zmieniają się szybko — CNIL opublikował nowe arkusze o scrapingu AI w styczniu 2026 r., a EDPB prawdopodobnie wyda kolejne opinie. Dzisiejsze zasady jutro mogą być ostrzejsze.
- Nie scrapuj ze źródeł ograniczonych lub wrażliwych. CNIL obejmuje fora zdrowotne, strony używane głównie przez nieletnich, strony pornograficzne, serwisy genealogiczne i wysoko ustrukturyzowane źródła danych osobowych. Jeśli budujesz projekt scrapingu, utrzymuj domyślną listę blokad.
- Ruch zautomatyzowany ma ogromne znaczenie operacyjne. , że boty stanowiły 42% całego ruchu w sieci w 2024 r., a , że zautomatyzowany ruch botów po raz pierwszy przewyższył ruch ludzki, osiągając 51% w 2024 r. Regulatorzy coraz częściej traktują zachowanie botów, limity i obejścia jako dowód ryzyka i nieuczciwości. Zachowywanie się jak odpowiedzialny scraper — identyfikacja user agenta, limitowanie tempa, respektowanie sygnałów sprzeciwu — to nie tylko uprzejmość; to także kwestia prawna.
Podsumowanie
Web scraping nie jest w Europie nielegalny. Jest jednak regulowany — zwłaszcza gdy w grę wchodzą dane osobowe.
Wynik prawny zależy od tego, co scrapujesz (dane osobowe vs. nieosobowe), jak scrapujesz (ToS, robots.txt, limitowanie tempa, minimalizacja na poziomie pól) oraz po co (udokumentowany cel i podstawa prawna). Historia egzekwowania przepisów jest jasna: masowy, bezrefleksyjny scraping danych osobowych bez podstawy prawnej to obszar, w którym firmy dostają kary liczone w milionach euro. Proporcjonalny, ukierunkowany scraping publicznych danych nieosobowych — z wdrożonymi zabezpieczeniami — mieści się w zupełnie innej kategorii ryzyka.
Praktyczne ramy działania:
- Korzystaj z checklisty decyzyjnej przed każdym projektem scrapingu.
- Stosuj zabezpieczenia zalecane przez organy ochrony danych (przejrzystość, minimalizacja, limity retencji, mechanizmy opt-out).
- Wybieraj narzędzia wspierające zgodność już na etapie projektowania. AI-sterowany wybór pól w Thunderbit, uporządkowane wyciąganie danych oraz sprawiają, że łatwo zeskrobiesz tylko te dane, których naprawdę potrzebujesz — ani więcej, ani mniej.
- Dokumentuj wszystko. Test równowagi, listę źródeł, harmonogram retencji, DPIA. Jeśli regulator zapyta, Twoja dokumentacja będzie Twoją obroną.
Obowiązkowe zastrzeżenie: ten artykuł ma charakter informacyjny, a nie prawny. W przypadku scenariuszy wysokiego ryzyka obejmujących dane osobowe na dużą skalę skonsultuj się z kwalifikowanym prawnikiem ds. prywatności. Przepisy się zmieniają, a koszt błędu jest realny.
Chcesz samodzielnie wypróbować zgodny z przepisami, ukierunkowany web scraping? pozwala eksperymentować z uporządkowanym wyciąganiem danych na małą skalę — zdefiniuj pola, pobieraj tylko to, czego potrzebujesz, i eksportuj kilkoma kliknięciami. Możesz też odwiedzić nasz , gdzie znajdziesz instrukcje krok po kroku.
FAQ
1. Czy web scraping jest legalny w Europie, jeśli dane są publicznie dostępne?
Publiczna dostępność nie zwalnia danych z RODO, jeśli zawierają informacje osobowe. Jak stwierdził holenderski AP, „publiczne nie oznacza automatycznie zgody na scraping”. Publiczne dane nieosobowe (ceny produktów, SKU) zwykle wiążą się z niższym ryzykiem, ale nadal trzeba sprawdzić dyrektywę o bazach danych i regulamin serwisu.
2. Czy mogę zbierać e-maile i numery telefonów z europejskich stron?
E-maile i numery telefonów to dane osobowe w rozumieniu RODO. Potrzebujesz podstawy prawnej — zazwyczaj uzasadnionego interesu z udokumentowanym testem równowagi — i musisz poinformować osoby zgodnie z art. 14. CNIL ukarał KASPR kwotą 240 000 € w 2024 r. za scraping danych kontaktowych z LinkedIn bez odpowiedniej przejrzystości lub podstawy prawnej, więc to obszar, w którym egzekwowanie prawa jest aktywne.
3. Jaka jest najwyższa kara za nielegalny web scraping w Europie?
Holenderski AP ukarał Clearview AI w 2024 r. za nielegalne zbieranie danych do rozpoznawania twarzy z otwartej sieci. Kilka innych europejskich organów ochrony danych nałożyło na Clearview po 20 mln € każda. Łączne kary w UE/EOG związane ze scrapingiem w latach 2022–2026 przekraczają 95 mln €.
4. Czy respektowanie robots.txt sprawia, że web scraping jest legalny w Europie?
Respektowanie robots.txt to dobra praktyka i jest zgodne z , ale samo w sobie nie gwarantuje legalności. Nadal musisz spełnić wymagania RODO (jeśli w grę wchodzą dane osobowe), dyrektywy o bazach danych i regulaminu strony. Traktuj zgodność z robots.txt jako jedną z warstw wielowarstwowego systemu zgodności.
5. Czym różni się prawo dotyczące web scrapingu w Europie od tego w USA?
UE jest zdecydowanie bardziej rygorystyczna. RODO ma zastosowanie do każdej danych osobowych — nawet publicznie dostępnych — a dyrektywa o bazach danych zapewnia silną ochronę uporządkowanych zbiorów danych. USA nie mają federalnego odpowiednika żadnego z tych przepisów; po sprawie hiQ v. LinkedIn scraping danych publicznych jest tam zasadniczo dopuszczalny. Wielka Brytania po Brexicie znajduje się pośrodku, z UK GDPR i zachowanymi prawami do baz danych, które w dużej mierze odzwierciedlają przepisy UE, ale z egzekwowaniem przez ICO. Dla firm działających transgranicznie to właśnie zasady UE wyznaczają najwyższy próg — a jeśli scrapujesz dane o mieszkańcach UE, te zasady obowiązują niezależnie od tego, gdzie mieści się Twoja firma.
Dowiedz się więcej
