2024년 5월 1일, 네덜란드 개인정보보호청이 유럽의 모든 데이터 팀을 긴장시킨 헤드라인을 내놓았습니다. 영업, 이커머스, 부동산처럼 웹 데이터에 의존하는 일을 한다면, 이 말만 봐도 마음이 철렁했을 거예요.
이해합니다. 에서는 가격 모니터링, 리드 생성, 시장 조사를 위해 웹 데이터가 필요한 비즈니스 팀과 매일 이야기합니다. 답답한 점도 늘 비슷해요. “유럽에서 웹 스크래핑은 합법인가요?”라고 검색하면, 돌아오는 답은 대부분 “경우에 따라 다릅니다”의 변형일 뿐이거든요. 프로젝트 마감이 코앞이고 스크래핑해야 할 URL 목록이 있을 때는 별 도움이 되지 않죠.
그래서 몇 주 동안 실제 규정, 개인정보보호청 가이드, 집행 사례, 판례를 파고들어 더 실용적인 자료를 만들었습니다. 의사결정 체크리스트, 통합 안전장치 표, 실제 과징금 사례, 그리고 규제기관의 표적이 되지 않고 유럽 웹사이트를 스크래핑하는 단계별 가이드까지 담았어요. 아마존 상품 가격을 스크래핑하든 디렉터리에서 B2B 연락처를 가져오든, 이 글이 어디까지 가능한지와 어떻게 안전하게 진행할지 판단하는 데 도움이 될 거예요.
웹 스크래핑이란 무엇이며, 왜 유럽 기업이 신경 써야 할까요?
웹 스크래핑은 웹사이트의 데이터를 스프레드시트, 데이터베이스, CRM처럼 구조화된 형식으로 자동 추출하는 작업입니다. 200개 페이지에서 상품명과 가격을 일일이 복사해 붙여넣는 대신, 스크래퍼가 각 페이지를 방문해 필요한 항목만 깔끔한 열로 가져옵니다.
비기술 팀에게 이게 왜 중요할까요? 웹 데이터가 실제 비즈니스 의사결정을 움직이기 때문입니다. 영업팀은 디렉터리에서 리드를 스크래핑하고, 이커머스 팀은 경쟁사 가격을 매일 모니터링하며, 부동산 분석가는 포털 전반의 매물 추세를 추적합니다. 시장 조사팀은 공개 리뷰와 평점을 대규모로 수집하죠. 은 빠르게 성장 중이고, 기업들은 매일 수백만 개의 데이터 포인트를 스크래핑하고 있습니다.
하지만 유럽의 규제 환경은 미국과 다릅니다. GDPR, 데이터베이스 지침, 그리고 변화하는 개인정보보호청 가이드는 “공개되어 있다”는 사실이 곧 “자유롭게 사용 가능하다”는 뜻이 아님을 의미합니다. 네덜란드 개인정보보호청장 Aleid Wolfsen이 말했듯, “공개”가 자동으로 스크래핑 허가를 뜻하지는 않아요. 시작하기 전에 규칙을 이해하는 건 선택이 아니라 필수입니다. 깨끗한 데이터셋과 6자리 과징금의 차이이니까요.
유럽에서 웹 스크래핑은 합법일까요? 짧은 답
유럽에서 웹 스크래핑이 본질적으로 불법인 것은 아닙니다. 다만 합법성은 세 가지에 달려 있어요. 어떤 데이터를 스크래핑하는지, 어떻게 스크래핑하는지, 그리고 왜 스크래핑하는지입니다.
EU에서 스크래핑을 규율하는 법적 층위는 세 가지가 겹칩니다.
- GDPR — 개인정보(이름, 이메일, 전화번호, IP 주소, 심지어 가명 처리된 식별자까지)를 스크래핑할 때 적용됩니다.
- EU 데이터베이스 지침 — 데이터를 조직하는 데 “상당한 투자”를 한 데이터베이스의 창작자를 보호합니다.
- 계약/이용약관법 — 많은 웹사이트가 이용약관에서 스크래핑을 명시적으로 금지하며, EU 법원은 그런 약관을 집행해 왔습니다.
핵심은 이겁니다. “공개”가 곧 “규제 대상 아님”을 뜻하지는 않아요. 비개인 데이터조차 데이터베이스 권리나 계약법의 보호를 받을 수 있습니다. 모든 스크래핑 프로젝트는 이 세 층위를 함께 살펴봐야 합니다.
웹 스크래핑을 규율하는 핵심 EU 법규
GDPR: 개인정보를 스크래핑할 때
식별 가능한 개인과 연결된 데이터는 모두 GDPR 의무를 발생시킵니다. 여기에는 이름, 이메일 주소, 전화번호, IP 주소, 사진, 그리고 재식별 가능한 가명 데이터도 포함돼요. 개인정보를 스크래핑하는 순간, GDPR상 ‘데이터 컨트롤러’가 되어 다음 의무를 부담합니다.
- 적법한 근거(제6조): 데이터를 처리할 법적 이유가 필요합니다. 대규모 스크래핑에서 동의를 받는 건 거의 현실적이지 않아요. 공개 게시물에 대해 수백만 명에게 일일이 허락을 구할 수는 없으니까요. 가장 흔히 거론되는 근거는 정당한 이익(제6조 1항 f호)인데, 문서화된 3단계 테스트가 필요합니다. (1) 이익이 정당한가, (2) 처리가 그 이익 달성에 필요한가, (3) 정보주체의 합리적 기대를 고려할 때 권리를 과도하게 침해하지 않는가.
- 투명성(제14조): 개인으로부터 직접 수집하지 않았기 때문에, 일반적으로 한 달 이내에 무엇을 수집했고 왜 수집했는지, 그리고 권리를 어떻게 행사할 수 있는지 알려야 합니다. 개별 통지가 과도하게 어렵다면, 제14조 내용을 모두 담은 일반 고지를 게시해야 합니다.
- 데이터 최소화: 실제로 필요한 것만 수집하세요. 상품 가격이 필요하다면 판매자 이메일 주소까지 가져올 필요는 없습니다.
- 보관 제한 및 권리 관리: 보관 기간을 설정하고, 삭제 요청을 존중하며, 출처 정보에 대한 접근을 제공해야 합니다.
(2024년 5월 채택)는 한 단계 더 나아갔습니다. 수집, 전처리, 학습, 프롬프트, 출력처럼 각 처리 단계마다 별도의 적법한 근거 분석이 필요하다고 밝힌 거예요. EDPB는 웹 스크래핑에서 정당한 이익을 배제한 것은 아니지만, 적절한 안전장치를 갖춘 완전한 3단계 평가를 요구했습니다.
EU 데이터베이스 지침: 데이터 구성 방식을 보호하는 법
데이터베이스 지침은 데이터를 획득, 검증, 제시하는 데 “상당한 투자”를 한 데이터베이스 창작자에게 독자적(sui generis) 권리를 부여합니다. 스크래핑이 이런 데이터베이스의 “상당한 부분”을 추출하면, 그 권리를 침해할 수 있어요.
실무에서는 기준이 비교적 높습니다. 대형 리테일러의 상품 가격 몇백 개를 스크래핑하는 정도는 침해로 보기 어렵습니다. 하지만 경쟁사의 전체 카탈로그를 대량 다운로드하는 행위 — 수만 건의 상품 목록 — 는 선을 넘을 수 있어요. 특히 창작자가 투자비를 회수할 능력을 위협한다면 더 그렇습니다. EU 사법재판소는 여러 사건에서 이 기준을 다뤘고, 핵심 질문은 늘 비례성입니다.
대부분의 비즈니스 스크래핑 — 상품 페이지에서 특정 필드를 가져오거나, 카테고리 전반의 목록을 비교하는 작업 — 은 데이터베이스 지침 리스크가 상대적으로 낮습니다. 하지만 위험이 0은 아니므로, 스크래핑 범위를 설계할 때 염두에 두는 것이 좋습니다.
이용약관: 계약법상의 변수
이 부분에서 많은 사람들이 걸려 넘어집니다. 많은 웹사이트가 이용약관에서 스크래핑을 금지하거든요. 유럽에서는 약관 위반이 형사 문제가 아니라 민사 문제이지만, 금지명령, 계약 소송, 그리고 실제 금전적 손실로 이어질 수 있습니다.
알아둘 두 가지 유형이 있어요. 브라우즈랩(browsewrap) 은 페이지 하단에 묻힌 링크처럼 수동적으로 제시되는 약관이라, 사용자가 명시적으로 동의하지 않았기 때문에 집행이 더 어렵습니다. 클릭랩(clickwrap) 은 체크박스를 누르거나 “동의합니다”를 클릭해야 하는 방식으로, 훨씬 집행 가능성이 높습니다.
EU의 대표 사례는 Ryanair v. PR Aviation입니다. 법원은 데이터베이스 권리가 적용되지 않더라도, 스크래퍼가 약관에 동의했기 때문에 Ryanair의 약관을 집행했어요. 따라서 스크래핑 전에 반드시 사이트의 이용약관을 확인하세요. 스크래핑을 명시적으로 금지하는 클릭랩 계약이라면, 주의해서 진행하거나 API 접근을 찾아보는 편이 좋습니다.
DSM 지침과 AI Act: 연구 및 텍스트·데이터 마이닝 예외
모든 스크래핑이 같은 제약을 받는 것은 아닙니다. 디지털 단일시장(DSM) 지침(2019)은 텍스트·데이터 마이닝(TDM) 예외 두 가지를 도입했어요.
- 제3조: 연구기관과 문화유산 기관은 적법하게 접근한 콘텐츠에 대해 TDM을 수행할 수 있습니다.
- 제4조: 권리자가 robots.txt, ai.txt, TDMRep 헤더 등을 통해 명시적으로 거부(opt-out)하지 않았다면, 상업적 주체를 포함한 누구나 TDM을 수행할 수 있습니다.
EU AI Act(제53조) 는 AI 모델 제공자에게 의무를 추가합니다. TDM 옵트아웃 메커니즘을 준수하고, 학습 데이터 출처를 문서화해야 합니다.
주의할 점도 있습니다. 이 예외는 저작권과 데이터베이스 권리에 관한 것이지 GDPR은 아닙니다. TDM에 개인정보가 포함된다면, 별도의 GDPR 적법한 근거가 여전히 필요합니다.

“이걸 스크래핑해도 될까?” 유럽 데이터 의사결정 체크리스트
이 섹션은 제가 이 주제를 처음 조사할 때 있었으면 좋겠다고 생각한 부분입니다. 모든 법률 글이 “경우에 따라 다르다”고 말하지만, 실제 의사결정 흐름은 어떻게 생겼을까요? 여기 명확한 관문이 있는 단계별 준수 체크리스트를 정리했습니다. 각 단계는 ✅ 진행, ⚠️ 안전장치 추가, 🛑 중단으로 이어집니다.
1단계: 데이터가 개인정보인가, 비개인정보인가?
비개인정보(상품 가격, SKU 번호, 개인과 연결되지 않은 사업장 주소): 규제 부담이 더 낮습니다. 데이터베이스 지침과 이용약관은 확인해야 하지만, GDPR은 적용되지 않습니다. ✅ 3단계로 진행하세요.
개인정보(이름, 이메일, 전화번호, 사진, 사람과 연결된 식별자): GDPR이 적용됩니다. ⚠️ 2단계로 계속 진행하세요.
2단계: 어떤 GDPR 적법한 근거가 적용되나요?
- 동의: 대규모 스크래핑에서는 거의 불가능합니다. 🛑 아주 좁고 구체적인 경우가 아니라면요.
- 정당한 이익(제6조 1항 f호): 가장 흔한 근거입니다. 다만 문서화된 3단계 테스트가 필요해요.
- 이익이 정당해야 합니다. (상업적 이익도 에 따르면 해당될 수 있습니다.)
- 그 이익을 위해 처리가 필요해야 합니다.
- 정보주체의 합리적 기대를 고려할 때, 귀하의 이익이 그들의 권리를 압도하지 않아야 합니다.
- 스크래핑 전에 균형 테스트를 문서화하세요. 스크래핑 대상인 사람이라면 이런 사용을 합리적으로 예상할 수 있는지 설명할 수 없다면, 그건 위험 신호입니다. ⚠️ 문서화된 정당한 이익으로 진행하세요.
3단계: 사이트의 이용약관이 스크래핑을 제한하나요?
- 스크래핑을 금지하는 클릭랩 계약: 🛑 위험도가 높습니다. 대체 데이터 소스나 공식 API 접근을 고려하세요.
- 브라우즈랩이거나 이용약관 제한이 없음: ⚠️ 위험은 낮지만, robots.txt와 기술적 차단 신호는 여전히 존중하세요.
4단계: 데이터베이스 지침이 적용되나요?
- 대상이 데이터 구성에 상당한 투자가 들어간 데이터베이스인가요?
- 스크래핑이 그 데이터베이스의 “상당한 부분”을 추출하게 되나요?
- 둘 다 그렇다면: ⚠️ 독자적 권리 침해 위험이 있습니다. 추출 범위를 제한하세요.
5단계: 연구 또는 TDM 예외에 해당하나요?
- 등록된 연구기관이나 문화유산 기관인가요? DSM 지침 제3조가 적용될 수 있습니다. ✅
- 상업적 TDM인가요? 제4조 옵트아웃 신호(robots.txt, ai.txt, TDMRep)를 확인하세요. 사이트가 거부했다면, 🛑 그 출처는 중단하세요.
6단계: 개인정보보호청이 권고한 안전장치를 적용했나요?
위 관문을 통과했다면, 마지막 단계는 CNIL, 네덜란드 개인정보보호청, EDPB가 권고하는 안전장치를 구현하는 것입니다. 자세한 내용은 다음 섹션에서 다룹니다. ✅ 안전장치를 갖추고 진행하세요.

개인정보보호청 준수 안전장치: CNIL, 네덜란드 개인정보보호청, EDPB의 권고
제가 찾은 어떤 경쟁 기사도 유럽의 가장 활발한 세 규제기관이 웹 스크래핑에 대해 권고하는 안전장치를 한데 모아 정리하지는 않았습니다. 그래서 , , 를 교차 검토해 아래 표를 만들었습니다.
| 안전장치 | CNIL | 네덜란드 개인정보보호청(AP) | EDPB 태스크포스 | 구현 팁 |
|---|---|---|---|---|
| 제14조 투명성 고지 | ✅ 필수 | ✅ 필수 | ✅ 필수 | 출처 범주, 목적, 적법한 근거, 보관 기간, 권리 행사 채널, DPO 연락처를 담은 공개 고지를 게시하세요 |
| 스크래핑 전 DPIA | ✅ 권장(고위험이면 의무) | ✅ 필수 | ✅ 필수 | 출시 전에 균형 테스트, 데이터 범주, 위험, 완화 조치를 문서화하세요 |
| 데이터 최소화 | ✅ 필수(정확한 수집 기준 정의) | ✅ 필수 | ✅ 필수 | 필요한 필드만 추출하도록 스크래퍼를 설정하고, 불필요한 데이터는 즉시 삭제하세요 |
| 속도 제한 / robots.txt 준수 | ✅ 필수(robots.txt/CAPTCHA로 거부하는 사이트 제외) | — | — | robots.txt를 파싱하고, 요청 간 지연을 넣고, 사용자 에이전트를 식별하세요 |
| 가명화 / 익명화 | ⚠️ 권장(수집 직후) | ✅ 강력 권고 | ✅ 권장 | ID를 해시 처리하거나 무작위화하고, 프로필 URL을 제거하며, 신원 식별이 불필요하면 얼굴을 흐리세요 |
| 보관 기간 | ✅ 명확한 제한 | ✅ 가능한 한 짧게 | ✅ 명확한 제한 | 삭제 일정을 자동화하고, 원본 캐시와 추출된 사실을 분리하세요 |
| 옵트아웃 / 블랙리스트 메커니즘 | ✅ 권장(사전 이의 제기 가능) | ✅ 필수(제21조 이의 제기) | ✅ 필수 | 옵트아웃 양식, 도메인 블랙리스트, 개인 단위 차단 기능을 제공하세요 |
| 민감한 출처 제외 | ✅ 필수(건강 포럼, 미성년자 사이트, 음란 사이트, 족보 사이트) | ✅ 필수 | ✅ 필수 | 건강, 종교, 정치, 생체정보, 미성년자 관련 기본 차단 목록을 유지하세요 |
실무적으로 참고할 만한 점도 있습니다. Thunderbit의 기능은 사용자가 가격, SKU, 상품명처럼 정확히 어떤 열을 추출할지 정의할 수 있게 해줍니다. 즉, 스크래퍼가 전체 페이지를 무작정 대량 다운로드하는 게 아니라, 목적 제한과 데이터 최소화 원칙에 맞는 구조화된 필드만 수집하는 거예요. 다만 어떤 도구도 규정을 어긴 스크래핑을 합법으로 바꿔주지는 않습니다. 법적 검토가 항상 먼저입니다.

내 사용 사례에서 유럽 웹 스크래핑은 합법일까? 업종별 가이드
포럼에서 가장 자주 보는 질문은 “스크래핑이 합법인가요?”가 아니라 “내 스크래핑이 합법인가요?”입니다. 추상적인 GDPR 이론만으로는 답이 안 나오죠. 그래서 일반적인 비즈니스 사용 사례별로 나눠봤습니다.
| 사용 사례 | 데이터 유형 | 핵심 법적 리스크 | 예상 결과 |
|---|---|---|---|
| 이커머스 가격 모니터링(공개 상품 목록) | 비개인정보(가격, SKU, 상품명) | 데이터베이스 지침의 독자적 권리; 이용약관 위반 | 개인정보가 없고 데이터베이스의 “상당한 부분”을 체계적으로 추출하지 않는다면 일반적으로 낮은 리스크 |
| B2B 리드 생성(디렉터리의 연락처 정보) | 개인정보(이름, 이메일, 전화번호) | GDPR 제6조 적법한 근거; 제14조 통지; 전자적 연락에 대한 ePrivacy | 리스크가 더 높음 — 문서화된 정당한 이익 균형 테스트와 통지 의무가 필요 |
| 부동산 매물 정보(포털의 부동산 데이터) | 혼합형(주소는 비개인정보일 수 있고, 소유자 이름은 개인정보) | 데이터베이스 지침; 이용약관; 소유자와 연결되면 GDPR | 중간 리스크 — 소유자 데이터를 익명화하고, 이용약관을 확인하고, robots.txt를 존중하세요 |
| AI 학습 데이터(대규모 웹 콘텐츠 스크래핑) | 필터링하지 않으면 개인정보일 수 있음 | GDPR + EU AI Act 제53조 TDM 의무 | 높은 리스크 — GDPR과 AI Act를 모두 준수해야 하며, 옵트아웃 메커니즘과 강력한 필터링이 필요 |
공개 이커머스 데이터처럼 상대적으로 낮은 리스크의 경우, Thunderbit의 같은 구조화된 템플릿 도구가 도움이 됩니다. 불필요한 콘텐츠를 수집하지 않고 구체적이고 비개인적인 데이터 필드만 추출하므로 노출을 줄일 수 있죠. 반면 개인정보가 포함되는 리드 생성 같은 고위험 시나리오에서는 법적 검토가 먼저입니다. 아무리 똑똑한 스크래퍼라도 규정을 준수하지 않은 수집을 준수한 수집으로 바꿔주지는 못합니다.

EU vs 미국 vs 영국: 웹 스크래핑 법은 어떻게 다를까?
사업이 국경을 넘나든다면, 각 규칙의 차이를 이해해야 합니다. 스캔하기 좋은 나란한 표로 정리한 경쟁 기사는 찾기 어려웠는데, 여기 있습니다.
| 구분 | EU | 미국 | 영국(브렉시트 이후) |
|---|---|---|---|
| 주요 법률 | GDPR + 데이터베이스 지침 + ePrivacy | CFAA + 주법(제한적 연방 개인정보법) | UK GDPR + 2018년 데이터보호법 |
| 공개 데이터 스크래핑 | 개인정보가 있으면 여전히 GDPR 적법한 근거 필요 | hiQ v. LinkedIn 이후 일반적으로 합법(공개 데이터) | EU와 유사; ICO 가이드 적용 |
| 이용약관 집행 | 민사 문제; Ryanair v. PR Aviation에서 독자적 권리 집행 | Van Buren이 CFAA 범위를 축소; ToS 위반 ≠ 형사 범죄 | 민사 문제, EU와 유사 |
| 데이터베이스 보호 | 독자적 권리(강함) | 대응되는 연방법 없음 | 유지된 독자적 권리 |
| AI/TDM 예외 | DSM 지침 제3~4조; AI Act 제53조 | 연방 TDM 예외 없음(공정 이용 원칙) | 영국은 TDM 예외 검토 중(2026년 기준 정체) |
| 주요 집행기관 | 국가별 DPA(CNIL, 네덜란드 AP 등) | FTC + 주 법무장관 | ICO |
| 최근 경향 | 더 엄격해짐(네덜란드 AP: 개인정보는 “거의 항상 불법”) | hiQ 이후 더 관대 | 중간 수준; 대체로 EU 방향을 따름 |
유럽 웹사이트나 유럽 거주자 관련 데이터를 스크래핑한다면, 회사가 미국이나 영국에 있더라도 EU 규칙이 적용됩니다.
실제 과징금과 사례: 2022–2026년에 적발되면 실제로 무슨 일이 벌어질까?
이건 질문 뒤에 숨은 진짜 질문에 답하는 섹션입니다. “실제 위험은 어느 정도인가?” 2022년부터 2026년 4월까지 웹 스크래핑 또는 스크래핑된 개인정보와 관련된 모든 공개 DPA 집행 조치를 모았습니다.
| 연도 | 집행기관 | 대상 | 위반 내용 | 과징금/결과 |
|---|---|---|---|---|
| 2022 | 이탈리아 Garante | Clearview AI | 법적 근거 없이 얼굴 이미지를 스크래핑 | 2,000만 유로 과징금 + 금지 + 삭제 명령 |
| 2022 | 그리스 Hellenic DPA | Clearview AI | 동일 — 얼굴 인식 스크래핑 | 2,000만 유로 과징금 + 금지 + 삭제 |
| 2022 | CNIL(프랑스) | Clearview AI | 얼굴 인식 데이터베이스 | 2,000만 유로 과징금 + 하루 10만 유로 추가 과징금 가능 |
| 2023 | CNIL(프랑스) | Clearview AI | 2022년 명령 미이행 | 520만 유로 벌금 지급 명령 |
| 2023 | 오스트리아 DSB | Clearview AI | 공개 웹의 300억 건 이상 얼굴 이미지 | 삭제 + EU 대리인 지정 명령(공개된 벌금 없음) |
| 2024 | 네덜란드 AP | Clearview AI | 불법 얼굴 인식 데이터 수집 | 3,050만 유로 과징금 + 준수 명령 |
| 2024 | CNIL(프랑스) | KASPR | 리드 생성용 LinkedIn 연락처 데이터 스크래핑 | 24만 유로 과징금 — 1억 6천만 건 연락처, 제한 공개 데이터, 5년 보관 |
| 2024 | 아일랜드 DPC | X / Grok | AI 학습에 사용된 공개 게시물 | 중단 합의; 2025년에 법정 조사 개시 |
| 2024 | 아일랜드 DPC | Meta | 공개 Facebook/Instagram 콘텐츠로 LLM 학습 예정 | Meta가 EU AI 학습 계획을 중단 |
| 2024 | 이탈리아 Garante | OpenAI | ChatGPT 학습 데이터 + 투명성 | 1,500만 유로 과징금 부과, 2026년 3월 로마 법원에서 취소 |
스크래핑/오픈웹 범주에서 EU/EEA의 총 금전 제재액은 9,500만 유로 이상입니다(취소된 OpenAI 과징금 제외).
이 대형 과징금들은 모두 법적 근거 없이 생체정보나 개인정보를 대량 스크래핑한 사례를 겨냥했습니다. Clearview는 수십억 장의 얼굴 이미지를 스크래핑했고, KASPR는 제한 공개 LinkedIn 프로필의 데이터를 포함한 1억 6천만 건의 연락처를 스크래핑해 5년간 보관했습니다.
반면 상품 가격이나 SKU 번호처럼 공공의 비개인 데이터를 비례적으로, 목적에 맞게 스크래핑한 행위는 집행 대상이 된 적이 없습니다. 그렇다고 안전하다는 뜻은 아니지만, 위험 수준을 이해하는 데 도움이 되죠.
유럽 웹사이트를 안전하게 스크래핑하는 방법: 단계별 가이드
- 난이도: 초급
- 소요 시간: 약 15분(준수 검토 포함)
- 준비물: Chrome 브라우저, (무료 플랜 가능), 대상 URL, 그리고 위 체크리스트의 간단한 검토
1단계: 목적과 필요한 데이터를 정의하세요
도구를 열기 전에, 왜 그 데이터가 필요한지와 정확히 어떤 필드가 필요한지 적어두세요. 이건 좋은 습관일 뿐만 아니라 GDPR의 목적 제한과 데이터 최소화 원칙의 기반입니다.
예를 들어: “경쟁 가격표를 업데이트하기 위해 아마존 상품 페이지 50개에서 상품명, 가격, 재고 상태가 필요하다.” 이것은 구체적입니다. 반면 “아마존의 모든 것을 스크래핑하고 싶다”와 비교해 보세요. 첫 번째는 최소화 테스트를 통과하지만, 두 번째는 통과하지 못합니다.
2단계: 준수 체크리스트를 실행하세요
위의 6단계 “이걸 스크래핑해도 될까?” 체크리스트를 따라가세요. 어느 관문에서든 🛑가 나오면, 진행하기 전에 법률 자문을 받으세요.
아마존 가격 예시를 관문에 넣어보면 이렇습니다. 데이터는 비개인정보입니다(가격, SKU, 상품명) ✅, GDPR 개인정보 이슈가 없습니다 ✅, 아마존 이용약관은 검토해야 합니다(스크래핑을 제한하므로, 가능하면 공식 상품 데이터 API를 고려하세요) ⚠️, 50개 상품 기준 데이터베이스 지침 리스크는 낮습니다 ✅.
3단계: 적절한 스크래핑 방식을 선택하세요
| 방법 | 사용 편의성 | 준수 지원 | 유지보수 | 정확도 |
|---|---|---|---|---|
| 수동 복사-붙여넣기 | 낮음 | 해당 없음(무엇을 복사할지 직접 통제) | 높음(시간 많이 소요) | 오류 발생 가능 |
| 코드 기반 스크래퍼(Python, Scrapy) | 낮음(코딩 필요) | 내장 기능 없음 | 높음(사이트 변경 시 깨짐) | 유지하면 높음 |
| Thunderbit(AI 기반) | 매우 높음 | 필드 수준 최소화 내장 | 낮음(AI가 페이지 변경에 적응) | 높음 |
| 공식 API | 중간 | 가장 높음(구조화되고 승인된 접근) | 낮음 | 가장 높음 |
개발팀이 없는 비즈니스 사용자라면 이 가장 빠른 경로입니다. 공식 API가 있는 사이트(예: Amazon Product Advertising API)는 API가 항상 가장 안전한 선택이지만, 데이터 양과 필드에 제한이 있는 경우가 많습니다.
4단계: 준수를 고려해 스크래퍼를 설정하세요
Thunderbit에서:
- 대상 페이지로 이동하세요(예: 아마존 상품 목록 페이지).
- Chrome 도구 모음에서 Thunderbit 아이콘을 클릭하고 “AI Suggest Fields”를 선택하세요. AI가 페이지를 스캔해 “상품명”, “가격”, “평점”, “재고 상태” 같은 열을 제안합니다.
- 필요 없는 필드는 제거하세요. AI가 “판매자 이름”이나 “판매자 이메일”을 제안했는데 가격 데이터만 필요하다면 그 열은 삭제하세요. 이것이 실무에서의 데이터 최소화입니다.
- Field AI Prompt를 사용해 “개인 식별자 제외” 또는 “공개 가격 데이터만 추출” 같은 지시를 추가하세요.
- 공개 이커머스 사이트에는 Cloud Scraping을 선택하고(더 빠르고 로그인 불필요), 인증이 필요한 사이트에는 Browser Scraping을 선택하세요.
- “Scrape”를 클릭하기 전에 robots.txt가 해당 사용 사례의 스크래핑을 금지하지 않는지 확인하세요. 브라우저에서
[도메인]/robots.txt를 방문하면 됩니다.
이제 구성한 필드만 포함된 테이블 미리보기가 보여야 합니다. 불필요한 개인정보도, 쓸데없는 메타데이터도 없어야 해요.
5단계: 데이터를 책임감 있게 내보내고, 저장하고, 관리하세요
스크래핑 후에는 데이터를 으로 내보내세요. Thunderbit는 이들 모두에 무료 내보내기를 지원합니다.
그다음에는:
- 보관 기간을 설정하세요. 스크래핑 데이터를 무기한 저장하지 마세요. 주간 가격 모니터링이라면 지난달 원본 데이터는 필요 없을 가능성이 큽니다.
- 개인정보가 수집되었다면(예: 리드 생성), 법적 근거를 문서화하고, 제14조 투명성 고지를 게시하며, 옵트아웃 및 삭제 요청을 처리할 절차를 마련하세요.
- 가능하면 삭제 일정을 자동화하세요. Thunderbit의 는 동일한 필드 설정을 유지한 채 정해진 간격으로 반복 스크래핑을 자동화할 수 있어, 매 실행이 준수 범위 안에 머물도록 돕습니다.
유럽에서 스크래핑하면서 준수 상태를 유지하는 팁
이 주제를 조사하고 준수에 민감한 팀들과 이야기하면서 배운 것들입니다.
- 새 사이트를 스크래핑하기 전에 항상 이용약관을 확인하세요. 2분이면 되고, 수개월의 법적 골칫거리를 막을 수 있습니다.
- 가능하면 API를 사용하세요. 구조화되어 있고, 승인된 접근이며, 가장 안전한 경로입니다. 스크래핑은 기본값이 아니라 대안이어야 해요.
- 대규모 개인정보 프로젝트에는 DPIA를 수행하세요. CNIL은 AI 학습 데이터셋이 고위험을 만들 수 있다고 봅니다. DPIA는 책임성을 입증하는 증거가 됩니다. 규모가 작더라도 분석을 문서화하는 것은 현명합니다.
- 스크래핑 로그를 남기세요. 무엇을, 언제, 어디서, 어떤 법적 근거로, 얼마나 보관할지 기록하세요. DPA가 나중에 물어보면 그 기록이 큰 도움이 됩니다.
- 규제 업데이트를 주시하세요. DPA 가이드는 빠르게 변합니다. CNIL은 2026년 1월에 새로운 AI 스크래핑 가이드를 발표했고, EDPB도 추가 의견을 낼 것으로 예상됩니다. 오늘의 규칙이 내일 더 엄격해질 수 있어요.
- 제한되거나 민감한 출처는 스크래핑하지 마세요. CNIL의 에는 건강 포럼, 주로 미성년자가 사용하는 사이트, 음란 사이트, 족보 사이트, 그리고 고도로 구조화된 개인정보 사이트가 포함됩니다. 스크래핑 프로젝트를 만든다면 기본 차단 목록을 유지하세요.
- 자동화 트래픽은 운영상 매우 중요합니다. 2024년 봇이 전체 웹 트래픽의 42%를 차지했다고 보고했고, 자동화 봇 트래픽이 처음으로 인간 트래픽을 넘어 2024년에 51%에 달했다고 밝혔습니다. 규제기관은 봇의 행동, 속도, 우회 시도를 점점 더 위험성과 불공정성의 증거로 봅니다. 책임감 있는 스크래퍼처럼 행동하세요 — 사용자 에이전트를 식별하고, 속도 제한을 적용하고, 차단 신호를 존중하는 것. 이것은 단순한 예의가 아니라 법적으로도 중요합니다.
결론
웹 스크래핑은 유럽에서 불법이 아닙니다. 하지만 규제 대상입니다. 특히 개인정보가 관련될 때는 더 그렇습니다.
법적 결과는 무엇을 스크래핑하는지(개인정보 vs 비개인정보), 어떻게 스크래핑하는지(이용약관, robots.txt, 속도 제한, 필드 수준 최소화), 왜 스크래핑하는지(문서화된 목적과 적법한 근거)에 달려 있습니다. 집행 사례는 분명합니다. 법적 근거 없이 개인정보를 대량·무차별적으로 스크래핑하는 경우가 7자리, 8자리 과징금으로 이어지고 있어요. 반대로, 안전장치를 갖춘 상태에서 공공 비개인 데이터를 비례적으로 표적 스크래핑하는 경우는 완전히 다른 위험 범주에 있습니다.
실무 프레임워크는 이렇습니다.
- 모든 스크래핑 프로젝트 전에 의사결정 체크리스트를 사용하세요.
- 개인정보보호청이 권고한 안전장치(투명성, 최소화, 보관 제한, 옵트아웃 메커니즘)를 적용하세요.
- 설계 단계부터 준수를 지원하는 도구를 선택하세요. Thunderbit의 AI 기반 필드 선택, 구조화된 추출, 그리고 는 필요한 데이터만 — 더도 말고 덜도 말고 — 스크래핑하기 쉽게 해줍니다.
- 모든 것을 문서화하세요. 균형 테스트, 출처 목록, 보관 일정, DPIA. 규제기관이 물으면, 그 파일이 방어선이 됩니다.
의무적 면책 조항: 이 글은 법률 자문이 아니라 정보 제공용입니다. 개인정보를 대규모로 다루는 고위험 시나리오라면, 자격을 갖춘 개인정보 변호사와 상담하세요. 규정은 계속 바뀌고 있고, 잘못 판단했을 때의 비용은 실제로 큽니다.
직접 규정을 고려한 표적 웹 스크래핑을 시도해 보고 싶으신가요? 은 소규모 구조화 추출을 시험해 볼 수 있게 해줍니다. 필드를 정의하고, 필요한 것만 스크래핑하고, 클릭 몇 번으로 내보내세요. 단계별 안내가 담긴 도 확인하실 수 있습니다.
자주 묻는 질문
1. 데이터가 공개되어 있으면 유럽에서 웹 스크래핑은 합법인가요?
공개되어 있다고 해서 개인정보가 포함된 경우 GDPR 적용이 면제되는 것은 아닙니다. 네덜란드 개인정보보호청이 말했듯, “공개”가 자동으로 스크래핑 허가를 뜻하지는 않습니다. 비개인 공개 데이터(상품 가격, SKU)는 일반적으로 리스크가 낮지만, 데이터베이스 지침과 사이트 이용약관은 여전히 확인해야 합니다.
2. 유럽 웹사이트에서 이메일과 전화번호를 스크래핑해도 되나요?
이메일과 전화번호는 GDPR상 개인정보입니다. 적법한 근거가 필요하고 — 보통은 문서화된 균형 테스트를 포함한 정당한 이익이 해당됩니다 — 제14조에 따라 개인에게 통지해야 합니다. CNIL은 2024년에 적절한 투명성이나 법적 근거 없이 LinkedIn 연락처 데이터를 스크래핑한 KASPR에 24만 유로를 부과했습니다. 즉, 집행이 활발한 영역입니다.
3. 유럽에서 불법 웹 스크래핑으로 가장 큰 과징금은 얼마인가요?
네덜란드 개인정보보호청은 2024년에 공개 웹에서 불법으로 얼굴 인식 데이터를 수집한 Clearview AI에 를 부과했습니다. 다른 여러 EU DPA도 Clearview에 각각 2,000만 유로를 부과했어요. 2022~2026년 EU/EEA의 스크래핑 관련 총 과징금은 9,500만 유로를 넘습니다.
4. robots.txt를 지키면 유럽에서 웹 스크래핑이 합법이 되나요?
robots.txt 준수는 모범 사례이고 와도 맞지만, 그 자체만으로 합법성이 보장되지는 않습니다. 개인정보가 포함되면 GDPR, 데이터베이스 지침, 사이트 이용약관도 함께 준수해야 합니다. robots.txt 준수는 다층 준수 체계의 한 층으로 생각하세요.
5. 유럽과 미국의 웹 스크래핑 법은 어떻게 다른가요?
EU가 훨씬 더 엄격합니다. GDPR은 공개 데이터라도 개인정보에 적용되고, 데이터베이스 지침은 정리된 데이터셋에 강한 보호를 제공합니다. 미국에는 이 두 법에 상응하는 연방 법이 없고, hiQ v. LinkedIn 이후 공개 데이터 스크래핑은 일반적으로 허용됩니다. 브렉시트 이후 영국은 UK GDPR과 유지된 데이터베이스 권리로 EU와 대체로 비슷하지만, ICO 집행이 적용됩니다. 국경 간 비즈니스라면 EU 규칙이 가장 높은 기준이며, EU 거주자 데이터를 스크래핑한다면 회사 소재지와 무관하게 그 규칙이 적용됩니다.
더 알아보기
