몇 달 전, 영업팀 동료 한 명이 제가 수십 번쯤 들었던 질문을 했어요. “공개 웹사이트에서 경쟁사 가격을 스크래핑하면, 실제로 문제가 될 수 있나요?” 그는 공급업체 연락처 디렉터리를 발견했고, 가격도 보기 좋게 정리돼 있었고, 원한 건 그저 스프레드시트 하나였어요. 망설임은 분명했고, 솔직히 그럴 만도 했어요.
영국에는 별도의 “웹 스크래핑 법”이 따로 있는 게 아니에요. 대신 네 개의 서로 겹치는 법적 체계가 특정 스크래핑 행위가 합법인지 아닌지를 가려줘요. 그래서 답은 늘 “상황에 따라 다르다”가 되지만, 그렇다고 마냥 겁먹을 필요는 없어요. 이 가이드에서는 법이 실제로 무엇을 말하는지, 현실 사례에 어떻게 적용되는지, 어떤 처벌이 가능한지, 그리고 어떻게 준수 상태를 유지할 수 있는지를 차근차근 살펴볼게요.
저는 Thunderbit에서 우리 팀을 위해 이 주제를 많이 조사해 왔고, 여러분이 법무법인 블로그 다섯 개와 Reddit 스레드를 뒤적이지 않아도 되도록 제가 찾은 내용을 공유하고 싶어요.
웹 스크래핑이란 무엇인가요? 그리고 영국 기업들은 왜 사용할까요?
웹 스크래핑은 소프트웨어를 사용해 웹사이트에서 데이터를 자동으로 수집하는 방식이에요. 웹페이지의 내용을 스프레드시트에 복사하고 붙여 넣는 지루한 과정을 대신하죠.
이 기술 자체는 중립적이에요. 본질적으로 합법도, 본질적으로 불법도 아니에요. 중요한 건 무엇을 스크래핑하는지, 어떻게 스크래핑하는지, 그리고 그 데이터를 나중에 어떻게 쓰는지예요.
영국 기업들은 다양한 합법적인 목적에서 스크래핑을 사용해요:
- 가격 비교: 예를 들어 PriceSpy UK는 해요.
- 리드 생성: 영업팀이 공개 디렉터리에서 회사명, 이메일, 전화번호를 수집해요.
- 시장 조사: 분석가가 부동산 매물, 구인 게시판, 경쟁사 제품군을 모니터링해요.
- 학술 연구: 영국 통계청은 2014년과 2015년 사이에 슈퍼마켓 웹사이트에서 을 수집했어요.
- AI 모델 학습: 빠르게 성장하고 있지만 법적으로는 아직 불확실한 사용 사례예요.
추세는 분명해요. 500명의 의사결정자(그중 200명은 영국 소재)를 대상으로 한 에 따르면, 가 공개 웹 데이터를 글로벌 경제에 핵심적이거나 매우 중요하다고 봤고, 는 적어도 매일 이를 활용한다고 답했어요.
그런데도 는 명확한 규제가 부족한 점을 조직의 우려로 꼽았어요. 바로 그 불안 때문에 이 글이 필요해요.
영국에서 웹 스크래핑은 합법인가요? 직접적인 답변
영국 법에는 웹 스크래핑을 전면적으로 금지하는 조항이 없어요. 다만 여러 법이 어떻게 수집해야 하는지를 규율하고 있고, 특정 프로젝트의 합법성은 네 가지 요소에 달려 있어요:

- 어떤 데이터를 스크래핑하는지(개인정보 vs. 사실 기반/비개인정보)
- 어떻게 접근하는지(공개 페이지 vs. 로그인 장벽이나 CAPTCHA 우회)
- 웹사이트 약관에 무엇이라고 적혀 있는지(자동 접근을 금지하는지)
- 이후 데이터를 어떻게 사용하는지(내부 분석 vs. 상업적 재판매)
제가 찾은 가장 좋은 비유는 이거예요. 웹 스크래핑은 공공장소에서 사진을 찍는 것과 비슷해요. 공공장소에서 사진을 찍는 행위가 곧바로 불법은 아니지만, 어떤 대상, 어떤 장소, 어떤 방법, 어떤 용도냐에 따라 법적 위험이 생겨요. 스크래핑도 마찬가지예요. 공개되어 있다는 사실은 중요하지만, 그게 전부는 아니에요.
ICO의 최근 GenAI 협의는 스크래핑한 개인정보와 관련한 영국의 가장 명확한 공식 입장 중 하나예요. 그 내용에 따르면, 웹 스크래핑한 개인정보를 사용해 생성형 AI 모델을 학습시킬 때 합법적 이익은 이지만, 개발자가 엄격한 3단계 테스트를 통과해야 해요. 기준이 높고, 영국 규제당국이 스크래핑 데이터를 얼마나 심각하게 보는지 보여줘요.
웹 스크래핑에 적용되는 영국의 네 가지 법
서로 겹치는 네 개의 관점이 있어요. 어떤 스크래핑 프로젝트든 하나, 둘, 또는 네 가지 모두에 걸칠 수 있어요.
UK GDPR과 2018년 데이터 보호법
이름, 이메일, 전화번호, IP 주소, 소셜 미디어 프로필 같은 개인정보를 스크래핑하면 UK GDPR이 적용돼요. “공개적으로 볼 수 있다”는 말이 “자유롭게 써도 된다”는 뜻은 아니에요.
공개된 개인정보도 여전히 개인정보예요.
상업적 스크래핑에서 가장 관련성이 높은 적법 근거는 합법적 이익(제6조)이지만, 그 문구를 그냥 내세우기만 하면 안 돼요. 다음을 충족해야 해요:
- 구체적이고 정당한 목적을 식별할 것
- 그 처리가 그 목적에 필요하다는 점을 입증할 것
- 수집 대상자의 권리와 자신의 이익을 비교형량할 것
ICO의 GenAI 협의 응답은 특히 분명해요. 개발자는 광범위한 사회적 이익만으로 충분하다고 가정해서는 안 되고, 스크래핑 대안이 왜 적절하지 않은지 근거를 제시해야 하며, 개인이 자신의 권리를 이해하고 행사할 수 있게 하는 투명성 장치를 사용해야 해요. 출처: .
B2B 리드 생성에도 같은 논리가 적용돼요. 영업팀은 공개된 비즈니스 연락처 정보를 수집할 때 합법적 이익에 의존할 수 있지만, 그 합법적 이익을 문서화하고, 수집 필드를 최소화하고, 민감 범주 데이터를 피하고, 가능한 경우 개인정보 고지를 제공하며, 옵트아웃을 존중해야 해요.
저작권, 데이터베이스 권리, 그리고 TDM 예외
저작권은 웹사이트의 원저작물을 보호해요. 텍스트, 이미지, 제품 설명, 기사 등이 여기에 해당해요. 가격 같은 사실 정보는 일반적으로 그 자체만으로는 저작권의 영향이 적어요. 하지만 보호받는 표현을 복사해 재게시하면 침해 영역으로 들어가게 돼요.
데이터베이스 권리는 스크래핑에서 많은 분들이 생각하는 것보다 더 중요해요. 브렉시트 이후에도 영국은 EU식 고유 데이터베이스 권리를 유지했어요. 보호받는 데이터베이스의 “실질적 부분”을 추출하면, 개별 데이터 포인트가 사실 기반이더라도 침해가 될 수 있어요. 선별된 디렉터리, 제품 카탈로그, 마켓플레이스 목록이 여기에 해당할 수 있어요.
에 따른 텍스트 및 데이터 마이닝(TDM) 예외는 사용자가 합법적으로 접근할 수 있고 목적이 비상업적 연구인 경우에만 텍스트 및 데이터 분석을 위한 복사를 허용해요. 범위가 좁아요. 상업적 스크래핑, 상업적 AI 학습, 상업적 데이터셋 재판매는 포함되지 않아요.
영국 정부는 AI 학습을 위해 이 예외를 확대하는 방안을 검토했지만, 기준으로는 창작자, AI 개발자, 영국 경제의 목표를 충족한다고 확신하기 전까지 개혁을 도입하지 않기로 했어요. 현 상태에서는 기존 예외가 적용되지 않는 한, AI 학습을 위해 보호받는 저작물을 복사하려면 보통 허가가 필요해요.
웹사이트 이용약관과 계약법
대부분의 웹사이트는 자동 스크래핑을 금지하거나 제한하는 이용약관(ToS)을 두고 있어요. 사이트에 접속하는 순간, 특히 수락 화면(clickwrap)을 클릭하면 해당 약관에 동의한 것으로 간주될 수 있어요. 바닥글 링크 뒤에 숨겨진 browsewrap 약관은 더 사실관계에 따라 달라지지만, 영국 법원은 스크래핑에 대한 ToS 제한을 집행하려는 경향을 보여왔어요. 분쟁에서 법원은 화면 스크래핑 맥락에서 보이는 웹사이트 약관을 구속력 있는 것으로 봤어요.
robots.txt는 법률이 아니에요. 사이트 소유자가 기계가 읽을 수 있게 보내는 신호일 뿐이에요. 일반적인 파일은 이렇게 생겼어요:
1User-agent: *
2Disallow: /account/
3Disallow: /checkout/
4Disallow: /private/
5Crawl-delay: 10
robots.txt를 무시한다고 해서 스크래핑이 자동으로 불법이 되지는 않아요. 하지만 법원과 ICO는 이를 웹사이트 소유자의 의도를 보여주는 증거로 봐요. 특히 ToS 위반이나 과도한 요청량과 결합되면 법적 노출이 커져요.
컴퓨터 오남용법 1990
이 부분은 많은 사람을 불안하게 만들고, 그럴 만한 이유가 있어요. 형사 범죄를 규정하기 때문이에요. 제1조는 무단 컴퓨터 자료 접근을 다루고(), 제3조는 컴퓨터 작동을 저해하는 무단 행위를 다뤄요().
데이터가 정말 공개돼 있고 스크래퍼가 기술적 장벽을 우회하지 않는 경우에는 CMA 위험이 가장 낮아요. 다음과 같은 경우 위험이 커져요:
- 로그인 장벽, CAPTCHA, IP 차단을 우회할 때
- 도난 자격 증명을 사용하거나 가짜 계정을 만들 때
- 대상 서비스의 작동을 저해할 정도의 트래픽을 보낼 때
영국에는 미국식 “공개 데이터면 마음껏 써도 된다”는 깔끔한 규칙이 없어요. 그래서 영국의 조언은 더 보수적이에요. 공개 접근은 CMA 위험을 크게 낮추지만, 웹사이트 약관, 기술적 제어, 그리고 제한 사항에 대한 스크래퍼의 인식도 여전히 중요할 수 있어요.
“이걸 합법적으로 스크래핑해도 될까?” — 빠른 판단 흐름도
아무것도 스크래핑하기 전에 아래 다섯 가지 판단 기준을 따라가 보세요. 법률 자문은 아니고, 60초짜리 위험 점검이에요.
| 판단 기준 | 예라면 | 아니라면 |
|---|---|---|
| 데이터가 개인정보인가요? (이름, 이메일 등) | UK GDPR이 적용돼요. 적법 근거를 정하고, LIA를 수행하고, 필드를 최소화하고, 투명성 계획을 세우세요. | GDPR 층은 적용되지 않을 수 있지만, 다른 검토는 계속하세요. |
| 사이트 ToS가 스크래핑을 명시적으로 금지하나요? | 계약 위반 위험이 있어요. API, 라이선스, 법률 검토를 고려하세요. | 계약 위험은 낮지만 robots.txt를 확인하세요. |
| 데이터베이스의 실질적 부분을 추출하나요? | 고유 데이터베이스 권리 침해 가능성이 높아요. 라이선스나 더 좁은 추출을 고려하세요. | 개별 복제 콘텐츠에는 여전히 저작권이 적용될 수 있어요. |
| 로그인, CAPTCHA, 접근 제어를 우회하나요? | CMA 1990상 형사 범죄 가능성이 있어요. 중단하고 법률 검토를 받으세요. | 접근이 정말 공개라면 CMA 위험은 낮아요. |
| 목적이 비상업적 연구인가요? | 합법적 접근이 있다면 CDPA 제29A조 TDM 예외가 적용될 수 있어요. | 영국에는 넓은 상업적 TDM 안전지대가 없어요. 완전한 IP 및 계약 분석이 필요해요. |
아, 제가 처음 팀의 스크래핑 준수 문제를 조사할 때 이런 걸 누가 알려줬으면 좋았을 텐데요. 법적 복잡성을 1분 안에 돌릴 수 있는 구조화된 자기 점검표로 바꿔줘요.
실제 시나리오: 영국에서 특정 스크래핑 활동은 합법일까요?
추상적인 법은 한 가지예요. 사람들이 진짜로 알고 싶어 하는 건 “내 프로젝트가 실제로 문제를 일으킬까?”예요.
타당한 질문이에요. 여기서는 영국에서 흔한 다섯 가지 스크래핑 활용 사례와 각 사례의 간단한 법적 위험 평가를 소개할게요.
제품 가격을 비교용으로 스크래핑하기
가장 흔하고, 종종 가장 위험이 낮은 비즈니스 활용 사례 중 하나예요. 가격은 사실 정보이고, PriceSpy 같은 사이트도 자동 가격 수집으로 운영돼요.
다만 위험이 완전히 사라지지는 않아요. 대상 사이트의 ToS가 스크래핑을 금지한다면, 제품 설명이나 이미지를 복사한다면, 또는 선별된 제품 데이터베이스의 실질적 부분을 추출한다면 계약, 저작권, 데이터베이스 권리 문제가 생길 수 있어요.
위험 수준: 낮음~보통
핵심 준수 단계: 사실 기반 가격 필드만 수집하고, 제품 설명을 그대로 복사하지 말고, ToS와 robots.txt를 존중하며, 속도 제한을 적용하고, 경쟁사 카탈로그의 원본 미러를 재게시하지 마세요.
데이터를 스크래핑해 상업적으로 재판매하기
가장 위험이 높은 상업적 시나리오예요. 다른 주체의 데이터 투자 성과를 판매용 제품으로 바꾸는 것이니까요. 이 경우 네 가지 법적 축이 모두 동시에 문제 될 수 있어요.
위험 수준: 높음
핵심 준수 단계: 법률 검토가 필수예요. 데이터 소유자와의 라이선스 계약을 고려하세요. 제품에 개인정보가 포함되면 데이터 보호 영향평가를 추가하세요.
리드 생성을 위한 비즈니스 연락처 정보 추출하기
제가 이야기해 본 모든 영업팀은 이런 형태의 작업을 해요. 디렉터리에서 이메일, 전화번호, 회사명을 스크래핑하는 식이죠. 문제는? 비즈니스 연락처 데이터에도 개인정보가 포함되는 경우가 많아요. 특정 직원의 이메일은 공개돼 있더라도 개인정보예요.
위험 수준: 보통
핵심 준수 단계: 합법적 이익 평가를 수행하고, 가능한 경우 비즈니스용 연락처 데이터만 수집하며, 법적 근거를 문서화하고, 옵트아웃 경로를 제공하세요. Thunderbit 같은 도구는 이 사용자의 브라우저 안에서 작동하므로 여기서 접근 위험을 낮출 수 있어요. 접근 제어를 우회하지 않고 사용자가 이미 볼 수 있는 것만 접근해요.
학술 또는 포트폴리오용 데이터 분석
정말로 비상업적 연구를 하는 경우라면, 합법적으로 접근할 수 있다는 전제 아래 CDPA 제29A조라는 가장 강한 저작권 예외 경로를 가질 수 있어요.
위험 수준: 낮음(정말 비상업적일 경우)
핵심 준수 단계: 비상업적 목적을 문서화하고, 출처를 인용하며, 가능하면 익명화하거나 집계하고, 저작권 콘텐츠나 개인정보를 재배포하지 마세요.
AI 모델 학습용 콘텐츠 스크래핑하기
2026년에 모두가 묻는 질문이에요. 그런데 답은 여전히 만족스럽지 않아요. ICO는 웹 스크래핑한 개인정보를 학습에 쓰는 것을 고위험의 비가시적 처리로 봐요. 영국 정부의 2026년 보고서도 광범위한 상업적 TDM 예외를 도입하지 않았어요.
위험 수준: 보통~높음
핵심 준수 단계: 라이선스 확보, 데이터셋 출처 확인, 저작권 분석, 개인정보 필터링, 적법 근거 문서화, 그리고 영국 정책 변화를 면밀히 모니터링하세요.
시나리오 요약 표
| 시나리오 | 핵심 적용 법규 | 위험 수준 | 핵심 준수 단계 |
|---|---|---|---|
| 제품 가격 모니터링 | ToS, 데이터베이스 권리, 저작권 | 낮음~보통 | 사실 필드만 수집하고 사이트 신호를 존중 |
| 상업적 데이터 재판매 | 네 가지 축 모두 | 높음 | 법률 검토와 라이선스가 필수 |
| B2B 리드 생성 | UK GDPR, ToS | 보통 | LIA 수행, 개인정보 최소화 |
| 학술 연구 | 저작권(TDM 예외), 개인정보 포함 시 GDPR | 낮음 | 목적을 비상업적으로 유지, 재게시 금지 |
| AI 모델 학습 | UK GDPR, 저작권, 데이터베이스 권리 | 보통~높음 | 데이터 라이선스, 적법 근거 문서화, 정책 모니터링 |
영국 vs. 미국 vs. EU: 웹 스크래핑 법은 어떻게 다를까요?
영국에서만 운영한다면 이 섹션은 건너뛰어도 돼요. 하지만 제가 만나는 대부분의 기업은 국제적으로 스크래핑하거나, 최소한 다른 관할권에 호스팅된 웹사이트를 스크래핑해요. 차이는 생각보다 커요.
| 법적 구분 | 🇬🇧 영국 | 🇺🇸 미국 | 🇪🇺 EU |
|---|---|---|---|
| 주요 데이터 보호법 | UK GDPR + DPA 2018 | 연방 차원 대응법 없음(주별 상이) | EU GDPR |
| 주요 스크래핑 판례 | Clearview AI(ICO 750만 파운드 벌금) | hiQ 대 LinkedIn(공개 데이터 스크래핑 허용, 제9순회법원 — 하지만 hiQ는 영구적으로 금지됐고 최종 동의 판결로 50만 달러를 지급) | Ryanair 대 PR Aviation(CJEU, C-30/14, 데이터베이스 권리) |
| 컴퓨터 접근법 | 컴퓨터 오남용법 1990 | CFAA(2021년 Van Buren으로 축소) | 회원국별 상이 |
| 저작권 / TDM 예외 | 좁음: 비상업적 연구만(제29A조) | 공정 이용 원칙(더 넓고 사례별) | DSM 지침 제3조 및 제4조(권리 유보가 있는 더 넓은 TDM 권리) |
| 데이터베이스 권리 | 있음(EU 데이터베이스 지침 계승) | 해당하는 연방 권리 없음 | 데이터베이스 지침에 따른 고유 권리 |
| ToS 집행 가능성 | 계약법 적용, browsewrap은 논쟁적 | 혼재: browsewrap은 종종 집행 불가 | 국가별 상이; Ryanair가 ToS 지위를 강화 |
실무적으로는 이렇게 이해하면 돼요. 여러 관할권을 넘나들며 스크래핑한다면, 가장 엄격한 적용 법을 준수하세요. 미국은 hiQ 판례에서 공개 데이터 접근에 더 관대하지만, hiQ가 곧바로 백지수표는 아니에요(결국 LinkedIn 스크래핑이 금지됐고 50만 달러를 지급). EU는 DSM 지침을 통해 더 넓은 TDM 구조를 갖고 있어요. 영국은 그 중간쯤에 있어요. 넓은 상업적 TDM 예외는 없고, 강한 데이터베이스 권리와 활발한 규제기관이 있죠.
처벌과 집행: 잡히면 실제로 무슨 일이 생길까요?

“벌금”이나 “법적 문제” 같은 모호한 경고는 누구에게도 도움이 안 돼요. 실제 수치를 보죠.
UK GDPR 벌금
최대 처벌: 중 더 큰 금액이에요.
실제 사례: Clearview AI는 2022년 영국 소셜 미디어에서 얼굴 이미지를 스크래핑한 이유로 ICO로부터 의 벌금을 받았어요. 1심 심판부는 관할권 문제로 이를 뒤집었지만, 은 ICO의 항소를 받아들여 사건을 환송했어요. ICO는 2025년 12월 기준으로 Clearview가 고 밝혔어요.
컴퓨터 오남용법 형사 처벌
- 제1조(무단 접근): 최대
- 제3조(무단 저해): 최대
일반적인 공개 페이지 스크래핑이 형사 기소로 이어지는 경우는 극히 드물어요.
다만 행위가 해킹, 자격 증명 오남용, CAPTCHA 우회, 서비스 저해에 가까워질수록 위험 프로필은 급격히 바뀌어요.
저작권 및 데이터베이스 권리
민사 손해배상과 금지명령이 있을 수 있어요. 고의적인 상업적 침해에는 형사 처벌도 가능하지만, 대부분의 스크래핑 분쟁은 민사 소송으로 진행돼요.
계약(ToS) 위반
민사 손해배상, 계정 종료, IP 차단이 있을 수 있어요. 실무적으로는 가장 흔한 집행 수단이고, 종종 가장 먼저 발생하는 일이에요.
처벌 심각도 요약
| 법적 체계 | 최대 처벌 | 일반적 비즈니스 스크래핑에서의 가능성 | 실제 사례 |
|---|---|---|---|
| UK GDPR | 1,750만 파운드 또는 전 세계 매출 4% | 대규모 개인정보 처리 시 중간, 비개인정보는 낮음 | Clearview AI 750만 파운드 벌금 |
| CMA 제1조 | 2년 징역 | 공개 페이지는 낮음, 제어 우회 시 높음 | 무단 접근에 대한 CPS 지침 |
| CMA 제3조 | 10년 징역 | 트래픽이 시스템을 방해하지 않는 한 낮음 | DDoS 유사 저해 사례 |
| 저작권/데이터베이스 권리 | 손해배상 및 금지명령 | 보호 콘텐츠나 선별 데이터베이스 복제 시 중간 | Ryanair 및 BHB 계열 판례 |
| ToS 위반 | 손해배상, 계정 종료, 차단 | 실질적 집행 경로로는 높음 | Ryanair 화면 스크래핑 분쟁 |
올바른 스크래핑 도구가 법적 위험을 줄이는 방법
도구를 잘 고른다고 해서 불법 스크래핑이 합법이 되지는 않아요. 하지만 피할 수 있는 위험은 없앨 수 있어요.
제 경험상, 사이트 신호를 존중하는 도구와 모든 우회 수단을 공격적으로 쓰는 도구의 차이는, 대개 평범한 데이터 프로젝트와 법적 골칫거리의 차이예요.
robots.txt와 웹사이트 신호를 존중하기
책임 있는 도구라면 스크래핑 전에 robots.txt를 쉽게 확인하고 존중할 수 있어야 해요. 법적으로 구속력은 없지만, robots.txt를 준수하는 것은 법원과 ICO에서 선의의 증거로 봐요. Thunderbit의 는 공개적으로 이용 가능한 데이터를 스크래핑하고 robots.txt와 약관을 준수하라고 안내해요.
브라우저 스크래핑 vs. 클라우드 스크래핑 옵션
이 차이는 법적으로 중요해요. 브라우저 스크래핑은 사용자가 로그인한 세션에서 볼 수 있는 것만 접근해요. 말하자면, 수작업으로 하던 일을 자동화하는 거예요. 클라우드 스크래핑은 서버에서 요청을 보내기 때문에 공개 사이트에서는 더 빠르지만, 사이트 입장에서는 “자동 접근”처럼 보일 수 있어요.
은 두 모드를 모두 제공해요. 로그인해야 하는 사이트에는 브라우저 스크래핑이 적합하고(CMA상 “무단 접근” 위험을 낮춤), 속도가 중요한 공개 이커머스 페이지에는 클라우드 스크래핑이 잘 맞아요. 이 이중 접근 방식 덕분에 사용자는 각 사이트의 법적 위험 프로필에 맞춰 스크래핑 방법을 선택할 수 있어요.
접근 제어 우회 없음
브라우저 안에서 작동하고 CAPTCHA를 깨거나 로그인 장벽을 우회하지 않는 도구는 컴퓨터 오남용법상 본질적으로 더 위험이 낮아요. Thunderbit의 Chrome 확장 프로그램은 사용자의 브라우저 세션 안에서 작동하며, 사용자가 이미 볼 수 있는 것만 접근해요.
투명한 데이터 내보내기(GDPR 준수 지원)
Thunderbit은 Excel, Google Sheets, Airtable, Notion으로 바로 내보낼 수 있어요. 사용자가 데이터의 이동 경로를 통제해요. 이는 GDPR의 투명성과 적법 근거 문서화를 지원해요. 어떤 데이터를 수집했고, 어디로 갔는지 정확히 알 수 있으니까요. 도구가 몰래 처리하거나 데이터를 보관하지 않아요.
속도 제한과 책임 있는 접근
과도한 요청량은 CMA 제3조(무단 저해)를 유발할 수 있어요. 속도 제한은 단순한 기술 모범 사례가 아니라 법적 안전장치예요. 책임 있는 도구는 서버를 압도하지 않도록 해 법적 위험과 IP 차단 가능성을 모두 줄여줘요.

영국 웹 스크래핑을 위한 실용적 준수 체크리스트
아무것도 스크래핑하기 전에 아래를 확인하세요:
- 대상 웹사이트의 이용약관과 허용 사용 정책을 읽으세요.
- robots.txt 파일을 확인하고 관련 경로가 금지되어 있는지 기록하세요.
- 원하는 데이터가 개인정보인지 판단하세요. 그렇다면 UK GDPR상 적법 근거를 정하세요.
- 데이터베이스의 “실질적 부분”을 추출하는지 평가하세요.
- CAPTCHA, 로그인, 속도 제한 등 기술적 접근 제어를 우회하지 않는지 확인하세요.
- 목적이 비상업적 연구라면, TDM 예외를 받기 위해 이를 문서화하세요.
- 속도 제한을 사용하세요. 대상 서버를 압도하지 마세요.
- 모든 것을 문서화하세요: 적법 근거, ToS 검토, 수집한 데이터 필드, 내보내기 대상, 보관 기간.
- 확신이 없다면, 데이터 보호와 IP를 전문으로 하는 변호사의 자문을 받으세요.
이 체크리스트가 변호사의 의견을 대신하지는 않지만, 탄탄한 출발점을 제공하고 나중에 문제가 생겼을 때 선의를 보여주는 데 도움이 돼요.
핵심 정리
- 웹 스크래핑은 영국에서 불법이 아니에요. 하지만 UK GDPR, 저작권/데이터베이스 권리, 계약법, 컴퓨터 오남용법이라는 네 개의 서로 겹치는 법적 체계가 규제해요.
- 어떤 스크래핑이 합법인지는 무엇을 스크래핑하는지, 어떻게 접근하는지, 웹사이트 약관이 무엇이라고 하는지, 그리고 데이터를 어떻게 쓰는지에 달려 있어요.
- 개인정보 스크래핑은 준수 부담이 가장 커요. 보통 합법적 이익이 유일하게 현실적인 적법 근거이며, 문서화된 형량 테스트가 필요해요.
- 영국에는 넓은 상업적 TDM 예외가 없어요. 상업적 AI 학습과 데이터셋 재판매는 라이선스 없이는 위험이 높아요.
- 시작하기 전에 위의 판단 흐름도와 시나리오 표를 사용해 자신의 상황을 평가하세요.
- 준수 모범 사례와 맞는 도구를 선택하세요: 브라우저 기반 접근, CAPTCHA 우회 없음, 투명한 데이터 내보내기, 속도 제한. 은 이런 원칙을 염두에 두고 설계됐지만, 준수 책임은 항상 사용자에게 있어요.
- 확신이 없을 때는 근거를 문서화하고 변호사와 상의하세요. 법률 의견 비용은 거의 항상 ICO 조사 비용보다 적어요.
자주 묻는 질문
영국에서 공개적으로 이용 가능한 데이터를 스크래핑하는 것은 합법인가요?
대체로는 맞아요. 공개 데이터 스크래핑은 게이팅되었거나 비공개 데이터 스크래핑보다 위험이 낮아요. 하지만 “공개되어 있다”가 “원하는 대로 자유롭게 써도 된다”는 뜻은 아니에요. UK GDPR은 공개 개인정보에도 적용될 수 있고, 저작권은 복제된 표현에 적용될 수 있으며, 데이터베이스 권리는 선별된 집합을 보호할 수 있고, ToS는 자동 접근을 제한할 수 있어요.
영국 웹사이트에서 이메일과 전화번호를 스크래핑해도 되나요?
데이터가 개인정보라면(이메일과 전화번호는 대개 그렇죠), UK GDPR상 적법 근거가 필요해요. B2B 리드 생성에서는 합법적 이익이 가장 흔한 근거이지만, 형량 테스트를 수행하고, 수집 데이터를 최소화하고, 옵트아웃 경로를 제공해야 해요. 개인 생활용 연락처 데이터(휴대폰 번호, 개인 이메일)를 스크래핑하는 것은 비즈니스 디렉터리 목록보다 훨씬 더 위험해요.
영국법에서 웹 스크래핑과 웹 크롤링의 차이는 무엇인가요?
법적으로는 의미 있는 차이가 없어요. 법은 명칭이 아니라 행위를 봐요. 크롤링은 일반적으로 페이지를 발견하거나 색인화하는 것을 뜻하고, 스크래핑은 구조화된 데이터를 추출하는 것을 뜻해요. 둘 다 웹사이트에 대한 자동 접근이며 같은 법적 체계의 적용을 받아요.
robots.txt가 스크래핑을 불법으로 만들나요?
아니에요. robots.txt는 법적 구속력이 없어요. 하지만 무시하면 법적 노출이 커져요. 법원과 ICO가 이를 웹사이트 소유자의 의도를 보여주는 증거로 보기 때문이에요. robots.txt도 무시하고, 사이트 ToS도 스크래핑을 금지한다면 위험 요소를 겹겹이 쌓는 셈이고, 방어하기 훨씬 어려워져요.
영국에서 웹 스크래핑 때문에 형사 기소될 수 있나요?
접근 제어(CAPTCHA, 로그인, IP 차단)를 우회하거나 에 따라 컴퓨터 시스템에 손해를 입힌 경우에만 가능해요. 정말로 공개된 데이터를 합리적인 수준으로, 기술적 우회 없이 일반적으로 스크래핑하는 행위가 형사 기소로 이어질 가능성은 극히 낮아요. 행위가 해킹이나 의도적인 서비스 저해에 가까워질수록 위험 프로필은 급격히 바뀌어요.
더 알아보기
