영국에서의 웹 스크래핑: 무엇이 위험하고, 무엇이 소송으로 이어질 수 있을까

얼마 전 영업팀 동료가 물었어요. 수십 번은 받아본 질문이에요. "공개 웹사이트에서 경쟁사 가격을 스크래핑하면, 진짜 문제가 되나요?" 그는 공급업체 연락처 디렉터리를 찾았고, 가격도 깔끔하게 정리돼 있었고, 원한 건 스프레드시트 하나였어요. 망설이는 게 눈에 보였고, 솔직히 그럴 만했어요.

영국에 따로 "웹 스크래핑 법"이라는 게 있는 건 아니에요. 대신 서로 겹치는 네 개의 법적 체계가 특정 스크래핑이 합법인지 아닌지를 가려줘요. 그래서 답은 늘 "상황에 따라 다르다"가 되지만, 그렇다고 겁먹을 필요는 없어요. 이 글에서는 법이 실제로 뭐라고 말하는지, 현실 사례엔 어떻게 적용되는지, 어떤 처벌이 가능한지, 그리고 어떻게 준수 상태를 지킬지 차근차근 풀어볼게요.

저는 Thunderbit에서 우리 팀을 위해 이 주제를 꽤 많이 파봤어요. 여러분이 법무법인 블로그 다섯 개와 Reddit 스레드를 뒤지지 않아도 되도록, 제가 찾은 걸 공유하고 싶어요.

웹 스크래핑용 Thunderbit 사용해 보기

웹 스크래핑이란? 영국 기업들은 왜 쓸까요?

웹 스크래핑은 소프트웨어로 웹사이트에서 데이터를 자동 수집하는 방식이에요. 웹페이지 내용을 스프레드시트에 일일이 복붙하던 지루한 작업을 대신해줘요.

기술 자체는 중립이에요. 본질적으로 합법도, 본질적으로 불법도 아니에요. 중요한 건 무엇을 긁는지, 어떻게 긁는지, 그 데이터를 나중에 어떻게 쓰는지예요.

영국 기업들은 다양한 합법적 목적으로 스크래핑을 써요.

가격 비교: 예를 들어 PriceSpy UK는 자동 웹 스크래핑으로 하루 3~5회 제품 가격을 업데이트해요.
리드 생성: 영업팀이 공개 디렉터리에서 회사명, 이메일, 전화번호를 모아요.
시장 조사: 분석가가 부동산 매물, 구인 게시판, 경쟁사 제품군을 추적해요.
학술 연구: 영국 통계청은 2014~2015년에 슈퍼마켓 웹사이트에서 220만 개가 넘는 가격 견적을 수집했어요.
AI 모델 학습: 빠르게 크고 있지만 법적으로는 아직 불확실한 사용 사례예요.

흐름은 분명해요. 의사결정자 500명(그중 200명은 영국 소재)을 조사한 Bright Data/Vanson Bourne 조사를 보면, 89%가 공개 웹 데이터를 글로벌 경제에 핵심적이거나 매우 중요하다고 봤고, 38%는 최소 매일 이를 활용한다고 답했어요.

그런데도 73%는 명확한 규제가 없는 점을 조직의 우려로 꼽았어요. 바로 그 불안 때문에 이 글이 필요한 거예요.

영국에서 웹 스크래핑은 합법인가요? 직접적인 답변

영국 법에 웹 스크래핑을 통째로 금지하는 조항은 없어요. 다만 여러 법이 어떻게 수집해야 하는지를 규율하고, 특정 프로젝트의 합법성은 네 가지에 달려 있어요.

ig_010beacbdecb066e0169f1876f3d8c8191b68ddebcf937b561_compressed.webp

어떤 데이터를 긁는지 (개인정보 vs. 사실 기반/비개인정보)
어떻게 접근하는지 (공개 페이지 vs. 로그인 장벽이나 CAPTCHA 우회)
웹사이트 약관에 뭐라고 적혀 있는지 (자동 접근을 금지하는지)
이후 데이터를 어떻게 쓰는지 (내부 분석 vs. 상업적 재판매)

제가 찾은 가장 좋은 비유예요. 웹 스크래핑은 공공장소에서 사진 찍는 것과 비슷해요. 사진 찍는다고 곧바로 불법은 아니지만, 어떤 대상을, 어디서, 어떤 방법으로, 어디에 쓰느냐에 따라 법적 위험이 생겨요. 스크래핑도 똑같아요. 공개돼 있다는 사실은 중요하지만, 그게 전부는 아니에요.

ICO의 최근 GenAI 협의는 스크래핑한 개인정보에 관한 영국의 가장 명확한 공식 입장 중 하나예요. 내용을 보면, 웹 스크래핑한 개인정보로 생성형 AI 모델을 학습시킬 때 합법적 이익이 유일하게 쓸 수 있는 적법 근거예요. 단, 개발자가 엄격한 3단계 테스트를 통과해야 해요. 기준이 높고, 영국 규제당국이 스크래핑 데이터를 얼마나 심각하게 보는지 보여줘요.

웹 스크래핑에 적용되는 영국의 네 가지 법

서로 겹치는 네 개의 관점이 있어요. 어떤 스크래핑 프로젝트든 이 중 하나, 둘, 혹은 넷 모두에 걸릴 수 있어요.

UK GDPR과 2018년 데이터 보호법

이름, 이메일, 전화번호, IP 주소, 소셜 미디어 프로필 같은 개인정보를 긁으면 UK GDPR이 적용돼요. "공개적으로 볼 수 있다"가 "마음대로 써도 된다"는 뜻은 아니에요.

공개된 개인정보도 여전히 개인정보예요.

상업적 스크래핑에서 가장 관련 깊은 적법 근거는 합법적 이익(제6조)이에요. 하지만 그 문구만 내세운다고 되는 게 아니에요. 이걸 충족해야 해요.

구체적이고 정당한 목적을 식별할 것
그 처리가 목적에 필요하다는 점을 입증할 것
수집 대상자의 권리와 자신의 이익을 비교형량할 것

ICO의 GenAI 협의 응답은 특히 분명해요. 개발자는 광범위한 사회적 이익만으로 충분하다고 넘겨짚어선 안 되고, 스크래핑 대안이 왜 적절하지 않은지 근거를 대야 하며, 개인이 자기 권리를 이해하고 행사할 수 있게 하는 투명성 장치를 써야 해요. 출처: ICO GenAI 응답.

B2B 리드 생성에도 같은 논리가 적용돼요. 영업팀은 공개된 비즈니스 연락처를 모을 때 합법적 이익에 기댈 수 있어요. 단, 그 합법적 이익을 문서화하고, 수집 필드를 최소화하고, 민감 범주 데이터를 피하고, 가능하면 개인정보 고지를 제공하며, 옵트아웃을 존중해야 해요.

저작권, 데이터베이스 권리, 그리고 TDM 예외

저작권은 웹사이트의 원저작물을 보호해요. 텍스트, 이미지, 제품 설명, 기사 같은 게 여기 들어가요. 가격 같은 사실 정보는 보통 그 자체로는 저작권 영향이 적어요. 하지만 보호받는 표현을 복사해 다시 올리면 침해 영역으로 들어가요.

데이터베이스 권리는 스크래핑에서 많은 분들이 생각하는 것보다 더 중요해요. 브렉시트 이후에도 영국은 EU식 고유 데이터베이스 권리를 유지했어요. 보호받는 데이터베이스의 "실질적 부분"을 추출하면, 개별 데이터가 사실 기반이라도 침해가 될 수 있어요. 선별된 디렉터리, 제품 카탈로그, 마켓플레이스 목록이 여기 해당할 수 있어요.

CDPA 제29A조의 텍스트 및 데이터 마이닝(TDM) 예외는 사용자가 합법적으로 접근할 수 있고 목적이 비상업적 연구일 때만 텍스트·데이터 분석용 복사를 허용해요. 범위가 좁아요. 상업적 스크래핑, 상업적 AI 학습, 상업적 데이터셋 재판매는 빠져요.

영국 정부는 AI 학습을 위해 이 예외를 넓히는 방안을 검토했어요. 하지만 2026년 3월 저작권 및 AI 보고서 기준으로, 창작자·AI 개발자·영국 경제의 목표를 충족한다고 확신하기 전까진 개혁을 도입하지 않기로 했어요. 지금 상태에선 기존 예외가 적용되지 않는 한, AI 학습용으로 보호받는 저작물을 복사하려면 보통 허가가 필요해요.

웹사이트 이용약관과 계약법

대부분의 웹사이트는 자동 스크래핑을 금지하거나 제한하는 이용약관(ToS)을 둬요. 사이트에 접속하는 순간, 특히 수락 화면(clickwrap)을 클릭하면 그 약관에 동의한 것으로 볼 수 있어요. 바닥글 링크 뒤에 숨은 browsewrap 약관은 사실관계에 더 좌우되지만, 영국 법원은 스크래핑에 대한 ToS 제한을 집행하려는 경향을 보여왔어요. Ryanair 대 Billigfluege 분쟁에서 법원은 화면 스크래핑 맥락에서 보이는 웹사이트 약관을 구속력 있는 것으로 봤어요.

robots.txt는 법률이 아니에요. 사이트 소유자가 기계가 읽도록 보내는 신호일 뿐이에요. 흔한 파일은 이렇게 생겼어요.

User-agent: *
Disallow: /account/
Disallow: /checkout/
Disallow: /private/
Crawl-delay: 10

robots.txt를 무시한다고 스크래핑이 자동으로 불법이 되진 않아요. 하지만 법원과 ICO는 이걸 웹사이트 소유자의 의도를 보여주는 증거로 봐요. 특히 ToS 위반이나 과도한 요청량과 겹치면 법적 노출이 커져요.

컴퓨터 오남용법 1990

이 부분은 많은 사람을 불안하게 만들어요. 그럴 만해요. 형사 범죄를 규정하거든요. 제1조는 무단 컴퓨터 자료 접근을 다루고 (최대 2년 징역), 제3조는 컴퓨터 작동을 저해하는 무단 행위를 다뤄요 (최대 10년 징역).

데이터가 정말 공개돼 있고 스크래퍼가 기술적 장벽을 우회하지 않으면 CMA 위험은 가장 낮아요. 이런 경우엔 위험이 커져요.

로그인 장벽, CAPTCHA, IP 차단을 우회할 때
도난 자격 증명을 쓰거나 가짜 계정을 만들 때
대상 서비스의 작동을 저해할 만큼 트래픽을 보낼 때

영국엔 미국식 "공개 데이터면 마음껏 써도 된다"는 깔끔한 규칙이 없어요. 그래서 영국의 조언은 더 보수적이에요. 공개 접근은 CMA 위험을 크게 낮추지만, 웹사이트 약관, 기술적 제어, 제한 사항에 대한 스크래퍼의 인식도 여전히 중요할 수 있어요.

"이거 합법적으로 스크래핑해도 될까?" — 빠른 판단 흐름도

뭔가 긁기 전에 아래 다섯 가지 판단 기준을 따라가 보세요. 법률 자문은 아니고, 60초짜리 위험 점검이에요.

판단 기준	예라면	아니라면
데이터가 개인정보인가요? (이름, 이메일 등)	UK GDPR이 적용돼요. 적법 근거를 정하고, LIA를 수행하고, 필드를 최소화하고, 투명성 계획을 세우세요.	GDPR 층은 적용되지 않을 수 있지만, 다른 검토는 계속하세요.
사이트 ToS가 스크래핑을 명시적으로 금지하나요?	계약 위반 위험이 있어요. API, 라이선스, 법률 검토를 고려하세요.	계약 위험은 낮지만 robots.txt를 확인하세요.
데이터베이스의 실질적 부분을 추출하나요?	고유 데이터베이스 권리 침해 가능성이 높아요. 라이선스나 더 좁은 추출을 고려하세요.	개별 복제 콘텐츠에는 여전히 저작권이 적용될 수 있어요.
로그인, CAPTCHA, 접근 제어를 우회하나요?	CMA 1990상 형사 범죄 가능성이 있어요. 중단하고 법률 검토를 받으세요.	접근이 정말 공개라면 CMA 위험은 낮아요.
목적이 비상업적 연구인가요?	합법적 접근이 있다면 CDPA 제29A조 TDM 예외가 적용될 수 있어요.	영국에는 넓은 상업적 TDM 안전지대가 없어요. 완전한 IP 및 계약 분석이 필요해요.

처음 팀의 스크래핑 준수 문제를 파볼 때 누가 이걸 알려줬으면 정말 좋았을 거예요. 복잡한 법적 판단을 1분 안에 돌릴 수 있는 구조화된 자기 점검표로 바꿔주거든요.

실제 시나리오: 영국에서 이 스크래핑은 합법일까요?

추상적인 법은 한 가지예요. 사람들이 진짜 궁금한 건 "내 프로젝트가 실제로 문제를 일으킬까?"예요.

당연한 질문이에요. 여기선 영국에서 흔한 다섯 가지 스크래핑 활용 사례와, 각각의 간단한 법적 위험 평가를 소개할게요.

제품 가격을 비교용으로 스크래핑하기

가장 흔하고, 종종 가장 위험이 낮은 비즈니스 활용 사례예요. 가격은 사실 정보이고, PriceSpy 같은 사이트도 자동 가격 수집으로 굴러가요.

다만 위험이 완전히 사라지진 않아요. 대상 사이트 ToS가 스크래핑을 금지하거나, 제품 설명·이미지를 복사하거나, 선별된 제품 데이터베이스의 실질적 부분을 추출하면 계약·저작권·데이터베이스 권리 문제가 생길 수 있어요.

위험 수준: 낮음~보통
핵심 준수 단계: 사실 기반 가격 필드만 수집하고, 제품 설명을 그대로 복사하지 말고, ToS와 robots.txt를 존중하며, 속도 제한을 적용하고, 경쟁사 카탈로그의 원본 미러를 다시 올리지 마세요.

데이터를 스크래핑해 상업적으로 재판매하기

가장 위험이 높은 상업적 시나리오예요. 다른 주체의 데이터 투자 성과를 판매용 제품으로 바꾸는 거니까요. 이 경우 네 가지 법적 축이 동시에 문제 될 수 있어요.

위험 수준: 높음
핵심 준수 단계: 법률 검토가 필수예요. 데이터 소유자와의 라이선스 계약을 고려하세요. 제품에 개인정보가 들어가면 데이터 보호 영향평가를 추가하세요.

리드 생성을 위한 비즈니스 연락처 추출하기

제가 만난 모든 영업팀이 이런 일을 해요. 디렉터리에서 이메일, 전화번호, 회사명을 긁는 식이죠. 함정은? 비즈니스 연락처에도 개인정보가 섞이는 경우가 많다는 거예요. 특정 직원의 이메일은 공개돼 있어도 개인정보예요.

위험 수준: 보통
핵심 준수 단계: 합법적 이익 평가를 수행하고, 가능하면 비즈니스용 연락처만 수집하며, 법적 근거를 문서화하고, 옵트아웃 경로를 제공하세요. Thunderbit 같은 도구는 Chrome 확장 프로그램이 사용자 브라우저 안에서 돌아서 접근 위험을 낮춰줄 수 있어요. 접근 제어를 우회하지 않고, 사용자가 이미 볼 수 있는 것만 접근하거든요.

학술 또는 포트폴리오용 데이터 분석

정말로 비상업적 연구라면, 합법적으로 접근할 수 있다는 전제 아래 CDPA 제29A조라는 가장 강한 저작권 예외 경로를 쓸 수 있어요.

위험 수준: 낮음(정말 비상업적일 경우)
핵심 준수 단계: 비상업적 목적을 문서화하고, 출처를 인용하며, 가능하면 익명화하거나 집계하고, 저작권 콘텐츠나 개인정보를 재배포하지 마세요.

AI 모델 학습용 콘텐츠 스크래핑하기

2026년에 모두가 묻는 질문이에요. 그런데 답은 여전히 시원치 않아요. ICO는 웹 스크래핑한 개인정보를 학습에 쓰는 걸 고위험의 비가시적 처리로 봐요. 영국 정부의 2026년 보고서도 넓은 상업적 TDM 예외를 도입하지 않았어요.

위험 수준: 보통~높음
핵심 준수 단계: 라이선스 확보, 데이터셋 출처 확인, 저작권 분석, 개인정보 필터링, 적법 근거 문서화, 그리고 영국 정책 변화를 면밀히 모니터링하세요.

시나리오 요약 표

시나리오	핵심 적용 법규	위험 수준	핵심 준수 단계
제품 가격 모니터링	ToS, 데이터베이스 권리, 저작권	낮음~보통	사실 필드만 수집하고 사이트 신호를 존중
상업적 데이터 재판매	네 가지 축 모두	높음	법률 검토와 라이선스가 필수
B2B 리드 생성	UK GDPR, ToS	보통	LIA 수행, 개인정보 최소화
학술 연구	저작권(TDM 예외), 개인정보 포함 시 GDPR	낮음	목적을 비상업적으로 유지, 재게시 금지
AI 모델 학습	UK GDPR, 저작권, 데이터베이스 권리	보통~높음	데이터 라이선스, 적법 근거 문서화, 정책 모니터링

영국 vs. 미국 vs. EU: 웹 스크래핑 법은 어떻게 다를까요?

영국에서만 운영한다면 이 섹션은 건너뛰어도 돼요. 하지만 제가 만나는 기업 대부분은 국제적으로 스크래핑하거나, 최소한 다른 관할권에 호스팅된 사이트를 긁어요. 차이는 생각보다 커요.

법적 구분	🇬🇧 영국	🇺🇸 미국	🇪🇺 EU
주요 데이터 보호법	UK GDPR + DPA 2018	연방 차원 대응법 없음(주별 상이)	EU GDPR
주요 스크래핑 판례	Clearview AI(ICO 750만 파운드 벌금)	hiQ 대 LinkedIn(공개 데이터 스크래핑 허용, 제9순회법원 — 하지만 hiQ는 영구적으로 금지됐고 최종 동의 판결로 50만 달러를 지급)	Ryanair 대 PR Aviation(CJEU, C-30/14, 데이터베이스 권리)
컴퓨터 접근법	컴퓨터 오남용법 1990	CFAA(2021년 Van Buren으로 축소)	회원국별 상이
저작권 / TDM 예외	좁음: 비상업적 연구만(제29A조)	공정 이용 원칙(더 넓고 사례별)	DSM 지침 제3조 및 제4조(권리 유보가 있는 더 넓은 TDM 권리)
데이터베이스 권리	있음(EU 데이터베이스 지침 계승)	해당하는 연방 권리 없음	데이터베이스 지침에 따른 고유 권리
ToS 집행 가능성	계약법 적용, browsewrap은 논쟁적	혼재: browsewrap은 종종 집행 불가	국가별 상이; Ryanair가 ToS 지위를 강화

실무적으로는 이렇게 보면 돼요. 여러 관할권을 넘나들며 긁는다면, 가장 엄격한 적용 법을 따르세요. 미국은 hiQ 판례에서 공개 데이터 접근에 더 너그럽지만, hiQ가 곧 백지수표는 아니에요(결국 LinkedIn 스크래핑이 금지됐고 50만 달러를 지급). EU는 DSM 지침으로 더 넓은 TDM 구조를 갖췄어요. 영국은 그 중간쯤이에요. 넓은 상업적 TDM 예외는 없고, 강한 데이터베이스 권리와 활발한 규제기관이 있죠.

처벌과 집행: 걸리면 실제로 무슨 일이 생길까요?

ig_010beacbdecb066e0169f1876f3d8c8191b68ddebcf937b561_compressed.webp

"벌금"이나 "법적 문제" 같은 두루뭉술한 경고는 아무에게도 도움이 안 돼요. 실제 수치를 봅시다.

UK GDPR 벌금

최대 처벌은 1,750만 파운드 또는 연간 전 세계 매출의 4% 중 더 큰 금액이에요.

실제 사례를 보죠. Clearview AI는 2022년 영국 소셜 미디어에서 얼굴 이미지를 긁은 이유로 ICO로부터 7,552,800파운드의 벌금을 받았어요. 1심 심판부는 관할권 문제로 이를 뒤집었지만, 2025년 10월 상급심이 ICO의 항소를 받아들여 사건을 환송했어요. ICO는 2025년 12월 기준으로 Clearview가 항소법원 상소 허가를 받았다고 밝혔어요.

컴퓨터 오남용법 형사 처벌

제1조(무단 접근): 최대 2년 징역
제3조(무단 저해): 최대 10년 징역

일반적인 공개 페이지 스크래핑이 형사 기소로 이어지는 경우는 극히 드물어요.

다만 행위가 해킹, 자격 증명 오남용, CAPTCHA 우회, 서비스 저해에 가까워질수록 위험 프로필은 확 바뀌어요.

저작권 및 데이터베이스 권리

민사 손해배상과 금지명령이 가능해요. 고의적인 상업적 침해엔 형사 처벌도 가능하지만, 대부분의 스크래핑 분쟁은 민사 소송으로 가요.

계약(ToS) 위반

민사 손해배상, 계정 종료, IP 차단이 가능해요. 실무적으로는 가장 흔한 집행 수단이고, 종종 가장 먼저 벌어지는 일이에요.

처벌 심각도 요약

법적 체계	최대 처벌	일반적 비즈니스 스크래핑에서의 가능성	실제 사례
UK GDPR	1,750만 파운드 또는 전 세계 매출 4%	대규모 개인정보 처리 시 중간, 비개인정보는 낮음	Clearview AI 750만 파운드 벌금
CMA 제1조	2년 징역	공개 페이지는 낮음, 제어 우회 시 높음	무단 접근에 대한 CPS 지침
CMA 제3조	10년 징역	트래픽이 시스템을 방해하지 않는 한 낮음	DDoS 유사 저해 사례
저작권/데이터베이스 권리	손해배상 및 금지명령	보호 콘텐츠나 선별 데이터베이스 복제 시 중간	Ryanair 및 BHB 계열 판례
ToS 위반	손해배상, 계정 종료, 차단	실질적 집행 경로로는 높음	Ryanair 화면 스크래핑 분쟁

올바른 스크래핑 도구가 법적 위험을 줄이는 방법

도구를 잘 고른다고 불법 스크래핑이 합법이 되진 않아요. 하지만 피할 수 있는 위험은 없앨 수 있어요.

제 경험상, 사이트 신호를 존중하는 도구와 모든 우회 수단을 공격적으로 쓰는 도구의 차이는, 대개 평범한 데이터 프로젝트와 법적 골칫거리의 차이예요.

robots.txt와 웹사이트 신호 존중하기

책임 있는 도구라면 스크래핑 전에 robots.txt를 쉽게 확인하고 존중할 수 있어야 해요. 법적 구속력은 없지만, robots.txt 준수는 법원과 ICO가 선의의 증거로 봐요. Thunderbit의 문서는 공개적으로 이용 가능한 데이터를 스크래핑하고 robots.txt와 약관을 지키라고 안내해요.

브라우저 스크래핑 vs. 클라우드 스크래핑

이 차이는 법적으로 중요해요. 브라우저 스크래핑은 사용자가 로그인한 세션에서 볼 수 있는 것만 접근해요. 말하자면 손으로 하던 일을 자동화하는 거예요. 클라우드 스크래핑은 서버에서 요청을 보내서 공개 사이트에선 더 빠르지만, 사이트 입장에선 "자동 접근"처럼 보일 수 있어요.

Thunderbit은 두 모드를 다 줘요. 로그인이 필요한 사이트엔 브라우저 스크래핑이 맞고(CMA상 "무단 접근" 위험을 낮춤), 속도가 중요한 공개 이커머스 페이지엔 클라우드 스크래핑이 잘 맞아요. 이 이중 접근 덕에 사용자는 각 사이트의 법적 위험 프로필에 맞춰 스크래핑 방법을 고를 수 있어요.

접근 제어 우회 없음

브라우저 안에서 돌고 CAPTCHA를 깨거나 로그인 장벽을 우회하지 않는 도구는 컴퓨터 오남용법상 본질적으로 덜 위험해요. Thunderbit의 Chrome 확장 프로그램은 사용자 브라우저 세션 안에서 작동하며, 사용자가 이미 볼 수 있는 것만 접근해요.

투명한 데이터 내보내기(GDPR 준수 지원)

Thunderbit은 Excel, Google Sheets, Airtable, Notion으로 바로 내보낼 수 있어요. 사용자가 데이터의 이동 경로를 통제해요. 이는 GDPR의 투명성과 적법 근거 문서화를 받쳐줘요. 어떤 데이터를 모았고 어디로 갔는지 정확히 알 수 있으니까요. 도구가 몰래 처리하거나 데이터를 쟁여두지 않아요.

속도 제한과 책임 있는 접근

과도한 요청량은 CMA 제3조(무단 저해)를 건드릴 수 있어요. 속도 제한은 단순한 기술 모범 사례가 아니라 법적 안전장치예요. 책임 있는 도구는 서버를 압도하지 않게 해서 법적 위험과 IP 차단 가능성을 둘 다 줄여줘요.

ig_010beacbdecb066e0169f18811201081919686e582502a1db7_compressed.webp

영국 웹 스크래핑을 위한 실용적 준수 체크리스트

뭔가 긁기 전에 아래를 확인하세요.

대상 웹사이트의 이용약관과 허용 사용 정책을 읽으세요.
robots.txt 파일을 확인하고 관련 경로가 금지돼 있는지 기록하세요.
원하는 데이터가 개인정보인지 판단하세요. 그렇다면 UK GDPR상 적법 근거를 정하세요.
데이터베이스의 "실질적 부분"을 추출하는지 평가하세요.
CAPTCHA, 로그인, 속도 제한 같은 기술적 접근 제어를 우회하지 않는지 확인하세요.
목적이 비상업적 연구라면, TDM 예외를 받기 위해 이를 문서화하세요.
속도 제한을 쓰세요. 대상 서버를 압도하지 마세요.
모든 걸 문서화하세요. 적법 근거, ToS 검토, 수집한 데이터 필드, 내보내기 대상, 보관 기간.
확신이 없다면, 데이터 보호와 IP를 전문으로 하는 변호사 자문을 받으세요.

이 체크리스트가 변호사 의견을 대신하진 않아요. 하지만 탄탄한 출발점이 되고, 나중에 문제가 생겼을 때 선의를 보여주는 데 도움이 돼요.

핵심 정리

어떤 스크래핑이 합법인지는 무엇을 긁는지, 어떻게 접근하는지, 웹사이트 약관이 뭐라고 하는지, 데이터를 어떻게 쓰는지에 달려 있어요.
개인정보 스크래핑은 준수 부담이 가장 커요. 보통 합법적 이익이 유일하게 현실적인 적법 근거이고, 문서화된 형량 테스트가 필요해요.
영국엔 넓은 상업적 TDM 예외가 없어요. 상업적 AI 학습과 데이터셋 재판매는 라이선스 없이는 위험이 높아요.
시작하기 전에 위의 판단 흐름도와 시나리오 표로 자기 상황을 평가하세요.
준수 모범 사례와 맞는 도구를 고르세요. 브라우저 기반 접근, CAPTCHA 우회 없음, 투명한 데이터 내보내기, 속도 제한. Thunderbit은 이런 원칙을 염두에 두고 설계됐지만, 준수 책임은 늘 사용자에게 있어요.
확신이 없을 땐 근거를 문서화하고 변호사와 상의하세요. 법률 의견 비용은 거의 항상 ICO 조사 비용보다 적어요.

Thunderbit로 AI 웹 스크래퍼 사용해 보기 Get Started Free

자주 묻는 질문

영국에서 공개적으로 이용 가능한 데이터를 스크래핑하는 건 합법인가요?

대체로는 맞아요. 공개 데이터 스크래핑은 게이팅됐거나 비공개인 데이터 스크래핑보다 위험이 낮아요. 하지만 "공개돼 있다"가 "원하는 대로 마음껏 써도 된다"는 뜻은 아니에요. UK GDPR은 공개 개인정보에도 적용될 수 있고, 저작권은 복제된 표현에 적용될 수 있으며, 데이터베이스 권리는 선별된 집합을 보호할 수 있고, ToS는 자동 접근을 제한할 수 있어요.

영국 웹사이트에서 이메일과 전화번호를 스크래핑해도 되나요?

데이터가 개인정보라면(이메일과 전화번호는 대개 그렇죠), UK GDPR상 적법 근거가 필요해요. B2B 리드 생성에선 합법적 이익이 가장 흔한 근거이지만, 형량 테스트를 수행하고, 수집 데이터를 최소화하고, 옵트아웃 경로를 제공해야 해요. 개인 생활용 연락처(휴대폰 번호, 개인 이메일)를 긁는 건 비즈니스 디렉터리 목록보다 훨씬 더 위험해요.

영국법에서 웹 스크래핑과 웹 크롤링의 차이는 뭔가요?

법적으로는 의미 있는 차이가 없어요. 법은 명칭이 아니라 행위를 봐요. 크롤링은 보통 페이지를 발견하거나 색인하는 걸 뜻하고, 스크래핑은 구조화된 데이터를 추출하는 걸 뜻해요. 둘 다 웹사이트에 대한 자동 접근이고 같은 법적 체계의 적용을 받아요.

robots.txt가 스크래핑을 불법으로 만드나요?

아니에요. robots.txt는 법적 구속력이 없어요. 하지만 무시하면 법적 노출이 커져요. 법원과 ICO가 이를 웹사이트 소유자의 의도를 보여주는 증거로 보거든요. robots.txt도 무시하고 사이트 ToS도 스크래핑을 금지한다면, 위험 요소를 겹겹이 쌓는 셈이고 방어하기 훨씬 어려워져요.

영국에서 웹 스크래핑 때문에 형사 기소될 수 있나요?

접근 제어(CAPTCHA, 로그인, IP 차단)를 우회하거나 컴퓨터 오남용법 1990에 따라 컴퓨터 시스템에 손해를 입힌 경우에만 가능해요. 정말로 공개된 데이터를 합리적인 수준에서, 기술적 우회 없이 일반적으로 스크래핑하는 행위가 형사 기소로 이어질 가능성은 극히 낮아요. 행위가 해킹이나 의도적 서비스 저해에 가까워질수록 위험 프로필은 확 바뀌어요.

더 알아보기

AI로 데이터 추출하기

Google Sheets, Airtable, Notion으로 데이터를 손쉽게 옮겨보세요

Chrome Store Rating

PRODUCT HUNT#1 Product of the Week