한국에서 웹 스크래핑은 합법일까요? 비법조인이 알아야 할 것

얼마 전 한 고객이 이런 질문을 던졌어요. “쿠팡 공개 상품 가격을 긁어오면 한국에서 법정에 서나요?” 그 자리에서 “이건 됩니다, 저건 안 됩니다”라고 한 줄로 잘라 말하기가 어려웠어요. 인터넷에 돌아다니는 법률 가이드 대부분도 사정은 마찬가지였고요.

이 질문이 계속 머리에 남은 건, 매주 수천 명의 이커머스 운영자, 세일즈 담당자, SaaS 창업자가 검색창에 조용히 똑같은 걸 입력하고 있어서예요. 전 세계 웹 스크래핑 서비스 시장은 2024년에 약 10억 3천만 달러에 이르렀고, 지금도 빠르게 커지는 중이에요. 그만큼 더 많은 회사가 웹 데이터를 모으고 있고, 한국에서 어디까지가 선 안쪽인지 궁금해해요. 한국이 스크래핑을 통째로 금지한 건 아니에요.

다만 무엇을, 어떻게, 왜 긁느냐에 따라 걸릴 수 있는 법이 크게 네 가지예요. 다들 인용하는 대표 판례가 대법원 야놀자 판결(2021도1533, 2022년 5월 12일 선고)인데, 경쟁사 스크래핑 행위에 대한 형사 혐의는 무죄로 끝났지만 별개의 민사 절차에서는 같은 회사에 약 10억 원 배상이 인정됐어요. 형사와 민사가 정반대로 갈린 이 결과가, 법조인이 아닌 사람이 한국 스크래핑 법을 이해할 때 가장 먼저 잡아야 할 지점이에요. 이 글도 거기서 출발해요. 법학 학위는 필요 없어요. 실무에서 바로 꺼내 쓸 수 있는 위험 판단 틀 하나면 충분해요.

난이도: 초급(법률·기술 배경 지식 불필요)
소요 시간: 읽는 데 약 15분, 이후 참고용
준비물: 웹 스크래핑이 무엇을 하는지에 대한 기본 이해(복습이 필요하다면 웹 스크래핑이란 무엇인가 글을 참고해 보세요)

한국에서 웹 스크래핑은 합법일까요? 한마디로 답하면

기술 자체는 한국에서 불법이 아니에요. 웹 브라우저나 스프레드시트 수식처럼 그냥 중립적인 도구예요. 한국 법원도 도구 자체가 아니라 그 도구를 어떻게 쓰느냐를 두고 판단해 왔어요.

ig_0cdf68974ff22a4a0169f1aba6b77c8191a0d3fa1e58ce2c97_compressed.webp

가장 직관적인 기준은 야놀자 대법원 판결에서 나온 「게이트 업 vs. 게이트 다운」 원칙이에요. 로그인 장벽, CAPTCHA, API 키 요구, IP 차단처럼 객관적인 접근 제한이 없으면 게이트는 「내려가 있는」 상태예요. 이때 공개된 데이터에 접근하는 건 대체로 정보통신망법(ICNA)상 범죄가 아니에요. 대법원은 「보호조치, 이용약관, 그 밖에 객관적으로 드러난 사정」이 접근을 막고 있는지를 따졌고, 야놀자 API 서버는 공개 앱을 통해 누구나 닿을 수 있다고 봤어요.

문제는 「형사상 문제없음」이 「위험 제로」를 뜻하지 않는다는 거예요.

민사 책임은 완전히 다른 트랙이에요. 형사 처벌은 피해도 10억 원대 배상 판결이 떨어질 수 있어요. 야놀자 사건이 이 점을 또렷이 보여줬어요.

한국에서 스크래핑에 걸릴 수 있는 법은 네 가지예요:

ICNA(정보통신망법) — 「무단 침입 금지」 규칙
저작권법 — 데이터베이스 제작자 권리
PIPA(개인정보보호법) — 개인정보 수집 규칙
UCPA(부정경쟁방지법) — 「무임승차 금지」 포괄 조항

이제부터 이 법들을 실제 상황에 하나씩 대입하면서, 여러분 프로젝트가 어느 칸에 떨어지는지 가늠해 볼게요.

한국 웹 스크래핑을 위한 그린-옐로-레드 리스크 프레임워크

ig_0cdf68974ff22a4a0169f1abfb386c8191baf73515035c6cdc_compressed.webp

한국 스크래핑 법을 다룬 글을 한참 찾아봤는데, 죄다 변호사 보라고 쓴 느낌이었어요. 이커머스 운영자나 SaaS 창업자에게 필요한 건 40페이지짜리 법리 분석이 아니라, 프로젝트를 시작하기 전에 위험을 빠르게 재 보는 잣대예요. 신호등을 떠올리면 쉬워요. 초록은 진행, 노랑은 속도 줄이고 주변 살피기, 빨강은 멈추고 변호사 부르기예요.

그린 존: 낮은 위험의 스크래핑 시나리오

시나리오	위험 수준	핵심 법령	이유
공개 상품 목록 스크래핑(로그인 없음, CAPTCHA 없음)	🟢 낮음	ICNA, 저작권법	야놀자 판결: 접근 제한 없음 = ICNA 위반 아님; 가격·재고 같은 사실 데이터는 창작표현이 아님
내부 분석용으로만 공개 가격 스크래핑	🟢 낮음	UCPA, 저작권법	사실 데이터, 제한된 범위, 경쟁적 재배포 없음
공개 페이지에서 비개인적·비저작권 사실 정보 수집	🟢 낮음	ICNA, 저작권법	접근 장벽을 우회하지 않음; 개별 사실은 보호 대상이 아님

이 구간의 기준점이 야놀자 형사 판결이에요. 대법원은 API 서버에 자유롭게 닿을 수 있었던 점을 근거로 ICNA 침해가 아니라고 봤어요. 회원이든 아니든 일반 사용자가 앱을 통해 접근할 수 있었고, API 접근을 따로 막는 보호조치도 없었다는 게 결정적이었어요.

Thunderbit 사용자에게는 이 구간이 가장 잘 맞아요. 클라우드 스크래핑 모드로 공개 이커머스·부동산 페이지에서 상품명, 가격, 재고, 목록 메타데이터만 가져오고 개인정보 필드는 빼면, 보통은 그린 존에서 움직이는 셈이에요. (물론 「보통」이 「언제나」는 아니에요. 자세한 건 아래에서 짚을게요.)

공개 데이터 스크래핑용으로 Thunderbit 사용해 보기

옐로 존: 중간 위험의 스크래핑 시나리오

시나리오	위험 수준	핵심 법령	이유
공개 페이지에 있어도 개인정보(이름, 이메일, 전화번호) 스크래핑	🟡 중간	PIPA, ICNA	PIPA는 공개 여부와 무관하게 적용; 2023년 개정으로 동의 요건 강화
경쟁사 데이터베이스의 “실질적 부분”에 해당할 수 있는 대량 스크래핑	🟡 중간	저작권법, UCPA	한국법상 양적 + 질적 판단
robots.txt 신호 무시	🟡 중간	악의성의 증거	그 자체로 범죄는 아니지만, 법정에서 불리하게 작용할 수 있음
공개 데이터를 스크래핑해 원본과 직접 경쟁하는 데 사용	🟡 중간	UCPA	다른 플랫폼의 투자에 무임승차하는 행위

옐로 존을 켜는 가장 큰 스위치는 개인정보예요.

전화번호나 이메일이 공개 페이지에 떡하니 보여도 PIPA는 그대로 적용돼요. 2023년 PIPA 개정으로 정보주체 권리가 넓어지고 동의 요건이 더 빡빡해졌어요. 2024년에는 개인정보보호위원회(PIPC)가 AI·데이터 수집 맥락에서 공개된 개인정보를 정면으로 다룬 가이드라인을 내놓으면서, 공개돼 있다는 사실만으로 무조건 써도 되는 건 아니라고 못 박았어요.

수량도 변수예요. 야놀자 대법원은 데이터베이스의 「실질적 부분」을 복제했는지 따질 때 양과 질을 함께 봐야 한다고 했어요. 가져온 부분이 전체에서 차지하는 비중, 그리고 제작자의 상당한 투자와 노력이 거기 녹아 있는지를 같이 저울질하라는 거예요.

레드 존: 높은 위험의 스크래핑 시나리오

시나리오	위험 수준	핵심 법령	이유
로그인 뒤에 있는 페이지를 스크래핑하거나 접근 통제를 우회	🔴 높음	ICNA 제48조	“게이트 업” = 무단 접근; 기소 위험 높음
CAPTCHA, IP 차단, 봇 탐지 시스템 우회	🔴 높음	ICNA 제48조 제4항	2024년 개정으로 우회 도구/장치 자체를 명시적으로 규제
경쟁사의 전체 데이터베이스를 복제해 재판매	🔴 높음	저작권법(DB 권리), UCPA	실질적 복제 + 상업적 무임승차
마케팅/아웃리치 목적의 개인정보를 법적 근거 없이 수집	🔴 높음	PIPA	최대 징역 5년 / 5천만 원 벌금; 매출의 최대 3% 행정 제재 가능

2024년 ICNA에 들어온 제48조 제4항은 정당한 사유 없이 「정상적인 보호 또는 인증 절차」를 우회하는 프로그램이나 기술적 장치를 설치·전송·배포하는 행위를 콕 집어 금지해요.

여기에 더해, 2024년 11월 대법원 판결(2021도5555)은 보호조치를 물리적으로 부수지 않았더라도 무단 네트워크 침입이 성립할 수 있다고 봤어요. 남의 식별자나 부정한 명령으로 접근 제한을 피하는 것만으로도 충분하다는 거예요.

웹 스크래핑에 적용되는 한국의 네 가지 법률

법률	보호 대상	스크래퍼에 적용되는 시점
ICNA 제48조	네트워크 안정성, 접근 권한	로그인, CAPTCHA, 인증, IP 차단, API 키 제한 우회
저작권법(제93조)	창작물 + 데이터베이스 제작자 권리	표현 콘텐츠, 이미지, 또는 데이터베이스의 전부/실질적 부분 복제
PIPA	개인정보, 정보주체 권리	이름, 전화번호, 이메일, ID 수집 — 공개 페이지라도 적용
UCPA(제2조 제1항 제k호 및 제m호)	공정 경쟁, 경제적 가치가 있는 데이터	상당한 투자로 구축한 타인의 데이터 성과를 내 사업에 무단 활용

ICNA 제48조: “무단 침입 금지” 규칙

ICNA 제48조 제1항은 정당한 접근 권한 없이, 또는 허용된 권한을 넘어 정보통신망에 침입하면 안 된다고 규정해요. 스크래핑으로 옮기면 이렇게 돼요. 우회해야 할 접근 제한이 있으면 위반일 가능성이 높고, 그런 제한이 없으면 — 공개 페이지에 로그인도 없으면 — 대체로 괜찮아요.

위반하면 ICNA 제71조에 따라 최대 징역 5년 또는 5천만 원 이하 벌금이에요.

한 가지 미묘한 대목이 있어요. 한국 대법원은 이용약관 제한과 접근 제한을 일관되게 다르게 봐요. 야놀자 앱 약관도 상업적 재이용을 막고 서버에 부담 주는 자동 프로그램을 금지했지만, 대법원은 그 조항이 API 서버 접근 자체를 객관적으로 막은 건 아니라고 판단했어요.

저작권법: 데이터베이스 제작자 권리

한국 저작권법은 개별 콘텐츠 저작권과 별개로 데이터베이스 제작자를 따로 보호해요. 제93조는 데이터베이스의 「전부 또는 실질적 부분」 복제를 불법으로 봐요. 개별 항목이 공개된 사실이라도 마찬가지예요.

판단 잣대는 양과 질 둘 다예요. 전체 대비 얼마나 복제했는지(양), 그리고 복제된 부분이 데이터베이스를 구축·검증·유지하는 데 들어간 상당한 투자를 반영하는지(질)를 봐요. 소량씩이라도 반복적·체계적으로 긁어 결국 실질적 부분을 복제한 셈이 되면 똑같이 걸릴 수 있어요.

데이터베이스 제작자 권리 침해 형벌은 제136조 제2항 제3호에 따라 최대 징역 3년 또는 3천만 원 벌금이에요. 제125조의2의 법정손해배상은 작품당 최대 1천만 원, 고의적 영리침해면 작품당 최대 5천만 원까지 인정돼요.

PIPA: 개인정보보호법

PIPA는 공개돼 있더라도 이름, 연락처, ID 같은 개인정보 수집을 규율해요. 2023년 개정은 꽤 묵직했어요. 정보주체 권리를 넓히고, 동의 요건을 강화하고, 자동화된 의사결정 규칙을 새로 두고, 특정 위반에 대해 총매출의 최대 3%까지 행정 제재를 매길 수 있게 했어요.

개인정보보호위원회의 2024년 공개 데이터 AI 가이드라인은 공개된 개인정보 맥락에서 「웹 크롤링 및 스크래핑」으로 얻은 데이터를 직접 거론해요. 어떤 경우엔 정당한 이익이 법적 근거가 될 수 있지만, 그러려면 이익형량, 안전조치, 권리 보호, 거버넌스를 갖춰야 한다고 설명해요.

규제는 점점 더 빡빡해지고 있어요. 2026년 3월에는 한국 언론이 PIPA 개정안을 보도하면서, 2026년 후반부터 반복적인 대규모 유출에 대한 최대 제재가 매출의 10%까지 오른다고 전했어요.

UCPA: 부정경쟁방지법의 “포괄 조항”

UCPA는 야놀자 민사 사건에서 GC Company를 발목 잡은 법이에요. 현행법에 관련 조항이 두 개 있어요:

제2조 제1항 제k호: 비밀까지는 아니지만 전자적으로 축적·관리되는 기술상·영업상 정보를 부정하게 사용하는 행위
제2조 제1항 제m호: 상당한 투자나 노력으로 얻은 타인의 성과를 공정한 상관습에 어긋나게 허락 없이 자기 영업에 쓰는, 더 넓은 포괄 조항

이 둘은 민사 전용이에요. 형사처벌은 없지만 제4조에 따른 금지명령, 제5조에 따른 손해배상, 제14조의2에 따른 특정 고의 사건의 3배 배상까지 갈 수 있어요. 야놀자 민사 사건에서는 이 틀로 약 10억 원이 인정됐어요.

야놀자 사건: 형사에서는 이기고 민사에서는 질 수 있는 이유

한국에서 사업하는 사람이라면 무조건 알아야 할 사건이에요. 실제로 어떻게 흘러갔는지 하나의 흐름으로 풀어 볼게요. 판결이 갈린 이유가 곧 핵심이거든요.

무슨 일이 있었나: GC Company가 야놀자의 여행 데이터를 스크래핑함

GC Company는 경쟁 온라인 여행 플랫폼을 운영했어요. 자체 크롤러를 만들어 야놀자 바른예약 앱 API 서버에 접근했고, API URL과 요청 명령을 알아낸 뒤 서버에 보냈어요. 이 스크래퍼가 숙박 정보 — 제휴사 이름, 주소, 가격, 재고, 이미지 — 를 긁어 왔어요. GC Company는 이 데이터를 마케팅과 경쟁 포지셔닝에 내부적으로 썼어요.

야놀자는 형사 고소와 민사 소송을 둘 다 걸었어요.

형사 판결: 전부 무죄(대법원 2021도1533)

ig_0cdf68974ff22a4a0169f1ac46e080819188cd13d53eebebdf_compressed.webp

대법원은 2022년 5월 12일, 세 가지 혐의 모두 항소심 무죄를 그대로 확정했어요:

ICNA 제48조(침입): 접근 제한이 없었어요. API 서버는 브라우저와 모바일 앱을 통해 공개적으로 닿을 수 있었어요. 기술적 차단도 없었고요. 이용약관은 접근이 아니라 이용을 제한한 것이었어요.
저작권법(데이터베이스 제작자 권리): 피고들은 데이터베이스 「전부 또는 실질적 부분」을 복제하지 않았어요. 복제된 데이터는 이미 공개적으로 알려진 정보였고, 증거상 그 부분이 야놀자의 상당한 투자를 반영한다고 보기 어려웠어요.
형법 제314조(업무방해): 야놀자 API 서버 운영에 실제 장애가 났다는 증거가 없었어요. 데이터 변조도, 업무방해의 고의도 인정되지 않았어요.

기억할 규칙은 이거예요. 접근 제한은 「보호조치, 이용약관, 그 밖에 객관적으로 드러난 사정」으로 판단해요. 게이트가 내려가 있으면, 그냥 지나가는 건 무단침입이 아니에요.

민사 판결: UCPA에 따른 10억 원 손해배상

여기서 이야기가 뒤집혀요. 서울중앙지방법원, 이어 서울고등법원(2021나2034740, 2022년 8월 25일 선고)은 GC Company가 UCPA 포괄 조항을 위반했다고 봤어요. 법원은 약 10억 원(약 80만 달러, 약 11억 원) 배상을 인정하고 추가 데이터 복제를 멈추라고 명령했어요.

논리는 이랬어요. 야놀자 숙박 데이터베이스는 상업적 가치가 있고, 그 정보를 모으고 검증하고 갱신하는 데 상당한 투자가 들어갔어요. GC Company는 그 투자에 무임승차했어요. 민사 판결은 서울고등법원 단계에서 확정됐어요.

실무적 교훈: 형사 무죄가 민사 안전을 뜻하지는 않음

한국 스크래핑 법에서 제일 직관에 어긋나는 교훈이에요. 형사상 합법적인 접근이라고 해서 상업적으로 부정한 사용까지 면제해 주진 않아요. 「기소될 수 있나?」와 「소송당할 수 있나?」는 다른 질문이고, 답이 정반대일 수 있어요.

사업하는 입장에서 핵심은 이거예요. 스크래핑 방식이 형사상 분명 그린 존이어도, 데이터를 어떻게 쓰느냐 — 특히 원본과 직접 경쟁하느냐 — 가 민사 리스크를 가른다는 점이에요.

한국 vs. 미국 vs. EU: 웹 스크래핑 법은 어떻게 다른가요?

국경을 넘나들며 스크래핑하는 회사가 이렇게 많은데도, 이걸 한 표로 정리해 둔 가이드는 거의 못 봤어요.

항목	대한민국	미국	EU / EEA
핵심 법령	ICNA 제48조, 저작권법	CFAA(18 U.S.C. §1030), 주법	GDPR, 데이터베이스 지침(96/9/EC)
대표 판례	야놀자 대 GC Company(대법원 2021도1533, 2022)	hiQ v LinkedIn(제9항소법원, 2022), Van Buren v. US(2021)	Ryanair v PR Aviation(CJEU C-30/14, 2015)
공개 데이터 스크래핑	객관적 접근 장벽이 없으면 합법(“게이트 다운”)	hiQ 판례 논리상 합법(공개 데이터); Van Buren으로 CFAA 범위 축소	DB 권리, 계약, 저작권, GDPR, 회원국 법에 따라 다름
개인정보 규칙	PIPA(2023 개정) — 동의 또는 법적 근거 필요	분야별: CCPA(캘리포니아), 주 개인정보법	GDPR — 엄격한 동의 / 정당한 이익; 최대 벌금 2천만 유로 또는 전 세계 매출의 4%
이용약관 위반 = 범죄?	아니요(법원은 ToS와 ICNA 위반을 구분)	아니요(Van Buren 2021: ToS는 CFAA 아님)	일반적으로 아님, 다만 계약 위반은 가능(Ryanair)
데이터베이스 보호	저작권법상 DB 제작자 권리	일반 연방 DB 권리 없음	고유 데이터베이스 권리
최대 형사 처벌	최대 징역 5년 / 5천만 원(ICNA)	최대 징역 10년 / 25만 달러(CFAA)	회원국별 상이

비즈니스에 중요한 핵심 차이

한국에는 EU DSM 지침 같은 넓은 텍스트·데이터 마이닝(TDM) 예외가 없어요. 한국 데이터를 긁어 AI 모델을 학습시킬 때, 법이 알아서 면책해 주지 않아요.
한국 UCPA 포괄 조항은 미국 부정경쟁법보다 넓고 예측하기 어려워요. 야놀자 민사 결과는 미국법 아래였다면 재현하기 훨씬 까다로웠을 거예요.
세 관할권 모두 한목소리예요: 이용약관 위반만으로는 형사 범죄가 아니에요.
한국 데이터베이스 보호는 법에 명시된 제도예요(EU와 비슷해요). 미국에는 일반적인 연방 데이터베이스 권리가 없고요. 그래서 한국 플랫폼 소유자는 민사상 쥘 수 있는 카드가 더 많아요.
국경을 넘는 스크래핑이면 가장 엄격한 법이 기준선이에요. 한국·미국·EU 데이터를 모두 건드리는 프로젝트는 세 체계를 전부 만족시켜야 해요.

산업별 시나리오: 내 업종에서 한국에서 웹 스크래핑은 합법일까요?

업종이 바뀌면 위험 프로필도 확 달라져요. 제가 본 어떤 가이드도 한국 스크래핑 법을 업종별로 매핑해 주진 않았어요. 그래서 직접 정리했어요.

이커머스: 가격 모니터링과 상품 데이터

ig_0cdf68974ff22a4a0169f1ac9435c88191a26d0fb5beb6f17d_compressed.webp

쿠팡, G마켓, 11번가의 공개 상품 가격을 긁는 건 가장 깔끔한 그린 존 사례예요. 사실 필드(가격, 재고, 상품명)만 다루고, 로그인 전용 영역은 건드리지 않고, 기술적 차단을 우회하지 않고, 내부 벤치마킹 용도로만 쓰면 돼요.

상품 설명(창작 콘텐츠 → 저작권), 판매자 연락처(PIPA), 이미지(저작권), 전체 카탈로그(데이터베이스 제작자 권리 + UCPA)까지 손대면 위험이 올라가요.

야놀자급 한국 이커머스 스크래핑 소송은 아직 못 찾았어요. 판례가 더 쌓인 쪽은 여행과 채용이에요. 그렇다고 소송이 없으니 위험도 없다는 건 아니에요.

Thunderbit의 예약 스크래퍼와 클라우드 스크래핑 모드가 바로 이 패턴을 겨냥해 만들어졌어요. 공개 페이지에서 가격과 재고를 주기적으로 확인하고, AI 추천 필드로 필요한 열만 골라 개인 연락처 필드는 빼면 돼요.

부동산: 매물 목록

부동산은 성격상 옐로 존에 가까워요. 직방이나 네이버부동산 같은 플랫폼 매물에는 사실 데이터(가격, 면적, 동네)와 중개사 이름, 사무실 전화, 휴대전화, 사진, 선별된 플랫폼 데이터베이스가 뒤섞여 있어요.

공개된 부동산 정보 자체를 긁는 건 상대적으로 위험이 낮을 수 있어요. 다만 중개사 연락처 열을 모으는 순간 PIPA가 바로 켜지고, 한 지역 매물을 통째로 긁으면 실질적 데이터베이스 복제처럼 보이기 시작해요.

완화책은 이래요. 개인정보 열 제외, 지역 범위 좁히기, 정당한 사업 목적 문서화, 요청 빈도 절제, 경쟁 매물 서비스 복제 금지예요. Thunderbit AI는 가격·면적·위치 같은 부동산 필드만 뽑고 개인 연락처는 건너뛰도록 설정할 수 있어요.

채용: 구인 공고

채용은 단호하게 고위험 영역이에요. 한국에 직접적인 선례가 있어요. 바로 잡코리아 대 사람인 사건이에요. 사람인이 잡코리아 구인 공고 데이터베이스를 스크래핑했고, 데이터베이스 권리와 부정경쟁 침해 책임이 인정됐어요. 채용 데이터는 보통 플랫폼의 투자(선별·검증된 목록), 대량 데이터베이스 복제, 그리고 개인정보나 채용 담당자 연락처를 한꺼번에 품고 있어요.

제 권장은 이거예요. 경쟁 채용 플랫폼을 긁어 비슷한 채용 데이터베이스를 만들거나 채우는 건 웬만하면 피하세요. 용도가 좁더라도 수집 전 법률 검토를 받고, 수집량을 최소화하고, 개인 연락처를 지우고, 결과를 재배포하지 마세요.

전체 제재 참고표: 한국에서 웹 스크래핑이 잘못됐을 때의 리스크

한국 법령	위반 유형	최대 형사 처벌	최대 민사/행정 구제	주요 2023–2026 변화
ICNA 제48조	무단 접근 / 방해	징역 5년 / 5천만 원 벌금	손해배상 + 금지명령	2024년: 우회 도구를 겨냥한 제48조 제4항 신설
저작권법(DB 권리, 제93조)	DB의 실질적 복제	징역 3년 / 3천만 원 벌금	고의적 영리침해의 경우 작품당 최대 5천만 원 법정손해배상	—
PIPA	위법한 개인정보 수집	징역 5년 / 5천만 원 벌금	총매출의 최대 3% 행정 제재; 집단소송 가능	2023년 개정; 2024년 공개 데이터 AI 가이드라인; 2026년 반복 유출에 대해 10% 방향
UCPA 제2조 제1항 제k호/(m)	부정한 데이터 취득 / 이용	민사 전용(포괄 조항에 형사처벌 없음)	손해배상 + 금지명령; 특정 고의 사건의 경우 3배 배상	2022년 데이터 프레임워크법으로 조항 강화
형법 제314조	기술적 수단을 통한 업무방해	징역 5년 / 1천5백만 원 벌금	—	야놀자: 실제 장애 발생 입증 못함

핵심은 이거예요. 형사와 민사 절차는 따로따로 굴러가요. 둘 다 동시에 걸릴 수도 있고, 한쪽은 이기고 다른 쪽은 질 수도 있어요.

한국에서 웹 스크래핑을 위한 10가지 컴플라이언스 체크리스트

스크래핑 프로젝트를 시작하기 전에 아래 열 가지 예/아니오 질문을 꼭 짚어 보세요. 출력해서 두든, 즐겨찾기를 하든, 모니터에 붙여 두든 편한 대로 하세요.

타깃 사이트는 원하는 데이터를 보는 데 로그인이 필요 없나요? 로그인, 토큰, 계정이 필요하면 ICNA 제48조 쪽으로 위험이 크게 뛰어요.
기술적 접근 제한이 전혀 없나요? CAPTCHA, IP 차단, API 키, 속도 제한, 봇 차단은 전부 강한 레드 존 신호예요.
사이트 robots.txt를 확인했나요? 한국 판례상 그 자체로 법적 구속력은 없지만, 사이트의 기대와 여러분의 선의를 보여 주는 유용한 증거예요.
개인정보를 모으나요? 이름, 전화번호, 이메일, ID, 개별 연락처가 범위에 들면 PIPA 분석이 필요해요.
사이트 데이터베이스의 「실질적 부분」을 복제하나요? 양과 질을 같이 물어보세요. 얼마나 많이 가져오는지, 그 부분이 원본의 투자 성과를 반영하는지요.
목적을 정해 뒀나요? 내부 분석은 재배포나 경쟁 데이터베이스 구축보다 위험이 낮아요. (다만 야놀자 사건은 내부적 경쟁 활용도 완벽한 방패는 아니라는 걸 보여줘요.)
정당한 사업 목적을 문서로 남겼나요? 문서화는 PIPA 정당이익형량과 선의 입증에 도움이 돼요.
저장·사용 전에 개인정보 필드를 지우거나 익명화했나요? 연락처를 빼면 부동산·채용·디렉터리 스크래핑이 가장 위험한 PIPA 패턴에서 벗어나는 경우가 많아요.
요청 간격을 합리적으로 두고 있나요? 서버 과부하는 피하세요. 스크래핑이 서비스 운영을 방해하면 형법 제314조와 ICNA 제48조 제3항 위험이 올라가요.
대규모·상업적·국경 간 프로젝트라면 한국 법률 자문을 받았나요? 한국법뿐 아니라 GDPR/미국 개인정보법, 컴퓨터 접근 관련 법도 함께 걸릴 수 있어요.

⚠️ 면책 고지: 이 체크리스트는 안내용이며 법률 자문이 아니에요. 구체적인 상황에서는 반드시 한국 현지 법률 전문가와 상담하세요.

Thunderbit가 한국 웹사이트 스크래핑을 책임감 있게 돕는 방법

솔직히 밝히자면 저는 Thunderbit 마케팅 팀에서 일해요. 그래도 이 글에서 말하는 제품-법률 적합성은 단순한 세일즈 멘트가 아니라 실제로 쓸모 있다고 생각해요.

Thunderbit는 이 글에서 짚은 그린 존 사용 사례, 즉 로그인 없이 공개적으로 접근 가능한 데이터를 긁는 용도에 맞춰 설계됐어요. 어떤 기능이 컴플라이언스 틀과 어떻게 맞물리는지 볼게요:

공개 사이트용 클라우드 스크래핑 모드 — 로그인이 필요 없고 로컬 세션도 안 써서, 공개 접근 가능한 경계 안에 머물러요. 야놀자 「게이트 다운」 원칙과 맞닿아 있어요.
AI 추천 필드로 가져올 데이터 열을 정확히 정해요. 상품 가격과 재고는 필요하지만 판매자 전화번호는 필요 없다면, 개인정보 열을 빼면 돼요. PIPA 트리거를 피하는 가장 쉬운 길이에요.
예약 스크래퍼로 가격, 재고, 목록을 합리적인 간격으로 반복 확인해요. 서버에 요청을 쉴 새 없이 퍼붓지 않아도 돼요.
무료 데이터 내보내기로 Excel, Google Sheets, Airtable, Notion에 연결해 내부 분석 워크플로를 짤 수 있어요.
하위 페이지 스크래핑으로 공개 목록 데이터를 더 풍부하게 채워요(예: 개별 상품 페이지를 눌러 사양 가져오기). 로그인 전용이나 제한된 영역엔 들어가지 않아요.
AI 레이아웃 적응 — 스크래퍼가 매번 사이트 구조를 새로 읽어 레이아웃 변경에 자동으로 맞춰요. 하드코딩된 선택자 의존도가 낮아져요.

Thunderbit는 수십 개 언어를 지원해서, 한국어 사이트를 다루는 팀에도 잘 맞아요. Thunderbit Chrome 확장 프로그램에서 무료로 써 볼 수 있어요.

어떤 도구도 법적 리스크를 0으로 만들진 못해요. 하지만 책임감 있게 — 공개 페이지, 사실 데이터, 개인정보 필드 제외, 합리적인 간격 — 설정하면, 이 글에서 짚은 컴플라이언스 틀 안에 머물 수 있어요.

한국에서 웹 스크래핑 합법성에 대한 핵심 정리

챙겨 둘 만한 다섯 가지예요:

웹 스크래핑 기술 자체는 한국에서 합법이에요. 대법원이 야놀자 판결에서 확인했어요.
위험은 접근 방식(게이트 업 vs. 게이트 다운), 데이터 유형(개인정보 vs. 사실 정보), 사용 방식(내부 활용 vs. 경쟁적 재배포)에 따라 갈려요.
형사 무죄 = 민사 안전이 아니에요. 야놀자 사건은 기소를 피해도 10억 원대 배상을 떠안을 수 있다는 걸 보여줘요.
접근 장벽이 없고, 공개돼 있고, 개인정보가 아닌 사실 데이터를 내부 용도로 긁는다면 대체로 안전한 구간이에요. 다만 「대체로」에 무게가 실려 있어요. 범위, 수량, 목적이 다 중요해요.
대규모나 상업적 프로젝트라면 반드시 한국 현지 법률 전문가와 상담하세요. 이 글은 안내용이지 법률 자문이 아니에요.

한국 웹사이트를 책임감 있게 긁어 보고 싶다면, Thunderbit 무료 요금제로 작은 규모부터 워크플로를 시험해 보세요. AI 기반 스크래핑이 실제로 어떻게 돌아가는지 더 알고 싶다면 AI 웹 스크래핑과 코딩 없이 웹 스크래핑 가이드를 확인해 보세요. 도구가 실제로 움직이는 모습을 보고 싶다면 YouTube 채널에서 사용 사례별 안내 영상을 볼 수 있어요.

FAQ

1. 한국에서 공개된 데이터를 스크래핑하는 건 합법인가요?

2. 한국에서 웹 스크래핑이 형사 범죄가 아니어도 소송당할 수 있나요?

네. 형사와 민사는 따로 굴러가요. GC Company는 형사 혐의 전부에서 무죄를 받았지만, UCPA 포괄 조항에 따라 민사상 약 10억 원 배상 판결을 받았어요. 형사 무죄는 민사 청구를 막아 주는 방패가 아니에요.

3. 웹사이트 이용약관을 위반하면 한국에서 스크래핑이 불법이 되나요?

한국 법원은 이용약관 위반만으로는 ICNA상 형사 범죄가 안 된다고 일관되게 봐 왔어요. 이용 제한(ToS)과 접근 제한(기술적 장벽)을 갈라서 본 거예요. 다만 이용약관 위반은 민사상 계약 위반 청구의 근거가 될 수 있고, 부정경쟁 판단에서 악의성의 증거로 쓰일 수도 있어요.

4. 한국의 웹 스크래핑 법은 미국과 어떻게 다른가요?

둘 다 공개 데이터 스크래핑을 보호하고(한국 야놀자, 미국 hiQ v LinkedIn), 이용약관 위반만으로는 형사 범죄가 아니라고 봐요(미국 Van Buren). 핵심 차이는 한국이 더 강한 법정 데이터베이스 보호와, 미국보다 넓은 부정경쟁 포괄 조항을 가졌다는 점이에요. 미국에는 일반적인 연방 데이터베이스 권리가 없어요. 그래서 한국 플랫폼 소유자는 스크래퍼를 상대로 민사적 수단을 더 많이 쥘 수 있어요.

5. 한국 웹사이트에서 개인정보를 스크래핑하면 어떻게 되나요?

공개적으로 보이는 정보라도 PIPA는 적용돼요. 이름, 전화번호, 이메일 같은 개인정보를 동의나 다른 법적 근거 없이 모으면 위반이에요. 2023년 PIPA 개정으로 보호가 강화됐고, PIPC의 2024년 공개 개인정보 가이드라인은 웹 크롤링과 스크래핑을 정면으로 다뤄요. 처벌은 최대 징역 5년, 5천만 원 벌금, 그리고 총매출의 최대 3% 행정 제재까지 가능해요.

책임감 있는 웹 스크래핑을 위해 Thunderbit 사용해 보기 Get Started Free

더 알아보기

AI로 데이터 추출하기

Google Sheets, Airtable, Notion으로 데이터를 손쉽게 옮겨보세요

Chrome Store Rating

PRODUCT HUNT#1 Product of the Week