몇 달 전, 한 사용자가 커피를 한 모금 마시다 말고 멈칫하게 만든 질문을 했어요. “쿠팡의 공개 상품 가격을 스크래핑하면 한국 법정에 서게 되나요?” 솔직히 말해, 저도 자신 있게 한 줄로 답할 수 없었고, 온라인에서 찾은 대부분의 법률 가이드도 마찬가지였어요.
이 질문이 계속 기억에 남았던 이유는, 매주 수천 명의 이커머스 운영자, 세일즈 팀, SaaS 창업자들이 조용히 구글에 묻는 바로 그 질문이기 때문이에요. 전 세계 웹 스크래핑 서비스 시장은 2024년에 약 규모에 도달했고 빠르게 성장하고 있어요. 그만큼 더 많은 기업이 웹 데이터를 수집하고 있고, 한국에서 어디까지가 법적으로 허용되는지 궁금해하고 있어요. 한국이 스크래핑을 전면 금지하는 건 아니에요.
하지만 무엇을 스크래핑하는지, 어떻게 스크래핑하는지, 왜 스크래핑하는지에 따라 적용될 수 있는 네 가지 주요 법률이 있어요. 모두가 언급하는 대표 판례는 대법원의 야놀자 판결(2021도1533, 2022년 5월 12일 선고)인데, 경쟁사의 스크래핑 도구에 대해 형사 혐의는 무죄를 선고하면서도, 별도의 민사 절차에서는 같은 회사에 약 10억 원의 손해배상을 인정했어요. 이 이중 결과야말로 비법조인이 한국의 스크래핑 법을 이해할 때 가장 중요한 포인트이고, 이 가이드의 핵심이기도 해요. 법학 학위는 필요 없어요. 실제로 쓸 수 있는 실용적인 리스크 프레임워크만 있으면 됩니다.
난이도: 초급(법률·기술 배경 지식 불필요)
소요 시간: 읽는 데 약 15분, 이후 참고용
준비물: 웹 스크래핑이 무엇을 하는지에 대한 기본 이해(복습이 필요하다면 글을 참고해 보세요)
한국에서 웹 스크래핑은 합법일까요? 한마디로 답하면
웹 스크래핑 자체는 한국에서 불법이 아니에요. 웹 브라우저나 스프레드시트 수식처럼 중립적인 기술이에요. 한국 법원은 도구 자체보다 그 도구를 사용하는 행위를 중심으로 판단해 왔어요.

가장 이해하기 쉬운 모델은 야놀자 대법원 판결에서 나온 “게이트 업 vs. 게이트 다운” 원칙이에요. 웹사이트에 로그인 장벽, CAPTCHA, API 키 요구, IP 차단 같은 객관적인 접근 제한이 없다면 게이트는 “내려가 있는” 상태고, 공개적으로 접근 가능한 데이터에 접근하는 것은 일반적으로 정보통신망법(ICNA)상 범죄가 아니에요. 대법원은 특히 “보호조치, 이용약관 및 그 밖의 객관적으로 드러난 사정”이 접근을 제한하는지 살펴봤고, 야놀자의 API 서버는 공개 앱을 통해 자유롭게 도달 가능하다고 봤어요.
하지만 “형사상 문제가 없다”는 말이 “리스크가 전혀 없다”는 뜻은 아니에요.
민사 책임은 완전히 별개의 문제예요. 형사 처벌은 피했는데도 10억 원대 손해배상 판결을 받을 수 있어요. 야놀자 사건이 그 점을 아주 분명하게 보여줬어요.
한국에서 웹 스크래핑에 적용될 수 있는 법은 네 가지예요:
- ICNA(정보통신망법) — “무단 침입 금지” 규칙
- 저작권법 — 데이터베이스 제작자 권리
- PIPA(개인정보보호법) — 개인정보 수집 규칙
- UCPA(부정경쟁방지법) — “무임승차 금지” 포괄 조항
이 가이드의 나머지 부분에서는 이 법들을 실제 상황에 대입해 보면서, 여러분의 스크래핑 프로젝트가 어디에 해당하는지 판단할 수 있게 도와드릴게요.
한국 웹 스크래핑을 위한 그린-옐로-레드 리스크 프레임워크

제가 찾아본 한국 스크래핑 법 관련 글은 하나같이 변호사를 위해 쓴 듯했어요. 이커머스 운영자나 SaaS 창업자에게 필요한 건 40페이지짜리 법리 분석이 아니라, 프로젝트를 시작하기 전에 위험을 빠르게 가늠할 수 있는 방법이에요. 이걸 신호등이라고 생각해 보세요. 초록은 진행, 노랑은 속도를 줄이고 주변을 살피기, 빨강은 멈추고 변호사에게 문의하기예요.
그린 존: 낮은 위험의 스크래핑 시나리오
| 시나리오 | 위험 수준 | 핵심 법령 | 이유 |
|---|---|---|---|
| 공개 상품 목록 스크래핑(로그인 없음, CAPTCHA 없음) | 🟢 낮음 | ICNA, 저작권법 | 야놀자 판결: 접근 제한 없음 = ICNA 위반 아님; 가격·재고 같은 사실 데이터는 창작표현이 아님 |
| 내부 분석용으로만 공개 가격 스크래핑 | 🟢 낮음 | UCPA, 저작권법 | 사실 데이터, 제한된 범위, 경쟁적 재배포 없음 |
| 공개 페이지에서 비개인적·비저작권 사실 정보 수집 | 🟢 낮음 | ICNA, 저작권법 | 접근 장벽을 우회하지 않음; 개별 사실은 보호 대상이 아님 |
야놀자 형사 판결이 이 구간의 기준점이에요. 대법원은 API 서버가 자유롭게 접근 가능했기 때문에 ICNA상 침해가 아니라고 봤어요. 일반 사용자도 회원 여부와 상관없이 앱을 통해 접근할 수 있었고, API 접근을 막는 별도 보호조치도 없었다는 점이 중요했어요.
사용자에게는 이 구간이 가장 적합해요. 클라우드 스크래핑 모드로 공개 이커머스나 부동산 페이지를 스크래핑하면서 상품명, 가격, 재고, 목록 메타데이터를 수집하되 개인정보 필드는 제외한다면, 보통 그린 존에서 운영하는 셈이에요. (다만 “보통”이 “항상”을 뜻하는 건 아니고, 아래에서 세부 사항을 설명드릴게요.)
옐로 존: 중간 위험의 스크래핑 시나리오
| 시나리오 | 위험 수준 | 핵심 법령 | 이유 |
|---|---|---|---|
| 공개 페이지에 있어도 개인정보(이름, 이메일, 전화번호) 스크래핑 | 🟡 중간 | PIPA, ICNA | PIPA는 공개 여부와 무관하게 적용; 2023년 개정으로 동의 요건 강화 |
| 경쟁사 데이터베이스의 “실질적 부분”에 해당할 수 있는 대량 스크래핑 | 🟡 중간 | 저작권법, UCPA | 한국법상 양적 + 질적 판단 |
| robots.txt 신호 무시 | 🟡 중간 | 악의성의 증거 | 그 자체로 범죄는 아니지만, 법정에서 불리하게 작용할 수 있음 |
| 공개 데이터를 스크래핑해 원본과 직접 경쟁하는 데 사용 | 🟡 중간 | UCPA | 다른 플랫폼의 투자에 무임승차하는 행위 |
개인정보는 옐로 존의 가장 큰 트리거예요.
전화번호나 이메일이 공개 웹페이지에 보여도 PIPA는 여전히 적용돼요. 2023년 PIPA 개정으로 정보주체 권리가 확대되고 동의 요건이 더 엄격해졌어요. 그리고 2024년에는 개인정보보호위원회(PIPC)가 AI와 데이터 수집 맥락에서 을 발표해, 공개 접근 가능하다는 사실만으로 일괄 허용되는 건 아니라는 점을 분명히 했어요.
수량도 중요해요. 야놀자 대법원은 데이터베이스의 “실질적 부분”을 복제했는지 판단할 때 양적 요소와 질적 요소를 함께 봐야 한다고 했어요. 복제한 부분이 전체 데이터베이스에서 차지하는 비중과, 제작자의 상당한 투자와 노력이 반영됐는지 여부를 함께 따져야 해요.
레드 존: 높은 위험의 스크래핑 시나리오
| 시나리오 | 위험 수준 | 핵심 법령 | 이유 |
|---|---|---|---|
| 로그인 뒤에 있는 페이지를 스크래핑하거나 접근 통제를 우회 | 🔴 높음 | ICNA 제48조 | “게이트 업” = 무단 접근; 기소 위험 높음 |
| CAPTCHA, IP 차단, 봇 탐지 시스템 우회 | 🔴 높음 | ICNA 제48조 제4항 | 2024년 개정으로 우회 도구/장치 자체를 명시적으로 규제 |
| 경쟁사의 전체 데이터베이스를 복제해 재판매 | 🔴 높음 | 저작권법(DB 권리), UCPA | 실질적 복제 + 상업적 무임승차 |
| 마케팅/아웃리치 목적의 개인정보를 법적 근거 없이 수집 | 🔴 높음 | PIPA | 최대 징역 5년 / 5천만 원 벌금; 매출의 최대 3% 행정 제재 가능 |
2024년 ICNA에 추가된 제48조 제4항은 이제 정당한 사유 없이 “정상적인 보호 또는 인증 절차”를 우회하는 프로그램이나 기술적 장치를 설치·전송·배포하는 행위를 명시적으로 금지해요.
별도로, 는 보호조치를 물리적으로 파괴하지 않았더라도 무단 네트워크 침입이 성립할 수 있다고 봤어요. 다른 사람의 식별자나 부정한 명령을 사용해 접근 제한을 피하는 것만으로도 충분해요.
웹 스크래핑에 적용되는 한국의 네 가지 법률
| 법률 | 보호 대상 | 스크래퍼에 적용되는 시점 |
|---|---|---|
| ICNA 제48조 | 네트워크 안정성, 접근 권한 | 로그인, CAPTCHA, 인증, IP 차단, API 키 제한 우회 |
| 저작권법(제93조) | 창작물 + 데이터베이스 제작자 권리 | 표현 콘텐츠, 이미지, 또는 데이터베이스의 전부/실질적 부분 복제 |
| PIPA | 개인정보, 정보주체 권리 | 이름, 전화번호, 이메일, ID 수집 — 공개 페이지라도 적용 |
| UCPA(제2조 제1항 제k호 및 제m호) | 공정 경쟁, 경제적 가치가 있는 데이터 | 상당한 투자로 구축한 타인의 데이터 성과를 내 사업에 무단 활용 |
ICNA 제48조: “무단 침입 금지” 규칙
ICNA 제48조 제1항은 누구든지 정당한 접근 권한 없이 또는 허용된 접근 권한을 넘어 정보통신망에 침입해서는 안 된다고 규정해요. 스크래핑 관점에서는, 우회해야 하는 접근 제한이 있다면 위반일 가능성이 높아요. 반대로 제한이 없다면 — 공개 페이지이고 로그인도 없다면 — 대체로 괜찮다고 볼 수 있어요.
위반 시 형량은 ICNA 제71조에 따라 까지예요.
한 가지 미묘한 점은, 한국 대법원이 이용약관 제한과 접근 제한을 일관되게 다르게 본다는 점이에요. 야놀자 앱 약관은 상업적 재이용을 제한하고 서버에 부담을 주는 자동 프로그램을 금지했지만, 대법원은 그 조항들이 API 서버 자체에 대한 접근을 객관적으로 제한한 것은 아니라고 봤어요.
저작권법: 데이터베이스 제작자 권리
한국 저작권법은 개별 콘텐츠에 대한 저작권과 별개로 데이터베이스 제작자를 보호해요. 에 따르면 데이터베이스의 “전부 또는 실질적 부분”을 복제하는 것은 불법이에요. 개별 데이터 항목이 공개 사실이라 하더라도 마찬가지예요.
판단 기준은 양적 요소(전체 대비 얼마나 복제했는지)와 질적 요소(복제된 부분이 데이터베이스를 구축·검증·유지하는 데 들어간 제작자의 상당한 투자를 반영하는지) 둘 다예요. 소량을 반복적·체계적으로 복제해도, 실질적 부분을 복제한 것과 같은 결과를 낸다면 해당될 수 있어요.
데이터베이스 제작자 권리 침해에 대한 형벌은 제136조 제2항 제3호에 따라 최대 징역 3년 또는 3천만 원 벌금이에요. 제125조의2의 법정손해배상은 작품당 최대 1천만 원, 고의적 영리침해의 경우 작품당 최대 5천만 원까지 인정돼요.
PIPA: 개인정보보호법
PIPA는 공개되어 있더라도 이름, 연락처, ID 등 개인정보 수집을 규율해요. 2023년 개정은 상당히 중요했어요. 정보주체 권리를 확대하고, 동의 요건을 강화하고, 자동화된 의사결정 규칙을 도입했으며, 특정 위반에 대해 까지 행정 제재를 부과할 수 있게 했어요.
개인정보보호위원회의 은 공개적으로 이용 가능한 개인정보 맥락에서 “웹 크롤링 및 스크래핑”을 통해 얻은 데이터를 직접 언급해요. 이 가이드라인은 어떤 경우에는 정당한 이익이 법적 근거가 될 수 있지만, 조직은 이익형량, 안전조치, 권리 보호, 거버넌스를 갖춰야 한다고 설명해요.
그리고 규제는 더 엄격해지고 있어요. 2026년 3월에는 , 2026년 후반부터 반복적인 대규모 유출 실패에 대한 최대 제재가 매출의 10%까지 올라갈 예정이라고 전했어요.
UCPA: 부정경쟁방지법의 “포괄 조항”
UCPA는 야놀자 민사 사건에서 GC Company를 걸리게 한 법률이에요. 현행법에는 관련 조항이 두 개 있어요:
- 제2조 제1항 제k호: 비밀은 아니지만 전자적으로 축적·관리되는 기술상 또는 영업상의 정보를 부정하게 사용하는 행위
- 제2조 제1항 제m호: 상당한 투자나 노력으로 얻은 타인의 성과를 공정한 상관습에 반해 허락 없이 자신의 영업에 사용하는 더 넓은 포괄 조항
이 두 규정은 민사 전용이에요. 형사처벌은 없지만, 에 따른 금지명령, 제5조에 따른 손해배상, 그리고 제14조의2에 따른 특정 고의 사건의 경우 3배 배상까지 이어질 수 있어요. 야놀자 민사 사건에서는 이 프레임워크에 따라 약 10억 원이 인정됐어요.
야놀자 사건: 형사에서는 이기고 민사에서는 질 수 있는 이유
한국에서 사업 사용자라면 누구나 알아야 할 사건이에요. 실제로 어떻게 흘러갔는지 하나의 이야기로 설명드릴게요. 판결이 갈린 이유가 바로 핵심이니까요.
무슨 일이 있었나: GC Company가 야놀자의 여행 데이터를 스크래핑함
GC Company는 경쟁 온라인 여행 플랫폼을 운영했어요. 자체 개발한 크롤러를 만들어 야놀자 바른예약 앱의 API 서버에 접근했고, API URL과 요청 명령을 알아낸 뒤 서버에 전송했어요. 이 스크래퍼는 숙박 정보 — 제휴사 이름, 주소, 가격, 재고, 이미지 — 를 수집했어요. GC Company는 이 데이터를 마케팅과 경쟁 포지셔닝에 내부적으로 활용했어요.
야놀자는 형사 고소와 민사 소송을 모두 제기했어요.
형사 판결: 전부 무죄(대법원 2021도1533)

대법원은 2022년 5월 12일, 세 가지 혐의 모두에 대해 했어요:
- ICNA 제48조(침입): 접근 제한이 없었어요. API 서버는 브라우저와 모바일 앱을 통해 공개적으로 접근 가능했어요. 기술적 차단도 없었어요. 이용약관은 접근이 아니라 이용을 제한한 것이었어요.
- 저작권법(데이터베이스 제작자 권리): 피고들은 데이터베이스의 “전부 또는 실질적 부분”을 복제하지 않았어요. 복제된 데이터는 이미 공개적으로 알려진 정보였고, 증거상 그 복제 부분이 야놀자의 상당한 투자를 반영한다고 보기 어려웠어요.
- 형법 제314조(업무방해): 야놀자 API 서버 운영에 실제 장애가 발생했다는 증거가 없었어요. 데이터 변조도 없었고, 업무방해의 고의도 인정되지 않았어요.
인용할 만한 규칙은 이거예요. 접근 제한은 “보호조치, 이용약관 및 그 밖의 객관적으로 드러난 사정”으로 판단해야 해요. 게이트가 내려가 있다면, 그냥 지나가는 건 무단침입이 아니에요.
민사 판결: UCPA에 따른 10억 원 손해배상
여기서 이야기가 반전돼요. 서울중앙지방법원과 이어서 서울고등법원(2021나2034740, 2022년 8월 25일 선고)은 GC Company가 UCPA의 포괄 조항을 위반했다고 봤어요. 법원은 약 10억 원(약 80만 달러)의 손해배상을 인정하고, 추가 데이터 복제를 중단하라고 명령했어요.
이유는 이랬어요. 야놀자의 숙박 데이터베이스는 상업적 가치가 있고, 숙박 정보를 수집·검증·갱신하는 데 상당한 투자가 들어갔어요. GC Company는 그 투자에 무임승차했어요. 민사 판결은 서울고등법원 단계에서 확정됐어요.
실무적 교훈: 형사 무죄가 민사 안전을 뜻하지는 않음
이게 한국 스크래핑 법에서 가장 직관에 어긋나는 교훈이에요. 형사상 합법적인 접근이 상업적으로 부정한 사용까지 면책해 주지는 않아요. “기소될 수 있나?”와 “소송당할 수 있나?”는 다른 질문이고, 답이 서로 반대일 수도 있어요.
사업 사용자라면: 스크래핑 방식이 형사상으로는 분명 그린 존에 있더라도, 데이터의 사용 방식—특히 원본과 직접 경쟁하는 경우—이 민사 리스크를 결정해요.
한국 vs. 미국 vs. EU: 웹 스크래핑 법은 어떻게 다른가요?
국경을 넘나들며 스크래핑하는 기업이 이렇게 많은데도, 이 내용을 한 표로 정리한 가이드는 거의 못 봤어요.
| 항목 | 대한민국 | 미국 | EU / EEA |
|---|---|---|---|
| 핵심 법령 | ICNA 제48조, 저작권법 | CFAA(18 U.S.C. §1030), 주법 | GDPR, 데이터베이스 지침(96/9/EC) |
| 대표 판례 | 야놀자 대 GC Company(대법원 2021도1533, 2022) | hiQ v LinkedIn(제9항소법원, 2022), Van Buren v. US(2021) | Ryanair v PR Aviation(CJEU C-30/14, 2015) |
| 공개 데이터 스크래핑 | 객관적 접근 장벽이 없으면 합법(“게이트 다운”) | hiQ 판례 논리상 합법(공개 데이터); Van Buren으로 CFAA 범위 축소 | DB 권리, 계약, 저작권, GDPR, 회원국 법에 따라 다름 |
| 개인정보 규칙 | PIPA(2023 개정) — 동의 또는 법적 근거 필요 | 분야별: CCPA(캘리포니아), 주 개인정보법 | GDPR — 엄격한 동의 / 정당한 이익; 최대 벌금 2천만 유로 또는 전 세계 매출의 4% |
| 이용약관 위반 = 범죄? | 아니요(법원은 ToS와 ICNA 위반을 구분) | 아니요(Van Buren 2021: ToS는 CFAA 아님) | 일반적으로 아님, 다만 계약 위반은 가능(Ryanair) |
| 데이터베이스 보호 | 저작권법상 DB 제작자 권리 | 일반 연방 DB 권리 없음 | 고유 데이터베이스 권리 |
| 최대 형사 처벌 | 최대 징역 5년 / 5천만 원(ICNA) | 최대 징역 10년 / 25만 달러(CFAA) | 회원국별 상이 |
비즈니스에 중요한 핵심 차이
- 한국에는 EU DSM 지침 같은 광범위한 텍스트·데이터 마이닝(TDM) 예외가 없어요. 스크래핑한 한국 데이터로 AI 모델을 학습할 때, 법률상 일반적인 면책이 주어지지 않아요.
- 한국의 UCPA 포괄 조항은 미국의 부정경쟁법보다 더 넓고 예측 가능성이 낮아요. 야놀자 민사 결과는 미국법 아래서는 훨씬 재현하기 어려웠을 거예요.
- 세 관할권 모두 동의해요: 이용약관 위반만으로는 형사 범죄가 아니에요.
- 한국의 데이터베이스 보호는 법정에 규정된 제도예요(EU와 비슷함). 반면 미국에는 일반적인 연방 데이터베이스 권리가 없어요. 그래서 한국 플랫폼 소유자는 민사상 더 많은 수단을 갖고 있어요.
- 국경을 넘나드는 스크래핑이라면 가장 엄격한 적용 법이 기준이 돼요. 한국·미국·EU 데이터를 모두 건드리는 프로젝트는 세 체계 모두를 충족해야 해요.
산업별 시나리오: 내 업종에서 한국에서 웹 스크래핑은 합법일까요?
업종에 따라 리스크 프로필은 크게 달라져요. 제가 찾은 어떤 가이드도 한국 스크래핑 법을 특정 업종별로 매핑해 주지는 않았어요. 그래서 직접 정리해 봤어요.
이커머스: 가격 모니터링과 상품 데이터

쿠팡, G마켓, 11번가의 공개 상품 가격을 스크래핑하는 건 가장 깔끔한 그린 존 사례예요. 사실 필드(가격, 재고, 상품명)만 다루고, 로그인 전용 영역은 피하고, 기술적 차단을 우회하지 않으며, 내부 벤치마킹 용도로만 데이터를 쓰면 돼요.
상품 설명(창작 콘텐츠 → 저작권), 판매자 연락처(PIPA), 이미지(저작권), 전체 카탈로그(데이터베이스 제작자 권리 + UCPA)를 스크래핑하면 위험이 올라가요.
야놀자와 비슷한 대표적인 한국 이커머스 스크래핑 소송은 찾지 못했어요. 더 발달한 판례는 여행과 채용 분야에 있어요. 하지만 소송이 없다고 해서 위험이 없는 건 아니에요.
Thunderbit의 와 클라우드 스크래핑 모드는 바로 이런 패턴을 위해 만들어졌어요. 공개 페이지에서 가격과 재고를 반복적으로 확인하고, AI 추천 필드로 원하는 열만 골라 개인 연락처 필드는 제외할 수 있어요.
부동산: 매물 목록
부동산은 자연스럽게 옐로 존에 가까워요. 직방이나 네이버부동산 같은 플랫폼의 매물은 사실 데이터(가격, 면적, 동네)와 중개사 이름, 사무실 전화번호, 휴대전화번호, 사진, 선별된 플랫폼 데이터베이스가 섞여 있어요.
공개된 부동산 정보를 스크래핑하는 건 상대적으로 위험이 낮을 수 있어요. 하지만 중개사 연락처 열을 수집하는 순간 PIPA가 바로 걸리고, 한 지역의 모든 매물을 스크래핑하면 실질적 데이터베이스 복제로 보이기 시작해요.
완화 방법: 개인정보 열 제외, 지역 범위 축소, 정당한 사업 목적 문서화, 요청 빈도 제한 준수, 경쟁 매물 서비스의 복제 피하기. Thunderbit의 AI는 필요한 부동산 필드—가격, 면적, 위치—만 추출하고 개인 연락처 데이터는 건너뛰도록 설정할 수 있어요.
채용: 구인 공고
채용 분야는 단호하게 고위험 영역이에요. 한국에는 직접적인 선례가 있어요. 잡코리아 대 사람인 사건이에요. 사람인이 잡코리아의 구인 공고 데이터베이스를 스크래핑했고, 데이터베이스 권리 및 부정경쟁 침해 책임이 인정됐어요. 채용 데이터는 보통 플랫폼의 투자(선별·검증된 목록), 대량 데이터베이스 복제, 그리고 개인정보 또는 채용 담당자 연락처 정보를 함께 포함해요.
제 권장 사항은, 경쟁 채용 플랫폼을 스크래핑해 비슷한 채용 데이터베이스를 만들거나 보강하는 건 일반적으로 피하라는 거예요. 사용 목적이 좁더라도 수집 전에 법률 검토를 받고, 수집량을 최소화하고, 개인 연락처를 제거하고, 결과를 재배포하지 마세요.
전체 제재 참고표: 한국에서 웹 스크래핑이 잘못됐을 때의 리스크
| 한국 법령 | 위반 유형 | 최대 형사 처벌 | 최대 민사/행정 구제 | 주요 2023–2026 변화 |
|---|---|---|---|---|
| ICNA 제48조 | 무단 접근 / 방해 | 징역 5년 / 5천만 원 벌금 | 손해배상 + 금지명령 | 2024년: 우회 도구를 겨냥한 제48조 제4항 신설 |
| 저작권법(DB 권리, 제93조) | DB의 실질적 복제 | 징역 3년 / 3천만 원 벌금 | 고의적 영리침해의 경우 작품당 최대 5천만 원 법정손해배상 | — |
| PIPA | 위법한 개인정보 수집 | 징역 5년 / 5천만 원 벌금 | 총매출의 최대 3% 행정 제재; 집단소송 가능 | 2023년 개정; 2024년 공개 데이터 AI 가이드라인; 2026년 반복 유출에 대해 10% 방향 |
| UCPA 제2조 제1항 제k호/(m) | 부정한 데이터 취득 / 이용 | 민사 전용(포괄 조항에 형사처벌 없음) | 손해배상 + 금지명령; 특정 고의 사건의 경우 3배 배상 | 2022년 데이터 프레임워크법으로 조항 강화 |
| 형법 제314조 | 기술적 수단을 통한 업무방해 | 징역 5년 / 1천5백만 원 벌금 | — | 야놀자: 실제 장애 발생 입증 못함 |
핵심은 이거예요. 형사와 민사 절차는 서로 독립적으로 진행돼요. 동시에 둘 다 걸릴 수 있고, 한쪽에서 이기고 다른 쪽에서 질 수도 있어요.
한국에서 웹 스크래핑을 위한 10가지 컴플라이언스 체크리스트
스크래핑 프로젝트를 시작하기 전에 아래 열 가지 예/아니오 질문을 꼭 확인해 보세요. 출력해서 보관해도 좋고, 즐겨찾기해도 좋고, 모니터에 붙여놔도 좋아요.
- 목표 사이트는 원하는 데이터를 보려면 로그인할 필요가 없나요? 로그인, 토큰, 계정이 필요하다면 ICNA 제48조 쪽으로 위험이 크게 올라가요.
- 기술적 접근 제한이 전혀 없나요? CAPTCHA, IP 차단, API 키, 속도 제한, 봇 차단은 모두 강한 레드 존 신호예요.
- 사이트의 robots.txt를 확인했나요? 한국 판례상 그 자체로 법적 구속력은 없지만, 사이트의 기대와 여러분의 선의 여부를 보여주는 유용한 증거예요.
- 개인정보를 수집하나요? 이름, 전화번호, 이메일, ID, 개별 연락처가 범위에 있다면 PIPA 분석이 필요해요.
- 사이트 데이터베이스의 “실질적 부분”을 복제하나요? 양적·질적 질문을 모두 해보세요. 얼마나 많은지, 그리고 복제된 부분이 원본의 투자 성과를 반영하는지요.
- 목적을 정의했나요? 내부 분석은 재배포나 경쟁 데이터베이스 구축보다 위험이 낮아요. (하지만 야놀자 사건은 내부적 경쟁 활용이 완전한 방패는 아니라는 걸 보여줘요.)
- 정당한 사업 목적을 문서로 남겼나요? 문서화는 PIPA의 정당이익형량과 선의 입증에 도움이 돼요.
- 저장·사용 전에 개인정보 필드를 제거하거나 익명화했나요? 연락처를 제외하면 부동산, 채용, 디렉터리 스크래핑이 가장 위험한 PIPA 패턴에서 벗어나는 경우가 많아요.
- 합리적인 요청 간격을 사용하고 있나요? 서버 과부하는 피하세요. 스크래핑이 서비스 운영을 방해하면 형법 제314조와 ICNA 제48조 제3항 리스크가 올라가요.
- 대규모, 상업적, 국경 간 프로젝트라면 한국 법률 자문을 받았나요? 한국법뿐 아니라 GDPR/미국 개인정보법 또는 컴퓨터 접근 관련 법도 적용될 수 있어요.
⚠️ 면책 고지: 이 체크리스트는 안내용이며 법률 자문이 아니에요. 구체적인 상황에서는 반드시 한국의 현지 법률 전문가와 상담하세요.
Thunderbit가 한국 웹사이트 스크래핑을 책임감 있게 돕는 방법
솔직히 말씀드리면, 저는 Thunderbit의 마케팅 팀에서 일하고 있어요. 하지만 이 글에서의 제품-법률 적합성은 단순한 세일즈 문구가 아니라 정말 유용하다고 생각해요.
Thunderbit는 이 글에서 설명한 그린 존 사용 사례, 즉 로그인 없이 공개적으로 접근 가능한 데이터를 스크래핑하는 용도에 맞게 설계돼 있어요. 구체적인 기능이 컴플라이언스 프레임워크와 어떻게 연결되는지 보세요:
- 공개 사이트용 클라우드 스크래핑 모드 — 로그인할 필요가 없고, 로컬 세션도 필요 없어서 공개 접근 가능한 경계 안에 머물 수 있어요. 이는 야놀자의 “게이트 다운” 원칙과 맞닿아 있어요.
- AI 추천 필드로 추출할 데이터 열을 정확히 정할 수 있어요. 상품 가격과 재고는 필요하지만 판매자 전화번호는 필요 없다면, 개인정보 열을 제외하면 돼요. PIPA 트리거를 피하는 가장 쉬운 방법이에요.
- 예약 스크래퍼로 가격, 재고, 목록을 합리적인 간격으로 반복 확인할 수 있어요. 서버에 끊임없이 요청을 퍼붓지 않아도 돼요.
- 무료 데이터 내보내기로 Excel, Google Sheets, Airtable, Notion에 연결해 내부 분석 워크플로를 만들 수 있어요.
- 하위 페이지 스크래핑으로 공개 목록 데이터를 더 풍부하게 만들 수 있어요(예: 개별 상품 페이지를 클릭해 사양을 가져오기). 로그인 전용이나 제한된 영역에는 접근하지 않아요.
- AI 레이아웃 적응 — 스크래퍼가 매번 사이트 구조를 새로 읽어 레이아웃 변경에 자동으로 적응해요. 하드코딩된 선택자에 덜 의존하게 돼요.
Thunderbit는 수십 개 언어를 지원하는 다국어 사용을 지원해, 한국어 사이트를 다루는 팀에도 유용해요. 에서 무료로 써볼 수 있어요.
어떤 도구도 법적 리스크를 완전히 없애지는 못해요. 하지만 책임감 있게 설정하면 — 공개 페이지, 사실 데이터, 개인정보 필드 제외, 합리적인 간격 — 이 글에서 설명한 컴플라이언스 틀 안에 머무를 수 있어요.
한국에서 웹 스크래핑 합법성에 대한 핵심 정리
기억해 둘 만한 다섯 가지예요:
- 웹 스크래핑 기술 자체는 한국에서 합법이에요. 대법원은 야놀자 판결에서 이를 확인했어요.
- 리스크는 접근 방식(게이트 업 vs. 게이트 다운), 데이터 유형(개인정보 vs. 사실 정보), 사용 방식(내부 활용 vs. 경쟁적 재배포)에 따라 달라져요.
- 형사 무죄 = 민사 안전이 아니에요. 야놀자 사건은 기소는 피하더라도 10억 원대 손해배상을 받을 수 있다는 걸 보여줘요.
- 접근 장벽이 없고, 공개적이며, 개인정보가 아닌 사실 데이터를 내부 용도로 스크래핑한다면 일반적으로 안전한 구간에 있어요. 하지만 “일반적으로”에는 무게가 있어요. 범위, 수량, 목적이 모두 중요해요.
- 대규모 또는 상업적 프로젝트라면 반드시 한국 현지 법률 전문가와 상담하세요. 이 글은 안내용이지 법률 자문이 아니에요.
한국 웹사이트를 책임감 있게 스크래핑을 시작하고 싶다면, 로 작은 규모에서 워크플로를 시험해 볼 수 있어요. AI 기반 스크래핑이 실제로 어떻게 작동하는지 더 알고 싶다면 과 가이드를 확인해 보세요. 도구가 실제로 어떻게 작동하는지 보고 싶다면, 에서 일반적인 사용 사례별 안내 영상을 볼 수 있어요.
FAQ
1. 한국에서 공개된 데이터를 스크래핑하는 건 합법인가요?
형사상으로는 대체로 그렇다고 볼 수 있어요. 야놀자 대법원 판결에 따르면, 객관적인 접근 제한이 없는 사이트의 데이터에 접근하는 것은 ICNA 위반이 아니에요. 다만 수량, 원본의 투자 정도, 데이터의 상업적 사용 방식에 따라 UCPA나 저작권법상 민사 책임은 여전히 적용될 수 있어요.
2. 한국에서 웹 스크래핑이 형사 범죄가 아니어도 소송당할 수 있나요?
네. 형사와 민사 절차는 서로 독립적이에요. GC Company는 형사 혐의 전부에서 무죄를 받았지만, UCPA 포괄 조항에 따라 민사상 약 10억 원의 손해배상을 지급하라는 판결을 받았어요. 형사 무죄는 민사 청구에 대한 방패가 아니에요.
3. 웹사이트 이용약관을 위반하면 한국에서 스크래핑이 불법이 되나요?
한국 법원은 이용약관 위반만으로는 ICNA상 형사 범죄가 성립하지 않는다고 일관되게 봐 왔어요. 법원은 이용 제한(ToS)과 접근 제한(기술적 장벽)을 구분했어요. 다만 이용약관 위반은 민사상 계약 위반 청구의 근거가 될 수 있고, 부정경쟁 분석에서 악의성의 증거로 쓰일 수도 있어요.
4. 한국의 웹 스크래핑 법은 미국과 어떻게 다른가요?
두 관할권 모두 공개 데이터 스크래핑을 보호해요(한국의 야놀자, 미국의 hiQ v LinkedIn) 그리고 이용약관 위반만으로는 형사 범죄가 아니라고 봐요(미국의 Van Buren). 핵심 차이는 한국이 더 강한 법정 데이터베이스 보호와, 미국보다 더 넓은 부정경쟁 포괄 조항을 갖고 있다는 점이에요. 미국에는 일반적인 연방 데이터베이스 권리가 없어요. 그래서 한국 플랫폼 소유자는 스크래퍼를 상대로 더 많은 민사적 수단을 가질 수 있어요.
5. 한국 웹사이트에서 개인정보를 스크래핑하면 어떻게 되나요?
정보가 공개적으로 보이더라도 PIPA는 적용돼요. 이름, 전화번호, 이메일 같은 개인정보를 동의나 다른 법적 근거 없이 수집하면 위반이에요. 2023년 PIPA 개정으로 이런 보호가 강화됐고, PIPC의 2024년 공개 개인정보 가이드라인은 웹 크롤링과 스크래핑을 직접 다루고 있어요. 처벌은 최대 징역 5년, 5천만 원 벌금, 그리고 총매출의 최대 3% 행정 제재까지 가능해요.
더 알아보기
