몇 주 전, 영업팀 동료가 늘 듣는 질문을 하나 했어요. “이 공개 비즈니스 디렉터리에서 리드를 스크래핑해도 되나요, 아니면 소송을 당할까요?” 그는 오픈 웹에 그대로 놓인 잠재 고객 데이터를 보고 보물창고를 발견한 듯했어요. 로그인도 필요 없고, 유료 장벽도 없었죠. 그런데 간단히 구글 검색을 해보더니, 자칫하면 수갑을 차게 될지도 모른다고 확신하게 됐다고 하더군요.
이런 불안은 어디에나 있어요. 자동화된 트래픽은 이제 전체 웹 트래픽의 약 를 차지하고, 웹 스크래핑 소프트웨어 시장은 2025년 약 성장할 것으로 전망되지만, 온라인에 떠도는 법적 가이드는 대부분 오래됐거나 지나치게 단순화됐거나 아예 틀린 경우가 많아요. 2022년 hiQ 대 LinkedIn 사건요? 거의 모든 글이 이걸 “모든 스크래핑은 합법”이라는 대법원 판결처럼 다루고 있어요. (스포일러: 그렇지 않고, 당시에도 그렇지 않았어요.)
한편 2024년과 2025년에는 X(전 Twitter), Meta, Reddit, Google, 그리고 AI 기업들이 얽힌 대형 사건들이 실제로 규칙을 다시 쓰고 있는데, 이를 제대로 다루는 곳은 거의 없어요. 이 가이드는 2026년 기준 미국 법이 웹 스크래핑에 대해 실제로 무엇을 말하는지 정리하고, 오해와 현실을 구분하며, 할 수 있는 것과 없는 것을 판별하는 실용적인 기준을 제시해요.

웹 스크래핑이란 무엇일까? (그리고 기업은 왜 신경 쓸까?)
웹 스크래핑은 자동화 소프트웨어를 사용해 웹사이트에서 정보를 수집하고, 스프레드시트나 데이터베이스, CRM 기록 같은 구조화된 데이터로 정리하는 작업이에요.
좀 더 정확히 말하면, 스크래퍼는 웹페이지를 방문해 내부 HTML을 읽고, 필요한 특정 데이터 포인트 — 가격, 이름, 주소, 제품 사양 등 — 를 깔끔한 행과 열로 뽑아내요. 웹사이트의 정보를 엑셀로 옮겨 적는 사람을 고용하는 것과 비슷한데, 봇은 그 일을 몇 시간 대신 몇 초 만에 해낸다고 생각하면 돼요.
웹 스크래핑은 해킹이 아니에요. 방문자가 브라우저에서 보는 것과 같은 정보에 접근하는 거예요.
또 개발자만 쓰는 특수한 기술도 아니에요. 검색 엔진, 가격 비교 사이트, 부동산 플랫폼, 시장조사 대시보드, AI 기반 도구 모두 웹 크롤링과 스크래핑에 의존해 작동해요. 구글을 써봤거나, 항공권 비교 사이트를 확인했거나, Zillow를 둘러본 적이 있다면 이미 스크래핑의 혜택을 누린 셈이에요.
제가 비즈니스 현장에서 가장 자주 접하는 활용 사례는 다음과 같아요.
- 리드 생성: 비즈니스 디렉터리에서 회사명, 웹사이트, 직책, 공개 연락처를 추출해요.
- 경쟁사 가격 모니터링: 이커머스 팀이 경쟁사 SKU 가격, 재고 여부, 배송 정보를 추적해요.
- 부동산 인텔리전스: 공개 부동산 매물, 가격, 시장 동향을 모아요.
- 상품 리서치: 소매 사이트에서 제품 사양, 평점, 재고, 카테고리 데이터를 가져와요.
- 시장 인텔리전스: 채용 공고, 매장 개점, 뉴스 신호, 공개 금융 데이터를 추적해요.
기술 자체는 중립적이에요. 법적 판단은 데이터를 어떻게 접근했는지, 그리고 그 이후 무엇을 했는지에 달려 있어요.
미국에서 웹 스크래핑은 합법일까? 짧은 답
미국 연방법에는 웹 스크래핑을 전면적으로 금지하는 법이 없어요. 공개적으로 이용 가능한 데이터를 스크래핑하는 것은 일반적으로 허용돼요.
하지만 — 이건 정말 중요한데 — 합법성은 여러 요소에 달려 있어요. 데이터의 종류, 접근 방식, 서비스 약관 동의 여부, 개인 정보 포함 여부, 그리고 그 데이터를 어떻게 사용할 계획인지가 모두 중요해요.
포럼, Reddit 글, 심지어 법률 블로그까지 포함해 가장 혼란을 만드는 지점은? 사람들은 “불법”과 “웹사이트 약관 위반”을 같은 것으로 생각해요. 이 둘은 완전히 달라요. 웹사이트 규칙을 어기면 IP가 차단되거나 계정이 정지될 수 있어요. 연방법을 위반하면 소송이 걸리거나, 드문 경우지만 형사 기소로 이어질 수 있어요. 대부분의 스크래핑 문제는 명백히 민사 범주에 속해요.
이 글의 나머지 부분에서는 핵심 법률, 중요한 판례들(2024년과 2025년 사건도 포함해서, 거의 다루는 사람이 없는 것들), 그리고 실제로 쓸 수 있는 의사결정 프레임워크를 설명할게요.
“불법”의 세 가지 유형: 형사, 민사, 그리고 ToS 위반
웹 스크래핑 법에서 가장 큰 오해 하나를 정리할 시간이 왔어요. 누군가 “웹 스크래핑이 불법인가요?”라고 물을 때, 보통 완전히 다른 세 가지 위험을 한데 묶어버려요. 이걸 구분하면 대화 자체가 달라져요.

| 책임 유형 | 발동 요인 | 가능한 결과 | 심각도 |
|---|---|---|---|
| 형사(CFAA) | 허가 없이 인증 장벽 뒤의 데이터에 접근, 사기, 자격 증명 오용 | 연방 기소, 벌금, 징역 | 🔴 매우 심각 — 하지만 일반적인 비즈니스 스크래핑에서는 극히 드묾 |
| 민사 소송 | 저작권 침해, 동산 침해(trespass to chattels), 계약 위반, 영업비밀 부정취득, 개인정보 침해 | 손해배상, 금지명령, 데이터 삭제 | 🟡 상당함 |
| ToS 위반 | Browsewrap 또는 clickwrap 서비스 약관 위반 | 계정 종료, IP 차단, 중지 요청서, 경우에 따라 민사 소송 | 🟢 낮음~중간 |
법무부는 에서, 가짜 계정을 만드는 것처럼 일반적인 서비스 약관 위반이나 웹사이트 규칙 위반만으로는 연방 형사 기소를 하기에 충분하지 않다고 명확히 밝혔어요. 이건 꽤 중요한 변화예요.
실무적으로 말하면, 영업팀이 공개 비즈니스 목록에서 리드를 스크래핑하거나 이커머스 팀이 경쟁사 가격을 모니터링하는 경우라면, 형사 위험보다는 민사 리스크 관리에 해당할 가능성이 거의 확실히 높아요. 규칙을 무시해도 된다는 뜻은 아니지만, 불안의 수준은 조금 조정해야 해요.
웹 스크래핑에 적용되는 핵심 미국 법률
미국에서 웹 스크래핑과 맞물리는 법적 축은 네 가지고, 각각 서로 다른 문제를 다뤄요.
컴퓨터 사기 및 남용 방지법(CFAA)
은 원래 컴퓨터 해킹을 처벌하기 위해 만들어졌어요. 그런데 시간이 지나면서 스크래핑 소송의 대표 법률로 자리 잡았고, 보통은 스크래퍼가 웹사이트에 “권한 없이” 접근했다는 논리로 사용됐어요.
그다음에 판결이 나왔어요. 대법원은 CFAA상 “허가된 접근을 초과했다”는 것은 컴퓨터의 특정 영역 — 파일, 폴더, 데이터베이스 — 중 접근이 금지된 곳에 들어갔을 때만 성립한다고 봤어요. 원래 볼 수 있었던 정보를 잘못 사용한 것만으로는 해당되지 않아요.
스크래핑에 대한 의미:
- CFAA 위험이 낮은 경우: 로그인 없이 누구나 볼 수 있는 공개 웹페이지. 문턱이 없으면 “비인가 접근” 문제가 거의 없어요.
- CFAA 위험이 높은 경우: 로그인 뒤의 데이터, 유료 장벽, 접근 토큰, 세션 조작, 또는 접근이 철회된 경우.
hiQ 대 LinkedIn 사건(아래에서 자세히 다룰 거예요)은 공개 데이터에 대해 이 점을 다시 확인시켜 줬어요. 하지만 CFAA는 퍼즐의 한 조각일 뿐이에요.
저작권법과 DMCA
미국 저작권법은 기사, 사진, 영상, 창작적인 제품 설명 같은 독창적인 표현을 보호하지만, . 이 분야의 대표 판례는 대법원의 이에요. 이름, 주소, 전화번호 같은 사실은 그것들을 모으는 데 얼마나 많은 노력이 들었든 저작권 대상이 아니에요.
스크래핑 데이터의 위험도는 다음과 같아요.
| 스크래핑 대상 | 저작권 위험 | 이유 |
|---|---|---|
| 가격, 제품명, 주소, 날짜, 사양 | 낮음 | 사실이기 때문이에요 |
| 전체 기사, 사진, 영상, 창작적 리뷰 | 높음 | 표현물에 해당하기 때문이에요 |
| 선별된 데이터베이스, 랭킹, 편집적 분류체계 | 중간~높음 | 선택과 배열이 보호될 수 있어요 |
| 유료 장벽이나 DRM 보호 콘텐츠 | 높음 | 저작권과 접근 통제 문제가 함께 생겨요 |
은 또 다른 층을 더해요. 유료 장벽, DRM, 특정 ضد봇 시스템 같은 기술적 보호조치를 우회해 저작권 콘텐츠에 접근하면, 그 내용을 직접 복사하지 않았더라도 책임이 발생할 수 있어요. 이 부분은 2025~2026년 사건들에서 강하게 시험되고 있어요. 예를 들어 사건에서 Google은 SearchGuard 안티봇 시스템을 우회한 것이 DMCA 위반이라고 주장해요.
공정 이용(fair use)도 중요해요 — 단순히 다시 게시하는 것보다, 데이터를 변형적으로 활용해 분석하거나, 집계하거나, 새 가치를 더하는 사용이 일반적으로 더 안전해요.
계약법: 서비스 약관(Browsewrap vs. Clickwrap)
많은 웹사이트가 약관에 스크래핑 금지 조항을 넣어두지만, 그 조항의 집행 가능성은 약관을 어떤 방식으로 접했는지에 따라 완전히 달라져요.
| 계약 유형 | 집행 가능성 | 스크래퍼에게 의미하는 것 |
|---|---|---|
| Clickwrap (“동의합니다”를 클릭) | 강함 | 법원은 일관되게 이를 집행해요. 스크래핑 금지 조항은 민사 청구의 근거가 될 수 있어요. |
| Sign-in wrap (로그인 근처의 고지) | 사안별 | 고지가 얼마나 눈에 띄었는지에 따라 달라져요. |
| Browsewrap (푸터에 링크) | 약함 | 사용자가 실제로 인지하지 못했다면 법원은 회의적이에요. |
| 계정/API 약관 | 더 강함 | 로그인 상태 스크래핑이나 API 오용은 훨씬 더 위험해요. |
사건에서 법원은 Meta가 주장한 방식대로라면 Meta의 약관이 로그아웃된 공개 스크래핑까지 포괄하지 않는다고 봤어요. Bright Data가 문제된 공개 스크래핑에 로그인 계정을 사용했다는 점은 입증되지 않았죠. 이건 꽤 중요한 차이예요.
실무 조언: 로그인한 적이 없고, “동의합니다”도 누른 적이 없고, 공개 페이지만 스크래핑한다면, browsewrap 제한은 웹사이트가 여러분을 상대로 집행하기 더 어려워요. 그래도 스크래핑 전에 항상 ToS를 확인하세요. 특히 계정을 만든 적이 있다면 더더욱요.
미국 주 개인정보법(CCPA 등)
스크래핑하는 데이터에 이름, 이메일, 전화번호, 위치 정보 같은 개인정보가 포함된다면 주 개인정보법이 적용될 수 있어요. 그리고 이 법 조각들은 빠르게 늘고 있어요. IAPP는 고 집계했고, 라고 보고했어요.
이들 법 대부분은 “공개적으로 이용 가능한” 개인정보에 대한 예외를 두고 있지만, 정의는 제각각이에요. 그리고 처음 수집은 예외에 해당하더라도, 이후 판매·공유·프로파일링 같은 사용은 여전히 의무를 발생시킬 수 있어요.
| 주 법률 | 시행 시기 | 스크래핑한 PII 포함? | 옵트아웃 요구 | 벌금 범위 |
|---|---|---|---|---|
| CCPA/CPRA(캘리포니아) | 2020/2023 | 예 | 판매/공유 옵트아웃, GPC 인정 | 위반당 2,663~7,988달러(2025년 조정) |
| CPA(콜로라도) | 2023 | 예 | 2024년 7월부터 보편적 옵트아웃/GPC | 기만적 거래 관행 프레임워크에 따른 민사 벌금 |
| CTDPA(코네티컷) | 2023 | 예 | 2025년 1월부터 OOPS/GPC | 고의 위반당 최대 5,000달러 |
| VCDPA(버지니아) | 2023 | 예 | 옵트아웃 권리 | 위반당 최대 7,500달러 |
| TDPSA(텍사스) | 2024 | 예 | 2025년 1월부터 보편적 옵트아웃 | 위반당 최대 7,500달러 |
| + 2026년까지 추가로 8개 | 다양 | 다양 | 다양 | 다양 |
추가로 제정된 주에는 유타, 오리건, 몬태나, 델라웨어, 아이오와, 네브래스카, 뉴햄프셔, 뉴저지, 테네시, 미네소타, 메릴랜드, 인디애나, 켄터키, 로드아일랜드가 있어요. 알라바마는 2027년 5월 1일 시행 법을 제정했어요.
제품 가격, 비즈니스 목록, 시장 데이터처럼 PII가 아닌 사실 정보를 스크래핑하는 비즈니스 사용자라면 개인정보 리스크는 훨씬 낮아요. 같은 도구는 공개 페이지(제품 데이터, 비즈니스 디렉터리, 부동산 매물)에서 구조화된 정보를 추출하는 데 초점을 맞추고 있어서, 상대적으로 가장 위험이 낮은 스크래핑 범주에 들어맞아요.
주요 웹 스크래핑 판례: 2000년부터 2026년까지의 흐름
이 부분이야말로 대부분의 가이드가 부족한 지점이라고 생각해요. 거의 모든 글이 hiQ 대 LinkedIn(2022)에서 멈추고, 지금 실제로 스크래핑 법을 바꾸고 있는 판결들을 놓치고 있어요. 전체 흐름은 다음과 같아요.
| 사건 | 연도 | 핵심 판단 | 스크래퍼에 미친 영향 |
|---|---|---|---|
| eBay 대 Bidder's Edge | 2000 | 동산 침해에 근거한 가처분; 크롤러가 서버에 부담을 준 점이 중요했어요 | ⚠️ 서버에 부담을 주는 대량 스크래핑은 민사 책임을 만들 수 있어요 |
| Facebook 대 Power Ventures | 2016 | 중지 요청 후에도 Facebook 시스템을 이용해 계속 접근한 경우 CFAA 책임 | ⚠️ 중지 요청 + 인증/게이트된 접근은 매우 위험해요 |
| Van Buren 대 US | 2021 | CFAA의 “허가된 접근 초과”는 접근 금지 영역에 들어갈 때만 성립 | ✅ CFAA 범위를 크게 좁혔어요 |
| hiQ 대 LinkedIn | 2022 | 공개 데이터 접근은 CFAA 위반이 아님(가처분, 이후 합의) | ✅ 공개 데이터 ≠ “비인가 접근” — 하지만 최종 판결은 아니었어요 |
| Meta 대 Bright Data | 2024 | 로그아웃된 공개 스크래핑에 대한 Meta의 계약 이론으로 Bright Data가 약식 판결 승소 | ✅ 동의가 없으면 약관이 로그아웃 스크래핑을 구속하지 않을 수 있어요 |
| X Corp. 대 Bright Data | 2024 | 5월에 다수 청구 기각, 11월 명령은 스크래핑/판매 기반 청구를 기각 | ✅ 공개 데이터 복제 청구가 약화됐어요 |
| Compulife 대 Newman/Rutstein | 2024-2025 | 보험 견적 데이터 대량 추출에 대한 영업비밀 책임; 2025년 2월 상고허가 기각 | ⚠️ 공개된 데이터도 보호된 데이터베이스일 수 있어요 |
| Reddit 대 Perplexity/SerpApi/Oxylabs/AWMProxy | 2025-2026 | Google 검색 결과를 통한 산업 규모의 간접 스크래핑을 주장 | ⚠️ AI 시대 사건들은 데이터 공급망을 겨냥해요 |
| Google 대 SerpApi | 2025-2026 | 안티봇 우회 주장에 대한 DMCA §1201 청구 | ⚠️ 안티봇 시스템이 DMCA상 접근 통제인지 시험해요 |
흐름은 분명해요. 법원은 CFAA상 공개 데이터 접근을 점점 더 보호하고 있지만, 저작권, 계약, 개인정보, 영업비밀, 인프라 관련 청구는 여전히 독립적인 위험으로 남아 있어요. 그리고 AI 학습 붐은 완전히 새로운 법적 질문을 만들어내고 있어요.
hiQ 대 LinkedIn이 실제로 무엇을 결정했는지 바로잡기
이건 웹 스크래핑 법 전체에서 가장 많이 오해되는 사건이에요. 블로그 글, Reddit 스레드, 심지어 법률 요약에서도 “공개 웹 스크래핑은 합법”의 증거처럼 인용하더군요. 그렇게 단순하지 않아요.
실제로 일어난 일은 이래요.
hiQ가 판시한 내용: 제9연방항소법원은 LinkedIn이 hiQ의 공개 LinkedIn 프로필 스크래핑을 막지 못하도록 한 예비 금지명령 — 임시 명령 — 을 유지했어요. 법원은 공개적으로 이용 가능한 데이터에 접근하는 것이 아마도 CFAA를 위반하지 않는다고 봤어요. 핵심은 “아마도”예요. 출처: .
hiQ가 확립하지 않은 것:
- 어떤 공개 웹사이트든 마음대로 스크래핑할 권리
- 본안에 대한 최종 판결 — 대법원이 Van Buren 이후 사건을 파기환송했고, 제9연방항소법원이 다시 유지했지만, 결국 사건은 로 끝나 최종 판결이 없었어요
- 공개된 합의 내용에는 50만 달러, 금지명령, 데이터/소프트웨어 파기 의무가 포함됐어요
왜 이게 여러분에게 중요한가: hiQ는 공개 데이터 스크래퍼에게 고무적인 사례예요. 법원이 자신들이 소유하지 않은 정보를 플랫폼이 사유화해 독점하는 데 조심스러워한다는 신호니까요. 하지만 법적 보증서는 아니에요. 저작권, 계약, 개인정보, 영업비밀 같은 다른 청구는 해결되지 않았어요. Van Buren 이후 CFAA 환경은 더 명확해졌지만, hiQ만 믿고 법적 방패로 삼는 건 실수예요.
이 차이를 이해하는 것이야말로, 감에 의존한 낙관과 제대로 된 리스크 관리의 차이를 만들어요.
이걸 합법적으로 스크래핑할 수 있을까? 실용적인 판단 흐름도

스크래핑의 합법성은 늘 “회색지대”처럼 느껴져요. 그래서 더 많은 법이론 대신, 실제로 쓸 수 있는 판단 기준을 드릴게요. 어떤 스크래핑 프로젝트든 아래 다섯 질문을 먼저 보세요.
1. 데이터가 공개적으로 접근 가능한가요? (로그인 없이 볼 수 있나요?)
- 아니오 → CFAA 위험이 더 높아요. 진행 전에 허가를 받거나 법률 검토를 받으세요.
- 예 → 2번으로 가세요.
2. CAPTCHA, IP 차단, 속도 제한, 유료 장벽 같은 기술적 장벽을 우회하고 있나요?
- 예 → DMCA와 CFAA 문제가 생길 수 있어요. 중단하거나 법무팀에 넘기세요.
- 아니오 → 3번으로 가세요.
3. 스크래핑을 금지하는 clickwrap ToS에 동의했나요?
- 예 → 민사 계약 책임 위험이 있어요. 다른 출처에서 데이터를 구할 수 있는지 보거나 허가를 요청하세요.
- 아니오 → 4번으로 가세요.
4. 데이터에 개인정보(PII)가 포함되나요?
- 예 → CCPA와 해당 주 개인정보법을 확인하세요. 적법한 사용 목적이 있는지 확인하고 옵트아웃 권리를 존중하세요.
- 아니오 → 5번으로 가세요.
5. 그 데이터를 어떻게 사용할 건가요?
- 저작권이 있는 콘텐츠(전체 기사, 사진, 영상)의 상업적 재게시 → 저작권 위험
- 변형적 분석, 내부 리서치, 사실 데이터 활용(가격, 사양, 매물) → 일반적으로 위험이 더 낮음
만약 “공개 페이지, 우회 없음, clickwrap 없음, 비PII, 내부 분석용 사실 데이터” 범주에 들어간다면, 가장 위험이 낮은 영역에 있는 거예요. 바로 그런 워크플로우를 가 위해 설계했어요. 공개 웹페이지에서 제품 목록, 비즈니스 디렉터리, 부동산 데이터 같은 구조화된 사실 데이터를 추출한 뒤, Excel, Google Sheets, Airtable, Notion으로 내보내 자체 분석에 활용할 수 있게 해줘요.
이 흐름도는 북마크해 두세요. 변호사를 대신하진 못하지만, 불필요한 공포는 많이 줄여줄 거예요.
AI 학습과 웹 스크래핑: 새로운 법적 최전선

AI는 스크래핑 법에 완전히 새로운 복잡성을 더했어요. 대규모 언어 모델, 이미지 생성기, 기타 AI 시스템을 학습시키기 위해 데이터를 스크래핑하는 것은 이제 주요 법적 전장이 됐고, 아직 핵심 쟁점들은 법원이 정리하지 못했어요.
현재 상황은 이래요.
| 사건 | 상태(2026) | 핵심 쟁점 |
|---|---|---|
| NYT 대 OpenAI/Microsoft | 진행 중. 핵심 저작권 청구는 2025년 4월에 계속 진행 허용; 증거개시 분쟁에는 2천만 개가 넘는 ChatGPT 로그가 포함돼요. | 스크래핑한 뉴스 기사로 학습하는 것이 공정 이용인가, 저작권 침해인가? |
| Bartz 대 Anthropic | Alsup 판사는 일부 학습 사용은 공정 이용이지만, 불법 복제 출처의 취득은 아니라고 봤어요. 보도된 합의: 약 15억 달러. | 학습 자체는 변형적일 수 있지만, 해적판 소스 복제는 별개의 문제예요. |
| Thomson Reuters 대 Ross | 델라웨어 법원은 Westlaw 헤드노트를 사용해 경쟁 법률 리서치 제품을 만드는 데 공정 이용을 인정하지 않았어요. | 직접 대체재 제품은 저작권 위험이 더 높아요. |
| Getty 대 Stability AI | 영국 사건은 2025년에 대체로 Stability에 유리했어요. 미국 사건은 진행 중. | 이미지 학습 관련 법은 아직 확정되지 않았어요. |
도 중요한 뉘앙스를 더해요. 대규모의 다양한 데이터셋으로 학습하는 것은 종종 변형적일 수 있지만, 불법 복제된 소스의 복사나 저작권자의 시장과 직접 경쟁하는 활용은 공정 이용 주장이 훨씬 약해요.
이 글을 읽는 대부분의 비즈니스 사용자에게는 구분이 분명해요. 자체 분석이나 비즈니스 운영을 위한 데이터 스크래핑(리드 생성, 가격 모니터링, 시장조사)은, AI 모델을 학습시키고 상용화하기 위한 데이터 스크래핑과는 완전히 다른 법적 문제예요. 전자는 저작권 위험이 더 낮아요. 후자는 지금 큰 소송들이 벌어지고 있는 영역이에요.
책임감 있게 데이터를 스크래핑하는 방법(비즈니스 팀을 위한 모범 사례)
법 얘기는 이쯤 하고, 팀에 법적 골칫거리를 만들지 않으면서 실제로 데이터를 스크래핑하는 방법을 볼게요.
공개적으로 이용 가능한 데이터에만 집중하세요
로그인 없이 누구나 볼 수 있는 데이터 — 제품 목록, 비즈니스 디렉터리, 공공 기록, 가격 페이지 — 에 집중하세요. 로그인 뒤로 들어가는 순간 더 높은 위험 구역으로 이동하는 거예요.
기술적 장벽을 우회하지 마세요
사이트가 CAPTCHA, IP 차단, 속도 제한, 유료 장벽을 사용한다면, 그건 신호예요. 이를 우회하면 DMCA, CFAA, 계약 위반 청구가 생길 수 있어요. 그 데이터가 정말 중요하다면 공식 API나 데이터 파트너십을 찾는 편이 좋아요.
서비스 약관을 확인하세요
특히 계정을 만들었거나 “동의합니다”를 클릭한 적이 있다면요. ToS에서 스크래핑 금지 조항을 확인하세요. 약관이 스크래핑을 금지하고 있고 그에 동의했다면, 다른 출처가 있는지 먼저 검토하세요.
개인정보 수집을 최소화하세요
PII(이름, 이메일, 전화번호)를 수집한다면, 해당 주 개인정보법상 적법한 사용 목적이 있는지 확인하세요. 회사명, 제품 가격, 매물 정보 같은 사실 기반 비즈니스 데이터 스크래핑은 개인 소비자 프로필을 스크래핑하는 것보다 훨씬 위험이 낮아요.
robots.txt와 속도 제한을 존중하세요
는 그 자체로 법적 구속력은 없지만, 이를 존중하는 것은 선의의 행동을 보여줘요. 그리고 웹사이트 서버를 두드려대지 마세요. 요청을 적절히 제한하고, 합리적인 간격을 두고, 인프라에 피해를 주지 마세요.
재게시가 아니라 분석에 데이터를 사용하세요
변형적 사용 — 분석, 집계, 내부 리서치, 경쟁 인텔리전스 — 은 남의 기사, 이미지, 리뷰를 그대로 복사해 다시 올리는 것보다 훨씬 안전해요. 팀용 대시보드나 스프레드시트를 만드는 거라면, 자체 웹사이트에 스크래핑 콘텐츠를 재게시하는 것보다 훨씬 유리한 위치에 있어요.
준수형 스크래핑을 위해 설계된 도구를 선택하세요
여기서 에서 만든 것을 소개할게요. 저희 은 공개 웹페이지에서 구조화된 데이터를 추출하고 싶은 비즈니스 사용자를 위해 설계됐어요. 제품 목록, 비즈니스 디렉터리, 부동산 데이터, 리드 정보 등을 코딩 없이, 기술적 장벽을 우회하지 않고 가져올 수 있어요. AI가 페이지를 읽고, 필드를 제안하고, 으로 내보내게 해줘요. 위 의사결정 흐름도의 가장 위험이 낮은 가지, 즉 공개 페이지·사실 데이터·로그인 우회 없음에 맞춰져 있어요.
그렇다고 어떤 도구도 법적 위험에서 여러분을 면책해주진 않아요. 무엇을 스크래핑하고 어떻게 사용하는지에 대한 책임은 항상 사용자에게 있어요.
로그를 남기고, 중지 요청서가 오면 멈추세요
스크래핑 활동과 비즈니스 목적을 문서화하세요. 중지 요청서를 받으면 멈추고 법률 자문을 받으세요. 공식 통지 후에도 계속 스크래핑하면 위험도가 크게 올라가요. 특히 게이트된 시스템이 포함돼 있다면 더더욱요.
미국에서 웹 스크래핑 합법성에 대한 핵심 정리
짧게 정리하면 이래요.
- 미국 연방법은 웹 스크래핑을 금지하지 않아요. 공개적으로 이용 가능한 사실 데이터 스크래핑은 일반적으로 허용돼요.
- 합법성은 무엇을 스크래핑하는지, 어떻게 접근하는지, 그리고 어떻게 사용하는지에 달려 있어요. 공개 페이지 + 사실 데이터 + 내부 분석 = 가장 낮은 위험.
- Van Buren과 hiQ 이후 CFAA의 범위는 좁아졌어요. 하지만 저작권, 계약, 개인정보, 영업비밀 청구는 여전히 독립적인 위험으로 남아 있어요.
- 일반적인 비즈니스 스크래핑에서 형사 책임은 드물어요. 대부분의 위험은 민사예요. 수갑이 아니라 소송이죠.
- hiQ 대 LinkedIn은 만능 허가증이 아니에요. 예비 금지명령이었고 나중에 합의됐어요. 고무적이지만 보증은 아니에요.
- PII가 포함되면 주 개인정보법이 중요해져요. 하지만 가격, 매물, 사양처럼 비PII 데이터는 가장 위험이 낮아요.
- AI 학습 용도는 새롭고 아직 정리되지 않은 법적 최전선이에요. 자체 분석을 위한 비즈니스 스크래핑과 상용 AI 모델 구축을 위한 스크래핑은 위험 프로필이 완전히 달라요.
- 모범 사례를 따르면 — 공개 데이터만 사용하고, ToS를 존중하고, PII를 피하고, 장벽을 우회하지 않고, 데이터를 책임감 있게 사용하는 것 — 팀을 안전 구역에 둘 수 있어요.
중요한 면책 조항 하나: 이 글은 정보 제공용이지 법률 자문이 아니에요. 대규모 스크래핑 작업을 계획 중이거나 민감한 데이터를 다룬다면 자격 있는 변호사와 상담하세요. 하지만 공개 디렉터리에서 리드를 가져오고 싶은 영업 매니저나 경쟁사 가격을 모니터링하는 이커머스 팀이라면? 생각보다 법은 여러분 편에 더 가까워요.
Thunderbit가 이런 공개 데이터 추출을 얼마나 간단하게 만드는지 보고 싶다면 — 코딩도 없고, 우회도 없고, 그저 구조화된 데이터를 워크플로우로 넣는 방식이에요 — 를 확인하거나 을 내려받아 직접 써보세요.
자주 묻는 질문
1. 2026년 미국에서 웹 스크래핑은 합법인가요?
네, 공개적으로 이용 가능한 데이터를 스크래핑하는 경우 미국에서 웹 스크래핑은 일반적으로 합법이에요. 이를 전면 금지하는 연방법은 없어요. 다만 어떻게 스크래핑하는지, 어떤 데이터를 수집하는지, 어떻게 사용하는지에 따라 CFAA, 저작권법, 계약법, 주 개인정보 규정상 법적 위험이 생길 수 있어요. 가장 안전한 방법은 공개 페이지에만 머무르고, 기술적 장벽 우회를 피하고, 개인정보 수집을 최소화하고, 데이터를 재게시가 아니라 분석에 사용하는 거예요.
2. 웹 스크래핑 때문에 감옥에 갈 수 있나요?
웹 스크래핑으로 형사 기소되는 일은 극히 드물고, 보통은 허가 없이 인증 장벽 뒤의 데이터에 접근한 경우(CFAA 위반)나 사기를 저질렀을 때에나 해당돼요. 법무부의 2022년 CFAA 기소 정책은 일반적인 서비스 약관 위반만으로는 형사 기소가 충분하지 않다고 밝혔어요. 대부분의 웹 스크래핑 분쟁은 민사 문제예요. 즉, 형사 사건이 아니라 소송이에요.
3. 웹사이트 서비스 약관을 위반하면 스크래핑이 불법이 되나요?
자동으로 그렇진 않아요. 웹사이트 ToS 위반은 형사 범죄가 아니라 계약 문제예요. 스크래핑을 금지하는 clickwrap 약관에 동의했다면, 웹사이트는 민사상 계약 위반 청구를 제기할 수 있어요. 하지만 푸터에 링크된 browsewrap 약관은 집행이 훨씬 어려워요. 특히 로그인한 적도 없고 “동의합니다”를 누른 적도 없다면 더 그래요. 법원은 여러 스크래핑 사건에서 수동적인 browsewrap 집행에 회의적이었어요.
4. 미국에서 개인 데이터(이메일, 전화번호)를 스크래핑하는 것은 합법인가요?
경우에 따라 달라요. CCPA, VCDPA, CPA 등 많은 미국 주 개인정보법은 공개적으로 이용 가능한 개인정보에 대한 예외를 두고 있지만, 정의와 이후 사용 의무는 제각각이에요. 제품 가격, 비즈니스 목록, 공공 기록 같은 비개인 데이터 스크래핑은 개인 소비자 프로필을 스크래핑하는 것보다 훨씬 위험이 낮아요. 대량으로 PII를 수집한다면 해당 주 법률을 확인하고 적법한 목적이 있는지 보세요.
5. hiQ 대 LinkedIn이 모든 웹 스크래핑을 합법으로 만들었나요?
아니요. hiQ 판결은 본안에 대한 최종 결정이 아니라, 성공 가능성에 기반한 임시 명령인 예비 금지명령이었어요. 제9연방항소법원은 공개 데이터 접근이 CFAA를 위반하지 않을 가능성이 높다고 봤지만, 사건은 2022년 최종 법원 판결 없이 합의로 끝났어요. 어떤 웹사이트든 마음대로 스크래핑할 수 있는 포괄적 허가를 준 것도 아니고, 저작권·계약·개인정보·영업비밀 청구를 다루지도 않았어요. 공개 데이터 스크래퍼에게는 고무적이지만, 법적 보증은 아니에요.
더 알아보기
