미국에서 웹 스크래핑은 합법일까? 실제 법은 이렇게 말합니다

"공개된 비즈니스 디렉터리에서 리드를 스크래핑해도 될까요, 아니면 소송감일까요?" 영업하는 분들에게 가장 많이 듣는 질문이에요. 로그인도 유료 장벽도 없이 오픈 웹에 그대로 놓인 잠재 고객 데이터를 보면 누구나 보물창고를 찾은 기분이 들죠. 그런데 검색창에 한 번 물어보고 나면, 자칫 수갑을 차는 거 아닌가 하는 공포에 빠지는 분이 많아요.

이 불안에는 이유가 있어요. 자동화된 트래픽은 이미 전체 웹 트래픽의 약 51%를 차지하고, 웹 스크래핑 소프트웨어 시장도 2025년 약 10억 8천만 달러에서 2031년 35억 9천만 달러로 커질 전망이에요. 그런데 정작 온라인에 떠도는 법적 가이드는 대부분 낡았거나, 너무 단순하거나, 아예 틀렸어요. 대표적인 게 2022년 hiQ 대 LinkedIn 사건이에요. 거의 모든 글이 이걸 "모든 스크래핑은 합법"이라는 대법원 판결처럼 다루는데, 사실은 그렇지 않아요. 당시에도 마찬가지였고요.

반대로 2024~2025년엔 X(옛 Twitter), Meta, Reddit, Google, AI 기업들이 얽힌 대형 사건이 실제로 규칙을 다시 쓰고 있어요. 그런데 이걸 제대로 짚는 곳은 거의 없죠. 이 글은 2026년 기준으로 미국 법이 웹 스크래핑에 대해 뭐라고 하는지 정리하고, 오해와 현실을 가르고, 할 수 있는 것과 없는 것을 판단하는 실용 기준을 드려요.

ig_01ef7eecb01f4f920169f063829a4481918da7ee0e1b3f672e_compressed.webp

웹 스크래핑이란 무엇일까? (그리고 기업은 왜 신경 쓸까?)

웹 스크래핑은 자동화 소프트웨어로 웹사이트에서 정보를 모아 스프레드시트, 데이터베이스, CRM 같은 구조화된 데이터로 정리하는 작업이에요.

조금 더 풀면, 스크래퍼는 웹페이지를 방문해 안의 HTML을 읽고, 필요한 데이터 — 가격, 이름, 주소, 제품 사양 — 만 골라 깔끔한 행과 열로 뽑아내요. 사람을 시켜 웹사이트 정보를 엑셀에 옮겨 적게 하는 것과 비슷한데, 봇은 몇 시간 걸릴 일을 몇 초에 끝내요.

스크래핑은 해킹이 아니에요. 방문자가 브라우저에서 보는 그 정보에 접근할 뿐이에요.

개발자만의 기술도 아니고요. 검색 엔진, 가격 비교 사이트, 부동산 플랫폼, 시장조사 대시보드, AI 도구가 다 웹 크롤링과 스크래핑으로 돌아가요. 구글을 쓰거나, 항공권 비교 사이트를 보거나, Zillow를 둘러봤다면 이미 그 혜택을 받은 거예요.

현장에서 가장 자주 보는 활용 사례는 이런 것들이에요.

리드 생성: 비즈니스 디렉터리에서 회사명, 웹사이트, 직책, 공개 연락처를 뽑아요.
경쟁사 가격 모니터링: 이커머스 팀이 경쟁사 SKU 가격, 재고, 배송 정보를 추적해요.
부동산 인텔리전스: 공개 매물, 가격, 시장 동향을 모아요.
상품 리서치: 소매 사이트에서 사양, 평점, 재고, 카테고리 데이터를 가져와요.
시장 인텔리전스: 채용 공고, 매장 개점, 뉴스 신호, 공개 금융 데이터를 추적해요.

기술 자체는 중립이에요. 법적 판단을 가르는 건 데이터에 어떻게 접근했고, 그 뒤에 무엇을 했느냐예요.

미국에서 웹 스크래핑은 합법일까? 짧은 답

미국 연방법에 웹 스크래핑을 전면 금지하는 조항은 없어요. 공개적으로 접근 가능한 데이터를 스크래핑하는 건 보통 허용돼요.

다만 — 이 부분이 핵심인데 — 합법성은 여러 조건에 달려 있어요. 데이터 종류, 접근 방식, 서비스 약관 동의 여부, 개인 정보 포함 여부, 그리고 그 데이터를 어디에 쓸 건지까지 전부요.

포럼, Reddit, 법률 블로그까지 가장 헷갈려 하는 지점이 있어요. "불법"과 "웹사이트 약관 위반"을 같은 걸로 보는 거예요. 둘은 전혀 달라요. 규칙을 어기면 IP가 차단되거나 계정이 정지돼요. 연방법을 위반하면 소송, 드물게 형사 기소로 가고요. 대부분의 스크래핑 문제는 명백히 민사 영역이에요.

나머지 글에서는 핵심 법률, 중요한 판례(거의 안 다뤄지는 2024~2025년 사건 포함), 실제로 쓸 수 있는 판단 기준을 설명할게요.

"불법"의 세 가지 유형: 형사, 민사, 그리고 ToS 위반

웹 스크래핑 법의 가장 큰 오해를 정리할게요. "웹 스크래핑이 불법인가요?"라고 물을 때, 사람들은 보통 전혀 다른 세 가지 위험을 한 덩어리로 묶어요. 이걸 가르면 대화 자체가 달라져요.

ig_01ef7eecb01f4f920169f064039ff881918c7bf5b1db31fa7f_compressed.webp

책임 유형	발동 요인	가능한 결과	심각도
형사(CFAA)	허가 없이 인증 장벽 뒤의 데이터에 접근, 사기, 자격 증명 오용	연방 기소, 벌금, 징역	🔴 매우 심각 — 하지만 일반적인 비즈니스 스크래핑에서는 극히 드묾
민사 소송	저작권 침해, 동산 침해(trespass to chattels), 계약 위반, 영업비밀 부정취득, 개인정보 침해	손해배상, 금지명령, 데이터 삭제	🟡 상당함
ToS 위반	Browsewrap 또는 clickwrap 서비스 약관 위반	계정 종료, IP 차단, 중지 요청서, 경우에 따라 민사 소송	🟢 낮음~중간

법무부는 2022년 CFAA 기소 정책에서 분명히 선을 그었어요. 가짜 계정을 만드는 것 같은 일반적인 약관 위반이나 웹사이트 규칙 위반만으로는 연방 형사 기소 사유가 안 된다고요. 꽤 의미 있는 변화예요.

실무로 보면, 영업팀이 공개 목록에서 리드를 뽑거나 이커머스 팀이 경쟁사 가격을 모니터링하는 정도라면, 형사 위험이 아니라 민사 리스크 관리 영역일 가능성이 거의 확실해요. 규칙을 무시해도 된다는 뜻은 아니지만, 불안의 눈금은 좀 내려놔도 돼요.

웹 스크래핑에 적용되는 핵심 미국 법률

미국에서 웹 스크래핑과 맞물리는 법적 축은 네 개고, 각각 다른 문제를 다뤄요.

컴퓨터 사기 및 남용 방지법(CFAA)

컴퓨터 사기 및 남용 방지법(CFAA, 18 U.S.C. § 1030)은 원래 컴퓨터 해킹을 처벌하려고 만든 법이에요. 그런데 시간이 지나며 스크래핑 소송의 단골이 됐어요. 보통 스크래퍼가 "권한 없이" 접근했다는 논리로요.

그러다 Van Buren 대 United States 판결이 나왔어요. 대법원은 CFAA상 "허가된 접근 초과"란 접근 금지된 컴퓨터 영역 — 파일, 폴더, 데이터베이스 — 에 들어갔을 때만 성립한다고 봤어요. 원래 볼 수 있던 정보를 잘못 쓴 것만으론 안 되고요.

스크래핑에 대입하면 이래요.

CFAA 위험이 낮은 경우: 로그인 없이 누구나 보는 공개 웹페이지. 문턱이 없으면 "비인가 접근" 문제도 거의 없어요.
CFAA 위험이 높은 경우: 로그인 뒤 데이터, 유료 장벽, 접근 토큰, 세션 조작, 또는 접근이 철회된 경우.

hiQ 대 LinkedIn 사건(아래에서 자세히 볼게요)은 공개 데이터에 대해 이 점을 한 번 더 확인해 줬어요. 그래도 CFAA는 퍼즐의 한 조각일 뿐이에요.

저작권법과 DMCA

미국 저작권법은 기사, 사진, 영상, 창작적인 제품 설명 같은 독창적 표현을 보호하지만, 원시 사실 자체는 보호하지 않아요. 이 분야 대표 판례가 대법원의 Feist 판결이에요. 이름, 주소, 전화번호 같은 사실은 그걸 모으는 데 아무리 공이 들었어도 저작권 대상이 아니에요.

스크래핑하는 데이터의 위험도는 이렇게 갈려요.

스크래핑 대상	저작권 위험	이유
가격, 제품명, 주소, 날짜, 사양	낮음	사실이기 때문이에요
전체 기사, 사진, 영상, 창작적 리뷰	높음	표현물에 해당하기 때문이에요
선별된 데이터베이스, 랭킹, 편집적 분류체계	중간~높음	선택과 배열이 보호될 수 있어요
유료 장벽이나 DRM 보호 콘텐츠	높음	저작권과 접근 통제 문제가 함께 생겨요

여기에 DMCA의 우회 금지 조항(17 U.S.C. § 1201)이 한 겹을 더해요. 유료 장벽, DRM, 일부 안티봇 시스템 같은 기술적 보호조치를 우회해 저작권 콘텐츠에 접근하면, 그 내용을 직접 복사하지 않았어도 책임이 생길 수 있어요. 이 부분이 2025~2026년 사건들에서 세게 시험받고 있어요. Google 대 SerpApi 사건이 대표적인데, Google은 SearchGuard 안티봇 시스템을 우회한 게 DMCA 위반이라고 주장해요.

공정 이용(fair use)도 중요해요. 그대로 다시 게시하는 것보다, 데이터를 변형적으로 써서 분석하거나 집계하거나 새 가치를 더하는 쪽이 보통 더 안전해요.

계약법: 서비스 약관(Browsewrap vs. Clickwrap)

많은 웹사이트가 약관에 스크래핑 금지 조항을 넣어요. 그런데 그 조항을 실제로 집행할 수 있느냐는, 사용자가 약관을 어떤 방식으로 접했느냐에 따라 완전히 달라져요.

계약 유형	집행 가능성	스크래퍼에게 의미하는 것
Clickwrap (“동의합니다”를 클릭)	강함	법원은 일관되게 이를 집행해요. 스크래핑 금지 조항은 민사 청구의 근거가 될 수 있어요.
Sign-in wrap (로그인 근처의 고지)	사안별	고지가 얼마나 눈에 띄었는지에 따라 달라져요.
Browsewrap (푸터에 링크)	약함	사용자가 실제로 인지하지 못했다면 법원은 회의적이에요.
계정/API 약관	더 강함	로그인 상태 스크래핑이나 API 오용은 훨씬 더 위험해요.

Meta 대 Bright Data(2024) 사건에서 법원은, Meta가 주장한 방식대로라면 Meta 약관이 로그아웃 상태의 공개 스크래핑까지 포괄하진 않는다고 봤어요. Bright Data가 문제된 공개 스크래핑에 로그인 계정을 썼다는 점도 입증되지 않았고요. 꽤 중요한 차이예요.

실무 조언을 드릴게요. 로그인한 적 없고, "동의합니다"도 누른 적 없고, 공개 페이지만 스크래핑한다면, browsewrap 제한은 웹사이트가 사용자를 상대로 집행하기 더 어려워요. 그래도 스크래핑 전엔 항상 약관을 확인하세요. 계정을 만든 적 있다면 더더욱요.

미국 주 개인정보법(CCPA 등)

스크래핑하는 데이터에 이름, 이메일, 전화번호, 위치 같은 개인정보가 들어 있으면 주 개인정보법이 걸릴 수 있어요. 그리고 이 법 조각들은 빠르게 늘고 있어요. IAPP는 2025년 중반까지 포괄적 주 개인정보법이 19개 제정됐다고 봤고, MultiState는 2026년에 포괄적 개인정보법이 발효 중인 주가 20개라고 보고했어요.

대부분은 "공개적으로 이용 가능한" 개인정보에 예외를 두지만, 정의는 주마다 제각각이에요. 게다가 처음 수집은 예외에 들어가도, 이후 판매·공유·프로파일링 같은 사용은 여전히 의무를 만들 수 있어요.

주 법률	시행 시기	스크래핑한 PII 포함?	옵트아웃 요구	벌금 범위
CCPA/CPRA(캘리포니아)	2020/2023	예	판매/공유 옵트아웃, GPC 인정	위반당 2,663~7,988달러(2025년 조정)
CPA(콜로라도)	2023	예	2024년 7월부터 보편적 옵트아웃/GPC	기만적 거래 관행 프레임워크에 따른 민사 벌금
CTDPA(코네티컷)	2023	예	2025년 1월부터 OOPS/GPC	고의 위반당 최대 5,000달러
VCDPA(버지니아)	2023	예	옵트아웃 권리	위반당 최대 7,500달러
TDPSA(텍사스)	2024	예	2025년 1월부터 보편적 옵트아웃	위반당 최대 7,500달러
+ 2026년까지 추가로 8개	다양	다양	다양	다양

여기에 더해 유타, 오리건, 몬태나, 델라웨어, 아이오와, 네브래스카, 뉴햄프셔, 뉴저지, 테네시, 미네소타, 메릴랜드, 인디애나, 켄터키, 로드아일랜드가 법을 제정했어요. 알라바마는 2027년 5월 1일 시행 법을 만들었고요.

제품 가격, 비즈니스 목록, 시장 데이터처럼 PII가 아닌 사실 정보를 다룬다면 개인정보 리스크는 훨씬 낮아요. Thunderbit 같은 도구는 공개 페이지(제품 데이터, 비즈니스 디렉터리, 부동산 매물)에서 구조화된 정보를 뽑는 데 집중해, 가장 위험이 낮은 범주에 잘 맞고요.

주요 웹 스크래핑 판례: 2000년부터 2026년까지의 흐름

대부분의 가이드가 약한 지점이 여기예요. 거의 다 hiQ 대 LinkedIn(2022)에서 멈추고, 지금 실제로 법을 바꾸는 판결들을 놓쳐요. 전체 흐름을 한눈에 보면 이래요.

사건	연도	핵심 판단	스크래퍼에 미친 영향
eBay 대 Bidder's Edge	2000	동산 침해에 근거한 가처분; 크롤러가 서버에 부담을 준 점이 중요했어요	⚠️ 서버에 부담을 주는 대량 스크래핑은 민사 책임을 만들 수 있어요
Facebook 대 Power Ventures	2016	중지 요청 후에도 Facebook 시스템을 이용해 계속 접근한 경우 CFAA 책임	⚠️ 중지 요청 + 인증/게이트된 접근은 매우 위험해요
Van Buren 대 US	2021	CFAA의 “허가된 접근 초과”는 접근 금지 영역에 들어갈 때만 성립	✅ CFAA 범위를 크게 좁혔어요
hiQ 대 LinkedIn	2022	공개 데이터 접근은 CFAA 위반이 아님(가처분, 이후 합의)	✅ 공개 데이터 ≠ “비인가 접근” — 하지만 최종 판결은 아니었어요
Meta 대 Bright Data	2024	로그아웃된 공개 스크래핑에 대한 Meta의 계약 이론으로 Bright Data가 약식 판결 승소	✅ 동의가 없으면 약관이 로그아웃 스크래핑을 구속하지 않을 수 있어요
X Corp. 대 Bright Data	2024	5월에 다수 청구 기각, 11월 명령은 스크래핑/판매 기반 청구를 기각	✅ 공개 데이터 복제 청구가 약화됐어요
Compulife 대 Newman/Rutstein	2024-2025	보험 견적 데이터 대량 추출에 대한 영업비밀 책임; 2025년 2월 상고허가 기각	⚠️ 공개된 데이터도 보호된 데이터베이스일 수 있어요
Reddit 대 Perplexity/SerpApi/Oxylabs/AWMProxy	2025-2026	Google 검색 결과를 통한 산업 규모의 간접 스크래핑을 주장	⚠️ AI 시대 사건들은 데이터 공급망을 겨냥해요
Google 대 SerpApi	2025-2026	안티봇 우회 주장에 대한 DMCA §1201 청구	⚠️ 안티봇 시스템이 DMCA상 접근 통제인지 시험해요

흐름은 뚜렷해요. 법원은 CFAA상 공개 데이터 접근을 점점 더 보호하는 쪽으로 가고 있어요. 하지만 저작권, 계약, 개인정보, 영업비밀, 인프라 관련 청구는 여전히 따로 떨어진 위험으로 남아 있어요. 거기에 AI 학습 붐이 완전히 새로운 법적 질문을 쏟아내고 있고요.

hiQ 대 LinkedIn이 실제로 무엇을 결정했는지 바로잡기

웹 스크래핑 법에서 가장 많이 오해받는 사건이에요. 블로그, Reddit, 법률 요약에서도 "공개 웹 스크래핑은 합법"의 증거처럼 인용하죠. 그렇게 단순하지 않아요.

실제로 일어난 일은 이래요.

hiQ가 판시한 내용: 제9연방항소법원은, LinkedIn이 hiQ의 공개 LinkedIn 프로필 스크래핑을 막지 못하도록 한 예비 금지명령 — 임시 명령 — 을 유지했어요. 법원은 공개적으로 이용 가능한 데이터에 접근하는 게 아마도 CFAA 위반이 아니라고 봤어요. 핵심은 "아마도"예요. 출처: hiQ Labs 대 LinkedIn, 제9연방항소법원.

hiQ가 확립하지 않은 것:

어떤 공개 웹사이트든 마음대로 스크래핑할 권리
본안에 대한 최종 판결 — 대법원이 Van Buren 이후 사건을 파기환송했고, 제9연방항소법원이 다시 유지했지만, 결국 2022년 말 합의로 끝나 최종 판결은 없었어요
공개된 합의 내용에는 50만 달러, 금지명령, 데이터/소프트웨어 파기 의무가 들어 있었어요

왜 중요하냐면: hiQ는 공개 데이터 스크래퍼에게 고무적이에요. 자기 것도 아닌 정보를 플랫폼이 독점하는 데 법원이 조심스러워한다는 신호니까요. 그래도 보증서는 아니에요. 저작권, 계약, 개인정보, 영업비밀 청구는 그대로 남아요. Van Buren 이후 CFAA는 분명해졌지만, hiQ 하나만 믿고 방패로 삼는 건 실수예요.

이 차이를 아느냐가, 감에 기댄 낙관과 제대로 된 리스크 관리를 가르는 선이에요.

이걸 합법적으로 스크래핑할 수 있을까? 실용적인 판단 흐름도

스크래핑의 합법성은 늘 "회색지대"처럼 느껴져요. 그래서 법이론 대신 실제로 쓸 수 있는 판단 기준을 드릴게요. 프로젝트를 시작하기 전에 아래 다섯 질문부터 보세요.

ig_01ef7eecb01f4f920169f063829a4481918da7ee0e1b3f672e_compressed.webp

1. 데이터가 공개적으로 접근 가능한가요? (로그인 없이 볼 수 있나요?)

아니오 → CFAA 위험이 더 높아요. 진행 전에 허가를 받거나 법률 검토를 받으세요.
예 → 2번으로 가세요.

2. CAPTCHA, IP 차단, 속도 제한, 유료 장벽 같은 기술적 장벽을 우회하고 있나요?

예 → DMCA와 CFAA 문제가 생길 수 있어요. 중단하거나 법무팀에 넘기세요.
아니오 → 3번으로 가세요.

3. 스크래핑을 금지하는 clickwrap 약관에 동의했나요?

예 → 민사 계약 책임 위험이 있어요. 다른 출처에서 데이터를 구할 수 있는지 보거나 허가를 요청하세요.
아니오 → 4번으로 가세요.

4. 데이터에 개인정보(PII)가 포함되나요?

예 → CCPA와 해당 주 개인정보법을 확인하세요. 적법한 사용 목적이 있는지 확인하고 옵트아웃 권리를 존중하세요.
아니오 → 5번으로 가세요.

5. 그 데이터를 어떻게 쓸 건가요?

저작권 있는 콘텐츠(전체 기사, 사진, 영상)의 상업적 재게시 → 저작권 위험
변형적 분석, 내부 리서치, 사실 데이터 활용(가격, 사양, 매물) → 보통 위험이 더 낮음

"공개 페이지, 우회 없음, clickwrap 없음, 비PII, 내부 분석용 사실 데이터" 범주에 든다면, 가장 위험이 낮은 영역에 있는 거예요. Thunderbit가 바로 그런 워크플로우를 위해 만들어졌어요. 공개 웹페이지에서 제품 목록, 비즈니스 디렉터리, 부동산 데이터 같은 구조화된 사실 데이터를 뽑아, Excel, Google Sheets, Airtable, Notion으로 내보내 직접 분석에 쓸 수 있어요.

이 흐름도는 북마크해 두세요. 변호사를 대신하진 못해도, 불필요한 공포는 많이 덜어 줄 거예요.

AI 학습과 웹 스크래핑: 새로운 법적 최전선

ig_01ef7eecb01f4f920169f063bb1014819192c3bf906b778b39_compressed.webp

AI는 스크래핑 법에 완전히 새로운 복잡성을 얹었어요. 대규모 언어 모델, 이미지 생성기, 기타 AI 시스템을 학습시키려고 데이터를 스크래핑하는 일은 이제 주요 법적 전장이 됐어요. 그런데 핵심 쟁점들은 아직 법원이 정리하지 못했고요.

지금 상황은 이래요.

사건	상태(2026)	핵심 쟁점
NYT 대 OpenAI/Microsoft	진행 중. 핵심 저작권 청구는 2025년 4월에 계속 진행 허용; 증거개시 분쟁에는 2천만 개가 넘는 ChatGPT 로그가 포함돼요.	스크래핑한 뉴스 기사로 학습하는 것이 공정 이용인가, 저작권 침해인가?
Bartz 대 Anthropic	Alsup 판사는 일부 학습 사용은 공정 이용이지만, 불법 복제 출처의 취득은 아니라고 봤어요. 보도된 합의: 약 15억 달러.	학습 자체는 변형적일 수 있지만, 해적판 소스 복제는 별개의 문제예요.
Thomson Reuters 대 Ross	델라웨어 법원은 Westlaw 헤드노트를 사용해 경쟁 법률 리서치 제품을 만드는 데 공정 이용을 인정하지 않았어요.	직접 대체재 제품은 저작권 위험이 더 높아요.
Getty 대 Stability AI	영국 사건은 2025년에 대체로 Stability에 유리했어요. 미국 사건은 진행 중.	이미지 학습 관련 법은 아직 확정되지 않았어요.

이 글을 읽는 대부분의 비즈니스 사용자에게 구분은 명확해요. 자체 분석이나 비즈니스 운영을 위한 데이터 스크래핑(리드 생성, 가격 모니터링, 시장조사)은, AI 모델을 학습시키고 상용화하기 위한 데이터 스크래핑과는 완전히 다른 법적 문제예요. 앞쪽은 저작권 위험이 낮아요. 뒤쪽이 지금 큰 소송들이 벌어지는 영역이고요.

책임감 있게 데이터를 스크래핑하는 방법(비즈니스 팀을 위한 모범 사례)

법 얘기는 이쯤 하고, 팀에 법적 골칫거리를 만들지 않으면서 실제로 데이터를 스크래핑하는 법을 볼게요.

공개적으로 이용 가능한 데이터에만 집중하세요

로그인 없이 누구나 보는 데이터 — 제품 목록, 비즈니스 디렉터리, 공공 기록, 가격 페이지 — 에 집중하세요. 로그인 뒤로 들어가는 순간, 더 위험한 구역으로 넘어가는 거예요.

기술적 장벽을 우회하지 마세요

사이트가 CAPTCHA, IP 차단, 속도 제한, 유료 장벽을 쓴다면 그건 신호예요. 이걸 우회하면 DMCA, CFAA, 계약 위반 청구가 생길 수 있어요. 그 데이터가 정말 중요하다면 공식 API나 데이터 파트너십을 찾는 편이 나아요.

서비스 약관을 확인하세요

특히 계정을 만들었거나 "동의합니다"를 누른 적이 있다면요. 약관에 스크래핑 금지 조항이 있는지 보세요. 약관이 스크래핑을 금지하고 거기에 동의했다면, 다른 출처가 있는지 먼저 알아보세요.

개인정보 수집을 최소화하세요

PII(이름, 이메일, 전화번호)를 모은다면 해당 주 개인정보법상 적법한 사용 목적이 있는지 확인하세요. 회사명, 제품 가격, 매물 정보 같은 사실 기반 비즈니스 데이터는 개인 소비자 프로필을 모으는 것보다 훨씬 위험이 낮아요.

robots.txt와 속도 제한을 존중하세요

robots.txt(RFC 9309)는 그 자체로 법적 구속력은 없어요. 그래도 이를 지키는 건 선의를 보여 주는 행동이에요. 그리고 웹사이트 서버를 두드려대지 마세요. 요청은 적당히 제한하고, 합리적 간격을 두고, 인프라에 피해를 주지 마세요.

재게시가 아니라 분석에 데이터를 쓰세요

변형적 사용 — 분석, 집계, 내부 리서치, 경쟁 인텔리전스 — 은 남의 기사, 이미지, 리뷰를 그대로 복사해 다시 올리는 것보다 훨씬 안전해요. 팀용 대시보드나 스프레드시트를 만드는 거라면, 스크래핑한 콘텐츠를 자체 웹사이트에 재게시하는 것보다 훨씬 유리한 자리에 있는 거예요.

준수형 스크래핑을 위해 설계된 도구를 고르세요

여기서 Thunderbit이 만든 걸 소개할게요. 저희 AI 웹 스크래퍼 Chrome 확장 프로그램은 공개 웹페이지에서 구조화된 데이터를 뽑으려는 비즈니스 사용자를 위해 만들었어요. 제품 목록, 비즈니스 디렉터리, 부동산 데이터, 리드 정보를 코딩 없이, 장벽을 우회하지 않고 가져와요. AI가 페이지를 읽고, 필드를 제안하고, Excel, Google Sheets, Airtable, Notion으로 내보내 주죠. 흐름도에서 가장 위험이 낮은 가지 — 공개 페이지·사실 데이터·우회 없음 — 에 맞춰져 있고요.

그렇다고 어떤 도구도 법적 위험을 면책해 주진 않아요. 무엇을 스크래핑하고 어떻게 쓰는지에 대한 책임은 늘 사용자에게 있어요.

로그를 남기고, 중지 요청서가 오면 멈추세요

스크래핑 활동과 비즈니스 목적을 문서로 남기세요. 중지 요청서를 받으면 멈추고 법률 자문을 받으세요. 공식 통지 후에도 계속 스크래핑하면 위험도가 확 올라가요. 게이트된 시스템이 끼어 있다면 더더욱요.

미국에서 웹 스크래핑 합법성에 대한 핵심 정리

짧게 정리하면 이래요.

미국 연방법은 웹 스크래핑을 금지하지 않아요. 공개적으로 이용 가능한 사실 데이터 스크래핑은 보통 허용돼요.
합법성은 무엇을 스크래핑하는지, 어떻게 접근하는지, 어떻게 쓰는지에 달려 있어요. 공개 페이지 + 사실 데이터 + 내부 분석 = 가장 낮은 위험.
일반적인 비즈니스 스크래핑에서 형사 책임은 드물어요. 대부분의 위험은 민사예요. 수갑이 아니라 소송이죠.
hiQ 대 LinkedIn은 만능 허가증이 아니에요. 예비 금지명령이었고 나중에 합의로 끝났어요. 고무적이지만 보증은 아니에요.
PII가 끼면 주 개인정보법이 중요해져요. 다만 가격, 매물, 사양처럼 비PII 데이터는 가장 위험이 낮아요.
AI 학습 용도는 새롭고 아직 정리되지 않은 법적 최전선이에요. 자체 분석을 위한 비즈니스 스크래핑과 상용 AI 모델 구축을 위한 스크래핑은 위험 프로필이 완전히 달라요.
모범 사례를 지키면 — 공개 데이터만 쓰고, 약관을 존중하고, PII를 피하고, 장벽을 우회하지 않고, 데이터를 책임감 있게 쓰는 것 — 팀을 안전 구역에 둘 수 있어요.

중요한 면책 하나 짚을게요. 이 글은 정보 제공용이지 법률 자문이 아니에요. 대규모 스크래핑을 계획 중이거나 민감한 데이터를 다룬다면 자격 있는 변호사와 상담하세요. 하지만 공개 디렉터리에서 리드를 가져오려는 영업 매니저나, 경쟁사 가격을 모니터링하는 이커머스 팀이라면? 생각보다 법은 여러분 편에 더 가까워요.

Thunderbit이 이런 공개 데이터 추출을 얼마나 간단하게 만드는지 보고 싶다면 — 코딩도, 우회도 없이 그저 구조화된 데이터를 워크플로우로 넣는 방식이에요 — 빠른 시작 가이드를 확인하거나 Chrome 확장 프로그램을 내려받아 직접 써보세요.

자주 묻는 질문

1. 2026년 미국에서 웹 스크래핑은 합법인가요?

네, 공개적으로 이용 가능한 데이터를 스크래핑한다면 미국에서 웹 스크래핑은 보통 합법이에요. 이를 전면 금지하는 연방법은 없어요. 다만 어떻게 스크래핑하는지, 어떤 데이터를 모으는지, 어떻게 쓰는지에 따라 CFAA, 저작권법, 계약법, 주 개인정보 규정상 법적 위험이 생길 수 있어요. 가장 안전한 길은 공개 페이지에만 머물고, 기술적 장벽 우회를 피하고, 개인정보 수집을 최소화하고, 데이터를 재게시가 아니라 분석에 쓰는 거예요.

2. 웹 스크래핑 때문에 감옥에 갈 수 있나요?

웹 스크래핑으로 형사 기소되는 일은 극히 드물어요. 보통은 허가 없이 인증 장벽 뒤 데이터에 접근(CFAA 위반)했거나 사기를 저질렀을 때나 해당돼요. 법무부의 2022년 CFAA 기소 정책도 일반적인 약관 위반만으로는 형사 기소가 충분하지 않다고 밝혔어요. 대부분의 웹 스크래핑 분쟁은 민사 문제예요. 형사 사건이 아니라 소송이죠.

3. 웹사이트 서비스 약관을 위반하면 스크래핑이 불법이 되나요?

자동으로 그렇진 않아요. 약관 위반은 형사 범죄가 아니라 계약 문제예요. 스크래핑을 금지하는 clickwrap 약관에 동의했다면, 웹사이트가 민사상 계약 위반 청구를 걸 수 있어요. 하지만 푸터에 링크된 browsewrap 약관은 집행이 훨씬 어려워요. 로그인한 적도, "동의합니다"를 누른 적도 없다면 더 그렇고요. 법원은 여러 스크래핑 사건에서 수동적인 browsewrap 집행에 회의적이었어요.

4. 미국에서 개인 데이터(이메일, 전화번호)를 스크래핑하는 것은 합법인가요?

경우에 따라 달라요. CCPA, VCDPA, CPA 같은 많은 미국 주 개인정보법은 공개적으로 이용 가능한 개인정보에 예외를 두지만, 정의와 이후 사용 의무는 제각각이에요. 제품 가격, 비즈니스 목록, 공공 기록 같은 비개인 데이터는 개인 소비자 프로필을 모으는 것보다 훨씬 위험이 낮아요. 대량으로 PII를 모은다면 해당 주 법률을 확인하고 적법한 목적이 있는지 보세요.

5. hiQ 대 LinkedIn이 모든 웹 스크래핑을 합법으로 만들었나요?

아니요. hiQ 판결은 본안 최종 결정이 아니라, 승소 가능성에 기반한 임시 명령인 예비 금지명령이었어요. 제9연방항소법원은 공개 데이터 접근이 CFAA 위반이 아닐 가능성이 높다고 봤지만, 사건은 2022년 최종 판결 없이 합의로 끝났어요. 어떤 웹사이트든 마음대로 스크래핑할 포괄 허가를 준 것도 아니고, 저작권·계약·개인정보·영업비밀 청구를 다루지도 않았어요. 공개 데이터 스크래퍼에겐 고무적이지만, 법적 보증은 아니에요.

더 알아보기

AI로 데이터 추출하기

Google Sheets, Airtable, Notion으로 데이터를 손쉽게 옮겨보세요

Chrome Store Rating

PRODUCT HUNT#1 Product of the Week