JavaScript로 웹 스크래핑하는 단계별 가이드

영업 리드 리스트를 처음 만들려고 웹사이트에서 데이터를 뽑아보려던 그 순간이 아직도 생생해요. '자바스크립트는 자신 있는데, 이거 별거 아니겠지?' 싶었죠. 그런데 몇 시간 뒤, 복잡한 셀렉터에, 사라지는 동적 콘텐츠, 그리고 강력한 봇 차단까지 만나면서 진땀을 뺐던 기억이 납니다. 저만 그런 줄 알았는데, 이 데이터의 중요성을 점점 더 크게 느끼고 있고, 웹 스크래핑이 그 중심에 있다는 걸 알게 됐죠. 하지만 웹사이트가 점점 복잡해지면서, 자바스크립트로 웹 스크래핑 하는 일은 강력한 무기이자 동시에 풀기 어려운 퍼즐이 되어버렸습니다.

이 글에서는 자바스크립트로 웹 스크래핑을 하면서 직접 겪었던 시행착오와 노하우, 그리고 같은 최신 AI 기반 도구가 어떻게 복잡한 셀렉터 문제를 해결해주는지까지 모두 풀어볼게요. 이커머스 상품 정보를 모으든, 영업 리드 파이프라인을 구축하든, 자바스크립트(그리고 AI의 힘)로 웹 데이터를 뽑아내는 실전 방법을 함께 알아봅시다.

자바스크립트로 웹 스크래핑: 기본 개념과 한계

먼저 기본부터 짚고 넘어가야겠죠. 자바스크립트로 웹 스크래핑이란, 브라우저에서 직접 스크립트를 실행하거나 Node.js 환경에서 코드를 돌려 웹사이트에서 데이터를 자동으로 추출하는 걸 말해요. 자바스크립트는 웹의 언어라서 웹 스크래핑에 정말 잘 어울립니다. 특히 Cheerio(정적 HTML 파싱), Puppeteer나 Playwright(헤드리스 브라우저 자동화) 같은 다양한 라이브러리 덕분에 더 강력해졌죠.

자바스크립트가 웹 스크래핑에 인기 있는 이유는?

DOM 직접 접근: 브라우저에서 실제 사람처럼 DOM을 조작할 수 있어요.
풍부한 생태계: Node.js 덕분에 HTTP 요청, 파싱, 자동화 등 다양한 라이브러리를 쓸 수 있습니다.
유연성: 로그인, 클릭, 스크롤 등 브라우저에서 할 수 있는 거의 모든 동작을 자동화할 수 있죠.

하지만 문제는, 최신 웹사이트는 계속 변화한다는 점이에요. 자바스크립트로 콘텐츠를 동적으로 불러오고, DOM 구조를 바꾸고, 봇 차단 기술도 점점 정교해집니다. 오늘 잘 돌아가던 스크립트가 내일은 안 먹힐 수도 있죠. 셀렉터를 계속 수정하고, 팝업을 처리하고, 비동기 로딩 데이터를 쫓아다니는 일이 반복됩니다. 마치 두더지 잡기 게임 같지만, 중괄호가 더 많을 뿐이죠.

복잡한 웹페이지가 자바스크립트 스크래핑을 어렵게 만드는 이유

예전에는 HTML만 받아서 필요한 데이터만 뽑으면 끝이었어요. 하지만 요즘 웹은 완전히 달라졌죠. Facebook Marketplace, Amazon, 부동산 사이트 등은 자바스크립트 프레임워크로 실시간 렌더링을 하고, 무한 스크롤로 데이터를 숨기고, 정보가 복잡하게 중첩되어 있습니다.

이제 단순히 HTML을 파싱하는 것만으로는 부족해요. 예를 들어, 상품 리뷰나 중첩된 댓글을 추출하려면 단순히 <div>를 찾는 게 아니라, 각 요소의 관계와 맥락, 심지어 데이터의 의미까지 파악해야 하죠.

이럴 때는 더 똑똑한 전처리가 필요합니다. 단순히 HTML을 긁어오는 게 아니라, 페이지를 의미적으로 이해해야 해요. 어디가 상품명이고, 어디가 가격이고, 어디가 사용자 리뷰인지 구분해야 하죠. 순수 자바스크립트로는 쉽지 않지만, 바로 이런 부분에서 AI 기반 도구가 빛을 발합니다.

전통적인 자바스크립트 웹 스크래핑 도구들

이제 도구 이야기를 해볼까요? 전통적인 자바스크립트 스크래핑 스택은 보통 다음 중 하나(혹은 여러 개)를 사용합니다:

Cheerio: 정적 HTML 파싱에 탁월. 서버용 jQuery라고 생각하면 됩니다.
Puppeteer/Playwright: 헤드리스 브라우저 자동화. 실제 브라우저를 띄워 자바스크립트를 실행하고, 사람처럼 페이지와 상호작용할 수 있습니다.

일반적인 작업 흐름은 다음과 같습니다:

페이지 요청 (헤드리스 브라우저 사용 여부와 상관없이)
콘텐츠 로딩 대기 (waitForSelector 등으로)
DOM 파싱 후 원하는 데이터 추출
결과 정리 및 구조화

겉보기엔 간단해 보여도, 실제로는 웹사이트가 레이아웃을 바꿀 때마다 셀렉터가 깨지고, 팝업이 추가되면 스크립트가 멈추고, 필드 순서가 바뀌면 데이터가 뒤섞입니다. 유지보수는 끝이 없는 숙제가 되죠.

주요 자바스크립트 스크래핑 라이브러리 비교

기능	Cheerio	Puppeteer	Playwright
적합한 용도	정적 HTML	동적 페이지	동적 페이지
브라우저 자동화	불가	가능	가능
JS 콘텐츠 처리	불가	가능	가능
속도	빠름	느림	느림
API 단순성	단순	보통	보통
봇 차단 우회	제한적	보통	보통
크로스 브라우저	불가	크롬 전용	크롬, 파이어폭스, WebKit 지원
사용 사례	단순 사이트, API	인터랙티브 사이트	인터랙티브 사이트

Cheerio는 정적 페이지나 HTML을 반환하는 API에 정말 빠르지만, 자바스크립트 실행은 불가능해요. Puppeteer와 Playwright는 동적 페이지에 적합하지만, 무겁고 설정이 더 필요합니다. 로그인, 클릭, 스크롤 등 자동화가 가능하지만, 사이트가 변할 때마다 직접 로직을 수정해야 하죠.

Thunderbit 소개: 자바스크립트 워크플로우를 위한 AI 웹 스크래퍼

여기서부터가 진짜 흥미로운 부분입니다. Thunderbit는 단순히 HTML을 긁어오는 게 아니라, 사람처럼 페이지를 이해하는 데 초점을 맞췄어요. 그래서 라는 AI 웹 스크래퍼 크롬 확장 프로그램을 만들었습니다.

어떻게 동작할까요?

Thunderbit는 웹페이지를 Markdown 형태로 변환해서, 더 깔끔하고 구조화된 데이터로 만들어줍니다.
그 다음, AI가 이 Markdown을 분석해 필드, 관계, 맥락을 파악합니다. 가격, 리뷰, 단순 장식 이모지까지 구분하죠.
결과적으로, 레이아웃이 바뀌거나 동적 콘텐츠가 추가되어도 견고하게 구조화된 데이터를 얻을 수 있습니다.

비즈니스 사용자라면 수작업 데이터 정제와 깨진 스크립트 걱정 없이, 인사이트에 더 집중할 수 있고, 개발자라면 로그인, 클릭, 스크롤 등 브라우저 자동화만 신경 쓰고, 복잡한 데이터 추출은 Thunderbit에 맡기면 됩니다.

실전 예제: 자바스크립트로 웹 스크래핑 (전통 방식 & Thunderbit 활용)

이제 실제로 해봅시다. 샘플 이커머스 사이트에서 상품 목록을 스크래핑하는 과정을 예로 들어볼게요. 먼저 Puppeteer로 전통적인 방법을, 그 다음 Thunderbit로 더 쉽게 처리하는 방법을 보여드릴게요.

1단계: 자바스크립트 스크래핑 환경 준비

가장 먼저 를 설치하세요. 그 다음 Puppeteer를 설치합니다:

1npm install puppeteer

여러 브라우저를 지원하는 Playwright를 원한다면:

1npm install playwright

비개발자도 걱정 마세요. 코드만 복사해서 붙여넣고, 각 부분이 무슨 역할인지 설명해드릴게요.

2단계: 동적 페이지 탐색 및 상호작용 자동화

요즘 사이트는 로그인, 팝업, 무한 스크롤 등으로 데이터를 숨기는 경우가 많아요. Puppeteer로 이런 과정을 자동화하는 예시입니다:

1const puppeteer = require('puppeteer');
2(async () => {
3  const browser = await puppeteer.launch({ headless: true });
4  const page = await browser.newPage();
5  // 로그인 페이지로 이동
6  await page.goto('https://example.com/login');
7  await page.type('#username', 'your_username');
8  await page.type('#password', 'your_password');
9  await page.click('#login-button');
10  await page.waitForNavigation();
11  // 상품 목록 페이지로 이동
12  await page.goto('https://example.com/products');
13  // 더 많은 상품 로딩을 위해 스크롤
14  await page.evaluate(async () => {
15    for (let i = 0; i &lt; 5; i++) {
16      window.scrollBy(0, window.innerHeight);
17      await new Promise(resolve => setTimeout(resolve, 1000));
18    }
19  });
20  // 상품이 로드될 때까지 대기
21  await page.waitForSelector('.product-card');
22  // ... (다음 단계에서 데이터 추출)
23})();

이 스크립트는 로그인, 상품 페이지 이동, 스크롤까지 자동화합니다. 요소가 나타날 때까지 기다리는 것이 핵심이에요. 그렇지 않으면 빈 데이터를 긁게 됩니다.

3단계: 자바스크립트로 데이터 추출

이제 데이터를 추출해봅시다. 각 상품이 .product-card div에 있다고 가정하면:

1const products = await page.$$eval('.product-card', cards =>
2  cards.map(card => ({
3    name: card.querySelector('.product-title').innerText,
4    price: card.querySelector('.product-price').innerText,
5    link: card.querySelector('a').href,
6  }))
7);
8console.log(products);

자주 겪는 문제점:

셀렉터가 쉽게 깨짐: 예를 들어 .product-title이 .title로 바뀌면 스크립트가 작동하지 않습니다.
숨겨진 데이터: 가격이나 리뷰가 AJAX로 나중에 로드되는 경우가 많아요.
봇 차단: 요청이 많으면 차단될 수 있습니다.

4단계: Thunderbit AI로 추출 자동화

이제 Thunderbit의 차례입니다. 복잡한 셀렉터와 불안정한 로직 대신, 렌더링된 HTML(혹은 스크린샷)을 Thunderbit에 넘기면 AI가 알아서 추출해줍니다.

실제 활용 방법:

Puppeteer나 Playwright로 브라우저 자동화(로그인, 탐색 등)를 진행합니다.
추출하고 싶은 페이지에 도달하면 HTML을 가져옵니다:

1const pageContent = await page.content();

이 HTML을 으로 넘겨 AI 추출을 진행합니다.

Thunderbit는 다음을 수행합니다:

페이지를 Markdown으로 변환해 의미 파악을 쉽게 만듭니다.
AI가 필드, 관계, 맥락을 분석합니다.
구조화된 데이터를 Excel, Google Sheets, Airtable, Notion 등으로 내보낼 수 있습니다.

더 이상 깨지는 셀렉터나 지저분한 데이터 정리에 시달릴 필요가 없습니다.

동적 콘텐츠와 비동기 로딩 처리하기

동적 콘텐츠는 모든 웹 스크래퍼의 골칫거리입니다. 무한 스크롤, '더 보기' 버튼, AJAX로 나중에 로드되는 리뷰 등 다양한 방식으로 데이터를 숨깁니다.

전통적 대응법:

waitForSelector로 요소가 나타날 때까지 대기
네트워크가 모두 idle 상태가 될 때까지 대기
스크롤이나 클릭을 직접 트리거해 추가 데이터 로딩

하지만 이런 방법은 사이트가 로딩 방식을 바꾸면 쉽게 깨집니다.

Thunderbit의 방식: 페이지를 Markdown으로 변환하고 AI가 구조를 분석하기 때문에, 특정 DOM 구조나 ID에 덜 의존합니다. 레이아웃이 바뀌어도 콘텐츠만 있으면 AI가 대부분의 데이터를 찾아낼 수 있습니다. 즉, 유지보수 부담은 줄고 데이터 신뢰성은 높아집니다.

지속 가능한 데이터 파이프라인 구축: 스크립트에서 비즈니스 인사이트까지

웹 스크래핑은 단발성 작업이 아니라, 데이터 파이프라인의 시작입니다. 저는 이렇게 접근해요:

자바스크립트(예: Puppeteer/Playwright)로 브라우저 자동화 및 데이터 추출
Thunderbit에 넘겨 AI로 구조화 및 라벨링
결과를 Excel, Google Sheets, Airtable, Notion 등으로 내보내기
Thunderbit의 로 반복 작업 예약 (예: '매주 월요일 오전 9시')
구조화된 데이터를 비즈니스 워크플로우에 연동 (영업, 가격 모니터링, 시장 조사 등)

이 조합—자동화는 자바스크립트, 추출은 Thunderbit—으로 반복 가능하고 유지보수 부담이 적은 데이터 파이프라인을 만들 수 있습니다.

결론: 내게 맞는 웹 스크래핑 방법은?

그렇다면 자바스크립트로 웹을 스크래핑하는 최적의 방법은 뭘까요? 제 생각은 이렇습니다:

전통적 자바스크립트 스크래핑(Cheerio, Puppeteer, Playwright)은 단순하고 정적인 사이트나 브라우저 자동화가 꼭 필요한 경우에 적합합니다. 하지만 셀렉터가 자주 깨지고, 레이아웃이 바뀌면 유지보수가 어렵고, 봇 차단도 점점 강해집니다.
Thunderbit의 AI 기반 추출은 의미를 이해하는 한 단계 높은 방식입니다. 레이아웃 변화에 강하고, 수작업 데이터 정제가 줄어들며, 스크립트 디버깅 대신 인사이트에 집중할 수 있습니다.

언제 어떤 방식을 써야 할까요?

단순한 페이지를 빠르게 한 번만 긁을 때는 Cheerio나 Puppeteer로 충분합니다.
복잡하고 동적인 사이트, 혹은 장기적으로 유지보수가 필요한 경우에는 자바스크립트 자동화 + Thunderbit AI 추출을 조합하세요.
코딩 없이 바로 데이터를 뽑고 싶다면, Thunderbit 크롬 확장 프로그램이 가장 쉽고 빠른 방법입니다.

더 많은 예시가 궁금하다면 에서 , 등 다양한 실전 사례를 확인해보세요.

보너스: 웹 스크래핑 시 준수해야 할 법적·윤리적 팁

스크래핑 스크립트를 돌리기 전에, 웹사이트 관리자에게 '친절한' 메일을 받아본 경험자로서 몇 가지 조언을 드릴게요:

robots.txt와 서비스 이용약관을 꼭 확인하고 준수하세요. 모든 사이트가 스크래핑을 허용하는 건 아닙니다.
요청 속도를 제한하세요. 서버에 과부하를 주지 않도록 요청 간 간격을 두세요. (차단 또는 블랙리스트 위험)
봇임을 명확히 밝히세요. User-Agent에 자신을 표시하면 사이트 관리자도 누가 접근하는지 알 수 있습니다.
민감하거나 개인정보는 피하세요. 공개된 정보만 수집하고, 프라이버시를 존중하세요.
법적 이슈와 최신 가이드라인을 숙지하세요. 일부 국가에서는 웹 스크래핑이 법적으로 모호할 수 있습니다.

The ROI of Automating Hotel Sales Lead Generation and Management - visual selection.png

기억하세요: 강력한 스크래핑 능력에는 그만큼의 책임이 따릅니다. (가끔은 강경한 경고 메일도 오니까요)

자바스크립트로 웹 스크래핑하는 일은 예술이자 과학입니다. 올바른 도구와 AI의 도움만 있다면, 웹을 내 데이터 놀이터로 만들 수 있어요. 혹시 막히는 부분이 있다면 언제든 찾아오세요. (아마 커피 한 잔과 Thunderbit 탭을 열어두고 셀렉터를 디버깅하고 있을 겁니다)

즐거운 스크래핑 되세요!

자주 묻는 질문(FAQ)

1. 자바스크립트로 웹 스크래핑이란 무엇이며, 왜 인기가 있나요?

자바스크립트로 웹 스크래핑은 브라우저나 Node.js 환경에서 스크립트를 실행해 웹사이트에서 데이터를 자동으로 추출하는 방법입니다. DOM에 직접 접근할 수 있고, HTTP 요청 및 자동화 라이브러리가 풍부하며, 로그인·클릭·스크롤 등 다양한 상호작용을 자동화할 수 있어 인기가 높아요.

2. 최신 동적 웹사이트를 스크래핑할 때 주요 어려움은 무엇인가요?

최신 웹사이트는 자바스크립트 프레임워크로 콘텐츠를 동적으로 불러오고, 무한 스크롤이나 팝업 뒤에 데이터를 숨기며, 레이아웃도 자주 바뀝니다. 이 때문에 전통적인 스크래핑 방식은 셀렉터가 쉽게 깨지고, 비동기 로딩 데이터에 취약합니다.

3. Cheerio, Puppeteer, Playwright 등 전통적 자바스크립트 스크래핑 도구의 차이점은?

Cheerio는 정적 HTML에 최적화되어 빠르지만, 자바스크립트로 렌더링되는 콘텐츠나 브라우저 자동화는 불가능합니다.
Puppeteer와 Playwright는 동적 페이지, 브라우저 자동화, 자바스크립트 콘텐츠 처리에 강하지만, 속도가 느리고 설정이 더 필요합니다. Playwright는 다양한 브라우저를 지원하고, Puppeteer는 주로 크롬에 특화되어 있습니다.

4. Thunderbit가 전통적 스크래핑 방식보다 뛰어난 점은?

Thunderbit는 웹페이지를 구조화된 Markdown으로 변환한 뒤, AI로 의미 있는 데이터 필드를 추출합니다. 레이아웃 변화에 강하고, 수작업 데이터 정제가 줄어들며, 셀렉터 기반 스크래핑보다 유지보수 부담이 적어요.

5. 웹 스크래핑 시 준수해야 할 법적·윤리적 모범 사례는?

웹사이트의 robots.txt와 이용약관을 반드시 확인하고 준수하세요.
서버에 과부하를 주지 않도록 요청 속도를 제한하세요.
User-Agent에 자신을 명확히 표시하세요.
민감하거나 개인정보는 수집하지 말고, 공개 정보만 활용하세요.
각 국가의 법적 이슈와 최신 가이드라인을 숙지하세요.

더 알아보기:

Thunderbit AI 웹 스크래퍼 지금 바로 사용해보기

AI로 데이터 추출하기

Google Sheets, Airtable, Notion으로 손쉽게 데이터 전송

Chrome Store Rating

PRODUCT HUNT#1 Product of the Week

JavaScript로 웹 스크래핑하는 단계별 가이드

Thunderbit 체험하기