솔직히 말해서, Google Sheets 없이는 하루도 제대로 일하기 힘들 정도예요. 저처럼 일하는 분들이라면(아니면 대부분의 직장인들처럼) 지금도 리드, 상품 가격, 시장 조사 데이터가 가득한 시트 탭 하나쯤은 항상 띄워두고 계실 거예요. Google Sheets는 진짜 비즈니스 데이터 관리의 만능 도구죠. 실제로 이 매달 사용하고, 이 내부 데이터 관리에 활용하고 있습니다. 그런데 막상 웹사이트의 실시간 데이터를 Google Sheets로 불러오려고 하면, 대부분의 가이드가 “IMPORTXML 쓰세요” 한마디로 끝나죠. 그렇게 쉬우면 얼마나 좋을까요?
현실은 다릅니다—IMPORTXML로는 스테이크를 버터 나이프로 써는 느낌이에요. 단순한 사이트에는 통하지만, 요즘처럼 자바스크립트로 동작하거나 로그인, 무한 스크롤, 봇 차단이 적용된 사이트를 긁으려 하면 “가져온 콘텐츠가 비어 있습니다”라는 에러만 반복해서 보게 됩니다. (이 에러 너무 자주 봐서, 구글이 일부러 장난치는 거 아닌가 싶을 때도 있어요.) 그래서 이번 글에서는 Google Sheets의 전통적인 데이터 수집 방법부터 를 활용한 최신 AI 기반 방법까지 모두 소개합니다. 어떤 방식이 어디서 막히고, 어떻게 하면 스트레스 없이 신뢰할 수 있는 최신 웹 데이터를 시트에 담을 수 있는지 알려드릴게요.
Google Sheets 웹 스크래핑: 어떤 방법들이 있을까?
본격적으로 시작하기 전에, 웹사이트 데이터를 Google Sheets로 가져오는 대표적인 방법들을 정리해볼게요:
- 내장 함수: IMPORTXML, IMPORTHTML, IMPORTDATA 등
- 애드온: 스크래핑 기능을 확장해주는 추가 도구
- 노코드 웹 스크래퍼 툴: 클릭만으로 데이터 추출이 가능한 브라우저 확장 프로그램 등
- 커스텀 스크립트: 코딩이 가능한 분들을 위한 맞춤형 방법
- AI 기반 스크래퍼: 처럼 인공지능이 자동으로 처리해주는 방식
각 방법마다 장단점이 있지만, 웹사이트가 점점 복잡해지면서 기존 방식만으로는 한계가 뚜렷해졌어요. 그 이유를 하나씩 살펴볼게요.
왜 “IMPORTXML”만으로는 최신 웹사이트 스크래핑이 어려울까?
=IMPORTXML("<https://example.com>", "//h2")
처럼 함수를 입력해서 데이터가 쭉 불러와지는 경험, 한 번쯤 해보셨을 거예요. 하지만 IMPORTXML, IMPORTHTML, IMPORTDATA 등은 서버에서 내려주는 정적인 HTML만 읽을 수 있습니다. 자바스크립트로 동적으로 불러오는 데이터, 로그인 후에만 보이는 정보, 버튼 클릭이나 스크롤이 필요한 페이지는 전혀 처리하지 못하죠. 그래서 상품 목록, Facebook Marketplace, Google 검색 결과 등은 대부분 빈 값이거나 알 수 없는 에러만 반환됩니다.
대표적인 문제점은 다음과 같아요:
- 자바스크립트 기반 콘텐츠: 페이지가 로드된 후에 데이터가 불러와지는 경우, IMPORTXML은 이를 인식하지 못합니다. 에러가 대표적이죠.
- 로그인 필요: IMPORTXML은 익명 Google 서버에서 데이터를 요청하기 때문에, 로그인해야 볼 수 있는 정보는 긁을 수 없습니다. ()
- 페이지네이션: 여러 페이지의 데이터를 긁으려면 URL마다 함수를 복사하거나 직접 스크립트를 짜야 합니다. .
- 봇 차단: 인기 사이트일수록 Google의 import 함수 요청을 차단하는 경우가 많아요.
- 함수 오류: 사이트 구조나 HTML이 조금만 바뀌어도 XPath가 깨져서 데이터가 누락될 수 있습니다. 이런 경우, 데이터가 빠진 걸 한참 뒤에야 알게 되기도 하죠.
저도 어제까지 잘 되던 함수가 오늘 갑자기 #N/A
를 뱉는 이유를 찾느라 몇 시간을 허비한 적이 많아요. 알고 보니 웹사이트에 div 하나가 추가된 게 원인이었죠. 웹 디자이너분들, 감사합니다(?)
즉, IMPORTXML은 단순하고 정적인 페이지에는 유용하지만, 요즘처럼 동적이고 복잡한 웹 환경에는 맞지 않습니다. 실제로 가 가격 모니터링을 위해 웹 스크래핑을 활용할 정도로, 더 강력한 도구가 필요한 시대입니다.
Google Sheets 스크래핑 방법 비교: 함수부터 AI 툴까지
실제 업무에 적용할 수 있도록, 대표적인 스크래핑 방법들을 Google Sheets 관점에서 비교해볼게요:
- 시트 내장 함수(IMPORTXML/HTML): 무료이자 기본 제공. 단, 정적이고 공개된 페이지만 가능. 자바스크립트, 로그인, 페이지네이션 모두 불가. 구조 변경에 취약.
- 애드온(ImportFromWeb 등): 더 많은 사이트와 일부 자바스크립트 지원. 여러 URL도 처리 가능. 단, 셀렉터(XPath/CSS) 지정 필요. 대량 사용 시 유료.
- 노코드 스크래퍼 앱: 클릭만으로 거의 모든 사이트에서 데이터 추출 가능. 다만, 설정이 번거롭거나 CSV로 내보낸 뒤 시트에 다시 불러와야 하는 경우가 많음.
- 커스텀 스크립트: 자유도 최고. 하지만 코딩 지식이 필요하고, 유지보수도 직접 해야 함.
- AI 기반 스크래퍼(Thunderbit): 설정이 매우 간단. 거의 모든 사이트 지원, 레이아웃 변경에도 강함, Google Sheets로 바로 내보내기 가능. 코딩, XPath 필요 없음.
시각적으로 한눈에 볼 수 있도록 표로 정리해봤어요:
Google Sheets 웹 스크래핑 솔루션 한눈에 보기
방법 | 설정 난이도 | 지원 사이트 | 자바스크립트 지원 | 페이지네이션 지원 | 유지보수 필요 | 시트로 직접 내보내기 |
---|---|---|---|---|---|---|
시트 함수 (IMPORTXML/HTML) | 보통 | 정적 페이지만 | 불가 | 불가 | 높음 | 가능 |
애드온 (ImportFromWeb) | 보통 | 대부분 | 가능 | 일부 | 중간 | 가능 |
노코드 스크래퍼 앱 | 중간 | 거의 모두 | 가능 | 가능 | 중간 | 간접(CSV/Excel) |
커스텀 스크립트 (Apps Script/Python) | 높음 | 코딩에 따라 모두 | 가능 | 가능 | 높음 | 가능(코딩 필요) |
Thunderbit AI 스크래퍼 | 낮음 | 거의 모두 | 가능 | 가능 | 낮음 | 가능 |
보시면 아시겠지만, Thunderbit는 진짜 클릭 한 번이면 웹 스크래핑이 끝나도록 설계됐어요.
Google Sheets 스크래핑, 왜 IMPORTXML만으로는 부족한가?
대부분의 튜토리얼이 놓치는 부분이 있어요: IMPORTXML은 정말 “쉬운” 웹사이트에만 통합니다. 하지만 실제 비즈니스 현장에서는 다음과 같은 복잡한 사이트에서 데이터를 추출해야 할 때가 많죠.
- 영업팀: 로그인이나 무한 스크롤이 필요한 비즈니스 디렉터리에서 리드 추출
- 이커머스 운영팀: 자바스크립트로 상품 목록이 로드되는 경쟁사 사이트의 가격 모니터링
- 마케터: Google 검색 결과를 수집하고, 각 링크를 따라가 추가 정보까지 확보
- 연구자: 동적으로 구성된 리뷰, 포럼 글 등 다양한 데이터 집계
이런 상황에서 IMPORTXML은 숟가락 들고 칼싸움에 나가는 격이에요. 진짜 웹 환경(자바스크립트, 로그인, 페이지네이션 등)을 제대로 다루려면 더 강력한 도구가 필요합니다.
Thunderbit로 Google 스크래핑을 간단하게: 2번 클릭으로 데이터 가져오기
제가 정말 자신 있게 추천하는 방법이 바로 입니다. (네, 저도 개발에 참여해서 애정이 남달라요. 기존 방식에 질려서 직접 만들었거든요.)
Thunderbit의 사용법은 이렇습니다:
- AI 필드 추천: 크롬 확장 프로그램을 열고 “AI 필드 추천”을 클릭하면, Thunderbit의 AI가 페이지를 분석해 “이름”, “가격”, “이메일”, “이미지 URL” 등 컬럼명을 자동으로 제안합니다. XPath, HTML, 추측 필요 없음.
- 스크래핑: 제안된 필드를 확인(수정도 가능)한 뒤 “스크래핑”을 클릭하면, 데이터가 표 형태로 추출됩니다.
- Google Sheets로 내보내기: “Google Sheets로 내보내기”를 클릭하면, 데이터가 바로 시트에 저장됩니다.
진짜 이게 끝이에요. 더 이상 복잡한 함수, 복사-붙여넣기, 빈 값 때문에 머리 싸맬 필요가 없습니다.
Thunderbit의 의미 기반 이해: 더 신뢰할 수 있는 이유
Thunderbit의 진짜 강점은 단순히 HTML 태그만 긁는 게 아니라, 웹페이지를 Markdown으로 변환한 뒤 AI가 내용을 의미적으로 파악한다는 점이에요. 마치 가상 비서가 페이지를 읽고, 중요한 정보만 뽑아내는 것과 비슷하죠.
이 덕분에 Thunderbit는 다음과 같은 장점이 있습니다:
- 동적 콘텐츠 처리: 사용자가 보는 화면 그대로 데이터를 인식합니다. 페이지가 로드된 후에 나타나는 정보도 문제없어요.
- 레이아웃 변경에도 강함: 웹사이트 구조가 바뀌어도 “가격”이나 “이메일” 같은 필드를 AI가 알아서 찾아냅니다.
- 복잡한 페이지도 추출 가능: 포럼, 리뷰, 소셜 미디어 등 구조가 복잡한 페이지에서도 정형 데이터를 뽑아낼 수 있습니다.
실제로 Thunderbit로 Facebook Marketplace, Google 검색 결과, PDF 파일까지 스크래핑하는 사례를 봤어요. “그냥 된다”에 가장 가까운 웹 스크래퍼라고 할 수 있습니다.
실전 가이드: Thunderbit로 웹사이트 데이터를 Google Sheets로 가져오는 방법
직접 따라할 수 있도록 단계별로 정리해드릴게요:
1. Thunderbit 크롬 확장 프로그램 설치
에서 브라우저에 추가하세요. Google 계정이나 이메일로 로그인하면 됩니다. (무료 플랜도 있으니 부담 없이 시작할 수 있어요.)
2. 스크래핑할 웹사이트 접속
데이터를 추출하고 싶은 페이지(상품 목록, 비즈니스 디렉터리, Google 검색 결과 등)로 이동하세요.
3. “AI 필드 추천” 클릭
Thunderbit를 열고 “AI 필드 추천”을 누르면, AI가 페이지를 분석해 컬럼명을 제안합니다. 예를 들어, 아마존 검색 결과라면 상품명, 가격, 평점, 리뷰 수, 상품 URL 등이 자동으로 나와요.
4. 필드 확인 및 수정
필요에 따라 제안된 필드를 수정하세요. 컬럼명 변경, 불필요한 항목 삭제, “상품 설명 요약”이나 “.edu로 끝나는 이메일만 추출” 등 AI 지시어로 커스텀 필드 추가도 가능합니다.
5. “스크래핑” 클릭
Thunderbit가 데이터를 추출해 미리보기 표로 보여줍니다. 무한 스크롤이나 페이지네이션이 있는 경우, 안내에 따라 추가 데이터도 쉽게 가져올 수 있어요.
6. Google Sheets로 바로 내보내기
“Google Sheets로 내보내기”를 클릭하면, 새 시트가 생성되거나 기존 시트가 업데이트됩니다. 데이터 타입과 포맷도 그대로 유지됩니다.
7. (선택) 하위 페이지/다중 페이지 스크래핑
데이터에 상세 페이지 링크가 포함되어 있다면, Thunderbit의 “하위 페이지 스크래핑” 기능을 활용하세요. 각 링크를 방문해 추가 정보를 추출하고, 표에 자동으로 합쳐줍니다. 페이지네이션이 있다면 여러 URL을 입력하거나 Thunderbit가 자동으로 페이지를 넘기도록 설정할 수 있습니다.
8. 완성된 구조화 데이터 활용
Google Sheets를 열어보면, 복사-붙여넣기 없이 최신 데이터가 깔끔하게 정리되어 있습니다.
고급 활용: Google 검색 결과 및 다중 레이어 페이지 스크래핑
예를 들어, 마케터가 특정 키워드로 Google 검색 결과를 수집한 뒤, 각 링크를 따라가 이메일이나 상품 정보를 추가로 추출하고 싶다고 가정해봅시다. Thunderbit에서는 다음과 같이 처리할 수 있습니다:
- 검색 결과 페이지 스크래핑: Thunderbit가 “결과 제목”, “결과 URL”, “요약” 등 필드를 제안합니다. 스크래핑 후 시트로 내보내세요.
- 하위 페이지 스크래핑: “하위 페이지 스크래핑” 기능으로 각 결과 URL을 방문해 추가 필드(연락처, 상품 정보 등)를 추출합니다.
- 페이지네이션 처리: 여러 검색 결과 URL을 입력하거나, Thunderbit가 자동으로 페이지를 넘기도록 설정할 수 있습니다.
이렇게 Google 검색과 하위 페이지 추출을 조합하면, 수작업으로는 며칠 걸릴 리드 리스트도 단시간에 완성할 수 있어요.
더 자세한 내용은 를 참고하세요.
Google 스크래핑 자동화: Google Sheets에서 데이터 자동 업데이트
이제 진짜 자동화의 재미를 느낄 차례입니다. Thunderbit의 를 활용하면, 예를 들어 6시간마다 자동으로 데이터를 새로고침할 수 있습니다. 이런 분들에게 특히 유용해요:
- 영업팀: 매일 아침 최신 리드 리스트 확보
- 이커머스 운영팀: 경쟁사 가격/재고 변동 실시간 모니터링
- 시장 조사팀: 뉴스, 리뷰, 소셜 언급 등 실시간 트래킹
설정 방법은 간단합니다:
- 평소처럼 스크래핑 설정
- “스케줄” 클릭 후, “6시간마다”, “매일 오전 7시” 등 자연어로 주기 입력
- Google Sheets로 내보내기 연동
- Thunderbit 클라우드가 브라우저를 켜두지 않아도 정해진 시간에 자동으로 스크래핑 및 시트 업데이트
이제 야근하며 복사-붙여넣기 할 필요 없습니다. 항상 최신 데이터로 팀원들과 정보를 공유할 수 있어요.
문제 해결: Google 스크래핑에서 자주 발생하는 이슈와 Thunderbit의 대응
웹 스크래핑이 항상 100% 매끄럽진 않아요. 대표적인 문제와 Thunderbit의 해결책을 정리해봤어요:
- “가져온 콘텐츠가 비어 있습니다”(IMPORTXML): Thunderbit는 동적 콘텐츠까지 불러오기 때문에 이 에러가 거의 없습니다. 만약 데이터가 비어 있다면, 로그인 여부나 페이지에 실제로 정보가 있는지 확인하세요.
- 로그인 필요한 페이지: Thunderbit의 브라우저 모드로 로그인 세션 상태에서 스크래핑 가능합니다.
- 봇 차단: Thunderbit의 클라우드 스크래핑은 IP를 순환하고 실제 브라우징을 모방해 차단을 우회합니다.
- 웹사이트 구조 변경: Thunderbit의 AI가 레이아웃 변화를 자동으로 인식합니다. 데이터가 누락되면 “AI 필드 추천”을 다시 실행하세요.
- 대용량 데이터: Thunderbit는 시트로 내보내기 전에 필터링/정제 기능을 제공해, 시트가 과부하되지 않도록 도와줍니다.
- 여러 소스 결합: 여러 번 스크래핑한 데이터를 Google Sheets의 IMPORTRANGE나 함수로 쉽게 합칠 수 있습니다.
문제가 생기면 브라우저/클라우드 모드를 전환해보거나, 를 참고하세요. 그래도 안 되면, 커피 한 잔의 여유를 가지셔도 좋습니다.
핵심 요약: Google Sheets로 웹사이트 데이터 가져오기, 어떤 방법이 최선일까?
정리하자면:
- Google Sheets 함수(IMPORTXML 등): 단순하고 정적인 사이트에는 적합. 동적, 페이지네이션, 로그인 사이트에는 한계.
- 기존 스크래퍼/스크립트: 강력하지만, 설정과 유지보수가 필요함.
- AI 기반 스크래퍼(Thunderbit): 빠르고 신뢰성 높으며, 실제 웹 환경에 최적화. 코딩, XPath 없이 클릭만으로 가능.
함수 오류 해결에 시간을 허비하고 있다면, Thunderbit를 한 번 써보세요. 시간도 절약되고, 오류도 줄어들며, 자동으로 최신 데이터가 채워지는 Google Sheets를 경험할 수 있습니다.
지금 바로 후 첫 스크래핑을 시작해보세요. AI가 복잡한 작업을 대신해줍니다. 미래의 나(그리고 Google Sheets)가 분명히 고마워할 거예요.
더 깊이 배우고 싶다면 에서 , , 등 다양한 가이드를 참고하세요.
즐거운 스크래핑 되시길 바랍니다—여러분의 시트가 항상 데이터로 가득하길!
자주 묻는 질문(FAQ)
1. 왜 IMPORTXML은 대부분의 최신 웹사이트에서 작동하지 않나요?
IMPORTXML은 정적 HTML만 불러올 수 있고, 자바스크립트 실행, 로그인 페이지, 페이지네이션, 봇 차단 우회 등은 지원하지 않습니다. 그래서 동적 웹사이트 데이터 수집에는 적합하지 않습니다.
2. Thunderbit가 기존 스크래핑 방식과 다른 점은 무엇인가요?
Thunderbit는 AI가 웹페이지 내용을 의미적으로 이해합니다. 자바스크립트 기반 페이지, 로그인, 페이지네이션, 레이아웃 변경 등도 별도 코딩이나 XPath 없이 처리할 수 있고, 데이터를 Google Sheets로 바로 내보낼 수 있습니다.
3. Thunderbit로 Google Sheets에 데이터를 가져오려면 어떻게 하나요?
Thunderbit 크롬 확장 프로그램을 설치하고, 대상 웹사이트에 접속한 뒤 “AI 필드 추천”으로 데이터를 감지하고, “스크래핑” 후 “Google Sheets로 내보내기”를 클릭하면 됩니다. 클릭 두 번이면 구조화된 데이터가 시트에 들어갑니다.
4. Thunderbit로 데이터 스크래핑을 자동화할 수 있나요?
네. Thunderbit의 스케줄 스크래퍼 기능을 활용하면, Google Sheets에서 정해진 주기로 자동으로 데이터를 업데이트할 수 있습니다. 원하는 주기를 설정해 항상 최신 데이터를 유지하세요.
5. Thunderbit가 다른 도구로는 힘든 어떤 사이트까지 지원하나요?
Thunderbit는 자바스크립트 기반 사이트, 로그인 필요 페이지, 무한 스크롤, Google 검색 결과와 하위 페이지 추출 등 복잡한 구조의 실제 웹 데이터를 효과적으로 처리할 수 있습니다.
더 알아보기: