AI로 도메인에서 URL 목록을 추출하는 가장 쉬운 방법

최종 업데이트: May 20, 2025

솔직히 말해서, 처음에 대형 웹사이트에서 모든 URL을 뽑아내려고 할 때 ‘이게 뭐가 어렵겠어?’라고 생각했어요. 그런데 몇 시간 뒤, 저는 여전히 끝도 없이 페이지를 클릭하며 링크를 복사해서 스프레드시트에 붙여넣고 있었고, 내 선택을 후회하고 있었습니다. 혹시 여러분도 콘텐츠 감사, 리드 리스트 작성, 경쟁사 분석 등 어떤 이유로든 웹사이트의 모든 페이지를 찾으려고 해본 적 있다면, 그 고생이 얼마나 지루하고 실수도 많으며, 시간과 에너지만 낭비되는지 잘 아실 거예요.

하지만 이제 좋은 소식이 있습니다. 더 이상 그렇게 고생할 필요가 없어요. 같은 AI 기반 도구 덕분에, 이제는 도메인 내 모든 URL을 며칠씩 걸리지 않고 단 몇 분 만에 뽑아낼 수 있습니다. 실제로 AI 웹 스크래퍼를 활용하는 기업들은 데이터 수집 업무에서 효과를 보고 있고, 어떤 경우에는 을 경험하고 있습니다. 이건 단순한 숫자가 아니라, 여러분의 소중한 시간을 돌려주는 일이죠.

이제 웹사이트의 모든 페이지를 찾는 일이 왜 이렇게 까다로운지, GPT나 Claude 같은 범용 AI 모델이 왜 한계가 있는지, 그리고 Thunderbit 같은 특화된 AI 에이전트가 어떻게 이 과정을 혁신적으로 바꿔주는지 살펴볼게요. 코딩을 몰라도 모든 URL을 추출하는 구체적인 방법도 함께 안내해드릴게요.

도메인 내 모든 URL 찾기가 어려운 이유

사실 웹사이트는 모든 페이지 목록을 한눈에 보여주도록 만들어진 게 아니에요. 방문자를 위한 구조이지, 한 번에 모든 페이지를 찾으려는 사람을 위한 구조가 아니죠. 그래서 이런 문제들이 생깁니다:

  • 수작업 복사-붙여넣기의 고통: 메뉴, 리스트, 디렉토리를 일일이 클릭하며 URL을 하나씩 복사하는 건 손목만 아플 뿐 아니라, 많은 페이지를 놓치기 쉽습니다.
  • 페이지네이션과 무한 스크롤: 많은 사이트가 여러 페이지로 콘텐츠를 나누거나, 스크롤할 때마다 더 많은 결과를 불러옵니다. ‘다음’ 버튼을 놓치거나 충분히 스크롤하지 않으면 중요한 부분을 빠뜨릴 수 있어요.
  • 불규칙한 페이지 구조: 어떤 페이지는 한 가지 방식으로 링크를 나열하고, 다른 페이지는 전혀 다른 레이아웃을 씁니다. 이걸 다 챙기는 건 정말 골치 아픈 일이죠.
  • 숨겨진 페이지(고아 페이지): 모든 페이지가 메인 메뉴에 연결되어 있지 않습니다. 일부는 사이트맵이나 내부 검색을 통해서만 접근할 수 있어요.
  • 사람의 실수: 복사해야 할 페이지가 많아질수록, 중복, 오타, 누락 등 실수도 늘어납니다.

image.png

수백, 수천 개의 페이지가 있는 사이트라면 수작업 추출은 사실상 불가능에 가깝습니다. 데이터 팀들도 라고 말하죠.

“웹사이트의 모든 페이지 찾기”란 무엇일까?

해결책을 보기 전에, 우리가 정확히 뭘 원하는지 정리해볼게요.

  • 내부 URL: 같은 도메인 내의 페이지를 가리키는 링크입니다(예: /about-us, /products/widget-123 등). 콘텐츠 감사, 리드 생성, 상품 모니터링 등 대부분의 비즈니스 목적에서는 내부 URL이 핵심이에요.
  • 외부 URL: 다른 웹사이트로 연결되는 링크입니다. 외부 링크 맵핑이 필요하지 않다면 보통 신경 쓰지 않아도 됩니다.
  • 리스트 페이지 vs. 상세 페이지: 많은 사이트는 카테고리, 블로그 아카이브, 디렉토리 등 ‘허브’ 페이지에서 상세 페이지로 연결합니다. 모든 페이지를 찾으려면 이런 리스트를 따라가서 각각의 상세 페이지까지 추출해야 해요.
  • 고아 페이지: 어디에도 명확히 연결되어 있지 않은 페이지입니다. 사이트맵이나 내부 검색으로 찾을 수 있지만, 놓치기 쉽죠.

즉, 도메인 내 모든 URL 찾기란, 홈페이지부터 가장 깊은 상품/게시글까지 모든 내부 페이지의 URL을, 활용하기 쉬운 형태(예: 스프레드시트)로 확보하는 걸 의미합니다.

도메인 내 모든 URL을 찾는 전통적인 방법들

예전 방식도 있지만, 각각의 한계가 분명해요:

수작업 복사-붙여넣기 & 브라우저 도구

가장 원초적인 방법입니다. 모든 링크를 클릭하고, URL을 복사해 스프레드시트에 붙여넣는 방식이죠. 일부 브라우저 확장 프로그램으로 현재 페이지의 모든 링크를 추출할 수 있지만, 페이지마다 반복해야 하고, 페이지네이션이나 숨겨진 영역은 직접 챙겨야 합니다. 5페이지짜리 소규모 사이트라면 괜찮지만, 그 이상은 정말 비효율적이에요.

사이트 검색 및 사이트맵 활용

  • 구글 site: 검색: site:yourdomain.com을 구글에 입력하면 색인된 페이지를 볼 수 있습니다. 하지만 구글이 색인한 것만 보여주고(보통 1,000개 내외로 제한), 새로 추가되거나 숨겨진 페이지, 품질이 낮은 페이지는 누락됩니다. 에서도 완벽한 방법이 아님을 인정하죠.
  • XML 사이트맵: 많은 사이트가 /sitemap.xml에 주요 URL을 나열합니다. 사이트맵이 최신이고 모든 페이지를 포함한다면 좋지만, 없는 경우도 많고, 여러 파일로 나뉘기도 하며, 고아 페이지는 빠질 수 있어요.

기술적 크롤러 및 스크립트

  • SEO 도구(예: Screaming Frog): 검색 엔진처럼 사이트를 크롤링해 URL 목록을 제공합니다. 강력하지만, 설정과 구성이 필요하고, 대형 사이트는 유료 라이선스가 필요할 수 있습니다.
  • 파이썬 스크립트(예: Scrapy): 개발자는 직접 스크립트를 작성해 크롤링할 수 있습니다. 하지만 코딩에 익숙하지 않다면 진입장벽이 높고, 사이트 구조가 바뀌면 스크립트도 자주 수정해야 하죠.

결론: 전통적인 방법은 너무 수작업이거나, 불완전하거나, 기술적으로 어렵습니다. 그래서 많은 사람들이 중간에 포기하곤 해요.

범용 AI 모델로는 URL 추출을 완전히 자동화할 수 없는 이유

‘ChatGPT나 Claude에게 웹사이트의 모든 페이지를 찾아달라고 하면 되지 않을까?’라고 생각할 수 있지만, 현실은 다릅니다:

  • 실시간 웹 브라우징 불가: GPT나 Claude 같은 범용 AI는 실제로 웹사이트를 실시간으로 탐색하지 못합니다. 훈련 데이터나 붙여넣은 정보만 활용할 뿐이에요.
  • 웹 내비게이션 불가: 플러그인이나 브라우징 기능이 있어도, LLM은 ‘다음’ 버튼 클릭, 무한 스크롤, 모든 링크 체계적 추적 등은 할 수 없습니다.
  • 허상 생성: 범용 AI에 도메인 내 모든 URL을 요청하면, 그럴듯하지만 실제로 존재하지 않는 링크를 만들어내기도 해요. (예를 들어, 없는 /about-us 페이지를 상상해서 제시하는 경우도 있습니다.)
  • 동적 콘텐츠 미지원: 자바스크립트로 로드되는 콘텐츠, 로그인 필요, 복잡한 내비게이션 등은 범용 LLM이 처리하지 못합니다.

image 1.png

에서도 ‘수백, 수천 개의 페이지를 크롤링하려면… ChatGPT만으로는 부족하다’고 명확히 말합니다. 즉, 이 작업에 특화된 도구가 필요하다는 뜻이죠.

특화형 AI 에이전트가 미래인 이유

SaaS와 자동화 경험을 바탕으로 말씀드리자면, 특정 목적에 맞게 설계된 AI 에이전트—예를 들어 웹 데이터 추출에 특화된 AI—만이 비즈니스 업무에서 신뢰할 수 있고 확장성 있는 결과를 제공합니다. 그 이유는 다음과 같아요:

  • 범용 LLM은 글쓰기나 검색에는 강하지만, 반복적이고 구조화된 업무에서는 오류가 많고, 비즈니스에 필요한 안정성을 제공하지 못합니다.
  • 기업용 SaaS는 반복적이고 구조화된 작업의 자동화가 필수입니다. 특화형 AI 에이전트는 이런 업무에 최적화되어, 오류 없이 안정적으로 처리합니다.
  • 업계별 특화 AI 예시: 웹 데이터 추출에는 Thunderbit, 소프트웨어 개발에는 Devin AI, 영업 자동화에는 Alta, 교육에는 Infinity Learn의 IL VISTA, HR에는 Rippling, 법률에는 Harvey 등 다양한 분야에서 특화형 AI가 활약하고 있습니다.

즉, 웹사이트의 모든 페이지를 신뢰성 있게 찾으려면 범용 챗봇이 아니라, 그 목적에 맞게 설계된 특화형 AI 에이전트가 필요합니다.

Thunderbit 소개: 누구나 쉽게 사용하는 AI 기반 URL 추출기

여기서 가 등장합니다. Thunderbit는 AI 웹 스크래퍼 크롬 확장 프로그램으로, 비즈니스 사용자를 위해 설계됐어요. 코딩도, 복잡한 설정도 필요 없이 바로 결과를 얻을 수 있습니다. Thunderbit만의 차별점은 다음과 같아요:

  • 자연어 인터페이스: 원하는 작업을 자연스럽게 설명하면(예: ‘이 사이트의 모든 페이지 URL 나열’), Thunderbit의 AI가 알아서 추출 방법을 결정합니다.
  • AI 필드 추천: Thunderbit가 페이지를 분석해 ‘페이지 URL’ 등 적절한 컬럼명을 자동으로 제안합니다. CSS 선택자나 XPath를 몰라도 됩니다.
  • 페이지네이션/무한 스크롤 자동 처리: ‘다음’ 버튼 클릭이나 스크롤도 Thunderbit가 자동으로 처리해, 누락 없이 모든 페이지를 수집합니다.
  • 하위 페이지 탐색: 더 깊은 데이터가 필요하다면, Thunderbit가 링크를 따라가 하위 페이지의 데이터도 추출할 수 있습니다.
  • 구조화된 내보내기: 결과를 Google Sheets, Excel, Notion, Airtable, CSV 등으로 바로 내보낼 수 있습니다. 무료이며 클릭 한 번이면 끝이에요.
  • 코딩 불필요: 웹사이트를 탐색할 수 있다면 누구나 Thunderbit를 사용할 수 있습니다. 정말 간단합니다.

Thunderbit는 특화형 AI 에이전트이기 때문에, 반복 작업에도 안정적이고 일관된 결과를 제공합니다. 자동화가 필요한 비즈니스 사용자에게 딱 맞는 도구죠.

Thunderbit로 도메인 내 모든 URL 찾기: 단계별 가이드

실제로 어떻게 동작하는지 궁금하신가요? 코딩 몰라도 모든 URL을 추출하는 과정을 단계별로 안내해드릴게요.

1. Thunderbit 크롬 확장 프로그램 설치

먼저 하세요. Chrome, Edge, Brave 등 크로미움 기반 브라우저에서 모두 사용 가능합니다. 툴바에 고정해두면 더 편리해요.

2. 추출 대상 리스트/디렉토리 페이지 열기

URL을 추출하고 싶은 웹사이트로 이동하세요. 홈페이지, 사이트맵, 디렉토리, 또는 원하는 페이지로 연결되는 리스트 페이지 등 모두 가능합니다.

3. Thunderbit 실행 및 필드 설정

Thunderbit 아이콘을 클릭해 확장 프로그램을 엽니다. 새 스크래퍼 템플릿을 시작하세요. 여기서 진짜 마법이 시작됩니다:

  • **“AI 필드 추천”**을 클릭하면 Thunderbit의 AI가 페이지를 분석해 ‘페이지 URL’, ‘링크’ 등 컬럼을 제안합니다.
  • 원하는 필드가 없다면, 직접 ‘페이지 URL’ 등 적절한 컬럼명을 추가해도 됩니다. Thunderbit의 AI가 이를 인식해 올바른 데이터를 매핑합니다.

4. 페이지네이션/스크롤 활성화(필요한 경우)

대상 페이지에 여러 페이지가 있거나(‘1, 2, 3...’ 또는 ‘더 보기’ 버튼 등), 무한 스크롤 방식이라면 Thunderbit에서 페이지네이션을 활성화하세요:

  • ‘다음’ 버튼이 있는 사이트는 “클릭 페이지네이션” 모드, 스크롤로 더 많은 결과가 나오는 사이트는 “무한 스크롤” 모드를 선택하세요.
  • Thunderbit가 ‘다음’ 버튼이나 스크롤 영역을 선택하라고 안내하면 클릭만 해주면 됩니다. 나머지는 AI가 알아서 처리해요.

5. 스크래핑 시작 및 결과 확인

“스크래핑” 버튼을 누르면 Thunderbit가 모든 페이지를 순회하며 URL을 수집합니다. 결과는 확장 프로그램 내 테이블에 바로 표시됩니다. 대형 사이트라면 몇 분 걸릴 수 있지만, 수작업에 비하면 훨씬 빠릅니다.

6. URL 리스트 내보내기

스크래핑이 끝나면 내보내기를 클릭하세요. 데이터를 바로 다음으로 보낼 수 있습니다:

  • Google Sheets
  • Excel/CSV
  • Notion
  • Airtable

내보내기는 무료이며, 포맷도 그대로 유지됩니다. 더 이상 복사-붙여넣기로 고생할 필요가 없어요.

Thunderbit와 다른 URL 추출 솔루션 비교

방법사용 편의성정확도 & 커버리지확장성내보내기 옵션
수작업 복사-붙여넣기매우 불편낮음(누락 많음)없음수동(Excel 등)
브라우저 링크 추출기1페이지 한정중간낮음수동
Google site: 검색쉬움중간(완전하지 않음)약 1,000개 제한수동
XML 사이트맵사이트맵 있으면 쉬움최신이면 좋음좋음수동/스크립트
SEO 도구(Screaming Frog)기술 필요높음높음(유료)CSV, Excel
파이썬 스크립트(Scrapy 등)매우 기술적높음높음커스텀
Thunderbit매우 쉬움매우 높음높음Google Sheets, CSV 등

Thunderbit는 전문 크롤러 수준의 정확도와 확장성브라우저 확장 프로그램의 간편함으로 제공합니다. 코딩도, 복잡한 설정도 필요 없이 바로 결과를 얻을 수 있어요.

보너스: Thunderbit로 URL 외 다양한 데이터 추출하기

Thunderbit는 단순히 URL만 추출하는 도구가 아닙니다. 다음과 같은 데이터도 쉽게 추출할 수 있어요:

  • 제목
  • 이메일
  • 전화번호
  • 이미지
  • 페이지 내 모든 구조화된 데이터

image 2.png

예를 들어, 리드 리스트를 만들 때 Thunderbit로 프로필 URL, 이름, 이메일, 전화번호까지 한 번에 추출할 수 있습니다. 상품 감사를 한다면 상품 URL, 이름, 가격, 재고 상태까지 모두 수집할 수 있죠. Thunderbit는 도 지원해, 각 링크를 클릭해 상세 정보까지 추출할 수 있습니다.

그리고 Thunderbit의 이메일/전화번호 추출 기능은 완전히 무료입니다. 영업/마케팅 팀에게는 정말 큰 장점이죠.

핵심 요약: AI로 웹사이트의 모든 페이지 찾기

정리하자면:

  • 도메인 내 모든 URL 추출은 수작업이나 범용 도구로는 어렵습니다.
  • GPT 같은 범용 AI는 웹 내비게이션, 페이지네이션, 동적 콘텐츠를 처리하지 못합니다.
  • Thunderbit 같은 특화형 AI 에이전트는 웹 데이터 추출에 최적화되어, 비즈니스 사용자가 쉽게 반복 작업을 자동화할 수 있습니다.
  • Thunderbit 사용법은 간단합니다: 확장 프로그램 설치, AI 필드 추천, 페이지네이션 활성화, 스크래핑, 내보내기까지 모두 코드 없이 가능합니다.
  • URL 외에도 다양한 데이터 추출 가능: 제목, 이메일, 전화번호 등 리드 생성, 감사, 리서치에 딱 맞아요.

링크 복사-붙여넣기에 지치셨거나, 복잡한 크롤러와 씨름하기 싫으시다면 . 무료 플랜도 있으니, 얼마나 많은 시간과 노력을 아낄 수 있는지 직접 경험해보실 수 있습니다.

Thunderbit가 제공하는 다양한 활용법—, , 등—이 궁금하다면 에서 더 많은 가이드와 팁을 확인해보세요.

이제 수작업 데이터 수집에서 벗어나세요! 웹 데이터 추출의 미래는 특화형 AI 에이전트에 있습니다. Thunderbit와 함께라면, 다음 감사, 리드 리스트, 리서치 프로젝트가 지금까지 중 가장 쉬워질 거예요.

더 읽어보기

P.S. 만약 1,000개의 URL을 손으로 복사-붙여넣고 싶은 유혹이 든다면, 이제는 AI가 있다는 걸 기억하세요. 여러분의 손목과 상사가 고마워할 거예요.

AI 웹 스크래퍼 사용해보기
Shuai Guan
Shuai Guan
Co-founder/CEO @ Thunderbit. Passionate about cross section of AI and Automation. He's a big advocate of automation and loves making it more accessible to everyone. Beyond tech, he channels his creativity through a passion for photography, capturing stories one picture at a time.
Topics
자동화웹 스크래핑 도구AI 웹 스크래퍼
Thunderbit 체험하기
AI로 웹페이지를 손쉽게 스크래핑하세요.
무료 플랜 제공
한국어 지원
목차
AI로 데이터 추출하기
Google Sheets, Airtable, Notion으로 손쉽게 데이터 전송
Chrome Store Rating
PRODUCT HUNT#1 Product of the Week