AI로 도메인에서 URL 목록을 추출하는 가장 쉬운 방법

최종 업데이트: April 30, 2026

솔직히 말하면, 큰 웹사이트에서 모든 URL을 뽑아내려고 처음 시도했을 때는 “그게 그렇게 어려울까?”라고 생각했어요. 그런데 몇 시간 뒤에도 저는 끝도 없는 페이지를 계속 클릭하고, 링크를 스프레드시트에 복붙하고, 내 인생 선택까지 의심하고 있더라고요. 콘텐츠 감사, 리드 목록 작성, 경쟁사 조사 등 어떤 이유로든 웹사이트의 모든 페이지를 찾고 싶어 본 적이 있다면 그 고통을 잘 아실 거예요. 지루하고, 실수하기 쉽고, 솔직히 말해 시간과 재능을 낭비하는 일이죠.

하지만 좋은 소식이 있어요. 이제 그런 고생을 할 필요가 없어요. 같은 AI 기반 도구가 비즈니스 사용자의 작업 방식을 바꾸고 있어서, 도메인의 모든 URL을 찾는 일을 며칠이 아니라 몇 분 만에 할 수 있게 됐거든요. 실제로 AI 기반 웹 스크래핑 도구를 사용하는 기업들은 데이터 수집 작업에서 을 보고하고, 어떤 경우에는 수작업 대비 효과를 보기도 해요. 이건 단순한 수치가 아니라, 여러분의 시간(그리고 삶)을 되찾아주는 일이죠.

그럼 이제 웹사이트의 모든 페이지를 찾는 일이 왜 그렇게 어려운지, 왜 GPT나 Claude 같은 범용 AI 모델이 제대로 도움이 되지 않는지, 그리고 Thunderbit 같은 특화 AI 에이전트가 이 과정을 얼마나 쉽게 만들어 주는지 살펴볼게요. 그리고 코딩을 몰라도 필요한 모든 URL을 정확히 추출하는 방법도 단계별로 알려드릴게요.

도메인에서 모든 URL을 찾는 일이 왜 그렇게 어려울까?

현실적으로 웹사이트는 자신이 가진 모든 페이지 목록을 깔끔하게 한 번에 건네주도록 만들어져 있지 않아요. 방문자를 위해 만들어졌지, 웹사이트의 모든 페이지를 한 번에 찾으려는 사람을 위한 구조는 아니거든요. 왜 이 작업이 그렇게 골치 아픈지 살펴보면:

  • 수동 복사-붙여넣기의 악몽: 모든 메뉴, 목록, 디렉터리를 하나씩 클릭하고 URL을 일일이 복사해 스프레드시트에 넣는 건, 손목터널증후군을 부르는 지름길이자 페이지 절반을 놓치기 쉬운 방법이에요.
  • 페이지네이션과 무한 스크롤: 많은 사이트가 콘텐츠를 여러 페이지로 나누거나 스크롤할 때마다 더 많은 결과를 불러와요. “다음” 버튼을 놓치거나 충분히 아래로 스크롤하지 않으면 전체 섹션을 통째로 놓칠 수 있어요.
  • 일관성 없는 페이지 구조: 어떤 페이지는 링크를 한 방식으로 보여주고, 다른 페이지는 전혀 다른 레이아웃을 써요. 이걸 전부 추적하는 건 정말 악몽이에요.
  • 숨겨진 페이지와 고아 페이지: 모든 페이지가 메인 내비게이션에서 연결되는 건 아니에요. 일부는 아주 깊숙이 묻혀 있어서 사이트맵이나 내부 검색을 통해서만 접근할 수 있어요.
  • 사람의 실수: 복사해야 할 페이지가 많아질수록 중복 URL, 오타, 누락 같은 실수가 늘어나기 마련이에요.

image.png

페이지가 수백 개, 수천 개에 달하는 사이트라면 더 말할 것도 없어요. 수동 추출은 규모를 감당할 수 없어요. 한 데이터 팀이 말했듯이, 사소한 사례를 넘어서면 결국 는 거예요.

“웹사이트의 모든 페이지를 찾는다”는 건 무슨 뜻일까?

해결책으로 들어가기 전에, 우리가 정확히 무엇을 찾으려는지 먼저 정리해볼게요.

  • 내부 URL: 같은 도메인 안의 페이지로 연결되는 링크예요. 예를 들면 /about-us 나 /products/widget-123 같은 거죠. 콘텐츠 감사, 리드 생성, 제품 모니터링 같은 대부분의 비즈니스 활용 사례에서는 내부 URL이 핵심 대상이에요.
  • 외부 URL: 다른 웹사이트로 연결되는 링크예요. 보통은 외부 링크를 분석하는 경우가 아니라면 필요 없어요.
  • 목록 페이지와 하위 페이지: 많은 사이트에는 카테고리 페이지, 블로그 아카이브, 디렉터리처럼 세부 페이지로 연결되는 “허브” 또는 “목록” 페이지가 있어요. 진짜로 웹사이트의 모든 페이지를 찾으려면, 이런 목록을 따라 들어가 각 하위 페이지를 전부 수집해야 해요.
  • 고아 페이지: 어디에서도 눈에 띄게 연결되지 않은 페이지예요. 사이트맵이나 내부 검색을 통해 찾을 수는 있지만, 놓치기 쉬워요.

즉, 도메인의 모든 URL을 찾는다는 건 홈페이지부터 가장 깊은 상품 페이지나 기사까지 모든 내부 페이지 URL을, 가능하면 스프레드시트처럼 바로 활용할 수 있는 형태로 모은다는 뜻이에요.

도메인의 모든 URL을 찾는 전통적인 방법들

예전 방식도 몇 가지 있긴 하지만, 각각 고유한 골칫거리가 있어요.

수동 복사-붙여넣기와 브라우저 도구

가장 단순한 방법이에요. 모든 링크를 클릭하고, 모든 URL을 복사해서 스프레드시트에 붙여넣고, 빠뜨린 게 없길 바라는 거죠. 어떤 사람들은 현재 페이지의 모든 링크를 한 번에 가져오는 브라우저 확장 프로그램을 쓰기도 하지만, 그래도 페이지마다 반복해야 하고, 페이지네이션이나 숨겨진 섹션은 직접 처리해야 해요. 페이지가 다섯 개 정도인 사이트라면 괜찮지만, 그 이상이면 별로예요.

사이트 검색과 사이트맵 사용

  • Google의 site: 검색: Google에 site:yourdomain.com을 입력하면 색인된 페이지들이 나와요. 하지만 Google이 보여주는 건 색인한 페이지뿐이라서, 보통 약 1,000개 결과로 제한되고, 새 페이지나 숨겨진 페이지, 품질이 낮은 페이지는 놓치기 쉬워요. 도 이것만으로는 완전한 해결책이 아니라고 인정해요.
  • XML 사이트맵: 많은 사이트에 중요한 URL을 나열한 /sitemap.xml이 있어요. 사이트맵이 최신 상태이고 모든 페이지를 포함한다면 아주 좋아요. 하지만 모든 사이트에 있는 건 아니고, 사이트맵을 여러 파일로 나누는 경우도 있어요. 고아 페이지는 보통 여기서 빠져요.

기술적인 크롤러와 스크립트

  • SEO 도구(예: Screaming Frog): 검색 엔진처럼 사이트를 크롤링해서 URL 목록을 뽑아줘요. 강력하긴 하지만 설정과 구성 작업이 필요하고, 큰 사이트에서는 유료 라이선스가 필요할 때도 있어요.
  • Python 스크립트(예: Scrapy): 개발자는 스크립트를 작성해 URL을 크롤링하고 추출할 수 있어요. 하지만 현실적으로 코드를 편하게 다루지 못한다면 시작부터 어렵죠. 게다가 사이트 레이아웃이 바뀌면 스크립트가 깨지기 쉬워서 계속 따라가며 수정해야 해요.

결론: 전통적인 방법은 너무 수동적이거나, 충분하지 않거나, 너무 기술적이에요. 많은 비즈니스 사용자가 중간에 포기하는 데는 다 이유가 있어요.

범용 AI 모델이 URL 추출을 완전히 자동화할 수 없는 이유

아마 이렇게 생각하실 수도 있어요. “그럼 ChatGPT나 Claude에게 웹사이트의 모든 페이지를 찾아달라고 하면 안 되나?” 저도 그랬으면 좋겠어요. 하지만 현실은 달라요.

  • 실시간 브라우징 불가: GPT나 Claude 같은 범용 AI 모델은 실제로 웹을 실시간으로 탐색할 수 없어요. 웹사이트의 현재 상태를 “보는” 게 아니라, 학습 데이터나 사용자가 붙여넣은 내용에 의존해요.
  • 웹 탐색 불가: 플러그인이나 브라우징 기능이 있어도, LLM은 “다음”을 클릭하거나 무한 스크롤을 처리하거나 사이트의 모든 링크를 체계적으로 따라가는 방법을 몰라요.
  • 환각: 범용 AI에게 도메인의 모든 URL을 물어보면, 그럴듯해 보이지만 실제로는 존재하지 않는 링크를 만들어내는 경우가 많아요. (제가 본 것만 해도, 원래 없던 /about-us 페이지를 지어내는 경우가 있었어요.)
  • 동적 콘텐츠 처리 불가: JavaScript로 콘텐츠를 불러오거나, 로그인이 필요하거나, 복잡한 내비게이션을 쓰는 사이트는 일반 LLM의 범위를 벗어나요.

image 1.png

에서도 이렇게 말해요. “수백 또는 수천 페이지를 스크래핑하고 싶다면… ChatGPT만으로는 부족하다.” 이 작업에 맞게 설계된 도구가 필요해요.

수직형 AI 에이전트가 미래인 이유, 그리고 왜 중요한가

여기서 제 SaaS와 자동화 경험이 등장해요. 수직형 AI 에이전트—즉, 웹 데이터 추출처럼 특정 영역에 맞게 만들어진 AI 도구—만이 비즈니스 업무에서 안정적이고 확장 가능한 결과를 얻는 방법이에요. 왜냐하면:

  • 범용 LLM은 글쓰기나 검색에는 뛰어나지만, 환각이 생기기 쉽고 비즈니스가 필요로 하는 안정성으로 여러 단계의 반복 가능한 워크플로를 처리하지 못해요.
  • 엔터프라이즈 SaaS 도구는 반복적이고 구조화된 작업을 많이 자동화해야 해요. 이럴 때 수직형 AI 에이전트가 강해요. 하나의 일을 잘하도록 만들어졌고, 최소한의 오류로 처리하거든요.
  • 업계 전반에 예시는 많아요: 웹 데이터 추출용 Thunderbit, 소프트웨어 개발용 Devin AI, 영업 자동화용 Alta, 교육용 Infinity Learn의 IL VISTA, HR용 Rippling, 법률용 Harvey 등 끝이 없어요.

간단히 말해, 웹사이트의 모든 페이지를 안정적으로 찾고 싶다면, 범용 챗봇이 아니라 그 일을 위해 만들어진 수직형 AI 에이전트가 필요해요.

Thunderbit 소개: 누구나 쓸 수 있는 AI 기반 URL 추출

바로 이 지점에서 이 등장해요. Thunderbit은 AI 웹 스크래퍼 크롬 확장 프로그램으로, 비즈니스 사용자를 위해 설계됐어요. 코딩도 필요 없고, 복잡한 기술 설정도 없이 결과만 얻을 수 있어요. Thunderbit이 다른 이유는 다음과 같아요.

  • 자연어 인터페이스: 원하는 것을 그냥 말로 설명하면 돼요. (“이 사이트의 모든 페이지 URL을 나열해줘”) 그러면 Thunderbit의 AI가 추출 방법을 알아서 찾아요.
  • AI 필드 추천: Thunderbit이 페이지를 스캔하고 자동으로 열 이름을 제안해요. (“페이지 URL” 같은 항목) CSS 선택자나 XPath를 건드릴 필요가 없어요.
  • 페이지네이션과 무한 스크롤 처리: Thunderbit은 “다음”을 클릭하거나 자동으로 아래로 스크롤해서 페이지를 놓치지 않게 해줘요.
  • 하위 페이지 탐색: 더 깊이 들어가야 하나요? Thunderbit은 링크를 따라 하위 페이지로 이동해 거기서도 데이터를 가져올 수 있어요.
  • 구조화된 내보내기: 결과를 Google Sheets, Excel, Notion, Airtable, CSV로 바로 내보낼 수 있고, 무료이며 한 번 클릭이면 돼요.
  • 코딩 불필요: 웹사이트를 둘러볼 수 있다면 Thunderbit도 쓸 수 있어요. 정말 그만큼 간단해요.

그리고 Thunderbit은 수직형 AI 에이전트이기 때문에 안정성과 반복 가능성을 염두에 두고 만들어졌어요. 같은 작업을 계속 자동화해야 하는 비즈니스 사용자에게 딱 맞아요.

단계별 안내: Thunderbit으로 도메인의 모든 URL을 찾는 방법

어떻게 작동하는지 보고 싶으신가요? 필요한 모든 URL을 추출하는 비기술적인 방법을 단계별로 보여드릴게요.

1. Thunderbit 크롬 확장 프로그램 설치하기

먼저 하세요. Chrome, Edge, Brave 같은 Chromium 기반 브라우저에서 사용할 수 있어요. 쉽게 접근할 수 있도록 도구 모음에 고정해 두면 좋아요.

2. 대상 목록 또는 디렉터리 페이지 열기

URL을 추출하고 싶은 웹사이트로 이동하세요. 홈페이지, 사이트맵, 디렉터리, 혹은 관심 있는 페이지로 연결되는 목록 페이지라면 무엇이든 괜찮아요.

3. Thunderbit을 실행하고 필드를 설정하기

Thunderbit 아이콘을 클릭해 확장 프로그램을 열고 새 스크레이퍼 템플릿을 시작하세요. 여기서 마법이 시작돼요.

  • **“AI 필드 추천”**을 클릭하세요. Thunderbit의 AI가 페이지를 스캔하고 열을 제안해 줄 거예요. “Page URL”, “Link” 같은 항목을 찾아보세요.
  • 원하는 정확한 필드가 보이지 않더라도, 그냥 “Page URL” 같은 이름의 열을 추가하면 돼요. Thunderbit의 AI는 이런 용어를 인식하도록 학습되어 있어서 적절한 데이터에 매핑해 줘요.

4. 필요하면 페이지네이션 또는 스크롤을 활성화하기

대상 페이지에 여러 페이지가 있거나(예: “1, 2, 3…” 또는 “더 보기” 버튼), Thunderbit에서 페이지네이션을 켜세요.

  • “다음” 버튼이 있는 사이트는 “클릭 페이지네이션” 모드로, 스크롤할수록 더 불러오는 사이트는 “무한 스크롤” 모드로 전환하세요.
  • Thunderbit이 “다음” 버튼이나 스크롤 영역을 선택하라고 안내할 거예요. 그냥 클릭하면 나머지는 AI가 처리해요.

5. 스크래핑을 시작하고 결과 확인하기

“스크래핑” 버튼을 누르세요. Thunderbit이 모든 페이지를 크롤링하면서 찾은 URL을 전부 수집할 거예요. 결과는 확장 프로그램 안의 표에 바로 표시돼요. 큰 사이트의 경우 몇 분 정도 걸릴 수 있지만, 직접 하는 것보다 훨씬 빨라요.

6. URL 목록 내보내기

스크래핑이 끝나면 내보내기를 클릭하세요. 데이터를 다음으로 바로 보낼 수 있어요.

  • Google Sheets
  • Excel/CSV
  • Notion
  • Airtable

내보내기는 무료이고, 모든 서식도 유지돼요. 더 이상 복사-붙여넣기 때문에 골치 아플 일이 없어요.

Thunderbit과 다른 URL 추출 솔루션 비교

방법사용 편의성정확도 및 범위확장성내보내기 옵션
수동 복사-붙여넣기고통스러움낮음(놓치기 쉬움)없음수동(Excel 등)
브라우저 링크 추출기1페이지용으로는 괜찮음보통부족함수동
Google site: 검색쉬움보통(완전하지 않음)약 1,000개로 제한수동
XML 사이트맵쉬움(있다면)좋음(최신일 때)좋음수동/스크립트
SEO 도구(Screaming Frog)기술적높음높음(유료)CSV, Excel
Python 스크립트(Scrapy 등)매우 기술적높음높음사용자 정의
Thunderbit매우 쉬움매우 높음높음Google Sheets, CSV 등

Thunderbit은 전문 크롤러 수준의 정확도와 규모브라우저 확장 프로그램의 사용 편의성과 함께 제공해요. 코드도 없고, 설정도 복잡하지 않고, 그냥 결과만 얻으면 돼요.

보너스: Thunderbit으로 URL만이 아니라 더 많은 것 추출하기

여기서부터가 더 흥미로워져요. Thunderbit은 URL만 위한 도구가 아니에요. 다음도 추출할 수 있어요.

  • 제목
  • 이메일
  • 전화번호
  • 이미지
  • 페이지의 모든 구조화된 데이터

image 2.png

예를 들어 리드 목록을 만들고 있다면, Thunderbit이 각 디렉터리 항목에서 프로필 URL, 이름, 이메일, 전화번호를 한 번에 가져오도록 할 수 있어요. 제품을 감사 중이라면 제품 URL, 이름, 가격, 재고 상태를 뽑아낼 수 있죠. Thunderbit은 도 지원해서, 각 링크를 클릭해 들어가 세부 정보까지 추출할 수 있어요.

그리고 Thunderbit의 이메일 및 전화번호 추출기는 완전히 무료예요. 영업과 마케팅 팀에는 꽤 큰 장점이죠.

핵심 요약: AI로 웹사이트의 모든 페이지를 찾는 방법

정리해볼게요.

  • 도메인에서 모든 URL을 추출하는 일은 수동 도구나 범용 도구로는 어렵다.
  • GPT 같은 범용 AI 모델은 웹 탐색, 페이지네이션, 동적 콘텐츠를 처리할 수 없다.
  • Thunderbit 같은 수직형 AI 에이전트는 웹 데이터 추출을 위해 목적에 맞게 만들어졌으며, 안정적이고 반복 가능하고 비즈니스 사용자가 쉽게 쓸 수 있다.
  • Thunderbit은 정말 간단하다: 확장 프로그램 설치, AI 필드 추천, 페이지네이션 활성화, 스크래핑, 내보내기. 코딩도 없고 번거로움도 없다.
  • URL만 추출하는 게 아니다: 제목, 이메일, 전화번호 등도 추출할 수 있어서 리드 생성, 감사, 조사에 딱 맞다.

링크를 복사-붙여넣기 하느라 지쳤거나 기술적인 크롤러와 씨름하고 있다면, . 무료 요금제가 있어서, 얼마나 많은 시간과 정신을 아낄 수 있는지 직접 확인할 수 있어요.

그리고 , , 처럼 Thunderbit이 도와줄 수 있는 다른 방법이 궁금하다면, 더 많은 가이드와 팁은 에서 확인해 보세요.

수동 데이터 수집에서 시간을 되찾을 준비가 되셨나요? 웹 데이터 추출의 미래는 수직형 AI 에이전트이고, Thunderbit이 그 선두에 있어요. 직접 써보고, 다음 감사나 리드 목록, 조사 프로젝트를 가장 쉬운 작업으로 만들어 보세요.

더 읽어보기

추신. 1,000개의 URL을 손으로 복사-붙여넣기 하고 싶은 충동이 들 때가 있다면, 이제는 그 일을 해 주는 AI가 있다는 걸 기억하세요. 손목도, 상사도 고마워할 거예요.

AI 웹 스크래퍼 사용해 보기
Topics
자동화웹 스크래핑 도구AI 웹 스크래퍼
목차

Thunderbit 체험하기

단 2번 클릭으로 리드와 기타 데이터를 추출하세요. AI 기반.

Thunderbit 받기 무료예요
AI로 데이터 추출하기
Google Sheets, Airtable, 또는 Notion으로 데이터를 손쉽게 옮기세요
Chrome Store Rating
PRODUCT HUNT#1 Product of the Week