AI로 도메인에서 URL 목록 추출하는 방법

큰 웹사이트에서 모든 URL을 뽑는 일, 막상 해보면 만만치 않아요. 끝없는 페이지를 계속 클릭하고, 링크를 스프레드시트에 복붙하다 보면 어느새 몇 시간이 훌쩍 가버리거든요. 콘텐츠 감사, 리드 목록 작성, 경쟁사 조사 등 어떤 이유로든 웹사이트의 모든 페이지를 찾으려 해본 적 있다면 그 고통을 잘 아실 거예요. 지루하고, 실수하기 쉽고, 시간과 재능을 낭비하는 일이죠.

좋은 소식은 이제 그 고생을 안 해도 된다는 거예요. Thunderbit 같은 AI 도구가 작업 방식을 바꾸면서, 도메인의 모든 URL을 찾는 일을 며칠이 아니라 몇 분 만에 할 수 있어요. 실제로 AI 웹 스크래핑 도구를 쓰는 기업들은 데이터 수집에서 30~40%의 시간 절감을 보고하고, 어떤 경우엔 수작업 대비 최대 80%까지 효과를 보기도 해요. 단순한 수치가 아니라, 여러분의 시간을 되찾아주는 일이에요.

그럼 이제 모든 페이지를 찾는 일이 왜 어려운지, 왜 GPT나 Claude 같은 범용 AI는 제대로 도움이 안 되는지, Thunderbit 같은 특화 AI 에이전트가 이 과정을 얼마나 쉽게 만드는지 볼게요. 코딩을 몰라도 필요한 URL을 정확히 추출하는 방법도 단계별로 알려드릴게요.

도메인에서 모든 URL을 찾는 일이 왜 그렇게 어려울까?

웹사이트는 자기 페이지 목록을 깔끔하게 한 번에 건네주도록 만들어져 있지 않아요. 방문자를 위해 만들어졌지, 모든 페이지를 한 번에 찾으려는 사람을 위한 구조가 아니거든요. 왜 골치 아픈지 보면:

수동 복사-붙여넣기의 악몽: 모든 메뉴, 목록, 디렉터리를 하나씩 클릭하고 URL을 일일이 복사해 스프레드시트에 넣는 건, 손목터널증후군을 부르는 지름길이자 페이지 절반을 놓치기 쉬운 방법이에요.
페이지네이션과 무한 스크롤: 많은 사이트가 콘텐츠를 여러 페이지로 나누거나 스크롤할 때마다 더 많은 결과를 불러와요. "다음" 버튼을 놓치거나 충분히 스크롤하지 않으면 전체 섹션을 통째로 놓칠 수 있어요.
일관성 없는 페이지 구조: 어떤 페이지는 링크를 한 방식으로 보여주고, 다른 페이지는 전혀 다른 레이아웃을 써요. 이걸 전부 추적하는 건 악몽이에요.
숨겨진 페이지와 고아 페이지: 모든 페이지가 메인 내비게이션에서 연결되는 건 아니에요. 일부는 깊숙이 묻혀 있어 사이트맵이나 내부 검색을 통해서만 접근할 수 있어요.
사람의 실수: 복사할 페이지가 많아질수록 중복 URL, 오타, 누락 같은 실수가 늘어나요.

페이지가 수백 개, 수천 개에 달하는 사이트라면 더 말할 것도 없어요. 수동 추출은 규모를 감당할 수 없어요. 한 데이터 팀이 말했듯, 사소한 사례를 넘어서면 결국 자동화해야 한다는 거예요.

"웹사이트의 모든 페이지를 찾는다"는 건 무슨 뜻일까?

해결책에 들어가기 전에, 우리가 정확히 뭘 찾으려는지 먼저 정리해볼게요.

내부 URL: 같은 도메인 안의 페이지로 연결되는 링크예요. /about-us 나 /products/widget-123 같은 거죠. 콘텐츠 감사, 리드 생성, 제품 모니터링 같은 대부분의 비즈니스 활용에서는 내부 URL이 핵심 대상이에요.
외부 URL: 다른 웹사이트로 연결되는 링크예요. 보통은 외부 링크를 분석하는 경우가 아니면 필요 없어요.
목록 페이지와 하위 페이지: 많은 사이트에 카테고리 페이지, 블로그 아카이브, 디렉터리처럼 세부 페이지로 연결되는 "허브" 또는 "목록" 페이지가 있어요. 진짜로 모든 페이지를 찾으려면, 이런 목록을 따라 들어가 각 하위 페이지를 전부 수집해야 해요.
고아 페이지: 어디에서도 눈에 띄게 연결되지 않은 페이지예요. 사이트맵이나 내부 검색으로 찾을 수는 있지만, 놓치기 쉬워요.

즉, 도메인의 모든 URL을 찾는다는 건 홈페이지부터 가장 깊은 상품 페이지나 기사까지 모든 내부 페이지 URL을, 가능하면 스프레드시트처럼 바로 쓸 수 있는 형태로 모은다는 뜻이에요.

도메인의 모든 URL을 찾는 전통적인 방법들

예전 방식도 몇 가지 있긴 한데, 각각 고유한 골칫거리가 있어요.

수동 복사-붙여넣기와 브라우저 도구

가장 단순한 방법이에요. 모든 링크를 클릭하고, 모든 URL을 복사해 스프레드시트에 붙여넣고, 빠뜨린 게 없길 바라는 거죠. 어떤 사람은 현재 페이지의 모든 링크를 한 번에 가져오는 브라우저 확장 프로그램을 쓰기도 해요. 그래도 페이지마다 반복해야 하고, 페이지네이션이나 숨겨진 섹션은 직접 처리해야 해요. 페이지가 다섯 개쯤인 사이트라면 괜찮지만, 그 이상이면 별로예요.

사이트 검색과 사이트맵 사용

Google의 site: 검색: Google에 site:yourdomain.com을 입력하면 색인된 페이지가 나와요. 다만 Google이 보여주는 건 색인한 페이지뿐이라 보통 약 1,000개 결과로 제한되고, 새 페이지나 숨겨진 페이지, 품질 낮은 페이지는 놓치기 쉬워요. Google 공식 문서도 이것만으로는 완전한 해결책이 아니라고 인정해요.
XML 사이트맵: 많은 사이트에 중요한 URL을 나열한 /sitemap.xml이 있어요. 사이트맵이 최신이고 모든 페이지를 담는다면 아주 좋아요. 다만 모든 사이트에 있는 건 아니고, 사이트맵을 여러 파일로 나누는 경우도 있어요. 고아 페이지는 보통 여기서 빠지고요.

기술적인 크롤러와 스크립트

SEO 도구(예: Screaming Frog): 검색 엔진처럼 사이트를 크롤링해 URL 목록을 뽑아줘요. 강력하지만 설정과 구성 작업이 필요하고, 큰 사이트에서는 유료 라이선스가 필요할 때도 있어요.
Python 스크립트(예: Scrapy): 개발자는 스크립트를 짜서 URL을 크롤링하고 추출할 수 있어요. 다만 코드를 편하게 다루지 못하면 시작부터 어렵죠. 게다가 사이트 레이아웃이 바뀌면 스크립트가 깨지기 쉬워 계속 따라가며 수정해야 해요.

결론: 전통적인 방법은 너무 수동적이거나, 충분하지 않거나, 너무 기술적이에요. 많은 비즈니스 사용자가 중간에 포기하는 데는 다 이유가 있어요.

범용 AI 모델이 URL 추출을 완전히 자동화할 수 없는 이유

이렇게 생각할 수도 있어요. "그럼 ChatGPT나 Claude한테 웹사이트의 모든 페이지를 찾아달라고 하면 되지 않나?" 그러면 좋겠지만, 현실은 달라요.

실시간 브라우징 불가: GPT나 Claude 같은 범용 AI 모델은 웹을 실시간으로 탐색할 수 없어요. 웹사이트의 현재 상태를 "보는" 게 아니라, 학습 데이터나 사용자가 붙여넣은 내용에 의존해요.
웹 탐색 불가: 플러그인이나 브라우징 기능이 있어도, LLM은 "다음"을 클릭하거나 무한 스크롤을 처리하거나 사이트의 모든 링크를 체계적으로 따라가는 방법을 몰라요.
환각: 범용 AI에 도메인의 모든 URL을 물어보면, 그럴듯해 보이지만 실제로는 없는 링크를 만들어내는 경우가 많아요. (원래 없던 /about-us 페이지를 지어내는 경우도 봤어요.)
동적 콘텐츠 처리 불가: JavaScript로 콘텐츠를 불러오거나, 로그인이 필요하거나, 복잡한 내비게이션을 쓰는 사이트는 일반 LLM의 범위를 벗어나요.

image 1.png

Rayobyte의 가이드도 이렇게 말해요. "수백 또는 수천 페이지를 스크래핑하고 싶다면… ChatGPT만으로는 부족하다." 이 작업에 맞게 설계된 도구가 필요해요.

수직형 AI 에이전트가 미래인 이유, 그리고 왜 중요한가

수직형 AI 에이전트—즉, 웹 데이터 추출처럼 특정 영역에 맞게 만든 AI 도구—만이 비즈니스 업무에서 안정적이고 확장 가능한 결과를 얻는 방법이에요. 이유는 이래요.

범용 LLM은 글쓰기나 검색엔 뛰어나지만, 환각이 생기기 쉽고 비즈니스가 필요로 하는 안정성으로 여러 단계의 반복 가능한 워크플로를 처리하지 못해요.
엔터프라이즈 SaaS 도구는 반복적이고 구조화된 작업을 많이 자동화해야 해요. 이럴 때 수직형 AI 에이전트가 강해요. 하나의 일을 잘하도록 만들어졌고, 최소한의 오류로 처리하거든요.
업계 전반에 예시는 많아요: 웹 데이터 추출용 Thunderbit, 소프트웨어 개발용 Devin AI, 영업 자동화용 Alta, 교육용 Infinity Learn의 IL VISTA, HR용 Rippling, 법률용 Harvey 등 끝이 없어요.

간단히 말해, 웹사이트의 모든 페이지를 안정적으로 찾고 싶다면 범용 챗봇이 아니라 그 일을 위해 만들어진 수직형 AI 에이전트가 필요해요.

Thunderbit 소개: 누구나 쓸 수 있는 AI 기반 URL 추출

AI로 어떤 웹사이트든 데이터 추출 Get Started Free

바로 이 지점에서 Thunderbit이 등장해요. Thunderbit은 비즈니스 사용자를 위해 설계된 AI 웹 스크래퍼 크롬 확장 프로그램이에요. 코딩도, 복잡한 기술 설정도 없이 결과만 얻을 수 있어요. Thunderbit이 다른 이유는 이래요.

자연어 인터페이스: 원하는 걸 그냥 말로 설명하면 돼요. ("이 사이트의 모든 페이지 URL을 나열해줘") 그러면 Thunderbit의 AI가 추출 방법을 알아서 찾아요.
AI 필드 추천: Thunderbit이 페이지를 스캔하고 자동으로 열 이름을 제안해요. ("페이지 URL" 같은 항목) CSS 선택자나 XPath를 건드릴 필요가 없어요.
페이지네이션과 무한 스크롤 처리: Thunderbit은 "다음"을 클릭하거나 자동으로 스크롤해서 페이지를 놓치지 않게 해줘요.
하위 페이지 탐색: 더 깊이 들어가야 하나요? Thunderbit은 링크를 따라 하위 페이지로 가서 거기서도 데이터를 가져올 수 있어요.
구조화된 내보내기: 결과를 Google Sheets, Excel, Notion, Airtable, CSV로 바로 내보낼 수 있고, 무료이며 한 번 클릭이면 돼요.
코딩 불필요: 웹사이트를 둘러볼 수 있다면 Thunderbit도 쓸 수 있어요. 정말 그만큼 간단해요.

그리고 Thunderbit은 수직형 AI 에이전트라 안정성과 반복 가능성을 염두에 두고 만들어졌어요. 같은 작업을 계속 자동화해야 하는 비즈니스 사용자에게 딱 맞고요.

단계별 안내: Thunderbit으로 도메인의 모든 URL을 찾는 방법

어떻게 작동하는지 궁금하신가요? 필요한 모든 URL을 추출하는 비기술적인 방법을 단계별로 보여드릴게요.

1. Thunderbit 크롬 확장 프로그램 설치하기

먼저 Chrome 웹 스토어에서 Thunderbit을 다운로드하세요. Chrome, Edge, Brave 같은 Chromium 기반 브라우저에서 쓸 수 있어요. 쉽게 쓰려면 도구 모음에 고정해 두면 좋아요.

Thunderbit 무료로 사용해 보기

2. 대상 목록 또는 디렉터리 페이지 열기

URL을 추출하고 싶은 웹사이트로 이동하세요. 홈페이지, 사이트맵, 디렉터리, 또는 관심 페이지로 연결되는 목록 페이지라면 뭐든 괜찮아요.

3. Thunderbit을 실행하고 필드를 설정하기

Thunderbit 아이콘을 클릭해 확장 프로그램을 열고 새 스크레이퍼 템플릿을 시작하세요. 여기서 마법이 시작돼요.

**"AI 필드 추천"**을 클릭하세요. Thunderbit의 AI가 페이지를 스캔하고 열을 제안해 줘요. "Page URL", "Link" 같은 항목을 찾아보세요.
원하는 필드가 정확히 안 보이더라도, 그냥 "Page URL" 같은 이름의 열을 추가하면 돼요. Thunderbit의 AI는 이런 용어를 인식하도록 학습돼 있어서 적절한 데이터에 매핑해 줘요.

4. 필요하면 페이지네이션 또는 스크롤을 활성화하기

대상 페이지에 여러 페이지가 있거나(예: "1, 2, 3…" 또는 "더 보기" 버튼), Thunderbit에서 페이지네이션을 켜세요.

"다음" 버튼이 있는 사이트는 "클릭 페이지네이션" 모드로, 스크롤할수록 더 불러오는 사이트는 "무한 스크롤" 모드로 전환하세요.
Thunderbit이 "다음" 버튼이나 스크롤 영역을 선택하라고 안내해요. 그냥 클릭하면 나머지는 AI가 처리해요.

5. 스크래핑을 시작하고 결과 확인하기

"스크래핑" 버튼을 누르세요. Thunderbit이 모든 페이지를 크롤링하면서 찾은 URL을 전부 모아요. 결과는 확장 프로그램 안의 표에 바로 보여요. 큰 사이트는 몇 분 걸릴 수 있지만, 직접 하는 것보다 훨씬 빨라요.

6. URL 목록 내보내기

스크래핑이 끝나면 내보내기를 클릭하세요. 데이터를 다음으로 바로 보낼 수 있어요.

Google Sheets
Excel/CSV
Notion
Airtable

내보내기는 무료고, 모든 서식도 유지돼요. 더 이상 복사-붙여넣기로 골치 아플 일이 없어요.

Thunderbit과 다른 URL 추출 솔루션 비교

방법	사용 편의성	정확도 및 범위	확장성	내보내기 옵션
수동 복사-붙여넣기	고통스러움	낮음(놓치기 쉬움)	없음	수동(Excel 등)
브라우저 링크 추출기	1페이지용으로는 괜찮음	보통	부족함	수동
Google `site:` 검색	쉬움	보통(완전하지 않음)	약 1,000개로 제한	수동
XML 사이트맵	쉬움(있다면)	좋음(최신일 때)	좋음	수동/스크립트
SEO 도구(Screaming Frog)	기술적	높음	높음(유료)	CSV, Excel
Python 스크립트(Scrapy 등)	매우 기술적	높음	높음	사용자 정의
Thunderbit	매우 쉬움	매우 높음	높음	Google Sheets, CSV 등

Thunderbit은 전문 크롤러 수준의 정확도와 규모를 브라우저 확장 프로그램의 사용 편의성과 함께 줘요. 코드도 없고, 설정도 복잡하지 않고, 그냥 결과만 얻으면 돼요.

보너스: Thunderbit으로 URL만이 아니라 더 많은 것 추출하기

하위 페이지 스크래핑에 대해 알아보기 Get Started Free

여기서부터 더 흥미로워져요. Thunderbit은 URL만 위한 도구가 아니에요. 다음도 추출할 수 있어요.

제목
이메일
전화번호
이미지
페이지의 모든 구조화된 데이터

image 2.png

예를 들어 리드 목록을 만든다면, Thunderbit이 각 디렉터리 항목에서 프로필 URL, 이름, 이메일, 전화번호를 한 번에 가져오게 할 수 있어요. 제품을 감사 중이라면 제품 URL, 이름, 가격, 재고 상태를 뽑아낼 수 있고요. Thunderbit은 하위 페이지 스크래핑도 지원해서, 각 링크를 클릭해 들어가 세부 정보까지 추출할 수 있어요.

그리고 Thunderbit의 이메일 및 전화번호 추출기는 완전히 무료예요. 영업과 마케팅 팀에는 꽤 큰 장점이죠.

핵심 요약: AI로 웹사이트의 모든 페이지를 찾는 방법

정리해볼게요.

도메인에서 모든 URL을 추출하는 일은 수동 도구나 범용 도구로는 어렵다.
GPT 같은 범용 AI 모델은 웹 탐색, 페이지네이션, 동적 콘텐츠를 처리할 수 없다.
Thunderbit 같은 수직형 AI 에이전트는 웹 데이터 추출을 위해 목적에 맞게 만들어졌으며, 안정적이고 반복 가능하고 비즈니스 사용자가 쉽게 쓸 수 있다.
Thunderbit은 정말 간단하다: 확장 프로그램 설치, AI 필드 추천, 페이지네이션 활성화, 스크래핑, 내보내기. 코딩도 없고 번거로움도 없다.
URL만 추출하는 게 아니다: 제목, 이메일, 전화번호 등도 추출할 수 있어서 리드 생성, 감사, 조사에 딱 맞다.

링크를 복사-붙여넣기 하느라 지쳤거나 기술적인 크롤러와 씨름하고 있다면, Thunderbit을 한번 써보세요. 무료 요금제가 있어서, 얼마나 많은 시간과 정신을 아낄 수 있는지 직접 확인할 수 있어요.

그리고 아마존 상품 스크래핑, 데이터를 Excel로 추출하기, Google 검색 결과 스크래핑처럼 Thunderbit이 도와줄 수 있는 다른 방법이 궁금하다면, 더 많은 가이드와 팁은 Thunderbit 블로그에서 확인해 보세요.

수동 데이터 수집에서 시간을 되찾을 준비가 되셨나요? 웹 데이터 추출의 미래는 수직형 AI 에이전트이고, Thunderbit이 그 선두에 있어요. 직접 써보고, 다음 감사나 리드 목록, 조사 프로젝트를 가장 쉬운 작업으로 만들어 보세요.

Thunderbit으로 어떤 웹사이트든 URL 추출

더 읽어보기

추신. 1,000개의 URL을 손으로 복사-붙여넣기 하고 싶은 충동이 들 때면, 이제 그 일을 해 주는 AI가 있다는 걸 기억하세요. 손목도, 상사도 고마워할 거예요.

AI 웹 스크래퍼 사용해 보기 Get Started Free

AI로 데이터 추출하기

Google Sheets, Airtable, Notion으로 데이터를 손쉽게 옮겨보세요

Chrome Store Rating

PRODUCT HUNT#1 Product of the Week

AI로 도메인에서 URL 목록을 추출하는 가장 쉬운 방법