สัปดาห์ที่แล้วผมลองดึงข้อมูลเรตติ้งโรงแรมและจำนวนรีวิวของที่พักประมาณ 200 แห่งใน 3 เมืองใหญ่ของยุโรปจาก TripAdvisor สคริปต์ตัวแรกของผม — ใช้แค่ requests.get() กับ header ค่าเริ่มต้น — ได้กลับมาเป็น 403 Forbidden แบบสวยๆ ทุกคำขอ ไม่มีข้อมูลที่ใช้ได้แม้แต่ไบต์เดียว
TripAdvisor เป็นหนึ่งในแหล่งข้อมูลสาธารณะที่มีค่ามากที่สุดในอุตสาหกรรมท่องเที่ยว: มีรีวิวมากกว่า , รายชื่อธุรกิจมากกว่า 8 ล้านรายการ และมีผู้เข้าชมไม่ซ้ำต่อเดือนราว 460 ล้านคน แถมยังมีอิทธิพลต่อยอดใช้จ่ายด้านการท่องเที่ยวต่อปีมากกว่า แต่ถ้าจะดึงข้อมูลพวกนี้แบบโปรแกรมมิ่งล่ะ? ตรงนี้แหละที่เริ่มยาก TripAdvisor ใช้ทั้ง DataDome bot detection, Cloudflare WAF, TLS fingerprinting และ JavaScript challenge เป็นเกราะป้องกันหลายชั้นที่หยุดการสแครปแบบง่ายๆ ตั้งแต่ยังไม่ทันเริ่ม คู่มือนี้คือแหล่งข้อมูลเดียวที่ผมอยากให้มีตั้งแต่แรก: เปรียบเทียบ 3 แนวทางสแครปด้วย Python แบบตัวต่อตัว (พร้อมตัวเลือกแบบไม่ต้องเขียนโค้ด), โค้ดครบทุกวิธี, ส่วนแก้ปัญหา anti-bot แบบเป็นระบบ และแพตเทิร์นที่เอาไปใช้ซ้ำได้กับทั้งโรงแรม ร้านอาหาร และสถานที่ท่องเที่ยว ไม่ว่าคุณจะเพิ่งเริ่มใช้ Python หรือเป็นนักพัฒนาที่มีประสบการณ์ คู่มือนี้จะช่วยประหยัดเวลาที่เสียไปกับ 403 ได้เยอะมาก
ไม่อยากเขียนโค้ด? ดึงข้อมูล TripAdvisor แบบง่ายที่สุด
ขอพูดตรงๆ ไว้ก่อน หลายคนที่ค้นคำว่า "scrape TripAdvisor with Python" จริงๆ แล้วไม่ได้อยากเขียนโค้ดขนาดนั้น พวกเขาแค่อยากได้ข้อมูล — ชื่อโรงแรม เรตติ้ง จำนวนรีวิว ราคา — ลงสเปรดชีตให้เร็วที่สุด ถ้าคุณเป็นแบบนั้น มีทางที่สั้นกว่ามาก
คือส่วนขยาย Chrome ที่ทำงานด้วย AI ซึ่งเราสร้างขึ้นมาให้สามารถอ่านหน้า TripAdvisor ได้ทุกหน้า และแนะนำคอลัมน์ที่ควรดึงออกมาโดยอัตโนมัติ เวิร์กโฟลว์นี้ง่ายจริงๆ แค่สองคลิก:
- เปิดหน้ารายการของ TripAdvisor (เช่น หน้าผลการค้นหา “Hotels in Paris”)
- คลิก “AI Suggest Fields” ในแถบด้านข้างของ Thunderbit AI จะสแกนหน้าและเสนอคอลัมน์อย่าง Hotel Name, Rating, Review Count, Price และ Location
- คลิก “Scrape.” Thunderbit จะดึงข้อมูลจากทุกรายการในหน้า — และจัดการ pagination ให้โดยอัตโนมัติถ้าคุณต้องการผลลัพธ์เพิ่ม
- Export ไปยัง Excel, Google Sheets, Airtable หรือ Notion การส่งออกฟรีในทุกแพ็กเกจ
Thunderbit ใช้งานได้กับโรงแรม ร้านอาหาร และสถานที่ท่องเที่ยวโดยไม่ต้องปรับค่าอะไร AI จะปรับตัวตามเนื้อหาบนหน้าเอง สำหรับผลลัพธ์หลายหน้า มันตรวจจับปุ่ม “Next” และ infinite scroll ให้อัตโนมัติ และเพราะมันรันอยู่ใน Chrome จริงๆ ของคุณ จึงใช้คุกกี้เซสชันและ browser fingerprint ของคุณ ทำให้ได้เปรียบตามธรรมชาติในการรับมือ bot detection
คุณลองได้ด้วย — แพ็กเกจฟรีให้ 6 หน้า/เดือน เพียงพอสำหรับทดสอบเวิร์กโฟลว์
ถ้าคุณต้องการการควบคุมแบบโปรแกรมมิ่ง, ต้องการ logic การแยกข้อมูลที่ปรับแต่งเอง หรือวางแผนจะดึงมากกว่า 10,000 หน้า Python คือคำตอบ อ่านต่อได้เลย
ทำไมต้องใช้ Python ดึงข้อมูลจาก TripAdvisor?
ข้อมูล TripAdvisor ส่งผลต่อธุรกิจได้โดยตรงและวัดผลได้จริง งานวิจัยจาก พบว่า เมื่อ Global Review Index ของโรงแรมเพิ่มขึ้น 1 คะแนนจาก 100 คะแนน อัตราค่าห้องเฉลี่ยต่อวันจะเพิ่มขึ้น 0.89% และ Revenue Per Available Room จะเพิ่มขึ้น 1.42% ขณะที่งานวิจัยอีกชิ้นจาก ระบุว่าเมื่อเรตติ้งใน TripAdvisor เพิ่มขึ้น 1 ดาวโดยปัจจัยภายนอก รายได้ต่อปีของโรงแรมทั่วไปจะเพิ่มขึ้นราว $55,000–$75,000 รีวิวจึงไม่ใช่แค่ตัวเลขสวยๆ แต่เป็นตัวขับรายได้จริง
ทีมต่างๆ ใช้ข้อมูล TripAdvisor กันแบบนี้:
| กรณีใช้งาน | ใครได้ประโยชน์ | ต้องใช้ข้อมูลอะไร |
|---|---|---|
| วิเคราะห์คู่แข่งโรงแรม | เชนโรงแรม, revenue manager | เรตติ้ง, ราคา, ปริมาณรีวิว, สิ่งอำนวยความสะดวก |
| วิจัยตลาดร้านอาหาร | กลุ่มร้านอาหาร, แบรนด์อาหาร | ประเภทอาหาร, ช่วงราคา, sentiment ของรีวิว |
| ติดตามเทรนด์สถานที่ท่องเที่ยว | ผู้ประกอบการทัวร์, หน่วยงานท่องเที่ยว | อันดับความนิยม, รูปแบบตามฤดูกาล |
| วิเคราะห์ sentiment | นักวิจัย, data analyst | ข้อความรีวิวเต็ม, ดาวเรตติ้ง, วันที่ |
| สร้างลีด | ทีมขาย, เอเจนซี่ท่องเที่ยว | ชื่อธุรกิจ, ข้อมูลติดต่อ, ที่ตั้ง |
แล้วทำไมต้องเป็น Python โดยเฉพาะ? มี 3 เหตุผล หนึ่ง คือ ecosystem ที่แข็งแรง: BeautifulSoup, Selenium, Playwright, Scrapy, httpx, pandas — Python มีไลบรารีด้าน scraping และ data analysis ที่โตเต็มที่มากกว่าภาษาอื่น สองคือ ใช้ Python ซึ่งแปลว่ามี community support เยอะ, คำตอบใน StackOverflow เยอะ และคู่มือที่อัปเดตเสมอ สามคือข้อได้เปรียบของทั้ง pipeline: คุณสแครปด้วย BeautifulSoup, ทำความสะอาดข้อมูลด้วย pandas, วิเคราะห์ sentiment ด้วย Hugging Face Transformers และสร้างแดชบอร์ดได้ในภาษาเดียว ไม่ต้องสลับบริบทไปมา
3 วิธีดึงข้อมูล TripAdvisor ด้วย Python (แบบเทียบกันชัดๆ)
คู่มือส่วนใหญ่จะเลือกแค่วิธีเดียวแล้วพุ่งไปเลย ซึ่งไม่ค่อยช่วยเท่าไรถ้าคุณยังต้องตัดสินใจ ก่อน จะเขียนโค้ด นี่คือตารางเปรียบเทียบที่ผมอยากให้มีคนยื่นให้ตั้งแต่แรก:
| วิธี | ความเร็ว | รองรับ JS | รับมือบอทได้ดีแค่ไหน | ความซับซ้อน | เหมาะกับ |
|---|---|---|---|---|---|
requests + BeautifulSoup | ⚡ เร็ว (~120–200 หน้า/นาที แบบดิบ) | ❌ ไม่มี | ⚠️ ต่ำ | ง่าย | หน้า listing แบบ static, โปรเจกต์ขนาดเล็ก |
| Selenium / Headless Browser | 🐢 ช้า (~8–20 หน้า/นาที) | ✅ เต็มรูปแบบ | ⚠️ ปานกลาง | ปานกลาง | เนื้อหาไดนามิก, การคลิก “Read more”, cookie banner |
| Hidden JSON / GraphQL API | ⚡⚡ เร็วที่สุด (~200–600 หน้า/นาที แบบดิบ) | N/A | ✅ สูงกว่า | ยาก | ดึงรีวิว/ข้อมูลโรงแรมจำนวนมาก |
| แบบไม่ต้องเขียนโค้ด (Thunderbit) | ⚡ เร็ว | ✅ มีในตัว | ✅ มีในตัว | ง่ายที่สุด | คนไม่เขียนโค้ด, export งานครั้งคราวแบบเร็วๆ |
มีข้อควรรู้เล็กน้อย ความเร็วแบบดิบด้านบนเป็นตัวเลขเชิงทฤษฎี — rate limit ของ TripAdvisor (~10–15 requests ต่อนาทีต่อ IP) จะจำกัด throughput จริงไว้ประมาณ 10 หน้า/นาทีต่อ IP ไม่ว่าคุณจะใช้วิธีไหนก็ตาม วิธี hidden JSON จะให้ข้อมูลต่อ request มากที่สุด แปลว่าต้องส่ง request น้อยลงและเสี่ยงโดน rate limit น้อยลง Selenium ช้ากว่าวิธี request-based ประมาณ 5 เท่าในงานจริง แต่เป็นตัวเลือกเดียวเมื่อคุณต้องกดปุ่มหรือ render JavaScript
ส่วนที่เหลือของคู่มือนี้จะพาไปทีละวิธีด้วยโค้ดครบถ้วน เลือกวิธีที่เข้ากับสถานการณ์ของคุณ หรือจะผสมกันก็ได้ (ผมมักใช้ requests+BS4 สำหรับหน้า listing และใช้ hidden JSON สำหรับหน้ารายละเอียด)
เตรียม Python Environment
ก่อนเริ่ม มาจัด environment ให้พร้อม คุณต้องใช้ Python 3.10+ (ผมแนะนำ 3.12 หรือ 3.13 — แพ็กเกจหลักรองรับหมดและไม่มีปัญหาที่รู้กัน)
ติดตั้งทุกอย่างในครั้งเดียว:
1pip install requests beautifulsoup4 selenium httpx parsel pandas curl-cffi
หมายเหตุแพ็กเกจ:
requests(2.33.1) — สำหรับ HTTP requests, ต้องใช้ Python 3.10+beautifulsoup4(4.14.3) — สำหรับ parse HTMLselenium(4.43.0) — สำหรับ browser automation, ต้องใช้ Python 3.10+httpx(0.28.1) — HTTP client แบบ asyncparsel(1.11.0) — ตัวเลือก CSS/XPath (เบากว่า BS4)pandas(3.0.2) — สำหรับ export ข้อมูล, ต้องใช้ Python 3.11+curl-cffi(0.15.0) — สำหรับเลียนแบบ TLS fingerprint (สำคัญมากในการหลบ Cloudflare)
ChromeDriver: ถ้าคุณใช้ Selenium ข่าวดีคือ ตั้งแต่ Selenium 4.6 เป็นต้นมา Selenium Manager จะดาวน์โหลดและแคช ChromeDriver ที่ถูกต้องให้อัตโนมัติ ไม่ต้องติดตั้งเอง และมันจับคู่เวอร์ชันให้แบบไดนามิก จึงไม่ต้องกังวลเรื่อง Chrome version ไม่ตรงกัน
Virtual environment (แนะนำ):
1python -m venv tripadvisor-scraper
2source tripadvisor-scraper/bin/activate # macOS/Linux
3tripadvisor-scraper\Scripts\activate # Windows
วิธีที่ 1: ใช้ Requests และ BeautifulSoup ดึงข้อมูล TripAdvisor
นี่คือวิธีที่ง่ายที่สุด เหมาะมากกับการสแครปหน้า listing (ผลการค้นหาโรงแรม, รายการร้านอาหาร) ที่ข้อมูลอยู่ใน HTML แบบ static อยู่แล้ว ไม่ต้องเปิดเบราว์เซอร์ ไม่ต้อง render JavaScript ใช้ทรัพยากรน้อย
เข้าใจรูปแบบ URL ของ TripAdvisor
URL ของ TripAdvisor มีรูปแบบที่เดาได้ตามหมวดหมู่:
- Hotels:
https://www.tripadvisor.com/Hotels-g{locationId}-{Location_Name}-Hotels.html - Restaurants:
https://www.tripadvisor.com/Restaurants-g{locationId}-{Location_Name}.html - Attractions:
https://www.tripadvisor.com/Attractions-g{locationId}-Activities-{Location_Name}.html
การแบ่งหน้าจะใช้พารามิเตอร์ oa (offset anchors) ที่แทรกใน URL โดยแต่ละหน้าจะแสดง 30 ผลลัพธ์:
- หน้า 1: URL หลัก (ไม่มีพารามิเตอร์
oa) - หน้า 2:
Hotels-g187768-oa30-Italy-Hotels.html - หน้า 3:
Hotels-g187768-oa60-Italy-Hotels.html
สำหรับหน้ารวมรีวิว จะใช้พารามิเตอร์ or และเพิ่มทีละ 10:
- หน้า 1:
Reviews-or0-Hotel_Name.html - หน้า 2:
Reviews-or10-Hotel_Name.html
ถ้าต้องการรีวิวทุกภาษา ให้เติม ?filterLang=ALL ต่อท้าย URL
ส่ง Request ด้วย Header ที่สมจริง
TripAdvisor ตรวจ header ค่อนข้างเข้ม ถ้าใช้ header ค่าเริ่มต้นของ Python จะโดนบล็อกทันที คุณต้องเลียนแบบ Chrome จริงให้ใกล้เคียง:
1import requests
2import time
3import random
4session = requests.Session()
5> This paragraph contains content that cannot be parsed and has been skipped.
6session.headers.update(headers)
7url = "https://www.tripadvisor.com/Hotels-g187147-Paris_Ile_de_France-Hotels.html"
8response = session.get(url)
9print(f"Status: {response.status_code}")
10print(f"Content length: {len(response.text)} characters")
รายละเอียดสำคัญ: TripAdvisor จะตรวจว่า User-Agent และ Sec-CH-UA Client Hints ของคุณสอดคล้องกันหรือไม่ ถ้าคุณอ้างว่าเป็น Chrome 135 ใน User-Agent แต่ Sec-CH-UA บอกว่า Chrome 120 คุณจะถูกจับได้ ควรหมุนทั้งชุด header ไปพร้อมกัน ไม่ใช่หมุนทีละตัว
Parse รายการด้วย BeautifulSoup
เมื่อได้ response ที่สำเร็จแล้ว ก็แยกข้อมูลด้วย BeautifulSoup ได้เลย TripAdvisor ใช้แอตทริบิวต์ data-automation และ data-test-attribute ซึ่งเสถียรกว่าชื่อ class CSS มาก (ที่เปลี่ยนบ่อย):
1from bs4 import BeautifulSoup
2soup = BeautifulSoup(response.text, "html.parser")
3# หาทุกการ์ดโรงแรม
4cards = soup.select('div[data-test-attribute="location-results-card"]')
5hotels = []
6for card in cards:
7 # ชื่อโรงแรม
8 title_el = card.select_one('div[data-automation="hotel-card-title"]')
9 name = title_el.get_text(strip=True) if title_el else None
10 # ลิงก์ไปหน้ารายละเอียด
11 link_el = card.select_one('div[data-automation="hotel-card-title"] a')
12 link = "https://www.tripadvisor.com" + link_el["href"] if link_el else None
13 # เรตติ้ง
14 rating_el = card.select_one('[data-automation="bubbleRatingValue"]')
15 rating = rating_el.get_text(strip=True) if rating_el else None
16 # จำนวนรีวิว
17 review_el = card.select_one('[data-automation="bubbleReviewCount"]')
18 review_count = review_el.get_text(strip=True).replace(",", "").split()[0] if review_el else None
19> This paragraph contains content that cannot be parsed and has been skipped.
20print(f"พบโรงแรม {len(hotels)} แห่งในหน้านี้")
21for h in hotels[:3]:
22 print(h)
ข้อสังเกตเรื่อง selector: TripAdvisor ใช้ CSS class แบบ obfuscated เช่น FGwzt, yyzcQ ซึ่งจะเปลี่ยนทุกครั้งที่เว็บอัปเดต ดังนั้นควรยึด data-automation และ data-test-target เป็นหลักเสมอ เพราะเสถียรกว่า
จัดการ Pagination
ถ้าจะสแครปหลายหน้า ให้ลูปผ่าน offset และเว้นเวลาระหว่าง request อย่างสุภาพ:
1import pandas as pd
2all_hotels = []
3base_url = "https://www.tripadvisor.com/Hotels-g187147-oa{offset}-Paris_Ile_de_France-Hotels.html"
4for page in range(5): # 5 หน้าแรก
5 offset = page * 30
6 url = base_url.format(offset=offset) if page > 0 else "https://www.tripadvisor.com/Hotels-g187147-Paris_Ile_de_France-Hotels.html"
7 response = session.get(url)
8 if response.status_code != 200:
9 print(f"หน้า {page + 1}: ได้ status {response.status_code}, หยุด")
10 break
11 soup = BeautifulSoup(response.text, "html.parser")
12 cards = soup.select('div[data-test-attribute="location-results-card"]')
13 for card in cards:
14 title_el = card.select_one('div[data-automation="hotel-card-title"]')
15 name = title_el.get_text(strip=True) if title_el else None
16 rating_el = card.select_one('[data-automation="bubbleRatingValue"]')
17 rating = rating_el.get_text(strip=True) if rating_el else None
18 review_el = card.select_one('[data-automation="bubbleReviewCount"]')
19 review_count = review_el.get_text(strip=True).replace(",", "").split()[0] if review_el else None
20> This paragraph contains content that cannot be parsed and has been skipped.
21 print(f"หน้า {page + 1}: พบโรงแรม {len(cards)} แห่ง")
22 time.sleep(random.uniform(3, 7)) # หน่วงแบบสุ่มเพื่อลดโอกาสโดน rate limit
23df = pd.DataFrame(all_hotels)
24print(f"\nรวมโรงแรมที่สแครปได้: {len(df)}")
time.sleep(random.uniform(3, 7)) สำคัญมาก TripAdvisor มี rate limit อยู่ราว 10–15 requests ต่อนาทีต่อ IP ถ้าเร็วเกินไปจะเจอ CAPTCHA หรือ 429 errors
ข้อจำกัดของวิธีนี้
แล้ววิธีนี้จะพังเมื่อไร? requests+BS4 ใช้ไม่ได้เมื่อ:
- TripAdvisor ส่งเนื้อหาที่ render ด้วย JavaScript (บางหน้าผลการค้นหาต้องใช้ JS)
- ข้อความรีวิวถูกตัดไว้หลังปุ่ม "Read more"
- ระบบ anti-bot ยกระดับเป็น JavaScript challenge หรือ CAPTCHA
- คุณต้องการข้อมูลที่มีเฉพาะหลัง client-side rendering เช่น ราคา หรือ availability
ถ้าเจอสถานการณ์แบบนี้ คุณต้องใช้ Selenium (วิธีที่ 2) หรือ hidden JSON method (วิธีที่ 3)
วิธีที่ 2: ใช้ Selenium ดึงข้อมูล TripAdvisor แบบ Headless Browser
Selenium เปิดเบราว์เซอร์จริง จึง render JavaScript ได้, กดปุ่มได้, รับมือ cookie consent banner ได้ และโต้ตอบกับเนื้อหาไดนามิกได้ ข้อแลกเปลี่ยนคือมันช้ากว่าประมาณ และใช้ RAM ราว 300–500MB ต่อ browser instance
ตั้งค่า Selenium ให้หลบการตรวจจับ
ถ้าใช้แบบแกะกล่อง Selenium จะถูกตรวจจับได้ง่ายมาก ระบบ fingerprinting ของ TripAdvisor มองออกทันที คุณต้องปิด automation flags:
1from selenium import webdriver
2from selenium.webdriver.chrome.options import Options
3from selenium.webdriver.common.by import By
4from selenium.webdriver.support.ui import WebDriverWait
5from selenium.webdriver.support import expected_conditions as EC
6options = Options()
7options.add_argument("--headless=new") # ใช้ headless mode แบบใหม่ (Chrome 112+)
8options.add_argument("--disable-blink-features=AutomationControlled")
9options.add_argument("--window-size=1920,1080")
10options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/135.0.0.0 Safari/537.36")
11options.add_experimental_option("excludeSwitches", ["enable-automation"])
12options.add_experimental_option("useAutomationExtension", False)
13driver = webdriver.Chrome(options=options)
14> This paragraph contains content that cannot be parsed and has been skipped.
15**แค่นี้พอสำหรับ TripAdvisor ไหม?** สำหรับงานสแครปขนาดเล็ก (ไม่เกิน 50 หน้า) ชุดนี้บวก residential proxies มักจะใช้ได้ แต่ถ้าปริมาณมากกว่านั้น คุณอาจต้องใช้ `undetected-chromedriver` หรือ `nodriver` — เพราะการป้องกันของ DataDome บน TripAdvisor วิเคราะห์สัญญาณกว่า 1,000 จุดต่อ request รวมถึง TLS fingerprint ที่ Selenium ปกติปลอมไม่ได้
16### สแครปผลการค้นหาโรงแรมด้วย Selenium
17```python
18import time
19import random
20url = "https://www.tripadvisor.com/Hotels-g187147-Paris_Ile_de_France-Hotels.html"
21driver.get(url)
22# รอให้การ์ดโรงแรมโหลด
23wait = WebDriverWait(driver, 15)
24wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, 'div[data-test-attribute="location-results-card"]')))
25# จัดการ cookie consent popup (ถ้ามี)
26try:
27 cookie_btn = driver.find_element(By.ID, "onetrust-accept-btn-handler")
28 cookie_btn.click()
29 time.sleep(1)
30except:
31 pass # ไม่มี popup
32# ดึงข้อมูลโรงแรม
33cards = driver.find_elements(By.CSS_SELECTOR, 'div[data-test-attribute="location-results-card"]')
34hotels = []
35for card in cards:
36 try:
37 name = card.find_element(By.CSS_SELECTOR, 'div[data-automation="hotel-card-title"]').text
38 except:
39 name = None
40 try:
41 rating = card.find_element(By.CSS_SELECTOR, '[data-automation="bubbleRatingValue"]').text
42 except:
43 rating = None
44 try:
45 reviews = card.find_element(By.CSS_SELECTOR, '[data-automation="bubbleReviewCount"]').text
46 except:
47 reviews = None
48> This paragraph contains content that cannot be parsed and has been skipped.
49print(f"สแครปโรงแรมได้ {len(hotels)} แห่ง")
50for h in hotels[:3]:
51 print(h)
หน้าหนึ่งของผมใช้เวลาประมาณ 8 วินาที — เทียบกับน้อยกว่า 1 วินาทีด้วย requests+BS4 ช่องว่าง 8 เท่านี้สะสมเร็วมากเมื่อคุณต้องสแครปหลายร้อยหน้า
ขยาย “Read More” และดึงรีวิวเต็ม
หน้ารวมรีวิวมักตัดข้อความยาวไว้หลังปุ่ม “Read more” Selenium คลิกได้:
1review_url = "https://www.tripadvisor.com/Hotel_Review-g187147-d188726-Reviews-Le_Marais_Hotel-Paris_Ile_de_France.html"
2driver.get(review_url)
3wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, 'div[data-reviewid]')))
4time.sleep(2)
5# คลิกทุกปุ่ม "Read more"
6read_more_buttons = driver.find_elements(By.XPATH, '//button//*[contains(text(), "Read more")]/..')
7for btn in read_more_buttons:
8 try:
9 driver.execute_script("arguments[0].click();", btn)
10 time.sleep(0.3)
11 except:
12 pass
13# ดึงรีวิว
14review_elements = driver.find_elements(By.CSS_SELECTOR, 'div[data-reviewid]')
15reviews = []
16for rev in review_elements:
17 try:
18 title = rev.find_element(By.CSS_SELECTOR, 'div[data-test-target="review-title"]').text
19 except:
20 title = None
21 try:
22 body = rev.find_element(By.CSS_SELECTOR, 'q.IRsGHoPm span').text
23 except:
24 try:
25 body = rev.find_element(By.CSS_SELECTOR, 'p.partial_entry').text
26 except:
27 body = None
28 try:
29 rating_class = rev.find_element(By.CSS_SELECTOR, 'div[data-test-target="review-rating"] span').get_attribute("class")
30 # rating ถูก encode อยู่ใน class เช่น "ui_bubble_rating bubble_50" = 5.0
31 rating_num = [c for c in rating_class.split() if "bubble_" in c][0].replace("bubble_", "")
32 rating = int(rating_num) / 10
33 except:
34 rating = None
35> This paragraph contains content that cannot be parsed and has been skipped.
36print(f"สแครปรีวิวได้ {len(reviews)} รายการ")
เพิ่ม Proxy Rotation ให้ Selenium
ถ้าจะสแครปต่อเนื่องยาวๆ คุณต้องมีการหมุน proxy ด้วย ตอนนี้ selenium-wire เลิกดูแลแล้วตั้งแต่เดือนมกราคม 2024 ให้ใช้ proxy support ที่มากับ Chrome แทน:
1# กรณี proxy ไม่มี authentication
2proxy = "http://your-proxy-address:port"
3options.add_argument(f"--proxy-server={proxy}")
4# สำหรับ proxy ที่ต้อง auth ให้ใช้ Chrome extension หรือ Selenium 4 BiDi protocol
ถ้าจะหมุน proxy แบบโปรแกรมมิ่ง ให้สร้าง driver instance ใหม่พร้อม proxy ใหม่ทุก batch ของ request ถึงจะไม่เนี้ยบ แต่เชื่อถือได้
วิธีที่ 3: ใช้ Hidden JSON Method (ไม่ต้อง parse HTML เลย)
คู่มือส่วนใหญ่ไม่พูดถึงวิธีนี้ ซึ่งน่าเสียดาย เพราะนี่คือวิธีที่เร็วและสะอาดที่สุดในทั้งสามแบบ TripAdvisor ฝังข้อมูลโครงสร้างเป็น JSON ไว้ใน HTML โดยตรง — อยู่ใน <script> tag เป็น JavaScript variables อย่าง pageManifest และ urqlCache การดึง JSON ตรงนี้จะได้ข้อมูลที่สะอาดกว่า (เช่น เรตติ้งเป็นตัวเลข, วันที่เป็น ISO format) ใช้ request น้อยลง และไม่ต้อง render JavaScript เลย
หา JSON ที่ฝังอยู่ใน source ของหน้า
หัวใจของวิธีนี้คือ: ใช้ requests.get() ดึงหน้า แล้วค่อยสกัด JSON จาก HTML ดิบ โดยไม่ต้อง render JavaScript เลย
1import requests
2import re
3import json
4> This paragraph contains content that cannot be parsed and has been skipped.
5url = "https://www.tripadvisor.com/Hotel_Review-g188590-d194317-Reviews-NH_City_Centre_Amsterdam.html"
6response = requests.get(url, headers=headers)
7> This paragraph contains content that cannot be parsed and has been skipped.
8**จะหาชื่อ variable เองยังไง:** เปิดหน้าโรงแรม TripAdvisor ใน Chrome คลิกขวา → View Page Source แล้วกด Ctrl+F หา `pageManifest` หรือ `urqlCache` หรือ `aggregateRating` ข้อมูลพวกนี้อยู่ในนั้นรอให้ parse อยู่แล้ว
9### Parse JSON และดึงข้อมูลแบบมีโครงสร้าง
10TripAdvisor ยังฝัง schema.org data แบบ `application/ld+json` ซึ่งดึงง่ายยิ่งกว่า:
11```python
12from parsel import Selector
13sel = Selector(text=response.text)
14# ดึง structured data แบบ JSON-LD
15json_ld_scripts = sel.xpath("//script[@type='application/ld+json']/text()").getall()
16for script in json_ld_scripts:
17 data = json.loads(script)
18 if isinstance(data, dict) and data.get("@type") in ["Hotel", "Restaurant", "TouristAttraction"]:
19 print(f"Name: {data.get('name')}")
20 print(f"Rating: {data.get('aggregateRating', {}).get('ratingValue')}")
21 print(f"Review Count: {data.get('aggregateRating', {}).get('reviewCount')}")
22 print(f"Price Range: {data.get('priceRange')}")
23 print(f"Address: {data.get('address', {}).get('streetAddress')}")
24 print(f"Coordinates: {data.get('geo', {}).get('latitude')}, {data.get('geo', {}).get('longitude')}")
25 break
JSON-LD นี้ฝังอยู่ใน HTML แบบ static และไม่ต้อง render JavaScript เลย มันให้ชื่อสถานที่, aggregate rating, จำนวนรีวิว, ที่อยู่, พิกัด, ช่วงราคา และ URL รูปภาพ — ทั้งหมดโดยไม่ต้อง parse HTML tag สักตัว
ถ้าต้องการข้อมูลที่ลึกขึ้น เช่น รีวิวแต่ละรายการ, การแจกแจงคะแนน, หรือรายการสิ่งอำนวยความสะดวก คุณจะต้องใช้ object urqlCache:
1# ดึง urqlCache สำหรับข้อมูลรีวิวเชิงลึก
2cache_match = re.search(r'"urqlCache"\s*:\s*({.+?})\s*,\s*"redux"', response.text)
3if cache_match:
4 cache_data = json.loads(cache_match.group(1))
5 # ไล่ใน cache เพื่อหา review data
6 for key, value in cache_data.items():
7 if "reviews" in str(value).lower()[:100]:
8 reviews_data = json.loads(value.get("data", "{}")) if isinstance(value, dict) else None
9 if reviews_data:
10 print(f"พบ cache entry ของรีวิว: {key[:50]}...")
11 break
เส้นทาง JSON ที่แน่นอนอาจเปลี่ยนบ้างเมื่อ TripAdvisor ปรับ frontend แต่โครงสร้างหลัก — JSON-LD สำหรับข้อมูลสรุป และ urqlCache สำหรับข้อมูลละเอียด — มีความเสถียรมาหลายปีแล้ว
Reverse-engineer TripAdvisor GraphQL API (ขั้นสูง)
ถ้าจะดึงข้อมูลในปริมาณมาก TripAdvisor GraphQL endpoint จะส่ง structured data กลับมาโดยตรง วิธีนี้เร็วที่สุดแต่ต้องดูแลมากที่สุด
1import httpx
2import random
3import string
4def generate_request_id():
5 """สร้างค่าของ header X-Requested-By"""
6 random_chars = ''.join(random.choices(string.ascii_letters + string.digits, k=180))
7 return f"TNI1625!{random_chars}"
8> This paragraph contains content that cannot be parsed and has been skipped.
9> This paragraph contains content that cannot be parsed and has been skipped.
10with httpx.Client() as client:
11 response = client.post(
12 "https://www.tripadvisor.com/data/graphql/ids",
13 json=search_payload,
14 headers=graphql_headers
15 )
16 if response.status_code == 200:
17 results = response.json()
18 print(json.dumps(results, indent=2)[:1000])
19 else:
20 print(f"GraphQL request failed: {response.status_code}")
สำหรับดึงรีวิวผ่าน GraphQL:
1review_payload = [{
2 "variables": {
3 "locationId": 194317, # NH City Centre Amsterdam
4 "offset": 0,
5 "limit": 20,
6 "filters": {},
7 "sortType": None,
8 "sortBy": "date",
9 "language": "en",
10 "doMachineTranslation": False,
11 "photosPerReviewLimit": 3
12 },
13 "extensions": {
14 "preRegisteredQueryId": "ef1a9f94012220d3"
15 }
16}]
17with httpx.Client() as client:
18 response = client.post(
19 "https://www.tripadvisor.com/data/graphql/ids",
20 json=review_payload,
21 headers=graphql_headers
22 )
23 if response.status_code == 200:
24 data = response.json()
25 reviews = data[0]["data"]["locations"][0]["reviewListPage"]["reviews"]
26 total = data[0]["data"]["locations"][0]["reviewListPage"]["totalCount"]
27 print(f"Total reviews: {total}")
28 for r in reviews[:3]:
29 print(f" [{r['rating']}/5] {r['title']} - {r['createdDate']}")
ข้อควรระวังสำคัญ: ค่า preRegisteredQueryId (เช่น 84b17ed122fbdbd4 สำหรับ search และ ef1a9f94012220d3 สำหรับรีวิว) อาจใช้ไม่ได้เมื่อ TripAdvisor deploy ใหม่ ถ้าเกิดขึ้น request ของคุณจะล้มเหลวแบบเงียบๆ คุณต้องค้นหา query ID ใหม่โดยดู network request ใน DevTools ของเบราว์เซอร์
ทำไมวิธีนี้ช่วยลดความจำเป็นในการใช้ proxy
คำนวณง่ายๆ ถ้าใช้ requests+BS4 การสแครป hotel detail 100 หน้า ต้องใช้ 100 requests แต่ถ้าใช้ hidden JSON method แต่ละ request จะได้ข้อมูลที่ต้องการจากหน้าเดียวครบถ้วน — ไม่ต้องส่ง request เพิ่มเพื่อขยายรีวิวหรือโหลดเนื้อหาแบบไดนามิก และถ้าใช้ GraphQL เรียก API ครั้งเดียวก็ได้รีวิว 20 รายการ Fewer requests = โอกาสโดน rate limiting น้อยลง = ต้องพึ่ง proxy rotation น้อยลง สำหรับโปรเจกต์ขนาดเล็กถึงกลาง (ไม่เกิน 1,000 หน้า) บางทีคุณอาจไม่ต้องใช้ proxy เลย ถ้าใส่ delay ที่เหมาะสม
สแครปโรงแรม ร้านอาหาร และสถานที่ท่องเที่ยวด้วยสคริปต์เดียว
คู่มือที่แข่งกันอยู่สี่ในห้าชิ้นจะพูดแค่โรงแรม แต่ TripAdvisor มีคอนเทนต์หลัก 3 หมวด และรูปแบบ URL กับ field ที่ต้องดึงก็ไม่เหมือนกัน นี่คือวิธีสร้างฟังก์ชันเดียวที่รองรับครบทั้งสาม
ฟิลด์ข้อมูลที่มีในแต่ละหมวด
| ฟิลด์ | โรงแรม | ร้านอาหาร | สถานที่ท่องเที่ยว |
|---|---|---|---|
| ชื่อ | ✅ | ✅ | ✅ |
| เรตติ้ง | ✅ | ✅ | ✅ |
| จำนวนรีวิว | ✅ | ✅ | ✅ |
| ราคา/ช่วงราคา | ✅ | ✅ | บางครั้ง |
| ที่อยู่ | ✅ | ✅ | ✅ |
| ประเภทอาหาร | ❌ | ✅ | ❌ |
| ระยะเวลา/ประเภททัวร์ | ❌ | ❌ | ✅ |
| สิ่งอำนวยความสะดวก | ✅ | ❌ | ❌ |
| พิกัด | ✅ | ✅ | ✅ |
สร้างฟังก์ชัน scrape_tripadvisor() แบบใช้ซ้ำได้
1import requests
2from bs4 import BeautifulSoup
3import pandas as pd
4import time
5import random
6import re
7import json
8def scrape_tripadvisor(category, location_id, location_name, num_pages=3):
9 """
10 สแครปข้อมูล listing ของ TripAdvisor สำหรับโรงแรม ร้านอาหาร หรือสถานที่ท่องเที่ยว
11> This paragraph contains content that cannot be parsed and has been skipped.
12> This paragraph contains content that cannot be parsed and has been skipped.
13> This paragraph contains content that cannot be parsed and has been skipped.
14 session = requests.Session()
15 session.headers.update(headers)
16 all_items = []
17 for page in range(num_pages):
18 offset = page * 30
19 if page == 0:
20 url = first_page_patterns[category].format(geo=location_id, name=location_name)
21 else:
22 url = url_patterns[category].format(geo=location_id, offset=offset, name=location_name)
23 response = session.get(url)
24 if response.status_code != 200:
25 print(f" หน้า {page + 1}: ได้ status {response.status_code}, หยุด")
26 break
27 soup = BeautifulSoup(response.text, "html.parser")
28 cards = soup.select('div[data-test-attribute="location-results-card"]')
29> This paragraph contains content that cannot be parsed and has been skipped.
30 print(f" หน้า {page + 1}: พบรายการ {len(cards)} รายการ")
31 time.sleep(random.uniform(3, 7))
32 return pd.DataFrame(all_items)
33# ตัวอย่างการใช้งาน
34print("=== โรงแรมในปารีส ===")
35hotels_df = scrape_tripadvisor("hotels", "187147", "Paris_Ile_de_France", num_pages=2)
36print(hotels_df.head())
37print("\n=== ร้านอาหารในโรม ===")
38restaurants_df = scrape_tripadvisor("restaurants", "187791", "Rome_Lazio", num_pages=2)
39print(restaurants_df.head())
40print("\n=== สถานที่ท่องเที่ยวในบาร์เซโลนา ===")
41attractions_df = scrape_tripadvisor("attractions", "187497", "Barcelona_Catalonia", num_pages=2)
42print(attractions_df.head())
ฟังก์ชันเดียว ครอบคลุม 3 หมวด ไม่มีโค้ดซ้ำ ถ้า TripAdvisor เปลี่ยน selector คุณแก้แค่จุดเดียว
ถ้า TripAdvisor บล็อก ต้องทำอย่างไร? (Troubleshooting แบบ Anti-Bot)
นี่คือส่วนที่ผมต้องการมากที่สุดตอนเริ่มสแครป TripAdvisor และเป็นส่วนที่คู่มืออื่นไม่ค่อยจัดระบบให้ TripAdvisor ใช้ DataDome (วิเคราะห์ ต่อวัน) ร่วมกับ Cloudflare WAF นี่คือตารางวิเคราะห์ปัญหาที่พบบ่อย:
This paragraph contains content that cannot be parsed and has been skipped.
Retry Logic แบบ Exponential Backoff
บทความอื่นแทบไม่เคยโชว์โค้ดส่วนนี้ นี่คือฟังก์ชัน retry ที่นำกลับไปใช้ได้:
1import time
2import random
3import requests
4def fetch_with_retry(session, url, max_retries=4, base_delay=2, max_delay=60):
5 """
6 ดึง URL ด้วย exponential backoff และ jitter
7 หมุน User-Agent ทุกครั้งที่ retry
8 """
9 user_agents = [
10 "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/135.0.0.0 Safari/537.36",
11 "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/135.0.0.0 Safari/537.36",
12 "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/134.0.0.0 Safari/537.36",
13 "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/135.0.0.0 Safari/537.36",
14 ]
15 for attempt in range(max_retries):
16 # หมุน User-Agent ตอน retry
17 if attempt > 0:
18 session.headers["User-Agent"] = random.choice(user_agents)
19 try:
20 response = session.get(url, timeout=30)
21 if response.status_code == 200:
22 return response
23 if response.status_code == 429:
24 # เคารพ Retry-After ถ้ามี
25 retry_after = int(response.headers.get("Retry-After", base_delay * (2 ** attempt)))
26 print(f" ถูกจำกัดความถี่ (429). รอ {retry_after}s...")
27 time.sleep(retry_after)
28 continue
29> This paragraph contains content that cannot be parsed and has been skipped.
30 # status อื่นๆ — ไม่ retry
31 print(f" status ผิดปกติ {response.status_code} สำหรับ {url}")
32 return response
33> This paragraph contains content that cannot be parsed and has been skipped.
34 print(f" retry ครบ {max_retries} ครั้งแล้วสำหรับ {url}")
35 return None
หมุน Headers, Proxies และ Sessions
สำหรับการสแครปต่อเนื่อง ควรเก็บชุด header หลายแบบไว้แล้วหมุนพร้อมกัน:
1import random
2> This paragraph contains content that cannot be parsed and has been skipped.
3PROXY_LIST = [
4 "http://user:pass@residential-proxy-1:port",
5 "http://user:pass@residential-proxy-2:port",
6 # เพิ่ม residential proxies อื่นๆ
7]
8def get_rotated_session():
9 """สร้าง session ใหม่พร้อม header และ proxy ที่หมุนแล้ว"""
10 session = requests.Session()
11> This paragraph contains content that cannot be parsed and has been skipped.
12> This paragraph contains content that cannot be parsed and has been skipped.
13 return session
ชนิดของ proxy สำคัญมาก Datacenter proxy มักถูก TripAdvisor บล็อกแทบจะทันที (HTTP 1020 Access Denied) การสแครประยะยาวจำเป็นต้องใช้ residential proxy เพราะมันวิ่งผ่าน ISP ของผู้ใช้จริงและแยกจากผู้ใช้ทั่วไปแทบไม่ออก ควรคาดงบประมาณราว $2.50–$8.40/GB แล้วแต่ผู้ให้บริการ
ส่งออกและจัดเก็บข้อมูล TripAdvisor ที่สแครปได้
เมื่อได้ข้อมูลแล้ว การเอาไปไว้ในรูปแบบที่ใช้งานง่ายก็ไม่ยาก
Export เป็น CSV (นิยมที่สุด)
1import pandas as pd
2df = pd.DataFrame(all_hotels)
3df.to_csv("tripadvisor_hotels_paris.csv", index=False, encoding="utf-8-sig")
4print(f"Exported {len(df)} rows to CSV")
encoding='utf-8-sig' สำคัญ เพราะช่วยให้ Excel แสดงตัวอักษรที่ไม่ใช่ละตินได้ถูกต้อง เช่น สำเนียงฝรั่งเศสหรืออักษรจีน เวลาคุณเปิด CSV
Export เป็น JSON (สำหรับข้อมูลซ้อนกัน)
ถ้ามีรีวิวซ้อนอยู่ใต้โรงแรม JSON จะช่วยรักษาโครงสร้างไว้:
1# โครงสร้างแบบลำดับชั้น
2hotel_data = {
3 "property_id": "d194317",
4 "name": "NH City Centre Amsterdam",
5 "rating": 4.0,
6 "reviews": [
7 {"title": "Great location", "rating": 5, "date": "2025-03-15", "text": "..."},
8 {"title": "Average stay", "rating": 3, "date": "2025-03-10", "text": "..."},
9 ]
10}
11# ถ้าต้องการวิเคราะห์แบบแบน ใช้ json_normalize
12flat_reviews = pd.json_normalize(
13 hotel_data,
14 record_path="reviews",
15 meta=["property_id", "name"]
16)
17flat_reviews.to_csv("reviews_flat.csv", index=False)
วิธีสองไฟล์สำหรับข้อมูลเชิงสัมพันธ์
สำหรับชุดข้อมูลใหญ่ ผมมักใช้ 2 ไฟล์ CSV:
hotels.csv— 1 แถวต่อ 1 ที่พัก (แบบ flat)reviews.csv— 1 แถวต่อ 1 รีวิว พร้อมproperty_idเป็น foreign key
วิธีนี้ทำให้ join ใน pandas, โหลดเข้าฐานข้อมูล หรือ import เข้า BI tools ได้ง่าย
ถ้าคุณไม่อยากยุ่งกับ logic การ export พวกนี้ Thunderbit ให้คุณ ไปยัง Excel, Google Sheets, Airtable หรือ Notion — ฟรีทั้งหมดและไม่ต้องเขียนโค้ด เหมาะมากเวลาต้องแชร์ผลกับทีมที่ไม่ใช่สายเทคนิค
เคล็ดลับสแครป TripAdvisor อย่างรับผิดชอบและมีประสิทธิภาพ
สแครปอย่างรับผิดชอบใน 6 ข้อ:
- เช็ก
robots.txt:robots.txtของ TripAdvisor บล็อกบอทสำหรับ training AI (GPTBot, ClaudeBot ฯลฯ) แบบเต็มๆ ส่วน crawler ทั่วไปจะเจอข้อจำกัดเฉพาะบาง path ดูได้ที่tripadvisor.com/robots.txt - ใส่ delay: เว้น 3–7 วินาทีระหว่าง request เป็นช่วงที่ค่อนข้างปลอดภัย ถ้าเร็วกว่า 10–15 requests ต่อนาทีต่อ IP จะเสี่ยง rate limit
- สแครปเฉพาะข้อมูลสาธารณะ อย่า login เพื่อเข้าถึงข้อมูลที่ปิดไว้
- เก็บข้อมูลอย่างปลอดภัย และปฏิบัติตาม GDPR/CCPA ถ้าจัดการข้อมูลส่วนบุคคล (เช่น ชื่อผู้รีวิว)
- พิจารณา TripAdvisor official API ถ้าคุณต้องการข้อมูลระดับเชิงพาณิชย์ ให้ข้อมูลธุรกิจ พร้อมรีวิวได้สูงสุด 5 รายการและรูป 5 รูปต่อสถานที่ — จำกัด แต่เสถียรและถูกต้องตามกฎหมาย
- เข้าใจบริบททางกฎหมาย: คำตัดสินของศาล EU คดี Ryanair () ทำให้ข้อจำกัดการสแครปที่อิง ToS เข้มขึ้นทั่วสหภาพยุโรป TripAdvisor ระบุใน Terms of Service ว่าห้ามสแครปโดยตรง ควรสแครปอย่างมีความรับผิดชอบและรับความเสี่ยงด้วยตัวเอง
สรุปท้ายบท
ภาพรวมทั้งหมดเป็นแบบนี้
- Requests + BeautifulSoup คือทางที่ง่ายที่สุด เหมาะกับหน้า listing แบบ static, ตั้งค่าน้อย, และเร็ว เริ่มจากวิธีนี้ถ้าคุณสแครปน้อยกว่า 100 หน้าและไม่ต้องการคอนเทนต์ที่ render ด้วย JavaScript
- Selenium จัดการทุกอย่างที่ requests ทำไม่ได้: เนื้อหาไดนามิก, ปุ่ม “Read more”, cookie banner มันช้ากว่า 5 เท่าและกินทรัพยากร แต่เป็นตัวเลือกเดียวเมื่อคุณต้องโต้ตอบกับหน้าเว็บ
- Hidden JSON / GraphQL คือวิธีที่สะอาดและเร็วที่สุด ให้ข้อมูลที่มีโครงสร้างโดยไม่ต้อง parse HTML ลดจำนวน request และความจำเป็นในการใช้ proxy ลงได้มาก ข้อเสียคือเริ่มต้นต้อง reverse-engineer เยอะกว่า และอาจต้องดูแลเป็นครั้งคราวเมื่อ TripAdvisor เปลี่ยนโครงสร้างข้อมูล
ฟังก์ชัน scrape_tripadvisor() ที่ทำให้ใช้ซ้ำได้ ครอบคลุมทั้งโรงแรม ร้านอาหาร และสถานที่ท่องเที่ยว คุณไม่ควรต้องเปิดอ่าน tutorial อันที่สองอีก
และถ้าระหว่างอ่านไปคุณเริ่มรู้สึกว่าเขียนโค้ดไม่ใช่ทางของคุณ — หรือแค่ต้องการโรงแรม 50 แห่งลงสเปรดชีตภายในวันนี้ — ทำได้ในสองคลิก ด้วยการตรวจจับ field ด้วย AI, pagination อัตโนมัติ และ export ฟรีไป Excel หรือ Google Sheets ไม่ต้องใช้ Python เลย
ถ้าอยากลงลึกกว่านี้ เรายังมีคู่มือสแครปเพิ่มเติมบน และ
คำถามที่พบบ่อย
1. การสแครป TripAdvisor ถูกกฎหมายไหม?
TripAdvisor ระบุใน Terms of Service ว่าห้ามสแครปโดยตรง อย่างไรก็ตาม ศาลส่วนใหญ่มองว่าการสแครปข้อมูลที่เปิดให้สาธารณะเข้าถึงได้ (ไม่ต้องล็อกอิน) ไม่ถือว่าละเมิด Computer Fraud and Abuse Act ในสหรัฐฯ ถึงอย่างนั้น คำตัดสินของศาล EU คดี Ryanair ปี 2025 ได้เพิ่มความเข้มของข้อจำกัดที่อิง ToS ในยุโรป ควรสแครปเฉพาะข้อมูลสาธารณะ เคารพ robots.txt ไม่เผยแพร่เนื้อหาที่มีลิขสิทธิ์ซ้ำ และปรึกษาที่ปรึกษากฎหมายหากนำข้อมูลไปใช้เชิงพาณิชย์
2. ฉันสแครป TripAdvisor โดยไม่ใช้ Python ได้ไหม?
ได้ เครื่องมือแบบไม่ต้องเขียนโค้ดอย่าง สามารถสแครป TripAdvisor ได้จากเบราว์เซอร์ของคุณโดยตรง ด้วย AI ที่ช่วยตรวจจับ field และจัดการ pagination อัตโนมัติ คุณยังใช้ browser extension, Google Sheets add-on หรือ commercial scraping API ได้ด้วย Python ให้การควบคุมและยืดหยุ่นที่สุด แต่ไม่ใช่ตัวเลือกเดียว
3. จะหลบการโดนบล็อกตอนสแครป TripAdvisor ยังไง?
กลยุทธ์หลักคือ ใช้ header ที่สมจริงและสอดคล้องกัน (โดยเฉพาะ User-Agent และ Sec-CH-UA), หมุน residential proxy (datacenter IP มักโดนบล็อกทันที), ใส่ delay แบบสุ่ม 3–7 วินาทีระหว่าง request, ใช้วิธี hidden JSON เพื่อลดจำนวน request, ทำ retry logic ด้วย exponential backoff, และวอร์มอัปเซสชันด้วยการเข้า homepage ก่อนเริ่มสแครปหน้าลึกๆ
4. ฉันดึงข้อมูลอะไรจาก TripAdvisor ได้บ้าง?
โรงแรม ร้านอาหาร และสถานที่ท่องเที่ยว — รวมถึงชื่อ, เรตติ้ง, จำนวนรีวิว, ช่วงราคา, ที่อยู่, พิกัด, สิ่งอำนวยความสะดวก (โรงแรม), ประเภทอาหาร (ร้านอาหาร), ระยะเวลาทัวร์ (สถานที่ท่องเที่ยว), และข้อความรีวิวเต็มพร้อมคะแนนรายรีวิวและวันที่ วิธี hidden JSON และ GraphQL จะให้ข้อมูลที่ครบและลึกที่สุดต่อ request
5. หนึ่งวันฉันสแครป TripAdvisor ได้กี่หน้า?
ถ้าใช้ IP เดียวและเว้นเวลาพอสมควร: ประมาณ 600–1,000 หน้า/วัน ถ้าใช้ residential proxies 20 ตัวแบบหมุน: ประมาณ 200,000–300,000 หน้า/วันด้วยวิธี request-based ส่วน Selenium ช้ากว่า — คาดได้ราว 8,000–12,000 หน้า/วันต่อ proxy วิธี hidden JSON/GraphQL จะให้ข้อมูลต่อ request มากที่สุด ดังนั้นคุณอาจต้องดึงหน้าโดยรวมน้อยลงเพื่อให้ได้ข้อมูลเท่ากัน
เรียนรู้เพิ่มเติม
