เมื่อไม่กี่เดือนก่อน เพื่อนร่วมงานในทีมขายถามผมด้วยคำถามที่ได้ยินมานับสิบครั้ง: "ถ้าผมสแครปราคาคู่แข่งจากเว็บไซต์สาธารณะ จะมีปัญหาจริงไหม?" เขาเจอไดเรกทอรีรายชื่อซัพพลายเออร์ที่จัดเรียงราคามาอย่างเป็นระเบียบ และสิ่งเดียวที่เขาอยากทำก็คือดึงข้อมูลไปใส่สเปรดชีต ความลังเลแบบนี้มีอยู่จริง—and พูดตรง ๆ ก็สมเหตุสมผลมาก
สหราชอาณาจักรไม่ได้มีกฎหมาย "สแครปเว็บ" ฉบับเดียว แต่มีกรอบกฎหมาย 4 ชุดที่ซ้อนทับกันอยู่ ซึ่งใช้พิจารณาว่าการสแครปแบบไหนทำได้อย่างถูกกฎหมาย นั่นแหละที่ทำให้คำตอบมักเป็น "แล้วแต่กรณี"—แต่ก็ไม่ได้แปลว่าจะทำความเข้าใจไม่ได้ ในคู่มือนี้ ผมจะพาไล่ดูว่ากฎหมายพูดว่าอย่างไร ใช้กับสถานการณ์จริงแบบไหน โทษเป็นอย่างไร และจะทำอย่างไรให้สอดคล้องกับกฎระเบียบ
ผมใช้เวลาศึกษาเรื่องนี้ให้กับทีมของเราที่ พอสมควร และอยากเอาสิ่งที่ได้มาฝาก เพื่อให้คุณไม่ต้องไปไล่อ่านบล็อกสำนักงานกฎหมาย 5 แห่งกับเธรดใน Reddit เอง
Web Scraping คืออะไร และทำไมธุรกิจในสหราชอาณาจักรถึงใช้
Web scraping คือการใช้ซอฟต์แวร์ดึงข้อมูลจากเว็บไซต์โดยอัตโนมัติ—แทนที่จะต้องคัดลอกและวางจากหน้าเว็บลงสเปรดชีตด้วยมือแบบน่าเบื่อ
ตัวเทคนิคเองไม่ได้ดีหรือเลวในตัวมันเอง ไม่ได้ถูกกฎหมายเสมอไป และก็ไม่ผิดกฎหมายเสมอไป สิ่งที่สำคัญคือคุณสแครปอะไร สแครปอย่างไร และเอาข้อมูลไปใช้อะไรต่อ
ธุรกิจในสหราชอาณาจักรใช้การสแครปเพื่อวัตถุประสงค์ที่ถูกต้องตามกฎหมายหลายแบบ:
- เปรียบเทียบราคา: เช่น PriceSpy UK ด้วยการสแครปเว็บอัตโนมัติ
- หาลีด: ทีมขายดึงชื่อบริษัท อีเมล และเบอร์โทรจากไดเรกทอรีสาธารณะ
- วิจัยตลาด: นักวิเคราะห์ติดตามประกาศขายอสังหาฯ เว็บหางาน หรือไลน์อัปสินค้าของคู่แข่ง
- วิจัยทางวิชาการ: สำนักงานสถิติแห่งชาติได้เก็บ จากเว็บไซต์ซูเปอร์มาร์เก็ตระหว่างปี 2014–2015
- ฝึกโมเดล AI: เป็นกรณีใช้งานที่โตเร็วมาก—and ยังไม่ชัดเจนในเชิงกฎหมาย
แนวโน้มชัดเจนมาก ผลสำรวจของ จากผู้มีอำนาจตัดสินใจ 500 คน (รวม 200 คนในสหราชอาณาจักร) พบว่า มองว่าข้อมูลเว็บสาธารณะมีความสำคัญอย่างยิ่งหรือสำคัญมากต่อเศรษฐกิจโลก และ ใช้มันอย่างน้อยทุกวัน
แต่ก็มี ที่บอกว่าการไม่มีข้อกำกับที่ชัดเจนทำให้องค์กรกังวล นั่นแหละคือเหตุผลที่บทความนี้มีอยู่
Web Scraping ถูกกฎหมายในสหราชอาณาจักรไหม? คำตอบตรง ๆ
ไม่มีกฎหมายฉบับใดของสหราชอาณาจักรที่ห้าม web scraping แบบเด็ดขาด แต่มีหลายกฎหมายที่เข้ามาควบคุมวิธีการทำ และความถูกกฎหมายของแต่ละโปรเจกต์จะขึ้นอยู่กับ 4 ปัจจัย:

- คุณกำลังสแครปข้อมูลอะไร (ข้อมูลส่วนบุคคล vs ข้อมูลข้อเท็จจริง/ไม่ใช่ข้อมูลส่วนบุคคล)
- เข้าถึงข้อมูลอย่างไร (หน้าเว็บสาธารณะ vs การข้ามกำแพงล็อกอินหรือ CAPTCHA)
- ข้อกำหนดของเว็บไซต์ระบุว่าอย่างไร (ห้ามเข้าถึงแบบอัตโนมัติหรือไม่)
- นำข้อมูลไปใช้อย่างไรต่อ (วิเคราะห์ภายใน vs ขายต่อเชิงพาณิชย์)
อุปมาที่ใกล้เคียงที่สุดคงเป็น web scraping ก็เหมือนการถ่ายรูปในที่สาธารณะ การถ่ายรูปในที่สาธารณะไม่ได้ผิดกฎหมายโดยอัตโนมัติ—แต่ถ้าเป็นบางหัวข้อ บางสถานที่ บางวิธีการ หรือบางการใช้งาน ก็อาจมีความเสี่ยงทางกฎหมายได้ การสแครปก็เหมือนกัน การที่ข้อมูลมองเห็นได้สาธารณะเป็นแค่ปัจจัยหนึ่ง ไม่ใช่ทั้งหมด
การปรึกษาหารือเรื่อง GenAI ล่าสุดของ ICO เป็นหนึ่งในคำชี้แจงทางการของสหราชอาณาจักรที่ชัดที่สุดเกี่ยวกับข้อมูลส่วนบุคคลที่สแครปมา โดยระบุว่า legitimate interests ยังเป็น สำหรับการฝึกโมเดล generative AI ที่ใช้ข้อมูลส่วนบุคคลจากการสแครปเว็บ—but ต้องผ่านการทดสอบ 3 ส่วนอย่างเข้มงวดเท่านั้น มาตรฐานนี้สูงมาก และสะท้อนว่าหน่วยงานกำกับของสหราชอาณาจักรมองข้อมูลที่สแครปมาอย่างจริงจังแค่ไหน
กฎหมายสหราชอาณาจักร 4 ฉบับที่เกี่ยวข้องกับ Web Scraping
มีเลนส์กฎหมาย 4 ชั้นที่ทับซ้อนกัน—โปรเจกต์สแครปใด ๆ อาจไปกระทบหนึ่ง สอง หรือครบทั้งสี่ชั้น
UK GDPR และ Data Protection Act 2018
ถ้าคุณสแครปข้อมูลส่วนบุคคล—ชื่อ อีเมล เบอร์โทร ที่อยู่ IP โปรไฟล์โซเชียลมีเดีย—UK GDPR จะเข้ามาเกี่ยวข้อง คำว่า "เปิดเผยต่อสาธารณะ" ไม่ได้แปลว่า "เอาไปใช้ได้ฟรี"
ข้อมูลส่วนบุคคลที่มองเห็นได้สาธารณะก็ยังเป็นข้อมูลส่วนบุคคลอยู่ดี
ฐานทางกฎหมายที่เกี่ยวข้องที่สุดสำหรับการสแครปเชิงพาณิชย์คือ legitimate interests (มาตรา 6)—แต่คุณจะอ้างคำนี้ลอย ๆ ไม่ได้ คุณต้อง:
- ระบุวัตถุประสงค์ที่เฉพาะเจาะจงและชอบด้วยกฎหมาย
- แสดงให้เห็นว่าการประมวลผลจำเป็นต่อวัตถุประสงค์นั้น
- ชั่งน้ำหนักประโยชน์ของคุณกับสิทธิของบุคคลที่ข้อมูลถูกเก็บมา
คำตอบจากการปรึกษาหารือเรื่อง GenAI ของ ICO ยังชัดขึ้นไปอีก: ผู้พัฒนาไม่ควรสรุปเองว่าประโยชน์ต่อสังคมในวงกว้างเพียงพอ ควรมีหลักฐานว่าทำไมทางเลือกอื่นแทนการสแครปจึงไม่เหมาะสม และควรใช้กลไกความโปร่งใสที่ทำให้บุคคลเข้าใจและใช้สิทธิของตนได้ ที่มา:
สำหรับการหาลีดแบบ B2B หลักการเดียวกันนี้ก็ใช้ได้ ทีมขายอาจอาศัย legitimate interests ในการเก็บข้อมูลติดต่อทางธุรกิจที่เผยแพร่สาธารณะ แต่ก็ยังต้องบันทึกเหตุผลของ legitimate interest ลดจำนวนฟิลด์ที่เก็บ หลีกเลี่ยงข้อมูลหมวดพิเศษ และให้ข้อมูลความเป็นส่วนตัวเท่าที่ทำได้ รวมถึงรองรับการ opt-out
ลิขสิทธิ์ สิทธิในฐานข้อมูล และข้อยกเว้น TDM
ลิขสิทธิ์ คุ้มครองเนื้อหาต้นฉบับบนเว็บไซต์ เช่น ข้อความ รูปภาพ คำบรรยายสินค้า และบทความ ส่วนข้อมูลข้อเท็จจริงอย่างราคาโดยตัวมันเองมักไม่ใช่ประเด็นลิขสิทธิ์มากนัก—but ถ้าคัดลอกและเผยแพร่ถ้อยคำที่ได้รับการคุ้มครอง ก็อาจเข้าข่ายละเมิดได้
สิทธิในฐานข้อมูล สำคัญกับการสแครปมากกว่าที่หลายคนคิด สหราชอาณาจักรยังคงรักษาสิทธิฐานข้อมูลแบบ sui generis ตามแนวทางของ EU หลัง Brexit และการดึง "ส่วนสำคัญ" ของฐานข้อมูลที่ได้รับการคุ้มครอง—เช่น ไดเรกทอรีที่คัดสรรมา แคตตาล็อกสินค้า หรือรายการในมาร์เก็ตเพลส—อาจละเมิดสิทธิได้ แม้แต่ละข้อมูลจะเป็นข้อเท็จจริงก็ตาม
ข้อยกเว้น Text and Data Mining (TDM) ภายใต้ อนุญาตให้ทำสำเนาเพื่อการวิเคราะห์ข้อความและข้อมูลได้เฉพาะเมื่อผู้ใช้มีสิทธิ์เข้าถึงโดยชอบด้วยกฎหมาย และวัตถุประสงค์เป็นการวิจัยที่ไม่ใช่เชิงพาณิชย์เท่านั้น ข้อยกเว้นนี้แคบมาก การสแครปเชิงพาณิชย์ การฝึก AI เชิงพาณิชย์ และการขายชุดข้อมูลต่อเชิงพาณิชย์ไม่อยู่ในขอบเขตนี้
รัฐบาลสหราชอาณาจักรเคยพิจารณาจะขยายข้อยกเว้นนี้สำหรับการฝึก AI แต่จนถึง ก็ยังไม่ได้ตัดสินใจปฏิรูป จนกว่าจะมั่นใจว่าตอบโจทย์ทั้งผู้สร้างสรรค์ ผู้พัฒนา AI และเศรษฐกิจของสหราชอาณาจักร ภายใต้สถานะปัจจุบัน โดยทั่วไปยังต้องขออนุญาตก่อนจึงจะคัดลอกงานที่มีลิขสิทธิ์ไปฝึก AI เว้นแต่จะมีข้อยกเว้นที่มีอยู่แล้วรองรับ
ข้อกำหนดการใช้งานเว็บไซต์และกฎหมายสัญญา
เว็บไซต์ส่วนใหญ่มักมี Terms of Service (ToS) ที่ห้ามหรือจำกัดการสแครปแบบอัตโนมัติ การเข้าถึงเว็บไซต์อาจหมายความว่าคุณยอมรับข้อกำหนดเหล่านั้นอยู่แล้ว—โดยเฉพาะถ้ามีหน้าต่างให้กดตกลง (clickwrap) ส่วนข้อตกลงแบบ browsewrap (ข้อกำหนดซ่อนอยู่หลังลิงก์ท้ายเว็บ) จะขึ้นกับข้อเท็จจริงมากกว่า แต่ศาลในสหราชอาณาจักรก็แสดงให้เห็นว่าพร้อมบังคับใช้ข้อจำกัด ToS ต่อการสแครป ในข้อพิพาท ศาลถือว่าข้อกำหนดบนเว็บไซต์ที่มองเห็นได้มีผลผูกพันในบริบทของ screen-scraping
robots.txt ไม่ใช่กฎหมาย แต่เป็นสัญญาณที่เครื่องอ่านได้ซึ่งส่งมาจากเจ้าของเว็บไซต์ ไฟล์ตัวอย่างทั่วไปจะหน้าตาแบบนี้:
1User-agent: *
2Disallow: /account/
3Disallow: /checkout/
4Disallow: /private/
5Crawl-delay: 10
การเพิกเฉยต่อ robots.txt ไม่ได้ทำให้การสแครปผิดกฎหมายโดยอัตโนมัติ แต่ศาลและ ICO มักมองว่าเป็นหลักฐานสะท้อนเจตนาของเจ้าของเว็บไซต์ การเพิกเฉยต่อมันยิ่งเพิ่มความเสี่ยงทางกฎหมาย โดยเฉพาะเมื่อไปอยู่ร่วมกับการฝ่าฝืน ToS หรือมีปริมาณคำร้องขอรุนแรงเกินไป
Computer Misuse Act 1990
กฎหมายฉบับนี้ทำให้คนกังวลกันมาก—และก็มีเหตุผลที่ดี เพราะมันกำหนด ความผิดอาญา มาตรา 1 ครอบคลุมการเข้าถึงเนื้อหาในคอมพิวเตอร์โดยไม่ได้รับอนุญาต (โทษสูงสุดคือ ) ส่วนมาตรา 3 ครอบคลุมการกระทำโดยไม่ได้รับอนุญาตที่ทำให้การทำงานของคอมพิวเตอร์เสียหายหรือถูกรบกวน (โทษสูงสุดคือ )
ความเสี่ยงภายใต้ CMA จะต่ำที่สุดเมื่อข้อมูลเป็นข้อมูลสาธารณะจริง ๆ และตัวสแครปไม่ได้ข้ามกำแพงทางเทคนิค ความเสี่ยงจะเพิ่มขึ้นเมื่อคุณ:
- ข้ามกำแพงล็อกอิน CAPTCHA หรือบล็อก IP
- ใช้ข้อมูลรับรองที่ขโมยมา หรือสร้างบัญชีปลอม
- ส่งทราฟฟิกจำนวนมากจนกระทบการให้บริการของเป้าหมาย
สหราชอาณาจักรยังไม่ได้ออกกฎแบบสหรัฐฯ ที่ชัดเจนว่า "ข้อมูลสาธารณะใช้ได้เลย" ดังนั้นคำแนะนำในสหราชอาณาจักรจึงระมัดระวังกว่า: การเข้าถึงแบบสาธารณะช่วยลดความเสี่ยงภายใต้ CMA ได้มาก แต่ข้อกำหนดของเว็บไซต์ การควบคุมทางเทคนิค และการรับรู้ของผู้สแครปว่ามีข้อจำกัดอยู่ ก็ยังมีความสำคัญ
"ฉันสแครปสิ่งนี้ได้อย่างถูกกฎหมายไหม" — แผนผังตัดสินใจแบบเร็ว
ก่อนจะสแครปอะไร ลองไล่ผ่าน 5 จุดตัดสินใจนี้ดู ไม่ใช่คำปรึกษากฎหมาย—แค่คัดกรองความเสี่ยงภายใน 60 วินาที
| จุดตัดสินใจ | ถ้าใช่ | ถ้าไม่ใช่ |
|---|---|---|
| ข้อมูลเป็นข้อมูลส่วนบุคคล (ชื่อ อีเมล ฯลฯ) หรือไม่? | UK GDPR ใช้บังคับ ระบุฐานทางกฎหมาย ทำ LIA ลดข้อมูลที่เก็บ และวางแผนเรื่องความโปร่งใส | อาจไม่ต้องใช้ชั้น GDPR แต่ยังต้องตรวจเงื่อนไขอื่นต่อ |
| ToS ของเว็บไซต์ห้ามการสแครปอย่างชัดเจนหรือไม่? | เสี่ยงผิดสัญญา พิจารณา API ใบอนุญาต หรือให้ทนายตรวจ | ความเสี่ยงด้านสัญญาต่ำลง แต่ยังต้องเช็ก robots.txt |
| กำลังดึง "ส่วนสำคัญ" ของฐานข้อมูลอยู่หรือไม่? | อาจละเมิดสิทธิฐานข้อมูลแบบ sui generis ควรพิจารณาไลเซนส์หรือดึงเฉพาะบางส่วน | ยังอาจมีลิขสิทธิ์คุ้มครองเนื้อหาที่คัดลอกเป็นรายชิ้น |
| กำลังข้ามล็อกอิน CAPTCHA หรือระบบควบคุมการเข้าถึงหรือไม่? | อาจเป็นความผิดอาญาภายใต้ CMA 1990 หยุดและให้ตรวจทางกฎหมาย | ความเสี่ยง CMA ต่ำลงหากเข้าถึงได้จริงแบบสาธารณะ |
| วัตถุประสงค์เป็นการวิจัยที่ไม่ใช่เชิงพาณิชย์หรือไม่? | ข้อยกเว้น TDM ตามมาตรา 29A อาจใช้ได้ หากคุณเข้าถึงอย่างถูกกฎหมาย | ไม่มี safe harbor เชิงพาณิชย์แบบกว้างในสหราชอาณาจักร ต้องวิเคราะห์ IP และสัญญาเต็มรูปแบบ |
โอย ผมอยากมีตารางแบบนี้ตั้งแต่ตอนเริ่มศึกษาความสอดคล้องทางกฎหมายให้ทีม มันเปลี่ยนความซับซ้อนทางกฎหมายให้กลายเป็นการประเมินตัวเองแบบมีโครงสร้างที่ทำได้ในไม่ถึงนาที
สถานการณ์จริง: กิจกรรมสแครปของคุณในสหราชอาณาจักรถูกกฎหมายไหม
กฎหมายเชิงนามธรรมอย่างหนึ่ง แต่สิ่งที่คนอยากรู้จริง ๆ คือ: "โปรเจกต์ ของฉัน จะมีปัญหาไหม?"
เข้าใจได้เลย นี่คือ 5 กรณีใช้งาน web scraping ที่พบบ่อยในสหราชอาณาจักร พร้อมประเมินความเสี่ยงทางกฎหมายแบบย่อสำหรับแต่ละกรณี
สแครปราคาสินค้าเพื่อเปรียบเทียบ
เป็นหนึ่งในกรณีใช้งานทางธุรกิจที่พบบ่อยที่สุด—and มักจะเป็นความเสี่ยงต่ำที่สุดด้วย ราคาคือข้อมูลข้อเท็จจริง และการเก็บราคาด้วยระบบอัตโนมัติก็เป็นวิธีที่เว็บไซต์อย่าง PriceSpy ใช้อยู่
แต่ความเสี่ยงไม่ได้หายไปทั้งหมด ถ้าเว็บไซต์เป้าหมายห้ามสแครปใน ToS ถ้าคุณคัดลอกคำบรรยายสินค้าหรือรูปภาพ หรือถ้าคุณดึงส่วนสำคัญของฐานข้อมูลสินค้าที่คัดสรรไว้ ก็อาจเกิดประเด็นเรื่องสัญญา ลิขสิทธิ์ และสิทธิในฐานข้อมูลได้
ระดับความเสี่ยง: ต่ำถึงปานกลาง
ขั้นตอนสำคัญเพื่อให้สอดคล้อง: เก็บเฉพาะฟิลด์ราคาที่เป็นข้อเท็จจริง หลีกเลี่ยงการคัดลอกคำบรรยายสินค้าแบบตรงตัว เคารพ ToS และ robots.txt ใช้ rate limiting และอย่าเผยแพร่สำเนาแคตตาล็อกคู่แข่งแบบดิบ ๆ
สแครปและขายข้อมูลต่อเชิงพาณิชย์
สถานการณ์เชิงพาณิชย์ที่เสี่ยงที่สุดแบบไม่ต้องสงสัย คุณกำลังเปลี่ยนการลงทุนด้านข้อมูลของอีกฝ่ายให้กลายเป็นสินค้าขาย—and นั่นอาจกระทบกฎหมายทั้ง 4 เสาพร้อมกัน
ระดับความเสี่ยง: สูง
ขั้นตอนสำคัญเพื่อให้สอดคล้อง: ต้องให้ทนายตรวจ ลองพิจารณาเจรจาไลเซนส์กับเจ้าของข้อมูล ถ้าสินค้ามีข้อมูลส่วนบุคคล ให้ทำการประเมินผลกระทบด้านการคุ้มครองข้อมูลด้วย
ดึงข้อมูลติดต่อธุรกิจเพื่อหาลีด
ทีมขายแทบทุกทีมที่ผมคุยด้วยทำอะไรในแนวนี้ทั้งนั้น: สแครปอีเมล เบอร์โทร และชื่อบริษัทจากไดเรกทอรี จุดสำคัญคือ ข้อมูลติดต่อทางธุรกิจมักมีข้อมูลส่วนบุคคลรวมอยู่ด้วย อีเมลของพนักงานที่มีชื่อระบุได้ก็ยังเป็นข้อมูลส่วนบุคคล แม้จะเผยแพร่สาธารณะก็ตาม
ระดับความเสี่ยง: ปานกลาง
ขั้นตอนสำคัญเพื่อให้สอดคล้อง: ทำ Legitimate Interests Assessment เก็บเฉพาะข้อมูลติดต่อด้านธุรกิจ ไม่ใช่ข้อมูลชีวิตส่วนตัวเท่าที่ทำได้ บันทึกฐานทางกฎหมายของคุณ และมีช่องทาง opt-out เครื่องมืออย่าง สามารถช่วยลดความเสี่ยงด้านการเข้าถึงได้ เพราะ ทำงานภายในเบราว์เซอร์ของผู้ใช้—เข้าถึงเฉพาะสิ่งที่ผู้ใช้มองเห็นได้อยู่แล้ว โดยไม่ข้ามระบบควบคุมการเข้าถึง
วิเคราะห์ข้อมูลเพื่อการวิชาการหรือพอร์ตโฟลิโอ
ถ้าคุณทำการวิจัยที่ไม่ใช่เชิงพาณิชย์จริง ๆ คุณจะมีเส้นทางข้อยกเว้นด้านลิขสิทธิ์ที่แข็งแรงที่สุด: มาตรา 29A CDPA ตราบใดที่เข้าถึงอย่างถูกกฎหมาย
ระดับความเสี่ยง: ต่ำ (ถ้าเป็นงานไม่ใช่เชิงพาณิชย์จริง)
ขั้นตอนสำคัญเพื่อให้สอดคล้อง: บันทึกวัตถุประสงค์ที่ไม่ใช่เชิงพาณิชย์ อ้างอิงแหล่งที่มา ทำให้เป็นนิรนามหรือรวมเป็นภาพรวมเมื่อทำได้ และหลีกเลี่ยงการเผยแพร่ซ้ำเนื้อหาที่มีลิขสิทธิ์หรือข้อมูลส่วนบุคคล
สแครปคอนเทนต์เพื่อฝึกโมเดล AI
นี่คือคำถามที่ทุกคนถามในปี 2026—and คำตอบก็ยังไม่น่าพอใจนัก ICO มองข้อมูลส่วนบุคคลที่สแครปมาเพื่อฝึกโมเดลว่าเป็นการประมวลผลแบบไม่โปร่งใสที่มีความเสี่ยงสูง รายงานปี 2026 ของรัฐบาลสหราชอาณาจักรยังไม่ได้สร้างข้อยกเว้น TDM เชิงพาณิชย์แบบกว้าง ๆ
ระดับความเสี่ยง: ปานกลางถึงสูง
ขั้นตอนสำคัญเพื่อให้สอดคล้อง: การไลเซนส์ การตรวจที่มาของชุดข้อมูล การวิเคราะห์ลิขสิทธิ์ การกรองข้อมูลส่วนบุคคล การบันทึกฐานทางกฎหมาย และการติดตามการเปลี่ยนแปลงนโยบายของสหราชอาณาจักรอย่างใกล้ชิด
ตารางสรุปสถานการณ์
| สถานการณ์ | กฎหมายหลักที่เกี่ยวข้อง | ระดับความเสี่ยง | ขั้นตอนสำคัญเพื่อให้สอดคล้อง |
|---|---|---|---|
| ติดตามราคาสินค้า | ToS, สิทธิในฐานข้อมูล, ลิขสิทธิ์ | ต่ำ–ปานกลาง | เก็บฟิลด์ข้อเท็จจริง เคารพสัญญาณของเว็บไซต์ |
| ขายต่อข้อมูลเชิงพาณิชย์ | กฎหมายทั้ง 4 เสา | สูง | ต้องมีการตรวจทางกฎหมายและไลเซนส์ |
| หาลีดแบบ B2B | UK GDPR, ToS | ปานกลาง | ทำ LIA ลดข้อมูลส่วนบุคคล |
| วิจัยทางวิชาการ | ลิขสิทธิ์ (ข้อยกเว้น TDM), GDPR หากมีข้อมูลส่วนบุคคล | ต่ำ | คงวัตถุประสงค์แบบไม่ใช่เชิงพาณิชย์ ไม่เผยแพร่ซ้ำ |
| ฝึกโมเดล AI | UK GDPR, ลิขสิทธิ์, สิทธิในฐานข้อมูล | ปานกลาง–สูง | ไลเซนส์ข้อมูล บันทึกฐานทางกฎหมาย ติดตามนโยบาย |
สหราชอาณาจักร vs สหรัฐฯ vs สหภาพยุโรป: กฎหมาย Web Scraping ต่างกันอย่างไร
ถ้าคุณทำงานแค่ในสหราชอาณาจักร คุณอาจข้ามส่วนนี้ได้ แต่ธุรกิจส่วนใหญ่ที่ผมคุยด้วยมักสแครปข้ามประเทศ—or อย่างน้อยก็สแครปเว็บไซต์ที่โฮสต์อยู่ในเขตอำนาจศาลอื่น ความต่างเหล่านี้สำคัญกว่าที่คิด
| มิติทางกฎหมาย | 🇬🇧 สหราชอาณาจักร | 🇺🇸 สหรัฐฯ | 🇪🇺 สหภาพยุโรป |
|---|---|---|---|
| กฎหมายคุ้มครองข้อมูลหลัก | UK GDPR + DPA 2018 | ไม่มีฉบับระดับประเทศที่เทียบเท่าโดยตรง (กฎหมายรัฐต่างกัน) | EU GDPR |
| บรรทัดฐานสำคัญด้านการสแครป | Clearview AI (ICO ปรับ £7.5M) | hiQ v LinkedIn (สแครปข้อมูลสาธารณะได้ในหลักการ, Ninth Circuit—แต่ hiQ ถูก ห้ามถาวร และยอมจ่าย $500K ในคำพิพากษายินยอมสุดท้าย) | Ryanair v PR Aviation (CJEU, C-30/14, สิทธิในฐานข้อมูล) |
| กฎหมายการเข้าถึงคอมพิวเตอร์ | Computer Misuse Act 1990 | CFAA (ตีความแคบลงหลัง Van Buren, 2021) | แตกต่างตามประเทศสมาชิก |
| ลิขสิทธิ์ / ข้อยกเว้น TDM | แคบ: เฉพาะการวิจัยไม่ใช่เชิงพาณิชย์ (มาตรา 29A) | หลัก fair use (กว้างกว่า พิจารณาเป็นรายกรณี) | DSM Directive มาตรา 3 และ 4 (สิทธิ TDM กว้างกว่าแต่มีการสงวนสิทธิ์) |
| สิทธิในฐานข้อมูล | มี (สืบต่อมาจาก EU Database Directive) | ไม่มีสิทธิระดับประเทศที่เทียบเท่า | สิทธิแบบ sui generis ภายใต้ Database Directive |
| การบังคับใช้ ToS | ใช้กฎหมายสัญญา; browsewrap ยังถกเถียง | ผสมกัน: browsewrap มักบังคับใช้ไม่ได้ | แตกต่างกัน; Ryanair ทำให้สถานะ ToS แข็งแรงขึ้น |
สรุปแบบใช้งานจริง: ถ้าคุณสแครปข้ามเขตอำนาจศาล ให้ทำตามกฎหมายที่เข้มที่สุดที่ใช้บังคับ สหรัฐฯ อนุญาตให้เข้าถึงข้อมูลสาธารณะได้มากกว่าภายใต้ hiQ แต่ hiQ ไม่ใช่ใบอนุญาตครอบจักรวาล (สุดท้าย hiQ ถูกห้ามสแครป LinkedIn และจ่าย $500K) สหภาพยุโรปมีโครงสร้าง TDM ที่กว้างกว่าผ่าน DSM Directive ส่วนสหราชอาณาจักรอยู่ตรงกลาง—ไม่มีข้อยกเว้น TDM เชิงพาณิชย์แบบกว้าง สิทธิในฐานข้อมูลค่อนข้างแข็งแรง และมีหน่วยงานกำกับที่แอ็กทีฟ
โทษและการบังคับใช้: ถ้าคุณโดนจับได้จะเกิดอะไรขึ้นจริง

คำเตือนกว้าง ๆ เรื่อง "ค่าปรับ" และ "ปัญหาทางกฎหมาย" ไม่ช่วยใครเท่าไร มาดูตัวเลขจริงกัน
ค่าปรับภายใต้ UK GDPR
โทษสูงสุด: แล้วแต่อะไรจะสูงกว่า
ตัวอย่างจริง: Clearview AI ถูก ICO ปรับ ในปี 2022 จากการสแครปรูปใบหน้าจากโซเชียลมีเดียในสหราชอาณาจักร ศาล First-tier Tribunal พลิกคำตัดสินด้วยเหตุผลด้านเขตอำนาจ แต่ อนุญาตอุทธรณ์ของ ICO และส่งคดีกลับไปพิจารณาใหม่ ณ เดือนธันวาคม 2025 ICO ระบุว่า Clearview ได้ แล้ว
โทษอาญาภายใต้ Computer Misuse Act
- มาตรา 1 (เข้าถึงโดยไม่ได้รับอนุญาต): จำคุกสูงสุด
- มาตรา 3 (ทำให้ระบบเสียหาย/เสื่อมประสิทธิภาพโดยไม่ได้รับอนุญาต): จำคุกสูงสุด
การดำเนินคดีอาญากับการสแครปหน้าเว็บสาธารณะธรรมดาเกิดขึ้นน้อยมาก
ความเสี่ยงจะเปลี่ยนไปอย่างมากเมื่อพฤติกรรมดูคล้ายการแฮ็ก การใช้ข้อมูลรับรองโดยมิชอบ การข้าม CAPTCHA หรือทำให้บริการล่ม
ลิขสิทธิ์และสิทธิในฐานข้อมูล
ค่าเสียหายทางแพ่งพร้อมคำสั่งห้ามใช้ การลงโทษทางอาญาอาจเกิดได้ถ้าเป็นการละเมิดเชิงพาณิชย์โดยเจตนา แต่ข้อพิพาทส่วนใหญ่ด้านการสแครปจะเดินในทางคดีแพ่ง
การผิดสัญญา (ToS)
ค่าเสียหายทางแพ่ง การปิดบัญชี การบล็อก IP โดยมากนี่คือรูปแบบการบังคับใช้ที่พบบ่อยที่สุดในทางปฏิบัติ—and มักเป็นอย่างแรกที่เกิดขึ้น
สรุปความรุนแรงของโทษ
| กรอบกฎหมาย | โทษสูงสุด | โอกาสเกิดกับการสแครปทั่วไปของธุรกิจ | ตัวอย่างในโลกจริง |
|---|---|---|---|
| UK GDPR | £17.5m หรือ 4% ของรายได้ทั่วโลก | ปานกลางหากมีข้อมูลส่วนบุคคลจำนวนมาก; ต่ำหากไม่ใช่ข้อมูลส่วนบุคคล | ค่าปรับ Clearview AI £7.5M |
| CMA มาตรา 1 | จำคุก 2 ปี | ต่ำสำหรับหน้าเว็บสาธารณะ; สูงขึ้นถ้าข้ามระบบควบคุม | แนวทาง CPS เรื่องการเข้าถึงโดยไม่ได้รับอนุญาต |
| CMA มาตรา 3 | จำคุก 10 ปี | ต่ำ เว้นแต่ทราฟฟิกจะกระทบระบบ | ตัวอย่างการรบกวนแบบ DDoS |
| ลิขสิทธิ์/สิทธิในฐานข้อมูล | ค่าเสียหายและคำสั่งห้าม | ปานกลางเมื่อคัดลอกเนื้อหาที่ได้รับการคุ้มครองหรือฐานข้อมูลที่คัดสรรมา | คดีแนว Ryanair และ BHB |
| การผิด ToS | ค่าเสียหาย การปิดบัญชี การบล็อก | สูงในฐานะวิธีบังคับใช้เชิงปฏิบัติ | ข้อพิพาท screen-scraping ของ Ryanair |
เครื่องมือสแครปที่เหมาะสมช่วยลดความเสี่ยงทางกฎหมายอย่างไร
เครื่องมือที่คุณเลือกไม่ได้ทำให้การสแครปที่ผิดกฎหมายกลายเป็นถูกกฎหมายได้—but มันช่วยตัดความเสี่ยงที่หลีกเลี่ยงได้ออกไป
จากประสบการณ์ของผม ความต่างระหว่างเครื่องมือที่เคารพสัญญาณของเว็บไซต์กับเครื่องมือที่พยายามเลี่ยงทุกอย่างแบบแข็งกร้าว มักเป็นความต่างระหว่างโปรเจกต์ข้อมูลปกติกับปัญหากฎหมาย
เคารพ robots.txt และสัญญาณของเว็บไซต์
เครื่องมือที่ดีควรทำให้ตรวจและเคารพ robots.txt ก่อนสแครปได้ง่าย แม้ไม่ผูกพันตามกฎหมายโดยตรง แต่การปฏิบัติตาม robots.txt มักถูกศาลและ ICO ใช้เป็นหลักฐานของความสุจริต Thunderbit มี แนะนำให้ผู้ใช้สแครปเฉพาะข้อมูลที่เปิดเผยต่อสาธารณะ และเคารพ robots.txt กับข้อกำหนดใช้งาน
ตัวเลือก Browser Scraping vs Cloud Scraping
ความต่างนี้สำคัญในเชิงกฎหมาย Browser scraping จะเข้าถึงเฉพาะสิ่งที่ผู้ใช้มองเห็นได้ใน session ที่ล็อกอินอยู่—พูดง่าย ๆ คือทำงานแทนสิ่งที่คุณทำเองแบบแมนนวล Cloud scraping ส่งคำร้องขอจากเซิร์ฟเวอร์ ซึ่งเร็วกว่าในเว็บไซต์สาธารณะ แต่จากมุมมองของเว็บไซต์อาจดูคล้าย "การเข้าถึงแบบอัตโนมัติ" มากกว่า
มีทั้งสองโหมด Browser scraping เหมาะกับเว็บไซต์ที่ต้องล็อกอิน (ช่วยลดความเสี่ยงเรื่อง "การเข้าถึงโดยไม่ได้รับอนุญาต" ภายใต้ CMA) ส่วน cloud scraping เหมาะกับหน้าอีคอมเมิร์ซสาธารณะที่ต้องการความเร็ว วิธีใช้งานแบบสองทางนี้ทำให้ผู้ใช้จับคู่เทคนิคการสแครปกับระดับความเสี่ยงทางกฎหมายของแต่ละเว็บไซต์ได้
ไม่ข้ามระบบควบคุมการเข้าถึง
เครื่องมือที่ทำงานภายในเบราว์เซอร์และไม่เจาะ CAPTCHA หรือหลีกเลี่ยงกำแพงล็อกอินย่อมมีความเสี่ยงต่ำกว่าภายใต้ Computer Misuse Act โดยธรรมชาติ ส่วนส่วนขยาย Chrome ของ Thunderbit ทำงานภายใน session ของเบราว์เซอร์ผู้ใช้—เข้าถึงเฉพาะสิ่งที่ผู้ใช้มองเห็นได้อยู่แล้ว
ส่งออกข้อมูลอย่างโปร่งใส (ช่วยเรื่องการปฏิบัติตาม GDPR)
Thunderbit ส่งออกข้อมูลตรงไปยัง Excel, Google Sheets, Airtable หรือ Notion ผู้ใช้ควบคุมได้ว่าข้อมูลจะไปที่ไหน สิ่งนี้ช่วยเรื่องความโปร่งใสและการบันทึกฐานทางกฎหมายภายใต้ GDPR: คุณรู้ชัดเจนว่าคุณเก็บข้อมูลอะไร และส่งไปที่ใด ไม่มีการประมวลผลซ่อนเร้นหรือเก็บข้อมูลโดยเครื่องมือไว้เอง
Rate limiting และการเข้าถึงอย่างรับผิดชอบ
การส่งคำร้องขอจำนวนมากเกินไปอาจกระตุ้น CMA มาตรา 3 (การทำให้ระบบเสียหาย/เสื่อมประสิทธิภาพโดยไม่ได้รับอนุญาต) rate limiting ไม่ใช่แค่แนวปฏิบัติทางเทคนิคที่ดีเท่านั้น—but เป็นเกราะป้องกันทางกฎหมายด้วย เครื่องมือที่รับผิดชอบจะไม่ทำให้เซิร์ฟเวอร์ล้นเกินไป ซึ่งช่วยลดทั้งความเสี่ยงทางกฎหมายและโอกาสที่ IP ของคุณจะถูกบล็อก

เช็กลิสต์ความสอดคล้องเชิงปฏิบัติสำหรับการสแครปเว็บในสหราชอาณาจักร
ก่อนสแครปอะไร ให้ไล่เช็กตามนี้:
- อ่าน Terms of Service และนโยบาย Acceptable Use ของเว็บไซต์เป้าหมาย
- ตรวจไฟล์ robots.txt และบันทึกว่าพาธที่เกี่ยวข้องถูกห้ามหรือไม่
- พิจารณาว่าข้อมูลที่ต้องการเป็นข้อมูลส่วนบุคคลหรือไม่ ถ้าใช่ ให้ระบุฐานทางกฎหมายภายใต้ UK GDPR
- ประเมินว่าคุณกำลังดึง "ส่วนสำคัญ" ของฐานข้อมูลหรือไม่
- ยืนยันว่าคุณไม่ได้ข้ามระบบควบคุมการเข้าถึงทางเทคนิคใด ๆ (CAPTCHA, ล็อกอิน, rate limit)
- ถ้าวัตถุประสงค์คือการวิจัยที่ไม่ใช่เชิงพาณิชย์ ให้บันทึกจุดนี้เพื่อใช้สิทธิภายใต้ข้อยกเว้น TDM
- ใช้ rate limiting อย่าทำให้เซิร์ฟเวอร์เป้าหมายรับโหลดหนักเกินไป
- บันทึกทุกอย่าง: ฐานทางกฎหมาย การตรวจ ToS ฟิลด์ข้อมูลที่เก็บ ปลายทางที่ส่งออก ระยะเวลาเก็บรักษา
- ถ้าไม่แน่ใจ ให้ขอคำปรึกษากฎหมาย จากทนายที่เชี่ยวชาญด้านคุ้มครองข้อมูลและทรัพย์สินทางปัญญา
เช็กลิสต์นี้ไม่ได้แทนความเห็นของทนาย—but มันให้กรอบเริ่มต้นที่ดี และแสดงความสุจริตหากวันหนึ่งมีคำถามเกิดขึ้น
สิ่งที่ควรจำ
- Web scraping ไม่ผิดกฎหมายในสหราชอาณาจักร—but อยู่ภายใต้กรอบกฎหมาย 4 ชั้นที่ทับซ้อนกัน: UK GDPR, ลิขสิทธิ์/สิทธิในฐานข้อมูล, กฎหมายสัญญา และ Computer Misuse Act
- ความถูกกฎหมายของแต่ละการสแครปขึ้นอยู่กับว่าคุณสแครปอะไร เข้าถึงอย่างไร ข้อกำหนดของเว็บไซต์ว่าอย่างไร และคุณนำข้อมูลไปใช้อะไรต่อ
- การสแครปข้อมูลส่วนบุคคลมีภาระด้านการปฏิบัติตามสูงที่สุด โดยทั่วไป legitimate interests คือฐานทางกฎหมายที่ใช้ได้จริงเพียงฐานเดียว และต้องมีการประเมินดุลยภาพที่บันทึกไว้
- สหราชอาณาจักรไม่มีข้อยกเว้น TDM เชิงพาณิชย์แบบกว้าง การฝึก AI เชิงพาณิชย์และการขายชุดข้อมูลต่อมีความเสี่ยงสูงหากไม่มีไลเซนส์
- ใช้แผนผังตัดสินใจและตารางสถานการณ์ด้านบนเพื่อประเมินกรณีของคุณก่อนเริ่ม
- เลือกเครื่องมือที่สอดคล้องกับแนวปฏิบัติด้านความสอดคล้อง: เข้าถึงผ่านเบราว์เซอร์ ไม่ข้าม CAPTCHA ส่งออกข้อมูลอย่างโปร่งใส และมี rate limiting ออกแบบโดยยึดหลักเหล่านี้—but ความรับผิดชอบด้านการปฏิบัติตามอยู่ที่ผู้ใช้เสมอ
- ถ้าไม่แน่ใจ ให้บันทึกเหตุผลของคุณและคุยกับทนาย ค่าขอความเห็นทางกฎหมายแทบจะน้อยกว่าค่าถูก ICO ตรวจสอบเสมอ
คำถามที่พบบ่อย
การสแครปข้อมูลที่เปิดเผยต่อสาธารณะในสหราชอาณาจักรถูกกฎหมายไหม?
โดยทั่วไป ใช่—การสแครปข้อมูลสาธารณะมีความเสี่ยงต่ำกว่าการสแครปข้อมูลที่มีการปิดกั้นหรือข้อมูลส่วนตัว แต่ "เปิดเผยต่อสาธารณะ" ไม่ได้แปลว่า "ใช้ได้ตามใจ" UK GDPR ยังอาจใช้กับข้อมูลส่วนบุคคลที่เปิดเผยสาธารณะได้ ลิขสิทธิ์ยังใช้กับถ้อยคำที่คัดลอก สิทธิในฐานข้อมูลยังคุ้มครองชุดข้อมูลที่คัดสรรมา และ ToS ยังอาจจำกัดการเข้าถึงแบบอัตโนมัติได้
ฉันสแครปอีเมลและเบอร์โทรจากเว็บไซต์ในสหราชอาณาจักรได้ไหม?
ถ้าข้อมูลนั้นเป็นข้อมูลส่วนบุคคล (ซึ่งอีเมลและเบอร์โทรมักเป็น) คุณต้องมีฐานทางกฎหมายภายใต้ UK GDPR legitimate interests เป็นฐานที่พบบ่อยที่สุดสำหรับการหาลีดแบบ B2B แต่คุณต้องทำการชั่งน้ำหนักผลประโยชน์ ลดข้อมูลที่เก็บ และมีช่องทาง opt-out การสแครปข้อมูลติดต่อส่วนตัว (เบอร์มือถือ อีเมลส่วนตัว) มีความเสี่ยงสูงกว่ารายชื่อในไดเรกทอรีธุรกิจมาก
ความแตกต่างระหว่าง web scraping กับ web crawling ภายใต้กฎหมายสหราชอาณาจักรคืออะไร?
ในทางกฎหมาย แทบไม่มีความแตกต่างที่มีนัยสำคัญ—กฎหมายสนใจพฤติกรรม ไม่ใช่ชื่อเรียก crawling มักหมายถึงการค้นหาหรือจัดทำดัชนีหน้าเว็บ ส่วน scraping มักหมายถึงการดึงข้อมูลที่มีโครงสร้าง ทั้งสองอย่างเกี่ยวข้องกับการเข้าถึงเว็บไซต์แบบอัตโนมัติ และอยู่ภายใต้กรอบกฎหมายเดียวกัน
robots.txt ทำให้การสแครปผิดกฎหมายไหม?
ไม่ robots.txt ไม่ได้มีผลผูกพันทางกฎหมาย อย่างไรก็ตาม การเพิกเฉยต่อมันจะเพิ่มความเสี่ยง เพราะศาลและ ICO มองว่ามันเป็นหลักฐานแสดงเจตนาของเจ้าของเว็บไซต์ ถ้าคุณเพิกเฉย robots.txt และ ToS ของเว็บไซต์ก็ห้ามการสแครปอยู่แล้ว เท่ากับคุณกำลังสะสมปัจจัยเสี่ยง และเป็นจุดยืนที่ปกป้องยากกว่ามาก
ฉันอาจถูกดำเนินคดีอาญาจากการสแครปเว็บในสหราชอาณาจักรได้ไหม?
ได้ก็ต่อเมื่อคุณข้ามระบบควบคุมการเข้าถึง (CAPTCHA, ล็อกอิน, บล็อก IP) หรือสร้างความเสียหายต่อระบบคอมพิวเตอร์ภายใต้ การสแครปข้อมูลสาธารณะตามปกติ ในปริมาณที่เหมาะสม และไม่ใช้วิธีหลบเลี่ยงทางเทคนิค แทบไม่มีทางนำไปสู่ข้อหาอาญา ความเสี่ยงจะเปลี่ยนไปมากเมื่อพฤติกรรมดูคล้ายการแฮ็กหรือจงใจทำให้บริการเสียหาย
เรียนรู้เพิ่มเติม
