क्या यूरोप में वेब स्क्रैपिंग कानूनी है? कैसे स्क्रैप करें और सुरक्षित रहें

अंतिम अपडेट April 29, 2026

1 मई, 2024 को डच डेटा संरक्षण प्राधिकरण ने एक ऐसी हेडलाइन जारी की जिसने यूरोप की हर डेटा टीम को चौंका दिया: अगर आप सेल्स, ई-कॉमर्स या रियल एस्टेट में काम करते हैं — यानी मूल रूप से कोई भी जो वेब डेटा पर निर्भर है — तो यह वाक्य शायद आपकी रीढ़ में सिहरन पैदा कर गया होगा।

मैं समझता हूँ। में हम रोज़ उन बिज़नेस टीमों से बात करते हैं जिन्हें मूल्य-निगरानी, लीड जनरेशन और बाज़ार अनुसंधान के लिए वेब डेटा चाहिए। परेशानी हमेशा एक जैसी होती है: वे गूगल पर "यूरोप में वेब स्क्रैपिंग कानूनी है या नहीं" खोजते हैं, और हर जवाब किसी न किसी रूप में "यह निर्भर करता है" ही होता है। जब आपके पास प्रोजेक्ट की डेडलाइन हो और स्क्रैप करने के लिए URLs की सूची हो, तब यह मददगार नहीं होता।

इसलिए मैंने हफ्तों तक असली नियमों, DPA मार्गदर्शन, प्रवर्तन रिकॉर्ड और केस लॉ में गहराई से खोजबीन की, ताकि कुछ ज्यादा उपयोगी बनाया जा सके: एक व्यावहारिक निर्णय चेकलिस्ट, एक समेकित सुरक्षा तालिका, वास्तविक जुर्माना राशियाँ, और यूरोपीय वेबसाइटों को इस तरह स्क्रैप करने की चरण-दर-चरण गाइड कि आप रेगुलेटर के गलत पक्ष में न पहुँचें। चाहे आप Amazon के प्रोडक्ट प्राइस स्क्रैप कर रहे हों या किसी डायरेक्टरी से B2B कॉन्टैक्ट्स निकाल रहे हों, यह लेख आपको सीमा कहाँ है — और सही तरफ कैसे रहें — यह समझने में मदद करेगा।

वेब स्क्रैपिंग क्या है (और यूरोपीय व्यवसायों को इसकी परवाह क्यों करनी चाहिए)?

वेब स्क्रैपिंग वेबसाइटों से डेटा का स्वचालित निष्कर्षण है — जिसे स्प्रेडशीट, डेटाबेस या CRM जैसे संरचित फ़ॉर्मेट में बदला जाता है। 200 पेजों से प्रोडक्ट नाम और कीमतें कॉपी-पेस्ट करने के बजाय, एक स्क्रैपर हर पेज पर जाता है और आपको चाहिए हुए फ़ील्ड्स को साफ़-सुथरे कॉलम्स में खींच लेता है।

गैर-तकनीकी टीमों के लिए यह क्यों महत्वपूर्ण है? क्योंकि वेब डेटा असली बिज़नेस फ़ैसलों को संचालित करता है। सेल्स टीमें लीड्स के लिए डायरेक्टरियाँ स्क्रैप करती हैं। ई-कॉमर्स मैनेजर रोज़ाना प्रतिस्पर्धियों की कीमतों की निगरानी करते हैं। रियल एस्टेट विश्लेषक पोर्टलों के बीच लिस्टिंग ट्रेंड्स ट्रैक करते हैं। मार्केट रिसर्चर सार्वजनिक रिव्यू और रेटिंग्स बड़े पैमाने पर इकट्ठा करते हैं। तेज़ी से बढ़ रहा है, और कंपनियाँ हर दिन लाखों डेटा पॉइंट्स स्क्रैप करती हैं।

लेकिन यूरोप का नियामकीय माहौल अमेरिका से अलग है। GDPR, Database Directive और विकसित होता DPA मार्गदर्शन यह मतलब रखते हैं कि "सार्वजनिक रूप से उपलब्ध" का अर्थ "मुक्त रूप से उपयोग करने योग्य" नहीं है। जैसा कि डच DPA के अध्यक्ष Aleid Wolfsen ने कहा: "सार्वजनिक होने का अर्थ अपने-आप स्क्रैपिंग की अनुमति नहीं है।" शुरू करने से पहले नियमों को समझना वैकल्पिक नहीं है — यह साफ़-सुथरे डेटासेट और छह अंकों वाले जुर्माने के बीच का अंतर है।

क्या यूरोप में वेब स्क्रैपिंग कानूनी है? संक्षिप्त उत्तर

यूरोप में वेब स्क्रैपिंग अपने-आप में अवैध नहीं है। लेकिन इसकी वैधता तीन बातों पर निर्भर करती है: क्या डेटा स्क्रैप किया जा रहा है, कैसे स्क्रैप किया जा रहा है, और क्यों

ईयू में स्क्रैपिंग को तीन ओवरलैपिंग कानूनी परतें नियंत्रित करती हैं:

  1. GDPR — जब भी आप व्यक्तिगत डेटा (नाम, ईमेल, फ़ोन नंबर, IP पते, यहाँ तक कि छद्मनामित पहचानकर्ता) स्क्रैप करते हैं, यह लागू होता है।
  2. ईयू Database Directive — उन डेटाबेस की रक्षा करता है जिनकी रचना में डेटा संगठित करने के लिए "महत्वपूर्ण निवेश" किया गया हो।
  3. अनुबंध/सेवा की शर्तों (Terms of Service) का कानून — कई वेबसाइटें अपनी ToS में स्क्रैपिंग को स्पष्ट रूप से प्रतिबंधित करती हैं, और ईयू अदालतों ने उन शर्तों को लागू भी किया है।

मुख्य बात: "सार्वजनिक" का अर्थ "नियमन-मुक्त" नहीं है। गैर-व्यक्तिगत डेटा भी database rights या contract law के अंतर्गत संरक्षित हो सकता है। हर स्क्रैपिंग प्रोजेक्ट में इन तीनों परतों को साथ मिलाकर देखना पड़ता है।

वेब स्क्रैपिंग को नियंत्रित करने वाले प्रमुख ईयू कानून

GDPR: जब आप व्यक्तिगत डेटा स्क्रैप करते हैं

पहचान योग्य व्यक्ति से जुड़ा कोई भी डेटा GDPR दायित्वों को सक्रिय करता है। इसमें नाम, ईमेल पता, फ़ोन नंबर, IP पते, फ़ोटो, और यहाँ तक कि ऐसा छद्मनामित डेटा भी शामिल है जिसे फिर से पहचाना जा सके। जैसे ही आप व्यक्तिगत डेटा स्क्रैप करते हैं, आप GDPR के तहत कर्तव्यों वाले एक "data controller" बन जाते हैं:

  • कानूनी आधार (Article 6): डेटा प्रोसेस करने के लिए आपके पास कानूनी कारण होना चाहिए। बड़े पैमाने पर स्क्रैपिंग के लिए सहमति लगभग कभी व्यावहारिक नहीं होती — आप लाखों लोगों से उनकी सार्वजनिक रूप से पोस्ट की गई जानकारी इकट्ठा करने से पहले अनुमति नहीं मांग सकते। सबसे अधिक उद्धृत आधार वैध हित (Article 6(1)(f)) है, लेकिन इसके लिए दस्तावेज़ित तीन-भागीय परीक्षण चाहिए: (1) आपका हित वैध है, (2) प्रोसेसिंग उस हित के लिए आवश्यक है, और (3) डेटा विषयों के अधिकारों पर अनुपातहीन प्रभाव नहीं पड़ता, उनकी यथोचित अपेक्षाओं को ध्यान में रखते हुए।
  • पारदर्शिता (Article 14): चूँकि आप डेटा सीधे व्यक्ति से नहीं ले रहे हैं, आपको उन्हें — आमतौर पर एक महीने के भीतर — बताना होता है कि आपने क्या इकट्ठा किया, क्यों, और वे अपने अधिकारों का उपयोग कैसे कर सकते हैं। अगर व्यक्तिगत सूचना देना अनुपातहीन हो, तो आपको Article 14 की सभी सामग्री के साथ एक सामान्य सूचना प्रकाशित करनी होगी।
  • डेटा न्यूनतमकरण: केवल उतना ही इकट्ठा करें जितना वास्तव में चाहिए। अगर आपको प्रोडक्ट की कीमतें चाहिए, तो विक्रेता के ईमेल पते भी न लें।
  • भंडारण सीमाएँ और अधिकार प्रबंधन: प्रतिधारण अवधि तय करें, मिटाने के अनुरोधों का पालन करें, और स्रोत जानकारी तक पहुँच प्रदान करें।

(मई 2024 में अपनाया गया) ने एक और परत जोड़ी: इसमें कहा गया कि अलग-अलग प्रोसेसिंग चरण — संग्रह, पूर्व-प्रसंस्करण, प्रशिक्षण, प्रॉम्प्ट्स और आउटपुट — के लिए अलग कानूनी आधार विश्लेषण चाहिए। EDPB ने वेब स्क्रैपिंग के लिए वैध हित को खारिज नहीं किया, लेकिन उसने उपयुक्त सुरक्षा उपायों के साथ पूर्ण तीन-भागीय मूल्यांकन पर ज़ोर दिया।

ईयू Database Directive: डेटा कैसे संगठित है, उसकी सुरक्षा

Database Directive उन डेटाबेस निर्माताओं को एक sui generis अधिकार देता है जिन्होंने अपने डेटा को प्राप्त करने, सत्यापित करने या प्रस्तुत करने में "महत्वपूर्ण निवेश" किया हो। यदि आपकी स्क्रैपिंग ऐसे डेटाबेस का "महत्वपूर्ण भाग" निकालती है, तो आप उस अधिकार का उल्लंघन कर सकते हैं।

व्यवहार में, यह सीमा अपेक्षाकृत ऊँची है। किसी बड़े रिटेलर से कुछ सौ प्रोडक्ट प्राइस स्क्रैप करना आम तौर पर इस दायरे में नहीं आता। लेकिन किसी प्रतिस्पर्धी की पूरी सूची — हज़ारों लिस्टिंग — एक साथ डाउनलोड करना सीमा पार कर सकता है, खासकर अगर इससे निर्माता के निवेश की भरपाई करने की क्षमता पर असर पड़ता हो। यूरोपीय संघ के न्यायालय ने कई मामलों में इस सीमा पर निर्णय दिए हैं, और मुख्य प्रश्न हमेशा अनुपातिकता होता है।

अधिकांश व्यावसायिक स्क्रैपिंग — जैसे प्रोडक्ट पेजों से खास फ़ील्ड्स निकालना, किसी श्रेणी में लिस्टिंग्स की तुलना करना — के लिए Database Directive का जोखिम कम होता है। लेकिन यह शून्य नहीं है, और स्क्रैपिंग का दायरा तय करते समय इसे ध्यान में रखना चाहिए।

Terms of Service: अनुबंध कानून का अनिश्चित तत्व

यह वह जगह है जहाँ लोग अक्सर फँसते हैं। कई वेबसाइटें अपनी Terms of Service में स्क्रैपिंग पर प्रतिबंध लगाती हैं। यूरोप में ToS का उल्लंघन एक सिविल मामला है (फौजदारी नहीं), लेकिन फिर भी यह निषेधाज्ञा, अनुबंध संबंधी मुकदमों और वास्तविक वित्तीय जोखिम तक ले जा सकता है।

दो तरह की शर्तें समझें: browsewrap (निष्क्रिय शर्तें, अक्सर पेज के नीचे छिपे लिंक के रूप में) लागू कराना कठिन होता है क्योंकि उपयोगकर्ता ने सक्रिय रूप से सहमति नहीं दी। clickwrap (जहाँ आप चेकबॉक्स पर टिक करते हैं या "I agree" क्लिक करते हैं) कहीं अधिक लागू करने योग्य होता है।

एक ऐतिहासिक ईयू मामला Ryanair v. PR Aviation है: अदालत ने स्क्रैपर के खिलाफ Ryanair की ToS लागू की, भले ही database rights लागू नहीं होती थीं, क्योंकि स्क्रैपर ने शर्तें स्वीकार कर ली थीं। इसलिए: स्क्रैपिंग से पहले हमेशा साइट की ToS जाँचें। अगर यह एक clickwrap समझौता है जो स्पष्ट रूप से स्क्रैपिंग प्रतिबंधित करता है, तो सावधानी से आगे बढ़ें — या इसके बजाय API एक्सेस देखें।

DSM Directive और AI Act: शोध तथा टेक्स्ट/डेटा माइनिंग के लिए अपवाद

हर स्क्रैपिंग एक जैसी पाबंदियाँ नहीं लाती। Digital Single Market (DSM) Directive (2019) ने दो text and data mining (TDM) अपवाद पेश किए:

  • Article 3: शोध संस्थान और सांस्कृतिक विरासत संगठन वैध रूप से एक्सेस की गई सामग्री पर TDM कर सकते हैं।
  • Article 4: कोई भी — व्यावसायिक संस्थाएँ भी — TDM कर सकता है, जब तक अधिकार धारक ने स्पष्ट रूप से opt out न किया हो (उदाहरण: robots.txt, ai.txt, या TDMRep headers के माध्यम से)।

ईयू AI Act (Article 53) AI मॉडल प्रदाताओं के लिए दायित्व जोड़ता है: उन्हें TDM opt-out तंत्र का पालन करना होगा और अपने प्रशिक्षण डेटा स्रोतों का दस्तावेज़ीकरण करना होगा।

एक महत्वपूर्ण बात: ये अपवाद कॉपीराइट और database rights को कवर करते हैं, GDPR को नहीं। अगर आपका TDM व्यक्तिगत डेटा शामिल करता है, तो आपको फिर भी एक अलग GDPR कानूनी आधार चाहिए।

02-legal-layers_compressed.webp

"क्या मैं इसे स्क्रैप कर सकता हूँ?" — यूरोपीय डेटा के लिए निर्णय चेकलिस्ट

यह वह अनुभाग है जो काश मुझे तब मिलता जब मैंने पहली बार इस विषय पर शोध शुरू किया था। हर कानूनी लेख कहता है "यह निर्भर करता है" — लेकिन निर्णय-वृक्ष वास्तव में दिखता कैसा है? यहाँ स्पष्ट चरणों के साथ एक व्यावहारिक अनुपालन चेकलिस्ट है। हर चरण आपको ✅ आगे बढ़ें, ⚠️ सुरक्षा उपाय जोड़ें, या 🛑 रुकें की ओर ले जाता है।

चरण 1: क्या डेटा व्यक्तिगत है या गैर-व्यक्तिगत?

गैर-व्यक्तिगत डेटा (प्रोडक्ट कीमतें, SKU नंबर, ऐसे व्यवसाय पते जो व्यक्तियों से जुड़े नहीं हैं): नियामकीय बोझ कम। आपको फिर भी Database Directive और ToS की जाँच करनी होगी, लेकिन GDPR लागू नहीं होता। ✅ चरण 3 पर जाएँ।

व्यक्तिगत डेटा (नाम, ईमेल, फ़ोन नंबर, फ़ोटो, किसी व्यक्ति से जुड़ा कोई भी पहचानकर्ता): GDPR लागू होता है। ⚠️ चरण 2 पर जारी रखें।

चरण 2: कौन सा GDPR कानूनी आधार लागू होता है?

  • सहमति: बड़े पैमाने की स्क्रैपिंग के लिए लगभग कभी संभव नहीं। 🛑 जब तक आपके पास बहुत संकीर्ण, विशिष्ट परिदृश्य न हो।
  • वैध हित (Article 6(1)(f)): सबसे सामान्य आधार। लेकिन इसके लिए दस्तावेज़ित तीन-भागीय परीक्षण चाहिए:
    1. आपका हित वैध है (व्यावसायिक हित योग्य हो सकता है, जैसा कि में कहा गया)।
    2. उस हित के लिए प्रोसेसिंग आवश्यक है।
    3. संतुलन परीक्षण: आपकी रुचि, डेटा विषयों की यथोचित अपेक्षाओं को ध्यान में रखते हुए, उनके अधिकारों को पीछे नहीं छोड़ती।
  • स्क्रैपिंग से पहले अपना संतुलन परीक्षण दस्तावेज़ित करें। अगर आप स्पष्ट रूप से नहीं बता सकते कि जिन लोगों का डेटा आप स्क्रैप कर रहे हैं, वे इस उपयोग की यथोचित अपेक्षा क्यों करेंगे, तो यह एक चेतावनी संकेत है। ⚠️ दस्तावेज़ित वैध हित के साथ आगे बढ़ें।

चरण 3: क्या साइट की ToS स्क्रैपिंग को प्रतिबंधित करती है?

  • clickwrap समझौता जो स्क्रैपिंग निषिद्ध करता है: 🛑 उच्च जोखिम। वैकल्पिक डेटा स्रोत या आधिकारिक API एक्सेस पर विचार करें।
  • browsewrap या ToS प्रतिबंध नहीं: ⚠️ कम जोखिम, लेकिन robots.txt और तकनीकी विरोध संकेतों का सम्मान करें।

चरण 4: क्या Database Directive लागू होती है?

  • क्या लक्ष्य ऐसा डेटाबेस है जिसमें डेटा संगठन में महत्वपूर्ण निवेश किया गया है?
  • क्या आपकी स्क्रैपिंग उस डेटाबेस का "महत्वपूर्ण भाग" निकालेगी?
  • यदि दोनों का उत्तर हाँ है: ⚠️ sui generis उल्लंघन का जोखिम। अपने निष्कर्षण का दायरा सीमित करें।

चरण 5: क्या आप शोध या TDM अपवाद के अंतर्गत आते हैं?

  • पंजीकृत शोध संस्थान या सांस्कृतिक विरासत संगठन? DSM Directive Article 3 लागू हो सकता है। ✅
  • व्यावसायिक TDM? Article 4 के opt-out संकेतों (robots.txt, ai.txt, TDMRep) की जाँच करें। अगर साइट ने opt out किया है, तो उस स्रोत के लिए 🛑 रुकें।

चरण 6: क्या आपने DPA द्वारा सुझाए गए सुरक्षा उपाय लागू किए हैं?

यदि आपने ऊपर की सभी जाँचों को पार कर लिया है, तो अंतिम चरण CNIL, डच DPA और EDPB द्वारा सुझाए गए सुरक्षा उपाय लागू करना है। इनका विस्तार अगले अनुभाग में है। ✅ सुरक्षा उपायों के साथ आगे बढ़ें।

01-decision-checklist_compressed.webp

DPA अनुपालन सुरक्षा उपाय: CNIL, डच DPA और EDPB क्या सुझाते हैं

मुझे जो भी प्रतिस्पर्धी लेख मिले, उनमें से किसी एक में भी यूरोप के तीन सबसे सक्रिय रेगुलेटरों के स्क्रैपिंग संबंधी सुरक्षा उपायों का समेकित सार नहीं था। इसलिए मैंने , , और को क्रॉस-रेफरेंस करके यह तालिका तैयार की।

सुरक्षा उपायCNILडच DPA (AP)EDPB Task Forceकार्यान्वयन सुझाव
Art. 14 पारदर्शिता सूचना✅ आवश्यक✅ आवश्यक✅ आवश्यकस्रोत श्रेणियाँ, उद्देश्य, कानूनी आधार, प्रतिधारण, अधिकार चैनल और DPO संपर्क सूचीबद्ध करते हुए सार्वजनिक सूचना प्रकाशित करें
स्क्रैपिंग से पहले DPIA✅ अनुशंसित (उच्च जोखिम होने पर अनिवार्य)✅ आवश्यक✅ आवश्यकलॉन्च से पहले संतुलन परीक्षण, डेटा श्रेणियाँ, जोखिम और शमन उपाय दस्तावेज़ित करें
डेटा न्यूनतमकरण✅ आवश्यक (सटीक संग्रह मानदंड तय करें)✅ आवश्यक✅ आवश्यकस्क्रैपर को केवल ज़रूरी फ़ील्ड्स निकालने के लिए कॉन्फ़िगर करें; अप्रासंगिक डेटा तुरंत हटाएँ
रेट लिमिटिंग / robots.txt का सम्मान✅ आवश्यक (robots.txt/CAPTCHA से आपत्ति करने वाली साइटें बाहर करें)robots.txt पार्स करें, अनुरोधों के बीच देरी जोड़ें, अपना user agent पहचानें
छद्मनामकरण / अनामीकरण⚠️ अनुशंसित (संग्रह के तुरंत बाद)✅ दृढ़ता से अनुशंसित✅ अनुशंसितIDs को hash या randomize करें; प्रोफ़ाइल URLs हटाएँ; जहाँ पहचान आवश्यक न हो, चेहरे धुंधले करें
प्रतिधारण अवधि✅ परिभाषित सीमा✅ यथासंभव छोटी✅ परिभाषित सीमास्वचालित हटाने का शेड्यूल सेट करें; raw cache को निकाले गए तथ्यों से अलग रखें
opt-out / blacklist तंत्र✅ अनुशंसित (विवेकाधीन पूर्व आपत्ति)✅ आवश्यक (Art. 21 आपत्ति)✅ आवश्यकopt-out फ़ॉर्म, डोमेन blacklist, व्यक्ति-स्तरीय suppression प्रदान करें
संवेदनशील स्रोतों को बाहर करें✅ आवश्यक (स्वास्थ्य मंच, नाबालिगों की साइटें, अश्लील साइटें, वंशावली)✅ आवश्यक✅ आवश्यकस्वास्थ्य, धर्म, राजनीति, बायोमेट्रिक्स, नाबालिगों के लिए डिफ़ॉल्ट blocklist बनाए रखें

हमारी तरफ से एक व्यावहारिक नोट: Thunderbit की सुविधा उपयोगकर्ताओं को ठीक-ठीक यह तय करने देती है कि कौन से कॉलम निकालने हैं — जैसे कीमत, SKU, प्रोडक्ट नाम — ताकि स्क्रैपर केवल ज़रूरी चीज़ें ही इकट्ठा करे। आप पूरे पेजों को बल्क में डाउनलोड नहीं कर रहे; आप ऐसे संरचित फ़ील्ड्स चुन रहे हैं जो purpose limitation और data minimization सिद्धांतों के अनुरूप हों। फिर भी, कोई भी टूल गैर-अनुपालन स्क्रैपिंग को कानूनी नहीं बना देता। कानूनी विश्लेषण हमेशा पहले आता है।

03-dpa-safeguards_compressed.webp

क्या आपके उपयोग-केस के लिए यूरोप में वेब स्क्रैपिंग कानूनी है? उद्योग-विशिष्ट मार्गदर्शन

मुझे फ़ोरमों में सबसे अधिक जो सवाल मिलता है, वह यह नहीं है कि "क्या स्क्रैपिंग कानूनी है?" बल्कि यह कि "क्या मेरी स्क्रैपिंग कानूनी है?" अमूर्त GDPR सिद्धांत इसका उत्तर नहीं देते। इसलिए यहाँ सामान्य व्यावसायिक उपयोग-केस के अनुसार विवरण दिया गया है।

उपयोग-केसडेटा प्रकारमुख्य कानूनी जोखिमसंभावित परिणाम
ई-कॉमर्स मूल्य निगरानी (सार्वजनिक प्रोडक्ट लिस्टिंग)गैर-व्यक्तिगत (कीमतें, SKU, प्रोडक्ट नाम)Database Directive sui generis; ToS उल्लंघनसामान्यतः कम जोखिम, यदि कोई व्यक्तिगत डेटा न हो और डेटाबेस के "महत्वपूर्ण भाग" का व्यवस्थित निष्कर्षण न हो
B2B लीड जनरेशन (डायरेक्टरियों से संपर्क जानकारी)व्यक्तिगत (नाम, ईमेल, फ़ोन नंबर)GDPR Art. 6 कानूनी आधार; Art. 14 सूचना; इलेक्ट्रॉनिक संपर्क के लिए ePrivacyअधिक जोखिम — दस्तावेज़ित वैध हित संतुलन परीक्षण और सूचना दायित्व दोनों चाहिए
रियल एस्टेट लिस्टिंग (पोर्टलों से प्रॉपर्टी डेटा)मिश्रित (पते गैर-व्यक्तिगत हो सकते हैं; मालिक के नाम व्यक्तिगत हैं)Database Directive; ToS; मालिक-लिंक्ड होने पर GDPRमध्यम जोखिम — मालिक डेटा को अनामीकृत करें, ToS जाँचें, robots.txt का सम्मान करें
AI प्रशिक्षण डेटा (बड़े पैमाने पर वेब सामग्री स्क्रैपिंग)फ़िल्टर न होने पर संभावित रूप से व्यक्तिगतGDPR + ईयू AI Act Art. 53 TDM दायित्वउच्च जोखिम — GDPR और AI Act दोनों का पालन करना होगा; opt-out तंत्र और मज़बूत फ़िल्टरिंग आवश्यक

सार्वजनिक ई-कॉमर्स डेटा जैसे कम जोखिम वाले परिदृश्यों के लिए, संरचित टेम्पलेट वाले टूल — जैसे Thunderbit के — जोखिम कम करते हैं, क्योंकि वे अतिरिक्त सामग्री इकट्ठा किए बिना विशिष्ट, गैर-व्यक्तिगत डेटा फ़ील्ड्स निकालते हैं। व्यक्तिगत डेटा वाले उच्च-जोखिम परिदृश्यों (जैसे लीड जनरेशन) में, कानूनी विश्लेषण पहले होना चाहिए। कोई भी स्क्रैपर, चाहे कितना भी स्मार्ट क्यों न हो, गैर-अनुपालन संग्रह को अनुपालन-संग्रह में नहीं बदल देता।

04-enforcement-timeline_compressed.webp

ईयू बनाम अमेरिका बनाम यूके: वेब स्क्रैपिंग कानून कैसे तुलना करते हैं

अगर आपका व्यवसाय सीमाओं के पार काम करता है, तो आपको नियमों के अंतर समझने होंगे। मुझे कोई एक प्रतियोगी लेख ऐसा नहीं मिला जो इसे एक स्कैन करने योग्य साइड-बाय-साइड तालिका में प्रस्तुत करता हो, इसलिए यहाँ है।

पहलूईयूअमेरिकायूके (ब्रेक्सिट के बाद)
मुख्य कानूनGDPR + Database Directive + ePrivacyCFAA + राज्य कानून (सीमित संघीय डेटा गोपनीयता)UK GDPR + Data Protection Act 2018
सार्वजनिक डेटा स्क्रैपिंगयदि व्यक्तिगत डेटा है तो फिर भी GDPR कानूनी आधार चाहिएhiQ v. LinkedIn के बाद आम तौर पर वैध (सार्वजनिक डेटा)ईयू के समान; ICO मार्गदर्शन लागू
ToS प्रवर्तनसिविल मामला; Ryanair v. PR Aviation ने sui generis लागू कियाVan Buren ने CFAA को सीमित किया; ToS उल्लंघन = फौजदारी नहींसिविल मामला, ईयू के समान
डेटाबेस संरक्षणsui generis अधिकार (मज़बूत)कोई समकक्ष संघीय अधिकार नहींretained sui generis अधिकार
AI/TDM अपवादDSM Directive Art. 3–4; AI Act Art. 53कोई संघीय TDM अपवाद नहीं (fair use सिद्धांत)यूके TDM अपवाद पर विचार कर रहा है (2026 तक रुका हुआ)
मुख्य प्रवर्तन निकायराष्ट्रीय DPAs (CNIL, डच AP, आदि)FTC + राज्य AGsICO
हालिया रुझानअधिक सख्त (डच AP: व्यक्तिगत डेटा के लिए "लगभग हमेशा अवैध")hiQ के बाद अधिक उदारमध्यम; सामान्यतः ईयू दिशा का अनुसरण

अगर आप यूरोपीय वेबसाइटें या यूरोपीय निवासियों से संबंधित डेटा स्क्रैप कर रहे हैं, तो ईयू के नियम लागू होते हैं — भले ही आपकी कंपनी अमेरिका या यूके में स्थित हो।

असली जुर्माने और मामले: पकड़े जाने पर वास्तव में क्या होता है (2022–2026)

यह वह अनुभाग है जो प्रश्न के पीछे के प्रश्न का उत्तर देता है: "असली जोखिम क्या है?" मैंने 2022 से अप्रैल 2026 तक वेब स्क्रैपिंग या स्क्रैप किए गए व्यक्तिगत डेटा से जुड़े हर सार्वजनिक DPA प्रवर्तन कार्रवाई को संकलित किया है।

वर्षप्रवर्तनकर्तालक्ष्यउल्लंघनजुर्माना/परिणाम
2022Italian GaranteClearview AIकानूनी आधार के बिना चेहरे की छवियाँ स्क्रैप करना€20M जुर्माना + प्रतिबंध + मिटाने का आदेश
2022Hellenic DPA (Greece)Clearview AIवही — चेहरे की पहचान स्क्रैपिंग€20M जुर्माना + प्रतिबंध + हटाने का आदेश
2022CNIL (France)Clearview AIचेहरे की पहचान डेटाबेस€20M जुर्माना + €100K/दिन संभावित दंड
2023CNIL (France)Clearview AI2022 के आदेश का पालन न करना€5.2M दंड भुगतान
2023Austrian DSBClearview AIसार्वजनिक वेब से 30 अरब+ चेहरे की छवियाँमिटाने का आदेश + EU प्रतिनिधि आदेश (प्रकाशित जुर्माना नहीं)
2024Dutch APClearview AIअवैध चेहरे की पहचान डेटा संग्रह€30.5M जुर्माना + अनुपालन आदेश
2024CNIL (France)KASPRलीड जनरेशन के लिए LinkedIn कॉन्टैक्ट-डेटा स्क्रैपिंग€240,000 जुर्माना — 160M संपर्क, प्रतिबंधित-दृश्यता डेटा, 5-वर्षीय प्रतिधारण
2024Irish DPCX / GrokAI प्रशिक्षण के लिए उपयोग किए गए सार्वजनिक पोस्टनिलंबन समझौता; 2025 में वैधानिक जाँच शुरू
2024Irish DPCMetaसार्वजनिक Facebook/Instagram सामग्री पर नियोजित LLM प्रशिक्षणMeta ने EU AI प्रशिक्षण योजनाएँ रोक दीं
2024Italian GaranteOpenAIChatGPT प्रशिक्षण डेटा + पारदर्शिता€15M जुर्माना जारी, रोम की अदालत ने रद्द किया मार्च 2026 में

स्क्रैपिंग/ओपन-वेब श्रेणी में कुल ईयू/ईईए मौद्रिक दंड: €95 मिलियन से अधिक (रद्द किए गए OpenAI जुर्माने को छोड़कर)।

इन सभी बड़े जुर्मानों का लक्ष्य बिना किसी कानूनी आधार के बायोमेट्रिक या व्यक्तिगत डेटा की बड़े पैमाने पर स्क्रैपिंग था। Clearview ने अरबों चेहरे की छवियाँ स्क्रैप कीं। KASPR ने 160 मिलियन संपर्क स्क्रैप किए, जिनमें प्रतिबंधित-दृश्यता वाले LinkedIn प्रोफाइल्स का डेटा भी शामिल था, और उसे पाँच साल तक रखा।

सार्वजनिक गैर-व्यक्तिगत डेटा — जैसे प्रोडक्ट कीमतें या SKU नंबर — की अनुपातिक, लक्षित स्क्रैपिंग प्रवर्तन कार्रवाइयों का विषय नहीं रही है। इसका मतलब यह नहीं कि यह जोखिम-मुक्त है, लेकिन इससे संख्याओं का परिप्रेक्ष्य समझने में मदद मिलती है।

यूरोपीय वेबसाइटों को सुरक्षित रूप से कैसे स्क्रैप करें: चरण-दर-चरण गाइड

  • कठिनाई: शुरुआती
  • आवश्यक समय: ~15 मिनट (अनुपालन समीक्षा सहित)
  • आपको क्या चाहिए: Chrome ब्राउज़र, (free tier काम करता है), एक लक्ष्य URL, और ऊपर की चेकलिस्ट की एक त्वरित समीक्षा

चरण 1: अपना उद्देश्य और डेटा ज़रूरतें तय करें

कोई भी टूल खोलने से पहले, लिखें कि आपको डेटा क्यों चाहिए और ठीक-ठीक किन फ़ील्ड्स की ज़रूरत है। यह सिर्फ़ अच्छी प्रैक्टिस नहीं है — यह GDPR के purpose limitation और data minimization सिद्धांतों की नींव है।

उदाहरण: "मुझे हमारी प्रतिस्पर्धी मूल्य निर्धारण स्प्रेडशीट अपडेट करने के लिए 50 Amazon प्रोडक्ट पेजों से प्रोडक्ट नाम, कीमतें और स्टॉक स्थिति चाहिए।" यह विशिष्ट है। इसकी तुलना करें: "मुझे Amazon से सब कुछ स्क्रैप करना है।" पहला minimization परीक्षण पास करता है; दूसरा नहीं।

चरण 2: अनुपालन चेकलिस्ट चलाएँ

ऊपर दी गई छह-चरणीय "क्या मैं इसे स्क्रैप कर सकता हूँ?" चेकलिस्ट से गुजरें। अगर कोई भी गेट 🛑 दिखाता है, तो रुकें और आगे बढ़ने से पहले कानूनी सलाह लें।

हमारे Amazon प्राइसिंग उदाहरण को इन गेट्स से गुज़रते हुए देखें: डेटा गैर-व्यक्तिगत है (कीमतें, SKU, प्रोडक्ट नाम) ✅, कोई GDPR व्यक्तिगत डेटा मुद्दा नहीं ✅, Amazon की ToS की समीक्षा होनी चाहिए (वे स्क्रैपिंग पर प्रतिबंध लगाते हैं, इसलिए जहाँ उपलब्ध हो आधिकारिक प्रोडक्ट डेटा APIs पर विचार करें) ⚠️, और 50 प्रोडक्ट्स के लिए Database Directive जोखिम कम है ✅।

चरण 3: सही स्क्रैपिंग तरीका चुनें

विधिउपयोग में आसानीअनुपालन सहायतारखरखावसटीकता
मैन्युअल कॉपी-पेस्टकमलागू नहीं (आप नियंत्रित करते हैं कि क्या कॉपी करें)अधिक (समय लेने वाला)त्रुटि-प्रवण
कोड-आधारित स्क्रैपर (Python, Scrapy)कम (कोडिंग चाहिए)अंतर्निहित नहींअधिक (साइट बदलने पर टूटता है)रखरखाव होने पर उच्च
Thunderbit (AI-संचालित)बहुत अधिकफ़ील्ड-स्तरीय न्यूनतमकरण अंतर्निहितकम (AI पेज परिवर्तनों के अनुसार ढलता है)उच्च
आधिकारिक APIमध्यमसबसे अधिक (संरचित, स्वीकृत पहुँच)कमसबसे अधिक

डेवलपर टीम के बिना बिज़नेस यूज़र्स के लिए, सबसे तेज़ रास्ता है। जिन साइटों के आधिकारिक APIs हैं (जैसे Amazon का Product Advertising API), API हमेशा सबसे सुरक्षित विकल्प है — लेकिन इसमें अक्सर डेटा मात्रा और फ़ील्ड्स की सीमाएँ होती हैं।

चरण 4: अनुपालन के लिए अपना स्क्रैपर कॉन्फ़िगर करें

Thunderbit में:

  1. अपनी लक्ष्य पेज पर जाएँ (जैसे Amazon प्रोडक्ट लिस्टिंग पेज)।
  2. Chrome टूलबार में Thunderbit आइकन पर क्लिक करें और "AI Suggest Fields" चुनें। AI पेज स्कैन करके "Product Name," "Price," "Rating," और "Stock Status" जैसे कॉलम सुझाता है।
  3. जिन फ़ील्ड्स की ज़रूरत नहीं, उन्हें हटा दें। अगर AI "Seller Name" या "Seller Email" सुझाता है और आपको सिर्फ़ मूल्य डेटा चाहिए, तो वे कॉलम हटा दें। यही व्यावहारिक डेटा न्यूनतमकरण है।
  4. Field AI Prompt का उपयोग करके "personal identifiers को बाहर करें" या "केवल सार्वजनिक pricing data निकालें" जैसे निर्देश जोड़ें।
  5. सार्वजनिक ई-कॉमर्स साइटों के लिए Cloud Scraping चुनें (तेज़, लॉगिन की ज़रूरत नहीं) या प्रमाणीकरण माँगने वाली साइटों के लिए Browser Scraping चुनें।
  6. "Scrape" पर क्लिक करने से पहले, पुष्टि करें कि robots.txt आपके उपयोग-केस के लिए स्क्रैपिंग निषिद्ध नहीं करता। आप अपने ब्राउज़र में [domain]/robots.txt खोलकर जाँच सकते हैं।

अब आपको केवल वही फ़ील्ड्स वाली तालिका प्रिव्यू दिखनी चाहिए जो आपने कॉन्फ़िगर की हैं — कोई अतिरिक्त व्यक्तिगत डेटा नहीं, कोई अनावश्यक मेटाडेटा नहीं।

चरण 5: डेटा को ज़िम्मेदारी से एक्सपोर्ट, स्टोर और मैनेज करें

स्क्रैपिंग के बाद, अपना डेटा में एक्सपोर्ट करें — Thunderbit यह सब मुफ्त एक्सपोर्ट के साथ सपोर्ट करता है।

फिर:

  • एक प्रतिधारण अवधि तय करें। स्क्रैप किए गए डेटा को अनिश्चित काल तक न रखें। अगर आप साप्ताहिक मूल्य-निगरानी कर रहे हैं, तो पिछले महीने का raw data शायद ज़रूरी नहीं होगा।
  • यदि व्यक्तिगत डेटा एकत्र किया गया था (जैसे लीड जनरेशन के लिए), तो अपना कानूनी आधार दस्तावेज़ित करें, एक Article 14 पारदर्शिता सूचना प्रकाशित करें, और opt-out तथा मिटाने के अनुरोधों को संभालने की प्रक्रिया बनाएं।
  • जहाँ संभव हो, हटाने का शेड्यूल स्वचालित करें। Thunderbit का निर्धारित अंतराल पर आवर्ती स्क्रैपिंग को स्वचालित कर सकता है, जबकि वही फ़ील्ड-स्तरीय कॉन्फ़िगरेशन बनाए रखता है, ताकि हर रन आपके अनुपालन पैरामीटरों के भीतर रहे।

यूरोप में स्क्रैपिंग करते समय अनुपालन बनाए रखने के सुझाव

इस विषय पर शोध करते हुए और अनुपालन-सचेत टीमों से बात करते हुए मैंने कुछ व्यवहार सीखे हैं:

  • नई साइट स्क्रैप करने से पहले हमेशा ToS की समीक्षा करें। इसमें दो मिनट लगते हैं और महीनों की कानूनी परेशानी बच सकती है।
  • जहाँ API उपलब्ध हों, उनका उपयोग करें। वे संरचित, स्वीकृत और सबसे सुरक्षित रास्ता हैं। स्क्रैपिंग को डिफ़ॉल्ट नहीं, बल्कि बैकअप होना चाहिए।
  • बड़े पैमाने पर व्यक्तिगत डेटा वाले किसी भी प्रोजेक्ट के लिए DPIA करें। CNIL कहता है कि AI प्रशिक्षण डेटासेट उच्च जोखिम पैदा कर सकते हैं, और DPIA आपकी जवाबदेही का प्रमाण है। छोटे प्रोजेक्ट्स में भी, अपना विश्लेषण दस्तावेज़ित करना समझदारी है।
  • स्क्रैपिंग लॉग रखें। क्या स्क्रैप किया गया, कब, कहाँ से, आपका कानूनी आधार और प्रतिधारण अवधि दर्ज करें। अगर कभी कोई DPA पूछताछ करे, तो आपको खुशी होगी कि यह मौजूद है।
  • नियामकीय अपडेट्स पर नज़र रखें। DPA मार्गदर्शन तेज़ी से बदल रहा है — CNIL ने जनवरी 2026 में नए AI scraping sheets प्रकाशित किए, और EDPB से आगे की राय आने की उम्मीद है। आज के नियम कल कड़े हो सकते हैं।
  • प्रतिबंधित या संवेदनशील स्रोतों से स्क्रैप न करें। CNIL की में स्वास्थ्य मंच, मुख्यतः नाबालिगों द्वारा उपयोग की जाने वाली साइटें, अश्लील साइटें, वंशावली साइटें, और अत्यधिक संरचित व्यक्तिगत-डेटा साइटें शामिल हैं। अगर आप स्क्रैपिंग प्रोजेक्ट बना रहे हैं, तो एक डिफ़ॉल्ट blocklist बनाए रखें।
  • स्वचालित ट्रैफ़िक संचालन के लिहाज़ से बड़ी बात है। कि 2024 में bots कुल web traffic का 42% थे, और कि automated bot traffic पहली बार मानव traffic से आगे निकल गया, 2024 में 51% तक पहुँच गया। रेगुलेटर अब bot व्यवहार, दर और evasion को जोखिम और अनुचितता के साक्ष्य के रूप में अधिक देखते हैं। एक ज़िम्मेदार स्क्रैपर की तरह व्यवहार करना — अपना user agent पहचानना, rate-limiting करना, विरोध संकेतों का सम्मान करना — सिर्फ़ शिष्टाचार नहीं; यह कानूनी रूप से भी प्रासंगिक है।

निष्कर्ष

यूरोप में वेब स्क्रैपिंग अवैध नहीं है। लेकिन यह विनियमित है — खासकर जब व्यक्तिगत डेटा शामिल हो।

कानूनी परिणाम इस पर निर्भर करता है कि आप क्या स्क्रैप करते हैं (व्यक्तिगत बनाम गैर-व्यक्तिगत), कैसे स्क्रैप करते हैं (ToS, robots.txt, rate limiting, फ़ील्ड-स्तरीय न्यूनतमकरण), और क्यों (दस्तावेज़ित उद्देश्य और कानूनी आधार)। प्रवर्तन रिकॉर्ड स्पष्ट है: बिना किसी कानूनी आधार के व्यक्तिगत डेटा की बड़े पैमाने पर, अंधाधुंध स्क्रैपिंग वह जगह है जहाँ कंपनियों को सात- और आठ-अंकीय जुर्माने झेलने पड़ते हैं। सार्वजनिक गैर-व्यक्तिगत डेटा की अनुपातिक, लक्षित स्क्रैपिंग — सुरक्षा उपायों के साथ — बिल्कुल अलग जोखिम श्रेणी में आती है।

व्यावहारिक ढाँचा:

  • हर स्क्रैपिंग प्रोजेक्ट से पहले निर्णय चेकलिस्ट का उपयोग करें।
  • DPA द्वारा सुझाए गए सुरक्षा उपाय लागू करें (पारदर्शिता, न्यूनतमकरण, प्रतिधारण सीमाएँ, opt-out तंत्र)।
  • ऐसे टूल चुनें जो डिज़ाइन से ही अनुपालन का समर्थन करें। Thunderbit की AI-संचालित फ़ील्ड चयन, संरचित निष्कर्षण, और आपको केवल वही डेटा स्क्रैप करना आसान बनाते हैं जिसकी आपको ज़रूरत है — उससे ज़्यादा नहीं, उससे कम नहीं।
  • सब कुछ दस्तावेज़ित करें। संतुलन परीक्षण, स्रोत सूची, प्रतिधारण शेड्यूल, DPIA। अगर कोई रेगुलेटर पूछे, तो आपकी फ़ाइल ही आपकी रक्षा है।

अनिवार्य अस्वीकरण: यह लेख जानकारी के लिए है, कानूनी सलाह नहीं। बड़े पैमाने पर व्यक्तिगत डेटा वाले उच्च-जोखिम परिदृश्यों के लिए, किसी योग्य गोपनीयता वकील से सलाह लें। नियम विकसित हो रहे हैं, और गलती की कीमत वास्तविक है।

क्या आप स्वयं अनुपालन-युक्त, लक्षित वेब स्क्रैपिंग आज़माना चाहते हैं? आपको छोटे पैमाने पर संरचित निष्कर्षण के साथ प्रयोग करने देता है — अपने फ़ील्ड्स तय करें, केवल वही स्क्रैप करें जिसकी आपको ज़रूरत है, और कुछ ही क्लिक में एक्सपोर्ट करें। आप चरण-दर-चरण walkthroughs के लिए हमारा भी देख सकते हैं।

अनुपालन-युक्त डेटा निष्कर्षण के लिए AI Web Scraper आज़माएँ

अक्सर पूछे जाने वाले प्रश्न

1. अगर डेटा सार्वजनिक रूप से उपलब्ध है, तो क्या यूरोप में वेब स्क्रैपिंग कानूनी है?

यदि सार्वजनिक डेटा में व्यक्तिगत जानकारी शामिल है, तो उसकी सार्वजनिक उपलब्धता उसे GDPR से मुक्त नहीं करती। जैसा कि डच DPA ने कहा, "सार्वजनिक होने का अर्थ अपने-आप स्क्रैपिंग की अनुमति नहीं है।" गैर-व्यक्तिगत सार्वजनिक डेटा (प्रोडक्ट कीमतें, SKU) आम तौर पर कम जोखिम वाला होता है, लेकिन फिर भी आपको Database Directive और साइट की Terms of Service जाँचनी चाहिए।

2. क्या मैं यूरोपीय वेबसाइटों से ईमेल और फ़ोन नंबर स्क्रैप कर सकता हूँ?

ईमेल और फ़ोन नंबर GDPR के तहत व्यक्तिगत डेटा हैं। आपको एक वैध आधार चाहिए — आम तौर पर दस्तावेज़ित संतुलन परीक्षण के साथ वैध हित — और आपको Article 14 के तहत व्यक्तियों को सूचित करना होगा। CNIL ने 2024 में KASPR पर LinkedIn कॉन्टैक्ट डेटा को पर्याप्त पारदर्शिता या कानूनी आधार के बिना स्क्रैप करने पर €240,000 का जुर्माना लगाया था, इसलिए यह ऐसा क्षेत्र है जहाँ प्रवर्तन सक्रिय है।

3. यूरोप में अवैध वेब स्क्रैपिंग के लिए सबसे बड़ा जुर्माना क्या था?

डच DPA ने 2024 में सार्वजनिक वेब से अवैध चेहरे की पहचान डेटा संग्रह के लिए Clearview AI पर का जुर्माना लगाया। कई अन्य ईयू DPAs ने Clearview पर €20 मिलियन-प्रति-प्राधिकरण का जुर्माना लगाया। 2022–2026 के बीच कुल ईयू/ईईए स्क्रैपिंग-संबंधी जुर्माने €95 मिलियन से अधिक हैं।

4. क्या robots.txt का पालन करने से यूरोप में वेब स्क्रैपिंग कानूनी हो जाती है?

robots.txt का पालन करना एक सर्वोत्तम प्रथा है और के अनुरूप है, लेकिन यह अपने-आप में वैधता की गारंटी नहीं देता। आपको फिर भी GDPR (यदि व्यक्तिगत डेटा शामिल है), Database Directive, और साइट की Terms of Service का पालन करना होगा। robots.txt अनुपालन को बहु-स्तरीय अनुपालन ढाँचे की एक परत मानें।

5. यूरोप और अमेरिका में वेब स्क्रैपिंग कानून कैसे अलग है?

ईयू काफ़ी अधिक सख्त है। GDPR किसी भी व्यक्तिगत डेटा पर लागू होता है — यहाँ तक कि सार्वजनिक रूप से उपलब्ध डेटा पर भी — और Database Directive संगठित डेटासेट के लिए मज़बूत सुरक्षा देती है। अमेरिका में इन दोनों के बराबर कोई संघीय कानून नहीं है; hiQ v. LinkedIn के बाद सार्वजनिक डेटा की स्क्रैपिंग आम तौर पर अमेरिका में अनुमेय है। ब्रेक्सिट के बाद यूके बीच में आता है, जहाँ UK GDPR और retained database rights काफी हद तक ईयू नियमों जैसे हैं, लेकिन ICO प्रवर्तन के साथ। सीमा-पार व्यवसायों के लिए, ईयू के नियम सबसे ऊँचा मानक तय करते हैं — और यदि आप ईयू निवासियों से संबंधित डेटा स्क्रैप कर रहे हैं, तो वे नियम आपकी कंपनी कहाँ भी आधारित हो, लागू होते हैं।

और जानें

Fawad Khan
Fawad Khan
फ़वाद जीविका के लिए लिखते हैं, और सच कहें तो उन्हें यह काफ़ी पसंद है। उन्होंने सालों तक यह समझने में लगाया है कि कौन-सी कॉपी लोगों के दिमाग़ में टिक जाती है — और कौन-सी उन्हें बस स्क्रॉल करते रहने पर मजबूर कर देती है। मार्केटिंग के बारे में पूछिए, तो वह घंटों बात करेंगे। कार्बोनारा के बारे में पूछिए, तो उससे भी ज़्यादा देर तक।
विषय सूची

Thunderbit आज़माएँ

लीड्स और अन्य डेटा सिर्फ 2 क्लिक में निकालें। AI से संचालित।

Thunderbit पाएं यह मुफ्त है
AI का उपयोग करके डेटा निकालें
डेटा को आसानी से Google Sheets, Airtable, या Notion में ट्रांसफर करें
Chrome Store Rating
PRODUCT HUNT#1 Product of the Week