1 मई, 2024 को डच डेटा संरक्षण प्राधिकरण ने एक ऐसी हेडलाइन जारी की जिसने यूरोप की हर डेटा टीम को चौंका दिया: अगर आप सेल्स, ई-कॉमर्स या रियल एस्टेट में काम करते हैं — यानी मूल रूप से कोई भी जो वेब डेटा पर निर्भर है — तो यह वाक्य शायद आपकी रीढ़ में सिहरन पैदा कर गया होगा।
मैं समझता हूँ। में हम रोज़ उन बिज़नेस टीमों से बात करते हैं जिन्हें मूल्य-निगरानी, लीड जनरेशन और बाज़ार अनुसंधान के लिए वेब डेटा चाहिए। परेशानी हमेशा एक जैसी होती है: वे गूगल पर "यूरोप में वेब स्क्रैपिंग कानूनी है या नहीं" खोजते हैं, और हर जवाब किसी न किसी रूप में "यह निर्भर करता है" ही होता है। जब आपके पास प्रोजेक्ट की डेडलाइन हो और स्क्रैप करने के लिए URLs की सूची हो, तब यह मददगार नहीं होता।
इसलिए मैंने हफ्तों तक असली नियमों, DPA मार्गदर्शन, प्रवर्तन रिकॉर्ड और केस लॉ में गहराई से खोजबीन की, ताकि कुछ ज्यादा उपयोगी बनाया जा सके: एक व्यावहारिक निर्णय चेकलिस्ट, एक समेकित सुरक्षा तालिका, वास्तविक जुर्माना राशियाँ, और यूरोपीय वेबसाइटों को इस तरह स्क्रैप करने की चरण-दर-चरण गाइड कि आप रेगुलेटर के गलत पक्ष में न पहुँचें। चाहे आप Amazon के प्रोडक्ट प्राइस स्क्रैप कर रहे हों या किसी डायरेक्टरी से B2B कॉन्टैक्ट्स निकाल रहे हों, यह लेख आपको सीमा कहाँ है — और सही तरफ कैसे रहें — यह समझने में मदद करेगा।
वेब स्क्रैपिंग क्या है (और यूरोपीय व्यवसायों को इसकी परवाह क्यों करनी चाहिए)?
वेब स्क्रैपिंग वेबसाइटों से डेटा का स्वचालित निष्कर्षण है — जिसे स्प्रेडशीट, डेटाबेस या CRM जैसे संरचित फ़ॉर्मेट में बदला जाता है। 200 पेजों से प्रोडक्ट नाम और कीमतें कॉपी-पेस्ट करने के बजाय, एक स्क्रैपर हर पेज पर जाता है और आपको चाहिए हुए फ़ील्ड्स को साफ़-सुथरे कॉलम्स में खींच लेता है।
गैर-तकनीकी टीमों के लिए यह क्यों महत्वपूर्ण है? क्योंकि वेब डेटा असली बिज़नेस फ़ैसलों को संचालित करता है। सेल्स टीमें लीड्स के लिए डायरेक्टरियाँ स्क्रैप करती हैं। ई-कॉमर्स मैनेजर रोज़ाना प्रतिस्पर्धियों की कीमतों की निगरानी करते हैं। रियल एस्टेट विश्लेषक पोर्टलों के बीच लिस्टिंग ट्रेंड्स ट्रैक करते हैं। मार्केट रिसर्चर सार्वजनिक रिव्यू और रेटिंग्स बड़े पैमाने पर इकट्ठा करते हैं। तेज़ी से बढ़ रहा है, और कंपनियाँ हर दिन लाखों डेटा पॉइंट्स स्क्रैप करती हैं।
लेकिन यूरोप का नियामकीय माहौल अमेरिका से अलग है। GDPR, Database Directive और विकसित होता DPA मार्गदर्शन यह मतलब रखते हैं कि "सार्वजनिक रूप से उपलब्ध" का अर्थ "मुक्त रूप से उपयोग करने योग्य" नहीं है। जैसा कि डच DPA के अध्यक्ष Aleid Wolfsen ने कहा: "सार्वजनिक होने का अर्थ अपने-आप स्क्रैपिंग की अनुमति नहीं है।" शुरू करने से पहले नियमों को समझना वैकल्पिक नहीं है — यह साफ़-सुथरे डेटासेट और छह अंकों वाले जुर्माने के बीच का अंतर है।
क्या यूरोप में वेब स्क्रैपिंग कानूनी है? संक्षिप्त उत्तर
यूरोप में वेब स्क्रैपिंग अपने-आप में अवैध नहीं है। लेकिन इसकी वैधता तीन बातों पर निर्भर करती है: क्या डेटा स्क्रैप किया जा रहा है, कैसे स्क्रैप किया जा रहा है, और क्यों।
ईयू में स्क्रैपिंग को तीन ओवरलैपिंग कानूनी परतें नियंत्रित करती हैं:
- GDPR — जब भी आप व्यक्तिगत डेटा (नाम, ईमेल, फ़ोन नंबर, IP पते, यहाँ तक कि छद्मनामित पहचानकर्ता) स्क्रैप करते हैं, यह लागू होता है।
- ईयू Database Directive — उन डेटाबेस की रक्षा करता है जिनकी रचना में डेटा संगठित करने के लिए "महत्वपूर्ण निवेश" किया गया हो।
- अनुबंध/सेवा की शर्तों (Terms of Service) का कानून — कई वेबसाइटें अपनी ToS में स्क्रैपिंग को स्पष्ट रूप से प्रतिबंधित करती हैं, और ईयू अदालतों ने उन शर्तों को लागू भी किया है।
मुख्य बात: "सार्वजनिक" का अर्थ "नियमन-मुक्त" नहीं है। गैर-व्यक्तिगत डेटा भी database rights या contract law के अंतर्गत संरक्षित हो सकता है। हर स्क्रैपिंग प्रोजेक्ट में इन तीनों परतों को साथ मिलाकर देखना पड़ता है।
वेब स्क्रैपिंग को नियंत्रित करने वाले प्रमुख ईयू कानून
GDPR: जब आप व्यक्तिगत डेटा स्क्रैप करते हैं
पहचान योग्य व्यक्ति से जुड़ा कोई भी डेटा GDPR दायित्वों को सक्रिय करता है। इसमें नाम, ईमेल पता, फ़ोन नंबर, IP पते, फ़ोटो, और यहाँ तक कि ऐसा छद्मनामित डेटा भी शामिल है जिसे फिर से पहचाना जा सके। जैसे ही आप व्यक्तिगत डेटा स्क्रैप करते हैं, आप GDPR के तहत कर्तव्यों वाले एक "data controller" बन जाते हैं:
- कानूनी आधार (Article 6): डेटा प्रोसेस करने के लिए आपके पास कानूनी कारण होना चाहिए। बड़े पैमाने पर स्क्रैपिंग के लिए सहमति लगभग कभी व्यावहारिक नहीं होती — आप लाखों लोगों से उनकी सार्वजनिक रूप से पोस्ट की गई जानकारी इकट्ठा करने से पहले अनुमति नहीं मांग सकते। सबसे अधिक उद्धृत आधार वैध हित (Article 6(1)(f)) है, लेकिन इसके लिए दस्तावेज़ित तीन-भागीय परीक्षण चाहिए: (1) आपका हित वैध है, (2) प्रोसेसिंग उस हित के लिए आवश्यक है, और (3) डेटा विषयों के अधिकारों पर अनुपातहीन प्रभाव नहीं पड़ता, उनकी यथोचित अपेक्षाओं को ध्यान में रखते हुए।
- पारदर्शिता (Article 14): चूँकि आप डेटा सीधे व्यक्ति से नहीं ले रहे हैं, आपको उन्हें — आमतौर पर एक महीने के भीतर — बताना होता है कि आपने क्या इकट्ठा किया, क्यों, और वे अपने अधिकारों का उपयोग कैसे कर सकते हैं। अगर व्यक्तिगत सूचना देना अनुपातहीन हो, तो आपको Article 14 की सभी सामग्री के साथ एक सामान्य सूचना प्रकाशित करनी होगी।
- डेटा न्यूनतमकरण: केवल उतना ही इकट्ठा करें जितना वास्तव में चाहिए। अगर आपको प्रोडक्ट की कीमतें चाहिए, तो विक्रेता के ईमेल पते भी न लें।
- भंडारण सीमाएँ और अधिकार प्रबंधन: प्रतिधारण अवधि तय करें, मिटाने के अनुरोधों का पालन करें, और स्रोत जानकारी तक पहुँच प्रदान करें।
(मई 2024 में अपनाया गया) ने एक और परत जोड़ी: इसमें कहा गया कि अलग-अलग प्रोसेसिंग चरण — संग्रह, पूर्व-प्रसंस्करण, प्रशिक्षण, प्रॉम्प्ट्स और आउटपुट — के लिए अलग कानूनी आधार विश्लेषण चाहिए। EDPB ने वेब स्क्रैपिंग के लिए वैध हित को खारिज नहीं किया, लेकिन उसने उपयुक्त सुरक्षा उपायों के साथ पूर्ण तीन-भागीय मूल्यांकन पर ज़ोर दिया।
ईयू Database Directive: डेटा कैसे संगठित है, उसकी सुरक्षा
Database Directive उन डेटाबेस निर्माताओं को एक sui generis अधिकार देता है जिन्होंने अपने डेटा को प्राप्त करने, सत्यापित करने या प्रस्तुत करने में "महत्वपूर्ण निवेश" किया हो। यदि आपकी स्क्रैपिंग ऐसे डेटाबेस का "महत्वपूर्ण भाग" निकालती है, तो आप उस अधिकार का उल्लंघन कर सकते हैं।
व्यवहार में, यह सीमा अपेक्षाकृत ऊँची है। किसी बड़े रिटेलर से कुछ सौ प्रोडक्ट प्राइस स्क्रैप करना आम तौर पर इस दायरे में नहीं आता। लेकिन किसी प्रतिस्पर्धी की पूरी सूची — हज़ारों लिस्टिंग — एक साथ डाउनलोड करना सीमा पार कर सकता है, खासकर अगर इससे निर्माता के निवेश की भरपाई करने की क्षमता पर असर पड़ता हो। यूरोपीय संघ के न्यायालय ने कई मामलों में इस सीमा पर निर्णय दिए हैं, और मुख्य प्रश्न हमेशा अनुपातिकता होता है।
अधिकांश व्यावसायिक स्क्रैपिंग — जैसे प्रोडक्ट पेजों से खास फ़ील्ड्स निकालना, किसी श्रेणी में लिस्टिंग्स की तुलना करना — के लिए Database Directive का जोखिम कम होता है। लेकिन यह शून्य नहीं है, और स्क्रैपिंग का दायरा तय करते समय इसे ध्यान में रखना चाहिए।
Terms of Service: अनुबंध कानून का अनिश्चित तत्व
यह वह जगह है जहाँ लोग अक्सर फँसते हैं। कई वेबसाइटें अपनी Terms of Service में स्क्रैपिंग पर प्रतिबंध लगाती हैं। यूरोप में ToS का उल्लंघन एक सिविल मामला है (फौजदारी नहीं), लेकिन फिर भी यह निषेधाज्ञा, अनुबंध संबंधी मुकदमों और वास्तविक वित्तीय जोखिम तक ले जा सकता है।
दो तरह की शर्तें समझें: browsewrap (निष्क्रिय शर्तें, अक्सर पेज के नीचे छिपे लिंक के रूप में) लागू कराना कठिन होता है क्योंकि उपयोगकर्ता ने सक्रिय रूप से सहमति नहीं दी। clickwrap (जहाँ आप चेकबॉक्स पर टिक करते हैं या "I agree" क्लिक करते हैं) कहीं अधिक लागू करने योग्य होता है।
एक ऐतिहासिक ईयू मामला Ryanair v. PR Aviation है: अदालत ने स्क्रैपर के खिलाफ Ryanair की ToS लागू की, भले ही database rights लागू नहीं होती थीं, क्योंकि स्क्रैपर ने शर्तें स्वीकार कर ली थीं। इसलिए: स्क्रैपिंग से पहले हमेशा साइट की ToS जाँचें। अगर यह एक clickwrap समझौता है जो स्पष्ट रूप से स्क्रैपिंग प्रतिबंधित करता है, तो सावधानी से आगे बढ़ें — या इसके बजाय API एक्सेस देखें।
DSM Directive और AI Act: शोध तथा टेक्स्ट/डेटा माइनिंग के लिए अपवाद
हर स्क्रैपिंग एक जैसी पाबंदियाँ नहीं लाती। Digital Single Market (DSM) Directive (2019) ने दो text and data mining (TDM) अपवाद पेश किए:
- Article 3: शोध संस्थान और सांस्कृतिक विरासत संगठन वैध रूप से एक्सेस की गई सामग्री पर TDM कर सकते हैं।
- Article 4: कोई भी — व्यावसायिक संस्थाएँ भी — TDM कर सकता है, जब तक अधिकार धारक ने स्पष्ट रूप से opt out न किया हो (उदाहरण: robots.txt, ai.txt, या TDMRep headers के माध्यम से)।
ईयू AI Act (Article 53) AI मॉडल प्रदाताओं के लिए दायित्व जोड़ता है: उन्हें TDM opt-out तंत्र का पालन करना होगा और अपने प्रशिक्षण डेटा स्रोतों का दस्तावेज़ीकरण करना होगा।
एक महत्वपूर्ण बात: ये अपवाद कॉपीराइट और database rights को कवर करते हैं, GDPR को नहीं। अगर आपका TDM व्यक्तिगत डेटा शामिल करता है, तो आपको फिर भी एक अलग GDPR कानूनी आधार चाहिए।

"क्या मैं इसे स्क्रैप कर सकता हूँ?" — यूरोपीय डेटा के लिए निर्णय चेकलिस्ट
यह वह अनुभाग है जो काश मुझे तब मिलता जब मैंने पहली बार इस विषय पर शोध शुरू किया था। हर कानूनी लेख कहता है "यह निर्भर करता है" — लेकिन निर्णय-वृक्ष वास्तव में दिखता कैसा है? यहाँ स्पष्ट चरणों के साथ एक व्यावहारिक अनुपालन चेकलिस्ट है। हर चरण आपको ✅ आगे बढ़ें, ⚠️ सुरक्षा उपाय जोड़ें, या 🛑 रुकें की ओर ले जाता है।
चरण 1: क्या डेटा व्यक्तिगत है या गैर-व्यक्तिगत?
गैर-व्यक्तिगत डेटा (प्रोडक्ट कीमतें, SKU नंबर, ऐसे व्यवसाय पते जो व्यक्तियों से जुड़े नहीं हैं): नियामकीय बोझ कम। आपको फिर भी Database Directive और ToS की जाँच करनी होगी, लेकिन GDPR लागू नहीं होता। ✅ चरण 3 पर जाएँ।
व्यक्तिगत डेटा (नाम, ईमेल, फ़ोन नंबर, फ़ोटो, किसी व्यक्ति से जुड़ा कोई भी पहचानकर्ता): GDPR लागू होता है। ⚠️ चरण 2 पर जारी रखें।
चरण 2: कौन सा GDPR कानूनी आधार लागू होता है?
- सहमति: बड़े पैमाने की स्क्रैपिंग के लिए लगभग कभी संभव नहीं। 🛑 जब तक आपके पास बहुत संकीर्ण, विशिष्ट परिदृश्य न हो।
- वैध हित (Article 6(1)(f)): सबसे सामान्य आधार। लेकिन इसके लिए दस्तावेज़ित तीन-भागीय परीक्षण चाहिए:
- आपका हित वैध है (व्यावसायिक हित योग्य हो सकता है, जैसा कि में कहा गया)।
- उस हित के लिए प्रोसेसिंग आवश्यक है।
- संतुलन परीक्षण: आपकी रुचि, डेटा विषयों की यथोचित अपेक्षाओं को ध्यान में रखते हुए, उनके अधिकारों को पीछे नहीं छोड़ती।
- स्क्रैपिंग से पहले अपना संतुलन परीक्षण दस्तावेज़ित करें। अगर आप स्पष्ट रूप से नहीं बता सकते कि जिन लोगों का डेटा आप स्क्रैप कर रहे हैं, वे इस उपयोग की यथोचित अपेक्षा क्यों करेंगे, तो यह एक चेतावनी संकेत है। ⚠️ दस्तावेज़ित वैध हित के साथ आगे बढ़ें।
चरण 3: क्या साइट की ToS स्क्रैपिंग को प्रतिबंधित करती है?
- clickwrap समझौता जो स्क्रैपिंग निषिद्ध करता है: 🛑 उच्च जोखिम। वैकल्पिक डेटा स्रोत या आधिकारिक API एक्सेस पर विचार करें।
- browsewrap या ToS प्रतिबंध नहीं: ⚠️ कम जोखिम, लेकिन robots.txt और तकनीकी विरोध संकेतों का सम्मान करें।
चरण 4: क्या Database Directive लागू होती है?
- क्या लक्ष्य ऐसा डेटाबेस है जिसमें डेटा संगठन में महत्वपूर्ण निवेश किया गया है?
- क्या आपकी स्क्रैपिंग उस डेटाबेस का "महत्वपूर्ण भाग" निकालेगी?
- यदि दोनों का उत्तर हाँ है: ⚠️ sui generis उल्लंघन का जोखिम। अपने निष्कर्षण का दायरा सीमित करें।
चरण 5: क्या आप शोध या TDM अपवाद के अंतर्गत आते हैं?
- पंजीकृत शोध संस्थान या सांस्कृतिक विरासत संगठन? DSM Directive Article 3 लागू हो सकता है। ✅
- व्यावसायिक TDM? Article 4 के opt-out संकेतों (robots.txt, ai.txt, TDMRep) की जाँच करें। अगर साइट ने opt out किया है, तो उस स्रोत के लिए 🛑 रुकें।
चरण 6: क्या आपने DPA द्वारा सुझाए गए सुरक्षा उपाय लागू किए हैं?
यदि आपने ऊपर की सभी जाँचों को पार कर लिया है, तो अंतिम चरण CNIL, डच DPA और EDPB द्वारा सुझाए गए सुरक्षा उपाय लागू करना है। इनका विस्तार अगले अनुभाग में है। ✅ सुरक्षा उपायों के साथ आगे बढ़ें।

DPA अनुपालन सुरक्षा उपाय: CNIL, डच DPA और EDPB क्या सुझाते हैं
मुझे जो भी प्रतिस्पर्धी लेख मिले, उनमें से किसी एक में भी यूरोप के तीन सबसे सक्रिय रेगुलेटरों के स्क्रैपिंग संबंधी सुरक्षा उपायों का समेकित सार नहीं था। इसलिए मैंने , , और को क्रॉस-रेफरेंस करके यह तालिका तैयार की।
| सुरक्षा उपाय | CNIL | डच DPA (AP) | EDPB Task Force | कार्यान्वयन सुझाव |
|---|---|---|---|---|
| Art. 14 पारदर्शिता सूचना | ✅ आवश्यक | ✅ आवश्यक | ✅ आवश्यक | स्रोत श्रेणियाँ, उद्देश्य, कानूनी आधार, प्रतिधारण, अधिकार चैनल और DPO संपर्क सूचीबद्ध करते हुए सार्वजनिक सूचना प्रकाशित करें |
| स्क्रैपिंग से पहले DPIA | ✅ अनुशंसित (उच्च जोखिम होने पर अनिवार्य) | ✅ आवश्यक | ✅ आवश्यक | लॉन्च से पहले संतुलन परीक्षण, डेटा श्रेणियाँ, जोखिम और शमन उपाय दस्तावेज़ित करें |
| डेटा न्यूनतमकरण | ✅ आवश्यक (सटीक संग्रह मानदंड तय करें) | ✅ आवश्यक | ✅ आवश्यक | स्क्रैपर को केवल ज़रूरी फ़ील्ड्स निकालने के लिए कॉन्फ़िगर करें; अप्रासंगिक डेटा तुरंत हटाएँ |
| रेट लिमिटिंग / robots.txt का सम्मान | ✅ आवश्यक (robots.txt/CAPTCHA से आपत्ति करने वाली साइटें बाहर करें) | — | — | robots.txt पार्स करें, अनुरोधों के बीच देरी जोड़ें, अपना user agent पहचानें |
| छद्मनामकरण / अनामीकरण | ⚠️ अनुशंसित (संग्रह के तुरंत बाद) | ✅ दृढ़ता से अनुशंसित | ✅ अनुशंसित | IDs को hash या randomize करें; प्रोफ़ाइल URLs हटाएँ; जहाँ पहचान आवश्यक न हो, चेहरे धुंधले करें |
| प्रतिधारण अवधि | ✅ परिभाषित सीमा | ✅ यथासंभव छोटी | ✅ परिभाषित सीमा | स्वचालित हटाने का शेड्यूल सेट करें; raw cache को निकाले गए तथ्यों से अलग रखें |
| opt-out / blacklist तंत्र | ✅ अनुशंसित (विवेकाधीन पूर्व आपत्ति) | ✅ आवश्यक (Art. 21 आपत्ति) | ✅ आवश्यक | opt-out फ़ॉर्म, डोमेन blacklist, व्यक्ति-स्तरीय suppression प्रदान करें |
| संवेदनशील स्रोतों को बाहर करें | ✅ आवश्यक (स्वास्थ्य मंच, नाबालिगों की साइटें, अश्लील साइटें, वंशावली) | ✅ आवश्यक | ✅ आवश्यक | स्वास्थ्य, धर्म, राजनीति, बायोमेट्रिक्स, नाबालिगों के लिए डिफ़ॉल्ट blocklist बनाए रखें |
हमारी तरफ से एक व्यावहारिक नोट: Thunderbit की सुविधा उपयोगकर्ताओं को ठीक-ठीक यह तय करने देती है कि कौन से कॉलम निकालने हैं — जैसे कीमत, SKU, प्रोडक्ट नाम — ताकि स्क्रैपर केवल ज़रूरी चीज़ें ही इकट्ठा करे। आप पूरे पेजों को बल्क में डाउनलोड नहीं कर रहे; आप ऐसे संरचित फ़ील्ड्स चुन रहे हैं जो purpose limitation और data minimization सिद्धांतों के अनुरूप हों। फिर भी, कोई भी टूल गैर-अनुपालन स्क्रैपिंग को कानूनी नहीं बना देता। कानूनी विश्लेषण हमेशा पहले आता है।

क्या आपके उपयोग-केस के लिए यूरोप में वेब स्क्रैपिंग कानूनी है? उद्योग-विशिष्ट मार्गदर्शन
मुझे फ़ोरमों में सबसे अधिक जो सवाल मिलता है, वह यह नहीं है कि "क्या स्क्रैपिंग कानूनी है?" बल्कि यह कि "क्या मेरी स्क्रैपिंग कानूनी है?" अमूर्त GDPR सिद्धांत इसका उत्तर नहीं देते। इसलिए यहाँ सामान्य व्यावसायिक उपयोग-केस के अनुसार विवरण दिया गया है।
| उपयोग-केस | डेटा प्रकार | मुख्य कानूनी जोखिम | संभावित परिणाम |
|---|---|---|---|
| ई-कॉमर्स मूल्य निगरानी (सार्वजनिक प्रोडक्ट लिस्टिंग) | गैर-व्यक्तिगत (कीमतें, SKU, प्रोडक्ट नाम) | Database Directive sui generis; ToS उल्लंघन | सामान्यतः कम जोखिम, यदि कोई व्यक्तिगत डेटा न हो और डेटाबेस के "महत्वपूर्ण भाग" का व्यवस्थित निष्कर्षण न हो |
| B2B लीड जनरेशन (डायरेक्टरियों से संपर्क जानकारी) | व्यक्तिगत (नाम, ईमेल, फ़ोन नंबर) | GDPR Art. 6 कानूनी आधार; Art. 14 सूचना; इलेक्ट्रॉनिक संपर्क के लिए ePrivacy | अधिक जोखिम — दस्तावेज़ित वैध हित संतुलन परीक्षण और सूचना दायित्व दोनों चाहिए |
| रियल एस्टेट लिस्टिंग (पोर्टलों से प्रॉपर्टी डेटा) | मिश्रित (पते गैर-व्यक्तिगत हो सकते हैं; मालिक के नाम व्यक्तिगत हैं) | Database Directive; ToS; मालिक-लिंक्ड होने पर GDPR | मध्यम जोखिम — मालिक डेटा को अनामीकृत करें, ToS जाँचें, robots.txt का सम्मान करें |
| AI प्रशिक्षण डेटा (बड़े पैमाने पर वेब सामग्री स्क्रैपिंग) | फ़िल्टर न होने पर संभावित रूप से व्यक्तिगत | GDPR + ईयू AI Act Art. 53 TDM दायित्व | उच्च जोखिम — GDPR और AI Act दोनों का पालन करना होगा; opt-out तंत्र और मज़बूत फ़िल्टरिंग आवश्यक |
सार्वजनिक ई-कॉमर्स डेटा जैसे कम जोखिम वाले परिदृश्यों के लिए, संरचित टेम्पलेट वाले टूल — जैसे Thunderbit के — जोखिम कम करते हैं, क्योंकि वे अतिरिक्त सामग्री इकट्ठा किए बिना विशिष्ट, गैर-व्यक्तिगत डेटा फ़ील्ड्स निकालते हैं। व्यक्तिगत डेटा वाले उच्च-जोखिम परिदृश्यों (जैसे लीड जनरेशन) में, कानूनी विश्लेषण पहले होना चाहिए। कोई भी स्क्रैपर, चाहे कितना भी स्मार्ट क्यों न हो, गैर-अनुपालन संग्रह को अनुपालन-संग्रह में नहीं बदल देता।

ईयू बनाम अमेरिका बनाम यूके: वेब स्क्रैपिंग कानून कैसे तुलना करते हैं
अगर आपका व्यवसाय सीमाओं के पार काम करता है, तो आपको नियमों के अंतर समझने होंगे। मुझे कोई एक प्रतियोगी लेख ऐसा नहीं मिला जो इसे एक स्कैन करने योग्य साइड-बाय-साइड तालिका में प्रस्तुत करता हो, इसलिए यहाँ है।
| पहलू | ईयू | अमेरिका | यूके (ब्रेक्सिट के बाद) |
|---|---|---|---|
| मुख्य कानून | GDPR + Database Directive + ePrivacy | CFAA + राज्य कानून (सीमित संघीय डेटा गोपनीयता) | UK GDPR + Data Protection Act 2018 |
| सार्वजनिक डेटा स्क्रैपिंग | यदि व्यक्तिगत डेटा है तो फिर भी GDPR कानूनी आधार चाहिए | hiQ v. LinkedIn के बाद आम तौर पर वैध (सार्वजनिक डेटा) | ईयू के समान; ICO मार्गदर्शन लागू |
| ToS प्रवर्तन | सिविल मामला; Ryanair v. PR Aviation ने sui generis लागू किया | Van Buren ने CFAA को सीमित किया; ToS उल्लंघन = फौजदारी नहीं | सिविल मामला, ईयू के समान |
| डेटाबेस संरक्षण | sui generis अधिकार (मज़बूत) | कोई समकक्ष संघीय अधिकार नहीं | retained sui generis अधिकार |
| AI/TDM अपवाद | DSM Directive Art. 3–4; AI Act Art. 53 | कोई संघीय TDM अपवाद नहीं (fair use सिद्धांत) | यूके TDM अपवाद पर विचार कर रहा है (2026 तक रुका हुआ) |
| मुख्य प्रवर्तन निकाय | राष्ट्रीय DPAs (CNIL, डच AP, आदि) | FTC + राज्य AGs | ICO |
| हालिया रुझान | अधिक सख्त (डच AP: व्यक्तिगत डेटा के लिए "लगभग हमेशा अवैध") | hiQ के बाद अधिक उदार | मध्यम; सामान्यतः ईयू दिशा का अनुसरण |
अगर आप यूरोपीय वेबसाइटें या यूरोपीय निवासियों से संबंधित डेटा स्क्रैप कर रहे हैं, तो ईयू के नियम लागू होते हैं — भले ही आपकी कंपनी अमेरिका या यूके में स्थित हो।
असली जुर्माने और मामले: पकड़े जाने पर वास्तव में क्या होता है (2022–2026)
यह वह अनुभाग है जो प्रश्न के पीछे के प्रश्न का उत्तर देता है: "असली जोखिम क्या है?" मैंने 2022 से अप्रैल 2026 तक वेब स्क्रैपिंग या स्क्रैप किए गए व्यक्तिगत डेटा से जुड़े हर सार्वजनिक DPA प्रवर्तन कार्रवाई को संकलित किया है।
| वर्ष | प्रवर्तनकर्ता | लक्ष्य | उल्लंघन | जुर्माना/परिणाम |
|---|---|---|---|---|
| 2022 | Italian Garante | Clearview AI | कानूनी आधार के बिना चेहरे की छवियाँ स्क्रैप करना | €20M जुर्माना + प्रतिबंध + मिटाने का आदेश |
| 2022 | Hellenic DPA (Greece) | Clearview AI | वही — चेहरे की पहचान स्क्रैपिंग | €20M जुर्माना + प्रतिबंध + हटाने का आदेश |
| 2022 | CNIL (France) | Clearview AI | चेहरे की पहचान डेटाबेस | €20M जुर्माना + €100K/दिन संभावित दंड |
| 2023 | CNIL (France) | Clearview AI | 2022 के आदेश का पालन न करना | €5.2M दंड भुगतान |
| 2023 | Austrian DSB | Clearview AI | सार्वजनिक वेब से 30 अरब+ चेहरे की छवियाँ | मिटाने का आदेश + EU प्रतिनिधि आदेश (प्रकाशित जुर्माना नहीं) |
| 2024 | Dutch AP | Clearview AI | अवैध चेहरे की पहचान डेटा संग्रह | €30.5M जुर्माना + अनुपालन आदेश |
| 2024 | CNIL (France) | KASPR | लीड जनरेशन के लिए LinkedIn कॉन्टैक्ट-डेटा स्क्रैपिंग | €240,000 जुर्माना — 160M संपर्क, प्रतिबंधित-दृश्यता डेटा, 5-वर्षीय प्रतिधारण |
| 2024 | Irish DPC | X / Grok | AI प्रशिक्षण के लिए उपयोग किए गए सार्वजनिक पोस्ट | निलंबन समझौता; 2025 में वैधानिक जाँच शुरू |
| 2024 | Irish DPC | Meta | सार्वजनिक Facebook/Instagram सामग्री पर नियोजित LLM प्रशिक्षण | Meta ने EU AI प्रशिक्षण योजनाएँ रोक दीं |
| 2024 | Italian Garante | OpenAI | ChatGPT प्रशिक्षण डेटा + पारदर्शिता | €15M जुर्माना जारी, रोम की अदालत ने रद्द किया मार्च 2026 में |
स्क्रैपिंग/ओपन-वेब श्रेणी में कुल ईयू/ईईए मौद्रिक दंड: €95 मिलियन से अधिक (रद्द किए गए OpenAI जुर्माने को छोड़कर)।
इन सभी बड़े जुर्मानों का लक्ष्य बिना किसी कानूनी आधार के बायोमेट्रिक या व्यक्तिगत डेटा की बड़े पैमाने पर स्क्रैपिंग था। Clearview ने अरबों चेहरे की छवियाँ स्क्रैप कीं। KASPR ने 160 मिलियन संपर्क स्क्रैप किए, जिनमें प्रतिबंधित-दृश्यता वाले LinkedIn प्रोफाइल्स का डेटा भी शामिल था, और उसे पाँच साल तक रखा।
सार्वजनिक गैर-व्यक्तिगत डेटा — जैसे प्रोडक्ट कीमतें या SKU नंबर — की अनुपातिक, लक्षित स्क्रैपिंग प्रवर्तन कार्रवाइयों का विषय नहीं रही है। इसका मतलब यह नहीं कि यह जोखिम-मुक्त है, लेकिन इससे संख्याओं का परिप्रेक्ष्य समझने में मदद मिलती है।
यूरोपीय वेबसाइटों को सुरक्षित रूप से कैसे स्क्रैप करें: चरण-दर-चरण गाइड
- कठिनाई: शुरुआती
- आवश्यक समय: ~15 मिनट (अनुपालन समीक्षा सहित)
- आपको क्या चाहिए: Chrome ब्राउज़र, (free tier काम करता है), एक लक्ष्य URL, और ऊपर की चेकलिस्ट की एक त्वरित समीक्षा
चरण 1: अपना उद्देश्य और डेटा ज़रूरतें तय करें
कोई भी टूल खोलने से पहले, लिखें कि आपको डेटा क्यों चाहिए और ठीक-ठीक किन फ़ील्ड्स की ज़रूरत है। यह सिर्फ़ अच्छी प्रैक्टिस नहीं है — यह GDPR के purpose limitation और data minimization सिद्धांतों की नींव है।
उदाहरण: "मुझे हमारी प्रतिस्पर्धी मूल्य निर्धारण स्प्रेडशीट अपडेट करने के लिए 50 Amazon प्रोडक्ट पेजों से प्रोडक्ट नाम, कीमतें और स्टॉक स्थिति चाहिए।" यह विशिष्ट है। इसकी तुलना करें: "मुझे Amazon से सब कुछ स्क्रैप करना है।" पहला minimization परीक्षण पास करता है; दूसरा नहीं।
चरण 2: अनुपालन चेकलिस्ट चलाएँ
ऊपर दी गई छह-चरणीय "क्या मैं इसे स्क्रैप कर सकता हूँ?" चेकलिस्ट से गुजरें। अगर कोई भी गेट 🛑 दिखाता है, तो रुकें और आगे बढ़ने से पहले कानूनी सलाह लें।
हमारे Amazon प्राइसिंग उदाहरण को इन गेट्स से गुज़रते हुए देखें: डेटा गैर-व्यक्तिगत है (कीमतें, SKU, प्रोडक्ट नाम) ✅, कोई GDPR व्यक्तिगत डेटा मुद्दा नहीं ✅, Amazon की ToS की समीक्षा होनी चाहिए (वे स्क्रैपिंग पर प्रतिबंध लगाते हैं, इसलिए जहाँ उपलब्ध हो आधिकारिक प्रोडक्ट डेटा APIs पर विचार करें) ⚠️, और 50 प्रोडक्ट्स के लिए Database Directive जोखिम कम है ✅।
चरण 3: सही स्क्रैपिंग तरीका चुनें
| विधि | उपयोग में आसानी | अनुपालन सहायता | रखरखाव | सटीकता |
|---|---|---|---|---|
| मैन्युअल कॉपी-पेस्ट | कम | लागू नहीं (आप नियंत्रित करते हैं कि क्या कॉपी करें) | अधिक (समय लेने वाला) | त्रुटि-प्रवण |
| कोड-आधारित स्क्रैपर (Python, Scrapy) | कम (कोडिंग चाहिए) | अंतर्निहित नहीं | अधिक (साइट बदलने पर टूटता है) | रखरखाव होने पर उच्च |
| Thunderbit (AI-संचालित) | बहुत अधिक | फ़ील्ड-स्तरीय न्यूनतमकरण अंतर्निहित | कम (AI पेज परिवर्तनों के अनुसार ढलता है) | उच्च |
| आधिकारिक API | मध्यम | सबसे अधिक (संरचित, स्वीकृत पहुँच) | कम | सबसे अधिक |
डेवलपर टीम के बिना बिज़नेस यूज़र्स के लिए, सबसे तेज़ रास्ता है। जिन साइटों के आधिकारिक APIs हैं (जैसे Amazon का Product Advertising API), API हमेशा सबसे सुरक्षित विकल्प है — लेकिन इसमें अक्सर डेटा मात्रा और फ़ील्ड्स की सीमाएँ होती हैं।
चरण 4: अनुपालन के लिए अपना स्क्रैपर कॉन्फ़िगर करें
Thunderbit में:
- अपनी लक्ष्य पेज पर जाएँ (जैसे Amazon प्रोडक्ट लिस्टिंग पेज)।
- Chrome टूलबार में Thunderbit आइकन पर क्लिक करें और "AI Suggest Fields" चुनें। AI पेज स्कैन करके "Product Name," "Price," "Rating," और "Stock Status" जैसे कॉलम सुझाता है।
- जिन फ़ील्ड्स की ज़रूरत नहीं, उन्हें हटा दें। अगर AI "Seller Name" या "Seller Email" सुझाता है और आपको सिर्फ़ मूल्य डेटा चाहिए, तो वे कॉलम हटा दें। यही व्यावहारिक डेटा न्यूनतमकरण है।
- Field AI Prompt का उपयोग करके "personal identifiers को बाहर करें" या "केवल सार्वजनिक pricing data निकालें" जैसे निर्देश जोड़ें।
- सार्वजनिक ई-कॉमर्स साइटों के लिए Cloud Scraping चुनें (तेज़, लॉगिन की ज़रूरत नहीं) या प्रमाणीकरण माँगने वाली साइटों के लिए Browser Scraping चुनें।
- "Scrape" पर क्लिक करने से पहले, पुष्टि करें कि robots.txt आपके उपयोग-केस के लिए स्क्रैपिंग निषिद्ध नहीं करता। आप अपने ब्राउज़र में
[domain]/robots.txtखोलकर जाँच सकते हैं।
अब आपको केवल वही फ़ील्ड्स वाली तालिका प्रिव्यू दिखनी चाहिए जो आपने कॉन्फ़िगर की हैं — कोई अतिरिक्त व्यक्तिगत डेटा नहीं, कोई अनावश्यक मेटाडेटा नहीं।
चरण 5: डेटा को ज़िम्मेदारी से एक्सपोर्ट, स्टोर और मैनेज करें
स्क्रैपिंग के बाद, अपना डेटा में एक्सपोर्ट करें — Thunderbit यह सब मुफ्त एक्सपोर्ट के साथ सपोर्ट करता है।
फिर:
- एक प्रतिधारण अवधि तय करें। स्क्रैप किए गए डेटा को अनिश्चित काल तक न रखें। अगर आप साप्ताहिक मूल्य-निगरानी कर रहे हैं, तो पिछले महीने का raw data शायद ज़रूरी नहीं होगा।
- यदि व्यक्तिगत डेटा एकत्र किया गया था (जैसे लीड जनरेशन के लिए), तो अपना कानूनी आधार दस्तावेज़ित करें, एक Article 14 पारदर्शिता सूचना प्रकाशित करें, और opt-out तथा मिटाने के अनुरोधों को संभालने की प्रक्रिया बनाएं।
- जहाँ संभव हो, हटाने का शेड्यूल स्वचालित करें। Thunderbit का निर्धारित अंतराल पर आवर्ती स्क्रैपिंग को स्वचालित कर सकता है, जबकि वही फ़ील्ड-स्तरीय कॉन्फ़िगरेशन बनाए रखता है, ताकि हर रन आपके अनुपालन पैरामीटरों के भीतर रहे।
यूरोप में स्क्रैपिंग करते समय अनुपालन बनाए रखने के सुझाव
इस विषय पर शोध करते हुए और अनुपालन-सचेत टीमों से बात करते हुए मैंने कुछ व्यवहार सीखे हैं:
- नई साइट स्क्रैप करने से पहले हमेशा ToS की समीक्षा करें। इसमें दो मिनट लगते हैं और महीनों की कानूनी परेशानी बच सकती है।
- जहाँ API उपलब्ध हों, उनका उपयोग करें। वे संरचित, स्वीकृत और सबसे सुरक्षित रास्ता हैं। स्क्रैपिंग को डिफ़ॉल्ट नहीं, बल्कि बैकअप होना चाहिए।
- बड़े पैमाने पर व्यक्तिगत डेटा वाले किसी भी प्रोजेक्ट के लिए DPIA करें। CNIL कहता है कि AI प्रशिक्षण डेटासेट उच्च जोखिम पैदा कर सकते हैं, और DPIA आपकी जवाबदेही का प्रमाण है। छोटे प्रोजेक्ट्स में भी, अपना विश्लेषण दस्तावेज़ित करना समझदारी है।
- स्क्रैपिंग लॉग रखें। क्या स्क्रैप किया गया, कब, कहाँ से, आपका कानूनी आधार और प्रतिधारण अवधि दर्ज करें। अगर कभी कोई DPA पूछताछ करे, तो आपको खुशी होगी कि यह मौजूद है।
- नियामकीय अपडेट्स पर नज़र रखें। DPA मार्गदर्शन तेज़ी से बदल रहा है — CNIL ने जनवरी 2026 में नए AI scraping sheets प्रकाशित किए, और EDPB से आगे की राय आने की उम्मीद है। आज के नियम कल कड़े हो सकते हैं।
- प्रतिबंधित या संवेदनशील स्रोतों से स्क्रैप न करें। CNIL की में स्वास्थ्य मंच, मुख्यतः नाबालिगों द्वारा उपयोग की जाने वाली साइटें, अश्लील साइटें, वंशावली साइटें, और अत्यधिक संरचित व्यक्तिगत-डेटा साइटें शामिल हैं। अगर आप स्क्रैपिंग प्रोजेक्ट बना रहे हैं, तो एक डिफ़ॉल्ट blocklist बनाए रखें।
- स्वचालित ट्रैफ़िक संचालन के लिहाज़ से बड़ी बात है। कि 2024 में bots कुल web traffic का 42% थे, और कि automated bot traffic पहली बार मानव traffic से आगे निकल गया, 2024 में 51% तक पहुँच गया। रेगुलेटर अब bot व्यवहार, दर और evasion को जोखिम और अनुचितता के साक्ष्य के रूप में अधिक देखते हैं। एक ज़िम्मेदार स्क्रैपर की तरह व्यवहार करना — अपना user agent पहचानना, rate-limiting करना, विरोध संकेतों का सम्मान करना — सिर्फ़ शिष्टाचार नहीं; यह कानूनी रूप से भी प्रासंगिक है।
निष्कर्ष
यूरोप में वेब स्क्रैपिंग अवैध नहीं है। लेकिन यह विनियमित है — खासकर जब व्यक्तिगत डेटा शामिल हो।
कानूनी परिणाम इस पर निर्भर करता है कि आप क्या स्क्रैप करते हैं (व्यक्तिगत बनाम गैर-व्यक्तिगत), कैसे स्क्रैप करते हैं (ToS, robots.txt, rate limiting, फ़ील्ड-स्तरीय न्यूनतमकरण), और क्यों (दस्तावेज़ित उद्देश्य और कानूनी आधार)। प्रवर्तन रिकॉर्ड स्पष्ट है: बिना किसी कानूनी आधार के व्यक्तिगत डेटा की बड़े पैमाने पर, अंधाधुंध स्क्रैपिंग वह जगह है जहाँ कंपनियों को सात- और आठ-अंकीय जुर्माने झेलने पड़ते हैं। सार्वजनिक गैर-व्यक्तिगत डेटा की अनुपातिक, लक्षित स्क्रैपिंग — सुरक्षा उपायों के साथ — बिल्कुल अलग जोखिम श्रेणी में आती है।
व्यावहारिक ढाँचा:
- हर स्क्रैपिंग प्रोजेक्ट से पहले निर्णय चेकलिस्ट का उपयोग करें।
- DPA द्वारा सुझाए गए सुरक्षा उपाय लागू करें (पारदर्शिता, न्यूनतमकरण, प्रतिधारण सीमाएँ, opt-out तंत्र)।
- ऐसे टूल चुनें जो डिज़ाइन से ही अनुपालन का समर्थन करें। Thunderbit की AI-संचालित फ़ील्ड चयन, संरचित निष्कर्षण, और आपको केवल वही डेटा स्क्रैप करना आसान बनाते हैं जिसकी आपको ज़रूरत है — उससे ज़्यादा नहीं, उससे कम नहीं।
- सब कुछ दस्तावेज़ित करें। संतुलन परीक्षण, स्रोत सूची, प्रतिधारण शेड्यूल, DPIA। अगर कोई रेगुलेटर पूछे, तो आपकी फ़ाइल ही आपकी रक्षा है।
अनिवार्य अस्वीकरण: यह लेख जानकारी के लिए है, कानूनी सलाह नहीं। बड़े पैमाने पर व्यक्तिगत डेटा वाले उच्च-जोखिम परिदृश्यों के लिए, किसी योग्य गोपनीयता वकील से सलाह लें। नियम विकसित हो रहे हैं, और गलती की कीमत वास्तविक है।
क्या आप स्वयं अनुपालन-युक्त, लक्षित वेब स्क्रैपिंग आज़माना चाहते हैं? आपको छोटे पैमाने पर संरचित निष्कर्षण के साथ प्रयोग करने देता है — अपने फ़ील्ड्स तय करें, केवल वही स्क्रैप करें जिसकी आपको ज़रूरत है, और कुछ ही क्लिक में एक्सपोर्ट करें। आप चरण-दर-चरण walkthroughs के लिए हमारा भी देख सकते हैं।
अक्सर पूछे जाने वाले प्रश्न
1. अगर डेटा सार्वजनिक रूप से उपलब्ध है, तो क्या यूरोप में वेब स्क्रैपिंग कानूनी है?
यदि सार्वजनिक डेटा में व्यक्तिगत जानकारी शामिल है, तो उसकी सार्वजनिक उपलब्धता उसे GDPR से मुक्त नहीं करती। जैसा कि डच DPA ने कहा, "सार्वजनिक होने का अर्थ अपने-आप स्क्रैपिंग की अनुमति नहीं है।" गैर-व्यक्तिगत सार्वजनिक डेटा (प्रोडक्ट कीमतें, SKU) आम तौर पर कम जोखिम वाला होता है, लेकिन फिर भी आपको Database Directive और साइट की Terms of Service जाँचनी चाहिए।
2. क्या मैं यूरोपीय वेबसाइटों से ईमेल और फ़ोन नंबर स्क्रैप कर सकता हूँ?
ईमेल और फ़ोन नंबर GDPR के तहत व्यक्तिगत डेटा हैं। आपको एक वैध आधार चाहिए — आम तौर पर दस्तावेज़ित संतुलन परीक्षण के साथ वैध हित — और आपको Article 14 के तहत व्यक्तियों को सूचित करना होगा। CNIL ने 2024 में KASPR पर LinkedIn कॉन्टैक्ट डेटा को पर्याप्त पारदर्शिता या कानूनी आधार के बिना स्क्रैप करने पर €240,000 का जुर्माना लगाया था, इसलिए यह ऐसा क्षेत्र है जहाँ प्रवर्तन सक्रिय है।
3. यूरोप में अवैध वेब स्क्रैपिंग के लिए सबसे बड़ा जुर्माना क्या था?
डच DPA ने 2024 में सार्वजनिक वेब से अवैध चेहरे की पहचान डेटा संग्रह के लिए Clearview AI पर का जुर्माना लगाया। कई अन्य ईयू DPAs ने Clearview पर €20 मिलियन-प्रति-प्राधिकरण का जुर्माना लगाया। 2022–2026 के बीच कुल ईयू/ईईए स्क्रैपिंग-संबंधी जुर्माने €95 मिलियन से अधिक हैं।
4. क्या robots.txt का पालन करने से यूरोप में वेब स्क्रैपिंग कानूनी हो जाती है?
robots.txt का पालन करना एक सर्वोत्तम प्रथा है और के अनुरूप है, लेकिन यह अपने-आप में वैधता की गारंटी नहीं देता। आपको फिर भी GDPR (यदि व्यक्तिगत डेटा शामिल है), Database Directive, और साइट की Terms of Service का पालन करना होगा। robots.txt अनुपालन को बहु-स्तरीय अनुपालन ढाँचे की एक परत मानें।
5. यूरोप और अमेरिका में वेब स्क्रैपिंग कानून कैसे अलग है?
ईयू काफ़ी अधिक सख्त है। GDPR किसी भी व्यक्तिगत डेटा पर लागू होता है — यहाँ तक कि सार्वजनिक रूप से उपलब्ध डेटा पर भी — और Database Directive संगठित डेटासेट के लिए मज़बूत सुरक्षा देती है। अमेरिका में इन दोनों के बराबर कोई संघीय कानून नहीं है; hiQ v. LinkedIn के बाद सार्वजनिक डेटा की स्क्रैपिंग आम तौर पर अमेरिका में अनुमेय है। ब्रेक्सिट के बाद यूके बीच में आता है, जहाँ UK GDPR और retained database rights काफी हद तक ईयू नियमों जैसे हैं, लेकिन ICO प्रवर्तन के साथ। सीमा-पार व्यवसायों के लिए, ईयू के नियम सबसे ऊँचा मानक तय करते हैं — और यदि आप ईयू निवासियों से संबंधित डेटा स्क्रैप कर रहे हैं, तो वे नियम आपकी कंपनी कहाँ भी आधारित हो, लागू होते हैं।
और जानें
