कुछ महीने पहले, हमारी सेल्स टीम के एक सहकर्मी ने मुझसे एक ऐसा सवाल पूछा जो मैंने दर्जनों बार सुना है: "अगर मैं किसी सार्वजनिक वेबसाइट से प्रतिस्पर्धी कीमतें स्क्रैप करूँ, तो क्या मुझे वाकई परेशानी हो सकती है?" उसे सप्लायर कॉन्टैक्ट्स की एक डायरेक्टरी मिली थी, कीमतें साफ़-सुथरी पंक्तियों में थीं, और उसे बस एक स्प्रेडशीट चाहिए थी। झिझक वाकई थी—और सच कहूँ तो, जायज़ भी थी।
यूके में कोई एकल "वेब स्क्रैपिंग कानून" नहीं है। इसके बजाय, चार आपस में जुड़े कानूनी ढाँचे तय करते हैं कि कोई खास स्क्रैपिंग गतिविधि वैध है या नहीं। इसलिए जवाब हमेशा "यह निर्भर करता है" होता है—लेकिन इसका मतलब यह नहीं कि आप पूरी तरह असहाय हैं। इस गाइड में, मैं बताऊँगा कि कानून असल में क्या कहता है, वह वास्तविक परिदृश्यों पर कैसे लागू होता है, दंड कैसे दिखते हैं, और अनुपालन कैसे बनाए रखें।
मैंने में अपनी टीम के लिए इस विषय पर काफी समय शोध में लगाया है, और जो कुछ मैंने पाया है उसे आपके साथ साझा करना चाहता हूँ—ताकि आपको पाँच अलग-अलग लॉ फर्म ब्लॉग और एक Reddit थ्रेड से टुकड़ों में जानकारी न जोड़नी पड़े।
वेब स्क्रैपिंग क्या है (और यूके के व्यवसाय इसका उपयोग क्यों करते हैं)
वेब स्क्रैपिंग वह प्रक्रिया है जिसमें सॉफ़्टवेयर का उपयोग करके वेबसाइटों से डेटा अपने-आप इकट्ठा किया जाता है—यानी वेब पेजों से जानकारी कॉपी-पेस्ट करके स्प्रेडशीट में डालने की थकाऊ प्रक्रिया की जगह।
यह तकनीक अपने आप में तटस्थ है। न तो स्वाभाविक रूप से वैध, न ही स्वाभाविक रूप से अवैध। मायने यह रखता है कि आप क्या स्क्रैप कर रहे हैं, कैसे कर रहे हैं, और बाद में उस डेटा का क्या करते हैं।
यूके के व्यवसाय स्क्रैपिंग का उपयोग कई वैध उद्देश्यों के लिए करते हैं:
- मूल्य तुलना: उदाहरण के लिए, PriceSpy UK का उपयोग करके दिन में तीन से पाँच बार उत्पाद कीमतें अपडेट करता है।
- लीड जनरेशन: सेल्स टीमें सार्वजनिक डायरेक्टरियों से कंपनी के नाम, ईमेल और फोन नंबर निकालती हैं।
- मार्केट रिसर्च: विश्लेषक संपत्ति लिस्टिंग, जॉब बोर्ड या प्रतिस्पर्धी उत्पाद रेंज पर नज़र रखते हैं।
- शैक्षणिक शोध: Office for National Statistics ने 2014 और 2015 के बीच सुपरमार्केट वेबसाइटों से इकट्ठा किए।
- एआई मॉडल प्रशिक्षण: एक तेज़ी से बढ़ता हुआ—और कानूनी रूप से अभी भी अस्पष्ट—उपयोग-क्षेत्र।
रुझान साफ़ है। में 500 निर्णयकर्ताओं (जिनमें यूके के 200 लोग शामिल थे) से पाया गया कि लोगों ने सार्वजनिक वेब डेटा को वैश्विक अर्थव्यवस्था के लिए महत्वपूर्ण या बहुत महत्वपूर्ण माना, और ने इसे कम-से-कम रोज़ाना स्रोत किया।
फिर भी ने यह भी कहा कि स्पष्ट नियमन की कमी से उनकी संस्था चिंतित रहती है। यही चिंता इस लेख के अस्तित्व का कारण है।
क्या यूके में वेब स्क्रैपिंग कानूनी है? सीधा जवाब
यूके में कोई भी कानून वेब स्क्रैपिंग पर पूरी तरह से रोक नहीं लगाता। लेकिन कई कानून यह नियंत्रित करते हैं कि इसे कैसे किया जा सकता है, और किसी भी खास प्रोजेक्ट की वैधता चार कारकों पर निर्भर करती है:

- आप कौन-सा डेटा स्क्रैप कर रहे हैं (व्यक्तिगत डेटा बनाम तथ्यात्मक/गैर-व्यक्तिगत डेटा)
- आप उसे कैसे एक्सेस कर रहे हैं (सार्वजनिक पेज बनाम लॉगिन वॉल या CAPTCHA को बायपास करना)
- वेबसाइट की शर्तें क्या कहती हैं (क्या वे ऑटोमेटेड एक्सेस को रोकती हैं?)
- बाद में आप उस डेटा का उपयोग कैसे करते हैं (आंतरिक विश्लेषण बनाम वाणिज्यिक पुनर्विक्रय)
मुझे सबसे अच्छा रूपक यह मिला है: वेब स्क्रैपिंग सार्वजनिक स्थान में फ़ोटोग्राफ़ी जैसी है। सार्वजनिक जगह पर फ़ोटो लेना अपने आप में अवैध नहीं है—लेकिन कुछ विषय, स्थान, तरीके और उपयोग कानूनी जोखिम पैदा करते हैं। स्क्रैपिंग भी कुछ ऐसी ही है। सार्वजनिक उपलब्धता प्रासंगिक है, लेकिन पूरी कहानी नहीं।
ICO की हाल की GenAI consultation सार्वजनिक रूप से स्क्रैप किए गए व्यक्तिगत डेटा पर यूके की सबसे स्पष्ट आधिकारिक टिप्पणियों में से एक है। इसमें कहा गया कि जनरेटिव एआई मॉडल प्रशिक्षण के लिए वेब-स्क्रैप्ड व्यक्तिगत डेटा का उपयोग करते समय वैध हित ही है—लेकिन केवल तभी जब डेवलपर तीन-भाग की कड़ी परीक्षा पास करे। यह ऊँचा मानक है, और यह दिखाता है कि यूके के नियामक स्क्रैप किए गए डेटा को कितनी गंभीरता से लेते हैं।
वेब स्क्रैपिंग पर लागू होने वाले चार यूके कानून
चार आपस में जुड़े दृष्टिकोण—कोई भी स्क्रैपिंग प्रोजेक्ट इनमें से एक, दो, या चारों को सक्रिय कर सकता है।
यूके GDPR और Data Protection Act 2018
अगर आप व्यक्तिगत डेटा—नाम, ईमेल, फोन नंबर, IP address, सोशल मीडिया प्रोफ़ाइल—स्क्रैप करते हैं, तो यूके GDPR लागू होता है। "सार्वजनिक रूप से उपलब्ध" का मतलब "मुफ़्त में उपयोग योग्य" नहीं है।
सार्वजनिक रूप से दिखाई देने वाला व्यक्तिगत डेटा फिर भी व्यक्तिगत डेटा ही रहता है।
वाणिज्यिक स्क्रैपिंग के लिए सबसे प्रासंगिक वैध आधार वैध हित (Article 6) है—लेकिन आप इस शब्द को बस हवा में नहीं उछाल सकते। आपको यह करना होगा:
- एक विशिष्ट, वैध उद्देश्य की पहचान करें
- दिखाएँ कि उस उद्देश्य के लिए प्रोसेसिंग आवश्यक है
- अपने हित को उन व्यक्तियों के अधिकारों के साथ संतुलित करें जिनका डेटा आप इकट्ठा कर रहे हैं
ICO की GenAI consultation प्रतिक्रिया विशेष रूप से स्पष्ट है: डेवलपर्स को यह नहीं मानना चाहिए कि व्यापक सामाजिक लाभ अपने-आप पर्याप्त है, उन्हें यह प्रमाणित करना चाहिए कि स्क्रैपिंग के विकल्प उपयुक्त क्यों नहीं हैं, और उन्हें ऐसे पारदर्शिता तंत्रों का उपयोग करना चाहिए जो व्यक्तियों को अपने अधिकार समझने और लागू करने में मदद करें। स्रोत: ।
B2B लीड जनरेशन के लिए भी यही तर्क लागू होता है। सेल्स टीम सार्वजनिक रूप से सूचीबद्ध व्यावसायिक संपर्क जानकारी इकट्ठा करने के लिए वैध हित पर भरोसा कर सकती है, लेकिन उसे फिर भी वैध हित को दस्तावेज़ित करना होगा, एकत्रित क्षेत्रों को न्यूनतम रखना होगा, विशेष-श्रेणी डेटा से बचना होगा, जहाँ संभव हो वहाँ गोपनीयता जानकारी देनी होगी, और opt-out का सम्मान करना होगा।
कॉपीराइट, डेटाबेस अधिकार, और TDM अपवाद
कॉपीराइट मूल वेबसाइट सामग्री की रक्षा करता है: टेक्स्ट, इमेज, उत्पाद विवरण, लेख। कीमतें जैसे तथ्यात्मक डेटा बिंदु आमतौर पर अपने-आप में कॉपीराइट के लिहाज़ से कम संवेदनशील होते हैं—लेकिन यदि आप संरक्षित अभिव्यक्ति को कॉपी करके फिर से प्रकाशित करते हैं, तो आप उल्लंघन के दायरे में आ जाते हैं।
डेटाबेस अधिकार वेब स्क्रैपिंग में बहुत अधिक महत्वपूर्ण हैं जितना अधिकांश लोग समझते हैं। Brexit के बाद यूके ने EU-शैली के sui generis database rights बनाए रखे, और किसी संरक्षित डेटाबेस के "substantial part" को निकालना—जैसे क्यूरेटेड डायरेक्टरियाँ, उत्पाद कैटलॉग, मार्केटप्लेस लिस्टिंग—व्यक्तिगत डेटा बिंदु तथ्यात्मक होने पर भी उल्लंघन हो सकता है।
के तहत Text and Data Mining (TDM) exception केवल तभी प्रतियाँ बनाने की अनुमति देता है जब उपयोगकर्ता के पास वैध एक्सेस हो और उद्देश्य गैर-वाणिज्यिक शोध हो। यह बहुत सीमित है। वाणिज्यिक स्क्रैपिंग, वाणिज्यिक एआई प्रशिक्षण, और वाणिज्यिक डेटासेट पुनर्विक्रय इसमें शामिल नहीं हैं।
यूके सरकार ने एआई प्रशिक्षण के लिए इस अपवाद को व्यापक बनाने पर विचार किया, लेकिन अपने तक उसने तब तक सुधार लागू न करने का निर्णय लिया जब तक वह यह निश्चिंत न हो जाए कि ये सुधार रचनाकारों, एआई डेवलपर्स और यूके अर्थव्यवस्था के लक्ष्यों को पूरा करते हैं। मौजूदा स्थिति में, एआई प्रशिक्षण के लिए संरक्षित कार्यों की प्रतिलिपि बनाने के लिए आम तौर पर अनुमति चाहिए, जब तक कि कोई मौजूदा अपवाद लागू न हो।
वेबसाइट Terms of Service और Contract Law
अधिकांश वेबसाइटों के Terms of Service (ToS) में ऑटोमेटेड स्क्रैपिंग पर रोक या सीमा होती है। साइट तक पहुँचने पर आप संभवतः उन शर्तों को स्वीकार कर रहे होते हैं—खासकर यदि आप एक acceptance screen (clickwrap) पर क्लिक करते हैं। Browsewrap agreements (फुटर लिंक के पीछे शर्तें) तथ्यों पर अधिक निर्भर होते हैं, लेकिन यूके अदालतों ने स्क्रैपिंग पर ToS प्रतिबंधों को लागू करने की इच्छा दिखाई है। विवाद में अदालत ने दृश्यमान वेबसाइट शर्तों को screen-scraping संदर्भ में बाध्यकारी माना।
robots.txt कोई कानून नहीं है। यह साइट मालिक से आने वाला एक मशीन-पठनीय संकेत है। एक सामान्य फ़ाइल इस तरह दिखती है:
1User-agent: *
2Disallow: /account/
3Disallow: /checkout/
4Disallow: /private/
5Crawl-delay: 10
robots.txt की अनदेखी करना अपने-आप में स्क्रैपिंग को अवैध नहीं बनाता, लेकिन अदालतें और ICO इसे वेबसाइट मालिक की मंशा के प्रमाण के रूप में देखते हैं। इसकी अनदेखी करने से आपका कानूनी जोखिम बढ़ता है, खासकर यदि इसके साथ ToS का उल्लंघन या अत्यधिक अनुरोध मात्रा भी हो।
Computer Misuse Act 1990
यह वह कानून है जो लोगों को रात में जगाए रखता है—और वजह भी है। इसमें आपराधिक अपराध बनाए गए हैं। Section 1 बिना अनुमति कंप्यूटर सामग्री तक पहुँच को कवर करता है (अधिकतम )। Section 3 कंप्यूटर संचालन को प्रभावित करने वाले बिना अनुमति कार्यों को कवर करता है (अधिकतम )।
CMA का जोखिम तब सबसे कम होता है जब डेटा वास्तव में सार्वजनिक हो और स्क्रैपर तकनीकी बाधाओं को बायपास न करे। जोखिम तब बढ़ता है जब आप:
- लॉगिन वॉल, CAPTCHA या IP block को बायपास करें
- चोरी किए गए credentials का उपयोग करें या नकली खाते बनाएँ
- इतना ट्रैफ़िक भेजें कि target service बाधित हो जाए
यूके ने अमेरिका-जैसा कोई साफ़ "public data is fair game" नियम नहीं बनाया है। इसलिए यूके की सलाह अधिक सतर्क होती है: सार्वजनिक पहुँच CMA के जोखिम को काफ़ी कम करती है, लेकिन वेबसाइट की शर्तें, तकनीकी नियंत्रण, और प्रतिबंधों के बारे में स्क्रैपर की जानकारी फिर भी मायने रख सकती है।
"क्या मैं इसे कानूनी रूप से स्क्रैप कर सकता हूँ?" — एक त्वरित निर्णय प्रवाह
कुछ भी स्क्रैप करने से पहले इन पाँच निर्णय बिंदुओं से गुजरें। यह कानूनी सलाह नहीं—बस 60 सेकंड का जोखिम आकलन है।
| निर्णय बिंदु | यदि हाँ | यदि नहीं |
|---|---|---|
| क्या डेटा व्यक्तिगत डेटा है (नाम, ईमेल, आदि)? | यूके GDPR लागू होता है। वैध आधार पहचानें, LIA चलाएँ, फ़ील्ड कम रखें, पारदर्शिता की योजना बनाएँ। | GDPR परत लागू न भी हो, तो भी अन्य जाँचें जारी रखें। |
| क्या साइट ToS स्पष्ट रूप से स्क्रैपिंग निषिद्ध करती है? | अनुबंध-उल्लंघन का जोखिम। API, लाइसेंस या कानूनी समीक्षा पर विचार करें। | अनुबंध जोखिम कम है, लेकिन robots.txt जाँचें। |
| क्या आप किसी डेटाबेस का substantial part निकाल रहे हैं? | sui generis database right के उल्लंघन की संभावना। लाइसेंसिंग या सीमित निष्कर्षण पर विचार करें। | व्यक्तिगत कॉपी की गई सामग्री पर फिर भी कॉपीराइट लागू हो सकता है। |
| क्या आप लॉगिन, CAPTCHA या access controls को बायपास कर रहे हैं? | CMA 1990 के तहत संभावित आपराधिक अपराध। रुकें और कानूनी समीक्षा लें। | यदि पहुँच वास्तव में सार्वजनिक है, तो CMA जोखिम कम है। |
| क्या उद्देश्य गैर-वाणिज्यिक शोध है? | यदि आपके पास वैध पहुँच है, तो Section 29A TDM exception लागू हो सकता है। | वाणिज्यिक TDM के लिए यूके में कोई व्यापक सुरक्षित बंदरगाह नहीं। पूर्ण IP और अनुबंध विश्लेषण चाहिए। |
काश किसी ने मुझे यह तब दिया होता जब मैंने पहली बार अपनी टीम के लिए स्क्रैपिंग अनुपालन पर शोध शुरू किया था। यह कानूनी जटिलता को एक संरचित self-assessment में बदल देता है जिसे आप एक मिनट से कम समय में चला सकते हैं।
वास्तविक परिदृश्य: क्या आपकी खास स्क्रैपिंग गतिविधि यूके में कानूनी है?
सैद्धांतिक कानून एक बात है। लोग असल में यह जानना चाहते हैं: "क्या मेरा खास प्रोजेक्ट मुझे मुश्किल में डालेगा?"
ठीक है। यहाँ पाँच आम यूके स्क्रैपिंग उपयोग-परिदृश्य दिए गए हैं, हर एक के लिए एक छोटी कानूनी जोखिम-समझ के साथ।
तुलना के लिए उत्पाद कीमतें स्क्रैप करना
सबसे आम—और अक्सर सबसे कम जोखिम वाला—व्यावसायिक उपयोग-परिदृश्य। कीमतें तथ्यात्मक डेटा हैं, और ऑटोमेटेड मूल्य-संग्रह ठीक उसी तरह काम करता है जैसे PriceSpy जैसे साइट्स करते हैं।
हालाँकि, जोखिम पूरी तरह समाप्त नहीं होता। यदि target site अपने ToS में स्क्रैपिंग निषिद्ध करती है, यदि आप उत्पाद विवरण या इमेज कॉपी करते हैं, या यदि आप किसी curated product database का substantial part निकालते हैं, तो अनुबंध, कॉपीराइट, और database-right समस्याएँ उत्पन्न हो सकती हैं।
जोखिम स्तर: निम्न से मध्यम
मुख्य अनुपालन कदम: केवल तथ्यात्मक price fields इकट्ठा करें, product descriptions को ज्यों-का-त्यों कॉपी करने से बचें, ToS और robots.txt का सम्मान करें, rate limiting का उपयोग करें, और प्रतिस्पर्धी कैटलॉग की raw mirror पुनर्प्रकाशित न करें।
डेटा को इकट्ठा करके वाणिज्यिक रूप से पुनर्विक्रय करना
सबसे अधिक जोखिम वाला वाणिज्यिक परिदृश्य, बिल्कुल सीधा। आप किसी और के डेटा निवेश को बिक्री-योग्य उत्पाद में बदल रहे हैं—और इससे चारों कानूनी स्तंभ एक साथ प्रभावित हो सकते हैं।
जोखिम स्तर: उच्च
मुख्य अनुपालन कदम: कानूनी समीक्षा अनिवार्य है। डेटा मालिकों के साथ लाइसेंसिंग समझौतों पर विचार करें। यदि उत्पाद में व्यक्तिगत डेटा शामिल है, तो data protection impact assessment जोड़ें।
लीड जनरेशन के लिए व्यावसायिक संपर्क जानकारी निकालना
जिस हर सेल्स टीम से मैंने बात की है, वह इसका कोई न कोई रूप करती है: डायरेक्टरियों से ईमेल, फोन नंबर और कंपनी के नाम स्क्रैप करना। समस्या यह है? व्यावसायिक संपर्क डेटा में अक्सर व्यक्तिगत डेटा भी शामिल होता है। किसी नामित कर्मचारी का ईमेल व्यक्तिगत डेटा है, भले ही वह सार्वजनिक रूप से सूचीबद्ध हो।
जोखिम स्तर: मध्यम
मुख्य अनुपालन कदम: Legitimate Interests Assessment करें, जहाँ संभव हो केवल व्यावसायिक (न कि व्यक्तिगत-जीवन) संपर्क डेटा एकत्र करें, अपना वैध आधार दस्तावेज़ित करें, और opt-out का रास्ता दें। जैसे टूल यहाँ पहुँच-जोखिम को कम कर सकते हैं क्योंकि उपयोगकर्ता के ब्राउज़र में काम करता है—यह केवल वही एक्सेस करता है जो उपयोगकर्ता पहले से देख सकता है, बिना access controls को बायपास किए।
शैक्षणिक या पोर्टफ़ोलियो डेटा विश्लेषण
यदि आप वास्तव में गैर-वाणिज्यिक शोध कर रहे हैं, तो आपके पास सबसे मज़बूत कॉपीराइट अपवाद मार्ग है: Section 29A CDPA, बशर्ते आपके पास वैध पहुँच हो।
जोखिम स्तर: निम्न (यदि वास्तव में गैर-वाणिज्यिक)
मुख्य अनुपालन कदम: गैर-वाणिज्यिक उद्देश्य दस्तावेज़ित करें, स्रोतों का उल्लेख करें, जहाँ संभव हो anonymise या aggregate करें, और कॉपीराइटेड सामग्री या व्यक्तिगत डेटा को दोबारा वितरित न करें।
एआई मॉडल प्रशिक्षण के लिए सामग्री स्क्रैप करना
यही वह सवाल है जो 2026 में हर कोई पूछता है—और जवाब अभी भी पूरी तरह संतोषजनक नहीं है। ICO वेब-स्क्रैप्ड व्यक्तिगत डेटा को प्रशिक्षण के लिए high-risk invisible processing मानता है। यूके सरकार की 2026 रिपोर्ट ने कोई व्यापक वाणिज्यिक TDM अपवाद लागू नहीं किया।
जोखिम स्तर: मध्यम से उच्च
मुख्य अनुपालन कदम: लाइसेंसिंग, डेटासेट की provenance, कॉपीराइट विश्लेषण, व्यक्तिगत-डेटा फ़िल्टरिंग, वैध-आधार दस्तावेज़ीकरण, और यूके नीति परिवर्तनों की निरंतर निगरानी।
परिदृश्य सारांश तालिका
| परिदृश्य | प्रमुख लागू कानून | जोखिम स्तर | मुख्य अनुपालन कदम |
|---|---|---|---|
| उत्पाद मूल्य निगरानी | ToS, डेटाबेस अधिकार, कॉपीराइट | निम्न–मध्यम | तथ्यात्मक फ़ील्ड इकट्ठा करें, साइट संकेतों का सम्मान करें |
| वाणिज्यिक डेटा पुनर्विक्रय | चारों स्तंभ | उच्च | कानूनी समीक्षा और लाइसेंसिंग अनिवार्य |
| B2B लीड जनरेशन | यूके GDPR, ToS | मध्यम | LIA करें, व्यक्तिगत डेटा कम से कम रखें |
| शैक्षणिक शोध | कॉपीराइट (TDM अपवाद), यदि व्यक्तिगत हो तो GDPR | निम्न | उद्देश्य गैर-वाणिज्यिक रखें, पुनर्प्रकाशन न करें |
| एआई मॉडल प्रशिक्षण | यूके GDPR, कॉपीराइट, डेटाबेस अधिकार | मध्यम–उच्च | डेटा लाइसेंस करें, वैध आधार दस्तावेज़ित करें, नीति पर नज़र रखें |
यूके बनाम अमेरिका बनाम EU: वेब स्क्रैपिंग कानून कैसे अलग हैं
यदि आप केवल यूके में काम करते हैं, तो आप यह खंड छोड़ सकते हैं। लेकिन जिन अधिकांश व्यवसायों से मैं बात करता हूँ, वे अंतरराष्ट्रीय स्तर पर स्क्रैपिंग करते हैं—या कम-से-कम दूसरे न्यायक्षेत्रों में होस्ट की गई वेबसाइटों को स्क्रैप करते हैं। अंतर आपकी उम्मीद से अधिक मायने रखते हैं।
| कानूनी आयाम | 🇬🇧 यूके | 🇺🇸 अमेरिका | 🇪🇺 EU |
|---|---|---|---|
| प्रमुख डेटा संरक्षण कानून | यूके GDPR + DPA 2018 | संघीय समकक्ष नहीं (राज्य कानून अलग-अलग हैं) | EU GDPR |
| प्रमुख स्क्रैपिंग precedent | Clearview AI (ICO £7.5M fine) | hiQ v LinkedIn (सार्वजनिक डेटा स्क्रैपिंग स्वीकार्य, Ninth Circuit—लेकिन hiQ पर अंततः स्थायी रोक लगी और अंतिम consent judgment में $500K दिया गया) | Ryanair v PR Aviation (CJEU, C-30/14, database rights) |
| कंप्यूटर एक्सेस कानून | Computer Misuse Act 1990 | CFAA (Van Buren, 2021 के बाद संकुचित) | सदस्य राज्य के अनुसार अलग |
| कॉपीराइट / TDM अपवाद | सीमित: केवल गैर-वाणिज्यिक शोध (Section 29A) | Fair use doctrine (अधिक व्यापक, केस-दर-केस) | DSM Directive Art. 3 & 4 (अधिक व्यापक TDM अधिकार, rights reservation के साथ) |
| डेटाबेस अधिकार | हाँ (EU Database Directive से बरकरार) | कोई समकक्ष संघीय अधिकार नहीं | Database Directive के तहत sui generis right |
| ToS enforceability | Contract law लागू; browsewrap पर बहस | मिश्रित: browsewrap अक्सर लागू नहीं होता | अलग-अलग; Ryanair ने ToS की स्थिति मज़बूत की |
व्यावहारिक निष्कर्ष: यदि आप कई न्यायक्षेत्रों में स्क्रैपिंग करते हैं, तो सबसे सख्त लागू कानून का पालन करें। hiQ के तहत सार्वजनिक डेटा एक्सेस पर अमेरिका अधिक उदार है, लेकिन hiQ कोई खुला लाइसेंस नहीं है (hiQ को अंततः LinkedIn स्क्रैपिंग से रोका गया और उसने $500K चुकाए)। EU में DSM Directive के माध्यम से TDM संरचना अधिक व्यापक है। यूके बीच में कहीं है—कोई व्यापक वाणिज्यिक TDM अपवाद नहीं, मज़बूत डेटाबेस अधिकार, और सक्रिय नियामक।
दंड और प्रवर्तन: पकड़े जाने पर वास्तव में क्या होता है

"जुर्माने" और "कानूनी परेशानी" जैसी धुँधली चेतावनियाँ किसी की मदद नहीं करतीं। यहाँ असली आँकड़े हैं।
यूके GDPR जुर्माने
अधिकतम दंड: , जो भी अधिक हो।
वास्तविक उदाहरण: Clearview AI पर ICO ने 2022 में यूके सोशल मीडिया से चेहरे की छवियाँ स्क्रैप करने के लिए का जुर्माना लगाया। First-tier Tribunal ने jurisdiction के आधार पर इसे पलट दिया, लेकिन ने ICO की अपील स्वीकार की और मामला वापस भेज दिया। ICO ने नोट किया कि Clearview के पास थी।
Computer Misuse Act के आपराधिक दंड
- Section 1 (बिना अनुमति पहुँच): अधिकतम
- Section 3 (बिना अनुमति हानि/बाधा): अधिकतम
साधारण सार्वजनिक-पेज स्क्रैपिंग के लिए आपराधिक अभियोजन बेहद दुर्लभ है।
जोखिम प्रोफ़ाइल तब तेज़ी से बदल जाती है जब व्यवहार हैकिंग, credentials के दुरुपयोग, CAPTCHA बायपास, या service impairment जैसा लगे।
कॉपीराइट और डेटाबेस अधिकार
सिविल क्षतिपूर्ति के साथ injunction relief। जानबूझकर वाणिज्यिक उल्लंघन के लिए आपराधिक दंड संभव हैं, लेकिन अधिकांश स्क्रैपिंग विवाद सिविल दावों के रूप में आगे बढ़ते हैं।
अनुबंध (ToS) उल्लंघन
सिविल क्षतिपूर्ति, खाता समाप्ति, IP blocking। यह आम तौर पर सबसे सामान्य व्यावहारिक प्रवर्तन कार्रवाई है—और अक्सर सबसे पहले यही होता है।
दंड-गंभीरता सारांश
| कानूनी ढाँचा | अधिकतम दंड | सामान्य व्यवसायिक स्क्रैपिंग में संभावना | वास्तविक उदाहरण |
|---|---|---|---|
| यूके GDPR | £17.5m या वैश्विक कारोबार का 4% | बड़े पैमाने पर व्यक्तिगत डेटा होने पर मध्यम; गैर-व्यक्तिगत पर निम्न | Clearview AI पर £7.5M जुर्माना |
| CMA Section 1 | 2 साल की कैद | सार्वजनिक पेजों पर निम्न; controls बायपास करने पर अधिक | बिना अनुमति पहुँच पर CPS guidance |
| CMA Section 3 | 10 साल की कैद | सिस्टम बाधित होने पर ही निम्न से अधिक | DDoS-जैसी बाधा के उदाहरण |
| कॉपीराइट/डेटाबेस अधिकार | क्षतिपूर्ति और injunction | संरक्षित सामग्री या curated डेटाबेस कॉपी करने पर मध्यम | Ryanair और BHB line of cases |
| ToS उल्लंघन | क्षतिपूर्ति, खाता समाप्ति, blocking | व्यावहारिक प्रवर्तन मार्ग के रूप में उच्च | Ryanair screen-scraping विवाद |
सही स्क्रैपिंग टूल आपका कानूनी जोखिम कैसे घटाता है
आप जो टूल चुनते हैं, वह किसी अवैध स्क्रैप को वैध नहीं बना देता। लेकिन वह टाले जा सकने वाले जोखिम को कम कर सकता है।
मेरे अनुभव में, जो टूल साइट संकेतों का सम्मान करता है और जो हर चीज़ को आक्रामक रूप से बायपास करता है, उनके बीच का अंतर अक्सर नियमित डेटा प्रोजेक्ट और कानूनी सिरदर्द के बीच का अंतर होता है।
robots.txt और वेबसाइट संकेतों का सम्मान करता है
एक ज़िम्मेदार टूल को स्क्रैपिंग से पहले robots.txt जाँचने और उसका सम्मान करना आसान बनाना चाहिए। भले ही यह कानूनी रूप से बाध्यकारी न हो, अदालतें और ICO robots.txt अनुपालन को सद्भावना के प्रमाण के रूप में देखते हैं। Thunderbit की उपयोगकर्ताओं को सार्वजनिक रूप से उपलब्ध डेटा स्क्रैप करने और robots.txt तथा terms का सम्मान करने की सलाह देती है।
Browser Scraping बनाम Cloud Scraping विकल्प
यह अंतर कानूनी रूप से महत्वपूर्ण है। Browser scraping केवल वही एक्सेस करता है जो उपयोगकर्ता अपने authenticated session में देख सकता है—मूलतः वही जो आप मैन्युअल रूप से करते, उसका ऑटोमेशन। Cloud scraping सर्वर से अनुरोध भेजता है, जो सार्वजनिक साइटों के लिए तेज़ होता है लेकिन साइट के दृष्टिकोण से अधिक "automated access" जैसा लग सकता है।
दोनों मोड प्रदान करता है। Browser scraping लॉगिन आवश्यक साइटों के लिए उपयुक्त है (CMA के तहत "unauthorised access" के जोखिम को घटाते हुए), जबकि cloud scraping सार्वजनिक ecommerce पेजों के लिए अच्छा काम करता है जहाँ गति महत्वपूर्ण है। यह दोहरा दृष्टिकोण उपयोगकर्ताओं को अपने स्क्रैपिंग तरीके को प्रत्येक साइट के कानूनी जोखिम प्रोफ़ाइल से मिलाने देता है।
access controls को बायपास नहीं करता
ऐसा टूल जो ब्राउज़र के भीतर काम करता है और CAPTCHA नहीं तोड़ता या लॉगिन वॉल को दरकिनार नहीं करता, Computer Misuse Act के तहत स्वाभाविक रूप से कम जोखिम वाला है। Thunderbit का Chrome extension उपयोगकर्ता के ब्राउज़र सत्र के भीतर काम करता है—यह केवल वही एक्सेस करता है जो उपयोगकर्ता पहले से देख सकता है।
पारदर्शी डेटा एक्सपोर्ट (GDPR अनुपालन में सहायक)
Thunderbit सीधे Excel, Google Sheets, Airtable, या Notion में निर्यात करता है। उपयोगकर्ता नियंत्रित करता है कि डेटा कहाँ जाता है। यह GDPR पारदर्शिता और वैध-आधार दस्तावेज़ीकरण का समर्थन करता है: आपको बिल्कुल पता होता है कि आपने कौन-सा डेटा इकट्ठा किया और वह कहाँ गया। टूल की ओर से कोई छिपी हुई प्रोसेसिंग या डेटा रिटेंशन नहीं।
Rate Limiting और ज़िम्मेदार पहुँच
आक्रामक अनुरोध मात्रा CMA Section 3 (unauthorised impairment) को ट्रिगर कर सकती है। rate limiting सिर्फ़ तकनीकी best practice नहीं है—यह एक कानूनी सुरक्षा भी है। ज़िम्मेदार टूल सर्वरों को अभिभूत होने से बचाते हैं, जिससे कानूनी जोखिम और IP block होने की संभावना दोनों घटती हैं।

यूके वेब स्क्रैपिंग के लिए व्यावहारिक अनुपालन चेकलिस्ट
कुछ भी स्क्रैप करने से पहले यह करें:
- लक्ष्य वेबसाइट की Terms of Service और Acceptable Use Policy पढ़ें।
- robots.txt फ़ाइल जाँचें और दस्तावेज़ित करें कि संबंधित paths निषिद्ध हैं या नहीं।
- निर्धारित करें कि वांछित डेटा व्यक्तिगत डेटा है या नहीं। यदि हाँ, तो यूके GDPR के तहत अपना वैध आधार पहचानें।
- आकलन करें कि क्या आप किसी डेटाबेस का "substantial part" निकाल रहे हैं।
- सुनिश्चित करें कि आप किसी भी तकनीकी access controls (CAPTCHAs, logins, rate limits) को बायपास नहीं कर रहे हैं।
- यदि आपका उद्देश्य गैर-वाणिज्यिक शोध है, तो TDM exception का लाभ लेने के लिए इसे दस्तावेज़ित करें।
- Rate limiting का उपयोग करें। लक्ष्य सर्वर पर दबाव न डालें।
- सब कुछ दस्तावेज़ित करें: आपका वैध आधार, ToS समीक्षा, एकत्रित डेटा फ़ील्ड, निर्यात गंतव्य, retention period।
- यदि संदेह हो, तो डेटा संरक्षण और IP में विशेषज्ञ solicitor से कानूनी सलाह लें।
यह चेकलिस्ट solicitor की राय की जगह नहीं लेती—लेकिन यह एक मज़बूत शुरुआती ढाँचा देती है और यदि कभी सवाल उठे, तो आपकी सद्भावना दिखाती है।
मुख्य निष्कर्ष
- यूके में वेब स्क्रैपिंग अवैध नहीं है—लेकिन इसे चार आपस में जुड़े कानूनी ढाँचों द्वारा नियंत्रित किया जाता है: यूके GDPR, कॉपीराइट/डेटाबेस अधिकार, अनुबंध कानून, और Computer Misuse Act।
- किसी भी स्क्रैपिंग की वैधता इस बात पर निर्भर करती है कि आप क्या स्क्रैप करते हैं, इसे कैसे एक्सेस करते हैं, वेबसाइट की शर्तें क्या कहती हैं, और डेटा के साथ आप क्या करते हैं।
- व्यक्तिगत डेटा स्क्रैपिंग पर अनुपालन का सबसे भारी बोझ होता है। वैध हित आम तौर पर एकमात्र व्यवहार्य वैध आधार होता है, और इसके लिए दस्तावेज़ित संतुलन-परीक्षण चाहिए।
- यूके में कोई व्यापक वाणिज्यिक TDM अपवाद नहीं है। वाणिज्यिक एआई प्रशिक्षण और डेटासेट पुनर्विक्रय बिना लाइसेंस के उच्च जोखिम वाले हैं।
- शुरू करने से पहले अपनी स्थिति का आकलन करने के लिए ऊपर दिए गए निर्णय प्रवाह और परिदृश्य तालिका का उपयोग करें।
- ऐसे टूल चुनें जो अनुपालन की सर्वोत्तम प्रथाओं के अनुरूप हों: ब्राउज़र-आधारित पहुँच, CAPTCHA बायपास नहीं, पारदर्शी डेटा एक्सपोर्ट, और rate limiting। इन्हीं सिद्धांतों को ध्यान में रखकर बनाया गया है—लेकिन अनुपालन की ज़िम्मेदारी हमेशा उपयोगकर्ता की होती है।
- जब संदेह हो, अपने तर्क को दस्तावेज़ित करें और solicitor से बात करें। कानूनी राय की लागत लगभग हमेशा ICO जांच की लागत से कम होती है।
अक्सर पूछे जाने वाले प्रश्न
क्या यूके में सार्वजनिक रूप से उपलब्ध डेटा को स्क्रैप करना कानूनी है?
आम तौर पर, हाँ—सार्वजनिक डेटा को स्क्रैप करना gated या private data की तुलना में कम जोखिम वाला है। लेकिन "सार्वजनिक रूप से उपलब्ध" का मतलब यह नहीं कि आप उसे जैसा चाहें वैसे मुफ़्त में उपयोग कर सकते हैं। यूके GDPR सार्वजनिक व्यक्तिगत डेटा पर भी लागू हो सकता है, कॉपीराइट कॉपी की गई अभिव्यक्ति पर लागू हो सकता है, डेटाबेस अधिकार क्यूरेटेड संग्रह की रक्षा कर सकते हैं, और ToS ऑटोमेटेड पहुँच को सीमित कर सकते हैं।
क्या मैं यूके वेबसाइटों से ईमेल और फोन नंबर स्क्रैप कर सकता हूँ?
यदि डेटा व्यक्तिगत डेटा है (और ईमेल तथा फोन नंबर आम तौर पर होते हैं), तो आपको यूके GDPR के तहत वैध आधार चाहिए। B2B लीड जनरेशन के लिए वैध हित सबसे आम आधार है, लेकिन आपको संतुलन-परीक्षण करना होगा, अपने एकत्रित डेटा को न्यूनतम रखना होगा, और opt-out का रास्ता देना होगा। व्यक्तिगत-जीवन संपर्क डेटा (मोबाइल नंबर, व्यक्तिगत ईमेल) को स्क्रैप करना व्यवसायिक डायरेक्टरी लिस्टिंग की तुलना में कहीं अधिक जोखिम वाला है।
यूके कानून के तहत वेब स्क्रैपिंग और वेब क्रॉलिंग में क्या अंतर है?
कानूनी तौर पर कोई खास मायने रखने वाला अंतर नहीं है—कानून व्यवहार को देखता है, लेबल को नहीं। क्रॉलिंग का मतलब आम तौर पर पेज खोजना या उन्हें index करना होता है; स्क्रैपिंग का मतलब आम तौर पर संरचित डेटा निकालना होता है। दोनों में वेबसाइटों तक ऑटोमेटेड पहुँच शामिल है और दोनों पर समान कानूनी ढाँचे लागू होते हैं।
क्या robots.txt स्क्रैपिंग को अवैध बना देता है?
नहीं। robots.txt कानूनी रूप से बाध्यकारी नहीं है। हालाँकि, इसकी अनदेखी करने से आपका कानूनी जोखिम बढ़ता है क्योंकि अदालतें और ICO इसे वेबसाइट मालिक की मंशा के प्रमाण के रूप में देखते हैं। यदि आप robots.txt की अनदेखी करते हैं और साइट का ToS भी स्क्रैपिंग पर रोक लगाता है, तो आप जोखिम बढ़ा रहे हैं—और उस स्थिति का बचाव करना कहीं अधिक कठिन हो जाता है।
क्या यूके में वेब स्क्रैपिंग के लिए मुझ पर आपराधिक मुकदमा चल सकता है?
केवल तभी, जब आप access controls (CAPTCHAs, logins, IP blocks) को बायपास करें या के तहत किसी कंप्यूटर सिस्टम को नुकसान पहुँचाएँ। वास्तव में सार्वजनिक डेटा की सामान्य स्क्रैपिंग, उचित मात्रा में, बिना तकनीकी evasion के, आपराधिक आरोपों में बदलने की संभावना बेहद कम है। जब व्यवहार हैकिंग या जानबूझकर service impairment जैसा लगता है, तो जोखिम प्रोफ़ाइल नाटकीय रूप से बदल जाती है।
और जानें
