कुछ हफ़्ते पहले, हमारी सेल्स टीम के एक सहकर्मी ने मुझसे वही सवाल पूछा जो मुझे बार-बार सुनने को मिलता है: "क्या हम इस पब्लिक बिज़नेस डायरेक्टरी से लीड्स स्क्रैप कर सकते हैं, या हम पर मुकदमा हो जाएगा?" उसे खुले वेब पर ही संभावित ग्राहकों का खज़ाना मिल गया था — न लॉगिन, न पेवॉल — लेकिन एक तेज़ Google खोज ने उसे यक़ीन दिला दिया था कि शायद उसके हाथों में हथकड़ियाँ पड़ सकती हैं।
ऐसी घबराहट हर जगह है। अब स्वचालित ट्रैफ़िक कुल वेब ट्रैफ़िक का लगभग है, web scraping software बाज़ार के 2025 में लगभग तक बढ़ने का अनुमान है, और फिर भी ऑनलाइन घूम रही ज़्यादातर कानूनी सलाह या तो पुरानी है, या बहुत सरल बना दी गई है, या बिल्कुल गलत है। 2022 का hiQ बनाम LinkedIn मामला? लगभग हर लेख उसे ऐसे पेश करता है जैसे वह सुप्रीम कोर्ट का फ़ैसला था कि "हर स्क्रैपिंग कानूनी है।" (स्पॉइलर: ऐसा नहीं है, और ऐसा था भी नहीं।)
इसी बीच, 2024 और 2025 के बड़े नए मामले — जिनमें X (पहले Twitter), Meta, Reddit, Google, और AI कंपनियाँ शामिल हैं — नियमों को सक्रिय रूप से फिर से आकार दे रहे हैं, और लगभग कोई इनके बारे में लिख ही नहीं रहा। यह गाइड बताती है कि 2026 में अमेरिकी क़ानून वेब स्क्रैपिंग के बारे में असल में क्या कहता है, अफ़वाहों और हक़ीक़त में फर्क करती है, और आपको यह तय करने के लिए एक व्यावहारिक ढाँचा देती है कि आप क्या कर सकते हैं और क्या नहीं।

वेब स्क्रैपिंग क्या है (और व्यवसायों को इसकी परवाह क्यों है)?
वेब स्क्रैपिंग का मतलब है वेबसाइटों से जानकारी इकट्ठा करने और उसे संरचित डेटा में व्यवस्थित करने के लिए ऑटोमेटेड सॉफ़्टवेयर का इस्तेमाल — जैसे स्प्रेडशीट, डेटाबेस, या CRM रिकॉर्ड।
और साफ़ तौर पर कहें तो, एक स्क्रैपर वेब पेजों पर जाता है, उनके पीछे मौजूद HTML पढ़ता है, और खास डेटा बिंदु निकालता है — कीमतें, नाम, पते, प्रोडक्ट स्पेसिफ़िकेशन, जो भी चाहिए — और उन्हें साफ़-सुथरी पंक्तियों और कॉलमों में रख देता है। यह वेबसाइट से जानकारी कॉपी करके Excel में डालने के लिए किसी इंसान को काम पर रखने जैसा डिजिटल रूप है, बस बॉट यह काम घंटों की बजाय सेकंडों में कर देता है।
वेब स्क्रैपिंग हैकिंग नहीं है। यह वही जानकारी एक्सेस करती है जो कोई भी विज़िटर अपने ब्राउज़र में देख सकता है।
और यह कोई बहुत छोटी डेवलपर-ट्रिक भी नहीं है। सर्च इंजन, प्राइस-कॉम्पेरिज़न साइट्स, रियल एस्टेट प्लेटफ़ॉर्म, मार्केट रिसर्च डैशबोर्ड, और AI-संचालित टूल — सभी काम करने के लिए वेब क्रॉलिंग और स्क्रैपिंग पर निर्भर करते हैं। अगर आपने कभी Google इस्तेमाल किया है, फ़्लाइट एग्रीगेटर देखा है, या Zillow ब्राउज़ किया है, तो आपने स्क्रैपिंग का फ़ायदा उठाया है।
मैं जिन सबसे आम व्यावसायिक उपयोग मामलों से अक्सर रूबरू होता हूँ:
- लीड जनरेशन: बिज़नेस डायरेक्टरी से कंपनी के नाम, वेबसाइट, जॉब टाइटल, या सार्वजनिक संपर्क विवरण निकालना।
- प्रतिस्पर्धी कीमत निगरानी: ईकॉमर्स टीमें प्रतिद्वंद्वी SKU की कीमत, उपलब्धता, और शिपिंग जानकारी ट्रैक करती हैं।
- रियल एस्टेट इंटेलिजेंस: सार्वजनिक प्रॉपर्टी लिस्टिंग, कीमतें, और बाज़ार रुझान एकत्र करना।
- उत्पाद शोध: रिटेल साइट्स से प्रोडक्ट स्पेसिफ़िकेशन, रेटिंग, उपलब्धता, और श्रेणी डेटा निकालना।
- मार्केट इंटेलिजेंस: जॉब पोस्टिंग, स्टोर ओपनिंग, न्यूज़ सिग्नल, या सार्वजनिक वित्तीय डेटा ट्रैक करना।
तकनीक स्वयं तटस्थ है। कानूनी विश्लेषण इस बात पर टिका है कि आप डेटा तक कैसे पहुँचते हैं और बाद में उसके साथ क्या करते हैं।
क्या अमेरिका में वेब स्क्रैपिंग कानूनी है? संक्षिप्त जवाब
अमेरिका में कोई ऐसा संघीय क़ानून नहीं है जो web scraping पर सीधे पूरी तरह पाबंदी लगाता हो। सार्वजनिक रूप से उपलब्ध डेटा को स्क्रैप करना आम तौर पर अनुमति-योग्य है।
लेकिन — और यह बड़ा लेकिन है — वैधता कई बातों पर निर्भर करती है: डेटा का प्रकार, आप उसे कैसे एक्सेस करते हैं, क्या आपने किसी सेवा-शर्त से सहमति दी है, क्या डेटा में व्यक्तिगत जानकारी शामिल है, और आप उसका इस्तेमाल किस लिए करने वाले हैं।
फ़ोरम, Reddit थ्रेड्स, और यहाँ तक कि कानूनी ब्लॉग्स में भ्रम का सबसे बड़ा स्रोत क्या है? लोग "ग़ैरकानूनी" को "वेबसाइट की सेवा-शर्तों के विरुद्ध" होने के साथ मिला देते हैं। ये दोनों बहुत अलग चीज़ें हैं। वेबसाइट के नियम तोड़ने पर आपका IP ब्लॉक हो सकता है या खाता बंद हो सकता है। संघीय क़ानून तोड़ने पर मुक़दमा हो सकता है या, दुर्लभ मामलों में, आपराधिक अभियोजन भी। ज़्यादातर स्क्रैपिंग के परिणाम सीधे-सीधे दीवानी श्रेणी में आते हैं।
इस लेख का बाकी हिस्सा मुख्य क़ानूनों, मील का पत्थर बने मुक़दमों (2024 और 2025 के उन मामलों सहित जिनके बारे में लगभग कोई नहीं लिख रहा), और एक ऐसा व्यावहारिक निर्णय-ढाँचा समझाता है जिसे आप सच में इस्तेमाल कर सकें।
"ग़ैरकानूनी" के तीन प्रकार: आपराधिक, दीवानी, और ToS उल्लंघन
वेब स्क्रैपिंग क़ानून के बारे में सबसे बड़ी गलतफ़हमी को साफ़ करने का समय आ गया है। जब कोई पूछता है "क्या वेब स्क्रैपिंग ग़ैरकानूनी है?", तो वह अक्सर जोखिम की तीन बिल्कुल अलग श्रेणियों को एक साथ मिला रहा होता है। इन्हें अलग करने से पूरी बातचीत बदल जाती है।

| दायित्व का प्रकार | इसे क्या ट्रिगर करता है | संभावित परिणाम | गंभीरता |
|---|---|---|---|
| आपराधिक (CFAA) | बिना अनुमति प्रमाणीकरण बाधाओं के पीछे डेटा तक पहुँचना, धोखाधड़ी, क्रेडेंशियल का दुरुपयोग | संघीय अभियोजन, जुर्माना, कारावास | 🔴 गंभीर — लेकिन सामान्य व्यावसायिक स्क्रैपिंग में बेहद दुर्लभ |
| दीवानी मुकदमा | कॉपीराइट उल्लंघन, चल-संपत्ति पर अतिक्रमण, अनुबंध उल्लंघन, व्यापार रहस्य का दुरुपयोग, निजता उल्लंघन | मौद्रिक क्षतिपूर्ति, निषेधाज्ञा, डेटा हटाना | 🟡 महत्वपूर्ण |
| ToS उल्लंघन | ब्राउज़व्रैप या क्लिकव्रैप सेवा-शर्तों का उल्लंघन | खाता समाप्ति, IP ब्लॉक, चेतावनी-पत्र, संभावित दीवानी मुकदमा | 🟢 कम से मध्यम |
न्याय विभाग की साफ़ तौर पर कहती है कि सामान्य सेवा-शर्त उल्लंघन — जैसे नकली खाता बनाना या वेबसाइट के नियम तोड़ना — अपने आप में संघीय आपराधिक आरोप लगाने के लिए पर्याप्त नहीं हैं। यह एक बड़ा मुद्दा है।
व्यावहारिक निष्कर्ष: अगर आप सेल्स टीम हैं जो सार्वजनिक बिज़नेस लिस्टिंग स्क्रैप कर रही है, या ईकॉमर्स टीम है जो प्रतिस्पर्धी कीमतों पर नज़र रख रही है, तो आप लगभग निश्चित रूप से आपराधिक जोखिम से नहीं, बल्कि दीवानी जोखिम-प्रबंधन से जूझ रहे हैं। इसका मतलब यह नहीं कि आप नियमों की अनदेखी कर सकते हैं, लेकिन इससे आपकी घबराहट का स्तर ज़रूर संतुलित होना चाहिए।
वे प्रमुख अमेरिकी क़ानून जो web scraping पर लागू होते हैं
अमेरिका में वेब स्क्रैपिंग से चार कानूनी स्तंभ जुड़ते हैं, और हर एक पहेली के अलग हिस्से को छूता है।
Computer Fraud and Abuse Act (CFAA)
मूल रूप से कंप्यूटर हैकिंग पर मुक़दमा चलाने के लिए लिखा गया था। वर्षों में, यह स्क्रैपिंग मुक़दमों के लिए सबसे अधिक इस्तेमाल होने वाला क़ानून बन गया, आम तौर पर इस सिद्धांत पर कि स्क्रैपर ने वेबसाइट तक "बिना अनुमति" पहुँच बनाई।
फिर आया। सुप्रीम कोर्ट ने कहा कि कोई व्यक्ति CFAA के तहत तभी "अधिकृत पहुँच से आगे बढ़ता है" जब वह कंप्यूटर के उन हिस्सों — फ़ाइलों, फ़ोल्डरों, डेटाबेस — तक पहुँचता है जो उसके लिए निषिद्ध हैं। केवल उस जानकारी का दुरुपयोग करना जिसे देखने की अनुमति आपको पहले से थी, उसमें यह नहीं आता।
स्क्रैपिंग पर इसका असर:
- कम CFAA जोखिम: सार्वजनिक web pages जो बिना लॉगिन के किसी के लिए भी उपलब्ध हैं। कोई गेट नहीं, "बिना अनुमति पहुँच" की समस्या नहीं।
- ज़्यादा CFAA जोखिम: लॉगिन, पेवॉल, एक्सेस टोकन, सेशन मैनिपुलेशन, या रद्द की गई पहुँच के पीछे मौजूद डेटा।
hiQ बनाम LinkedIn मामला (जिसका नीचे विस्तार से विश्लेषण करेंगे) ने सार्वजनिक डेटा के लिए इसे और मज़बूत किया। लेकिन CFAA पूरी कहानी का सिर्फ़ एक हिस्सा है।
कॉपीराइट क़ानून और DMCA
अमेरिकी कॉपीराइट क़ानून मौलिक रचनात्मक अभिव्यक्ति की रक्षा करता है — लेख, फ़ोटो, वीडियो, रचनात्मक प्रोडक्ट विवरण — लेकिन । सुप्रीम कोर्ट का यहाँ का मील का पत्थर है: नाम, पते, और फ़ोन नंबर जैसे तथ्य कॉपीराइट योग्य नहीं हैं, चाहे उन्हें इकट्ठा करने में कितना भी श्रम लगा हो।
स्क्रैप किए गए डेटा के लिए जोखिम-स्तर:
| आप क्या स्क्रैप कर रहे हैं | कॉपीराइट जोखिम | क्यों |
|---|---|---|
| कीमतें, उत्पाद नाम, पते, तिथियाँ, स्पेसिफ़िकेशन | कम | ये तथ्य हैं |
| पूरी लेख सामग्री, फ़ोटो, वीडियो, रचनात्मक समीक्षाएँ | ज़्यादा | ये अभिव्यक्तिपूर्ण कृतियाँ हैं |
| क्यूरेटेड डेटाबेस, रैंकिंग, संपादकीय टैक्सोनॉमी | मध्यम-ऊँचा | चयन और व्यवस्था संरक्षित हो सकती है |
| पेवॉल या DRM-सुरक्षित सामग्री | ऊँचा | कॉपीराइट के साथ एक्सेस-कंट्रोल मुद्दे भी |
एक और परत जोड़ती है: तकनीकी सुरक्षा उपायों (पेवॉल, DRM, कुछ anti-bot सिस्टम) को बायपास करके कॉपीराइटेड सामग्री तक पहुँचना दायित्व पैदा कर सकता है, भले ही आप सामग्री की प्रतिलिपि कभी न बनाएँ। 2025–2026 के मामलों में, जिनमें शामिल है, इसे आक्रामक रूप से परखा जा रहा है, जहाँ Google अपने SearchGuard anti-bot सिस्टम को बायपास करने के लिए DMCA उल्लंघन का आरोप लगाता है।
Fair use भी महत्त्वपूर्ण है — रूपांतरकारी उपयोग (सिर्फ़ फिर से प्रकाशित करने की बजाय डेटा का विश्लेषण करना, एकत्रित करना, या उस पर आगे निर्माण करना) आम तौर पर किसी और की सामग्री को कॉपी करके दोबारा पोस्ट करने से ज़्यादा सुरक्षित होता है।
अनुबंध क़ानून: सेवा-शर्तें (Browsewrap बनाम Clickwrap)
बहुत-सी वेबसाइटें अपनी सेवा-शर्तों में anti-scraping भाषा जोड़ती हैं — लेकिन उसका लागू होना पूरी तरह इस बात पर निर्भर करता है कि आपको वे शर्तें कैसे मिलीं।
| अनुबंध का प्रकार | लागू होने की शक्ति | स्क्रैपरों के लिए इसका अर्थ |
|---|---|---|
| Clickwrap (आप "I agree" पर क्लिक करते हैं) | मज़बूत | अदालतें इन्हें लगातार लागू करती हैं। anti-scraping शर्तें दीवानी दावों का आधार बन सकती हैं। |
| Sign-in wrap (लॉगिन के पास सूचना) | मामले-विशेष | इस पर निर्भर करता है कि सूचना कितनी स्पष्ट थी। |
| Browsewrap (फ़ुटर में लिंक) | कमज़ोर | जब उपयोगकर्ताओं को वास्तविक सूचना ही न मिली हो, अदालतें संदेह करती हैं। |
| Account/API शर्तें | और मज़बूत | लॉग-इन स्क्रैपिंग या API का दुरुपयोग कहीं ज़्यादा जोखिम वाला है। |
में अदालत ने पाया कि Meta की शर्तें लॉग-आउट सार्वजनिक स्क्रैपिंग को उस तरह कवर नहीं करती थीं जैसा Meta ने तर्क दिया था — सार्वजनिक स्क्रैपिंग के लिए जिन लॉग-इन खातों का इस्तेमाल बताया गया था, उनका Bright Data द्वारा उपयोग सिद्ध नहीं हुआ था। यह एक महत्वपूर्ण अंतर है।
व्यावहारिक सलाह: अगर आपने कभी लॉग इन नहीं किया, कभी "I agree" पर क्लिक नहीं किया, और सिर्फ़ सार्वजनिक पेज स्क्रैप कर रहे हैं, तो browsewrap पाबंदियों को वेबसाइट के लिए आपके ख़िलाफ़ लागू करना ज़्यादा कठिन होता है। लेकिन स्क्रैपिंग से पहले हमेशा ToS जाँच लें, खासकर अगर आपने खाता बनाया है।
अमेरिकी राज्य गोपनीयता क़ानून (CCPA और आगे)
अगर आप जो डेटा स्क्रैप कर रहे हैं उसमें व्यक्तिगत जानकारी — नाम, ईमेल, फ़ोन नंबर, स्थान डेटा — शामिल है, तो राज्य गोपनीयता क़ानून लागू हो सकते हैं। और यह जाल तेज़ी से फैल रहा है। IAPP ने मध्य-2025 तक की गणना की थी, और के व्यापक गोपनीयता क़ानूनों की सूचना दी।
इनमें से ज़्यादातर क़ानूनों में "सार्वजनिक रूप से उपलब्ध" व्यक्तिगत जानकारी के लिए अपवाद होते हैं, लेकिन परिभाषाएँ अलग-अलग हैं। और आगे का उपयोग — उस डेटा को बेचना, साझा करना, या उससे प्रोफ़ाइल बनाना — शुरुआती संग्रह छूट-योग्य होने पर भी दायित्व पैदा कर सकता है।
| राज्य क़ानून | प्रभावी | क्या स्क्रैप किया गया PII शामिल है? | ऑप्ट-आउट आवश्यकता | जुर्माना दायरा |
|---|---|---|---|---|
| CCPA/CPRA (कैलिफ़ोर्निया) | 2020/2023 | हाँ | बिक्री/साझाकरण से ऑप्ट-आउट; GPC मान्यता प्राप्त | $2,663–$7,988/उल्लंघन (2025 समायोजित) |
| CPA (कोलोराडो) | 2023 | हाँ | जुलाई 2024 से सार्वभौमिक ऑप्ट-आउट/GPC | भ्रामक व्यापार व्यवहार ढाँचे के तहत दीवानी दंड |
| CTDPA (कनेक्टिकट) | 2023 | हाँ | जनवरी 2025 से OOPS/GPC | जानबूझकर उल्लंघन पर $5,000 तक |
| VCDPA (वर्जीनिया) | 2023 | हाँ | ऑप्ट-आउट अधिकार | उल्लंघन पर $7,500 तक |
| TDPSA (टेक्सास) | 2024 | हाँ | जनवरी 2025 से सार्वभौमिक ऑप्ट-आउट | उल्लंघन पर $7,500 तक |
| + 2026 तक पारित 8 और | अलग-अलग | अलग-अलग | अलग-अलग | अलग-अलग |
अतिरिक्त राज्यों में Utah, Oregon, Montana, Delaware, Iowa, Nebraska, New Hampshire, New Jersey, Tennessee, Minnesota, Maryland, Indiana, Kentucky, और Rhode Island शामिल हैं। Alabama ने 1 मई 2027 से प्रभावी एक क़ानून पारित किया।
व्यवसायिक उपयोगकर्ताओं के लिए जो उत्पाद कीमतें, बिज़नेस लिस्टिंग, या बाज़ार डेटा स्क्रैप कर रहे हैं — यानी गैर-PII, तथ्यात्मक जानकारी — गोपनीयता जोखिम काफ़ी कम है। जैसे टूल सार्वजनिक पेजों (उत्पाद डेटा, बिज़नेस डायरेक्टरी, रियल एस्टेट लिस्टिंग) से संरचित निष्कर्षण पर ध्यान देते हैं, जो सबसे कम-जोखिम वाली स्क्रैपिंग श्रेणी से मेल खाता है।
वेब स्क्रैपिंग के ऐतिहासिक मुक़दमे: 2000 से 2026 तक की समयरेखा
यहीं मुझे लगता है कि इस विषय पर ज़्यादातर गाइडें कमज़ोर पड़ जाती हैं। लगभग हर लेख hiQ बनाम LinkedIn (2022) पर रुक जाता है और उन फ़ैसलों को नज़रअंदाज़ कर देता है जो अभी स्क्रैपिंग क़ानून को आकार दे रहे हैं। यहाँ पूरी समयरेखा है:
| मामला | वर्ष | मुख्य निर्णय | स्क्रैपरों पर असर |
|---|---|---|---|
| eBay बनाम Bidder's Edge | 2000 | trespass to chattels के तहत प्रारंभिक निषेधाज्ञा; सर्वरों पर क्रॉलर के भार का महत्व | ⚠️ सर्वरों पर भारी भार डालने वाली उच्च-आयतन स्क्रैपिंग दीवानी दायित्व पैदा कर सकती है |
| Facebook बनाम Power Ventures | 2016 | Cease-and-desist के बाद Facebook प्रणालियों का उपयोग जारी रखते हुए CFAA दायित्व | ⚠️ C&D + प्रमाणीकरण/गेटेड एक्सेस = उच्च जोखिम |
| Van Buren बनाम US | 2021 | CFAA में "अधिकृत पहुँच से आगे" का मतलब निषिद्ध कंप्यूटर क्षेत्रों तक पहुँचना | ✅ CFAA का दायरा काफ़ी संकुचित हुआ |
| hiQ बनाम LinkedIn | 2022 | सार्वजनिक डेटा तक पहुँचना CFAA उल्लंघन नहीं (प्रारंभिक निषेधाज्ञा, बाद में समझौता) | ✅ सार्वजनिक डेटा ≠ "बिना अनुमति पहुँच" — लेकिन यह अंतिम फ़ैसला नहीं था |
| Meta बनाम Bright Data | 2024 | लॉग-आउट सार्वजनिक स्क्रैपिंग पर Meta के अनुबंध सिद्धांत में Bright Data को summary judgment मिला | ✅ सहमति के बिना लॉग-आउट स्क्रैपिंग पर शर्तें लागू न भी हों |
| X Corp. बनाम Bright Data | 2024 | मई में कई दावों का खारिज होना; नवंबर आदेश ने स्क्रैपिंग/बिक्री-आधारित दावों को अस्वीकार किया | ✅ सार्वजनिक डेटा की कॉपीिंग से जुड़े दावे कमज़ोर पड़े |
| Compulife बनाम Newman/Rutstein | 2024-2025 | बीमा कोट डेटा के बड़े पैमाने पर निष्कर्षण पर व्यापार-रहस्य दायित्व; फ़रवरी 2025 में cert denied | ⚠️ सार्वजनिक दिखने वाला डेटा भी संरक्षित डेटाबेस हो सकता है |
| Reddit बनाम Perplexity/SerpApi/Oxylabs/AWMProxy | 2025-2026 | Google परिणामों के माध्यम से औद्योगिक-स्तरीय अप्रत्यक्ष स्क्रैपिंग का आरोप | ⚠️ AI-युग के मामले डेटा आपूर्ति-श्रृंखलाओं को निशाना बनाते हैं |
| Google बनाम SerpApi | 2025-2026 | कथित anti-bot बायपास पर DMCA §1201 दावे | ⚠️ यह परखा जा रहा है कि anti-bot सिस्टम DMCA एक्सेस-कंट्रोल हैं या नहीं |
रुझान साफ़ है: अदालतें CFAA के तहत सार्वजनिक डेटा तक पहुँच की रक्षा पहले से अधिक कर रही हैं, लेकिन कॉपीराइट, अनुबंध, गोपनीयता, व्यापार रहस्य, और इन्फ़्रास्ट्रक्चर के दावे अब भी पूरी तरह स्वतंत्र जोखिम हैं। और AI प्रशिक्षण की लहर बिल्कुल नए कानूनी सवाल खड़े कर रही है।
रिकॉर्ड को सही करें: hiQ बनाम LinkedIn ने वास्तव में क्या तय किया
यह वेब स्क्रैपिंग क़ानून का सबसे ज़्यादा गलत समझा गया मामला है। मैंने इसे ब्लॉग पोस्ट्स, Reddit थ्रेड्स, और यहाँ तक कि कानूनी सारांशों में भी यह साबित करने के लिए उद्धृत होते देखा है कि "सार्वजनिक web scraping कानूनी है।" मामला इतना आसान नहीं है।
असल में क्या हुआ, यह रहा:
hiQ ने क्या कहा: Ninth Circuit ने एक प्रारंभिक निषेधाज्ञा — एक अस्थायी आदेश — को बरकरार रखा, जिसने LinkedIn को hiQ द्वारा सार्वजनिक LinkedIn प्रोफ़ाइलों की स्क्रैपिंग रोकने से रोका। अदालत ने कहा कि सार्वजनिक रूप से उपलब्ध डेटा तक पहुँचना संभवतः CFAA का उल्लंघन नहीं था। मुख्य शब्द: संभवतः। स्रोत: ।
hiQ ने क्या स्थापित नहीं किया:
- किसी भी सार्वजनिक website को स्क्रैप करने का सार्वभौमिक अधिकार
- गुण-दोष पर अंतिम फ़ैसला — सुप्रीम कोर्ट ने Van Buren के बाद निर्णय रद्द करके वापस भेजा, Ninth Circuit ने फिर से पुष्टि की, और फिर मामला बिना किसी अंतिम न्यायालय निर्णय के
- रिपोर्ट किए गए समझौते में $500,000, एक निषेधाज्ञा, और डेटा/सॉफ़्टवेयर नष्ट करने की बाध्यताएँ शामिल थीं
यह आपके लिए क्यों मायने रखता है: hiQ सार्वजनिक डेटा स्क्रैप करने वालों के लिए उत्साहजनक है। यह संकेत देता है कि अदालतें उन प्लेटफ़ॉर्म्स को लेकर सतर्क हैं जो उस जानकारी पर निजी एकाधिकार बनाने की कोशिश करते हैं, जिसकी वे मालिक नहीं हैं। लेकिन यह कानूनी गारंटी नहीं है। अन्य दावे — कॉपीराइट, अनुबंध, गोपनीयता, व्यापार रहस्य — कभी सुलझाए ही नहीं गए। Van Buren के बाद CFAA का परिदृश्य साफ़ है, लेकिन hiQ पर अकेले कानूनी ढाल के रूप में भरोसा करना गलती होगी।
यह बात सही समझना ही सूचित जोखिम-प्रबंधन और इच्छाधारी सोच के बीच फ़र्क़ पैदा करता है।
क्या मैं इसे कानूनी रूप से स्क्रैप कर सकता हूँ? एक व्यावहारिक निर्णय-प्रवाह

स्क्रैपिंग की वैधता एक "धुँधला क्षेत्र" जैसी लगती है — यह बात मैं बार-बार सुनता हूँ। इसलिए और कानूनी सिद्धांत की बजाय, यहाँ एक ऐसा निर्णय-ढाँचा है जिसे आप सच में इस्तेमाल कर सकते हैं। किसी भी स्क्रैपिंग प्रोजेक्ट के लिए पाँच सवाल:
1. क्या डेटा सार्वजनिक रूप से उपलब्ध है (लॉगिन की आवश्यकता नहीं)?
- अगर नहीं → CFAA का जोखिम अधिक। आगे बढ़ने से पहले अनुमति या कानूनी समीक्षा लें।
- अगर हाँ → सवाल 2 पर जाएँ।
2. क्या आप कोई तकनीकी बाधा (CAPTCHA, IP ब्लॉक, rate limits, paywalls) बायपास कर रहे हैं?
- अगर हाँ → संभावित DMCA और CFAA मुद्दे। रुकें या कानूनी सलाहकार तक मामला पहुँचाएँ।
- अगर नहीं → सवाल 3 पर जाएँ।
3. क्या आपने ऐसा clickwrap ToS स्वीकार किया है जो स्क्रैपिंग को प्रतिबंधित करता है?
- अगर हाँ → दीवानी अनुबंध दायित्व का जोखिम। विचार करें कि क्या वही डेटा किसी और स्रोत से मिल सकता है या अनुमति लें।
- अगर नहीं → सवाल 4 पर जाएँ।
4. क्या डेटा में व्यक्तिगत जानकारी (PII) शामिल है?
- अगर हाँ → CCPA और लागू राज्य गोपनीयता क़ानून जाँचें। सुनिश्चित करें कि आपका उपयोग-केस अनुपालन योग्य है और ऑप्ट-आउट अधिकारों का सम्मान करें।
- अगर नहीं → सवाल 5 पर जाएँ।
5. आप डेटा के साथ क्या करेंगे?
- कॉपीराइटेड सामग्री (पूरे लेख, फ़ोटो, वीडियो) का व्यावसायिक पुनर्प्रकाशन → कॉपीराइट जोखिम।
- रूपांतरकारी विश्लेषण, आंतरिक शोध, या तथ्यात्मक डेटा का उपयोग (कीमतें, स्पेसिफ़िकेशन, लिस्टिंग) → आम तौर पर कम जोखिम।
अगर आप "सार्वजनिक पेज, कोई बायपास नहीं, कोई clickwrap नहीं, गैर-PII, आंतरिक विश्लेषण के लिए तथ्यात्मक डेटा" वाले क्षेत्र में पहुँचते हैं, तो आप सबसे कम-जोखिम श्रेणी में हैं। यही वह तरह का वर्कफ़्लो है जिसके लिए बनाया गया है — उत्पाद लिस्टिंग, बिज़नेस डायरेक्टरी, और रियल एस्टेट डेटा जैसे सार्वजनिक web pages से संरचित, तथ्यात्मक डेटा निकालना, फिर उसे अपनी विश्लेषण प्रक्रिया के लिए Excel, Google Sheets, Airtable, या Notion में निर्यात करना।
इस फ़्लोचार्ट को सहेज लें। यह किसी वकील की जगह नहीं लेगा, लेकिन यह आपको बहुत अनावश्यक घबराहट से बचा देगा।
AI प्रशिक्षण और वेब स्क्रैपिंग: नया कानूनी मोर्चा

AI ने स्क्रैपिंग क़ानून में एक बिल्कुल नई जटिलता जोड़ दी है। बड़े भाषा मॉडल, इमेज जनरेटर, और अन्य AI सिस्टम को प्रशिक्षित करने के लिए डेटा स्क्रैप करना अब एक बड़ा कानूनी रणक्षेत्र है — और अदालतों ने अभी तक मुख्य सवालों को सुलझाया नहीं है।
अभी स्थिति यह है:
| मामला | स्थिति (2026) | मुख्य मुद्दा |
|---|---|---|
| NYT बनाम OpenAI/Microsoft | जारी। मूल कॉपीराइट दावों को अप्रैल 2025 में आगे बढ़ने दिया गया ; discovery विवादों में 20M+ ChatGPT logs शामिल हैं। | क्या स्क्रैप किए गए न्यूज़ लेखों पर प्रशिक्षण fair use है या कॉपीराइट उल्लंघन? |
| Bartz बनाम Anthropic | Judge Alsup ने माना कि कुछ प्रशिक्षण उपयोग fair use थे, लेकिन पायरेटेड स्रोतों का अधिग्रहण नहीं था। रिपोर्ट किया गया समझौता: लगभग $1.5B। | प्रशिक्षण रूपांतरकारी हो सकता है, लेकिन पायरेटेड स्रोतों की कॉपीिंग अलग समस्या है। |
| Thomson Reuters बनाम Ross | Delaware अदालत ने Westlaw headnotes का उपयोग करके प्रतिस्पर्धी कानूनी शोध उत्पाद बनाने पर fair use को अस्वीकार किया। | सीधे प्रतिस्थापन वाले उत्पादों पर कॉपीराइट जोखिम अधिक होता है। |
| Getty बनाम Stability AI | 2025 में UK मामला काफ़ी हद तक Stability के पक्ष में गया; US मामला लंबित है। | इमेज-प्रशिक्षण क़ानून अब भी अनिश्चित है। |
एक उपयोगी बारीकी जोड़ती है: बड़े, विविध डेटासेट पर प्रशिक्षण अक्सर रूपांतरकारी हो सकता है, लेकिन पायरेटेड स्रोतों की कॉपीिंग और वे उपयोग जो सीधे कॉपीराइट मालिकों के बाज़ार से प्रतिस्पर्धा करते हैं, fair use के कमज़ोर तर्क हैं।
इस लेख को पढ़ रहे ज़्यादातर व्यवसायिक उपयोगकर्ताओं के लिए अंतर सीधा है: डेटा को अपनी विश्लेषण या व्यावसायिक गतिविधियों के लिए स्क्रैप करना (लीड जेन, कीमत निगरानी, मार्केट रिसर्च) उस स्थिति से बिल्कुल अलग कानूनी प्राणी है जब डेटा को AI मॉडल को प्रशिक्षित और व्यावसायीकृत करने के लिए स्क्रैप किया जाए। पहला कॉपीराइट जोखिम में कम है। दूसरा वह जगह है जहाँ बड़े मुक़दमे चल रहे हैं।
ज़िम्मेदारी से डेटा कैसे स्क्रैप करें (व्यावसायिक टीमों के लिए सर्वोत्तम अभ्यास)
कानून काफी हुआ। अब असल में देखें कि अपनी टीम के लिए कानूनी सिरदर्द पैदा किए बिना डेटा कैसे स्क्रैप करें।
सार्वजनिक रूप से उपलब्ध डेटा तक ही सीमित रहें
ऐसे डेटा पर ध्यान दें जिसे कोई भी लॉग इन किए बिना देख सकता है — प्रोडक्ट लिस्टिंग, बिज़नेस डायरेक्टरी, सार्वजनिक रिकॉर्ड, प्राइसिंग पेज। जैसे ही आप लॉगिन के पीछे जाते हैं, आप ज़्यादा जोखिम वाले क्षेत्र में पहुँच जाते हैं।
तकनीकी बाधाएँ बायपास न करें
अगर कोई साइट CAPTCHAs, IP blocks, rate limits, या paywalls इस्तेमाल करती है, तो वे संकेत हैं। इन्हें बायपास करने से DMCA, CFAA, या अनुबंध दावे शुरू हो सकते हैं। अगर डेटा इतना महत्वपूर्ण है, तो बेहतर है कि कोई आधिकारिक API या डेटा साझेदारी खोजें।
सेवा-शर्तें जाँचें
खासकर अगर आपने खाता बनाया है या "I agree" पर क्लिक किया है। anti-scraping धाराओं के लिए ToS पढ़ें। अगर शर्तें स्क्रैपिंग पर रोक लगाती हैं और आपने उन्हें स्वीकार किया है, तो सोचें कि क्या वही डेटा किसी और स्रोत से मिल सकता है।
व्यक्तिगत डेटा संग्रह कम करें
अगर आप PII (नाम, ईमेल, फ़ोन नंबर) इकट्ठा कर रहे हैं, तो सुनिश्चित करें कि लागू राज्य गोपनीयता क़ानूनों के तहत आपका उपयोग-केस अनुपालन योग्य है। तथ्यात्मक व्यावसायिक डेटा — कंपनी नाम, प्रोडक्ट कीमतें, लिस्टिंग विवरण — स्क्रैप करना, व्यक्तिगत उपभोक्ता प्रोफ़ाइल स्क्रैप करने की तुलना में काफ़ी कम जोखिम वाला है।
Robots.txt और rate limits का सम्मान करें
अपने आप में कानूनी रूप से बाध्यकारी नहीं है, लेकिन इसका सम्मान करना सद्भावना दिखाता है। और किसी वेबसाइट के सर्वरों पर ज़ोर न डालें — अनुरोधों की गति सीमित करें, उचित अंतराल रखें, और इन्फ़्रास्ट्रक्चर को नुकसान न पहुँचाएँ।
डेटा का उपयोग विश्लेषण के लिए करें, पुनर्प्रकाशन के लिए नहीं
रूपांतरकारी उपयोग — विश्लेषण, एकत्रीकरण, आंतरिक शोध, प्रतिस्पर्धी बुद्धिमत्ता — किसी और के लेख, इमेज, या समीक्षाएँ कॉपी करके फिर से पोस्ट करने से कहीं ज़्यादा सुरक्षित है। अगर आप अपनी टीम के लिए डैशबोर्ड या स्प्रेडशीट बना रहे हैं, तो आपकी स्थिति अपनी वेबसाइट पर स्क्रैप की गई सामग्री को दोबारा प्रकाशित करने से बेहतर है।
अनुपालन-उन्मुख स्क्रैपिंग के लिए बने टूल चुनें
यहाँ मैं उस चीज़ का ज़िक्र करूँगा जो हमने में बनाई है। हमारा व्यवसायिक उपयोगकर्ताओं के लिए बनाया गया है जो सार्वजनिक web pages — प्रोडक्ट लिस्टिंग, बिज़नेस डायरेक्टरी, रियल एस्टेट डेटा, लीड जानकारी — से संरचित डेटा निकालना चाहते हैं, बिना कोड लिखे या तकनीकी बाधाएँ बायपास किए। AI पेज पढ़ता है, फ़ील्ड सुझाता है, और आपको में निर्यात करने देता है। इसे ऊपर दिए गए निर्णय-प्रवाह की सबसे कम-जोखिम शाखा के लिए बनाया गया है: सार्वजनिक पेज, तथ्यात्मक डेटा, कोई लॉगिन बायपास नहीं।
फिर भी, कोई भी टूल आपको कानूनी जोखिम से पूरी तरह मुक्त नहीं करता। आप क्या स्क्रैप करते हैं और उसका उपयोग कैसे करते हैं, इसकी ज़िम्मेदारी हमेशा आपकी ही रहती है।
रिकॉर्ड रखें और cease-and-desist पर रुक जाएँ
अपनी स्क्रैपिंग गतिविधि और व्यावसायिक उद्देश्य का दस्तावेज़ीकरण करें। अगर आपको cease-and-desist पत्र मिलता है, तो रुकें और कानूनी सलाहकार से बात करें। औपचारिक सूचना के बाद स्क्रैपिंग जारी रखना आपका जोखिम स्तर काफ़ी बढ़ा देता है, खासकर अगर गेटेड सिस्टम शामिल हों।
अमेरिका में वेब स्क्रैपिंग की वैधता पर मुख्य निष्कर्ष
संक्षेप में:
- कोई अमेरिकी संघीय क़ानून web scraping पर रोक नहीं लगाता। सार्वजनिक रूप से उपलब्ध तथ्यात्मक डेटा को स्क्रैप करना आम तौर पर अनुमति-योग्य है।
- वैधता इस पर निर्भर करती है कि आप क्या स्क्रैप करते हैं, कैसे एक्सेस करते हैं, और उसके साथ क्या करते हैं। सार्वजनिक पेज + तथ्यात्मक डेटा + आंतरिक विश्लेषण = सबसे कम जोखिम।
- Van Buren और hiQ के बाद CFAA का दायरा संकुचित हुआ है, लेकिन कॉपीराइट, अनुबंध, गोपनीयता, और व्यापार रहस्य के दावे स्वतंत्र जोखिम हैं जो अब भी लागू होते हैं।
- आपराधिक दायित्व सामान्य व्यावसायिक स्क्रैपिंग में दुर्लभ है। ज़्यादातर जोखिम दीवानी हैं — मुक़दमे, हथकड़ियाँ नहीं।
- hiQ बनाम LinkedIn कोई सार्वभौमिक अनुमति-पत्र नहीं है। वह एक प्रारंभिक निषेधाज्ञा थी जो बाद में समझौते पर खत्म हुई। उत्साहजनक, लेकिन गारंटी नहीं।
- जब PII शामिल हो, राज्य गोपनीयता क़ानून मायने रखते हैं, लेकिन गैर-PII डेटा (कीमतें, लिस्टिंग, स्पेसिफ़िकेशन) सबसे कम जोखिम वाला होता है।
- AI प्रशिक्षण के उपयोग-केस एक नया और अभी-अनिश्चित कानूनी मोर्चा हैं। अपने विश्लेषण के लिए व्यावसायिक स्क्रैपिंग, व्यावसायिक AI मॉडल बनाने के लिए स्क्रैपिंग से अलग जोखिम प्रोफ़ाइल रखती है।
- सर्वोत्तम प्रथाओं का पालन — सार्वजनिक डेटा, ToS का सम्मान, PII से बचाव, बाधाएँ बायपास न करना, डेटा का ज़िम्मेदारी से उपयोग — आपकी टीम को सुरक्षित ज़ोन में रखता है।
ज़रूरी अस्वीकरण: यह लेख जानकारी के लिए है, कानूनी सलाह नहीं। अगर आप बड़े पैमाने पर स्क्रैपिंग ऑपरेशन की योजना बना रहे हैं या संवेदनशील डेटा से निपट रहे हैं, तो किसी योग्य वकील से सलाह लें। लेकिन उस सेल्स मैनेजर के लिए जो अभी किसी सार्वजनिक डायरेक्टरी से लीड्स निकालना चाहता है, या उस ईकॉमर्स टीम के लिए जो प्रतिस्पर्धी कीमतों पर नज़र रख रही है? क़ानून शायद आपकी सोच से कहीं ज़्यादा आपके पक्ष में है।
अगर आप देखना चाहते हैं कि Thunderbit इस तरह के सार्वजनिक-डेटा निष्कर्षण को कैसे आसान बनाता है — कोई कोड नहीं, कोई बायपास नहीं, बस संरचित डेटा आपके वर्कफ़्लो में — तो हमारा देखें या लें और खुद आज़माएँ।
अक्सर पूछे जाने वाले प्रश्न
1. क्या 2026 में अमेरिका में वेब स्क्रैपिंग कानूनी है?
हाँ, जब आप सार्वजनिक रूप से उपलब्ध डेटा स्क्रैप करते हैं तो अमेरिका में वेब स्क्रैपिंग आम तौर पर कानूनी है। इसे सीधे रोकने वाला कोई संघीय क़ानून नहीं है। हालाँकि, आप कैसे स्क्रैप करते हैं, कौन-सा डेटा इकट्ठा करते हैं, और उसका उपयोग कैसे करते हैं — ये बातें CFAA, कॉपीराइट क़ानून, अनुबंध क़ानून, या राज्य गोपनीयता नियमों के तहत कानूनी जोखिम पैदा कर सकती हैं। सबसे सुरक्षित तरीका है सार्वजनिक पेजों तक सीमित रहना, तकनीकी बाधाएँ बायपास न करना, व्यक्तिगत डेटा संग्रह कम करना, और डेटा का उपयोग सीधे पुनर्प्रकाशन की बजाय विश्लेषण के लिए करना।
2. क्या वेब स्क्रैपिंग के लिए मुझे जेल हो सकती है?
वेब स्क्रैपिंग के लिए आपराधिक अभियोजन बेहद दुर्लभ है और आम तौर पर बिना अनुमति प्रमाणीकरण बाधाओं के पीछे डेटा तक पहुँच (CFAA उल्लंघन) या धोखाधड़ी की माँग करता है। DOJ की 2022 CFAA अभियोजन नीति कहती है कि सामान्य सेवा-शर्त उल्लंघन आपराधिक आरोपों के लिए पर्याप्त नहीं हैं। ज़्यादातर web scraping विवाद दीवानी होते हैं — मुक़दमे, न कि आपराधिक मामले।
3. क्या किसी वेबसाइट की Terms of Service का उल्लंघन स्क्रैपिंग को ग़ैरकानूनी बना देता है?
ज़रूरी नहीं। किसी वेबसाइट की ToS का उल्लंघन एक अनुबंध-समस्या है, न कि आपराधिक अपराध। अगर आपने clickwrap शर्तें स्वीकार की हैं जो स्क्रैपिंग पर रोक लगाती हैं, तो वेबसाइट दीवानी breach-of-contract दावा कर सकती है। लेकिन browsewrap शर्तें (फ़ुटर में लिंक की हुई) लागू करवाना कहीं मुश्किल होता है, खासकर अगर आपने कभी लॉगिन नहीं किया या "I agree" पर क्लिक नहीं किया। कई स्क्रैपिंग मामलों में अदालतें निष्क्रिय browsewrap प्रवर्तन को लेकर संदेहपूर्ण रही हैं।
4. क्या अमेरिका में व्यक्तिगत डेटा (ईमेल, फ़ोन नंबर) स्क्रैप करना कानूनी है?
यह निर्भर करता है। कई अमेरिकी राज्य गोपनीयता क़ानून — जिनमें CCPA, VCDPA, CPA, और अन्य शामिल हैं — सार्वजनिक रूप से उपलब्ध व्यक्तिगत जानकारी के लिए अपवाद रखते हैं, लेकिन परिभाषाएँ और आगे के उपयोग से जुड़ी बाध्यताएँ अलग-अलग हैं। गैर-व्यक्तिगत डेटा (उत्पाद कीमतें, बिज़नेस लिस्टिंग, सार्वजनिक रिकॉर्ड) स्क्रैप करना, व्यक्तिगत उपभोक्ता प्रोफ़ाइल स्क्रैप करने से कहीं कम जोखिम वाला है। अगर आप बड़े पैमाने पर PII इकट्ठा कर रहे हैं, तो लागू राज्य क़ानून जाँचें और सुनिश्चित करें कि आपका उद्देश्य अनुपालन योग्य है।
5. क्या hiQ बनाम LinkedIn ने सभी वेब स्क्रैपिंग को कानूनी बना दिया?
नहीं। hiQ का फ़ैसला एक प्रारंभिक निषेधाज्ञा था — सफलता की संभावना पर आधारित एक अस्थायी आदेश — न कि गुण-दोष पर अंतिम निर्णय। Ninth Circuit ने कहा कि सार्वजनिक डेटा तक पहुँचना संभवतः CFAA का उल्लंघन नहीं था, लेकिन मामला 2022 में अंतिम न्यायालय निर्णय के बिना समझौते पर समाप्त हो गया। यह किसी भी website को स्क्रैप करने की सार्वभौमिक अनुमति नहीं देता, और यह कॉपीराइट, अनुबंध, गोपनीयता, या व्यापार रहस्य के दावों को भी संबोधित नहीं करता। सार्वजनिक-डेटा स्क्रैपरों के लिए यह उत्साहजनक है, लेकिन कानूनी गारंटी नहीं।
और जानें
