क्या अमेरिका में वेब स्क्रैपिंग कानूनी है? कानून असल में क्या कहता है

अंतिम अपडेट April 29, 2026

कुछ हफ़्ते पहले, हमारी सेल्स टीम के एक सहकर्मी ने मुझसे वही सवाल पूछा जो मुझे बार-बार सुनने को मिलता है: "क्या हम इस पब्लिक बिज़नेस डायरेक्टरी से लीड्स स्क्रैप कर सकते हैं, या हम पर मुकदमा हो जाएगा?" उसे खुले वेब पर ही संभावित ग्राहकों का खज़ाना मिल गया था — न लॉगिन, न पेवॉल — लेकिन एक तेज़ Google खोज ने उसे यक़ीन दिला दिया था कि शायद उसके हाथों में हथकड़ियाँ पड़ सकती हैं।

ऐसी घबराहट हर जगह है। अब स्वचालित ट्रैफ़िक कुल वेब ट्रैफ़िक का लगभग है, web scraping software बाज़ार के 2025 में लगभग तक बढ़ने का अनुमान है, और फिर भी ऑनलाइन घूम रही ज़्यादातर कानूनी सलाह या तो पुरानी है, या बहुत सरल बना दी गई है, या बिल्कुल गलत है। 2022 का hiQ बनाम LinkedIn मामला? लगभग हर लेख उसे ऐसे पेश करता है जैसे वह सुप्रीम कोर्ट का फ़ैसला था कि "हर स्क्रैपिंग कानूनी है।" (स्पॉइलर: ऐसा नहीं है, और ऐसा था भी नहीं।)

इसी बीच, 2024 और 2025 के बड़े नए मामले — जिनमें X (पहले Twitter), Meta, Reddit, Google, और AI कंपनियाँ शामिल हैं — नियमों को सक्रिय रूप से फिर से आकार दे रहे हैं, और लगभग कोई इनके बारे में लिख ही नहीं रहा। यह गाइड बताती है कि 2026 में अमेरिकी क़ानून वेब स्क्रैपिंग के बारे में असल में क्या कहता है, अफ़वाहों और हक़ीक़त में फर्क करती है, और आपको यह तय करने के लिए एक व्यावहारिक ढाँचा देती है कि आप क्या कर सकते हैं और क्या नहीं।

ig_01ef7eecb01f4f920169f063829a4481918da7ee0e1b3f672e_compressed.webp

वेब स्क्रैपिंग क्या है (और व्यवसायों को इसकी परवाह क्यों है)?

वेब स्क्रैपिंग का मतलब है वेबसाइटों से जानकारी इकट्ठा करने और उसे संरचित डेटा में व्यवस्थित करने के लिए ऑटोमेटेड सॉफ़्टवेयर का इस्तेमाल — जैसे स्प्रेडशीट, डेटाबेस, या CRM रिकॉर्ड।

और साफ़ तौर पर कहें तो, एक स्क्रैपर वेब पेजों पर जाता है, उनके पीछे मौजूद HTML पढ़ता है, और खास डेटा बिंदु निकालता है — कीमतें, नाम, पते, प्रोडक्ट स्पेसिफ़िकेशन, जो भी चाहिए — और उन्हें साफ़-सुथरी पंक्तियों और कॉलमों में रख देता है। यह वेबसाइट से जानकारी कॉपी करके Excel में डालने के लिए किसी इंसान को काम पर रखने जैसा डिजिटल रूप है, बस बॉट यह काम घंटों की बजाय सेकंडों में कर देता है।

वेब स्क्रैपिंग हैकिंग नहीं है। यह वही जानकारी एक्सेस करती है जो कोई भी विज़िटर अपने ब्राउज़र में देख सकता है।

और यह कोई बहुत छोटी डेवलपर-ट्रिक भी नहीं है। सर्च इंजन, प्राइस-कॉम्पेरिज़न साइट्स, रियल एस्टेट प्लेटफ़ॉर्म, मार्केट रिसर्च डैशबोर्ड, और AI-संचालित टूल — सभी काम करने के लिए वेब क्रॉलिंग और स्क्रैपिंग पर निर्भर करते हैं। अगर आपने कभी Google इस्तेमाल किया है, फ़्लाइट एग्रीगेटर देखा है, या Zillow ब्राउज़ किया है, तो आपने स्क्रैपिंग का फ़ायदा उठाया है।

मैं जिन सबसे आम व्यावसायिक उपयोग मामलों से अक्सर रूबरू होता हूँ:

  • लीड जनरेशन: बिज़नेस डायरेक्टरी से कंपनी के नाम, वेबसाइट, जॉब टाइटल, या सार्वजनिक संपर्क विवरण निकालना।
  • प्रतिस्पर्धी कीमत निगरानी: ईकॉमर्स टीमें प्रतिद्वंद्वी SKU की कीमत, उपलब्धता, और शिपिंग जानकारी ट्रैक करती हैं।
  • रियल एस्टेट इंटेलिजेंस: सार्वजनिक प्रॉपर्टी लिस्टिंग, कीमतें, और बाज़ार रुझान एकत्र करना।
  • उत्पाद शोध: रिटेल साइट्स से प्रोडक्ट स्पेसिफ़िकेशन, रेटिंग, उपलब्धता, और श्रेणी डेटा निकालना।
  • मार्केट इंटेलिजेंस: जॉब पोस्टिंग, स्टोर ओपनिंग, न्यूज़ सिग्नल, या सार्वजनिक वित्तीय डेटा ट्रैक करना।

तकनीक स्वयं तटस्थ है। कानूनी विश्लेषण इस बात पर टिका है कि आप डेटा तक कैसे पहुँचते हैं और बाद में उसके साथ क्या करते हैं।

क्या अमेरिका में वेब स्क्रैपिंग कानूनी है? संक्षिप्त जवाब

अमेरिका में कोई ऐसा संघीय क़ानून नहीं है जो web scraping पर सीधे पूरी तरह पाबंदी लगाता हो। सार्वजनिक रूप से उपलब्ध डेटा को स्क्रैप करना आम तौर पर अनुमति-योग्य है।

लेकिन — और यह बड़ा लेकिन है — वैधता कई बातों पर निर्भर करती है: डेटा का प्रकार, आप उसे कैसे एक्सेस करते हैं, क्या आपने किसी सेवा-शर्त से सहमति दी है, क्या डेटा में व्यक्तिगत जानकारी शामिल है, और आप उसका इस्तेमाल किस लिए करने वाले हैं।

फ़ोरम, Reddit थ्रेड्स, और यहाँ तक कि कानूनी ब्लॉग्स में भ्रम का सबसे बड़ा स्रोत क्या है? लोग "ग़ैरकानूनी" को "वेबसाइट की सेवा-शर्तों के विरुद्ध" होने के साथ मिला देते हैं। ये दोनों बहुत अलग चीज़ें हैं। वेबसाइट के नियम तोड़ने पर आपका IP ब्लॉक हो सकता है या खाता बंद हो सकता है। संघीय क़ानून तोड़ने पर मुक़दमा हो सकता है या, दुर्लभ मामलों में, आपराधिक अभियोजन भी। ज़्यादातर स्क्रैपिंग के परिणाम सीधे-सीधे दीवानी श्रेणी में आते हैं।

इस लेख का बाकी हिस्सा मुख्य क़ानूनों, मील का पत्थर बने मुक़दमों (2024 और 2025 के उन मामलों सहित जिनके बारे में लगभग कोई नहीं लिख रहा), और एक ऐसा व्यावहारिक निर्णय-ढाँचा समझाता है जिसे आप सच में इस्तेमाल कर सकें।

"ग़ैरकानूनी" के तीन प्रकार: आपराधिक, दीवानी, और ToS उल्लंघन

वेब स्क्रैपिंग क़ानून के बारे में सबसे बड़ी गलतफ़हमी को साफ़ करने का समय आ गया है। जब कोई पूछता है "क्या वेब स्क्रैपिंग ग़ैरकानूनी है?", तो वह अक्सर जोखिम की तीन बिल्कुल अलग श्रेणियों को एक साथ मिला रहा होता है। इन्हें अलग करने से पूरी बातचीत बदल जाती है।

ig_01ef7eecb01f4f920169f064039ff881918c7bf5b1db31fa7f_compressed.webp

दायित्व का प्रकारइसे क्या ट्रिगर करता हैसंभावित परिणामगंभीरता
आपराधिक (CFAA)बिना अनुमति प्रमाणीकरण बाधाओं के पीछे डेटा तक पहुँचना, धोखाधड़ी, क्रेडेंशियल का दुरुपयोगसंघीय अभियोजन, जुर्माना, कारावास🔴 गंभीर — लेकिन सामान्य व्यावसायिक स्क्रैपिंग में बेहद दुर्लभ
दीवानी मुकदमाकॉपीराइट उल्लंघन, चल-संपत्ति पर अतिक्रमण, अनुबंध उल्लंघन, व्यापार रहस्य का दुरुपयोग, निजता उल्लंघनमौद्रिक क्षतिपूर्ति, निषेधाज्ञा, डेटा हटाना🟡 महत्वपूर्ण
ToS उल्लंघनब्राउज़व्रैप या क्लिकव्रैप सेवा-शर्तों का उल्लंघनखाता समाप्ति, IP ब्लॉक, चेतावनी-पत्र, संभावित दीवानी मुकदमा🟢 कम से मध्यम

न्याय विभाग की साफ़ तौर पर कहती है कि सामान्य सेवा-शर्त उल्लंघन — जैसे नकली खाता बनाना या वेबसाइट के नियम तोड़ना — अपने आप में संघीय आपराधिक आरोप लगाने के लिए पर्याप्त नहीं हैं। यह एक बड़ा मुद्दा है।

व्यावहारिक निष्कर्ष: अगर आप सेल्स टीम हैं जो सार्वजनिक बिज़नेस लिस्टिंग स्क्रैप कर रही है, या ईकॉमर्स टीम है जो प्रतिस्पर्धी कीमतों पर नज़र रख रही है, तो आप लगभग निश्चित रूप से आपराधिक जोखिम से नहीं, बल्कि दीवानी जोखिम-प्रबंधन से जूझ रहे हैं। इसका मतलब यह नहीं कि आप नियमों की अनदेखी कर सकते हैं, लेकिन इससे आपकी घबराहट का स्तर ज़रूर संतुलित होना चाहिए।

वे प्रमुख अमेरिकी क़ानून जो web scraping पर लागू होते हैं

अमेरिका में वेब स्क्रैपिंग से चार कानूनी स्तंभ जुड़ते हैं, और हर एक पहेली के अलग हिस्से को छूता है।

Computer Fraud and Abuse Act (CFAA)

मूल रूप से कंप्यूटर हैकिंग पर मुक़दमा चलाने के लिए लिखा गया था। वर्षों में, यह स्क्रैपिंग मुक़दमों के लिए सबसे अधिक इस्तेमाल होने वाला क़ानून बन गया, आम तौर पर इस सिद्धांत पर कि स्क्रैपर ने वेबसाइट तक "बिना अनुमति" पहुँच बनाई।

फिर आया। सुप्रीम कोर्ट ने कहा कि कोई व्यक्ति CFAA के तहत तभी "अधिकृत पहुँच से आगे बढ़ता है" जब वह कंप्यूटर के उन हिस्सों — फ़ाइलों, फ़ोल्डरों, डेटाबेस — तक पहुँचता है जो उसके लिए निषिद्ध हैं। केवल उस जानकारी का दुरुपयोग करना जिसे देखने की अनुमति आपको पहले से थी, उसमें यह नहीं आता।

स्क्रैपिंग पर इसका असर:

  • कम CFAA जोखिम: सार्वजनिक web pages जो बिना लॉगिन के किसी के लिए भी उपलब्ध हैं। कोई गेट नहीं, "बिना अनुमति पहुँच" की समस्या नहीं।
  • ज़्यादा CFAA जोखिम: लॉगिन, पेवॉल, एक्सेस टोकन, सेशन मैनिपुलेशन, या रद्द की गई पहुँच के पीछे मौजूद डेटा।

hiQ बनाम LinkedIn मामला (जिसका नीचे विस्तार से विश्लेषण करेंगे) ने सार्वजनिक डेटा के लिए इसे और मज़बूत किया। लेकिन CFAA पूरी कहानी का सिर्फ़ एक हिस्सा है।

कॉपीराइट क़ानून और DMCA

अमेरिकी कॉपीराइट क़ानून मौलिक रचनात्मक अभिव्यक्ति की रक्षा करता है — लेख, फ़ोटो, वीडियो, रचनात्मक प्रोडक्ट विवरण — लेकिन । सुप्रीम कोर्ट का यहाँ का मील का पत्थर है: नाम, पते, और फ़ोन नंबर जैसे तथ्य कॉपीराइट योग्य नहीं हैं, चाहे उन्हें इकट्ठा करने में कितना भी श्रम लगा हो।

स्क्रैप किए गए डेटा के लिए जोखिम-स्तर:

आप क्या स्क्रैप कर रहे हैंकॉपीराइट जोखिमक्यों
कीमतें, उत्पाद नाम, पते, तिथियाँ, स्पेसिफ़िकेशनकमये तथ्य हैं
पूरी लेख सामग्री, फ़ोटो, वीडियो, रचनात्मक समीक्षाएँज़्यादाये अभिव्यक्तिपूर्ण कृतियाँ हैं
क्यूरेटेड डेटाबेस, रैंकिंग, संपादकीय टैक्सोनॉमीमध्यम-ऊँचाचयन और व्यवस्था संरक्षित हो सकती है
पेवॉल या DRM-सुरक्षित सामग्रीऊँचाकॉपीराइट के साथ एक्सेस-कंट्रोल मुद्दे भी

एक और परत जोड़ती है: तकनीकी सुरक्षा उपायों (पेवॉल, DRM, कुछ anti-bot सिस्टम) को बायपास करके कॉपीराइटेड सामग्री तक पहुँचना दायित्व पैदा कर सकता है, भले ही आप सामग्री की प्रतिलिपि कभी न बनाएँ। 2025–2026 के मामलों में, जिनमें शामिल है, इसे आक्रामक रूप से परखा जा रहा है, जहाँ Google अपने SearchGuard anti-bot सिस्टम को बायपास करने के लिए DMCA उल्लंघन का आरोप लगाता है।

Fair use भी महत्त्वपूर्ण है — रूपांतरकारी उपयोग (सिर्फ़ फिर से प्रकाशित करने की बजाय डेटा का विश्लेषण करना, एकत्रित करना, या उस पर आगे निर्माण करना) आम तौर पर किसी और की सामग्री को कॉपी करके दोबारा पोस्ट करने से ज़्यादा सुरक्षित होता है।

अनुबंध क़ानून: सेवा-शर्तें (Browsewrap बनाम Clickwrap)

बहुत-सी वेबसाइटें अपनी सेवा-शर्तों में anti-scraping भाषा जोड़ती हैं — लेकिन उसका लागू होना पूरी तरह इस बात पर निर्भर करता है कि आपको वे शर्तें कैसे मिलीं।

अनुबंध का प्रकारलागू होने की शक्तिस्क्रैपरों के लिए इसका अर्थ
Clickwrap (आप "I agree" पर क्लिक करते हैं)मज़बूतअदालतें इन्हें लगातार लागू करती हैं। anti-scraping शर्तें दीवानी दावों का आधार बन सकती हैं।
Sign-in wrap (लॉगिन के पास सूचना)मामले-विशेषइस पर निर्भर करता है कि सूचना कितनी स्पष्ट थी।
Browsewrap (फ़ुटर में लिंक)कमज़ोरजब उपयोगकर्ताओं को वास्तविक सूचना ही न मिली हो, अदालतें संदेह करती हैं।
Account/API शर्तेंऔर मज़बूतलॉग-इन स्क्रैपिंग या API का दुरुपयोग कहीं ज़्यादा जोखिम वाला है।

में अदालत ने पाया कि Meta की शर्तें लॉग-आउट सार्वजनिक स्क्रैपिंग को उस तरह कवर नहीं करती थीं जैसा Meta ने तर्क दिया था — सार्वजनिक स्क्रैपिंग के लिए जिन लॉग-इन खातों का इस्तेमाल बताया गया था, उनका Bright Data द्वारा उपयोग सिद्ध नहीं हुआ था। यह एक महत्वपूर्ण अंतर है।

व्यावहारिक सलाह: अगर आपने कभी लॉग इन नहीं किया, कभी "I agree" पर क्लिक नहीं किया, और सिर्फ़ सार्वजनिक पेज स्क्रैप कर रहे हैं, तो browsewrap पाबंदियों को वेबसाइट के लिए आपके ख़िलाफ़ लागू करना ज़्यादा कठिन होता है। लेकिन स्क्रैपिंग से पहले हमेशा ToS जाँच लें, खासकर अगर आपने खाता बनाया है।

अमेरिकी राज्य गोपनीयता क़ानून (CCPA और आगे)

अगर आप जो डेटा स्क्रैप कर रहे हैं उसमें व्यक्तिगत जानकारी — नाम, ईमेल, फ़ोन नंबर, स्थान डेटा — शामिल है, तो राज्य गोपनीयता क़ानून लागू हो सकते हैं। और यह जाल तेज़ी से फैल रहा है। IAPP ने मध्य-2025 तक की गणना की थी, और के व्यापक गोपनीयता क़ानूनों की सूचना दी।

इनमें से ज़्यादातर क़ानूनों में "सार्वजनिक रूप से उपलब्ध" व्यक्तिगत जानकारी के लिए अपवाद होते हैं, लेकिन परिभाषाएँ अलग-अलग हैं। और आगे का उपयोग — उस डेटा को बेचना, साझा करना, या उससे प्रोफ़ाइल बनाना — शुरुआती संग्रह छूट-योग्य होने पर भी दायित्व पैदा कर सकता है।

राज्य क़ानूनप्रभावीक्या स्क्रैप किया गया PII शामिल है?ऑप्ट-आउट आवश्यकताजुर्माना दायरा
CCPA/CPRA (कैलिफ़ोर्निया)2020/2023हाँबिक्री/साझाकरण से ऑप्ट-आउट; GPC मान्यता प्राप्त$2,663–$7,988/उल्लंघन (2025 समायोजित)
CPA (कोलोराडो)2023हाँजुलाई 2024 से सार्वभौमिक ऑप्ट-आउट/GPCभ्रामक व्यापार व्यवहार ढाँचे के तहत दीवानी दंड
CTDPA (कनेक्टिकट)2023हाँजनवरी 2025 से OOPS/GPCजानबूझकर उल्लंघन पर $5,000 तक
VCDPA (वर्जीनिया)2023हाँऑप्ट-आउट अधिकारउल्लंघन पर $7,500 तक
TDPSA (टेक्सास)2024हाँजनवरी 2025 से सार्वभौमिक ऑप्ट-आउटउल्लंघन पर $7,500 तक
+ 2026 तक पारित 8 औरअलग-अलगअलग-अलगअलग-अलगअलग-अलग

अतिरिक्त राज्यों में Utah, Oregon, Montana, Delaware, Iowa, Nebraska, New Hampshire, New Jersey, Tennessee, Minnesota, Maryland, Indiana, Kentucky, और Rhode Island शामिल हैं। Alabama ने 1 मई 2027 से प्रभावी एक क़ानून पारित किया।

व्यवसायिक उपयोगकर्ताओं के लिए जो उत्पाद कीमतें, बिज़नेस लिस्टिंग, या बाज़ार डेटा स्क्रैप कर रहे हैं — यानी गैर-PII, तथ्यात्मक जानकारी — गोपनीयता जोखिम काफ़ी कम है। जैसे टूल सार्वजनिक पेजों (उत्पाद डेटा, बिज़नेस डायरेक्टरी, रियल एस्टेट लिस्टिंग) से संरचित निष्कर्षण पर ध्यान देते हैं, जो सबसे कम-जोखिम वाली स्क्रैपिंग श्रेणी से मेल खाता है।

वेब स्क्रैपिंग के ऐतिहासिक मुक़दमे: 2000 से 2026 तक की समयरेखा

यहीं मुझे लगता है कि इस विषय पर ज़्यादातर गाइडें कमज़ोर पड़ जाती हैं। लगभग हर लेख hiQ बनाम LinkedIn (2022) पर रुक जाता है और उन फ़ैसलों को नज़रअंदाज़ कर देता है जो अभी स्क्रैपिंग क़ानून को आकार दे रहे हैं। यहाँ पूरी समयरेखा है:

मामलावर्षमुख्य निर्णयस्क्रैपरों पर असर
eBay बनाम Bidder's Edge2000trespass to chattels के तहत प्रारंभिक निषेधाज्ञा; सर्वरों पर क्रॉलर के भार का महत्व⚠️ सर्वरों पर भारी भार डालने वाली उच्च-आयतन स्क्रैपिंग दीवानी दायित्व पैदा कर सकती है
Facebook बनाम Power Ventures2016Cease-and-desist के बाद Facebook प्रणालियों का उपयोग जारी रखते हुए CFAA दायित्व⚠️ C&D + प्रमाणीकरण/गेटेड एक्सेस = उच्च जोखिम
Van Buren बनाम US2021CFAA में "अधिकृत पहुँच से आगे" का मतलब निषिद्ध कंप्यूटर क्षेत्रों तक पहुँचना✅ CFAA का दायरा काफ़ी संकुचित हुआ
hiQ बनाम LinkedIn2022सार्वजनिक डेटा तक पहुँचना CFAA उल्लंघन नहीं (प्रारंभिक निषेधाज्ञा, बाद में समझौता)✅ सार्वजनिक डेटा ≠ "बिना अनुमति पहुँच" — लेकिन यह अंतिम फ़ैसला नहीं था
Meta बनाम Bright Data2024लॉग-आउट सार्वजनिक स्क्रैपिंग पर Meta के अनुबंध सिद्धांत में Bright Data को summary judgment मिला✅ सहमति के बिना लॉग-आउट स्क्रैपिंग पर शर्तें लागू न भी हों
X Corp. बनाम Bright Data2024मई में कई दावों का खारिज होना; नवंबर आदेश ने स्क्रैपिंग/बिक्री-आधारित दावों को अस्वीकार किया✅ सार्वजनिक डेटा की कॉपीिंग से जुड़े दावे कमज़ोर पड़े
Compulife बनाम Newman/Rutstein2024-2025बीमा कोट डेटा के बड़े पैमाने पर निष्कर्षण पर व्यापार-रहस्य दायित्व; फ़रवरी 2025 में cert denied⚠️ सार्वजनिक दिखने वाला डेटा भी संरक्षित डेटाबेस हो सकता है
Reddit बनाम Perplexity/SerpApi/Oxylabs/AWMProxy2025-2026Google परिणामों के माध्यम से औद्योगिक-स्तरीय अप्रत्यक्ष स्क्रैपिंग का आरोप⚠️ AI-युग के मामले डेटा आपूर्ति-श्रृंखलाओं को निशाना बनाते हैं
Google बनाम SerpApi2025-2026कथित anti-bot बायपास पर DMCA §1201 दावे⚠️ यह परखा जा रहा है कि anti-bot सिस्टम DMCA एक्सेस-कंट्रोल हैं या नहीं

रुझान साफ़ है: अदालतें CFAA के तहत सार्वजनिक डेटा तक पहुँच की रक्षा पहले से अधिक कर रही हैं, लेकिन कॉपीराइट, अनुबंध, गोपनीयता, व्यापार रहस्य, और इन्फ़्रास्ट्रक्चर के दावे अब भी पूरी तरह स्वतंत्र जोखिम हैं। और AI प्रशिक्षण की लहर बिल्कुल नए कानूनी सवाल खड़े कर रही है।

रिकॉर्ड को सही करें: hiQ बनाम LinkedIn ने वास्तव में क्या तय किया

यह वेब स्क्रैपिंग क़ानून का सबसे ज़्यादा गलत समझा गया मामला है। मैंने इसे ब्लॉग पोस्ट्स, Reddit थ्रेड्स, और यहाँ तक कि कानूनी सारांशों में भी यह साबित करने के लिए उद्धृत होते देखा है कि "सार्वजनिक web scraping कानूनी है।" मामला इतना आसान नहीं है।

असल में क्या हुआ, यह रहा:

hiQ ने क्या कहा: Ninth Circuit ने एक प्रारंभिक निषेधाज्ञा — एक अस्थायी आदेश — को बरकरार रखा, जिसने LinkedIn को hiQ द्वारा सार्वजनिक LinkedIn प्रोफ़ाइलों की स्क्रैपिंग रोकने से रोका। अदालत ने कहा कि सार्वजनिक रूप से उपलब्ध डेटा तक पहुँचना संभवतः CFAA का उल्लंघन नहीं था। मुख्य शब्द: संभवतः। स्रोत:

hiQ ने क्या स्थापित नहीं किया:

  • किसी भी सार्वजनिक website को स्क्रैप करने का सार्वभौमिक अधिकार
  • गुण-दोष पर अंतिम फ़ैसला — सुप्रीम कोर्ट ने Van Buren के बाद निर्णय रद्द करके वापस भेजा, Ninth Circuit ने फिर से पुष्टि की, और फिर मामला बिना किसी अंतिम न्यायालय निर्णय के
  • रिपोर्ट किए गए समझौते में $500,000, एक निषेधाज्ञा, और डेटा/सॉफ़्टवेयर नष्ट करने की बाध्यताएँ शामिल थीं

यह आपके लिए क्यों मायने रखता है: hiQ सार्वजनिक डेटा स्क्रैप करने वालों के लिए उत्साहजनक है। यह संकेत देता है कि अदालतें उन प्लेटफ़ॉर्म्स को लेकर सतर्क हैं जो उस जानकारी पर निजी एकाधिकार बनाने की कोशिश करते हैं, जिसकी वे मालिक नहीं हैं। लेकिन यह कानूनी गारंटी नहीं है। अन्य दावे — कॉपीराइट, अनुबंध, गोपनीयता, व्यापार रहस्य — कभी सुलझाए ही नहीं गए। Van Buren के बाद CFAA का परिदृश्य साफ़ है, लेकिन hiQ पर अकेले कानूनी ढाल के रूप में भरोसा करना गलती होगी।

यह बात सही समझना ही सूचित जोखिम-प्रबंधन और इच्छाधारी सोच के बीच फ़र्क़ पैदा करता है।

क्या मैं इसे कानूनी रूप से स्क्रैप कर सकता हूँ? एक व्यावहारिक निर्णय-प्रवाह

ig_01ef7eecb01f4f920169f06460a4f0819194734b5fbc60656e_compressed.webp

स्क्रैपिंग की वैधता एक "धुँधला क्षेत्र" जैसी लगती है — यह बात मैं बार-बार सुनता हूँ। इसलिए और कानूनी सिद्धांत की बजाय, यहाँ एक ऐसा निर्णय-ढाँचा है जिसे आप सच में इस्तेमाल कर सकते हैं। किसी भी स्क्रैपिंग प्रोजेक्ट के लिए पाँच सवाल:

1. क्या डेटा सार्वजनिक रूप से उपलब्ध है (लॉगिन की आवश्यकता नहीं)?

  • अगर नहीं → CFAA का जोखिम अधिक। आगे बढ़ने से पहले अनुमति या कानूनी समीक्षा लें।
  • अगर हाँ → सवाल 2 पर जाएँ।

2. क्या आप कोई तकनीकी बाधा (CAPTCHA, IP ब्लॉक, rate limits, paywalls) बायपास कर रहे हैं?

  • अगर हाँ → संभावित DMCA और CFAA मुद्दे। रुकें या कानूनी सलाहकार तक मामला पहुँचाएँ।
  • अगर नहीं → सवाल 3 पर जाएँ।

3. क्या आपने ऐसा clickwrap ToS स्वीकार किया है जो स्क्रैपिंग को प्रतिबंधित करता है?

  • अगर हाँ → दीवानी अनुबंध दायित्व का जोखिम। विचार करें कि क्या वही डेटा किसी और स्रोत से मिल सकता है या अनुमति लें।
  • अगर नहीं → सवाल 4 पर जाएँ।

4. क्या डेटा में व्यक्तिगत जानकारी (PII) शामिल है?

  • अगर हाँ → CCPA और लागू राज्य गोपनीयता क़ानून जाँचें। सुनिश्चित करें कि आपका उपयोग-केस अनुपालन योग्य है और ऑप्ट-आउट अधिकारों का सम्मान करें।
  • अगर नहीं → सवाल 5 पर जाएँ।

5. आप डेटा के साथ क्या करेंगे?

  • कॉपीराइटेड सामग्री (पूरे लेख, फ़ोटो, वीडियो) का व्यावसायिक पुनर्प्रकाशन → कॉपीराइट जोखिम।
  • रूपांतरकारी विश्लेषण, आंतरिक शोध, या तथ्यात्मक डेटा का उपयोग (कीमतें, स्पेसिफ़िकेशन, लिस्टिंग) → आम तौर पर कम जोखिम।

अगर आप "सार्वजनिक पेज, कोई बायपास नहीं, कोई clickwrap नहीं, गैर-PII, आंतरिक विश्लेषण के लिए तथ्यात्मक डेटा" वाले क्षेत्र में पहुँचते हैं, तो आप सबसे कम-जोखिम श्रेणी में हैं। यही वह तरह का वर्कफ़्लो है जिसके लिए बनाया गया है — उत्पाद लिस्टिंग, बिज़नेस डायरेक्टरी, और रियल एस्टेट डेटा जैसे सार्वजनिक web pages से संरचित, तथ्यात्मक डेटा निकालना, फिर उसे अपनी विश्लेषण प्रक्रिया के लिए Excel, Google Sheets, Airtable, या Notion में निर्यात करना।

इस फ़्लोचार्ट को सहेज लें। यह किसी वकील की जगह नहीं लेगा, लेकिन यह आपको बहुत अनावश्यक घबराहट से बचा देगा।

AI प्रशिक्षण और वेब स्क्रैपिंग: नया कानूनी मोर्चा

ig_01ef7eecb01f4f920169f063bb1014819192c3bf906b778b39_compressed.webp

AI ने स्क्रैपिंग क़ानून में एक बिल्कुल नई जटिलता जोड़ दी है। बड़े भाषा मॉडल, इमेज जनरेटर, और अन्य AI सिस्टम को प्रशिक्षित करने के लिए डेटा स्क्रैप करना अब एक बड़ा कानूनी रणक्षेत्र है — और अदालतों ने अभी तक मुख्य सवालों को सुलझाया नहीं है।

अभी स्थिति यह है:

मामलास्थिति (2026)मुख्य मुद्दा
NYT बनाम OpenAI/Microsoftजारी। मूल कॉपीराइट दावों को अप्रैल 2025 में आगे बढ़ने दिया गया ; discovery विवादों में 20M+ ChatGPT logs शामिल हैं।क्या स्क्रैप किए गए न्यूज़ लेखों पर प्रशिक्षण fair use है या कॉपीराइट उल्लंघन?
Bartz बनाम AnthropicJudge Alsup ने माना कि कुछ प्रशिक्षण उपयोग fair use थे, लेकिन पायरेटेड स्रोतों का अधिग्रहण नहीं था। रिपोर्ट किया गया समझौता: लगभग $1.5Bप्रशिक्षण रूपांतरकारी हो सकता है, लेकिन पायरेटेड स्रोतों की कॉपीिंग अलग समस्या है।
Thomson Reuters बनाम RossDelaware अदालत ने Westlaw headnotes का उपयोग करके प्रतिस्पर्धी कानूनी शोध उत्पाद बनाने पर fair use को अस्वीकार कियासीधे प्रतिस्थापन वाले उत्पादों पर कॉपीराइट जोखिम अधिक होता है।
Getty बनाम Stability AI2025 में UK मामला काफ़ी हद तक Stability के पक्ष में गया; US मामला लंबित है।इमेज-प्रशिक्षण क़ानून अब भी अनिश्चित है।

एक उपयोगी बारीकी जोड़ती है: बड़े, विविध डेटासेट पर प्रशिक्षण अक्सर रूपांतरकारी हो सकता है, लेकिन पायरेटेड स्रोतों की कॉपीिंग और वे उपयोग जो सीधे कॉपीराइट मालिकों के बाज़ार से प्रतिस्पर्धा करते हैं, fair use के कमज़ोर तर्क हैं।

इस लेख को पढ़ रहे ज़्यादातर व्यवसायिक उपयोगकर्ताओं के लिए अंतर सीधा है: डेटा को अपनी विश्लेषण या व्यावसायिक गतिविधियों के लिए स्क्रैप करना (लीड जेन, कीमत निगरानी, मार्केट रिसर्च) उस स्थिति से बिल्कुल अलग कानूनी प्राणी है जब डेटा को AI मॉडल को प्रशिक्षित और व्यावसायीकृत करने के लिए स्क्रैप किया जाए। पहला कॉपीराइट जोखिम में कम है। दूसरा वह जगह है जहाँ बड़े मुक़दमे चल रहे हैं।

ज़िम्मेदारी से डेटा कैसे स्क्रैप करें (व्यावसायिक टीमों के लिए सर्वोत्तम अभ्यास)

कानून काफी हुआ। अब असल में देखें कि अपनी टीम के लिए कानूनी सिरदर्द पैदा किए बिना डेटा कैसे स्क्रैप करें।

सार्वजनिक रूप से उपलब्ध डेटा तक ही सीमित रहें

ऐसे डेटा पर ध्यान दें जिसे कोई भी लॉग इन किए बिना देख सकता है — प्रोडक्ट लिस्टिंग, बिज़नेस डायरेक्टरी, सार्वजनिक रिकॉर्ड, प्राइसिंग पेज। जैसे ही आप लॉगिन के पीछे जाते हैं, आप ज़्यादा जोखिम वाले क्षेत्र में पहुँच जाते हैं।

तकनीकी बाधाएँ बायपास न करें

अगर कोई साइट CAPTCHAs, IP blocks, rate limits, या paywalls इस्तेमाल करती है, तो वे संकेत हैं। इन्हें बायपास करने से DMCA, CFAA, या अनुबंध दावे शुरू हो सकते हैं। अगर डेटा इतना महत्वपूर्ण है, तो बेहतर है कि कोई आधिकारिक API या डेटा साझेदारी खोजें।

सेवा-शर्तें जाँचें

खासकर अगर आपने खाता बनाया है या "I agree" पर क्लिक किया है। anti-scraping धाराओं के लिए ToS पढ़ें। अगर शर्तें स्क्रैपिंग पर रोक लगाती हैं और आपने उन्हें स्वीकार किया है, तो सोचें कि क्या वही डेटा किसी और स्रोत से मिल सकता है।

व्यक्तिगत डेटा संग्रह कम करें

अगर आप PII (नाम, ईमेल, फ़ोन नंबर) इकट्ठा कर रहे हैं, तो सुनिश्चित करें कि लागू राज्य गोपनीयता क़ानूनों के तहत आपका उपयोग-केस अनुपालन योग्य है। तथ्यात्मक व्यावसायिक डेटा — कंपनी नाम, प्रोडक्ट कीमतें, लिस्टिंग विवरण — स्क्रैप करना, व्यक्तिगत उपभोक्ता प्रोफ़ाइल स्क्रैप करने की तुलना में काफ़ी कम जोखिम वाला है।

Robots.txt और rate limits का सम्मान करें

अपने आप में कानूनी रूप से बाध्यकारी नहीं है, लेकिन इसका सम्मान करना सद्भावना दिखाता है। और किसी वेबसाइट के सर्वरों पर ज़ोर न डालें — अनुरोधों की गति सीमित करें, उचित अंतराल रखें, और इन्फ़्रास्ट्रक्चर को नुकसान न पहुँचाएँ।

डेटा का उपयोग विश्लेषण के लिए करें, पुनर्प्रकाशन के लिए नहीं

रूपांतरकारी उपयोग — विश्लेषण, एकत्रीकरण, आंतरिक शोध, प्रतिस्पर्धी बुद्धिमत्ता — किसी और के लेख, इमेज, या समीक्षाएँ कॉपी करके फिर से पोस्ट करने से कहीं ज़्यादा सुरक्षित है। अगर आप अपनी टीम के लिए डैशबोर्ड या स्प्रेडशीट बना रहे हैं, तो आपकी स्थिति अपनी वेबसाइट पर स्क्रैप की गई सामग्री को दोबारा प्रकाशित करने से बेहतर है।

अनुपालन-उन्मुख स्क्रैपिंग के लिए बने टूल चुनें

यहाँ मैं उस चीज़ का ज़िक्र करूँगा जो हमने में बनाई है। हमारा व्यवसायिक उपयोगकर्ताओं के लिए बनाया गया है जो सार्वजनिक web pages — प्रोडक्ट लिस्टिंग, बिज़नेस डायरेक्टरी, रियल एस्टेट डेटा, लीड जानकारी — से संरचित डेटा निकालना चाहते हैं, बिना कोड लिखे या तकनीकी बाधाएँ बायपास किए। AI पेज पढ़ता है, फ़ील्ड सुझाता है, और आपको में निर्यात करने देता है। इसे ऊपर दिए गए निर्णय-प्रवाह की सबसे कम-जोखिम शाखा के लिए बनाया गया है: सार्वजनिक पेज, तथ्यात्मक डेटा, कोई लॉगिन बायपास नहीं।

फिर भी, कोई भी टूल आपको कानूनी जोखिम से पूरी तरह मुक्त नहीं करता। आप क्या स्क्रैप करते हैं और उसका उपयोग कैसे करते हैं, इसकी ज़िम्मेदारी हमेशा आपकी ही रहती है।

रिकॉर्ड रखें और cease-and-desist पर रुक जाएँ

अपनी स्क्रैपिंग गतिविधि और व्यावसायिक उद्देश्य का दस्तावेज़ीकरण करें। अगर आपको cease-and-desist पत्र मिलता है, तो रुकें और कानूनी सलाहकार से बात करें। औपचारिक सूचना के बाद स्क्रैपिंग जारी रखना आपका जोखिम स्तर काफ़ी बढ़ा देता है, खासकर अगर गेटेड सिस्टम शामिल हों।

अमेरिका में वेब स्क्रैपिंग की वैधता पर मुख्य निष्कर्ष

संक्षेप में:

  • कोई अमेरिकी संघीय क़ानून web scraping पर रोक नहीं लगाता। सार्वजनिक रूप से उपलब्ध तथ्यात्मक डेटा को स्क्रैप करना आम तौर पर अनुमति-योग्य है।
  • वैधता इस पर निर्भर करती है कि आप क्या स्क्रैप करते हैं, कैसे एक्सेस करते हैं, और उसके साथ क्या करते हैं। सार्वजनिक पेज + तथ्यात्मक डेटा + आंतरिक विश्लेषण = सबसे कम जोखिम।
  • Van Buren और hiQ के बाद CFAA का दायरा संकुचित हुआ है, लेकिन कॉपीराइट, अनुबंध, गोपनीयता, और व्यापार रहस्य के दावे स्वतंत्र जोखिम हैं जो अब भी लागू होते हैं।
  • आपराधिक दायित्व सामान्य व्यावसायिक स्क्रैपिंग में दुर्लभ है। ज़्यादातर जोखिम दीवानी हैं — मुक़दमे, हथकड़ियाँ नहीं।
  • hiQ बनाम LinkedIn कोई सार्वभौमिक अनुमति-पत्र नहीं है। वह एक प्रारंभिक निषेधाज्ञा थी जो बाद में समझौते पर खत्म हुई। उत्साहजनक, लेकिन गारंटी नहीं।
  • जब PII शामिल हो, राज्य गोपनीयता क़ानून मायने रखते हैं, लेकिन गैर-PII डेटा (कीमतें, लिस्टिंग, स्पेसिफ़िकेशन) सबसे कम जोखिम वाला होता है।
  • AI प्रशिक्षण के उपयोग-केस एक नया और अभी-अनिश्चित कानूनी मोर्चा हैं। अपने विश्लेषण के लिए व्यावसायिक स्क्रैपिंग, व्यावसायिक AI मॉडल बनाने के लिए स्क्रैपिंग से अलग जोखिम प्रोफ़ाइल रखती है।
  • सर्वोत्तम प्रथाओं का पालन — सार्वजनिक डेटा, ToS का सम्मान, PII से बचाव, बाधाएँ बायपास न करना, डेटा का ज़िम्मेदारी से उपयोग — आपकी टीम को सुरक्षित ज़ोन में रखता है।

ज़रूरी अस्वीकरण: यह लेख जानकारी के लिए है, कानूनी सलाह नहीं। अगर आप बड़े पैमाने पर स्क्रैपिंग ऑपरेशन की योजना बना रहे हैं या संवेदनशील डेटा से निपट रहे हैं, तो किसी योग्य वकील से सलाह लें। लेकिन उस सेल्स मैनेजर के लिए जो अभी किसी सार्वजनिक डायरेक्टरी से लीड्स निकालना चाहता है, या उस ईकॉमर्स टीम के लिए जो प्रतिस्पर्धी कीमतों पर नज़र रख रही है? क़ानून शायद आपकी सोच से कहीं ज़्यादा आपके पक्ष में है।

अगर आप देखना चाहते हैं कि Thunderbit इस तरह के सार्वजनिक-डेटा निष्कर्षण को कैसे आसान बनाता है — कोई कोड नहीं, कोई बायपास नहीं, बस संरचित डेटा आपके वर्कफ़्लो में — तो हमारा देखें या लें और खुद आज़माएँ।

अक्सर पूछे जाने वाले प्रश्न

1. क्या 2026 में अमेरिका में वेब स्क्रैपिंग कानूनी है?

हाँ, जब आप सार्वजनिक रूप से उपलब्ध डेटा स्क्रैप करते हैं तो अमेरिका में वेब स्क्रैपिंग आम तौर पर कानूनी है। इसे सीधे रोकने वाला कोई संघीय क़ानून नहीं है। हालाँकि, आप कैसे स्क्रैप करते हैं, कौन-सा डेटा इकट्ठा करते हैं, और उसका उपयोग कैसे करते हैं — ये बातें CFAA, कॉपीराइट क़ानून, अनुबंध क़ानून, या राज्य गोपनीयता नियमों के तहत कानूनी जोखिम पैदा कर सकती हैं। सबसे सुरक्षित तरीका है सार्वजनिक पेजों तक सीमित रहना, तकनीकी बाधाएँ बायपास न करना, व्यक्तिगत डेटा संग्रह कम करना, और डेटा का उपयोग सीधे पुनर्प्रकाशन की बजाय विश्लेषण के लिए करना।

2. क्या वेब स्क्रैपिंग के लिए मुझे जेल हो सकती है?

वेब स्क्रैपिंग के लिए आपराधिक अभियोजन बेहद दुर्लभ है और आम तौर पर बिना अनुमति प्रमाणीकरण बाधाओं के पीछे डेटा तक पहुँच (CFAA उल्लंघन) या धोखाधड़ी की माँग करता है। DOJ की 2022 CFAA अभियोजन नीति कहती है कि सामान्य सेवा-शर्त उल्लंघन आपराधिक आरोपों के लिए पर्याप्त नहीं हैं। ज़्यादातर web scraping विवाद दीवानी होते हैं — मुक़दमे, न कि आपराधिक मामले।

3. क्या किसी वेबसाइट की Terms of Service का उल्लंघन स्क्रैपिंग को ग़ैरकानूनी बना देता है?

ज़रूरी नहीं। किसी वेबसाइट की ToS का उल्लंघन एक अनुबंध-समस्या है, न कि आपराधिक अपराध। अगर आपने clickwrap शर्तें स्वीकार की हैं जो स्क्रैपिंग पर रोक लगाती हैं, तो वेबसाइट दीवानी breach-of-contract दावा कर सकती है। लेकिन browsewrap शर्तें (फ़ुटर में लिंक की हुई) लागू करवाना कहीं मुश्किल होता है, खासकर अगर आपने कभी लॉगिन नहीं किया या "I agree" पर क्लिक नहीं किया। कई स्क्रैपिंग मामलों में अदालतें निष्क्रिय browsewrap प्रवर्तन को लेकर संदेहपूर्ण रही हैं।

4. क्या अमेरिका में व्यक्तिगत डेटा (ईमेल, फ़ोन नंबर) स्क्रैप करना कानूनी है?

यह निर्भर करता है। कई अमेरिकी राज्य गोपनीयता क़ानून — जिनमें CCPA, VCDPA, CPA, और अन्य शामिल हैं — सार्वजनिक रूप से उपलब्ध व्यक्तिगत जानकारी के लिए अपवाद रखते हैं, लेकिन परिभाषाएँ और आगे के उपयोग से जुड़ी बाध्यताएँ अलग-अलग हैं। गैर-व्यक्तिगत डेटा (उत्पाद कीमतें, बिज़नेस लिस्टिंग, सार्वजनिक रिकॉर्ड) स्क्रैप करना, व्यक्तिगत उपभोक्ता प्रोफ़ाइल स्क्रैप करने से कहीं कम जोखिम वाला है। अगर आप बड़े पैमाने पर PII इकट्ठा कर रहे हैं, तो लागू राज्य क़ानून जाँचें और सुनिश्चित करें कि आपका उद्देश्य अनुपालन योग्य है।

5. क्या hiQ बनाम LinkedIn ने सभी वेब स्क्रैपिंग को कानूनी बना दिया?

नहीं। hiQ का फ़ैसला एक प्रारंभिक निषेधाज्ञा था — सफलता की संभावना पर आधारित एक अस्थायी आदेश — न कि गुण-दोष पर अंतिम निर्णय। Ninth Circuit ने कहा कि सार्वजनिक डेटा तक पहुँचना संभवतः CFAA का उल्लंघन नहीं था, लेकिन मामला 2022 में अंतिम न्यायालय निर्णय के बिना समझौते पर समाप्त हो गया। यह किसी भी website को स्क्रैप करने की सार्वभौमिक अनुमति नहीं देता, और यह कॉपीराइट, अनुबंध, गोपनीयता, या व्यापार रहस्य के दावों को भी संबोधित नहीं करता। सार्वजनिक-डेटा स्क्रैपरों के लिए यह उत्साहजनक है, लेकिन कानूनी गारंटी नहीं।

और जानें

Fawad Khan
Fawad Khan
फ़वाद जीविका के लिए लिखते हैं, और सच कहें तो उन्हें यह काफ़ी पसंद है। उन्होंने सालों तक यह समझने में लगाया है कि कौन-सी कॉपी लोगों के दिमाग़ में टिक जाती है — और कौन-सी उन्हें बस स्क्रॉल करते रहने पर मजबूर कर देती है। मार्केटिंग के बारे में पूछिए, तो वह घंटों बात करेंगे। कार्बोनारा के बारे में पूछिए, तो उससे भी ज़्यादा देर तक।
विषय सूची

Thunderbit आज़माएँ

लीड्स और अन्य डेटा सिर्फ 2 क्लिक में निकालें। AI से संचालित।

Thunderbit पाएं यह मुफ्त है
AI का उपयोग करके डेटा निकालें
डेटा को आसानी से Google Sheets, Airtable, या Notion में ट्रांसफर करें
Chrome Store Rating
PRODUCT HUNT#1 Product of the Week