क्या कोरिया में वेब स्क्रैपिंग कानूनी है? गैर-वकीलों को क्या जानना चाहिए

अंतिम अपडेट April 30, 2026

कुछ महीने पहले, हमारे एक यूज़र ने ऐसा सवाल पूछा कि मैं कॉफी की घूंट बीच में ही रोक बैठा: "अगर मैं Coupang से सार्वजनिक प्रोडक्ट प्राइस स्क्रैप करूँ, तो क्या मुझे कोरियाई अदालत में घसीटा जाएगा?" सच कहूँ तो, मेरे पास तुरंत देने लायक एक पंक्ति-भर का पक्का जवाब नहीं था — और ऑनलाइन मिले ज़्यादातर कानूनी गाइड्स के पास भी नहीं था।

यह सवाल मेरे दिमाग में इसलिए अटक गया क्योंकि हर हफ्ते हज़ारों ई-कॉमर्स ऑपरेटर, सेल्स टीमें और SaaS संस्थापक चुपचाप यही चीज़ Google पर खोजते हैं। वैश्विक वेब स्क्रैपिंग सेवाओं का बाज़ार 2024 में लगभग तक पहुँच गया था और तेज़ी से बढ़ रहा है। पहले से कहीं ज़्यादा व्यवसाय वेब डेटा इकट्ठा कर रहे हैं — और उतने ही लोग सोच रहे हैं कि कोरिया में कानूनी सीमाएँ कहाँ हैं। कोरिया स्क्रैपिंग पर पूरी तरह रोक नहीं लगाता।

लेकिन चार प्रमुख क़ानून लागू हो सकते हैं, यह इस पर निर्भर करता है कि आप क्या स्क्रैप करते हैं, कैसे करते हैं, और क्यों करते हैं। सबसे अहम मिसाल वह कोरियाई सुप्रीम कोर्ट का Yanolja फ़ैसला है (2021Do1533, 12 मई 2022 को निर्णय), जिसमें एक प्रतिस्पर्धी के स्क्रैपिंग टूल को आपराधिक आरोपों से बरी कर दिया गया — और फिर अलग सिविल मुकदमे में उसी कंपनी पर लगभग KRW 1 बिलियन का हर्जाना लगा। यह दोहरा परिणाम ही वह सबसे ज़रूरी बात है जिसे किसी गैर-वकील को कोरियाई स्क्रैपिंग क़ानून के बारे में समझना चाहिए, और यही इस गाइड की रीढ़ है। क़ानून की डिग्री नहीं चाहिए — बस एक व्यावहारिक जोखिम-फ़्रेमवर्क चाहिए जिसे आप सच में इस्तेमाल कर सकें।

कठिनाई: शुरुआती स्तर (किसी कानूनी या तकनीकी पृष्ठभूमि की ज़रूरत नहीं)
समय: पढ़ने में लगभग 15 मिनट; संदर्भ के रूप में बाद में भी काम आएगा
आपको क्या चाहिए: वेब स्क्रैपिंग क्या करता है, इसकी बुनियादी समझ (अगर याद ताज़ा करनी हो, तो हमारा वाला लेख देखें)

क्या कोरिया में वेब स्क्रैपिंग कानूनी है? संक्षिप्त जवाब

वेब स्क्रैपिंग अपने-आप में कोरिया में अवैध नहीं है। यह एक तटस्थ तकनीक है — जैसे वेब ब्राउज़र या स्प्रेडशीट फ़ॉर्मूला। कोरियाई अदालतों ने लगातार टूल पर नहीं, बल्कि उसके उपयोग से जुड़े आचरण पर ध्यान दिया है।

ig_0cdf68974ff22a4a0169f1aba6b77c8191a0d3fa1e58ce2c97_compressed.webp

सबसे अच्छा मानसिक मॉडल Yanolja सुप्रीम कोर्ट निर्णय से आता है: "गेट ऊपर बनाम गेट नीचे" सिद्धांत। अगर किसी वेबसाइट पर पहुँचने के लिए कोई वस्तुनिष्ठ प्रतिबंध नहीं हैं — न लॉगिन दीवार, न CAPTCHA, न API key की ज़रूरत, न IP ब्लॉक — तो गेट "नीचे" है, और सार्वजनिक रूप से उपलब्ध डेटा तक पहुँच आम तौर पर Korea's Information and Communications Network Act (ICNA) के तहत आपराधिक अपराध नहीं मानी जाती। अदालत ने खास तौर पर यह देखा कि क्या "सुरक्षात्मक उपाय, उपयोग की शर्तें, और अन्य वस्तुनिष्ठ रूप से प्रकट परिस्थितियाँ" पहुँच को सीमित करती हैं, और पाया कि Yanolja का API server सार्वजनिक ऐप के ज़रिए आसानी से पहुँचा जा सकता था।

लेकिन "आपराधिक नहीं" का मतलब "बिल्कुल जोखिम नहीं" नहीं होता।

सिविल ज़िम्मेदारी एक बिल्कुल अलग सवाल है। आप मुकदमे से बच सकते हैं और फिर भी अरबों वॉन का हर्जाना झेल सकते हैं। Yanolja मामले ने यह बात बहुत साफ़ कर दी।

वेब स्क्रैपिंग पर चार कोरियाई क़ानून लागू हो सकते हैं:

  1. ICNA (Information and Communications Network Act) — "नो ट्रेसपासिंग" नियम
  2. Copyright Act — डेटाबेस निर्माता अधिकार
  3. PIPA (Personal Information Protection Act) — व्यक्तिगत डेटा संग्रह के नियम
  4. UCPA (Unfair Competition Prevention Act) — "फ्री-राइडिंग मत करो" वाला समग्र क़ानून

इस गाइड के बाकी हिस्से इन क़ानूनों को वास्तविक परिदृश्यों से जोड़ते हैं, ताकि आप समझ सकें कि आपका स्क्रैपिंग प्रोजेक्ट असल में किस दायरे में आता है।

कोरिया में वेब स्क्रैपिंग के लिए ग्रीन-येलो-रेड जोखिम फ़्रेमवर्क

ig_0cdf68974ff22a4a0169f1abfb386c8191baf73515035c6cdc_compressed.webp

कोरियाई स्क्रैपिंग क़ानून पर मुझे मिली हर कानूनी लेखन ऐसा लगता है जैसे वकीलों के लिए लिखा गया हो। अगर आप ई-कॉमर्स ऑपरेशंस मैनेजर हैं या SaaS संस्थापक, तो आपको 40-पेज का वैधानिक विश्लेषण नहीं चाहिए — आपको प्रोजेक्ट शुरू करने से पहले जोखिम पर जल्दी आकलन करना चाहिए। इसे ट्रैफ़िक लाइट समझें। हरा मतलब चलो (सामान्य सावधानी के साथ)। पीला मतलब धीमे हो जाओ और चारों ओर देखो। लाल मतलब रुक जाओ और वकील से बात करो।

ग्रीन ज़ोन: कम-जोखिम वाले स्क्रैपिंग परिदृश्य

परिदृश्यजोखिम स्तरमुख्य क़ानूनक्यों
सार्वजनिक प्रोडक्ट लिस्टिंग स्क्रैप करना (न लॉगिन, न CAPTCHA)🟢 कमICNA, Copyright ActYanolja निर्णय: पहुँच पर कोई प्रतिबंध नहीं = ICNA उल्लंघन नहीं; तथ्यात्मक डेटा (कीमत, उपलब्धता) रचनात्मक अभिव्यक्ति नहीं है
केवल आंतरिक एनालिटिक्स के लिए सार्वजनिक कीमतें स्क्रैप करना🟢 कमUCPA, Copyright Actतथ्यात्मक डेटा, सीमित दायरा, प्रतिस्पर्धी पुनर्वितरण नहीं
सार्वजनिक पेजों से गैर-व्यक्तिगत, गैर-कॉपीराइटेड तथ्य इकट्ठा करना🟢 कमICNA, Copyright Actकोई पहुँच-बाधा पार नहीं की गई; अलग-अलग तथ्य संरक्षित नहीं होते

Yanolja का आपराधिक फ़ैसला इस ज़ोन की आधारशिला है। सुप्रीम कोर्ट ने ICNA घुसपैठ नहीं मानी क्योंकि API server सार्वजनिक रूप से पहुँचा जा सकता था — सामान्य उपयोगकर्ता ऐप के ज़रिए, सदस्य हों या न हों, उसे एक्सेस कर सकते थे, और API पहुँच रोकने के लिए कोई अलग सुरक्षात्मक उपाय नहीं थे।

उपयोगकर्ताओं के लिए यह सबसे सही स्थिति है। अगर आप cloud scraping mode का इस्तेमाल करके सार्वजनिक ई-कॉमर्स या रियल-एस्टेट पेज स्क्रैप कर रहे हैं — प्रोडक्ट नाम, कीमतें, उपलब्धता, या लिस्टिंग metadata इकट्ठा करते हुए व्यक्तिगत डेटा फ़ील्ड्स को छोड़ते हुए — तो आम तौर पर आप ग्रीन ज़ोन में काम कर रहे होते हैं। (हालाँकि, "आमतौर पर" का मतलब "हमेशा" नहीं होता, और नीचे मैं बारीकियाँ समझाऊँगा।)

येलो ज़ोन: मध्यम-जोखिम वाले स्क्रैपिंग परिदृश्य

परिदृश्यजोखिम स्तरमुख्य क़ानूनक्यों
व्यक्तिगत डेटा स्क्रैप करना (नाम, ईमेल, फ़ोन नंबर), भले ही सार्वजनिक पेजों से हो🟡 मध्यमPIPA, ICNAPIPA सार्वजनिक दृश्यता की परवाह किए बिना लागू होता है; 2023 संशोधनों ने सहमति नियम सख्त किए
इतनी बड़ी मात्रा में स्क्रैप करना कि वह किसी प्रतिस्पर्धी के डेटाबेस का "महत्वपूर्ण हिस्सा" बन जाए🟡 मध्यमCopyright Act, UCPAकोरियाई क़ानून के तहत मात्रात्मक + गुणात्मक परीक्षण
robots.txt संकेतों को नज़रअंदाज़ करना🟡 मध्यमबुरी नीयत का प्रमाणअपने-आप में आपराधिक नहीं, लेकिन अदालत में आपके खिलाफ इस्तेमाल हो सकता है
सार्वजनिक डेटा स्क्रैप करके उसे सीधे स्रोत के साथ प्रतिस्पर्धा में इस्तेमाल करना🟡 मध्यमUCPAकिसी दूसरे प्लेटफ़ॉर्म के निवेश पर फ्री-राइडिंग

व्यक्तिगत डेटा पीला-ज़ोन ट्रिगर का सबसे बड़ा कारण है।

भले ही कोई फ़ोन नंबर या ईमेल सार्वजनिक वेबपेज पर दिख रहा हो, PIPA फिर भी लागू होता है। 2023 का PIPA सुधार डेटा-धारक अधिकारों को बढ़ाने और सहमति-आवश्यकताओं को सख्त करने के लिए महत्वपूर्ण था। और 2024 में, कोरिया की Personal Information Protection Commission (PIPC) ने पर खास मार्गदर्शन जारी किया — AI और डेटा संग्रह के संदर्भ में — जिससे साफ़ हुआ कि केवल सार्वजनिक उपलब्धता अपने-आप में खुली छूट नहीं है।

मात्रा भी मायने रखती है। Yanolja सुप्रीम कोर्ट ने कहा कि डेटाबेस का "महत्वपूर्ण हिस्सा" कॉपी हुआ है या नहीं, यह तय करने में मात्रात्मक और गुणात्मक दोनों कारक देखते हैं। कॉपी किए गए हिस्से की तुलना पूरे डेटाबेस से करें, और देखें कि क्या वह निर्माता के निवेश को दर्शाता है।

रेड ज़ोन: उच्च-जोखिम वाले स्क्रैपिंग परिदृश्य

परिदृश्यजोखिम स्तरमुख्य क़ानूनक्यों
लॉगिन वॉल के पीछे स्क्रैप करना या एक्सेस कंट्रोल बायपास करना🔴 उच्चICNA Art 48"गेट ऊपर" = अनधिकृत पहुँच; मुकदमे का उच्च जोखिम
CAPTCHAs, IP bans, या bot-detection systems को दरकिनार करना🔴 उच्चICNA Art 48(4)2024 संशोधन विशेष रूप से bypass tools/devices को निशाना बनाता है
किसी प्रतिस्पर्धी के पूरे डेटाबेस को कॉपी करके दोबारा बेचना🔴 उच्चCopyright Act (DB rights), UCPAपर्याप्त पुनरुत्पादन + व्यावसायिक फ्री-राइडिंग
मार्केटिंग/आउटरीच के लिए कानूनी आधार के बिना व्यक्तिगत जानकारी इकट्ठा करना🔴 उच्चPIPA5 साल तक / KRW 50M जुर्माना; प्रशासनिक दंड राजस्व के 3% तक

ICNA में 2024 का एक नया प्रावधान — Article 48(4) — अब विशेष रूप से ऐसे प्रोग्राम या तकनीकी डिवाइस इंस्टॉल, ट्रांसफ़र, या वितरित करने पर रोक लगाता है जो बिना वैध कारण "सामान्य सुरक्षा या प्रमाणीकरण प्रक्रियाओं" को बायपास करते हैं।

अलग से, ने यह मज़बूत किया कि बिना भौतिक सुरक्षा-क्षति के भी अनधिकृत नेटवर्क घुसपैठ हो सकती है। किसी दूसरे व्यक्ति के पहचान-चिह्नों या अनुचित कमांड का उपयोग करके पहुँच सीमाओं से बच निकलना ही पर्याप्त है।

वे चार कोरियाई क़ानून जो वेब स्क्रैपिंग पर लागू होते हैं

क़ानूनयह किसे सुरक्षित करता हैस्क्रैपर्स पर कब लागू होता है
ICNA Article 48नेटवर्क स्थिरता, पहुँच-अधिकारलॉगिन, CAPTCHA, प्रमाणीकरण, IP blocks, API key limits को बायपास करना
Copyright Act (Art 93)रचनात्मक कार्य + डेटाबेस निर्माता अधिकारअभिव्यक्तिपूर्ण सामग्री, छवियाँ, या डेटाबेस का पूरा/महत्वपूर्ण हिस्सा कॉपी करना
PIPAव्यक्तिगत जानकारी, डेटा-धारक अधिकारसार्वजनिक पेजों से भी नाम, फ़ोन नंबर, ईमेल, IDs इकट्ठा करना
UCPA (Art 2(1)(k) and (m))निष्पक्ष प्रतिस्पर्धा, व्यावसायिक रूप से मूल्यवान डेटाअपने प्रतिस्पर्धी व्यवसाय के लिए किसी अन्य प्लेटफ़ॉर्म के डेटा निवेश पर फ्री-राइडिंग

ICNA Article 48: "नो ट्रेसपासिंग" नियम

ICNA Article 48(1) कहता है कि कोई भी व्यक्ति बिना वैध पहुँच-अधिकार या अनुमत पहुँच-अधिकार से आगे जाकर किसी सूचना और संचार नेटवर्क में प्रवेश नहीं कर सकता। स्क्रैपिंग की भाषा में: अगर वेबसाइट पर आप बायपास करने वाले एक्सेस प्रतिबंध हैं, तो आप उल्लंघन की स्थिति में हैं। अगर कोई प्रतिबंध नहीं है — सार्वजनिक पेज, कोई लॉगिन नहीं — तो आप संभवतः सुरक्षित हैं।

उल्लंघन की सज़ा ICNA Article 71 के तहत है।

एक बारीकी ध्यान देने लायक है: कोरियाई सुप्रीम कोर्ट ने लगातार Terms of Service प्रतिबंधों को पहुँच-प्रतिबंधों से अलग माना है। Yanolja के ऐप की शर्तें व्यावसायिक पुन: उपयोग को सीमित करती थीं और सर्वर पर बोझ डालने वाले ऑटोमेटेड प्रोग्राम पर रोक लगाती थीं, लेकिन अदालत ने पाया कि इन शर्तों ने API server तक पहुँच को वस्तुनिष्ठ रूप से नहीं रोका था।

कोरिया का Copyright Act व्यक्तिगत सामग्री पर कॉपीराइट से अलग, डेटाबेस निर्माताओं की रक्षा करता है। के तहत डेटाबेस का "पूरा या महत्वपूर्ण हिस्सा" पुनरुत्पादित करना अवैध है — भले ही अलग-अलग डेटा बिंदु सार्वजनिक तथ्य हों।

यह परीक्षण मात्रात्मक भी है (आपने पूरे के मुकाबले कितना कॉपी किया?) और गुणात्मक भी (क्या कॉपी किया गया हिस्सा डेटाबेस बनाने, सत्यापित करने या बनाए रखने में निर्माता के बड़े निवेश को दर्शाता है?)। छोटे हिस्सों की बार-बार या व्यवस्थित कॉपीिंग भी गिनी जा सकती है, अगर उससे व्यावहारिक रूप से वही परिणाम निकलता है जो एक महत्वपूर्ण हिस्से की कॉपी से निकलता।

डेटाबेस निर्माता अधिकार उल्लंघन की सज़ा: Article 136(2)(3) के तहत तीन साल तक या KRW 30 million। Article 125-2 के तहत वैधानिक हर्जाना प्रति कार्य KRW 10 million तक, या जानबूझकर लाभ के लिए उल्लंघन होने पर प्रति कार्य KRW 50 million तक हो सकता है।

PIPA: Personal Information Protection Act

PIPA व्यक्तिगत डेटा — नाम, संपर्क जानकारी, IDs — के संग्रह को नियंत्रित करता है, भले ही वह सार्वजनिक रूप से दिख रहा हो। 2023 का सुधार काफ़ी महत्वपूर्ण था: इसने डेटा-धारक अधिकार बढ़ाए, सहमति आवश्यकताओं को सख्त किया, automated decision-making के नियम जोड़े, और निर्दिष्ट उल्लंघनों के लिए तक के प्रशासनिक दंड तय किए।

PIPC की सीधे सार्वजनिक रूप से उपलब्ध व्यक्तिगत जानकारी के संदर्भ में "web crawling and scraping" से प्राप्त डेटा का उल्लेख करती है। गाइडलाइन साफ़ करती है कि कुछ परिस्थितियों में legitimate interests आधार बन सकते हैं, लेकिन संगठनों को संतुलन, सुरक्षा उपाय, अधिकार संरक्षण और governance चाहिए।

और रुझान और सख़्त हो रहा है। मार्च 2026 में, , जिसमें गंभीर दोहराए गए डेटा-लीक विफलताओं के लिए अधिकतम दंड को 2026 के बाद लागू होने के साथ राजस्व के 10% तक बढ़ाया गया।

UCPA: Unfair Competition का "कैच-ऑल"

Yanolja के सिविल मामले में GC Company को पकड़ने वाला क़ानून UCPA था। मौजूदा Act में दो प्रासंगिक प्रावधान हैं:

  • Article 2(1)(k): इलेक्ट्रॉनिक रूप से संचित और प्रबंधित, गैर-गुप्त तकनीकी या व्यावसायिक डेटा के अनुचित उपयोग को कवर करता है
  • Article 2(1)(m): व्यापक कैच-ऑल, जिसमें किसी अन्य व्यक्ति के ऐसे परिणामों का उपयोग करना शामिल है जो उसके substantial investment या प्रयासों से बने हों, अपनी व्यावसायिक गतिविधि के लिए बिना अनुमति और निष्पक्ष व्यावसायिक प्रथाओं के विरुद्ध

इन प्रावधानों के लिए UCPA केवल सिविल है — कोई आपराधिक दंड नहीं — लेकिन इससे के तहत injunctions, Article 5 के तहत damages, और Article 14-2 के तहत कुछ जानबूझकर किए गए मामलों में treble damages हो सकते हैं। Yanolja के सिविल मामले में इसी फ़्रेमवर्क के तहत लगभग KRW 1 billion का हर्जाना दिया गया।

Yanolja मामला: आप आपराधिक रूप से जीतकर भी सिविल में कैसे हार सकते हैं

यह वह मामला है जिसे कोरिया में हर व्यवसायिक उपयोगकर्ता को समझना चाहिए। मैं इसे एक ही कहानी की तरह बता रहा हूँ, क्योंकि वास्तविकता में यही हुआ — और क्योंकि यही विभाजित परिणाम पूरे मुद्दे का सार है।

क्या हुआ: GC Company ने Yanolja का यात्रा डेटा स्क्रैप किया

GC Company एक प्रतिस्पर्धी ऑनलाइन यात्रा प्लेटफ़ॉर्म चला रही थी। उन्होंने एक self-developed crawler बनाया जो Yanolja के Baro Reservation app API server तक पहुँचा, API URLs और request commands सीखे और उन्हें server पर भेजा। स्क्रैपर ने आवास-संबंधी जानकारी इकट्ठी की — partner names, addresses, prices, availability, और images। GC Company ने इस डेटा का आंतरिक रूप से marketing और competitive positioning के लिए उपयोग किया।

Yanolja ने आपराधिक शिकायत और सिविल मुकदमा, दोनों दायर किए।

आपराधिक फ़ैसला: सभी आरोपों में बरी (Supreme Court 2021Do1533)

ig_0cdf68974ff22a4a0169f1ac46e080819188cd13d53eebebdf_compressed.webp

सुप्रीम कोर्ट ने 12 मई 2022 को , और तीनों आरोपों पर यही निष्कर्ष दिया:

  • ICNA Article 48 (intrusion): कोई पहुँच-प्रतिबंध मौजूद नहीं था। API server ब्राउज़र और मोबाइल ऐप के ज़रिए सार्वजनिक रूप से उपलब्ध था। कोई तकनीकी ब्लॉक नहीं था। ToS धाराएँ use सीमित करती थीं, access नहीं।
  • Copyright Act (database producer rights): आरोपियों ने डेटाबेस का "पूरा या महत्वपूर्ण हिस्सा" पुनरुत्पादित नहीं किया। कॉपी किया गया डेटा पहले से सार्वजनिक रूप से ज्ञात था, और साक्ष्य यह साबित नहीं करते थे कि कॉपी किया गया हिस्सा Yanolja के substantial investment को दर्शाता था।
  • Criminal Act Article 314 (business interference): Yanolja के API server के संचालन में वास्तविक रुकावट साबित नहीं हुई। डेटा में कोई संशोधन नहीं हुआ। business interference के लिए mens rea भी नहीं था।

सारांश-योग्य नियम: पहुँच-प्रतिबंधों का आकलन "सुरक्षात्मक उपाय, उपयोग की शर्तें, और अन्य वस्तुनिष्ठ रूप से प्रकट परिस्थितियों" से किया जाना चाहिए। अगर गेट नीचे है, तो उससे गुजरना trespassing नहीं है।

सिविल फ़ैसला: UCPA के तहत KRW 1 Billion का हर्जाना

यहीं कहानी पलटती है। Seoul Central District Court — और फिर Seoul High Court (case 2021Na2034740, निर्णय 25 अगस्त 2022) — ने माना कि GC Company ने UCPA के कैच-ऑल प्रावधान का उल्लंघन किया। अदालत ने लगभग KRW 1 billion (~USD 800K) का compensatory damages दिया और आगे डेटा डुप्लीकेशन रोकने का आदेश दिया।

तर्क यह था: Yanolja का आवास डेटाबेस व्यावसायिक मूल्य रखता था और substantial investment को दर्शाता था — आवास डेटा का संग्रह, सत्यापन और अद्यतन। GC Company ने उस निवेश पर फ्री-राइड किया। सिविल फ़ैसला Seoul High Court स्तर पर अंतिम हो गया।

व्यावहारिक निष्कर्ष: आपराधिक बरी होना, सिविल सुरक्षा नहीं है

यह कोरियाई स्क्रैपिंग क़ानून से मिलने वाला सबसे उलटा-सा लेकिन सबसे महत्वपूर्ण सबक है। आपराधिक रूप से वैध पहुँच, व्यावसायिक रूप से अनुचित उपयोग को नहीं बचाती। "क्या मेरे ऊपर मुकदमा चल सकता है?" और "क्या मुझ पर हर्जाना लगाया जा सकता है?" अलग सवाल हैं, और उनके जवाब उलटे भी हो सकते हैं।

व्यवसायिक उपयोगकर्ताओं के लिए: भले ही आपका स्क्रैपिंग तरीका आपराधिक दृष्टि से ग्रीन ज़ोन में साफ़-साफ़ आता हो, डेटा का आपका उपयोग — खासकर अगर वह स्रोत से सीधे प्रतिस्पर्धा करता हो — आपका सिविल जोखिम तय करता है।

कोरिया बनाम US बनाम EU: वेब स्क्रैपिंग क़ानून कैसे तुलना करते हैं

मुझे कोई और गाइड नहीं मिला जिसने इसे एक ही तालिका में रखा हो — और यह हैरान करने वाली बात है, जबकि इतने सारे व्यवसाय सीमापार स्क्रैपिंग करते हैं।

आयामदक्षिण कोरियासंयुक्त राज्यEU / EEA
मूल क़ानूनICNA Art 48, Copyright ActCFAA (18 U.S.C. §1030), राज्य क़ानूनGDPR, Database Directive (96/9/EC)
ऐतिहासिक मामलाYanolja v GC Company (Supreme Court 2021Do1533, 2022)hiQ v LinkedIn (9th Cir. 2022), Van Buren v. US (2021)Ryanair v PR Aviation (CJEU C-30/14, 2015)
सार्वजनिक डेटा स्क्रैपिंगअगर वस्तुनिष्ठ पहुँच-बाधाएँ न हों तो कानूनी ("gate down")hiQ के तर्क के अनुसार कानूनी (सार्वजनिक डेटा); Van Buren ने CFAA को सीमित कियाDB अधिकार, अनुबंध, कॉपीराइट, GDPR, member-state law पर निर्भर
व्यक्तिगत डेटा नियमPIPA (2023 संशोधित) — सहमति या कानूनी आधारक्षेत्र-विशिष्ट: CCPA (California), state privacy lawsGDPR — सख़्त सहमति / legitimate interest; अधिकतम जुर्माना €20M या वैश्विक राजस्व का 4%
ToS उल्लंघन = अपराध?नहीं (अदालतें मानती हैं ToS ≠ ICNA उल्लंघन)नहीं (Van Buren 2021: ToS ≠ CFAA)आम तौर पर नहीं, लेकिन अनुबंध उल्लंघन संभव (Ryanair)
डेटाबेस सुरक्षाCopyright Act DB producer rightsकोई संघीय DB right नहींsui generis database right
अधिकतम आपराधिक दंड5 साल / KRW 50M (ICNA)10 साल / $250K (CFAA)member state के अनुसार अलग-अलग

आपके व्यवसाय के लिए महत्वपूर्ण अंतर

  • कोरिया में EU के DSM Directive जैसी कोई व्यापक text-and-data-mining (TDM) छूट नहीं है। अगर आप स्क्रैप किए गए कोरियाई डेटा पर AI models train कर रहे हैं, तो आपके पास कोई वैधानिक carve-out नहीं है।
  • कोरिया का UCPA कैच-ऑल US unfair competition law की तुलना में अधिक व्यापक और कम अनुमानित है। Yanolja का सिविल परिणाम US क़ानून के तहत दोहराना कहीं कठिन होता।
  • तीनों क्षेत्राधिकार एक बात पर सहमत हैं: केवल Terms of Service का उल्लंघन आपराधिक अपराध नहीं है।
  • कोरिया की डेटाबेस सुरक्षा वैधानिक है (EU की तरह), जबकि US में कोई सामान्य संघीय database right नहीं है। इससे कोरियाई प्लेटफ़ॉर्म मालिकों के पास सिविल साधन ज़्यादा हैं।
  • अगर आप सीमापार स्क्रैपिंग करते हैं, तो सबसे सख़्त लागू क़ानून मान्य होगा। कोरियाई, US, और EU डेटा को छूने वाले प्रोजेक्ट को तीनों व्यवस्थाओं का पालन करना होगा।

सेक्टर-विशिष्ट परिदृश्य: क्या आपकी इंडस्ट्री के लिए कोरिया में वेब स्क्रैपिंग कानूनी है?

जोखिम प्रोफ़ाइल इंडस्ट्री के अनुसार बहुत बदलती है, और मुझे कोई गाइड नहीं मिला जिसने कोरियाई स्क्रैपिंग क़ानून को विशेष verticals से जोड़ा हो। इसलिए मैंने इसे खुद जोड़ा।

ई-कॉमर्स: कीमतों की निगरानी और प्रोडक्ट डेटा

ig_0cdf68974ff22a4a0169f1abfb386c8191a0d3fa1e58ce2c97_compressed.webp

Coupang, Gmarket, या 11Street से सार्वजनिक प्रोडक्ट प्राइस स्क्रैप करना सबसे साफ़ ग्रीन-ज़ोन उदाहरण है — तथ्यात्मक फ़ील्ड्स (कीमत, उपलब्धता, प्रोडक्ट नाम) तक सीमित रहें, केवल-लॉगिन हिस्सों से बचें, तकनीकी अवरोधों को न बायपास करें, और डेटा को आंतरिक benchmarking के लिए इस्तेमाल करें।

जोखिम तब बढ़ता है जब आप प्रोडक्ट विवरण (रचनात्मक सामग्री → copyright), विक्रेता संपर्क जानकारी (PIPA), छवियाँ (copyright), या पूरा catalog (database producer rights + UCPA) स्क्रैप करते हैं।

मुझे Yanolja जैसा कोई बड़ा कोरियाई ई-कॉमर्स स्क्रैपिंग मुकदमा नहीं मिला। ज़्यादा विकसित precedent travel और recruitment में है — लेकिन मुकदमों का न होना जोखिम का न होना नहीं है।

Thunderbit का और cloud scraping mode ठीक इसी पैटर्न के लिए बनाए गए हैं: सार्वजनिक पेजों पर बार-बार price and inventory checks, और AI Suggest Fields आपको मनचाहे columns चुनने और personal data fields हटाने देता है।

रियल एस्टेट: प्रॉपर्टी लिस्टिंग

रियल एस्टेट स्वाभाविक रूप से येलो-ज़ोन में आता है। Zigbang या Naver Real Estate जैसे प्लेटफ़ॉर्म पर listings में तथ्यात्मक डेटा (कीमत, क्षेत्रफल, इलाक़ा) के साथ एजेंट नाम, ऑफिस फ़ोन नंबर, मोबाइल नंबर, फ़ोटो, और क्यूरेटेड platform databases मिले-जुले होते हैं।

सार्वजनिक प्रॉपर्टी विवरण स्क्रैप करना कम जोखिम वाला हो सकता है। लेकिन एजेंट संपर्क कॉलम इकट्ठा करना तुरंत PIPA ट्रिगर करता है — और किसी क्षेत्र की सभी listings स्क्रैप करना substantial database copying जैसा लगने लगता है।

जोखिम घटाने के उपाय: personal columns हटाएँ, भौगोलिक दायरा छोटा रखें, वैध व्यावसायिक उद्देश्य लिखित रूप में दर्ज करें, rate limits का सम्मान करें, और किसी प्रतिस्पर्धी listings service को पुनरुत्पादित करने से बचें। Thunderbit का AI इस तरह कॉन्फ़िगर किया जा सकता है कि वह केवल वे property fields निकाले जिनकी आपको ज़रूरत है — कीमत, वर्ग मीटर, स्थान — जबकि व्यक्तिगत संपर्क डेटा को छोड़ दे।

भर्ती: जॉब पोस्टिंग्स

भर्ती सबसे उच्च-जोखिम वाला क्षेत्र है, इसमें कोई शक नहीं। कोरिया में सीधा precedent है: JobKorea v. Saramin. Saramin ने JobKorea के job-posting database को स्क्रैप किया और उसे database-right तथा unfair-competition उल्लंघन का ज़िम्मेदार पाया गया। भर्ती डेटा आम तौर पर platform investment (क्यूरेटेड, सत्यापित listings), बड़े पैमाने पर डेटाबेस कॉपीिंग, और personal या recruiter contact information को जोड़ता है।

मेरी सिफ़ारिश: सामान्यतः किसी प्रतिस्पर्धी job platform को स्क्रैप करके rival job database बनाने या समृद्ध करने से बचें। अगर use case सीमित है, तो संग्रह से पहले कानूनी समीक्षा कराएँ, मात्रा कम रखें, personal contacts हटाएँ, और परिणामों को आगे वितरित न करें।

पूर्ण दंड संदर्भ: कोरिया में वेब स्क्रैपिंग गड़बड़ होने पर क्या जोखिम है

कोरियाई क़ानूनउल्लंघन का प्रकारअधिकतम आपराधिक दंडअधिकतम सिविल/प्रशासनिक उपायमुख्य 2023–2026 परिवर्तन
ICNA Art 48अनधिकृत पहुँच / हस्तक्षेप5 साल / KRW 50M जुर्मानाहर्जाना + injunction2024: bypass tools को निशाना बनाते हुए Art 48(4) जोड़ा गया
Copyright Act (DB rights, Art 93)DB का पर्याप्त पुनरुत्पादन3 साल / KRW 30M जुर्मानाजानबूझकर लाभ के लिए उल्लंघन पर प्रति कार्य KRW 50M तक वैधानिक हर्जाना
PIPAअवैध व्यक्तिगत डेटा संग्रह5 साल / KRW 50M जुर्मानाकुल बिक्री के 3% तक प्रशासनिक दंड; class action संभव2023 सुधार; 2024 सार्वजनिक-डेटा AI guideline; 2026 में दोहराए गए leaks के लिए 10% की दिशा
UCPA Art 2(1)(k)/(m)अनुचित डेटा अधिग्रहण / उपयोगकेवल सिविल (कैच-ऑल के लिए कोई आपराधिक दंड नहीं)हर्जाना + injunction; जानबूझकर कुछ मामलों में treble damages2022 Data Framework Act ने प्रावधानों को मज़बूत किया
Criminal Code Art 314तकनीकी साधनों से व्यवसाय में बाधा5 साल / KRW 15M जुर्मानाYanolja: वास्तविक रुकावट साबित नहीं हुई

सबसे महत्वपूर्ण बात: आपराधिक और सिविल ट्रैक अलग-अलग चलते हैं। आप दोनों का सामना एक साथ कर सकते हैं — और एक में जीतकर दूसरे में हार सकते हैं।

कोरिया में वेब स्क्रैपिंग के लिए आपकी 10-बिंदु अनुपालन चेकलिस्ट

किसी भी स्क्रैपिंग प्रोजेक्ट की शुरुआत से पहले ये दस हाँ/ना सवाल पूछ लें। इसे प्रिंट कर लें, बुकमार्क कर लें, मॉनिटर पर चिपका दें — जो भी आपके लिए काम करे।

  1. क्या जिस डेटा की आपको ज़रूरत है, उसे पाने के लिए target site पर लॉगिन की आवश्यकता नहीं है? अगर लॉगिन, token, या account चाहिए, तो जोखिम तेज़ी से ICNA Article 48 की ओर जाता है।
  2. क्या कोई तकनीकी पहुँच-प्रतिबंध नहीं हैं? CAPTCHA, IP blocks, API keys, rate limits, और bot walls मजबूत रेड-ज़ोन संकेत हैं।
  3. क्या आपने साइट की robots.txt देखी है? कोरियाई precedent में यह अपने-आप में कानूनी रूप से बाध्यकारी नहीं, लेकिन साइट की अपेक्षाओं और आपकी सद्भावना का उपयोगी प्रमाण है।
  4. क्या आप कोई व्यक्तिगत डेटा इकट्ठा कर रहे हैं? अगर नाम, फ़ोन नंबर, ईमेल, IDs, या व्यक्तिगत संपर्क विवरण दायरे में हैं, तो PIPA विश्लेषण ज़रूरी है।
  5. क्या आप साइट के डेटाबेस का "महत्वपूर्ण हिस्सा" कॉपी कर रहे हैं? मात्रात्मक और गुणात्मक दोनों प्रश्न पूछें — कितना, और क्या कॉपी किया गया हिस्सा स्रोत के निवेश को दर्शाता है?
  6. क्या आपने अपना उद्देश्य तय किया है? आंतरिक analytics, पुनर्वितरण या प्रतिस्पर्धी डेटाबेस बनाने की तुलना में कम जोखिम वाला है। (लेकिन Yanolja दिखाता है कि आंतरिक प्रतिस्पर्धी उपयोग पूर्ण सुरक्षा नहीं है।)
  7. क्या आपने अपना वैध व्यावसायिक उद्देश्य लिखित रूप में दर्ज किया है? दस्तावेज़ PIPA के legitimate-interest balancing और सद्भावना के प्रमाण में मदद करता है।
  8. क्या आपने संग्रह/उपयोग से पहले personal data fields हटा दिए हैं या anonymize किए हैं? contact details हटाने से अक्सर real-estate, recruitment, और directory scraping सबसे ख़तरनाक PIPA पैटर्न से बाहर आ जाता है।
  9. क्या आप उचित request intervals का इस्तेमाल कर रहे हैं? server overload से बचें — Criminal Act Article 314 और ICNA Article 48(3) का जोखिम बढ़ता है जब scraping सेवा संचालन को बाधित करता है।
  10. क्या आपने उच्च-वॉल्यूम, व्यावसायिक, या cross-border प्रोजेक्ट्स के लिए कोरियाई legal counsel से सलाह ली है? कोरियाई क़ानून के साथ GDPR/US privacy या computer-access laws भी लागू हो सकते हैं।

⚠️ अस्वीकरण: यह चेकलिस्ट केवल दिशा-निर्देश है, कानूनी सलाह नहीं। विशिष्ट परिस्थितियों के लिए हमेशा स्थानीय कोरियाई कानूनी सलाहकार से परामर्श करें।

Thunderbit कैसे आपको कोरियाई वेबसाइट्स ज़िम्मेदारी से स्क्रैप करने में मदद करता है

पूरा खुलासा: मैं Thunderbit की marketing team में काम करता हूँ। लेकिन सच में मुझे लगता है कि यहाँ product-law fit उपयोगी है, सिर्फ़ sales pitch नहीं।

Thunderbit इन्हीं green-zone use cases के लिए डिज़ाइन किया गया है जिनका इस लेख में वर्णन है: सार्वजनिक रूप से उपलब्ध डेटा स्क्रैप करना, जहाँ लॉगिन की ज़रूरत नहीं होती। compliance framework से इसके कुछ features इस तरह जुड़ते हैं:

  • Cloud scraping mode सार्वजनिक साइट्स के लिए — लॉगिन की ज़रूरत नहीं, local session की भी ज़रूरत नहीं, और सार्वजनिक पहुँच की सीमा में रहता है। यह Yanolja के "gate down" सिद्धांत से मेल खाता है।
  • AI Suggest Fields आपको यह तय करने देता है कि कौन-से data columns निकालने हैं। प्रोडक्ट कीमतें और उपलब्धता चाहिए, लेकिन विक्रेता फ़ोन नंबर नहीं? बस personal columns हटा दें। PIPA ट्रिगर से बचने का यह सबसे आसान तरीका है।
  • Scheduled scraper नियमित price, inventory, या listing checks के लिए उचित अंतराल पर — बार-बार server पर हथौड़ा चलाने की ज़रूरत नहीं।
  • Free data export Excel, Google Sheets, Airtable, और Notion में, आंतरिक analytics workflows के लिए।
  • Subpage scraping सार्वजनिक listing data को समृद्ध करने के लिए (जैसे spec देखने के लिए अलग-अलग product pages खोलना) — बिना login-only या restricted क्षेत्रों में जाए।
  • AI layout adaptation — स्क्रैपर हर बार site structure को ताज़ा पढ़ता है, और brittle hardcoded selectors के बिना layout बदलावों के साथ ढल जाता है।

Thunderbit दर्जनों भाषाओं में multilingual use को सपोर्ट करता है, जो Korean-language sites के साथ काम करने वाली teams के लिए महत्वपूर्ण है। आप के ज़रिए इसे मुफ़्त आज़मा सकते हैं।

कोई भी tool कानूनी जोखिम को पूरी तरह खत्म नहीं करता। लेकिन ज़िम्मेदार configuration — सार्वजनिक पेज, तथ्यात्मक डेटा, हटाए गए personal fields, उचित intervals — आपको इस लेख में बताए गए compliance framework के भीतर रखती है।

कोरिया में वेब स्क्रैपिंग की वैधता पर मुख्य निष्कर्ष

याद रखने लायक पाँच बातें:

  1. वेब स्क्रैपिंग तकनीक अपने-आप में कोरिया में कानूनी है। सुप्रीम कोर्ट ने Yanolja निर्णय में इसकी पुष्टि की।
  2. जोखिम पहुँच के तरीके (gate up बनाम gate down), डेटा के प्रकार (personal बनाम factual), और उपयोग (internal बनाम competitive redistribution) पर निर्भर करता है।
  3. आपराधिक बरी होना = सिविल सुरक्षा नहीं। Yanolja मामला साबित करता है कि आप मुकदमे से बच सकते हैं, लेकिन फिर भी अरबों वॉन का हर्जाना झेल सकते हैं।
  4. जब आप सार्वजनिक, गैर-व्यक्तिगत, तथ्यात्मक डेटा को बिना पहुँच-बाधा के आंतरिक उपयोग के लिए स्क्रैप करते हैं, तो आप आम तौर पर सुरक्षित ज़ोन में होते हैं। लेकिन "आमतौर पर" भी महत्त्व रखता है — दायरा, मात्रा, और उद्देश्य सभी मायने रखते हैं।
  5. बड़े पैमाने या व्यावसायिक प्रोजेक्ट्स के लिए हमेशा स्थानीय कोरियाई कानूनी सलाहकार से परामर्श करें। यह लेख दिशा-निर्देश है, कानूनी सलाह नहीं।

अगर आप ज़िम्मेदारी से कोरियाई वेबसाइटें स्क्रैप करना शुरू करना चाहते हैं, तो आपको छोटे पैमाने पर workflow आज़माने देता है। AI-powered scraping व्यावहारिक रूप से कैसे काम करता है, इसके लिए हमारे और वाले गाइड देखें। और अगर आप tool को काम करते देखना चाहते हैं, तो हमारे पर आम use cases के walkthroughs हैं।

अक्सर पूछे जाने वाले सवाल

1. क्या कोरिया में सार्वजनिक रूप से उपलब्ध डेटा स्क्रैप करना कानूनी है?

आम तौर पर आपराधिक दृष्टि से हाँ — Yanolja सुप्रीम कोर्ट निर्णय के अनुसार, बिना वस्तुनिष्ठ पहुँच-प्रतिबंध वाली साइट से डेटा एक्सेस करना ICNA का उल्लंघन नहीं है। हालांकि, मात्रा, स्रोत के निवेश, और डेटा के आपके व्यावसायिक उपयोग के आधार पर UCPA या Copyright Act के तहत सिविल ज़िम्मेदारी फिर भी लागू हो सकती है।

2. अगर वेब स्क्रैपिंग आपराधिक नहीं है, तो क्या कोरिया में मुझ पर मुकदमा हो सकता है?

हाँ। आपराधिक और सिविल ट्रैक स्वतंत्र हैं। GC Company को सभी आपराधिक आरोपों से बरी किया गया था, लेकिन UCPA के कैच-ऑल प्रावधान के तहत लगभग KRW 1 billion सिविल हर्जाना देने का आदेश दिया गया। आपराधिक बरी होना सिविल दावों से सुरक्षा नहीं देता।

3. क्या किसी वेबसाइट की Terms of Service का उल्लंघन कोरिया में स्क्रैपिंग को अवैध बना देता है?

कोरियाई अदालतों ने लगातार माना है कि केवल ToS उल्लंघन ICNA के तहत आपराधिक अपराध नहीं बनता — अदालत ने use (ToS) और access (तकनीकी बाधाएँ) के बीच अंतर किया है। फिर भी, ToS उल्लंघन सिविल breach-of-contract दावे का आधार बन सकता है या unfair competition विश्लेषण में बुरी नीयत के प्रमाण के रूप में काम कर सकता है।

4. कोरिया का वेब स्क्रैपिंग क़ानून US से कैसे तुलना करता है?

दोनों क्षेत्र सार्वजनिक डेटा स्क्रैपिंग की रक्षा करते हैं (कोरिया में Yanolja, US में hiQ v LinkedIn) और दोनों मानते हैं कि केवल ToS उल्लंघन आपराधिक अपराध नहीं है (US में Van Buren)। मुख्य अंतर: कोरिया में मज़बूत वैधानिक डेटाबेस सुरक्षा और US की तुलना में व्यापक unfair-competition कैच-ऑल है, जबकि US में सामान्य संघीय database right नहीं है। कोरियाई प्लेटफ़ॉर्म मालिकों के पास स्क्रैपर्स के खिलाफ़ सिविल क़ानून के ज़्यादा औज़ार हैं।

5. अगर मैं कोरियाई वेबसाइटों से व्यक्तिगत डेटा स्क्रैप करूँ तो क्या होता है?

PIPA सार्वजनिक रूप से दिखने वाली जानकारी होने या न होने, दोनों स्थितियों में लागू होता है। सहमति या किसी अन्य कानूनी आधार के बिना व्यक्तिगत जानकारी — नाम, फ़ोन नंबर, ईमेल — इकट्ठा करना उल्लंघन है। 2023 के PIPA संशोधन ने इन सुरक्षा को मज़बूत किया, और सार्वजनिक रूप से उपलब्ध व्यक्तिगत जानकारी पर PIPC की 2024 गाइडलाइन खास तौर पर web crawling and scraping को संबोधित करती है। दंड 5 साल तक की कैद, KRW 50 million जुर्माना, और कुल बिक्री के 3% तक प्रशासनिक दंड तक हो सकते हैं।

ज़िम्मेदार वेब स्क्रैपिंग के लिए Thunderbit आज़माएँ

और जानें

Fawad Khan
Fawad Khan
फ़वाद जीविका के लिए लिखते हैं, और सच कहें तो उन्हें यह काफ़ी पसंद है। उन्होंने सालों तक यह समझने में लगाया है कि कौन-सी कॉपी लोगों के दिमाग़ में टिक जाती है — और कौन-सी उन्हें बस स्क्रॉल करते रहने पर मजबूर कर देती है। मार्केटिंग के बारे में पूछिए, तो वह घंटों बात करेंगे। कार्बोनारा के बारे में पूछिए, तो उससे भी ज़्यादा देर तक।
विषय सूची

Thunderbit आज़माएँ

लीड्स और अन्य डेटा सिर्फ 2 क्लिक में निकालें। AI से संचालित।

Thunderbit पाएं यह मुफ्त है
AI का उपयोग करके डेटा निकालें
डेटा को आसानी से Google Sheets, Airtable, या Notion में ट्रांसफर करें
Chrome Store Rating
PRODUCT HUNT#1 Product of the Week