ב־1 במאי 2024, רשות הגנת המידע ההולנדית פרסמה כותרת שעוררה סערה בכל צוות נתונים באירופה: אם אתם עובדים במכירות, במסחר אלקטרוני או בנדל״ן — כלומר כמעט כל מי שנשען על נתוני אינטרנט — כנראה שהמשפט הזה גרם לכם אי־נוחות.
אני מבין את זה. ב־ אנחנו מדברים כל יום עם צוותים עסקיים שצריכים נתוני אינטרנט לניטור מחירים, יצירת לידים ומחקר שוק. התסכול תמיד דומה: הם מחפשים בגוגל "האם גריפת אתרים חוקית באירופה", וכל תשובה היא גרסה כלשהי של "זה תלוי". זה לא באמת עוזר כשיש לכם דדליין לפרויקט ורשימת כתובות URL לגריפה.
אז ביליתי שבועות בחפירה בתקנות עצמן, בהנחיות של רשויות הגנת מידע, ברישומי אכיפה ובפסיקה, כדי לבנות משהו שימושי יותר: צ'ק־ליסט מעשי להחלטה, טבלת אמצעי הגנה מאוחדת, סכומי קנסות אמיתיים, ומדריך צעד־אחר־צעד לגריפת אתרים אירופיים בלי להסתבך מול רגולטור. בין אם אתם גורפים מחירי מוצרים מאמזון או שולפים אנשי קשר B2B ממדריך עסקים, המאמר הזה יעזור לכם להבין איפה עובר הקו — ואיך להישאר בצד הנכון שלו.
מהי גריפת אתרים (ולמה עסקים אירופיים צריכים להתעניין בזה)?
גריפת אתרים היא חילוץ אוטומטי של נתונים מאתרים לפורמט מובנה — גיליון אלקטרוני, מסד נתונים או CRM. במקום להעתיק ולהדביק שמות מוצרים ומחירים מ־200 דפים, scraper מבקר בכל דף ושולף את השדות שאתם צריכים לעמודות מסודרות.
למה זה חשוב לצוותים לא טכניים? כי נתוני אינטרנט מניעים החלטות עסקיות אמיתיות. צוותי מכירות גורפים מדריכים כדי למצוא לידים. מנהלי מסחר אלקטרוני עוקבים מדי יום אחרי מחירי מתחרים. אנליסטים בנדל״ן עוקבים אחרי מגמות מודעות בפלטפורמות. חוקרי שוק אוספים בקנה מידה גדול ביקורות ודירוגים ציבוריים. שוק צומח במהירות, וחברות גורפות מיליוני נקודות נתונים בכל יום.
אבל סביבת הרגולציה באירופה שונה מזו שבארה״ב. ה־GDPR, הנחיית מסדי הנתונים והנחיות מתפתחות של רשויות הגנת המידע משמע ש"זמין לציבור" לא שווה ל"חופשי לשימוש". כפי שאמר יו״ר רשות הגנת המידע ההולנדית, Aleid Wolfsen: "ציבורי לא אומר אוטומטית שיש רשות לגריפה." להבין את הכללים לפני שמתחילים זה לא בונוס — זה ההבדל בין מערך נתונים נקי לבין קנס של שש ספרות.
האם גריפת אתרים חוקית באירופה? התשובה הקצרה
גריפת אתרים אינה בלתי חוקית מעצם מהותה באירופה. אבל החוקיות שלה תלויה בשלושה דברים: איזה נתונים גורפים, איך גורפים אותם, ולמה.
שלוש שכבות משפטיות חופפות מכתיבות את הגריפה באיחוד האירופי:
- GDPR — חל בכל פעם שאתם גורפים נתונים אישיים (שמות, אימיילים, מספרי טלפון, כתובות IP, ואפילו מזהים פסאודונימיים).
- הנחיית מסדי הנתונים של האיחוד האירופי — מגנה על מסדי נתונים שבהם היוצר השקיע "השקעה מהותית" בארגון הנתונים.
- דיני חוזים / תנאי שימוש — אתרים רבים אוסרים במפורש גריפה בתנאי השימוש שלהם, ובתי משפט באיחוד האירופי אכפו את התנאים האלה.
הנקודה הקריטית: "ציבורי" לא אומר "ללא רגולציה". גם נתונים שאינם אישיים יכולים להיות מוגנים תחת זכויות מסד נתונים או דיני חוזים. כל פרויקט גריפה מחייב בחינה של שלוש השכבות יחד.
החוקים המרכזיים באיחוד האירופי שמסדירים גריפת אתרים
GDPR: כשגורפים נתונים אישיים
כל נתון שמקושר לאדם מזוהה מפעיל חובות לפי GDPR. זה כולל שמות, כתובות אימייל, מספרי טלפון, כתובות IP, תמונות, ואפילו נתונים פסאודונימיים שאפשר לזהות מחדש. ברגע שאתם גורפים נתונים אישיים, אתם הופכים ל"בקר נתונים" עם חובות לפי ה־GDPR:
- בסיס חוקי (סעיף 6): צריך סיבה משפטית לעיבוד הנתונים. הסכמה כמעט אף פעם לא פרקטית לגריפה בקנה מידה גדול — אי אפשר לבקש ממיליוני אנשים רשות לפני שאוספים מידע שפרסמו בעצמם בפומבי. הבסיס הנפוץ ביותר הוא אינטרס לגיטימי (סעיף 6(1)(f)), אבל הוא דורש מבחן מתועד בשלושה חלקים: (1) האינטרס שלכם לגיטימי, (2) העיבוד נחוץ, ו־(3) הוא לא פוגע באופן בלתי מידתי בזכויות נושאי המידע, תוך התחשבות בציפיות הסבירות שלהם.
- שקיפות (סעיף 14): מכיוון שאינכם אוספים את הנתונים ישירות מהאדם, עליכם ליידע אותו — בדרך כלל בתוך חודש — מה אספתם, למה, ואיך הוא יכול לממש את זכויותיו. אם הודעה אישית אינה מידתית, עליכם לפרסם הודעה כללית הכוללת את כל המידע הנדרש בסעיף 14.
- מזעור נתונים: אספו רק את מה שאתם באמת צריכים. אם אתם רוצים מחירי מוצרים, אל תאספו גם כתובות אימייל של מוכרים.
- מגבלות אחסון וניהול זכויות: הגדירו תקופות שמירה, כבדו בקשות למחיקה, וספקו גישה למידע על המקור.
דו״ח (שאומץ במאי 2024) הוסיף שכבה נוספת: הוא קבע ששלבי עיבוד שונים — איסוף, קדם־עיבוד, אימון, פרומפטים ופלט — צריכים כל אחד ניתוח בסיס חוקי משלו. EDPB לא פסל אינטרס לגיטימי עבור גריפת אתרים, אבל התעקש על הערכה מלאה בשלושה חלקים יחד עם אמצעי הגנה מתאימים.
הנחיית מסדי הנתונים של האיחוד האירופי: הגנה על אופן ארגון הנתונים
הנחיית מסדי הנתונים מעניקה זכות sui generis ליוצרי מסדי נתונים שביצעו "השקעה מהותית" באיסוף, אימות או הצגה של הנתונים. אם הגריפה שלכם מחלצת "חלק מהותי" ממסד נתונים כזה, ייתכן שתפגעו בזכות הזו.
בפועל, הרף גבוה יחסית. גריפה של כמה מאות מחירי מוצרים מקמעונאי גדול כנראה לא תיחשב. אבל הורדה המונית של כל הקטלוג של מתחרה — עשרות אלפי רשומות — עשויה לחצות את הקו, במיוחד אם היא פוגעת ביכולת היוצר להחזיר את ההשקעה שלו. בית הדין של האיחוד האירופי דן ברף הזה בכמה תיקים, והשאלה המרכזית היא תמיד מידתיות.
עבור רוב צרכי הגריפה העסקיים — שליפת שדות ספציפיים מדפי מוצרים, השוואת רשומות בין קטגוריות — הסיכון מהנחיית מסדי הנתונים נמוך יותר. אבל הוא לא אפס, וכדאי להביא אותו בחשבון כשמתכננים את היקף הגריפה.
תנאי שימוש: קלף הפתעה של דיני החוזים
כאן הרבה נופלים. אתרים רבים אוסרים גריפה בתנאי השימוש שלהם. באירופה, הפרה של תנאי שימוש היא עניין אזרחי (לא פלילי), אבל היא עדיין יכולה להוביל לצווי מניעה, תביעות חוזיות וחשיפה כספית אמיתית.
יש שתי גרסאות שכדאי להכיר: browsewrap (תנאים פסיביים, לעיתים קישור קבור בתחתית העמוד) קשה יותר לאכוף, כי המשתמש לא הסכים באופן אקטיבי. clickwrap (כשמסמנים תיבה או לוחצים על "אני מסכים") הרבה יותר אכיף.
פסק הדין החשוב הוא Ryanair נגד PR Aviation: בית המשפט אכף את תנאי השימוש של Ryanair מול scraper, גם כשזכויות מסד הנתונים לא חלו, משום שה־scraper הסכים לתנאים. לכן: בדקו תמיד את תנאי השימוש של אתר לפני הגריפה. אם זו הסכמה מסוג clickwrap שאוסרת במפורש גריפה, המשיכו בזהירות — או חפשו במקום זאת גישה דרך API.
הנחיית DSM ו־AI Act: חריגים למחקר ולכריית טקסט ונתונים
לא כל גריפה מפעילה את אותן מגבלות. הנחיית השוק הדיגיטלי האחיד (DSM) משנת 2019 יצרה שני חריגים ל־text and data mining (TDM):
- סעיף 3: מוסדות מחקר וארגוני מורשת תרבותית יכולים לבצע TDM על תוכן שאליו הגישה הייתה חוקית.
- סעיף 4: כל אחד — כולל גופים מסחריים — יכול לבצע TDM, אלא אם בעל הזכויות בחר במפורש להסיר הסכמה (למשל דרך robots.txt, ai.txt או כותרות TDMRep).
חוק ה־AI של האיחוד האירופי (סעיף 53) מוסיף חובות לספקי מודלי AI: עליהם לציית למנגנוני הסרת הסכמה ל־TDM ולתעד את מקורות נתוני האימון שלהם.
יש כאן הסתייגות חשובה: החריגים האלה מכסים זכויות יוצרים וזכויות מסדי נתונים, לא את ה־GDPR. אם ה־TDM שלכם כולל נתונים אישיים, עדיין צריך בסיס חוקי נפרד לפי GDPR.

צ'ק־ליסט "האם אפשר לגרוף את זה?" עבור נתונים אירופיים
זהו החלק שהלוואי שהיה קיים כשהתחלתי לחקור את הנושא. כל מאמר משפטי אומר "זה תלוי" — אבל איך נראה עץ ההחלטה בפועל? הנה צ'ק־ליסט ציות מעשי, שלב אחר שלב, עם שערים ברורים. כל שלב מוביל ל־✅ המשך, ⚠️ הוסיפו אמצעי הגנה, או 🛑 עצרו.
שלב 1: האם הנתונים אישיים או לא־אישיים?
נתונים לא־אישיים (מחירי מוצרים, מספרי SKU, כתובות עסקיות שלא מקושרות לאנשים): עומס רגולטורי נמוך יותר. עדיין צריך לבדוק את הנחיית מסדי הנתונים ואת תנאי השימוש, אבל GDPR לא חל. ✅ המשיכו לשלב 3.
נתונים אישיים (שמות, אימיילים, מספרי טלפון, תמונות, כל מזהה המקושר לאדם): GDPR חל. ⚠️ המשיכו לשלב 2.
שלב 2: איזה בסיס חוקי לפי GDPR חל?
- הסכמה: כמעט אף פעם לא ישימה לגריפה בקנה מידה גדול. 🛑 אלא אם יש לכם תרחיש צר וספציפי מאוד.
- אינטרס לגיטימי (סעיף 6(1)(f)): הבסיס הנפוץ ביותר. אבל הוא דורש מבחן מתועד בשלושה חלקים:
- האינטרס שלכם לגיטימי (אינטרס מסחרי יכול להיחשב, לפי ).
- העיבוד נחוץ לאותו אינטרס.
- מבחן האיזון: האינטרס שלכם לא גובר על זכויות נושאי המידע, תוך התחשבות בציפיות הסבירות שלהם.
- תעדו את מבחן האיזון לפני הגריפה. אם אינכם מסוגלים להסביר מדוע האנשים שהמידע שלהם נגרף היו מצפים באופן סביר לשימוש כזה, זו נורת אזהרה. ⚠️ המשיכו עם אינטרס לגיטימי מתועד.
שלב 3: האם תנאי השימוש של האתר מגבילים גריפה?
- הסכם clickwrap שאוסר גריפה: 🛑 סיכון גבוה. שקלו מקורות נתונים חלופיים או גישה רשמית דרך API.
- browsewrap או היעדר הגבלה בתנאי השימוש: ⚠️ סיכון נמוך יותר, אבל עדיין כבדו robots.txt ואותות התנגדות טכניים.
שלב 4: האם הנחיית מסדי הנתונים חלה?
- האם היעד הוא מסד נתונים עם השקעה מהותית בארגון המידע?
- האם הגריפה שלכם תחלץ "חלק מהותי" מאותו מסד נתונים?
- אם לשתי השאלות התשובה חיובית: ⚠️ סיכון להפרת זכות sui generis. הגבילו את היקף החילוץ.
שלב 5: האם אתם מכוסים בחריג מחקר או TDM?
- מוסד מחקר רשום או ארגון מורשת תרבותית? ייתכן שסעיף 3 של הנחיית DSM חל. ✅
- TDM מסחרי? בדקו אותות הסרת הסכמה לפי סעיף 4 (robots.txt, ai.txt, TDMRep). אם האתר הסיר הסכמה, 🛑 עצרו עבור אותו מקור.
שלב 6: האם יישמתם אמצעי הגנה שה־DPA ממליץ עליהם?
אם עברתם את השערים למעלה, השלב האחרון הוא יישום אמצעי ההגנה שממליצות עליהם CNIL, הרשות ההולנדית ל־DPA ו־EDPB. על כך מפורט בהרחבה בחלק הבא. ✅ המשיכו עם אמצעי הגנה במקום.

אמצעי הגנה לציות לפי DPA: מה CNIL, הרשות ההולנדית ו־EDPB ממליצים
לא מצאתי אף מאמר מתחרה אחד שמרכז את אמצעי ההגנה של שלושת הרגולטורים הפעילים ביותר באירופה בנושא גריפה. אז בניתי את הטבלה הזו באמצעות הצלבה בין , , ו.
| אמצעי הגנה | CNIL | הרשות ההולנדית ל־DPA (AP) | כוח המשימה של EDPB | טיפים ליישום |
|---|---|---|---|---|
| הודעת שקיפות לפי סעיף 14 | ✅ נדרש | ✅ נדרש | ✅ נדרש | פרסמו הודעה ציבורית עם קטגוריות מקורות, מטרות, בסיס משפטי, תקופת שמירה, ערוצי זכויות ופרטי ה־DPO |
| DPIA לפני גריפה | ✅ מומלץ (חובה אם מדובר בסיכון גבוה) | ✅ נדרש | ✅ נדרש | תעדו לפני ההשקה את מבחן האיזון, קטגוריות הנתונים, הסיכונים ואמצעי ההפחתה |
| מזעור נתונים | ✅ נדרש (הגדירו קריטריוני איסוף מדויקים) | ✅ נדרש | ✅ נדרש | הגדירו ל־scraper לשלוף רק שדות נחוצים; מחקו מייד נתונים לא רלוונטיים |
| הגבלת קצב / כיבוד robots.txt | ✅ נדרש (להוציא אתרים שמתנגדים דרך robots.txt/CAPTCHA) | — | — | נתחו robots.txt, הוסיפו השהיות בין בקשות, זהו את user agent שלכם |
| פסאודונימיזציה / אנונימיזציה | ⚠️ מומלץ (מייד אחרי האיסוף) | ✅ מומלץ בחום | ✅ מומלץ | גיבוב או אקראיות למזהים; הסירו כתובות פרופיל; טשטשו פנים כשאין צורך בזהות |
| תקופת שמירה | ✅ גבול מוגדר | ✅ כמה שיותר קצר | ✅ גבול מוגדר | אוטומטו מחיקות; הפרידו בין מטמון גולמי לבין עובדות מחולצות |
| מנגנון opt-out / blacklist | ✅ מומלץ (התנגדות מקדימה לפי שיקול דעת) | ✅ נדרש (התנגדות לפי סעיף 21) | ✅ נדרש | ספקו טופס opt-out, blacklist לדומיינים, חסימה ברמת אדם |
| החרגת מקורות רגישים | ✅ נדרש (פורומים בריאותיים, אתרי קטינים, אתרים פורנוגרפיים, גנאלוגיה) | ✅ נדרש | ✅ נדרש | נהלו רשימות חסימה ברירת מחדל לבריאות, דת, פוליטיקה, ביומטריה, קטינים |
הערה מעשית מאיתנו: תכונת של Thunderbit מאפשרת למשתמשים להגדיר בדיוק אילו עמודות לחלץ — מחיר, SKU, שם מוצר — כך שה־scraper אוסף רק מה שנדרש. אתם לא מורידים בכמות גדולה עמודים שלמים; אתם בוחרים שדות מובנים שמתיישרים עם עקרון הגבלת המטרה ומזעור הנתונים. עם זאת, שום כלי לא הופך גריפה לא תואמת לחוקית. הניתוח המשפטי תמיד קודם.

האם גריפת אתרים חוקית באירופה במקרה השימוש שלכם? הנחיה לפי תעשייה
השאלה שאני רואה הכי הרבה בפורומים היא לא "האם גריפה חוקית?" — אלא "האם הגריפה שלי חוקית?" תאוריית GDPR מופשטת לא עונה על זה. אז הנה פירוק לפי שימוש עסקי נפוץ.
| מקרה שימוש | סוג הנתונים | סיכונים משפטיים מרכזיים | סבירות לתוצאה |
|---|---|---|---|
| ניטור מחירי מסחר אלקטרוני (רשימות מוצרים ציבוריות) | לא־אישי (מחירים, SKU, שמות מוצרים) | זכות sui generis לפי הנחיית מסדי הנתונים; הפרת תנאי שימוש | בדרך כלל סיכון נמוך יותר אם אין נתונים אישיים ואין חילוץ שיטתי של "חלק מהותי" ממסד הנתונים |
| יצירת לידים B2B (פרטי קשר ממדריכים) | אישי (שמות, אימיילים, מספרי טלפון) | בסיס חוקי לפי סעיף 6 ב־GDPR; הודעה לפי סעיף 14; ePrivacy לתקשורת אלקטרונית | סיכון גבוה יותר — נדרש מבחן אינטרס לגיטימי מתועד יחד עם חובת הודעה |
| מודעות נדל״ן (נתוני נכסים מפורטלים) | מעורב (כתובות יכולות להיות לא־אישיות; שמות בעלים הם אישיים) | הנחיית מסדי הנתונים; תנאי שימוש; GDPR אם מחובר לבעלים | סיכון בינוני — אנונימיזציה של נתוני בעלים, בדיקת תנאי שימוש, כיבוד robots.txt |
| נתוני אימון ל־AI (גריפה רחבת־היקף של תוכן אינטרנט) | עלול להיות אישי אם לא מסונן | GDPR + חובות לפי סעיף 53 של AI Act בנוגע ל־TDM | סיכון גבוה — חייבים לציית גם ל־GDPR וגם ל־AI Act; מנגנוני opt-out וסינון חזק נדרשים |
לתרחישים בסיכון נמוך יותר כמו נתוני מסחר אלקטרוני ציבוריים, כלים עם תבניות מובנות — כמו — מפחיתים חשיפה כי הם מחלצים שדות נתונים ספציפיים ולא־אישיים בלי לאסוף תוכן עודף. בתרחישים בסיכון גבוה יותר שכוללים נתונים אישיים (למשל יצירת לידים), הניתוח המשפטי חייב לבוא קודם. שום scraper, חכם ככל שיהיה, לא הופך איסוף לא תואם לאיסוף תואם.

האיחוד האירופי מול ארה״ב מול בריטניה: איך חוקי גריפת האתרים משתווים
אם העסק שלכם פועל מעבר לגבולות, חשוב להבין איך הכללים שונים. לא מצאתי מאמר מתחרה אחד שמציג את זה בטבלה ברורה זו מול זו, אז הנה זה כאן.
| ממד | האיחוד האירופי | ארה״ב | בריטניה (אחרי הברקזיט) |
|---|---|---|---|
| החוק המרכזי | GDPR + הנחיית מסדי הנתונים + ePrivacy | CFAA + חוקים מדינתיים (פרטיות נתונים פדרלית מוגבלת) | UK GDPR + חוק הגנת המידע 2018 |
| גריפת נתונים ציבוריים | עדיין דורשת בסיס חוקי לפי GDPR אם מדובר בנתונים אישיים | בדרך כלל חוקי לפי hiQ v. LinkedIn (נתונים ציבוריים) | דומה לאיחוד האירופי; חלות הנחיות ICO |
| אכיפת תנאי שימוש | עניין אזרחי; Ryanair v. PR Aviation אכף זכויות sui generis | Van Buren צמצם את CFAA; הפרת ToS ≠ פלילית | עניין אזרחי, בדומה לאיחוד האירופי |
| הגנת מסדי נתונים | זכות sui generis (חזקה) | אין זכות פדרלית מקבילה | הזכות sui generis נשמרה |
| חריג AI/TDM | DSM Directive סעיפים 3–4; AI Act סעיף 53 | אין חריג TDM פדרלי (עקרון fair use) | בריטניה בוחנת חריג TDM (תקוע נכון ל־2026) |
| גוף אכיפה מרכזי | רשויות הגנת מידע לאומיות (CNIL, Dutch AP וכו׳) | FTC + יועצים משפטיים של מדינות | ICO |
| מגמה לאחרונה | מחמיר (הרשות ההולנדית: "כמעט תמיד לא חוקי" לגבי נתונים אישיים) | מקל יותר אחרי hiQ | מתון; בדרך כלל עוקב אחרי הכיוון האירופי |
אם אתם גורפים אתרים אירופיים או נתונים על תושבי אירופה, חלים כללי האיחוד האירופי — גם אם החברה שלכם מבוססת בארה״ב או בבריטניה.
קנסות אמיתיים ומקרים אמיתיים: מה קורה בפועל אם נתפסתם (2022–2026)
זהו החלק שעונה על השאלה שמאחורי השאלה: "מהו באמת הסיכון?" ריכזתי כל פעולה פומבית של רשות הגנת מידע שעסקה בגריפה או בנתונים אישיים שנגרפו, מ־2022 ועד אפריל 2026.
| שנה | גוף אוכף | יעד | הפרה | קנס / תוצאה |
|---|---|---|---|---|
| 2022 | Garante האיטלקית | Clearview AI | גריפת תמונות פנים ללא בסיס חוקי | קנס של 20 מיליון אירו + איסור + צו מחיקה |
| 2022 | רשות הגנת המידע היוונית | Clearview AI | אותו הדבר — גריפת זיהוי פנים | קנס של 20 מיליון אירו + איסור + מחיקה |
| 2022 | CNIL (צרפת) | Clearview AI | מסד נתוני זיהוי פנים | קנס של 20 מיליון אירו + קנס אפשרי של 100 אלף אירו ליום |
| 2023 | CNIL (צרפת) | Clearview AI | אי־ציות לצו מ־2022 | תשלום עונש של 5.2 מיליון אירו |
| 2023 | DSB האוסטרית | Clearview AI | יותר מ־30 מיליארד תמונות פנים מהאינטרנט הציבורי | מחיקה + צו למינוי נציג באיחוד האירופי (ללא קנס פומבי) |
| 2024 | הרשות ההולנדית ל־AP | Clearview AI | איסוף בלתי חוקי של נתוני זיהוי פנים | קנס של 30.5 מיליון אירו + צווי ציות |
| 2024 | CNIL (צרפת) | KASPR | גריפת פרטי קשר מ־LinkedIn לצורך יצירת לידים | קנס של 240,000 אירו — 160 מיליון אנשי קשר, נתונים עם נראות מוגבלת, שמירה ל־5 שנים |
| 2024 | Irish DPC | X / Grok | פוסטים ציבוריים ששימשו לאימון AI | הסכם השעיה; נפתחה חקירה סטטוטורית ב־2025 |
| 2024 | Irish DPC | Meta | אימון מתוכנן של LLM על תוכן ציבורי ב־Facebook/Instagram | Meta עצרה את תוכניות אימון ה־AI באיחוד האירופי |
| 2024 | Garante האיטלקית | OpenAI | נתוני אימון של ChatGPT ושקיפות | הוטל קנס של 15 מיליון אירו, שבוטל בידי בית המשפט ברומא במרץ 2026 |
סך הקנסות המוניטריים באיחוד האירופי/EEA בקטגוריית גריפה/אינטרנט פתוח: יותר מ־95 מיליון אירו (לא כולל הקנס שבוטל נגד OpenAI).
כל אחד מהקנסות הגדולים האלה כוון אל גריפה המונית של נתונים ביומטריים או אישיים ללא בסיס חוקי. Clearview גרפה מיליארדי תמונות פנים. KASPR גרפה 160 מיליון אנשי קשר, כולל נתונים מפרופילי LinkedIn עם נראות מוגבלת, ושמרה אותם חמש שנים.
גריפה מידתית וממוקדת של נתונים ציבוריים לא־אישיים — כמו מחירי מוצרים או מספרי SKU — לא הייתה נושא לאכיפה. זה לא הופך אותה לחסרת סיכון, אבל זה עוזר לשים את המספרים בפרופורציה.
איך לגרוף אתרים אירופיים בבטחה: מדריך צעד־אחר־צעד
- רמת קושי: מתחילים
- זמן נדרש: כ־15 דקות (כולל סקירת ציות)
- מה תצטרכו: דפדפן Chrome, (הגרסה החינמית מספיקה), כתובת URL יעד, וסבב בדיקה מהיר של הצ'ק־ליסט למעלה
שלב 1: הגדירו את המטרה ואת צרכי הנתונים
לפני שאתם פותחים כלי כלשהו, רשמו למה אתם צריכים את הנתונים ובדיוק אילו שדות אתם צריכים. זה לא רק נוהג טוב — זו התשתית לעקרונות הגבלת המטרה ומזעור הנתונים של ה־GDPR.
לדוגמה: "אני צריך שמות מוצרים, מחירים ומצב מלאי מ־50 עמודי מוצר באמזון כדי לעדכן את גיליון התמחור התחרותי שלנו." זה ספציפי. השוו את זה ל־"אני רוצה לגרוף הכול מאמזון." הראשון עובר את מבחן המזעור; השני לא.
שלב 2: עברו על צ'ק־ליסט הציות
עברו על צ'ק־ליסט ששת השלבים "האם אפשר לגרוף את זה?" שלמעלה. אם אחד השערים מחזיר 🛑, עצרו והתייעצו עם יועץ משפטי לפני המשך.
אם מריצים את דוגמת המחיר של אמזון דרך השערים: הנתונים אינם אישיים (מחירים, SKU, שמות מוצרים) ✅, אין בעיית נתונים אישיים לפי GDPR ✅, צריך לבדוק את תנאי השימוש של אמזון (הם מגבילים גריפה, אז כדאי לשקול שימוש ב־API רשמי לנתוני מוצרים אם קיים) ⚠️, והסיכון לפי הנחיית מסדי הנתונים נמוך עבור 50 מוצרים ✅.
שלב 3: בחרו את גישת הגריפה הנכונה
| שיטה | קלות שימוש | תמיכה בציות | תחזוקה | דיוק |
|---|---|---|---|---|
| העתקה והדבקה ידנית | נמוכה | לא רלוונטי (אתם שולטים במה מועתק) | גבוהה (לוקחת זמן) | מועדת לשגיאות |
| scraper מבוסס קוד (Python, Scrapy) | נמוכה (דורש קוד) | אין מובנה | גבוהה (נשבר כשאתרים משתנים) | גבוה אם מתחזקים |
| Thunderbit (מופעל ב־AI) | גבוהה מאוד | מזעור ברמת שדה מובנה | נמוכה (ה־AI מסתגל לשינויי דף) | גבוה |
| API רשמי | בינונית | הגבוהה ביותר (גישה מובנית ומאושרת) | נמוכה | הגבוהה ביותר |
עבור משתמשים עסקיים בלי צוות פיתוח, הוא המסלול המהיר ביותר. עבור אתרים עם APIs רשמיים (כמו Amazon Product Advertising API), ה־API הוא תמיד הנתיב הבטוח ביותר — אבל לרוב יש בו מגבלות על נפח נתונים ושדות.
שלב 4: הגדירו את ה־scraper שלכם לציות
ב־Thunderbit:
- עברו לעמוד היעד שלכם (למשל, עמוד רישום מוצר באמזון).
- לחצו על אייקון Thunderbit בסרגל הכלים של Chrome ובחרו "AI Suggest Fields". ה־AI סורק את העמוד ומציע עמודות כמו "שם מוצר", "מחיר", "דירוג" ו"מצב מלאי".
- הסירו כל שדה שאינכם צריכים. אם ה־AI מציע "שם מוכר" או "אימייל של מוכר" ואתם צריכים רק נתוני תמחור, מחקו את העמודות האלה. זה מזעור נתונים בפועל.
- השתמשו ב־Field AI Prompt כדי להוסיף הוראות כמו "להוציא מזהים אישיים" או "לחלץ רק נתוני תמחור ציבוריים".
- בחרו Cloud Scraping לאתרי מסחר אלקטרוני ציבוריים (מהיר יותר, בלי צורך בהתחברות) או Browser Scraping לאתרים שדורשים אימות.
- לפני שלוחצים על "Scrape", ודאו ש־robots.txt אינו אוסר גריפה עבור המקרה שלכם. אפשר לבדוק זאת על ידי ביקור ב־
[domain]/robots.txtבדפדפן.
כעת אמורה להופיע תצוגה מקדימה של טבלה עם רק השדות שהגדרתם — בלי נתונים אישיים מיותרים, בלי מטא־דאטה מיותר.
שלב 5: ייצאו, שמרו ונהלו את הנתונים באחריות
אחרי הגריפה, ייצאו את הנתונים ל־ — Thunderbit תומך בכולם עם ייצוא חינמי.
ואז:
- הגדירו תקופת שמירה. אל תשמרו נתוני גריפה לנצח. אם אתם עושים ניטור מחירים שבועי, כנראה שאין צורך בנתונים הגולמיים של החודש שעבר.
- אם נאספו נתונים אישיים (למשל, ליצירת לידים), תעדו את הבסיס החוקי, פרסמו הודעת שקיפות לפי סעיף 14, והקימו תהליך לטיפול בבקשות opt-out ומחיקה.
- אוטומטו לוחות זמנים למחיקה כשאפשר. ה־ של Thunderbit יכול להפוך גריפות חוזרות לאוטומטיות במרווחים קבועים תוך שמירה על אותה תצורת שדות, כך שכל הרצה נשארת בתוך פרמטרי הציות שלכם.
טיפים לשמירה על ציות בזמן גריפה באירופה
כמה עקרונות שלמדתי מחקר הנושא ומדברים עם צוותים שמודעים לציות:
- בדקו תמיד את תנאי השימוש לפני גריפת אתר חדש. זה לוקח שתי דקות ויכול לחסוך חודשים של כאבי ראש משפטיים.
- השתמשו ב־APIs כשיש. הם מובנים, מאושרים, והמסלול הבטוח ביותר. גריפה צריכה להיות ברירת המחדל המשנית, לא הראשית.
- בצעו DPIA לכל פרויקט הכולל נתונים אישיים בקנה מידה גדול. CNIL אומרת שמערכי נתוני אימון ל־AI יכולים ליצור סיכון גבוה, וה־DPIA הוא הוכחת האחריות שלכם. גם בפרויקטים קטנים יותר, תיעוד הניתוח שלכם הוא צעד חכם.
- נהלו יומן גריפה. רשמו מה נגרף, מתי, מאיפה, מהו הבסיס החוקי ומהי תקופת השמירה. אם אי פעם רשות הגנת מידע תשאל, תשמחו שזה קיים.
- עקבו אחרי עדכוני רגולציה. הנחיות DPA משתנות מהר — CNIL פרסמה דפי הנחיה חדשים ל־AI scraping בינואר 2026, ו־EDPB צפויה לפרסם חוות דעת נוספות. הכללים היום עשויים להתהדק מחר.
- אל תגרפו ממקורות מוגבלים או רגישים. של CNIL כוללת פורומי בריאות, אתרים שמשמשים בעיקר קטינים, אתרים פורנוגרפיים, אתרי גנאלוגיה ואתרים מובנים מאוד של נתונים אישיים. אם אתם בונים פרויקט גריפה, נהלו רשימת חסימה ברירת מחדל.
- תעבורה אוטומטית היא עניין משמעותי מבחינה תפעולית. שבוטים היו 42% מכלל תעבורת האינטרנט ב־2024, ו־ שתעבורת בוטים אוטומטית עקפה לראשונה את תעבורת בני האדם, והגיעה ל־51% ב־2024. רגולטורים מתייחסים יותר ויותר להתנהגות בוטים, לקצב ולניסיונות התחמקות כראיה לסיכון ולחוסר הוגנות. התנהגות כמו של scraper אחראי — זיהוי ה־user agent שלכם, הגבלת קצב, וכיבוד אותות התנגדות — היא לא רק מנומסת; יש לה גם משמעות משפטית.
מסקנה
גריפת אתרים אינה בלתי חוקית באירופה. אבל היא מפוקחת — במיוחד כשמעורבים נתונים אישיים.
התוצאה המשפטית תלויה במה אתם גורפים (אישי מול לא־אישי), איך אתם גורפים (תנאי שימוש, robots.txt, הגבלת קצב, מזעור ברמת שדה), ולמה (מטרה ובסיס משפטי מתועדים). היסטוריית האכיפה ברורה: גריפה המונית ולא ממוקדת של נתונים אישיים ללא בסיס חוקי היא המקום שבו חברות חוטפות קנסות של שבע ושמונה ספרות. לעומת זאת, גריפה מידתית וממוקדת של נתונים ציבוריים לא־אישיים — עם אמצעי הגנה במקום — נמצאת בקטגוריית סיכון שונה לגמרי.
המסגרת המעשית:
- השתמשו בצ'ק־ליסט ההחלטה לפני כל פרויקט גריפה.
- יישמו אמצעי הגנה שמומלצים על ידי DPA (שקיפות, מזעור, מגבלות שמירה, מנגנוני opt-out).
- בחרו כלים שתומכים בציות כבר בתכנון. בחירת שדות מבוססת AI של Thunderbit, חילוץ מובנה, ו מקלים עליכם לגרוף רק את הנתונים שאתם צריכים — לא יותר, לא פחות.
- תעדו הכול. מבחן איזון, רשימת מקורות, לוח שמירה, DPIA. אם רגולטור ישאל, התיק שלכם הוא ההגנה שלכם.
אזהרה מחייבת: המאמר הזה הוא מידע כללי ולא ייעוץ משפטי. בתרחישים בסיכון גבוה הכוללים נתונים אישיים בקנה מידה גדול, התייעצו עם עורך דין פרטיות מוסמך. התקנות משתנות, והמחיר של טעות הוא ממשי.
רוצים לנסות בעצמכם גריפת אתרים תואמת רגולציה וממוקדת? מאפשרת לכם להתנסות בחילוץ מובנה בקנה מידה קטן — הגדירו שדות, גרפו רק את מה שצריך, וייצאו בלחיצות. אפשר גם לעיין ב שלנו להדרכות צעד־אחר־צעד.
שאלות נפוצות
1. האם גריפת אתרים חוקית באירופה אם הנתונים זמינים לציבור?
זמינות לציבור לא פוטרת נתונים מ־GDPR אם הם כוללים מידע אישי. כפי שציינה הרשות ההולנדית ל־DPA, "ציבורי לא אומר אוטומטית שיש רשות לגריפה." נתונים ציבוריים לא־אישיים (מחירי מוצרים, SKU) הם בדרך כלל בסיכון נמוך יותר, אבל עדיין צריך לבדוק את הנחיית מסדי הנתונים ואת תנאי השימוש של האתר.
2. האם אפשר לגרוף אימיילים ומספרי טלפון מאתרי אינטרנט אירופיים?
אימיילים ומספרי טלפון הם נתונים אישיים לפי GDPR. צריך בסיס חוקי — בדרך כלל אינטרס לגיטימי עם מבחן איזון מתועד — וכן חובה ליידע את האנשים לפי סעיף 14. CNIL קנסה את KASPR ב־240,000 אירו ב־2024 על גריפת נתוני קשר מ־LinkedIn בלי שקיפות או בסיס חוקי מספקים, כך שזהו תחום שבו האכיפה פעילה.
3. מהו הקנס הגדול ביותר על גריפת אתרים בלתי חוקית באירופה?
הרשות ההולנדית ל־DPA קנסה את Clearview AI ב־ ב־2024 על איסוף בלתי חוקי של נתוני זיהוי פנים מהאינטרנט הציבורי. כמה רשויות הגנת מידע נוספות באיחוד האירופי קנסו את Clearview ב־20 מיליון אירו כל אחת. סך הקנסות הקשורים לגריפה באיחוד האירופי/EEA בין 2022–2026 עולה על 95 מיליון אירו.
4. האם כיבוד robots.txt הופך גריפת אתרים לחוקית באירופה?
כיבוד robots.txt הוא נוהג מומלץ ומתיישר עם , אבל הוא לא מבטיח חוקיות לבדו. עדיין צריך לציית ל־GDPR (אם מעורבים נתונים אישיים), להנחיית מסדי הנתונים ולתנאי השימוש של האתר. חשבו על ציות ל־robots.txt כשכבה אחת במסגרת ציות רב־שכבתית.
5. במה שונה חוק גריפת האתרים באירופה לעומת ארה״ב?
האיחוד האירופי מחמיר משמעותית. GDPR חל על כל נתון אישי — אפילו נתונים זמינים לציבור — והנחיית מסדי הנתונים מעניקה הגנה חזקה למערכי נתונים מאורגנים. לארה״ב אין מקבילה פדרלית לאף אחד מהחוקים האלה; אחרי hiQ v. LinkedIn, גריפת נתונים ציבוריים בדרך כלל מותרת בארה״ב. בריטניה אחרי הברקזיט נמצאת באמצע, עם UK GDPR וזכויות מסדי נתונים שנשמרו, במידה רבה בדומה לכללי האיחוד האירופי, אבל עם אכיפה של ICO. עבור עסקים חוצי־גבולות, כללי האיחוד האירופי קובעים את הרף הגבוה ביותר — ואם אתם גורפים נתונים על תושבי האיחוד האירופי, הכללים האלה חלים בלי קשר למקום שבו החברה שלכם מבוססת.
למדו עוד
