LinkedIn Scraper GitHub: מה עובד ב-2026 (ומה לא)

עודכן לאחרונה ב-April 22, 2026

חיפוש ב-GitHub אחר "linkedin scraper" מחזיר נכון לאפריל 2026 בערך . רובם רק יבזבזו לכם את הזמן. נשמע קשוח? אולי. אבל זה מה שגיליתי אחרי שבדקתי שמונה מהמאגרים הבולטים ביותר, קראתי עשרות שרשורי Issues ב-GitHub, והשוויתי לדיווחים מהקהילה ב-Reddit ובפורומי גריפה. הדפוס חוזר על עצמו: מאגרים עם הרבה כוכבים מושכים תשומת לב, צוות האנטי-בוט של LinkedIn בוחן את הקוד, הזיהוי מתעדכן, והמשתמשים נשארים עם סלקטורים שבורים, לולאות CAPTCHA או חסימות חשבון מוחלטות. משתמש ב-Reddit תיאר את המצב הנוכחי בצורה חדה — LinkedIn הוסיף "הגבלות קצב מחמירות יותר, זיהוי בוטים טוב יותר, מעקב אחר סשנים ושינויים תכופים," וכלים ישנים עכשיו "נשברים מהר או גורמים לדגלים על חשבונות/כתובות IP." אם אתם אנשי מכירות, מגייסים או מנהלי Ops שמחפשים נתוני LinkedIn בגיליון אלקטרוני, ייתכן שהמאגר שהעתקתם בחודש שעבר כבר מת. המדריך הזה נועד לעזור לכם להבין אילו פרויקטים ב-GitHub באמת שווים את הזמן שלכם, איך להימנע משריפת החשבון, ומתי עדיף לוותר על הקוד לגמרי.

מהו LinkedIn Scraper ב-GitHub?

פרויקט LinkedIn scraper ב-GitHub הוא סקריפט בקוד פתוח — בדרך כלל ב-Python, לפעמים ב-Node.js — שמבצע אוטומציה של חילוץ נתונים מובנים מדפי LinkedIn. היעדים הטיפוסיים כוללים:

  • פרופילים של אנשים: שם, כותרת, חברה, מיקום, מיומנויות, ניסיון
  • רשימות משרות: כותרת, חברה, מיקום, תאריך פרסום, כתובת ה-URL של המשרה
  • דפי חברות: סקירה כללית, מספר עובדים, ענף, מספר עוקבים
  • פוסטים ומעורבות: טקסט התוכן, לייקים, תגובות, שיתופים

מתחת למכסה המנוע, רוב המאגרים משתמשים באחת משתי גישות. Scrapers מבוססי דפדפן נשענים על Selenium, Playwright או Puppeteer כדי לרנדר דפים, לעבור דרך זרימות, ולחלץ נתונים באמצעות סלקטורי CSS או XPath. תת-קבוצה קטנה יותר מנסה לקרוא ישירות ל-endpoints פנימיים ולא מתועדים של LinkedIn. והגל החדש יותר — עדיין נדיר ב-GitHub, אבל צומח — משלב אוטומציה של דפדפן עם LLM כמו GPT-4o mini כדי לנתח טקסט עמוד למאפיינים מובנים בלי סלקטורים שבירים.

יש כאן חוסר התאמה בסיסי בין קהלי היעד. הכלים האלה נבנו על ידי מפתחים שמרגישים בנוח עם סביבות וירטואליות, תלויות דפדפן והגדרות פרוקסי. אבל חלק גדול מהאנשים שמחפשים "linkedin scraper github" הם מגייסים, SDRs, מנהלי RevOps ומייסדים שפשוט רוצים שורות בגיליון.

הפער הזה מסביר את רוב התסכול בשרשורי ה-Issues.

למה אנשים פונים ל-GitHub לצורך גריפת נתונים מ-LinkedIn

המשיכה ברורה. חינם. ניתן להתאמה. בלי תלות בספק. שליטה מלאה בצינור הנתונים. אם כלי SaaS משנה תמחור או נסגר, הקוד שלכם עדיין קיים.

מקרה שימושמי צריך אותונתונים אופייניים שמופקים
יצירת לידיםצוותי מכירותשמות, תפקידים, חברות, כתובות פרופיל, רמזים לאימייל
איתור מועמדיםמגייסיםפרופילים, מיומנויות, ניסיון, מיקומים
מחקר שוקצוותי Ops ואסטרטגיהנתוני חברות, מספר עובדים, משרות פתוחות
מודיעין תחרותיצוותי שיווקפוסטים, מעורבות, עדכוני חברה, איתותי גיוס

אבל "חינם" הוא תווית רישוי, לא עלות תפעולית. ההוצאות האמיתיות הן:

  • זמן הגדרה: גם מאגרים ידידותיים דורשים בדרך כלל 30 דקות עד יותר משעתיים לצורך הקמת סביבה, תלות בדפדפן, חילוץ קובצי cookie והגדרת פרוקסי
  • תחזוקה: LinkedIn משנה באופן קבוע את ה-DOM ואת מנגנוני האנטי-בוט שלו — scraper שעובד היום יכול להישבר בשבוע הבא
  • פרוקסי: רוחב פס של residential proxy עולה בהתאם לספק ולתוכנית
  • סיכון לחשבון: חשבון ה-LinkedIn שלכם הוא הדבר היקר ביותר שעומד על הכף, והוא לא ניתן להחלפה כמו כתובת IP של פרוקסי

מדד בריאות למאגר: איך להעריך כל פרויקט LinkedIn Scraper ב-GitHub

רוב רשימות "ה-LInkedIn scraper הטובים ביותר" מדרגות מאגרים לפי מספר הכוכבים. כוכבים מודדים עניין היסטורי, לא פונקציונליות עדכנית. מאגר עם 3,000 כוכבים בלי commits מאז 2022 הוא תצוגה במוזיאון, לא כלי ייצור.

לפני שאתם מריצים git clone על משהו, השתמשו במסגרת הזו:

קריטריוןלמה זה חשובדגל אדום
תאריך ה-commit האחרוןLinkedIn משנה את ה-DOM לעיתים קרובותיותר מ-6 חודשים אחורה במאגרים מבוססי דפדפן
יחס issues פתוחים/סגוריםהיענות המתחזקיותר מ-3:1 פתוחים לעומת סגורים, במיוחד עם דיווחים עדכניים על "blocked" או "CAPTCHA"
מאפייני אנטי-זיהויLinkedIn חוסם באגרסיביותאין אזכור ל-cookies, sessions, pacing או proxies ב-README
שיטת אימות2FA ו-CAPTCHA שוברים זרימות התחברותתומך רק בהתחברות headless מבוססת סיסמה
סוג הרישיוןחשיפה משפטית לשימוש מסחריאין רישיון או תנאים עמומים
סוגי נתונים נתמכיםמקרי שימוש שונים דורשים מאגרים שוניםרק סוג נתונים אחד כשאתם צריכים כמה

הטריק האחד שחוסך הכי הרבה זמן: לפני שאתם מתחייבים למאגר כלשהו, חפשו בלשונית ה-Issues את המילים "blocked", "banned", "CAPTCHA" או "not working". אם ה-Issues האחרונים מלאים במונחים האלה בלי תגובה של המתחזק, תמשיכו הלאה. המאגר הזה כבר הפסיד בקרב.

מה באמת מצא מבדק 2026

linkedin_scraper_repo_audit_v2_17d346a6d6.png

יישמתי את מדד הבריאות הזה על שמונה מהמאגרים הבולטים ביותר של LinkedIn scraper ב-GitHub. התוצאות לא היו מעודדות.

מאגרכוכביםcommit אחרוןעובד ב-2026?היקף עיקריהערות מפתח
joeyism/linkedin_scraper~3,983אפר׳ 2026✅ עם הסתייגויותפרופילים, חברות, פוסטים, משרותשכתוב מבוסס Playwright, שימוש חוזר ב-session — אבל Issues עדכניים מראים חסימות אבטחה וחיפוש משרות שבור
python-scrapy-playbook/linkedin-python-scrapy-scraper~111ינו׳ 2026✅ עבור מדריכים/נתונים ציבורייםאנשים, חברות, משרותשילוב עם ScrapeOps proxy; התוכנית החינמית מאפשרת 1,000 בקשות בחודש עם thread אחד
spinlud/py-linkedin-jobs-scraper~472מרץ 2025⚠️ משרות בלבדמשרותתמיכה ב-cookies, מצב פרוקסי ניסיוני — שימושי אם אתם צריכים רק רשימות משרות ציבוריות
madingess/EasyApplyBot~170מרץ 2025⚠️ כלי לא נכוןאוטומציה של Easy Applyזה לא scraper נתונים — הוא מבצע אוטומציה להגשת מועמדות למשרות
linkedtales/scrapedin~611מאי 2021פרופיליםב-README עדיין כתוב "עובד ב-2020"; Issues מראים אימות PIN ושינויים ב-HTML
austinoboyle/scrape-linkedin-selenium~526אוק׳ 2022פרופילים, חברותפעם היה שימושי, אבל עכשיו מיושן מדי ל-2026
eilonmore/linkedin-private-api~291יולי 2022פרופילים, משרות, חברות, פוסטיםמעטפת ל-API פרטי; endpoints לא מתועדים משתנים באופן לא צפוי
nsandman/linkedin-api~154יולי 2019פרופילים, הודעות, חיפושמעניין היסטורית; תועד rate limiting אחרי כ-900 בקשות בשעה

רק 2 מתוך 8 המאגרים נראו באמת שמישים עבור קורא ב-2026 בלי אזהרות כבדות. היחס הזה לא חריג — זו הנורמה בגריפת LinkedIn ב-GitHub.

ספר המתכונים למניעת חסימה: פרוקסי, קצב בקשות ובטיחות חשבון

חסימות חשבון הן הסיכון התפעולי הגדול ביותר. גם scrapers מוכשרים טכנית נופלים כאן. הקוד עובד; החשבון לא. משתמשים מדווחים על דגלים לאחר בלבד, למרות פרוקסי ועיכובים ארוכים.

הגבלת קצב: מה מדווחת הקהילה

linkedin_scraper_risk_spectrum_v2_a602c90b7d.png

אין מספר בטוח שמובטח. LinkedIn מעריך גיל סשן, תזמון קליקים, דפוסי התפרצות, מוניטין IP והתנהגות חשבון — לא רק נפח גולמי. נתוני קהילה מתכנסים לטווחים האלה:

  • משתמש אחד דיווח על זיהוי אחרי 40–80 פרופילים עם פרוקסי וקצב של 33 שניות
  • אחר המליץ להישאר סביב 30 פרופילים ליום לכל חשבון
  • מפעיל אגרסיבי יותר טען ל- פרוסים לאורך היום
  • תיעד אזהרת rate-limit פנימית אחרי בערך 900 בקשות בשעה

הסיכום המעשי: מתחת ל-50 צפיות בפרופיל ליום לכל חשבון נמצאים באזור סיכון נמוך יותר. 50–100 ליום הוא סיכון בינוני שבו איכות הסשן חשובה מאוד. מעל 100 ליום לכל חשבון מדובר בשטח אגרסיבי יותר ויותר.

אסטרטגיית פרוקסי: Residential מול Datacenter

Residential proxies נשארים הסטנדרט עבור LinkedIn כי הם דומים לתעבורת משתמש רגילה. כתובות IP של datacenter זולות יותר, אבל מסומנות מהר יותר באתרים מתוחכמים — ו-LinkedIn הוא בדיוק סוג האתר המתוחכם שבו תעבורה זולה בולטת.

הקשר התמחורי הנוכחי:

  • : $3.00–$4.00 לכל GB בהתאם לתוכנית
  • : $4.00–$6.00 לכל GB בהתאם לתוכנית

בצעו רוטציה לפי סשן, לא לפי בקשה. רוטציה לכל בקשה יוצרת טביעת אצבע שצועקת "תשתית פרוקסי" חזק יותר מכל IP בודד.

פרוטוקול חשבון שרוף

העצה של הקהילה חדה בנושא הזה: אל תתייחסו לחשבון ה-LinkedIn הראשי שלכם כתשתית גריפה חד-פעמית.

אם אתם מתעקשים על גריפה מבוססת חשבון:

  • השתמשו בחשבון נפרד מזהות המקצועית הראשית שלכם
  • השלימו את הפרופיל במלואו ותנו לו להתנהג כמו אדם במשך כמה ימים לפני הגריפה
  • לעולם אל תקשרו את מספר הטלפון האמיתי שלכם לחשבונות גריפה
  • שמרו על סשנים של גריפה נפרדים לחלוטין מהפנייה והודעות אמיתיות

חשוב לציין: של LinkedIn (בתוקף מ-3 בנובמבר 2025) אוסר במפורש על זהויות כוזבות ושיתוף חשבונות. טקטיקת החשבון השרוף נפוצה תפעולית, אבל מבולגנת מבחינה חוזית.

טיפול ב-CAPTCHAs

CAPTCHA הוא לא רק מטרד. הוא אות לכך שהסשן שלכם כבר נמצא תחת בדיקה. האפשרויות כוללות:

  • השלמה ידנית כדי להמשיך את הסשן
  • שימוש חוזר ב-cookies במקום להריץ שוב תהליכי התחברות
  • שירותי פתרון כמו (~$0.50–$1.00 לכל 1,000 CAPTCHAs של תמונה, ~$1.00–$2.99 לכל 1,000 פתרונות reCAPTCHA v2)

אבל אם תהליך העבודה שלכם מפעיל CAPTCHA באופן קבוע, כלכלת שירותי הפתרון היא הדאגה הקטנה ביותר שלכם. ה-stack שלכם מפסיד בקרב ההתגנבות.

ספקטרום הסיכון

נפחרמת סיכוןגישה מומלצת
< 50 פרופילים/יוםנמוך יותרסשן דפדפן או שימוש חוזר ב-cookies, קצב איטי, בלי אוטומציה אגרסיבית
50–500 פרופילים/יוםבינוני עד גבוהResidential proxies, חשבונות מחוממים, שימוש חוזר בסשנים, השהיות אקראיות
500+/יוםגבוה מאודAPIs מסחריים או כלים מתוחזקים עם אנטי-זיהוי מובנה; מאגרי GitHub ציבוריים לבד בדרך כלל לא מספיקים

פרדוקס הקוד הפתוח: למה מאגרי LinkedIn scraper פופולריים ב-GitHub נשברים מהר יותר

משתמשים מעלים שאלה הוגנת: "הפיכת זה לגרסת קוד פתוח אומרת ש-LinkedIn פשוט יכול להסתכל על מה שאתם עושים ולמנוע את זה." החשש הזה אינו פרנואידי. הוא נכון מבנית.

בעיית החשיפה

כמות כוכבים גבוהה יוצרת שני אותות בו-זמנית: אמון אצל משתמשים ומטרה לצוות האבטחה של LinkedIn. ככל שמאגר נהיה פופולרי יותר, כך גדל הסיכוי ש-LinkedIn יכוון במיוחד נגד השיטות שלו.

אפשר לראות את מחזור החיים הזה בנתוני המבדק. linkedtales/scrapedin היה משמעותי מספיק כדי לפרסם שהוא עבד עם האתר "החדש" של LinkedIn ב-2020. אבל המאגר לא הדביק את קצב השינויים המאוחרים יותר באימות ובפריסה. nsandman/linkedin-api תיעד פעם טריקים שימושיים, אבל ה-commit האחרון שלו היה שנים לפני סביבת האנטי-בוט הנוכחית.

יתרון התיקון הקהילתי

לקוד פתוח עדיין יש יתרון ממשי אחד: מתחזקים ותורמים פעילים יכולים לתקן מהר כש-LinkedIn משנה הגנות. joeyism/linkedin_scraper הוא הדוגמה המרכזית מהמבדק הזה — הוא עדיין מייצר Issues של חסימות אימות וחיפוש שבור, אבל לפחות זז קדימה. Forks לרוב מיישמים טכניקות התחמקות עדכניות מהר יותר מהמאגר המקורי.

מה עושים עם זה

  • אל תסתמכו על מאגר ציבורי יחיד כתשתית קבועה
  • חפשו forks פעילים שמיישמים טכניקות התחמקות מעודכנות
  • שקלו לתחזק fork פרטי לשימוש בייצור (כדי שההתאמות הספציפיות שלכם לא יהיו ציבוריות)
  • צפו לשנות שיטות כש-LinkedIn משנה את הזיהוי או את התנהגות ה-UI
  • גוונו גישות במקום להמר על כלי אחד בלבד

חילוץ מבוסס AI מול סלקטורי CSS: השוואה מעשית

linkedin_scraper_selectors_vs_ai_v2_2d42fbf5c4.png

הפיצול הטכני המעניין יותר ב-2026 הוא לא GitHub מול no-code. הוא חילוץ מבוסס סלקטורים מול חילוץ סמנטי — וההבדל חשוב יותר ממה שרוב הסקירות השטחיות מודות.

איך סלקטורי CSS עובדים (ואיך הם נשברים)

Scrapers מסורתיים בודקים את ה-DOM של LinkedIn וממפים כל שדה לסלקטור CSS או לביטוי XPath. כשהמבנה של הדף יציב, הגישה מצוינת: דיוק גבוה, עלות שולית נמוכה, פענוח מהיר מאוד.

מצב הכשל ברור לא פחות. LinkedIn משנה שמות מחלקות, קינון, התנהגות lazy-loading או סוגר תוכן מאחורי שכבות אימות שונות — וה-scraper נשבר מיד. כותרות ה-Issue במבדק המאגרים מספרות את הסיפור: "changed HTML," "broken job search," "missing values," "authwall blocks."

איך חילוץ AI/LLM עובד

הדפוס החדש פשוט יותר ברעיון: מרנדרים את העמוד, אוספים את הטקסט הנראה, ומבקשים מהמודל להוציא שדות מובנים. זו ההיגיון מאחורי הרבה AI scrapers ללא קוד וחלק מזרימות העבודה המותאמות החדשות.

בהתבסס על תמחור ($0.15 למיליון טוקני קלט, $0.60 למיליון טוקני פלט), מעבר חילוץ טקסט בלבד עבור פרופיל אחד עולה בדרך כלל $0.0006–$0.0018 לפרופיל. זה נמוך מספיק כדי להיות כמעט לא רלוונטי עבור תהליכי עבודה בנפח בינוני.

השוואה ראש בראש

ממדסלקטור CSS / XPathחילוץ AI/LLM
מאמץ הקמהגבוה — לבדוק DOM, לכתוב סלקטורים לכל שדהנמוך — לתאר את הפלט הרצוי בשפה טבעית
שבירה כשיש שינוי בפריסהנשבר מידמסתגל אוטומטית (קורא סמנטית)
דיוק בשדות מובנים~99% כשהסלקטורים נכונים~95–98% (לעיתים טעויות פרשנות של LLM)
טיפול בנתונים לא מובנים/משתניםחלש בלי לוגיקה מותאמתחזק — ה-AI מפרש הקשר
עלות לפרופילכמעט אפס (חישוב בלבד)~$0.001–$0.002 (עלות טוקנים של API)
תיוג/סיווגדורש עיבוד נוסף נפרדיכול לסווג, לתרגם ולתייג במעבר אחד
עומס תחזוקהתיקוני סלקטורים מתמשכיםכמעט אפס

במה כדאי לבחור?

עבור צינורות יציבים, בקנה מידה גבוה מאוד, ונמצאים בבעלות הנדסית, ניתוח מבוסס סלקטורים עדיין יכול לנצח מבחינת עלות. עבור רוב המשתמשים הקטנים והבינוניים שמגרפים מאות פרופילים, לא מיליונים, חילוץ AI הוא ההשקעה הטובה יותר לטווח הארוך כי שינויי הפריסה של LinkedIn עולים יותר בזמן מפתח מאשר בטוקנים של המודל שחוסכים.

מתי מאגרי GitHub הם Overkill: הדרך ללא קוד

רוב האנשים שמחפשים "linkedin scraper github" לא רוצים להפוך למתחזקי אוטומציית דפדפן.

הם רוצים שורות בטבלה.

משתמשים מתלוננים במפורש על שימושיות של scrapers מ-GitHub בשרשורי Issues: "It does not handle 2FA and it is not easy to use since there is no UI." הקהל כולל מגייסים, SDRs ומנהלי Ops — לא רק מפתחי Python.

החלטת Build vs Buy

גורםמאגר GitHubכלי ללא קוד (למשל, Thunderbit)
זמן הקמה30 דק׳–יותר משעתיים (Python, תלויות, פרוקסי)פחות מ-2 דקות (התקנת תוסף, לחיצה)
תחזוקהאתם מתקנים כש-LinkedIn משתנהספק הכלי מטפל בעדכונים
אנטי-זיהויאתם מגדירים פרוקסי, השהיות, סשניםמובנה בתוך הכלי
מבנה נתוניםאתם כותבים לוגיקת ניתוחה-AI מציע שדות אוטומטית
אפשרויות ייצואאתם בונים צינור ייצואייצוא בלחיצה ל-Excel, Google Sheets, Airtable, Notion
עלותמאגר חינמי + עלויות פרוקסי + הזמן שלכםיש שכבה חינמית; מבוסס קרדיטים לנפח

איך Thunderbit מטפל בגריפת LinkedIn בלי קוד

ניגש לבעיה אחרת ממאגרים ב-GitHub. במקום לכתוב סלקטורים או להגדיר אוטומציית דפדפן, אתם:

  1. מתקינים את
  2. מנווטים לכל דף LinkedIn (תוצאות חיפוש, פרופיל, דף חברה)
  3. לוחצים על "AI Suggest Fields" — ה-AI של Thunderbit קורא את הדף ומציע עמודות מובנות (שם, תפקיד, חברה, מיקום וכו')
  4. מתאימים עמודות אם צריך, ואז לוחצים על חילוץ
  5. מייצאים ישירות ל-Excel, Google Sheets, או Notion

מכיוון ש-Thunderbit משתמש ב-AI כדי לקרוא את הדף סמנטית בכל פעם, הוא לא נשבר כש-LinkedIn משנה את ה-DOM שלו. זה אותו יתרון שיש לגישה המשולבת עם GPT בסקריפטים מותאמים ב-Python, אבל ארוז בתוך תוסף ללא קוד במקום בסיס קוד שאתם צריכים לתחזק.

עבור — כניסה לפרופילים בודדים מרשימת תוצאות חיפוש כדי להעשיר את טבלת הנתונים שלכם — Thunderbit מטפל בזה אוטומטית. מצב דפדפן עובד גם עבור דפים שדורשים התחברות, בלי צורך בהגדרת פרוקסי נפרדת.

מי עדיין צריך להשתמש במאגר GitHub?

מאגרים ב-GitHub עדיין הגיוניים עבור:

  • מפתחים שצריכים התאמה עמוקה או סוגי נתונים חריגים
  • צוותים שגורפים בנפחים גבוהים מאוד, שבהם עלויות לכל קרדיט חשובות
  • משתמשים שצריכים להריץ גריפה ב-CI/CD או על שרתים
  • אנשים שבונים נתוני LinkedIn לתוך זרימות אוטומטיות גדולות יותר

עבור כל השאר — במיוחד צוותי מכירות, גיוס ו-Ops — מבטל את כל מחזור ההקמה והתחזוקה.

צעד אחר צעד: איך להעריך ולהשתמש ב-LinkedIn Scraper מ-GitHub

אם החלטתם ש-GitHub הוא המסלול הנכון, הנה זרימת עבודה בשלבים שממזערת זמן מבוזבז וסיכון לחשבון.

שלב 1: חיפוש ובחירת מאגרים מצומצמים

חפשו ב-GitHub את "linkedin scraper" וסננו לפי:

  • עודכן לאחרונה (6 חודשים אחרונים)
  • שפה שמתאימה ל-stack שלכם (Python היא הנפוצה ביותר)
  • היקף שמתאים לצורך האמיתי שלכם (פרופילים לעומת משרות לעומת חברות)

בחרו 3–5 מאגרים שנראים חיים.

שלב 2: החילו את מדד בריאות המאגר

עברו על כל מאגר באמצעות מדד הבריאות מהחלק הקודם. הסירו כל דבר עם:

  • בלי commits בשנה האחרונה
  • Issues לא פתורים של "blocked" או "CAPTCHA"
  • אימות מבוסס סיסמה בלבד
  • בלי אזכור ל-sessions, cookies או proxies

שלב 3: הגדירו את הסביבה שלכם

פקודות הגדרה נפוצות מהמאגרים שבדקתי:

1pip install linkedin-scraper
2playwright install chromium
3pip install linkedin-jobs-scraper
4LI_AT_COOKIE=<cookie> python your_app.py
5scrapy crawl linkedin_people_profile

נקודות החיכוך שחזרו שוב ושוב:

  • קבצי session.json חסרים
  • חוסר התאמה בגרסת driver של הדפדפן (Chromium/Playwright)
  • חילוץ cookie מ-DevTools של הדפדפן
  • timeouts של אימות פרוקסי

שלב 4: הריצו ניסיון קטן

התחילו עם 10–20 פרופילים. בדקו:

  • האם השדות נותחו נכון?
  • האם הנתונים מלאים?
  • האם נתקלתם באיזשהם checkpoints אבטחתיים?
  • האם פורמט הפלט שמיש או שהוא רעש גולמי של JSON?

שלב 5: סקיילינג בזהירות

הוסיפו השהיות אקראיות (5–15 שניות בין בקשות), הורידו concurrency, השתמשו שוב בסשנים ובפרוקסי residential. אל תעברו למאות פרופילים ביום על חשבון חדש.

שלב 6: ייצאו ותבנו את הנתונים

רוב מאגרי GitHub מוציאים JSON או CSV גולמי. עדיין תצטרכו:

  • להסיר כפילויות מרשומות
  • לנרמל כותרות ושמות חברות
  • למפות שדות לתוך ה-CRM או ה-ATS שלכם
  • לתעד את מקור הנתונים לצורכי תאימות

(Thunderbit מטפל במבנה ובייצוא אוטומטית אם אתם מעדיפים לדלג על השלב הזה.)

LinkedIn Scraper GitHub מול כלים ללא קוד: ההשוואה המלאה

ממדמאגר GitHub (סלקטורי CSS)מאגר GitHub (AI/LLM)כלי ללא קוד (Thunderbit)
זמן הקמה1–2+ שעות1–3+ שעות (+ API key)פחות מ-2 דקות
מיומנות טכניתגבוהה (Python, CLI)גבוהה (Python + LLM APIs)אין
תחזוקהגבוהה (סלקטורים נשברים)בינונית (LLM מסתגל, אבל הקוד עדיין צריך עדכונים)אין (הספק מתחזק)
אנטי-זיהויDIY (פרוקסי, השהיות)DIYמובנה
דיוקגבוה כשעובדגבוה עם טעויות LLM מזדמנותגבוה (מונע על ידי AI)
עלותחינם + עלויות פרוקסי + הזמן שלכםחינם + עלויות API ל-LLM + עלויות פרוקסישכבה חינמית; מבוסס קרדיטים לנפח
ייצואDIY (JSON, CSV)DIYExcel, Sheets, Airtable, Notion
מתאים ביותר למפתחים, צינורות מותאמיםמפתחים שרוצים פחות תחזוקהצוותי מכירות, גיוס, Ops

שיקולים משפטיים ואתיים

אשאיר את הסעיף הזה קצר, אבל אי אפשר לדלג עליו.

של LinkedIn (בתוקף מ-3 בנובמבר 2025) אוסר במפורש שימוש בתוכנה, סקריפטים, רובוטים, crawlers או תוספי דפדפן כדי לגרוף את השירות. LinkedIn גיבה את זה באכיפה:

  • : LinkedIn הודיעה על צעדים משפטיים נגד Proxycurl
  • : LinkedIn אמרה שהמקרה נפתר
  • : Law360 דיווחה ש-LinkedIn תבעה נתבעים נוספים על גריפה בקנה מידה תעשייתי

קו הפסיקה hiQ v. LinkedIn יצר מידה מסוימת של ניואנס סביב גישה לנתונים ציבוריים, אבל נטו לטובת LinkedIn על בסיסי הפרת חוזה. "נראה לציבור" לא אומר "ברור ובטוח לגריפה בקנה מידה גדול לשימוש חוזר מסחרי."

לזרימות עבודה הקשורות לאיחוד האירופי, . של רשות הגנת המידע הצרפתית היא דוגמה מוחשית לכך שרגולטורים מתייחסים לנתוני LinkedIn שנגרפו כאל מידע אישי הכפוף לכללי הגנת מידע.

שימוש בכלי מתוחזק כמו Thunderbit לא משנה את החובות המשפטיות שלכם. אבל הוא כן מפחית את הסיכון להפעיל בטעות תגובות אבטחה או להפר מגבלות קצב באופן שמושך את תשומת הלב של LinkedIn.

מה עובד ומה לא עובד ב-2026

מה עובד

  • יישום מדד בריאות המאגר לפני התחייבות למאגר כלשהו
  • שימוש חוזר ב-cookies/sessions במקום התחברות אוטומטית חוזרת ונשנית
  • Residential proxies כשחייבים להריץ גריפה מבוססת חשבון
  • זרימות גריפה קטנות, איטיות ודמויות אדם
  • חילוץ בסיוע AI כשאתם מעריכים גמישות יותר מעלות שולית של טוקנים
  • כשהצורך האמיתי הוא פלט לגיליון אלקטרוני, לא בעלות על ה-scraper
  • גיוון בגישות במקום להמר על מאגר ציבורי אחד

מה לא עובד

  • שיבוט מאגרים עם הרבה כוכבים בלי לבדוק מצב תחזוקה או Issues אחרונים
  • שימוש ב-datacenter proxies או רשימות פרוקסי חינמיות ל-LinkedIn
  • סקיילינג למאות פרופילים ביום בלי מגבלות קצב או אנטי-זיהוי
  • הסתמכות ארוכת טווח על סלקטורי CSS בלי תוכנית תחזוקה
  • התייחסות לחשבון ה-LinkedIn האמיתי שלכם כתשתית חד-פעמית
  • בלבול בין "נגיש לציבור" לבין "ללא בעיה חוזית או משפטית"

שאלות נפוצות

האם מאגרי GitHub של LinkedIn scraper עדיין עובדים ב-2026?

חלקם כן, אבל רק תת-קבוצה קטנה. במבדק הזה של שמונה מאגרים בולטים, רק שניים נראו באמת שמישים לקורא ב-2026 בלי הסתייגויות כבדות. המפתח הוא להעריך מאגרים לפי פעילות תחזוקה ובריאות ה-Issues, לא לפי מספר הכוכבים. השתמשו ב-Repo Health Scorecard לפני שאתם משקיעים זמן הגדרה בכל פרויקט.

כמה פרופילי LinkedIn אפשר לגרוף ביום בלי להיחסם?

אין מספר בטוח שמובטח, כי LinkedIn מעריך התנהגות סשן ולא רק נפח. דיווחים מהקהילה מציעים שמתחת ל-50 פרופילים ביום לכל חשבון הוא אזור סיכון נמוך יותר, 50–100 ליום הוא סיכון בינוני שבו איכות התשתית חשובה, ומעל 100 ליום זה כבר אגרסיבי יותר ויותר. השהיות אקראיות של 5–15 שניות ו-residential proxies עוזרים, אבל שום דבר לא מבטל לגמרי את הסיכון.

האם יש חלופה ללא קוד לפרויקטים של LinkedIn scraper ב-GitHub?

כן. מאפשר לגרוף דפי LinkedIn בכמה לחיצות עם זיהוי שדות מבוסס AI, אימות מבוסס דפדפן (בלי צורך בהגדרת פרוקסי), וייצוא בלחיצה ל-Excel, Google Sheets, Airtable או Notion. הוא מיועד לצוותי מכירות, גיוס ו-Ops שרוצים נתונים בלי לתחזק קוד. אפשר לנסות אותו דרך .

האם גריפת נתוני LinkedIn היא חוקית?

זה אזור אפור עם קצוות שהולכים ומחמירים. הסכם המשתמש של LinkedIn אוסר במפורש גריפה, ו-LinkedIn נקטה צעדים משפטיים נגד סקרייפרים ב-. התקדים hiQ v. LinkedIn לגבי גישה לנתונים ציבוריים צומצם בפסיקות מאוחרות יותר. GDPR חל על מידע אישי של תושבי האיחוד האירופי בלי קשר לאופן שבו נאסף. לכל שימוש מסחרי, קבלו ייעוץ משפטי שמתאים למקרה שלכם.

חילוץ AI או סלקטורי CSS — במה כדאי להשתמש ל-LinkedIn scraping?

סלקטורי CSS מהירים וזולים יותר לרשומה כשהם עובדים, אבל הם יוצרים מרדף תחזוקה כי LinkedIn משנה את ה-DOM שלו באופן קבוע. חילוץ AI/LLM עולה קצת יותר לפרופיל (~$0.001–$0.002 לפי ), אבל הוא מסתגל לשינויי פריסה אוטומטית. עבור רוב המשתמשים הלא-ארגוניים שמגרפים מאות ולא מיליוני פרופילים, חילוץ AI הוא ההשקעה הטובה יותר לטווח הארוך. מנוע ה-AI המובנה של Thunderbit מציע את היתרון הזה בלי שתצטרכו לכתוב או לתחזק קוד כלשהו.

למידע נוסף

Ke
Ke
CTO ב-Thunderbit. קה הוא האדם שכל אחד פונה אליו כשהנתונים נהיים מבולגנים. את הקריירה שלו הוא הקדיש להפיכת עבודה משעממת וחזרתית לאוטומציות קטנות ושקטות שפשוט רצות. אם אי פעם קיווית שגיליון אלקטרוני ימלא את עצמו, כנראה שקה כבר בנה את הדבר שעושה את זה.
תוכן עניינים

נסה את Thunderbit

חלץ לידים ונתונים אחרים ב-2 קליקים בלבד. מופעל על ידי AI.

קבל את Thunderbit זה בחינם
חלץ נתונים באמצעות AI
העבר בקלות נתונים ל-Google Sheets, Airtable או Notion
Chrome Store Rating
PRODUCT HUNT#1 Product of the Week