LinkedIn Scraper GitHub: מה עובד ב-2026 (ומה לא)

חיפוש ב-GitHub אחר "linkedin scraper" מחזיר נכון לאפריל 2026 בערך . רובם רק יבזבזו לכם את הזמן. נשמע קשוח? אולי. אבל זה מה שגיליתי אחרי שבדקתי שמונה מהמאגרים הבולטים ביותר, קראתי עשרות שרשורי Issues ב-GitHub, והשוויתי לדיווחים מהקהילה ב-Reddit ובפורומי גריפה. הדפוס חוזר על עצמו: מאגרים עם הרבה כוכבים מושכים תשומת לב, צוות האנטי-בוט של LinkedIn בוחן את הקוד, הזיהוי מתעדכן, והמשתמשים נשארים עם סלקטורים שבורים, לולאות CAPTCHA או חסימות חשבון מוחלטות. משתמש ב-Reddit תיאר את המצב הנוכחי בצורה חדה — LinkedIn הוסיף "הגבלות קצב מחמירות יותר, זיהוי בוטים טוב יותר, מעקב אחר סשנים ושינויים תכופים," וכלים ישנים עכשיו "נשברים מהר או גורמים לדגלים על חשבונות/כתובות IP." אם אתם אנשי מכירות, מגייסים או מנהלי Ops שמחפשים נתוני LinkedIn בגיליון אלקטרוני, ייתכן שהמאגר שהעתקתם בחודש שעבר כבר מת. המדריך הזה נועד לעזור לכם להבין אילו פרויקטים ב-GitHub באמת שווים את הזמן שלכם, איך להימנע משריפת החשבון, ומתי עדיף לוותר על הקוד לגמרי.

מהו LinkedIn Scraper ב-GitHub?

פרויקט LinkedIn scraper ב-GitHub הוא סקריפט בקוד פתוח — בדרך כלל ב-Python, לפעמים ב-Node.js — שמבצע אוטומציה של חילוץ נתונים מובנים מדפי LinkedIn. היעדים הטיפוסיים כוללים:

פרופילים של אנשים: שם, כותרת, חברה, מיקום, מיומנויות, ניסיון
רשימות משרות: כותרת, חברה, מיקום, תאריך פרסום, כתובת ה-URL של המשרה
דפי חברות: סקירה כללית, מספר עובדים, ענף, מספר עוקבים
פוסטים ומעורבות: טקסט התוכן, לייקים, תגובות, שיתופים

מתחת למכסה המנוע, רוב המאגרים משתמשים באחת משתי גישות. Scrapers מבוססי דפדפן נשענים על Selenium, Playwright או Puppeteer כדי לרנדר דפים, לעבור דרך זרימות, ולחלץ נתונים באמצעות סלקטורי CSS או XPath. תת-קבוצה קטנה יותר מנסה לקרוא ישירות ל-endpoints פנימיים ולא מתועדים של LinkedIn. והגל החדש יותר — עדיין נדיר ב-GitHub, אבל צומח — משלב אוטומציה של דפדפן עם LLM כמו GPT-4o mini כדי לנתח טקסט עמוד למאפיינים מובנים בלי סלקטורים שבירים.

יש כאן חוסר התאמה בסיסי בין קהלי היעד. הכלים האלה נבנו על ידי מפתחים שמרגישים בנוח עם סביבות וירטואליות, תלויות דפדפן והגדרות פרוקסי. אבל חלק גדול מהאנשים שמחפשים "linkedin scraper github" הם מגייסים, SDRs, מנהלי RevOps ומייסדים שפשוט רוצים שורות בגיליון.

הפער הזה מסביר את רוב התסכול בשרשורי ה-Issues.

למה אנשים פונים ל-GitHub לצורך גריפת נתונים מ-LinkedIn

המשיכה ברורה. חינם. ניתן להתאמה. בלי תלות בספק. שליטה מלאה בצינור הנתונים. אם כלי SaaS משנה תמחור או נסגר, הקוד שלכם עדיין קיים.

מקרה שימוש	מי צריך אותו	נתונים אופייניים שמופקים
יצירת לידים	צוותי מכירות	שמות, תפקידים, חברות, כתובות פרופיל, רמזים לאימייל
איתור מועמדים	מגייסים	פרופילים, מיומנויות, ניסיון, מיקומים
מחקר שוק	צוותי Ops ואסטרטגיה	נתוני חברות, מספר עובדים, משרות פתוחות
מודיעין תחרותי	צוותי שיווק	פוסטים, מעורבות, עדכוני חברה, איתותי גיוס

אבל "חינם" הוא תווית רישוי, לא עלות תפעולית. ההוצאות האמיתיות הן:

זמן הגדרה: גם מאגרים ידידותיים דורשים בדרך כלל 30 דקות עד יותר משעתיים לצורך הקמת סביבה, תלות בדפדפן, חילוץ קובצי cookie והגדרת פרוקסי
תחזוקה: LinkedIn משנה באופן קבוע את ה-DOM ואת מנגנוני האנטי-בוט שלו — scraper שעובד היום יכול להישבר בשבוע הבא
פרוקסי: רוחב פס של residential proxy עולה בהתאם לספק ולתוכנית
סיכון לחשבון: חשבון ה-LinkedIn שלכם הוא הדבר היקר ביותר שעומד על הכף, והוא לא ניתן להחלפה כמו כתובת IP של פרוקסי

מדד בריאות למאגר: איך להעריך כל פרויקט LinkedIn Scraper ב-GitHub

רוב רשימות "ה-LInkedIn scraper הטובים ביותר" מדרגות מאגרים לפי מספר הכוכבים. כוכבים מודדים עניין היסטורי, לא פונקציונליות עדכנית. מאגר עם 3,000 כוכבים בלי commits מאז 2022 הוא תצוגה במוזיאון, לא כלי ייצור.

לפני שאתם מריצים git clone על משהו, השתמשו במסגרת הזו:

קריטריון	למה זה חשוב	דגל אדום
תאריך ה-commit האחרון	LinkedIn משנה את ה-DOM לעיתים קרובות	יותר מ-6 חודשים אחורה במאגרים מבוססי דפדפן
יחס issues פתוחים/סגורים	היענות המתחזק	יותר מ-3:1 פתוחים לעומת סגורים, במיוחד עם דיווחים עדכניים על "blocked" או "CAPTCHA"
מאפייני אנטי-זיהוי	LinkedIn חוסם באגרסיביות	אין אזכור ל-cookies, sessions, pacing או proxies ב-README
שיטת אימות	2FA ו-CAPTCHA שוברים זרימות התחברות	תומך רק בהתחברות headless מבוססת סיסמה
סוג הרישיון	חשיפה משפטית לשימוש מסחרי	אין רישיון או תנאים עמומים
סוגי נתונים נתמכים	מקרי שימוש שונים דורשים מאגרים שונים	רק סוג נתונים אחד כשאתם צריכים כמה

הטריק האחד שחוסך הכי הרבה זמן: לפני שאתם מתחייבים למאגר כלשהו, חפשו בלשונית ה-Issues את המילים "blocked", "banned", "CAPTCHA" או "not working". אם ה-Issues האחרונים מלאים במונחים האלה בלי תגובה של המתחזק, תמשיכו הלאה. המאגר הזה כבר הפסיד בקרב.

מה באמת מצא מבדק 2026

יישמתי את מדד הבריאות הזה על שמונה מהמאגרים הבולטים ביותר של LinkedIn scraper ב-GitHub. התוצאות לא היו מעודדות.

מאגר	כוכבים	commit אחרון	עובד ב-2026?	היקף עיקרי	הערות מפתח
joeyism/linkedin_scraper	~3,983	אפר׳ 2026	✅ עם הסתייגויות	פרופילים, חברות, פוסטים, משרות	שכתוב מבוסס Playwright, שימוש חוזר ב-session — אבל Issues עדכניים מראים חסימות אבטחה וחיפוש משרות שבור
python-scrapy-playbook/linkedin-python-scrapy-scraper	~111	ינו׳ 2026	✅ עבור מדריכים/נתונים ציבוריים	אנשים, חברות, משרות	שילוב עם ScrapeOps proxy; התוכנית החינמית מאפשרת 1,000 בקשות בחודש עם thread אחד
spinlud/py-linkedin-jobs-scraper	~472	מרץ 2025	⚠️ משרות בלבד	משרות	תמיכה ב-cookies, מצב פרוקסי ניסיוני — שימושי אם אתם צריכים רק רשימות משרות ציבוריות
madingess/EasyApplyBot	~170	מרץ 2025	⚠️ כלי לא נכון	אוטומציה של Easy Apply	זה לא scraper נתונים — הוא מבצע אוטומציה להגשת מועמדות למשרות
linkedtales/scrapedin	~611	מאי 2021	❌	פרופילים	ב-README עדיין כתוב "עובד ב-2020"; Issues מראים אימות PIN ושינויים ב-HTML
austinoboyle/scrape-linkedin-selenium	~526	אוק׳ 2022	❌	פרופילים, חברות	פעם היה שימושי, אבל עכשיו מיושן מדי ל-2026
eilonmore/linkedin-private-api	~291	יולי 2022	❌	פרופילים, משרות, חברות, פוסטים	מעטפת ל-API פרטי; endpoints לא מתועדים משתנים באופן לא צפוי
nsandman/linkedin-api	~154	יולי 2019	❌	פרופילים, הודעות, חיפוש	מעניין היסטורית; תועד rate limiting אחרי כ-900 בקשות בשעה

רק 2 מתוך 8 המאגרים נראו באמת שמישים עבור קורא ב-2026 בלי אזהרות כבדות. היחס הזה לא חריג — זו הנורמה בגריפת LinkedIn ב-GitHub.

ספר המתכונים למניעת חסימה: פרוקסי, קצב בקשות ובטיחות חשבון

חסימות חשבון הן הסיכון התפעולי הגדול ביותר. גם scrapers מוכשרים טכנית נופלים כאן. הקוד עובד; החשבון לא. משתמשים מדווחים על דגלים לאחר בלבד, למרות פרוקסי ועיכובים ארוכים.

הגבלת קצב: מה מדווחת הקהילה

אין מספר בטוח שמובטח. LinkedIn מעריך גיל סשן, תזמון קליקים, דפוסי התפרצות, מוניטין IP והתנהגות חשבון — לא רק נפח גולמי. נתוני קהילה מתכנסים לטווחים האלה:

משתמש אחד דיווח על זיהוי אחרי 40–80 פרופילים עם פרוקסי וקצב של 33 שניות
אחר המליץ להישאר סביב 30 פרופילים ליום לכל חשבון
מפעיל אגרסיבי יותר טען ל- פרוסים לאורך היום
תיעד אזהרת rate-limit פנימית אחרי בערך 900 בקשות בשעה

הסיכום המעשי: מתחת ל-50 צפיות בפרופיל ליום לכל חשבון נמצאים באזור סיכון נמוך יותר. 50–100 ליום הוא סיכון בינוני שבו איכות הסשן חשובה מאוד. מעל 100 ליום לכל חשבון מדובר בשטח אגרסיבי יותר ויותר.

אסטרטגיית פרוקסי: Residential מול Datacenter

Residential proxies נשארים הסטנדרט עבור LinkedIn כי הם דומים לתעבורת משתמש רגילה. כתובות IP של datacenter זולות יותר, אבל מסומנות מהר יותר באתרים מתוחכמים — ו-LinkedIn הוא בדיוק סוג האתר המתוחכם שבו תעבורה זולה בולטת.

הקשר התמחורי הנוכחי:

: $3.00–$4.00 לכל GB בהתאם לתוכנית
: $4.00–$6.00 לכל GB בהתאם לתוכנית

בצעו רוטציה לפי סשן, לא לפי בקשה. רוטציה לכל בקשה יוצרת טביעת אצבע שצועקת "תשתית פרוקסי" חזק יותר מכל IP בודד.

פרוטוקול חשבון שרוף

העצה של הקהילה חדה בנושא הזה: אל תתייחסו לחשבון ה-LinkedIn הראשי שלכם כתשתית גריפה חד-פעמית.

אם אתם מתעקשים על גריפה מבוססת חשבון:

השתמשו בחשבון נפרד מזהות המקצועית הראשית שלכם
השלימו את הפרופיל במלואו ותנו לו להתנהג כמו אדם במשך כמה ימים לפני הגריפה
לעולם אל תקשרו את מספר הטלפון האמיתי שלכם לחשבונות גריפה
שמרו על סשנים של גריפה נפרדים לחלוטין מהפנייה והודעות אמיתיות

חשוב לציין: של LinkedIn (בתוקף מ-3 בנובמבר 2025) אוסר במפורש על זהויות כוזבות ושיתוף חשבונות. טקטיקת החשבון השרוף נפוצה תפעולית, אבל מבולגנת מבחינה חוזית.

טיפול ב-CAPTCHAs

CAPTCHA הוא לא רק מטרד. הוא אות לכך שהסשן שלכם כבר נמצא תחת בדיקה. האפשרויות כוללות:

השלמה ידנית כדי להמשיך את הסשן
שימוש חוזר ב-cookies במקום להריץ שוב תהליכי התחברות
שירותי פתרון כמו (~$0.50–$1.00 לכל 1,000 CAPTCHAs של תמונה, ~$1.00–$2.99 לכל 1,000 פתרונות reCAPTCHA v2)

אבל אם תהליך העבודה שלכם מפעיל CAPTCHA באופן קבוע, כלכלת שירותי הפתרון היא הדאגה הקטנה ביותר שלכם. ה-stack שלכם מפסיד בקרב ההתגנבות.

ספקטרום הסיכון

נפח	רמת סיכון	גישה מומלצת
< 50 פרופילים/יום	נמוך יותר	סשן דפדפן או שימוש חוזר ב-cookies, קצב איטי, בלי אוטומציה אגרסיבית
50–500 פרופילים/יום	בינוני עד גבוה	Residential proxies, חשבונות מחוממים, שימוש חוזר בסשנים, השהיות אקראיות
500+/יום	גבוה מאוד	APIs מסחריים או כלים מתוחזקים עם אנטי-זיהוי מובנה; מאגרי GitHub ציבוריים לבד בדרך כלל לא מספיקים

פרדוקס הקוד הפתוח: למה מאגרי LinkedIn scraper פופולריים ב-GitHub נשברים מהר יותר

משתמשים מעלים שאלה הוגנת: "הפיכת זה לגרסת קוד פתוח אומרת ש-LinkedIn פשוט יכול להסתכל על מה שאתם עושים ולמנוע את זה." החשש הזה אינו פרנואידי. הוא נכון מבנית.

בעיית החשיפה

כמות כוכבים גבוהה יוצרת שני אותות בו-זמנית: אמון אצל משתמשים ומטרה לצוות האבטחה של LinkedIn. ככל שמאגר נהיה פופולרי יותר, כך גדל הסיכוי ש-LinkedIn יכוון במיוחד נגד השיטות שלו.

אפשר לראות את מחזור החיים הזה בנתוני המבדק. linkedtales/scrapedin היה משמעותי מספיק כדי לפרסם שהוא עבד עם האתר "החדש" של LinkedIn ב-2020. אבל המאגר לא הדביק את קצב השינויים המאוחרים יותר באימות ובפריסה. nsandman/linkedin-api תיעד פעם טריקים שימושיים, אבל ה-commit האחרון שלו היה שנים לפני סביבת האנטי-בוט הנוכחית.

יתרון התיקון הקהילתי

לקוד פתוח עדיין יש יתרון ממשי אחד: מתחזקים ותורמים פעילים יכולים לתקן מהר כש-LinkedIn משנה הגנות. joeyism/linkedin_scraper הוא הדוגמה המרכזית מהמבדק הזה — הוא עדיין מייצר Issues של חסימות אימות וחיפוש שבור, אבל לפחות זז קדימה. Forks לרוב מיישמים טכניקות התחמקות עדכניות מהר יותר מהמאגר המקורי.

מה עושים עם זה

אל תסתמכו על מאגר ציבורי יחיד כתשתית קבועה
חפשו forks פעילים שמיישמים טכניקות התחמקות מעודכנות
שקלו לתחזק fork פרטי לשימוש בייצור (כדי שההתאמות הספציפיות שלכם לא יהיו ציבוריות)
צפו לשנות שיטות כש-LinkedIn משנה את הזיהוי או את התנהגות ה-UI
גוונו גישות במקום להמר על כלי אחד בלבד

חילוץ מבוסס AI מול סלקטורי CSS: השוואה מעשית

הפיצול הטכני המעניין יותר ב-2026 הוא לא GitHub מול no-code. הוא חילוץ מבוסס סלקטורים מול חילוץ סמנטי — וההבדל חשוב יותר ממה שרוב הסקירות השטחיות מודות.

איך סלקטורי CSS עובדים (ואיך הם נשברים)

Scrapers מסורתיים בודקים את ה-DOM של LinkedIn וממפים כל שדה לסלקטור CSS או לביטוי XPath. כשהמבנה של הדף יציב, הגישה מצוינת: דיוק גבוה, עלות שולית נמוכה, פענוח מהיר מאוד.

מצב הכשל ברור לא פחות. LinkedIn משנה שמות מחלקות, קינון, התנהגות lazy-loading או סוגר תוכן מאחורי שכבות אימות שונות — וה-scraper נשבר מיד. כותרות ה-Issue במבדק המאגרים מספרות את הסיפור: "changed HTML," "broken job search," "missing values," "authwall blocks."

איך חילוץ AI/LLM עובד

הדפוס החדש פשוט יותר ברעיון: מרנדרים את העמוד, אוספים את הטקסט הנראה, ומבקשים מהמודל להוציא שדות מובנים. זו ההיגיון מאחורי הרבה AI scrapers ללא קוד וחלק מזרימות העבודה המותאמות החדשות.

בהתבסס על תמחור ($0.15 למיליון טוקני קלט, $0.60 למיליון טוקני פלט), מעבר חילוץ טקסט בלבד עבור פרופיל אחד עולה בדרך כלל $0.0006–$0.0018 לפרופיל. זה נמוך מספיק כדי להיות כמעט לא רלוונטי עבור תהליכי עבודה בנפח בינוני.

השוואה ראש בראש

ממד	סלקטור CSS / XPath	חילוץ AI/LLM
מאמץ הקמה	גבוה — לבדוק DOM, לכתוב סלקטורים לכל שדה	נמוך — לתאר את הפלט הרצוי בשפה טבעית
שבירה כשיש שינוי בפריסה	נשבר מיד	מסתגל אוטומטית (קורא סמנטית)
דיוק בשדות מובנים	~99% כשהסלקטורים נכונים	~95–98% (לעיתים טעויות פרשנות של LLM)
טיפול בנתונים לא מובנים/משתנים	חלש בלי לוגיקה מותאמת	חזק — ה-AI מפרש הקשר
עלות לפרופיל	כמעט אפס (חישוב בלבד)	~$0.001–$0.002 (עלות טוקנים של API)
תיוג/סיווג	דורש עיבוד נוסף נפרד	יכול לסווג, לתרגם ולתייג במעבר אחד
עומס תחזוקה	תיקוני סלקטורים מתמשכים	כמעט אפס

במה כדאי לבחור?

עבור צינורות יציבים, בקנה מידה גבוה מאוד, ונמצאים בבעלות הנדסית, ניתוח מבוסס סלקטורים עדיין יכול לנצח מבחינת עלות. עבור רוב המשתמשים הקטנים והבינוניים שמגרפים מאות פרופילים, לא מיליונים, חילוץ AI הוא ההשקעה הטובה יותר לטווח הארוך כי שינויי הפריסה של LinkedIn עולים יותר בזמן מפתח מאשר בטוקנים של המודל שחוסכים.

מתי מאגרי GitHub הם Overkill: הדרך ללא קוד

רוב האנשים שמחפשים "linkedin scraper github" לא רוצים להפוך למתחזקי אוטומציית דפדפן.

הם רוצים שורות בטבלה.

משתמשים מתלוננים במפורש על שימושיות של scrapers מ-GitHub בשרשורי Issues: "It does not handle 2FA and it is not easy to use since there is no UI." הקהל כולל מגייסים, SDRs ומנהלי Ops — לא רק מפתחי Python.

החלטת Build vs Buy

גורם	מאגר GitHub	כלי ללא קוד (למשל, Thunderbit)
זמן הקמה	30 דק׳–יותר משעתיים (Python, תלויות, פרוקסי)	פחות מ-2 דקות (התקנת תוסף, לחיצה)
תחזוקה	אתם מתקנים כש-LinkedIn משתנה	ספק הכלי מטפל בעדכונים
אנטי-זיהוי	אתם מגדירים פרוקסי, השהיות, סשנים	מובנה בתוך הכלי
מבנה נתונים	אתם כותבים לוגיקת ניתוח	ה-AI מציע שדות אוטומטית
אפשרויות ייצוא	אתם בונים צינור ייצוא	ייצוא בלחיצה ל-Excel, Google Sheets, Airtable, Notion
עלות	מאגר חינמי + עלויות פרוקסי + הזמן שלכם	יש שכבה חינמית; מבוסס קרדיטים לנפח

איך Thunderbit מטפל בגריפת LinkedIn בלי קוד

ניגש לבעיה אחרת ממאגרים ב-GitHub. במקום לכתוב סלקטורים או להגדיר אוטומציית דפדפן, אתם:

מתקינים את
מנווטים לכל דף LinkedIn (תוצאות חיפוש, פרופיל, דף חברה)
לוחצים על "AI Suggest Fields" — ה-AI של Thunderbit קורא את הדף ומציע עמודות מובנות (שם, תפקיד, חברה, מיקום וכו')
מתאימים עמודות אם צריך, ואז לוחצים על חילוץ
מייצאים ישירות ל-Excel, Google Sheets, או Notion

מכיוון ש-Thunderbit משתמש ב-AI כדי לקרוא את הדף סמנטית בכל פעם, הוא לא נשבר כש-LinkedIn משנה את ה-DOM שלו. זה אותו יתרון שיש לגישה המשולבת עם GPT בסקריפטים מותאמים ב-Python, אבל ארוז בתוך תוסף ללא קוד במקום בסיס קוד שאתם צריכים לתחזק.

עבור — כניסה לפרופילים בודדים מרשימת תוצאות חיפוש כדי להעשיר את טבלת הנתונים שלכם — Thunderbit מטפל בזה אוטומטית. מצב דפדפן עובד גם עבור דפים שדורשים התחברות, בלי צורך בהגדרת פרוקסי נפרדת.

מי עדיין צריך להשתמש במאגר GitHub?

מאגרים ב-GitHub עדיין הגיוניים עבור:

מפתחים שצריכים התאמה עמוקה או סוגי נתונים חריגים
צוותים שגורפים בנפחים גבוהים מאוד, שבהם עלויות לכל קרדיט חשובות
משתמשים שצריכים להריץ גריפה ב-CI/CD או על שרתים
אנשים שבונים נתוני LinkedIn לתוך זרימות אוטומטיות גדולות יותר

עבור כל השאר — במיוחד צוותי מכירות, גיוס ו-Ops — מבטל את כל מחזור ההקמה והתחזוקה.

צעד אחר צעד: איך להעריך ולהשתמש ב-LinkedIn Scraper מ-GitHub

אם החלטתם ש-GitHub הוא המסלול הנכון, הנה זרימת עבודה בשלבים שממזערת זמן מבוזבז וסיכון לחשבון.

שלב 1: חיפוש ובחירת מאגרים מצומצמים

חפשו ב-GitHub את "linkedin scraper" וסננו לפי:

עודכן לאחרונה (6 חודשים אחרונים)
שפה שמתאימה ל-stack שלכם (Python היא הנפוצה ביותר)
היקף שמתאים לצורך האמיתי שלכם (פרופילים לעומת משרות לעומת חברות)

בחרו 3–5 מאגרים שנראים חיים.

שלב 2: החילו את מדד בריאות המאגר

עברו על כל מאגר באמצעות מדד הבריאות מהחלק הקודם. הסירו כל דבר עם:

בלי commits בשנה האחרונה
Issues לא פתורים של "blocked" או "CAPTCHA"
אימות מבוסס סיסמה בלבד
בלי אזכור ל-sessions, cookies או proxies

שלב 3: הגדירו את הסביבה שלכם

פקודות הגדרה נפוצות מהמאגרים שבדקתי:

1pip install linkedin-scraper
2playwright install chromium
3pip install linkedin-jobs-scraper
4LI_AT_COOKIE=<cookie> python your_app.py
5scrapy crawl linkedin_people_profile

נקודות החיכוך שחזרו שוב ושוב:

קבצי session.json חסרים
חוסר התאמה בגרסת driver של הדפדפן (Chromium/Playwright)
חילוץ cookie מ-DevTools של הדפדפן
timeouts של אימות פרוקסי

שלב 4: הריצו ניסיון קטן

התחילו עם 10–20 פרופילים. בדקו:

האם השדות נותחו נכון?
האם הנתונים מלאים?
האם נתקלתם באיזשהם checkpoints אבטחתיים?
האם פורמט הפלט שמיש או שהוא רעש גולמי של JSON?

שלב 5: סקיילינג בזהירות

הוסיפו השהיות אקראיות (5–15 שניות בין בקשות), הורידו concurrency, השתמשו שוב בסשנים ובפרוקסי residential. אל תעברו למאות פרופילים ביום על חשבון חדש.

שלב 6: ייצאו ותבנו את הנתונים

רוב מאגרי GitHub מוציאים JSON או CSV גולמי. עדיין תצטרכו:

להסיר כפילויות מרשומות
לנרמל כותרות ושמות חברות
למפות שדות לתוך ה-CRM או ה-ATS שלכם
לתעד את מקור הנתונים לצורכי תאימות

(Thunderbit מטפל במבנה ובייצוא אוטומטית אם אתם מעדיפים לדלג על השלב הזה.)

LinkedIn Scraper GitHub מול כלים ללא קוד: ההשוואה המלאה

ממד	מאגר GitHub (סלקטורי CSS)	מאגר GitHub (AI/LLM)	כלי ללא קוד (Thunderbit)
זמן הקמה	1–2+ שעות	1–3+ שעות (+ API key)	פחות מ-2 דקות
מיומנות טכנית	גבוהה (Python, CLI)	גבוהה (Python + LLM APIs)	אין
תחזוקה	גבוהה (סלקטורים נשברים)	בינונית (LLM מסתגל, אבל הקוד עדיין צריך עדכונים)	אין (הספק מתחזק)
אנטי-זיהוי	DIY (פרוקסי, השהיות)	DIY	מובנה
דיוק	גבוה כשעובד	גבוה עם טעויות LLM מזדמנות	גבוה (מונע על ידי AI)
עלות	חינם + עלויות פרוקסי + הזמן שלכם	חינם + עלויות API ל-LLM + עלויות פרוקסי	שכבה חינמית; מבוסס קרדיטים לנפח
ייצוא	DIY (JSON, CSV)	DIY	Excel, Sheets, Airtable, Notion
מתאים ביותר ל	מפתחים, צינורות מותאמים	מפתחים שרוצים פחות תחזוקה	צוותי מכירות, גיוס, Ops

שיקולים משפטיים ואתיים

אשאיר את הסעיף הזה קצר, אבל אי אפשר לדלג עליו.

של LinkedIn (בתוקף מ-3 בנובמבר 2025) אוסר במפורש שימוש בתוכנה, סקריפטים, רובוטים, crawlers או תוספי דפדפן כדי לגרוף את השירות. LinkedIn גיבה את זה באכיפה:

: LinkedIn הודיעה על צעדים משפטיים נגד Proxycurl
: LinkedIn אמרה שהמקרה נפתר
: Law360 דיווחה ש-LinkedIn תבעה נתבעים נוספים על גריפה בקנה מידה תעשייתי

קו הפסיקה hiQ v. LinkedIn יצר מידה מסוימת של ניואנס סביב גישה לנתונים ציבוריים, אבל נטו לטובת LinkedIn על בסיסי הפרת חוזה. "נראה לציבור" לא אומר "ברור ובטוח לגריפה בקנה מידה גדול לשימוש חוזר מסחרי."

לזרימות עבודה הקשורות לאיחוד האירופי, . של רשות הגנת המידע הצרפתית היא דוגמה מוחשית לכך שרגולטורים מתייחסים לנתוני LinkedIn שנגרפו כאל מידע אישי הכפוף לכללי הגנת מידע.

שימוש בכלי מתוחזק כמו Thunderbit לא משנה את החובות המשפטיות שלכם. אבל הוא כן מפחית את הסיכון להפעיל בטעות תגובות אבטחה או להפר מגבלות קצב באופן שמושך את תשומת הלב של LinkedIn.

מה עובד ומה לא עובד ב-2026

מה עובד

יישום מדד בריאות המאגר לפני התחייבות למאגר כלשהו
שימוש חוזר ב-cookies/sessions במקום התחברות אוטומטית חוזרת ונשנית
Residential proxies כשחייבים להריץ גריפה מבוססת חשבון
זרימות גריפה קטנות, איטיות ודמויות אדם
חילוץ בסיוע AI כשאתם מעריכים גמישות יותר מעלות שולית של טוקנים
כשהצורך האמיתי הוא פלט לגיליון אלקטרוני, לא בעלות על ה-scraper
גיוון בגישות במקום להמר על מאגר ציבורי אחד

מה לא עובד

שיבוט מאגרים עם הרבה כוכבים בלי לבדוק מצב תחזוקה או Issues אחרונים
שימוש ב-datacenter proxies או רשימות פרוקסי חינמיות ל-LinkedIn
סקיילינג למאות פרופילים ביום בלי מגבלות קצב או אנטי-זיהוי
הסתמכות ארוכת טווח על סלקטורי CSS בלי תוכנית תחזוקה
התייחסות לחשבון ה-LinkedIn האמיתי שלכם כתשתית חד-פעמית
בלבול בין "נגיש לציבור" לבין "ללא בעיה חוזית או משפטית"

שאלות נפוצות

האם מאגרי GitHub של LinkedIn scraper עדיין עובדים ב-2026?

חלקם כן, אבל רק תת-קבוצה קטנה. במבדק הזה של שמונה מאגרים בולטים, רק שניים נראו באמת שמישים לקורא ב-2026 בלי הסתייגויות כבדות. המפתח הוא להעריך מאגרים לפי פעילות תחזוקה ובריאות ה-Issues, לא לפי מספר הכוכבים. השתמשו ב-Repo Health Scorecard לפני שאתם משקיעים זמן הגדרה בכל פרויקט.

כמה פרופילי LinkedIn אפשר לגרוף ביום בלי להיחסם?

אין מספר בטוח שמובטח, כי LinkedIn מעריך התנהגות סשן ולא רק נפח. דיווחים מהקהילה מציעים שמתחת ל-50 פרופילים ביום לכל חשבון הוא אזור סיכון נמוך יותר, 50–100 ליום הוא סיכון בינוני שבו איכות התשתית חשובה, ומעל 100 ליום זה כבר אגרסיבי יותר ויותר. השהיות אקראיות של 5–15 שניות ו-residential proxies עוזרים, אבל שום דבר לא מבטל לגמרי את הסיכון.

האם יש חלופה ללא קוד לפרויקטים של LinkedIn scraper ב-GitHub?

כן. מאפשר לגרוף דפי LinkedIn בכמה לחיצות עם זיהוי שדות מבוסס AI, אימות מבוסס דפדפן (בלי צורך בהגדרת פרוקסי), וייצוא בלחיצה ל-Excel, Google Sheets, Airtable או Notion. הוא מיועד לצוותי מכירות, גיוס ו-Ops שרוצים נתונים בלי לתחזק קוד. אפשר לנסות אותו דרך .

האם גריפת נתוני LinkedIn היא חוקית?

זה אזור אפור עם קצוות שהולכים ומחמירים. הסכם המשתמש של LinkedIn אוסר במפורש גריפה, ו-LinkedIn נקטה צעדים משפטיים נגד סקרייפרים ב-. התקדים hiQ v. LinkedIn לגבי גישה לנתונים ציבוריים צומצם בפסיקות מאוחרות יותר. GDPR חל על מידע אישי של תושבי האיחוד האירופי בלי קשר לאופן שבו נאסף. לכל שימוש מסחרי, קבלו ייעוץ משפטי שמתאים למקרה שלכם.

חילוץ AI או סלקטורי CSS — במה כדאי להשתמש ל-LinkedIn scraping?

סלקטורי CSS מהירים וזולים יותר לרשומה כשהם עובדים, אבל הם יוצרים מרדף תחזוקה כי LinkedIn משנה את ה-DOM שלו באופן קבוע. חילוץ AI/LLM עולה קצת יותר לפרופיל (~$0.001–$0.002 לפי ), אבל הוא מסתגל לשינויי פריסה אוטומטית. עבור רוב המשתמשים הלא-ארגוניים שמגרפים מאות ולא מיליוני פרופילים, חילוץ AI הוא ההשקעה הטובה יותר לטווח הארוך. מנוע ה-AI המובנה של Thunderbit מציע את היתרון הזה בלי שתצטרכו לכתוב או לתחזק קוד כלשהו.

למידע נוסף

חילוץ נתונים בעזרת AI

העבר/י נתונים בקלות ל-Google Sheets, Airtable או Notion

PRODUCT HUNT#1 Product of the Week

LinkedIn Scraper GitHub: מה עובד ב-2026 (ומה לא)

צריך/ה נתוני רשת מותאמים?

נסו את Thunderbit