يُظهر بحث GitHub عن "linkedin scraper" حوالي حتى أبريل 2026. ومعظمها سيضيّع وقتك. قاسٍ؟ ربما. لكن هذا ما وصلتُ إليه بعد مراجعة ثمانية من أبرز المستودعات، وقراءة عشرات سلاسل المشكلات على GitHub، ومقارنة تقارير المجتمع من Reddit ومنتديات الاستخراج. النمط يتكرر دائمًا: المستودعات ذات التقييمات العالية تجذب الانتباه، ثم يراجع فريق مكافحة الروبوتات لدى LinkedIn الشيفرة، فتُرقَّع آليات الكشف، وينتهي الأمر بالمستخدمين إلى محددات معطلة، أو حلقات CAPTCHA، أو حتى حظر الحسابات بالكامل. وصف أحد مستخدمي Reddit الوضع بصراحة — إذ أضاف LinkedIn "قيودًا أشد على المعدل، وكشفًا أفضل للروبوتات، وتتبعًا للجلسات، وتغييرات متكررة"، وأصبحت الأدوات القديمة الآن "تتعطل بسرعة أو تُعلَّم الحسابات/عناوين IP فيها كحسابات مشبوهة." إذا كنت مندوب مبيعات أو مسؤول توظيف أو مدير عمليات وتبحث عن بيانات LinkedIn في جدول بيانات، فقد يكون المستودع الذي استنسخته الشهر الماضي مات بالفعل. هذا الدليل مصمم لمساعدتك على معرفة أي مشاريع GitHub تستحق وقتك فعلًا، وكيف تتجنب حرق حسابك، ومتى يكون من الأفضل الاستغناء عن الشيفرة بالكامل.
ما هي أداة استخراج LinkedIn على GitHub؟
مشروع LinkedIn scraper على GitHub هو سكربت مفتوح المصدر — عادةً بلغة Python، وأحيانًا Node.js — يتيح استخراج البيانات المنظمة من صفحات LinkedIn تلقائيًا. وتشمل الأهداف المعتادة:
- الملفات الشخصية للأشخاص: الاسم، المسمى الوظيفي، الشركة، الموقع، المهارات، الخبرة
- إعلانات الوظائف: المسمى، الشركة، الموقع، تاريخ النشر، رابط الوظيفة
- صفحات الشركات: نظرة عامة، عدد الموظفين، المجال، عدد المتابعين
- المنشورات والتفاعل: نص المحتوى، الإعجابات، التعليقات، المشاركات
من الناحية التقنية، تعتمد معظم المستودعات على أحد مسارين. أدوات الاستخراج المعتمدة على المتصفح تستخدم Selenium أو Playwright أو Puppeteer لعرض الصفحات، والتنقل بين التدفقات المختلفة، واستخراج البيانات عبر محددات CSS أو XPath. وهناك شريحة أصغر تحاول استدعاء نقاط النهاية الداخلية غير الموثقة لدى LinkedIn مباشرة. ومؤخرًا ظهر اتجاه جديد — ما يزال نادرًا على GitHub لكنه ينمو — يزاوج بين أتمتة المتصفح ونموذج لغوي كبير مثل GPT-4o mini لتحويل نص الصفحة إلى حقول منظمة من دون الاعتماد على محددات هشة.
هناك فجوة أساسية بين الجمهور المستهدف. فهذه الأدوات يبنيها مطورون مرتاحون للعمل مع البيئات الافتراضية، والاعتماديات الخاصة بالمتصفح، وإعدادات الوكلاء. لكن نسبة كبيرة ممن يبحثون عن "linkedin scraper github" هم من مسؤولي التوظيف، وSDR، ومديري RevOps، والمؤسسين الذين يريدون ببساطة صفوفًا داخل جدول بيانات.
وهذه الفجوة تفسّر معظم الإحباط في سلاسل المشكلات.
لماذا يلجأ الناس إلى GitHub لاستخراج بيانات LinkedIn
السبب واضح: مجاني، قابل للتخصيص، من دون التزام مع مزود خدمة، وتحكم كامل في خط البيانات لديك. وإذا غيّر أداة SaaS تسعيرها أو توقفت عن العمل، فشيفرتك ما تزال معك.
| حالة الاستخدام | من يحتاجها | البيانات المستخرجة عادةً |
|---|---|---|
| توليد العملاء المحتملين | فرق المبيعات | الأسماء، المسميات، الشركات، روابط الملفات الشخصية، مؤشرات البريد الإلكتروني |
| استقطاب المرشحين | مسؤولو التوظيف | الملفات الشخصية، المهارات، الخبرة، المواقع |
| أبحاث السوق | فرق العمليات والاستراتيجية | بيانات الشركات، أعداد الموظفين، عروض الوظائف |
| الاستخبارات التنافسية | فرق التسويق | المنشورات، التفاعل، تحديثات الشركات، إشارات التوظيف |
لكن "مجاني" هنا مجرد توصيف للترخيص، لا للتكلفة التشغيلية. التكاليف الحقيقية هي:
- وقت الإعداد: حتى المستودعات السهلة غالبًا تحتاج من 30 دقيقة إلى أكثر من ساعتين لإعداد البيئة، واعتماديات المتصفح، واستخراج ملفات الكوكيز، وضبط الوكلاء
- الصيانة: يغيّر LinkedIn بنية DOM والدفاعات المضادة للروبوتات باستمرار — وما يعمل اليوم قد يتعطل الأسبوع القادم
- الوكلاء: يتراوح سعر النطاق الترددي للوكلاء السكنيين بين حسب المزود والخطة
- مخاطر الحساب: حسابك على LinkedIn هو أغلى شيء على المحك، ولا يمكن استبداله مثل عنوان IP لوكيل
بطاقة تقييم صحة المستودع: كيف تقيّم أي مشروع LinkedIn Scraper على GitHub
معظم قوائم "أفضل LinkedIn scraper" ترتب المستودعات حسب عدد النجوم. لكن النجوم تقيس الاهتمام التاريخي، لا الأداء الحالي. مستودع لديه 3,000 نجمة ولم يُحدَّث منذ 2022 هو معروض متحفي، لا أداة إنتاج.
قبل أن تنفذ git clone لأي شيء، طبّق هذا الإطار:
| المعيار | سبب الأهمية | علامة الخطر |
|---|---|---|
| تاريخ آخر commit | يغيّر LinkedIn البنية كثيرًا | مضى عليه أكثر من 6 أشهر في المستودعات المعتمدة على المتصفح |
| نسبة المشكلات المفتوحة إلى المغلقة | مدى تجاوب المشرف | أكثر من 3:1 مفتوحة إلى مغلقة، خصوصًا مع تقارير حديثة عن "blocked" أو "CAPTCHA" |
| ميزات مقاومة الكشف | LinkedIn يحظر بشدة | لا ذكر للكوكيز أو الجلسات أو pacing أو الوكلاء في README |
| طريقة المصادقة | التحقق الثنائي وCAPTCHA يكسران تدفقات تسجيل الدخول | يدعم فقط تسجيل دخول headless بكلمة مرور |
| نوع الترخيص | التعرض القانوني للاستخدام التجاري | لا يوجد ترخيص أو الشروط غامضة |
| أنواع البيانات المدعومة | حالات الاستخدام المختلفة تحتاج مستودعات مختلفة | يدعم نوع بيانات واحد فقط بينما تحتاج إلى عدة أنواع |
أهم حيلة توفر الوقت: قبل أن تلتزم بأي مستودع، ابحث في تبويب Issues عن "blocked" أو "banned" أو "CAPTCHA" أو "not working". إذا كانت المشكلات الحديثة مليئة بهذه المصطلحات من دون أي رد من المشرف، فانتقل إلى غيره. ذلك المستودع خسر المعركة بالفعل.
ماذا أظهر تدقيق 2026 فعليًا

طبّقتُ بطاقة التقييم هذه على ثمانية من أبرز مستودعات LinkedIn scraper على GitHub. ولم تكن النتائج مطمئنة.
| المستودع | النجوم | آخر تحديث | هل يعمل في 2026؟ | النطاق الرئيسي | ملاحظات أساسية |
|---|---|---|---|---|---|
| joeyism/linkedin_scraper | ~3,983 | أبريل 2026 | ✅ مع بعض التحفظات | الملفات الشخصية، الشركات، المنشورات، الوظائف | إعادة كتابة قائمة على Playwright، وإعادة استخدام الجلسة — لكن المشكلات الحديثة تُظهر حظرًا أمنيًا وبحث وظائف معطّل |
| python-scrapy-playbook/linkedin-python-scrapy-scraper | ~111 | يناير 2026 | ✅ للدروس/البيانات العامة | الأشخاص، الشركات، الوظائف | تكامل مع ScrapeOps proxy؛ الخطة المجانية تسمح بـ 1,000 طلب/شهر مع خيط واحد |
| spinlud/py-linkedin-jobs-scraper | ~472 | مارس 2025 | ⚠️ الوظائف فقط | الوظائف | دعم الكوكيز، ووضع proxy تجريبي — مفيد إذا كنت تحتاج فقط إلى قوائم وظائف عامة |
| madingess/EasyApplyBot | ~170 | مارس 2025 | ⚠️ الأداة غير المناسبة | أتمتة Easy Apply | ليست أداة استخراج بيانات — بل تؤتمت التقديم على الوظائف |
| linkedtales/scrapedin | ~611 | مايو 2021 | ❌ | الملفات الشخصية | ما يزال README يقول "working in 2020"؛ والمشكلات تُظهر فشل التحقق من الدبوس وتغييرات HTML |
| austinoboyle/scrape-linkedin-selenium | ~526 | أكتوبر 2022 | ❌ | الملفات الشخصية، الشركات | كان مفيدًا سابقًا، لكنه صار قديمًا جدًا بالنسبة إلى 2026 |
| eilonmore/linkedin-private-api | ~291 | يوليو 2022 | ❌ | الملفات الشخصية، الوظائف، الشركات، المنشورات | غلاف API خاص؛ النقاط النهائية غير الموثقة تتغير بصورة غير متوقعة |
| nsandman/linkedin-api | ~154 | يوليو 2019 | ❌ | الملفات الشخصية، المراسلة، البحث | مثير للاهتمام تاريخيًا؛ وثّق حدودًا للمعدل بعد نحو 900 طلب/ساعة |
بدت 2 من أصل 8 فقط قابلة للاستخدام بشكل معقول لقرّاء 2026 من دون تحذيرات ثقيلة. وهذه النسبة ليست غير مألوفة — بل هي القاعدة في استخراج LinkedIn عبر GitHub.
دليل منع الحظر: الوكلاء، حدود المعدل، وسلامة الحساب
حظر الحساب هو أكبر خطر تشغيلي. حتى الأدوات المتقنة تقنيًا تفشل هنا. الشيفرة تعمل؛ الحساب لا يعمل. يذكر المستخدمون أنهم تعرّضوا للتعليم بعد استخراج ما بين رغم استخدام الوكلاء وفترات التأخير الطويلة.
تحديد المعدل: ما الذي يقوله المجتمع

لا يوجد رقم آمن مضمون. يقيم LinkedIn عمر الجلسة، وتوقيت النقرات، وأنماط الاندفاع، وسمعة عنوان IP، وسلوك الحساب — وليس الحجم الخام فقط. وتتجمع بيانات المجتمع حول هذه النطاقات:
- أفاد أحد المستخدمين بالكشف بعد 40–80 ملفًا شخصيًا مع الوكلاء وتيرة 33 ثانية
- نصح آخر بالبقاء عند حوالي 30 ملفًا شخصيًا/اليوم/الحساب
- ادعى مشغل أكثر جرأة موزعة على مدار اليوم
- وثّق تحذيرًا داخليًا بخصوص حد المعدل بعد نحو 900 طلب في ساعة واحدة
الخلاصة العملية: أقل من 50 مشاهدة لملف شخصي/اليوم/الحساب هو نطاق أقل خطورة. أما 50–100/اليوم فهو خطر متوسط حيث تصبح جودة الجلسة مهمة جدًا. وفوق 100/اليوم/الحساب تصبح المنطقة أكثر عدوانية بوضوح.
استراتيجية الوكيل: سكني أم مركز بيانات
تظل الوكلاء السكنيون معيار LinkedIn لأنهم يشبهون حركة المستخدم النهائي العادي. أما عناوين IP لمراكز البيانات فهي أرخص لكنها تُعلَّم أسرع في المواقع المتقدمة — وLinkedIn بالضبط من هذا النوع من المواقع التي تنتبه إلى الحركة الرخيصة.
سياق التسعير الحالي:
- : $3.00–$4.00/GB حسب الخطة
- : $4.00–$6.00/GB حسب الخطة
بدّل الوكيل لكل جلسة، لا لكل طلب. فالتبديل لكل طلب يصنع بصمة تقول "بنية proxy" بصوت أعلى من أي عنوان IP منفرد.
بروتوكول الحساب البديل
النصيحة المجتمعية هنا صريحة: لا تتعامل مع حسابك الرئيسي على LinkedIn على أنه بنية تحتية قابلة للتخلص منها من أجل الاستخراج.
إذا أصررت على الاستخراج المرتبط بحساب:
- استخدم حسابًا منفصلًا عن هويتك المهنية الأساسية
- أكمل الملف الشخصي بالكامل ودعه يتصرف كبشر لعدة أيام قبل الاستخراج
- لا تربط رقم هاتفك الحقيقي بحسابات الاستخراج
- افصل جلسات الاستخراج تمامًا عن التواصل والمراسلة الحقيقيين
ومن الجدير بالذكر: اتفاقية (السارية اعتبارًا من 3 نوفمبر 2025) تحظر صراحةً الهويات المزيفة ومشاركة الحسابات. وتكتيك الحساب البديل شائع تشغيليًا لكنه معقّد من ناحية العقود.
التعامل مع CAPTCHA
CAPTCHA ليس مجرد إزعاج. إنه إشارة إلى أن جلستك أصبحت بالفعل تحت التدقيق. الخيارات تشمل:
- إكماله يدويًا لمتابعة الجلسة
- إعادة استخدام الكوكيز بدلًا من إعادة تشغيل تدفقات تسجيل الدخول
- خدمات الحل مثل (حوالي $0.50–$1.00 لكل 1,000 CAPTCHA صور، وحوالي $1.00–$2.99 لكل 1,000 حل reCAPTCHA v2)
لكن إذا كان سير عملك يطلق CAPTCHA باستمرار، فاقتصاديات خدمات الحل هي آخر مشاكلك. مكدسك يخسر معركة التخفي.
طيف المخاطر
| الحجم | مستوى الخطر | النهج الموصى به |
|---|---|---|
| أقل من 50 ملفًا شخصيًا/اليوم | أقل | جلسة متصفح أو إعادة استخدام الكوكيز، pacing بطيء، من دون أتمتة عدوانية |
| 50–500 ملف شخصي/اليوم | متوسط إلى مرتفع | وكلاء سكنيون، حسابات مهيأة مسبقًا، إعادة استخدام الجلسة، تأخيرات عشوائية |
| 500+ يوميًا | مرتفع جدًا | واجهات API تجارية أو أدوات مُصانة مع مقاومة كشف مدمجة؛ المستودعات العامة وحدها غالبًا لا تكفي |
مفارقة المصدر المفتوح: لماذا تتعطل مستودعات LinkedIn الشائعة أسرع
يثير المستخدمون ملاحظة عادلة: "إنشاء نسخة مفتوحة المصدر يعني أن LinkedIn يمكنه فقط أن يرى ما تفعلونه ويمنعه." هذا القلق ليس وسواسًا. بل هو دقيق بنيويًا.
مشكلة الظهور
أعداد النجوم الكبيرة تخلق إشارتين معًا: الثقة لدى المستخدمين، وهدفًا لفريق الأمن لدى LinkedIn. وكلما ازداد شعبية المستودع، زادت احتمالية أن يعمل LinkedIn خصيصًا على إحباط طرقه.
يمكنك رؤية هذا المسار في بيانات التدقيق. كان linkedtales/scrapedin بارزًا بما يكفي ليعلن أنه يعمل مع موقع LinkedIn "الجديد" في 2020. لكنه لم يواكب لاحقًا تغييرات التحقق والتخطيط. أما nsandman/linkedin-api فوثّق حيلًا مفيدة يومًا ما، لكن آخر commit له كان قبل سنوات من بيئة مكافحة الروبوتات الحالية.
ميزة التصحيح المجتمعي
يبقى للمصدر المفتوح ميزة حقيقية واحدة: يمكن للمشرفين والمساهمين الفاعلين ترقيع الدفاعات بسرعة عندما يغيّر LinkedIn إجراءاته. ويُعد joeyism/linkedin_scraper المثال الرئيسي في هذا التدقيق — فما زال يعاني من مشكلات الحظر والبحث المعطّل، لكنه على الأقل ما يزال يتحرك. وغالبًا ما تطبّق الفروع المنبثقة تقنيات تفادي أحدث أسرع من المستودع الأصلي.
ماذا تفعل حيال ذلك؟
- لا تعتمد على مستودع عام واحد كبنية تحتية دائمة
- راقب الفروع النشطة التي تطبق تقنيات تفادي محدّثة
- فكّر في الحفاظ على نسخة خاصة للاستخدام الإنتاجي حتى لا تكون تعديلاتك الخاصة عامة
- توقع تغيير الأساليب عندما يغيّر LinkedIn الكشف أو سلوك الواجهة
- نوّع الأساليب بدلًا من المراهنة على أداة واحدة
الاستخراج المدعوم بالذكاء الاصطناعي مقابل محددات CSS: مقارنة عملية

وأكثر الانقسامات التقنية إثارة للاهتمام في 2026 ليست GitHub مقابل no-code، بل الاستخراج القائم على المحددات مقابل الاستخراج الدلالي — والفرق أهم مما تعترف به معظم الملخصات.
كيف تعمل محددات CSS (وكيف تنكسر)
تفحص أدوات الاستخراج التقليدية DOM الخاص بـ LinkedIn وتربط كل حقل بمحدد CSS أو تعبير XPath. وعندما تكون بنية الصفحة مستقرة، يكون هذا النهج ممتازًا: دقة عالية، تكلفة هامشية منخفضة، وسرعة تحليل كبيرة.
وأسلوب الفشل واضح أيضًا. يغيّر LinkedIn أسماء الأصناف، أو البنية المتداخلة، أو سلوك التحميل الكسول، أو يحجب المحتوى خلف جدران مصادقة مختلفة — فتتعطل الأداة فورًا. وعناوين المشكلات في التدقيق تحكي القصة: "changed HTML"، "broken job search"، "missing values"، "authwall blocks".
كيف يعمل استخراج AI/LLM
النمط الأحدث أبسط من حيث الفكرة: اعرض الصفحة، اجمع النص المرئي، واطلب من نموذج أن يخرج حقولًا منظمة. هذه هي الفكرة وراء كثير من أدوات الاستخراج بالذكاء الاصطناعي من دون كود، وبعض تدفقات العمل المخصصة الأحدث.
وباستخدام تسعير ($0.15 لكل 1M من رموز الإدخال، و$0.60 لكل 1M من رموز الإخراج)، فإن تمريرة استخراج نصية لملف شخصي واحد تكلف عادة $0.0006–$0.0018 لكل ملف شخصي. وهذا صغير إلى درجة لا تُذكر في تدفقات العمل متوسطة الحجم.
مقارنة مباشرة
| البعد | محددات CSS / XPath | استخراج AI/LLM |
|---|---|---|
| جهد الإعداد | مرتفع — فحص DOM وكتابة محددات لكل حقل | منخفض — صف المخرجات المطلوبة باللغة الطبيعية |
| الانكسار عند تغييرات التخطيط | يتعطل فورًا | يتكيف تلقائيًا (يقرأ دلاليًا) |
| الدقة في الحقول المنظمة | نحو 99% عند صحة المحددات | نحو 95–98% (أخطاء تفسيرية عرضية من النموذج) |
| التعامل مع البيانات غير المنظمة/المتغيرة | ضعيف من دون منطق مخصص | قوي — الذكاء الاصطناعي يفسر السياق |
| التكلفة لكل ملف شخصي | شبه صفر (تكلفة حوسبة فقط) | نحو $0.001–$0.002 (تكلفة رموز API) |
| الوسم/التصنيف | يتطلب معالجة لاحقة منفصلة | يمكنه التصنيف والترجمة والوسم في تمريرة واحدة |
| عبء الصيانة | إصلاحات مستمرة للمحددات | شبه معدوم |
أيهما تختار؟
بالنسبة لخطوط الأنابيب المستقرة جدًا وعالية الحجم والمملوكة لفريق هندسي، قد يظل التحليل القائم على المحددات هو الأفضل من ناحية التكلفة. أما معظم المستخدمين الصغار ومتوسطي السوق الذين يستخرجون مئات الملفات الشخصية لا ملايينها، فإن الاستخراج بالذكاء الاصطناعي هو الاستثمار الأفضل على المدى الطويل لأن تغييرات تخطيط LinkedIn تكلف وقت المطور أكثر من الرموز التي توفرها.
عندما تكون مستودعات GitHub مبالغًا فيها: مسار no-code
معظم من يبحثون عن "linkedin scraper github" لا يريدون أن يصبحوا مشرفين على أتمتة المتصفح.
إنهم يريدون صفوفًا في جدول.
ويشتكي المستخدمون صراحةً من سهولة استخدام أدوات GitHub في سلاسل المشكلات: "It does not handle 2FA and it is not easy to use since there is no UI." الجمهور يشمل مسؤولي التوظيف وSDR ومديري العمليات — لا مجرد مطوري Python.
قرار البناء مقابل الشراء
| العامل | مستودع GitHub | أداة No-Code (مثل Thunderbit) |
|---|---|---|
| وقت الإعداد | 30 دقيقة–أكثر من ساعتين (Python، الاعتماديات، الوكلاء) | أقل من دقيقتين (ثبّت الإضافة، وانقر) |
| الصيانة | أنت تصلحه عندما يغيّر LinkedIn | مزود الأداة يتولى التحديثات |
| مقاومة الكشف | تهيئها بنفسك (وكلاء، تأخيرات، جلسات) | مدمجة في الأداة |
| هيكلة البيانات | تكتب منطق التحليل | يقترح الذكاء الاصطناعي الحقول تلقائيًا |
| خيارات التصدير | تبني مسار التصدير بنفسك | تصدير بنقرة واحدة إلى Excel وGoogle Sheets وAirtable وNotion |
| التكلفة | مستودع مجاني + تكاليف الوكلاء + وقتك | توجد خطة مجانية؛ واحتساب بالرصيد عند الاستخدام الكبير |
كيف يتعامل Thunderbit مع استخراج LinkedIn من دون كود
يتعامل مع المشكلة بطريقة مختلفة عن مستودعات GitHub. بدلًا من كتابة محددات أو ضبط أتمتة المتصفح، تقوم أنت بـ:
- تثبيت
- الانتقال إلى أي صفحة على LinkedIn (نتائج البحث، الملف الشخصي، صفحة الشركة)
- النقر على "AI Suggest Fields" — يقرأ ذكاء Thunderbit الصفحة ويقترح أعمدة منظمة (الاسم، المسمى، الشركة، الموقع، إلخ)
- تعديل الأعمدة إذا لزم الأمر، ثم النقر للاستخراج
- التصدير مباشرة إلى Excel أو Google Sheets أو أو Notion
ولأن Thunderbit يستخدم الذكاء الاصطناعي لقراءة الصفحة دلاليًا في كل مرة، فهو لا يتعطل عندما يغيّر LinkedIn بنية DOM. وهذه هي الميزة نفسها التي يوفرها النهج المدمج بالـ GPT في سكربتات Python المخصصة، لكن داخل إضافة no-code بدلًا من قاعدة شيفرة عليك صيانتها.
ولـ — أي النقر إلى الملفات الشخصية الفردية من قائمة نتائج البحث لإثراء جدول بياناتك — يتولى Thunderbit ذلك تلقائيًا. ويعمل وضع المتصفح مع الصفحات التي تتطلب تسجيل الدخول من دون إعداد وكيل منفصل.
من ينبغي أن يظل يستخدم مستودع GitHub؟
ما تزال مستودعات GitHub منطقية لـ:
- المطورين الذين يحتاجون إلى تخصيص عميق أو أنواع بيانات غير معتادة
- الفرق التي تستخرج على نطاق كبير جدًا حيث تهم تكلفة كل رصيد
- المستخدمين الذين يحتاجون إلى التشغيل داخل CI/CD أو على خوادم
- من يبنون بيانات LinkedIn ضمن تدفقات عمل آلية أكبر
أما باقي المستخدمين — خاصة فرق المبيعات، والتوظيف، والعمليات — فإن يلغي دورة الإعداد والصيانة بالكامل.
خطوة بخطوة: كيف تقيّم وتستخدم أداة استخراج LinkedIn من GitHub
إذا قررت أن GitHub هو المسار المناسب، فإليك سير عمل مرحلي يقلل الوقت المهدور ومخاطر الحساب.
الخطوة 1: ابحث واختر قائمة مختصرة من المستودعات
ابحث في GitHub عن "linkedin scraper" وفلتر حسب:
- تحديثات حديثة (آخر 6 أشهر)
- اللغة المطابقة لمكدسك (Python هي الأكثر شيوعًا)
- النطاق المطابق لاحتياجك الفعلي (الملفات الشخصية مقابل الوظائف مقابل الشركات)
اختر قائمة مختصرة من 3 إلى 5 مستودعات تبدو حية.
الخطوة 2: طبّق بطاقة تقييم صحة المستودع
مرّر كل مستودع عبر بطاقة التقييم التي سبق ذكرها. واستبعد أي شيء فيه:
- لا توجد commits خلال السنة الماضية
- مشكلات "blocked" أو "CAPTCHA" غير محلولة
- مصادقة بكلمة مرور فقط
- لا ذكر للجلسات أو الكوكيز أو الوكلاء
الخطوة 3: أعد إعداد بيئتك
أوامر الإعداد الشائعة من المستودعات في هذا التدقيق:
1pip install linkedin-scraper
2playwright install chromium
3pip install linkedin-jobs-scraper
4LI_AT_COOKIE=<cookie> python your_app.py
5scrapy crawl linkedin_people_profile
نقاط الاحتكاك المتكررة:
- ملفات
session.jsonمفقودة - عدم تطابق إصدار برنامج تشغيل المتصفح (Chromium/Playwright)
- استخراج الكوكيز من DevTools الخاص بالمتصفح
- مهلات مصادقة الوكيل
الخطوة 4: شغّل تجربة استخراج صغيرة
ابدأ من 10 إلى 20 ملفًا شخصيًا. تحقق من:
- هل تم تحليل الحقول بشكل صحيح؟
- هل البيانات مكتملة؟
- هل واجهت أي نقاط تحقق أمنية؟
- هل صيغة الإخراج قابلة للاستخدام أم مجرد JSON خام مزدحم؟
الخطوة 5: وسّع بحذر
أضف تأخيرات عشوائية (5–15 ثانية بين الطلبات)، وخفّض التوازي، وأعد استخدام الجلسة، واستخدم وكلاء سكنيين. لا تقفز إلى مئات الملفات الشخصية يوميًا على حساب جديد.
الخطوة 6: صدّر بياناتك ونظّمها
معظم مستودعات GitHub تُخرج JSON أو CSV خامًا. وستظل بحاجة إلى:
- إزالة السجلات المكررة
- توحيد المسميات وأسماء الشركات
- ربط الحقول في CRM أو ATS
- توثيق مصدر البيانات لأغراض الامتثال
(يتولى Thunderbit الهيكلة والتصدير تلقائيًا إذا فضلت تجاوز هذه الخطوة.)
مقارنة كاملة بين LinkedIn Scraper على GitHub وأدوات no-code
| البعد | مستودع GitHub (محددات CSS) | مستودع GitHub (AI/LLM) | أداة No-Code (Thunderbit) |
|---|---|---|---|
| وقت الإعداد | 1–2+ ساعة | 1–3+ ساعة (+ مفتاح API) | أقل من دقيقتين |
| المهارة التقنية | عالية (Python، CLI) | عالية (Python + واجهات LLM) | لا شيء |
| الصيانة | مرتفعة (المحددات تتعطل) | متوسطة (الـ LLM يتكيف، لكن الشيفرة ما تزال تحتاج تحديثات) | لا شيء (المزوّد يصونها) |
| مقاومة الكشف | DIY (وكلاء، تأخيرات) | DIY | مدمجة |
| الدقة | عالية عند العمل | عالية مع أخطاء LLM عرضية | عالية (مدعومة بالذكاء الاصطناعي) |
| التكلفة | مجاني + تكاليف الوكلاء + وقتك | مجاني + تكاليف API للـ LLM + تكاليف الوكلاء | خطة مجانية؛ واحتساب بالرصيد عند الاستخدام الكبير |
| التصدير | DIY (JSON، CSV) | DIY | Excel، Sheets، Airtable، Notion |
| الأنسب لـ | المطورين، خطوط الأنابيب المخصصة | المطورين الذين يريدون صيانة أقل | فرق المبيعات، التوظيف، العمليات |
الاعتبارات القانونية والأخلاقية
سأبقي هذا القسم مختصرًا، لكنه لا يمكن تجاهله.
تمنع الخاصة بـ LinkedIn (السارية اعتبارًا من 3 نوفمبر 2025) صراحةً استخدام البرامج أو السكربتات أو الروبوتات أو برامج الزحف أو إضافات المتصفح لاستخراج الخدمة. وقد دعم LinkedIn ذلك بالإجراءات القانونية:
- : أعلن LinkedIn اتخاذ إجراءات قانونية ضد Proxycurl
- : قال LinkedIn إن القضية حُلّت
- : أفادت Law360 بأن LinkedIn رفع دعوى ضد متهمين إضافيين بسبب استخراج على نطاق صناعي
أوجد خط القضايا hiQ v. LinkedIn بعض الفروق الدقيقة حول الوصول إلى البيانات العامة، لكن رجّحت كفة LinkedIn في نظريات خرق العقد. كون البيانات "مرئية للعامة" لا يعني أنها "آمنة بوضوح للاستخراج على نطاق واسع لإعادة الاستخدام التجاري".
وبالنسبة لتدفقات العمل المرتبطة بالاتحاد الأوروبي، . وتُعد من هيئة حماية البيانات الفرنسية مثالًا ملموسًا على تعامل الجهات التنظيمية مع بيانات LinkedIn المستخرجة بوصفها بيانات شخصية خاضعة لقواعد حماية البيانات.
استخدام أداة مُصانة مثل Thunderbit لا يغيّر التزاماتك القانونية. لكنه يقلل خطر إثارة استجابات أمنية عن طريق الخطأ أو تجاوز حدود المعدل بطرق تجذب انتباه LinkedIn.
ما الذي يعمل وما الذي لا يعمل في 2026
ما الذي يعمل
- تطبيق بطاقة تقييم صحة المستودع قبل الالتزام بأي مستودع
- إعادة استخدام الكوكيز/الجلسة بدلًا من تكرار تسجيل الدخول الآلي
- استخدام وكلاء سكنيين عند الحاجة إلى استخراج مرتبط بالحساب
- تدفقات استخراج أصغر وأبطأ وأقرب إلى السلوك البشري
- الاستخراج بمساعدة الذكاء الاصطناعي عندما تكون القابلية للتكيف أهم من تكلفة الرموز الهامشية
- عندما تكون الحاجة الحقيقية هي إخراجًا إلى جدول بيانات، لا امتلاك أداة الاستخراج
- تنويع الأساليب بدلًا من المراهنة على مستودع عام واحد
ما الذي لا يعمل
- استنساخ المستودعات عالية النجوم من دون فحص حالة الصيانة أو المشكلات الحديثة
- استخدام وكلاء مراكز البيانات أو قوائم الوكلاء المجانية مع LinkedIn
- التوسع إلى مئات الملفات الشخصية يوميًا من دون حدود معدل أو مقاومة كشف
- الاعتماد طويل الأمد على محددات CSS من دون خطة صيانة
- التعامل مع حساب LinkedIn الحقيقي كأنه بنية تحتية قابلة للتخلص منها
- الخلط بين "متاح للعامة" و"غير إشكالي تعاقديًا أو قانونيًا"
الأسئلة الشائعة
هل ما تزال مستودعات LinkedIn scraper على GitHub تعمل في 2026؟
بعضها يعمل، لكن شريحة صغيرة فقط. في هذا التدقيق لثمانية مستودعات بارزة، بدا أن اثنين فقط قابلان للاستخدام بشكل مفيد لقرّاء 2026 من دون تحذيرات ثقيلة. المفتاح هو تقييم المستودعات وفق نشاط الصيانة وصحة المشكلات، لا عدد النجوم. استخدم بطاقة تقييم صحة المستودع قبل أن تستثمر وقت الإعداد في أي مشروع.
كم ملفًا شخصيًا على LinkedIn يمكنني استخراجه يوميًا من دون حظر؟
لا يوجد رقم آمن مضمون لأن LinkedIn يقيم سلوك الجلسة، لا الحجم فقط. تشير تقارير المجتمع إلى أن أقل من 50 ملفًا شخصيًا/اليوم/الحساب هو النطاق الأقل خطورة، وأن 50–100/اليوم خطر متوسط حيث تصبح جودة البنية التحتية مهمة، وفوق 100/اليوم تصبح المنطقة أكثر عدوانية. تساعد التأخيرات العشوائية من 5 إلى 15 ثانية والوكلاء السكنيون، لكن لا شيء يزيل الخطر بالكامل.
هل يوجد بديل no-code لمشاريع LinkedIn scraper على GitHub؟
نعم. يتيح لك استخراج صفحات LinkedIn ببضع نقرات مع اكتشاف الحقول المدعوم بالذكاء الاصطناعي، ومصادقة عبر المتصفح من دون الحاجة إلى إعداد وكيل، وتصدير بنقرة واحدة إلى Excel أو Google Sheets أو Airtable أو Notion. وهو مصمم لفرق المبيعات، والتوظيف، والعمليات التي تريد البيانات من دون صيانة الشيفرة. يمكنك تجربته عبر .
هل استخراج بيانات LinkedIn قانوني؟
الأمر في منطقة رمادية وحدودها تزداد حدة. اتفاقية مستخدم LinkedIn تحظر الاستخراج صراحةً، وقد اتخذ LinkedIn إجراءات قانونية ضد أدوات الاستخراج في . كما أن سابقة hiQ v. LinkedIn الخاصة بالوصول إلى البيانات العامة تم تضييقها بأحكام أحدث. وتنطبق GDPR على البيانات الشخصية لمقيمي الاتحاد الأوروبي بغض النظر عن طريقة جمعها. وفي أي استخدام تجاري، استشر محاميًا يفهم حالتك تحديدًا.
الاستخراج بالذكاء الاصطناعي أم محددات CSS — أيهما يجب أن أستخدم مع LinkedIn؟
محددات CSS أسرع وأرخص لكل سجل عندما تعمل، لكنها تخلق لك مطاردة صيانة مستمرة لأن LinkedIn يغيّر DOM بانتظام. أما استخراج AI/LLM فيكلف أكثر قليلًا لكل ملف شخصي (حوالي $0.001–$0.002 وفق ) لكنه يتكيف تلقائيًا مع تغييرات التخطيط. بالنسبة لمعظم المستخدمين غير المؤسسيين الذين يستخرجون مئات الملفات الشخصية لا ملايينها، فالاستخراج بالذكاء الاصطناعي هو الاستثمار الأفضل على المدى الطويل. ويوفر محرك الذكاء الاصطناعي المدمج في Thunderbit هذه الميزة من دون الحاجة إلى كتابة أو صيانة أي شيفرة.
اعرف المزيد
