Nisan 2026 itibarıyla "linkedin scraper" için yapılan bir GitHub araması yaklaşık döndürüyor. Bunların çoğu, zamanınızı boşa harcatacak türden. Sert mi? Belki. Ama en görünür sekiz depoyu inceleyip düzinelerce GitHub issue konusunu okuduktan ve Reddit ile scraping forumlarındaki topluluk raporlarını çapraz kontrol ettikten sonra vardığım sonuç bu oldu. Kalıp sürekli aynı: yüksek yıldızlı depolar dikkat çekiyor, LinkedIn’in anti-bot ekibi kodu inceliyor, tespit mekanizması yamalanıyor, kullanıcılar da bozuk seçicilerle, CAPTCHA döngüleriyle ya da doğrudan hesap banlarıyla baş başa kalıyor. Bir Reddit kullanıcısı mevcut durumu açıkça şöyle özetlemişti: LinkedIn "daha sıkı hız limitleri, daha iyi bot tespiti, oturum takibi ve sık değişiklikler" ekledi ve eski araçlar artık "hızla bozuluyor ya da hesaplar/IP'ler işaretleniyor." Eğer bir satış temsilcisi, işe alım uzmanı veya operasyon yöneticisi olarak bir elektronik tabloda LinkedIn verisi arıyorsanız, geçen ay klonladığınız depo çoktan ölmüş olabilir. Bu rehber, hangi GitHub projelerinin gerçekten zamanınıza değdiğini anlamanıza, hesabınızı yakmaktan kaçınmanıza ve kodu tamamen atlamanın ne zaman daha mantıklı olduğunu görmenize yardımcı olmak için hazırlandı.
GitHub’daki LinkedIn Scraper Nedir?
Bir LinkedIn scraper GitHub projesi, LinkedIn sayfalarından yapılandırılmış veri çıkarmayı otomatikleştiren açık kaynak bir betiktir — genellikle Python, bazen Node.js. Tipik hedefler şunlardır:
- Kişi profilleri: ad, başlık, şirket, konum, beceriler, deneyim
- İş ilanları: pozisyon adı, şirket, konum, yayın tarihi, iş URL'si
- Şirket sayfaları: genel bakış, çalışan sayısı, sektör, takipçi sayısı
- Gönderiler ve etkileşimler: içerik metni, beğeniler, yorumlar, paylaşım sayıları
Kaputun altında, çoğu depo iki yaklaşımdan birini kullanır. Tarayıcı tabanlı scraper'lar sayfaları oluşturmak, akışlar arasında gezinmek ve CSS seçiciler ya da XPath üzerinden veri çıkarmak için Selenium, Playwright veya Puppeteer'a dayanır. Daha küçük bir grup ise LinkedIn’in dahili (dokümante edilmemiş) API uç noktalarını doğrudan çağırmaya çalışır. GitHub’da hâlâ nadir olsa da büyüyen daha yeni bir yaklaşım ise, kırılgan seçiciler olmadan sayfa metnini yapılandırılmış alanlara ayırmak için tarayıcı otomasyonunu GPT-4o mini gibi bir LLM ile eşleştiriyor.
Temelde bir hedef kitle uyuşmazlığı var. Bu araçlar, sanal ortamlar, tarayıcı bağımlılıkları ve proxy yapılandırması konusunda rahat geliştiriciler tarafından inşa ediliyor. Ama "linkedin scraper github" arayanların önemli bir kısmı, ekranda satırlar görmek isteyen işe alımcılar, SDR'ler, RevOps yöneticileri ve kurucular.
Issue konularındaki frustrasyonun büyük kısmı işte bu boşluktan kaynaklanıyor.
İnsanlar Neden LinkedIn Scraping İçin GitHub’a Yöneliyor?
Çekiciliği açık. Ücretsiz. Özelleştirilebilir. Satıcıya bağımlılık yok. Veri hattınız üzerinde tam kontrol. Bir SaaS aracı fiyat değiştirir veya kapanırsa, kodunuz hâlâ elinizde kalır.
| Kullanım Senaryosu | Kimler İhtiyaç Duyar | Genellikle Çıkarılan Veriler |
|---|---|---|
| Potansiyel müşteri oluşturma | Satış ekipleri | Adlar, unvanlar, şirketler, profil URL'leri, e-posta ipuçları |
| Aday araştırma | İşe alım uzmanları | Profiller, beceriler, deneyim, konumlar |
| Pazar araştırması | Operasyon ve strateji ekipleri | Şirket verileri, çalışan sayıları, iş ilanları |
| Rekabet istihbaratı | Pazarlama ekipleri | Gönderiler, etkileşim, şirket güncellemeleri, işe alım sinyalleri |
Ama "ücretsiz" bir lisans etiketi, işletme maliyeti olmadığı anlamına gelmez. Gerçek giderler şunlardır:
- Kurulum süresi: dost canlısı depolar bile genellikle ortam kurulumu, tarayıcı bağımlılıkları, cookie çıkarımı ve proxy yapılandırması için 30 dakikadan 2+ saate kadar ister
- Bakım: LinkedIn DOM yapısını ve anti-bot savunmalarını düzenli olarak değiştirir — bugün çalışan bir scraper gelecek hafta bozulabilir
- Proxy'ler: konut tipi proxy bant genişliği sağlayıcıya ve plana bağlı olarak arasında değişir
- Hesap riski: en pahalı şey LinkedIn hesabınızdır; bunu bir proxy IP gibi değiştirip yenileyemezsiniz
Depo Sağlık Puan Kartı: Herhangi Bir LinkedIn Scraper GitHub Projesi Nasıl Değerlendirilir?
Çoğu "en iyi LinkedIn scraper" listesi depoları yıldız sayısına göre sıralar. Yıldızlar mevcut işlevi değil, geçmiş ilgiyi ölçer. 3.000 yıldızı olup 2022’den beri commit almayan bir depo, üretim aracı değil, müze parçasıdır.
git clone demeden önce şu çerçeveyi uygulayın:
| Kriter | Neden Önemli | Kırmızı Bayrak |
|---|---|---|
| Son commit tarihi | LinkedIn DOM'u sık sık değişir | Tarayıcı tabanlı depolar için 6 aydan eski |
| Açık/kapalı issue oranı | Bakımcının yanıt verme hızı | Açık/kapalı oranı 3:1'in üzerindeyse, özellikle de son "blocked" veya "CAPTCHA" raporları varsa |
| Anti-tespit özellikleri | LinkedIn agresif şekilde banlar | README'de cookie, session, pacing veya proxy'den hiç bahsedilmemesi |
| Kimlik doğrulama yöntemi | 2FA ve CAPTCHA giriş akışlarını bozar | Sadece parola tabanlı headless giriş desteği |
| Lisans türü | Ticari kullanımda hukuki risk | Lisans olmaması veya belirsiz şartlar |
| Desteklenen veri türleri | Farklı kullanım senaryoları farklı depolar gerektirir | Birden fazla veri türüne ihtiyaç duyarken yalnızca birini desteklemesi |
En çok zaman kazandıran tek numara şu: herhangi bir depoya bağlanmadan önce Issues sekmesinde "blocked", "banned", "CAPTCHA" veya "not working" arayın. Son sorunlar bu terimlerle doluysa ve bakımcıdan yanıt yoksa, devam edin. O depo savaşı zaten kaybetmiştir.
2026 Denetimi Gerçekte Ne Buldu?

Bu puan kartını GitHub’daki en görünür sekiz LinkedIn scraper deposuna uyguladım. Sonuçlar pek iç açıcı değildi.
| Depo | Yıldız | Son Commit | 2026'da Çalışıyor mu? | Ana Kapsam | Önemli Notlar |
|---|---|---|---|---|---|
| joeyism/linkedin_scraper | ~3.983 | Nis 2026 | ✅ Şartlı | Profiller, şirketler, gönderiler, işler | Playwright tabanlı yeniden yazım, oturum yeniden kullanımı — ancak son sorunlar güvenlik engelleri ve bozuk iş aramasını gösteriyor |
| python-scrapy-playbook/linkedin-python-scrapy-scraper | ~111 | Oca 2026 | ✅ Öğreticiler/genel veri için | Kişiler, şirketler, işler | ScrapeOps proxy entegrasyonu; ücretsiz plan ayda 1.000 istek ve 1 iş parçacığına izin veriyor |
| spinlud/py-linkedin-jobs-scraper | ~472 | Mar 2025 | ⚠️ Sadece işler | İş ilanları | Cookie desteği, deneysel proxy modu — yalnızca herkese açık iş ilanları gerekiyorsa kullanışlı |
| madingess/EasyApplyBot | ~170 | Mar 2025 | ⚠️ Yanlış araç | Easy Apply otomasyonu | Bir veri scraper'ı değil — iş başvurularını otomatikleştiriyor |
| linkedtales/scrapedin | ~611 | May 2021 | ❌ | Profiller | README hâlâ "2020'de çalışıyor" diyor; sorunlar pin doğrulama ve HTML değişikliklerini gösteriyor |
| austinoboyle/scrape-linkedin-selenium | ~526 | Eki 2022 | ❌ | Profiller, şirketler | Bir zamanlar faydalıydı, ama 2026 için artık çok eski |
| eilonmore/linkedin-private-api | ~291 | Tem 2022 | ❌ | Profiller, işler, şirketler, gönderiler | Özel API sarmalayıcısı; dokümante edilmemiş uç noktalar öngörülemez biçimde değişiyor |
| nsandman/linkedin-api | ~154 | Tem 2019 | ❌ | Profiller, mesajlaşma, arama | Tarihsel olarak ilginç; yaklaşık saatte 900 istekten sonra hız sınırı uyarısı belgelenmiş |
2026 okuyucusu için, ağır uyarılar olmadan anlamlı biçimde kullanılabilir görünen yalnızca 8 deponun 2’siydi. Bu oran sıra dışı değil — GitHub’da LinkedIn scraping için norm bu.
Ban Önleme Planı: Proxy'ler, Hız Limitleri ve Hesap Güvenliği
Hesap banları, operasyonel riskin en büyüğüdür. Teknik olarak yeterli scraper'lar bile burada tökezler. Kod çalışır; hesap çalışmaz. Kullanıcılar, proxy ve uzun gecikmelere rağmen sadece sonra işaretlendiklerini bildiriyor.
Hız Sınırlama: Topluluk Ne Bildiriyor?

Garantili güvenli bir sayı yok. LinkedIn yalnızca ham hacme değil; oturum yaşına, tıklama zamanlamasına, patlama desenlerine, IP itibarına ve hesap davranışına bakar. Topluluk verileri şu bantlarda kümeleniyor:
- Bir kullanıcı, proxy ve 33 saniyelik tempo ile 40–80 profil sonra tespit edildiğini bildirdi
- Bir başkası, hesap başına günde yaklaşık 30 profil civarında kalmayı önerdi
- Daha agresif bir operatör, gün içine yayılmış şekilde yaptığını iddia etti
- , yaklaşık bir saatte 900 istek sonra dahili bir hız sınırı uyarısını belgeledi
Pratik sentez şu: hesap başına günde 50 profil görüntülemenin altında kalmak daha düşük riskli bölgedir. Günde 50–100 aralığı orta risklidir ve oturum kalitesi çok önem kazanır. Hesap başına günde 100'ün üstü giderek daha agresif bir alandır.
Proxy Stratejisi: Residential mı Datacenter mı?
Konut tipi proxy'ler, normal son kullanıcı trafiğine benzediği için LinkedIn'de hâlâ standarttır. Datacenter IP'ler daha ucuzdur ama sofistike sitelerde daha hızlı işaretlenir — ve LinkedIn, ucuz trafiğin kolayca fark edildiği tam da o tür sofistike sitelerdendir.
Güncel fiyat bağlamı:
- : plana bağlı olarak GB başına 3,00–4,00 ABD doları
- : plana bağlı olarak GB başına 4,00–6,00 ABD doları
Her istek için değil, oturum başına rotasyon yapın. İstek başına rotasyon, tek bir IP'nin yapabileceğinden daha yüksek sesle "proxy altyapısı" diye bağıran bir parmak izi oluşturur.
Yedek Hesap Protokolü
Topluluk tavsiyesi bu konuda nettir: ana LinkedIn hesabınızı tek kullanımlık scraping altyapısı olarak görmeyin.
Hesap tabanlı scraping konusunda ısrar edecekseniz:
- Birincil profesyonel kimliğinizden ayrı bir hesap kullanın
- Profili tamamen doldurun ve scraping’den önce günlerce insan gibi davranmasına izin verin
- Scraping hesaplarına gerçek telefon numaranızı asla bağlamayın
- Scraping oturumlarını gerçek outreach ve mesajlaşmadan tamamen ayrı tutun
Dikkat edilmesi gereken nokta: LinkedIn'in (3 Kasım 2025 itibarıyla geçerli) sahte kimlikleri ve hesap paylaşımını açıkça yasaklıyor. Yedek hesap taktiği operasyonel olarak yaygın olsa da sözleşme açısından sorunludur.
CAPTCHA'larla Başa Çıkma
Bir CAPTCHA sadece can sıkıcı bir şey değildir. Oturumunuzun zaten inceleme altında olduğuna dair bir işarettir. Seçenekler şunlardır:
- Oturuma devam etmek için manuel çözüm
- Giriş akışlarını tekrar çalıştırmak yerine cookie'leri yeniden kullanmak
- gibi çözüm servisleri (~1.000 görsel CAPTCHA başına yaklaşık 0,50–1,00 ABD doları, ~1.000 reCAPTCHA v2 çözümü başına yaklaşık 1,00–2,99 ABD doları)
Ama iş akışınız düzenli olarak CAPTCHA tetikliyorsa, çözüm servislerinin ekonomisi en küçük probleminizdir. Yığınınız gizlilik savaşını kaybediyor demektir.
Risk Spektrumu
| Hacim | Risk Düzeyi | Önerilen Yaklaşım |
|---|---|---|
| < 50 profil/gün | Daha düşük | Tarayıcı oturumu veya cookie yeniden kullanımı, yavaş tempo, agresif otomasyon yok |
| 50–500 profil/gün | Orta-yüksek | Konut tipi proxy'ler, ısıtılmış hesaplar, oturum yeniden kullanımı, rastgele gecikmeler |
| 500+/gün | Çok yüksek | Yerleşik anti-tespit özelliklerine sahip ticari API'ler veya bakımı yapılmış araçlar; yalnızca kamuya açık GitHub depoları genellikle yeterli olmaz |
Açık Kaynak Paradoksu: Neden Popüler LinkedIn Scraper GitHub Depoları Daha Hızlı Bozuluyor?
Kullanıcılar haklı bir endişe dile getiriyor: "Açık kaynak sürüm yapmak, LinkedIn’in ne yaptığınızı görüp bunu engellemesine izin vermek demek." Bu kaygı paranoyakça değil. Yapısal olarak doğru.
Görünürlük Sorunu
Yüksek yıldız sayıları aynı anda iki sinyal üretir: kullanıcılar için güven ve LinkedIn’in güvenlik ekibi için hedef. Bir depo ne kadar popüler olursa, LinkedIn’in yöntemlerini özellikle karşılaması o kadar olası hale gelir.
Bu yaşam döngüsünü denetim verilerinde görebilirsiniz. linkedtales/scrapedin, 2020’de LinkedIn’in "yeni web sitesi" ile çalıştığını duyuracak kadar dikkat çekiciydi. Ama depo, sonraki doğrulama ve yerleşim değişikliklerine ayak uyduramadı. nsandman/linkedin-api bir zamanlar faydalı ipuçları belgelemişti, ancak son commit'i mevcut anti-bot ortamından yıllar öncesine ait.
Topluluk Yama Avantajı
Açık kaynakta hâlâ gerçek bir artı var: aktif bakımcılar ve katkı sağlayanlar, LinkedIn savunmalarını değiştirdiğinde hızlıca yama yapabilir. Bu denetimdeki ana örnek joeyism/linkedin_scraper — hâlâ engellenmiş kimlik doğrulama ve bozuk arama sorunları çıkarıyor, ama en azından ilerliyor. Fork'lar çoğu zaman özgün depodan daha hızlı yeni atlatma teknikleri uygular.
Ne Yapmalı?
- Tek bir kamu deposuna kalıcı altyapı gibi güvenmeyin
- Güncellenmiş atlatma teknikleri uygulayan aktif fork'ları izleyin
- Üretim kullanımı için özel bir fork bakmayı düşünün (böylece özel uyarlamalarınız herkese açık olmaz)
- LinkedIn tespit veya arayüz davranışını değiştirdiğinde yöntem değişikliğine hazır olun
- Her şeyi tek bir araca yatırmak yerine yaklaşımları çeşitlendirin
Yapay Zeka Destekli Çıkarma vs. CSS Seçiciler: Pratik Bir Karşılaştırma

2026’daki daha ilginç teknik ayrım GitHub ile kodsuz çözüm arasındaki fark değil. Seçici tabanlı çıkarım ile anlamsal çıkarım arasındaki fark — ve bu fark, çoğu derlemenin kabul ettiğinden daha önemli.
CSS Seçiciler Nasıl Çalışır (ve Neden Bozulur)?
Geleneksel scraper'lar LinkedIn'in DOM'unu inceler ve her alanı bir CSS seçici ya da XPath ifadesiyle eşler. Sayfa yapısı sabit olduğunda bu yaklaşım mükemmeldir: yüksek doğruluk, düşük marjinal maliyet, çok hızlı ayrıştırma.
Başarısızlık modu da aynı derecede nettir. LinkedIn sınıf adlarını, iç içe yapıyı, gecikmeli yükleme davranışını değiştirir ya da içeriği farklı kimlik doğrulama duvarlarının arkasına koyar — ve scraper anında bozulur. Depo denetimindeki başlıklar hikâyeyi anlatıyor: "changed HTML", "broken job search", "missing values", "authwall blocks."
AI/LLM Çıkarma Nasıl Çalışır?
Daha yeni model, kavramsal olarak daha basittir: sayfayı oluşturun, görünen metni toplayın, modele yapılandırılmış alanları üretmesini söyleyin. Birçok kodsuz AI scraper ve bazı daha yeni özel iş akışları bunun üzerine kuruludur.
Güncel ($0,15/1M giriş token, $0,60/1M çıkış token) kullanarak, tek bir profil için yalnızca metne dayalı bir çıkarım geçişi genellikle profil başına 0,0006–0,0018 ABD doları tutar. Bu, orta hacimli iş akışları için önemsiz sayılacak kadar küçüktür.
Baş Başa Karşılaştırma
| Boyut | CSS Seçici / XPath | AI/LLM Çıkarma |
|---|---|---|
| Kurulum çabası | Yüksek — DOM'u incele, her alan için seçici yaz | Düşük — istenen çıktıyı doğal dille tarif et |
| Yerleşim değişikliklerinde bozulma | Hemen bozulur | Otomatik uyum sağlar (anlamsal okur) |
| Yapılandırılmış alanlarda doğruluk | Seçiciler doğruysa ~%99 | ~%95–98 (arada LLM yorum hataları) |
| Yapılandırılmamış/değişken veriyi ele alma | Özel mantık olmadan zayıf | Güçlü — AI bağlamı yorumlar |
| Profil başına maliyet | Sıfıra yakın (yalnızca hesaplama) | ~0,001–0,002 ABD doları (API token maliyeti) |
| Etiketleme/kategorileme | Ayrı son işleme gerekir | Tek geçişte kategorize eder, çevirir, etiketler |
| Bakım yükü | Sürekli seçici düzeltmeleri | Sıfıra yakın |
Hangisini Seçmelisiniz?
Çok yüksek hacimli, sabit ve mühendislik tarafından sahiplenilen hatlarda seçici tabanlı ayrıştırma hâlâ maliyette kazanabilir. Ancak yüzlerce (milyonlarca değil) profil kazıyan çoğu küçük ve orta ölçekli kullanıcı için, LinkedIn’in yerleşim değişiklikleri model token’larından daha fazla geliştirici zamanı yediği için AI çıkarımı daha iyi uzun vadeli yatırımdır.
GitHub Depoları Fazla Kaçıyorsa: Kodsuz Yol
"linkedin scraper github" arayan çoğu kişi tarayıcı otomasyonu bakımcısı olmak istemiyor.
Onlar bir tabloda satır istiyor.
Kullanıcılar, GitHub scraper kullanılabilirliği hakkında issue konularında açıkça şikâyet ediyor: "2FA'yı desteklemiyor ve kullanıcı arayüzü olmadığı için kullanımı kolay değil." Hedef kitle yalnızca Python geliştiricileri değil; işe alımcılar, SDR'ler ve operasyon yöneticileri de var.
Yap vs. Satın Al Kararı
| Etken | GitHub Deposu | Kodsuz Araç (örn. Thunderbit) |
|---|---|---|
| Kurulum süresi | 30 dk–2+ saat (Python, bağımlılıklar, proxy'ler) | 2 dakikadan kısa (uzantıyı kur, tıkla) |
| Bakım | LinkedIn değiştiğinde siz düzeltirsiniz | Araç sağlayıcısı güncellemeleri yönetir |
| Anti-tespit | Proxy, gecikme, oturumları siz yapılandırırsınız | Aracın içine gömülüdür |
| Veri yapılandırma | Ayrıştırma mantığını siz yazarsınız | AI alanları otomatik önerir |
| Dışa aktarma seçenekleri | Aktarım hattını siz kurarsınız | Tek tıkla Excel, Google Sheets, Airtable, Notion |
| Maliyet | Ücretsiz depo + proxy maliyetleri + sizin zamanınız | Ücretsiz plan mevcut; hacme göre kredi bazlı |
Thunderbit LinkedIn Scraping’i Kodsuz Nasıl Yapar?
bu probleme GitHub depolarından farklı yaklaşır. Seçiciler yazmak ya da tarayıcı otomasyonu yapılandırmak yerine şunları yaparsınız:
- kurun
- Herhangi bir LinkedIn sayfasına gidin (arama sonuçları, profil, şirket sayfası)
- "AI Alan Öner"e tıklayın — Thunderbit'in AI'si sayfayı okur ve yapılandırılmış sütunlar önerir (ad, unvan, şirket, konum vb.)
- Gerekirse sütunları ayarlayın, sonra çıkarma işlemini başlatın
- Doğrudan Excel, Google Sheets, veya Notion'a aktarın
Thunderbit, sayfayı her seferinde anlamsal olarak okumak için AI kullandığından, LinkedIn DOM'unu değiştirdiğinde bozulmaz. Bu, özel Python betiklerine GPT entegre etmenin sağladığı avantajın aynısıdır; ama bakımını yaptığınız bir kod tabanı yerine kodsuz bir uzantı olarak paketlenmiştir.
Verinizi zenginleştirmek için arama sonuçları listesinden tek tek profillere tıklamayı içeren için Thunderbit bunu otomatik olarak halleder. Tarayıcı modu, ayrı proxy yapılandırması olmadan giriş gerektiren sayfalarda çalışır.
Hâlâ GitHub Deposu Kullanması Gerekenler Kimlerdir?
GitHub depoları hâlâ şunlar için mantıklıdır:
- Derin özelleştirme veya sıra dışı veri türlerine ihtiyaç duyan geliştiriciler
- Birim maliyetlerin önemli olduğu çok yüksek hacimde scraping yapan ekipler
- CI/CD hatlarında veya sunucularda scraping çalıştırması gereken kullanıcılar
- LinkedIn verisini daha büyük otomatik iş akışlarına entegre eden kişiler
Diğer herkes için — özellikle satış, işe alım ve operasyon ekipleri için — tüm kurulum ve bakım döngüsünü ortadan kaldırır.
Adım Adım: GitHub’dan Bir LinkedIn Scraper Nasıl Değerlendirilir ve Kullanılır?
GitHub'ın doğru yol olduğuna karar verdiyseniz, işte boşa giden zamanı ve hesap riskini en aza indiren aşamalı bir iş akışı.
1. Adım: Depoları Arayın ve Kısa Liste Oluşturun
GitHub'da "linkedin scraper" arayın ve şunlara göre filtreleyin:
- Son dönemde güncellenmiş olanlar (son 6 ay)
- Yığınınıza uygun dil (Python en yaygınıdır)
- Gerçek ihtiyacınıza uyan kapsam (profiller vs. işler vs. şirketler)
Canlı görünen 3–5 depo kısa listeye alın.
2. Adım: Depo Sağlık Puan Kartını Uygulayın
Her depoyu önceki puan kartından geçirin. Şunlara sahip olanları eleyin:
- Geçen yıl içinde hiç commit olmaması
- Çözülmemiş "blocked" veya "CAPTCHA" sorunları
- Yalnızca parola ile kimlik doğrulama
- Session, cookie veya proxy'den bahsedilmemesi
3. Adım: Ortamınızı Kurun
Bu denetimdeki depolardan gelen yaygın kurulum komutları:
1pip install linkedin-scraper
2playwright install chromium
3pip install linkedin-jobs-scraper
4LI_AT_COOKIE=<cookie> python your_app.py
5scrapy crawl linkedin_people_profile
Tekrarlayan sürtünme noktaları:
- Eksik
session.jsondosyaları - Tarayıcı sürücüsü sürüm uyuşmazlıkları (Chromium/Playwright)
- Tarayıcı DevTools'tan cookie çıkarımı
- Proxy kimlik doğrulama zaman aşımı
4. Adım: Küçük Bir Test Çekimi Yapın
10–20 profille başlayın. Şunları kontrol edin:
- Alanlar doğru ayrıştırılıyor mu?
- Veri eksiksiz mi?
- Güvenlik kontrol noktalarına takıldınız mı?
- Çıktı biçimi kullanılabilir mi yoksa ham JSON gürültüsü mü?
5. Adım: Dikkatli Şekilde Ölçekleyin
Rastgele gecikmeler ekleyin (istekler arasında 5–15 saniye), eşzamanlılığı azaltın, oturum yeniden kullanın ve konut tipi proxy'ler kullanın. Yeni bir hesapla doğrudan yüzlerce profil/gün seviyesine çıkmayın.
6. Adım: Verinizi Dışa Aktarın ve Yapılandırın
Çoğu GitHub deposu ham JSON veya CSV çıktısı verir. Yine de şunları yapmanız gerekir:
- Kayıtları tekilleştirmek
- Unvanları ve şirket adlarını normalize etmek
- Alanları CRM veya ATS'nize eşlemek
- Uyumluluk için veri kökenini belgelemek
(Bu adımı atlamak isterseniz, Thunderbit yapılandırma ve dışa aktarımı otomatik olarak yapar.)
LinkedIn Scraper GitHub vs. Kodsuz Araçlar: Tam Karşılaştırma
| Boyut | GitHub Deposu (CSS Seçiciler) | GitHub Deposu (AI/LLM) | Kodsuz Araç (Thunderbit) |
|---|---|---|---|
| Kurulum süresi | 1–2+ saat | 1–3+ saat (+ API anahtarı) | 2 dakikadan kısa |
| Teknik beceri | Yüksek (Python, CLI) | Yüksek (Python + LLM API'leri) | Yok |
| Bakım | Yüksek (seçiciler bozulur) | Orta (LLM uyum sağlar, ama kod yine güncelleme ister) | Yok (sağlayıcı bakım yapar) |
| Anti-tespit | Kendin yap (proxy, gecikme) | Kendin yap | Yerleşik |
| Doğruluk | Çalıştığında yüksek | Ara sıra LLM hatalarıyla yüksek | Yüksek (AI destekli) |
| Maliyet | Ücretsiz + proxy maliyetleri + sizin zamanınız | Ücretsiz + LLM API maliyetleri + proxy maliyetleri | Ücretsiz plan; hacme göre kredi bazlı |
| Dışa aktarma | Kendin yap (JSON, CSV) | Kendin yap | Excel, Sheets, Airtable, Notion |
| En uygun | Geliştiriciler, özel veri hatları | Daha düşük bakım isteyen geliştiriciler | Satış, işe alım, operasyon ekipleri |
Hukuki ve Etik Hususlar
Bu bölümü kısa tutacağım, ama atlanamaz.
LinkedIn’in (3 Kasım 2025 itibarıyla geçerli), hizmeti kazımak için yazılım, betik, bot, crawler veya tarayıcı eklentisi kullanılmasını açıkça yasaklar. LinkedIn bunu yaptırımlarla destekledi:
- : LinkedIn, Proxycurl'a karşı hukuki işlem başlattığını duyurdu
- : LinkedIn, davanın çözüldüğünü söyledi
- : Law360, LinkedIn'in endüstriyel ölçekte scraping yaptığı iddia edilen ek davalılara dava açtığını bildirdi
hiQ v. LinkedIn çizgisi, herkese açık veri erişimi etrafında bazı nüanslar yarattı, ancak sözleşme ihlali teorilerinde LinkedIn lehine oldu. "Herkese açık görünür" olmak, "ticari yeniden kullanım için büyük ölçekte kazımak kesinlikle güvenlidir" demek değildir.
AB bağlantılı iş akışları için . Fransız veri otoritesinin , kazınmış LinkedIn verisini veri koruma kurallarına tabi kişisel veri olarak ele alan düzenleyicilere somut bir örnektir.
Thunderbit gibi bakımı yapılan bir araç kullanmak hukuki yükümlülüklerinizi değiştirmez. Ancak istemeden güvenlik tepkilerini tetikleme veya LinkedIn’in dikkatini çekecek şekilde hız sınırlarını aşma riskini azaltır.
2026'da Ne İşe Yarıyor, Ne Yaramıyor?
İşe Yarayanlar
- Herhangi bir depoya bağlanmadan önce Depo Sağlık Puan Kartını uygulamak
- Tekrarlayan otomatik giriş yerine cookie/oturum yeniden kullanımı
- Hesap tabanlı scraping yapmanız gerekiyorsa konut tipi proxy'ler
- Daha küçük, daha yavaş, insana benzeyen scraping iş akışları
- Uyarlanabilirliğe marjinal token maliyetinden daha fazla değer veriyorsanız AI destekli çıkarım
- Asıl ihtiyaç scraper sahipliği değil de tablo çıktısıysa
- Her şeyi tek bir kamu deposuna yatırmak yerine yaklaşımları çeşitlendirmek
İşe Yaramayanlar
- Bakım durumunu veya son sorunları kontrol etmeden yüksek yıldızlı depoları klonlamak
- LinkedIn için datacenter proxy'ler veya ücretsiz proxy listeleri kullanmak
- Hız limitleri veya anti-tespit olmadan yüzlerce profil/güne ölçeklenmek
- Bakım planı olmadan CSS seçicilere uzun vadede güvenmek
- Gerçek LinkedIn hesabınızı tek kullanımlık altyapı gibi görmek
- "Herkese açık erişilebilir" olmayı "sözleşmesel veya hukuki olarak problemsiz" ile karıştırmak
SSS
LinkedIn scraper GitHub depoları 2026'da hâlâ çalışıyor mu?
Bazıları çalışıyor, ama yalnızca küçük bir kısmı. Görünür sekiz deponun incelendiği bu denetimde, yalnızca ikisi 2026 okuyucusu için ağır uyarılar olmadan anlamlı biçimde kullanılabilir görünüyordu. Önemli olan depo puanını yıldız sayısına göre değil, bakım etkinliği ve issue sağlığına göre değerlendirmektir. Herhangi bir projeye kurulum zamanı yatırmadan önce Depo Sağlık Puan Kartını kullanın.
Ban yemeden günde kaç LinkedIn profili kazıyabilirim?
Garantili güvenli bir sayı yok çünkü LinkedIn yalnızca hacmi değil oturum davranışını da değerlendiriyor. Topluluk raporları, hesap başına günde 50 profilin altının daha düşük riskli bölge olduğunu, 50–100/gün aralığının altyapı kalitesinin önemli olduğu orta risk olduğunu ve 100'ün üstünün giderek daha agresif hale geldiğini gösteriyor. 5–15 saniyelik rastgele gecikmeler ve konut tipi proxy'ler yardımcı olur, ama riski tamamen ortadan kaldırmaz.
LinkedIn scraper GitHub projelerine kodsuz bir alternatif var mı?
Evet. , AI destekli alan tespiti, tarayıcı tabanlı kimlik doğrulama (proxy yapılandırmasına gerek yok) ve Excel, Google Sheets, Airtable veya Notion'a tek tıkla dışa aktarma ile LinkedIn sayfalarını birkaç tıkla kazımanıza izin verir. Kod bakımı yapmadan veri isteyen satış, işe alım ve operasyon ekipleri için tasarlanmıştır. üzerinden deneyebilirsiniz.
LinkedIn verisini kazımak yasal mı?
Bu, giderek daha keskin kenarları olan gri bir alandır. LinkedIn’in Kullanıcı Sözleşmesi scraping'i açıkça yasaklar ve LinkedIn 2025'te scraper'lara karşı hukuki işlem başlatmıştır. Kamu verilerine erişimle ilgili hiQ v. LinkedIn emsali, daha yeni kararlarla daraltılmıştır. GDPR, nasıl toplandığına bakılmaksızın AB sakinlerinin kişisel verileri için geçerlidir. Herhangi bir ticari kullanım senaryosu için, durumunuza özel hukuki danışmanlık alın.
AI çıkarım mı CSS seçiciler mi — LinkedIn scraping için hangisini kullanmalıyım?
CSS seçiciler çalıştıklarında kayıt başına daha hızlı ve ucuzdur, ancak LinkedIn DOM'unu düzenli değiştirdiği için sizi sürekli bir bakım koşu bandına sokar. AI/LLM çıkarımı profil başına biraz daha pahalıdır (~mevcut yaklaşık $0,001–$0,002) ama yerleşim değişikliklerine otomatik uyum sağlar. Milyonlarca değil yüzlerce profil kazıyan çoğu kurumsal olmayan kullanıcı için AI çıkarımı daha iyi uzun vadeli yatırımdır. Thunderbit'in yerleşik AI motoru, hiçbir kod yazmadan veya bakımını yapmadan bu avantajı sunar.
Daha Fazla Bilgi
