LinkedIn Scraper GitHub: Mana yang Berfungsi di 2026 (dan Mana yang Tidak)

Terakhir diperbarui pada April 22, 2026

Pencarian GitHub untuk "linkedin scraper" menghasilkan sekitar per April 2026. Sebagian besar hanya akan menghabiskan waktu Anda. Kedengarannya keras? Mungkin. Tapi itu kesimpulan saya setelah mengaudit delapan repo yang paling menonjol, membaca puluhan thread issue di GitHub, lalu membandingkannya dengan laporan komunitas dari Reddit dan forum scraping. Polanya berulang: repo dengan bintang tinggi menarik perhatian, tim anti-bot LinkedIn mempelajari kodenya, deteksi diperbarui, lalu pengguna berakhir dengan selector yang rusak, loop CAPTCHA, atau bahkan akun yang diblokir. Seorang pengguna Reddit menggambarkan situasinya secara blak-blakan — LinkedIn sudah menambah "pembatasan laju yang lebih ketat, deteksi bot yang lebih baik, pelacakan sesi, dan perubahan yang sering," dan alat lama sekarang "cepat rusak atau membuat akun/IP ditandai." Kalau Anda sales rep, recruiter, atau manajer operasional yang cuma ingin data LinkedIn masuk ke spreadsheet, repo yang Anda kloning bulan lalu bisa jadi sudah mati. Panduan ini dibuat untuk membantu Anda menilai proyek GitHub mana yang masih layak dicoba, bagaimana menghindari akun Anda ikut kena dampak, dan kapan lebih masuk akal untuk tidak memakai kode sama sekali.

Apa Itu LinkedIn Scraper di GitHub?

Proyek LinkedIn scraper GitHub adalah skrip open-source — biasanya Python, kadang Node.js — yang mengotomatiskan ekstraksi data terstruktur dari halaman LinkedIn. Target yang umum meliputi:

  • Profil orang: nama, headline, perusahaan, lokasi, keahlian, pengalaman
  • Lowongan kerja: judul, perusahaan, lokasi, tanggal posting, URL lowongan
  • Halaman perusahaan: ringkasan, jumlah karyawan, industri, jumlah pengikut
  • Posting dan engagement: teks konten, suka, komentar, berbagi

Di balik layar, sebagian besar repo memakai salah satu dari dua pendekatan. Scraper berbasis browser mengandalkan Selenium, Playwright, atau Puppeteer untuk merender halaman, mengklik alur kerja, dan mengekstrak data lewat CSS selector atau XPath. Sebagian kecil mencoba memanggil endpoint API internal LinkedIn yang tidak didokumentasikan secara langsung. Dan gelombang yang lebih baru — masih jarang di GitHub, tetapi terus bertumbuh — menggabungkan otomatisasi browser dengan LLM seperti GPT-4o mini untuk mengubah teks halaman menjadi field terstruktur tanpa selector yang rapuh.

Ada ketidakcocokan audiens yang mendasar. Alat-alat ini dibangun oleh developer yang nyaman dengan virtual environment, dependensi browser, dan konfigurasi proxy. Tetapi banyak orang yang mencari "linkedin scraper github" adalah recruiter, SDR, manajer RevOps, dan founder yang hanya ingin baris-baris data di spreadsheet.

Kesenjangan itu menjelaskan sebagian besar frustrasi di thread issue.

Mengapa Orang Beralih ke GitHub untuk Scraping LinkedIn

Daya tariknya jelas. Gratis. Bisa dikustomisasi. Tanpa ketergantungan vendor. Kontrol penuh atas pipeline data Anda. Kalau alat SaaS mengubah harga atau berhenti beroperasi, kode Anda tetap ada.

Kasus PenggunaanSiapa yang MembutuhkanData yang Biasanya Diambil
Pencarian leadTim salesNama, jabatan, perusahaan, URL profil, petunjuk email
Pencarian kandidatRecruiterProfil, keahlian, pengalaman, lokasi
Riset pasarTim operasional dan strategiData perusahaan, jumlah karyawan, lowongan kerja
Intelijen kompetitifTim marketingPosting, engagement, pembaruan perusahaan, sinyal perekrutan

Tapi "gratis" itu cuma label lisensi, bukan biaya operasional. Biaya nyatanya adalah:

  • Waktu setup: bahkan repo yang ramah biasanya butuh 30 menit sampai lebih dari 2 jam untuk menyiapkan environment, dependensi browser, ekstraksi cookie, dan konfigurasi proxy
  • Pemeliharaan: LinkedIn sering mengubah DOM dan pertahanan anti-bot — scraper yang jalan hari ini bisa rusak minggu depan
  • Proxy: bandwidth residential proxy berkisar tergantung penyedia dan paket
  • Risiko akun: akun LinkedIn Anda adalah aset paling mahal yang dipertaruhkan, dan tidak bisa diganti seperti IP proxy

Skor Kesehatan Repo: Cara Mengevaluasi Proyek LinkedIn Scraper GitHub Apa Pun

Kebanyakan daftar "LinkedIn scraper terbaik" memberi peringkat repo berdasarkan jumlah bintang. Bintang mengukur minat historis, bukan fungsi saat ini. Repo dengan 3.000 bintang dan tanpa commit sejak 2022 itu artefak museum, bukan alat produksi.

Sebelum menjalankan git clone pada apa pun, gunakan kerangka ini:

KriteriaMengapa PentingTanda Bahaya
Tanggal commit terakhirLinkedIn sering mengubah DOM> 6 bulan lalu untuk repo berbasis browser
Rasio issue terbuka/tertutupResponsivitas maintainerRasio terbuka-tertutup > 3:1, terutama jika ada laporan terbaru tentang "blocked" atau "CAPTCHA"
Fitur anti-deteksiLinkedIn agresif memblokirTidak ada penyebutan cookie, sesi, pacing, atau proxy di README
Metode autentikasi2FA dan CAPTCHA merusak alur loginHanya mendukung login headless berbasis password
Jenis lisensiRisiko hukum untuk penggunaan komersialTidak ada lisensi atau ketentuan yang ambigu
Jenis data yang didukungKasus penggunaan berbeda butuh repo berbedaHanya satu jenis data padahal Anda butuh beberapa

Trik yang paling menghemat waktu: sebelum benar-benar komit ke repo apa pun, cek tab Issues untuk kata "blocked," "banned," "CAPTCHA," atau "not working." Kalau issue terbaru penuh istilah-istilah itu dan maintainer-nya diam saja, lanjutkan. Repo itu sudah kalah.

Apa yang Sebenarnya Ditemukan Audit 2026

linkedin_scraper_repo_audit_v2_17d346a6d6.png

Saya menerapkan skor ini ke delapan repo LinkedIn scraper yang paling terlihat di GitHub. Hasilnya tidak menggembirakan.

RepoBintangCommit TerakhirBerfungsi di 2026?Cakupan UtamaCatatan Kunci
joeyism/linkedin_scraper~3.983Apr 2026✅ Dengan catatanProfil, perusahaan, posting, pekerjaanRewrite berbasis Playwright, reuse sesi — tetapi issue terbaru menunjukkan blok keamanan dan pencarian kerja yang rusak
python-scrapy-playbook/linkedin-python-scrapy-scraper~111Jan 2026✅ Untuk tutorial/data publikOrang, perusahaan, pekerjaanIntegrasi proxy ScrapeOps; paket gratis memungkinkan 1.000 permintaan/bulan dengan 1 thread
spinlud/py-linkedin-jobs-scraper~472Mar 2025⚠️ Hanya pekerjaanPekerjaanDukungan cookie, mode proxy eksperimental — berguna jika Anda hanya butuh daftar lowongan publik
madingess/EasyApplyBot~170Mar 2025⚠️ Alat yang salahOtomatisasi Easy ApplyBukan scraper data — mengotomatiskan lamaran kerja
linkedtales/scrapedin~611May 2021ProfilREADME masih bilang "working in 2020"; issue menunjukkan verifikasi pin dan perubahan HTML
austinoboyle/scrape-linkedin-selenium~526Oct 2022Profil, perusahaanDulu berguna, kini terlalu usang untuk 2026
eilonmore/linkedin-private-api~291Jul 2022Profil, pekerjaan, perusahaan, postingPembungkus private API; endpoint yang tidak didokumentasikan berubah secara tak terduga
nsandman/linkedin-api~154Jul 2019Profil, pesan, pencarianMenarik secara historis; mendokumentasikan pembatasan laju setelah sekitar 900 permintaan/jam

Hanya 2 dari 8 repo yang tampak benar-benar bisa dipakai bagi pembaca 2026 tanpa banyak catatan. Rasio seperti itu tidak aneh — memang begitulah kenyataannya untuk scraping LinkedIn di GitHub.

Playbook Pencegahan Ban: Proxy, Rate Limit, dan Keamanan Akun

Pemblokiran akun adalah risiko operasional terbesar. Bahkan scraper yang secara teknis rapi pun sering gagal di sini. Kodenya jalan; akunnya tidak. Pengguna melaporkan kena flag setelah hanya meski memakai proxy dan jeda yang panjang.

Pembatasan Laju: Apa yang Dilaporkan Komunitas

linkedin_scraper_risk_spectrum_v2_a602c90b7d.png

Tidak ada angka aman yang benar-benar pasti. LinkedIn menilai usia sesi, timing klik, pola burst, reputasi IP, dan perilaku akun — bukan sekadar volume mentah. Data komunitas mengarah ke kisaran berikut:

  • Seorang pengguna melaporkan terdeteksi setelah 40–80 profil dengan proxy dan pacing 33 detik
  • Pengguna lain menyarankan tetap di sekitar 30 profil/hari/akun
  • Operator yang lebih agresif mengklaim yang disebar sepanjang hari
  • mendokumentasikan peringatan rate-limit internal setelah sekitar 900 permintaan dalam satu jam

Ringkasnya: di bawah 50 tampilan profil/hari/akun itu zona risiko yang lebih rendah. 50–100/hari masuk risiko menengah, dan kualitas sesi mulai jadi sangat penting. Di atas 100/hari/akun sudah tergolong agresif.

Strategi Proxy: Residential vs Datacenter

Residential proxy tetap jadi standar untuk LinkedIn karena tampilannya mirip trafik pengguna normal. IP datacenter memang lebih murah, tapi lebih cepat ditandai di situs yang canggih — dan LinkedIn termasuk jenis situs yang sangat peka terhadap trafik murah.

Konteks harga saat ini:

  • : $3,00–$4,00/GB tergantung paket
  • : $4,00–$6,00/GB tergantung paket

Rotasikan per sesi, bukan per permintaan. Rotasi per permintaan justru menciptakan sidik jari yang lebih jelas, seperti berteriak "ini infrastruktur proxy" daripada IP mana pun.

Protokol Akun Cadangan

Saran komunitas cukup tegas soal ini: jangan perlakukan akun LinkedIn utama Anda sebagai infrastruktur scraping sekali pakai.

Kalau Anda tetap ingin scraping berbasis akun:

  • Gunakan akun terpisah dari identitas profesional utama Anda
  • Lengkapi profil sepenuhnya dan biarkan berperilaku seperti manusia selama beberapa hari sebelum scraping
  • Jangan pernah mengaitkan nomor ponsel asli Anda ke akun scraping
  • Pisahkan sesi scraping sepenuhnya dari outreach dan messaging yang nyata

Perlu dicatat: LinkedIn (berlaku sejak 3 November 2025) secara eksplisit melarang identitas palsu dan berbagi akun. Taktik akun cadangan memang umum secara operasional, tetapi rumit secara kontraktual.

Menangani CAPTCHA

CAPTCHA bukan sekadar gangguan. Itu sinyal bahwa sesi Anda sedang diawasi. Opsi yang ada meliputi:

  • Menyelesaikannya secara manual untuk melanjutkan sesi
  • Menggunakan ulang cookie alih-alih menjalankan login berulang
  • Layanan solver seperti (~$0,50–$1,00 per 1.000 CAPTCHA gambar, ~$1,00–$2,99 per 1.000 penyelesaian reCAPTCHA v2)

Tapi kalau alur kerja Anda terus-menerus memicu CAPTCHA, biaya layanan solver adalah masalah terkecil Anda. Stack Anda sedang kalah dalam perang stealth.

Spektrum Risiko

VolumeTingkat RisikoPendekatan yang Disarankan
< 50 profil/hariLebih rendahSesi browser atau reuse cookie, pacing lambat, tanpa otomatisasi agresif
50–500 profil/hariMenengah hingga tinggiResidential proxy, akun yang sudah "warm", reuse sesi, jeda acak
500+/hariSangat tinggiAPI komersial atau tool yang dipelihara dengan anti-deteksi bawaan; repo GitHub publik saja biasanya tidak cukup

Paradoks Open Source: Mengapa Repo LinkedIn Scraper GitHub yang Populer Lebih Cepat Rusak

Pengguna mengajukan kekhawatiran yang masuk akal: "Membuat versi open-source berarti LinkedIn bisa melihat apa yang Anda lakukan dan mencegahnya." Kekhawatiran itu bukan paranoia. Secara struktural, itu benar.

Masalah Visibilitas

Jumlah bintang yang tinggi menciptakan dua sinyal sekaligus: kepercayaan bagi pengguna dan target bagi tim keamanan LinkedIn. Semakin populer sebuah repo, semakin besar kemungkinan LinkedIn sengaja menutup metode yang dipakai.

Anda bisa melihat siklus ini dalam data audit. linkedtales/scrapedin dulu cukup menonjol untuk mengiklankan bahwa ia bekerja dengan "website baru" LinkedIn pada 2020. Tapi repo itu tidak mengikuti perubahan verifikasi dan tata letak berikutnya. nsandman/linkedin-api dulu mendokumentasikan trik yang berguna, tetapi commit terakhirnya bertahun-tahun sebelum lingkungan anti-bot saat ini.

Keunggulan Patch dari Komunitas

Open source tetap punya satu keuntungan nyata: maintainer dan kontributor yang aktif bisa cepat menambal saat LinkedIn mengubah pertahanan. joeyism/linkedin_scraper adalah contoh utama dari audit ini — masih memunculkan issue auth yang diblokir dan pencarian yang rusak, tetapi setidaknya masih bergerak. Fork sering mengadopsi teknik evasi yang lebih baru lebih cepat daripada repo aslinya.

Apa yang Sebaiknya Dilakukan

  • Jangan mengandalkan satu repo publik sebagai infrastruktur permanen
  • Perhatikan fork aktif yang menerapkan teknik evasi yang diperbarui
  • Pertimbangkan memelihara private fork untuk penggunaan produksi (agar adaptasi spesifik Anda tidak publik)
  • Bersiaplah mengganti metode saat LinkedIn mengubah deteksi atau perilaku UI
  • Diversifikasikan pendekatan, jangan bertaruh semuanya pada satu alat

Ekstraksi Berbasis AI vs CSS Selector: Perbandingan Praktis

linkedin_scraper_selectors_vs_ai_v2_2d42fbf5c4.png

Pemisahan teknis yang lebih menarik di 2026 bukan GitHub versus no-code. Melainkan ekstraksi berbasis selector versus ekstraksi semantik — dan bedanya jauh lebih penting daripada yang diakui banyak ringkasan.

Cara Kerja CSS Selector (dan Kenapa Gagal)

Scraper tradisional membaca DOM LinkedIn dan memetakan setiap field ke CSS selector atau ekspresi XPath. Kalau struktur halaman stabil, pendekatan ini sangat bagus: presisi tinggi, biaya marjinal rendah, parsing sangat cepat.

Mode gagalnya juga sangat jelas. LinkedIn mengubah nama class, nesting, perilaku lazy-loading, atau mengunci konten di balik auth wall yang berbeda — lalu scraper langsung rusak. Judul-judul issue dalam audit repo menceritakan hal itu: "changed HTML," "broken job search," "missing values," "authwall blocks."

Cara Kerja Ekstraksi AI/LLM

Pola yang lebih baru lebih sederhana secara konsep: render halaman, ambil teks yang terlihat, lalu minta model menghasilkan field terstruktur. Itulah logika di balik banyak AI scraper no-code dan beberapa alur kerja kustom yang lebih baru.

Dengan harga saat ini ($0,15/1M token input, $0,60/1M token output), satu kali ekstraksi berbasis teks untuk satu profil biasanya berbiaya $0,0006–$0,0018 per profil. Itu terlalu kecil untuk jadi masalah dalam workflow volume menengah.

Perbandingan Head-to-Head

DimensiCSS Selector / XPathEkstraksi AI/LLM
Upaya setupTinggi — periksa DOM, tulis selector untuk tiap fieldRendah — jelaskan output yang diinginkan dalam bahasa alami
Kerusakan saat layout berubahLangsung rusakBeradaptasi otomatis (membaca secara semantik)
Akurasi pada field terstruktur~99% jika selector benar~95–98% (kadang ada kesalahan interpretasi LLM)
Menangani data tak terstruktur/variabelLemah tanpa logika kustomKuat — AI memahami konteks
Biaya per profilHampir nol (hanya komputasi)~$0,001–$0,002 (biaya token API)
Pelabelan/kategorisasiMemerlukan pemrosesan pasca terpisahBisa mengategorikan, menerjemahkan, melabeli dalam satu kali proses
Beban pemeliharaanPerbaikan selector berkelanjutanHampir nol

Mana yang Harus Dipilih?

Untuk pipeline yang sangat besar, stabil, dan dimiliki tim engineering, parsing berbasis selector masih bisa unggul dari sisi biaya. Untuk sebagian besar pengguna skala kecil dan menengah yang men-scrape ratusan, bukan jutaan, profil, ekstraksi AI adalah investasi jangka panjang yang lebih baik karena perubahan layout LinkedIn menghabiskan waktu developer lebih mahal daripada token model yang Anda hemat.

Kapan Repo GitHub Itu Berlebihan: Jalur No-Code

Kebanyakan orang yang mencari "linkedin scraper github" tidak ingin menjadi pemelihara otomatisasi browser.

Mereka cuma ingin baris-baris di tabel.

Pengguna secara eksplisit mengeluhkan kegunaan scraper GitHub di thread issue: "It does not handle 2FA and it is not easy to use since there is no UI." Audiensnya mencakup recruiter, SDR, dan manajer operasional — bukan hanya developer Python.

Keputusan Build vs Buy

FaktorRepo GitHubAlat No-Code (mis. Thunderbit)
Waktu setup30 menit–2+ jam (Python, dependensi, proxy)Di bawah 2 menit (pasang ekstensi, klik)
PemeliharaanAnda yang memperbaiki saat LinkedIn berubahPenyedia alat menangani pembaruan
Anti-deteksiAnda mengonfigurasi proxy, delay, sesiSudah tertanam di alat
Struktur dataAnda menulis logika parsingAI menyarankan field secara otomatis
Opsi eksporAnda membangun pipeline eksporSekali klik ke Excel, Google Sheets, Airtable, Notion
BiayaRepo gratis + biaya proxy + waktu AndaTersedia paket gratis; berbasis kredit untuk volume

Cara Thunderbit Menangani Scraping LinkedIn Tanpa Kode

menangani masalah ini dengan cara yang berbeda dari repo GitHub. Alih-alih menulis selector atau mengatur otomatisasi browser, Anda:

  1. Pasang
  2. Buka halaman LinkedIn apa pun (hasil pencarian, profil, halaman perusahaan)
  3. Klik "AI Suggest Fields" — AI Thunderbit membaca halaman dan menyarankan kolom terstruktur (nama, jabatan, perusahaan, lokasi, dll.)
  4. Sesuaikan kolom jika perlu, lalu klik untuk mengekstrak
  5. Ekspor langsung ke Excel, Google Sheets, , atau Notion

Karena Thunderbit memakai AI untuk membaca halaman secara semantik setiap kali, alat ini tidak rusak ketika LinkedIn mengubah DOM-nya. Itu keunggulan yang sama seperti pendekatan terintegrasi GPT dalam skrip Python kustom, tetapi dikemas dalam ekstensi no-code alih-alih codebase yang harus Anda pelihara.

Untuk — mengklik profil individual dari daftar hasil pencarian untuk memperkaya tabel data Anda — Thunderbit menanganinya secara otomatis. Mode browser berfungsi untuk halaman yang memerlukan login tanpa konfigurasi proxy terpisah.

Siapa yang Masih Sebaiknya Memakai Repo GitHub?

Repo GitHub masih masuk akal untuk:

  • Developer yang butuh kustomisasi mendalam atau jenis data yang tidak biasa
  • Tim yang melakukan scraping dalam volume sangat tinggi sehingga biaya per kredit menjadi penting
  • Pengguna yang perlu menjalankan scraping di pipeline CI/CD atau di server
  • Orang yang membangun data LinkedIn ke dalam workflow otomatis yang lebih besar

Untuk yang lain — terutama tim sales, recruiting, dan operasional — menghilangkan seluruh siklus setup dan maintenance.

Langkah demi Langkah: Cara Mengevaluasi dan Menggunakan LinkedIn Scraper dari GitHub

Kalau Anda memutuskan GitHub adalah jalur yang tepat, berikut workflow bertahap untuk meminimalkan waktu terbuang dan risiko akun.

Langkah 1: Cari dan Pilih Repo Terbaik

Cari GitHub untuk "linkedin scraper" dan filter berdasarkan:

  • Baru diperbarui (6 bulan terakhir)
  • Bahasa yang cocok dengan stack Anda (Python paling umum)
  • Cakupan yang sesuai kebutuhan aktual Anda (profil vs pekerjaan vs perusahaan)

Pilih 3–5 repo yang terlihat masih hidup.

Langkah 2: Terapkan Skor Kesehatan Repo

Jalankan setiap repo melalui skor yang dijelaskan sebelumnya. Singkirkan apa pun dengan:

  • Tidak ada commit dalam setahun terakhir
  • Issue "blocked" atau "CAPTCHA" yang belum terselesaikan
  • Autentikasi hanya berbasis password
  • Tidak ada penyebutan sesi, cookie, atau proxy

Langkah 3: Siapkan Environment Anda

Perintah setup umum dari repo yang saya audit:

1pip install linkedin-scraper
2playwright install chromium
3pip install linkedin-jobs-scraper
4LI_AT_COOKIE=<cookie> python your_app.py
5scrapy crawl linkedin_people_profile

Titik gesek yang sering muncul:

  • File session.json yang hilang
  • Ketidakcocokan versi browser driver (Chromium/Playwright)
  • Ekstraksi cookie dari DevTools browser
  • Timeout autentikasi proxy

Langkah 4: Jalankan Scrape Kecil untuk Uji Coba

Mulailah dengan 10–20 profil. Periksa:

  • Apakah field di-parse dengan benar?
  • Apakah datanya lengkap?
  • Apakah Anda kena checkpoint keamanan?
  • Apakah format output bisa dipakai atau cuma noise JSON mentah?

Langkah 5: Skalakan dengan Hati-Hati

Tambahkan jeda acak (5–15 detik antar permintaan), kurangi concurrency, reuse sesi, dan gunakan residential proxy. Jangan langsung lompat ke ratusan profil/hari pada akun baru.

Langkah 6: Ekspor dan Strukturkan Data Anda

Kebanyakan repo GitHub menghasilkan JSON mentah atau CSV. Anda masih perlu:

  • Menghapus duplikasi data
  • Menormalkan jabatan dan nama perusahaan
  • Memetakan field ke CRM atau ATS Anda
  • Mendokumentasikan asal data untuk kepatuhan

(Thunderbit menangani struktur dan ekspor secara otomatis jika Anda lebih suka melewati langkah ini.)

LinkedIn Scraper GitHub vs. Alat No-Code: Perbandingan Lengkap

DimensiRepo GitHub (CSS Selector)Repo GitHub (AI/LLM)Alat No-Code (Thunderbit)
Waktu setup1–2+ jam1–3+ jam (+ API key)Di bawah 2 menit
Keahlian teknisTinggi (Python, CLI)Tinggi (Python + API LLM)Tidak perlu
PemeliharaanTinggi (selector mudah rusak)Menengah (LLM beradaptasi, kode tetap perlu diperbarui)Tidak ada (ditangani penyedia)
Anti-deteksiDIY (proxy, delay)DIYBawaan
AkurasiTinggi saat berfungsiTinggi dengan sesekali kesalahan LLMTinggi (berbasis AI)
BiayaGratis + biaya proxy + waktu AndaGratis + biaya API LLM + biaya proxyPaket gratis; berbasis kredit untuk volume
EksporDIY (JSON, CSV)DIYExcel, Sheets, Airtable, Notion
Paling cocok untukDeveloper, pipeline kustomDeveloper yang ingin pemeliharaan lebih rendahTim sales, recruiting, operasional

Pertimbangan Hukum dan Etika

Saya akan singkat saja di bagian ini, tapi bagian ini tidak boleh dilewati.

LinkedIn (berlaku sejak 3 November 2025) secara eksplisit melarang penggunaan software, skrip, robot, crawler, atau plugin browser untuk scraping layanan. LinkedIn juga menegakkan ini lewat langkah hukum:

  • : LinkedIn mengumumkan tindakan hukum terhadap Proxycurl
  • : LinkedIn menyatakan kasus itu telah diselesaikan
  • : Law360 melaporkan bahwa LinkedIn menggugat terdakwa tambahan atas dugaan scraping berskala industri

Rangkaian kasus hiQ v. LinkedIn menciptakan nuansa tertentu soal akses data publik, tetapi lebih berpihak pada LinkedIn berdasarkan teori pelanggaran kontrak. "Terlihat publik" tidak berarti "aman untuk di-scrape dalam skala besar untuk penggunaan ulang komersial."

Untuk workflow yang terkait UE, . oleh otoritas data Prancis adalah contoh konkret regulator memperlakukan data LinkedIn hasil scraping sebagai data pribadi yang tunduk pada aturan perlindungan data.

Menggunakan alat yang dipelihara seperti Thunderbit tidak mengubah kewajiban hukum Anda. Tetapi itu mengurangi risiko tanpa sengaja memicu respons keamanan atau melanggar rate limit dengan cara yang menarik perhatian LinkedIn.

Apa yang Berfungsi dan Apa yang Tidak di 2026

Yang Berfungsi

  • Menerapkan Skor Kesehatan Repo sebelum berkomitmen ke repo apa pun
  • Reuse cookie/sesi alih-alih login otomatis berulang
  • Residential proxy saat Anda harus menjalankan scraping berbasis akun
  • Workflow scraping yang lebih kecil, lebih lambat, dan mirip manusia
  • Ekstraksi berbantuan AI saat Anda lebih menghargai adaptabilitas daripada biaya token marjinal
  • saat kebutuhan sebenarnya adalah output spreadsheet, bukan kepemilikan scraper
  • Mendiferensiasikan pendekatan daripada bertaruh pada satu repo publik

Yang Tidak Berfungsi

  • Kloning repo bintang tinggi tanpa memeriksa status pemeliharaan atau issue terbaru
  • Menggunakan datacenter proxy atau daftar proxy gratis untuk LinkedIn
  • Menskalakan ke ratusan profil/hari tanpa rate limit atau anti-deteksi
  • Mengandalkan CSS selector dalam jangka panjang tanpa rencana pemeliharaan
  • Memperlakukan akun LinkedIn asli Anda sebagai infrastruktur sekali pakai
  • Mengira "dapat diakses publik" sama dengan "tidak bermasalah secara kontraktual atau hukum"

FAQ

Apakah repo GitHub LinkedIn scraper masih berfungsi di 2026?

Sebagian masih, tetapi hanya sebagian kecil. Dalam audit ini terhadap delapan repo yang terlihat, hanya dua yang tampak benar-benar layak dipakai bagi pembaca 2026 tanpa banyak penafian. Kuncinya adalah menilai repo berdasarkan aktivitas pemeliharaan dan kesehatan issue, bukan jumlah bintang. Gunakan Skor Kesehatan Repo sebelum menghabiskan waktu setup di proyek apa pun.

Berapa banyak profil LinkedIn yang bisa saya scrape per hari tanpa diblokir?

Tidak ada angka aman yang pasti karena LinkedIn menilai perilaku sesi, bukan hanya volume. Laporan komunitas menunjukkan bahwa di bawah 50 profil/hari/akun adalah zona risiko lebih rendah, 50–100/hari adalah risiko menengah di mana kualitas infrastruktur penting, dan di atas 100/hari menjadi semakin agresif. Jeda acak 5–15 detik dan residential proxy membantu, tetapi tidak ada yang sepenuhnya menghilangkan risiko.

Apakah ada alternatif no-code untuk proyek LinkedIn scraper GitHub?

Ada. memungkinkan Anda scraping halaman LinkedIn dalam beberapa klik dengan deteksi field berbasis AI, autentikasi berbasis browser (tanpa perlu konfigurasi proxy), dan ekspor sekali klik ke Excel, Google Sheets, Airtable, atau Notion. Ini dirancang untuk tim sales, recruiting, dan operasional yang ingin mendapatkan data tanpa harus memelihara kode. Anda bisa mencobanya lewat .

Ini area abu-abu dengan batas yang makin tegas. User Agreement LinkedIn secara eksplisit melarang scraping, dan LinkedIn telah menempuh jalur hukum terhadap scraper pada . Preseden hiQ v. LinkedIn tentang akses data publik telah dipersempit oleh putusan yang lebih baru. GDPR berlaku untuk data pribadi penduduk UE terlepas dari cara pengumpulannya. Untuk kasus penggunaan komersial apa pun, mintalah nasihat hukum yang spesifik untuk situasi Anda.

Ekstraksi AI atau CSS selector — mana yang sebaiknya saya pakai untuk scraping LinkedIn?

CSS selector lebih cepat dan lebih murah per catatan saat berfungsi, tetapi ia menciptakan treadmill pemeliharaan karena LinkedIn sering mengubah DOM-nya. Ekstraksi AI/LLM sedikit lebih mahal per profil (~$0,001–$0,002 pada tarif saat ini) tetapi menyesuaikan diri dengan perubahan layout secara otomatis. Untuk sebagian besar pengguna non-enterprise yang men-scrape ratusan, bukan jutaan, profil, ekstraksi AI adalah investasi jangka panjang yang lebih baik. Mesin AI bawaan Thunderbit menawarkan keuntungan ini tanpa mengharuskan Anda menulis atau memelihara kode apa pun.

Pelajari Lebih Lanjut

Ke
Ke
CTO @ Thunderbit. Ke adalah orang yang dihubungi semua orang saat data jadi berantakan. Sepanjang kariernya, ia mengubah pekerjaan yang membosankan dan berulang menjadi otomasi kecil yang berjalan diam-diam. Kalau Anda pernah berharap spreadsheet bisa terisi sendiri, kemungkinan besar Ke sudah membuat alatnya.
Daftar Isi

Coba Thunderbit

Ambil leads & data lainnya hanya dalam 2 klik. Didukung AI.

Dapatkan Thunderbit Gratis
Ekstrak Data dengan AI
Dengan mudah transfer data ke Google Sheets, Airtable, atau Notion
Chrome Store Rating
PRODUCT HUNT#1 Product of the Week