Pencarian GitHub untuk "linkedin scraper" menghasilkan sekitar per April 2026. Sebagian besar hanya akan menghabiskan waktu Anda. Kedengarannya keras? Mungkin. Tapi itu kesimpulan saya setelah mengaudit delapan repo yang paling menonjol, membaca puluhan thread issue di GitHub, lalu membandingkannya dengan laporan komunitas dari Reddit dan forum scraping. Polanya berulang: repo dengan bintang tinggi menarik perhatian, tim anti-bot LinkedIn mempelajari kodenya, deteksi diperbarui, lalu pengguna berakhir dengan selector yang rusak, loop CAPTCHA, atau bahkan akun yang diblokir. Seorang pengguna Reddit menggambarkan situasinya secara blak-blakan — LinkedIn sudah menambah "pembatasan laju yang lebih ketat, deteksi bot yang lebih baik, pelacakan sesi, dan perubahan yang sering," dan alat lama sekarang "cepat rusak atau membuat akun/IP ditandai." Kalau Anda sales rep, recruiter, atau manajer operasional yang cuma ingin data LinkedIn masuk ke spreadsheet, repo yang Anda kloning bulan lalu bisa jadi sudah mati. Panduan ini dibuat untuk membantu Anda menilai proyek GitHub mana yang masih layak dicoba, bagaimana menghindari akun Anda ikut kena dampak, dan kapan lebih masuk akal untuk tidak memakai kode sama sekali.
Apa Itu LinkedIn Scraper di GitHub?
Proyek LinkedIn scraper GitHub adalah skrip open-source — biasanya Python, kadang Node.js — yang mengotomatiskan ekstraksi data terstruktur dari halaman LinkedIn. Target yang umum meliputi:
- Profil orang: nama, headline, perusahaan, lokasi, keahlian, pengalaman
- Lowongan kerja: judul, perusahaan, lokasi, tanggal posting, URL lowongan
- Halaman perusahaan: ringkasan, jumlah karyawan, industri, jumlah pengikut
- Posting dan engagement: teks konten, suka, komentar, berbagi
Di balik layar, sebagian besar repo memakai salah satu dari dua pendekatan. Scraper berbasis browser mengandalkan Selenium, Playwright, atau Puppeteer untuk merender halaman, mengklik alur kerja, dan mengekstrak data lewat CSS selector atau XPath. Sebagian kecil mencoba memanggil endpoint API internal LinkedIn yang tidak didokumentasikan secara langsung. Dan gelombang yang lebih baru — masih jarang di GitHub, tetapi terus bertumbuh — menggabungkan otomatisasi browser dengan LLM seperti GPT-4o mini untuk mengubah teks halaman menjadi field terstruktur tanpa selector yang rapuh.
Ada ketidakcocokan audiens yang mendasar. Alat-alat ini dibangun oleh developer yang nyaman dengan virtual environment, dependensi browser, dan konfigurasi proxy. Tetapi banyak orang yang mencari "linkedin scraper github" adalah recruiter, SDR, manajer RevOps, dan founder yang hanya ingin baris-baris data di spreadsheet.
Kesenjangan itu menjelaskan sebagian besar frustrasi di thread issue.
Mengapa Orang Beralih ke GitHub untuk Scraping LinkedIn
Daya tariknya jelas. Gratis. Bisa dikustomisasi. Tanpa ketergantungan vendor. Kontrol penuh atas pipeline data Anda. Kalau alat SaaS mengubah harga atau berhenti beroperasi, kode Anda tetap ada.
| Kasus Penggunaan | Siapa yang Membutuhkan | Data yang Biasanya Diambil |
|---|---|---|
| Pencarian lead | Tim sales | Nama, jabatan, perusahaan, URL profil, petunjuk email |
| Pencarian kandidat | Recruiter | Profil, keahlian, pengalaman, lokasi |
| Riset pasar | Tim operasional dan strategi | Data perusahaan, jumlah karyawan, lowongan kerja |
| Intelijen kompetitif | Tim marketing | Posting, engagement, pembaruan perusahaan, sinyal perekrutan |
Tapi "gratis" itu cuma label lisensi, bukan biaya operasional. Biaya nyatanya adalah:
- Waktu setup: bahkan repo yang ramah biasanya butuh 30 menit sampai lebih dari 2 jam untuk menyiapkan environment, dependensi browser, ekstraksi cookie, dan konfigurasi proxy
- Pemeliharaan: LinkedIn sering mengubah DOM dan pertahanan anti-bot — scraper yang jalan hari ini bisa rusak minggu depan
- Proxy: bandwidth residential proxy berkisar tergantung penyedia dan paket
- Risiko akun: akun LinkedIn Anda adalah aset paling mahal yang dipertaruhkan, dan tidak bisa diganti seperti IP proxy
Skor Kesehatan Repo: Cara Mengevaluasi Proyek LinkedIn Scraper GitHub Apa Pun
Kebanyakan daftar "LinkedIn scraper terbaik" memberi peringkat repo berdasarkan jumlah bintang. Bintang mengukur minat historis, bukan fungsi saat ini. Repo dengan 3.000 bintang dan tanpa commit sejak 2022 itu artefak museum, bukan alat produksi.
Sebelum menjalankan git clone pada apa pun, gunakan kerangka ini:
| Kriteria | Mengapa Penting | Tanda Bahaya |
|---|---|---|
| Tanggal commit terakhir | LinkedIn sering mengubah DOM | > 6 bulan lalu untuk repo berbasis browser |
| Rasio issue terbuka/tertutup | Responsivitas maintainer | Rasio terbuka-tertutup > 3:1, terutama jika ada laporan terbaru tentang "blocked" atau "CAPTCHA" |
| Fitur anti-deteksi | LinkedIn agresif memblokir | Tidak ada penyebutan cookie, sesi, pacing, atau proxy di README |
| Metode autentikasi | 2FA dan CAPTCHA merusak alur login | Hanya mendukung login headless berbasis password |
| Jenis lisensi | Risiko hukum untuk penggunaan komersial | Tidak ada lisensi atau ketentuan yang ambigu |
| Jenis data yang didukung | Kasus penggunaan berbeda butuh repo berbeda | Hanya satu jenis data padahal Anda butuh beberapa |
Trik yang paling menghemat waktu: sebelum benar-benar komit ke repo apa pun, cek tab Issues untuk kata "blocked," "banned," "CAPTCHA," atau "not working." Kalau issue terbaru penuh istilah-istilah itu dan maintainer-nya diam saja, lanjutkan. Repo itu sudah kalah.
Apa yang Sebenarnya Ditemukan Audit 2026

Saya menerapkan skor ini ke delapan repo LinkedIn scraper yang paling terlihat di GitHub. Hasilnya tidak menggembirakan.
| Repo | Bintang | Commit Terakhir | Berfungsi di 2026? | Cakupan Utama | Catatan Kunci |
|---|---|---|---|---|---|
| joeyism/linkedin_scraper | ~3.983 | Apr 2026 | ✅ Dengan catatan | Profil, perusahaan, posting, pekerjaan | Rewrite berbasis Playwright, reuse sesi — tetapi issue terbaru menunjukkan blok keamanan dan pencarian kerja yang rusak |
| python-scrapy-playbook/linkedin-python-scrapy-scraper | ~111 | Jan 2026 | ✅ Untuk tutorial/data publik | Orang, perusahaan, pekerjaan | Integrasi proxy ScrapeOps; paket gratis memungkinkan 1.000 permintaan/bulan dengan 1 thread |
| spinlud/py-linkedin-jobs-scraper | ~472 | Mar 2025 | ⚠️ Hanya pekerjaan | Pekerjaan | Dukungan cookie, mode proxy eksperimental — berguna jika Anda hanya butuh daftar lowongan publik |
| madingess/EasyApplyBot | ~170 | Mar 2025 | ⚠️ Alat yang salah | Otomatisasi Easy Apply | Bukan scraper data — mengotomatiskan lamaran kerja |
| linkedtales/scrapedin | ~611 | May 2021 | ❌ | Profil | README masih bilang "working in 2020"; issue menunjukkan verifikasi pin dan perubahan HTML |
| austinoboyle/scrape-linkedin-selenium | ~526 | Oct 2022 | ❌ | Profil, perusahaan | Dulu berguna, kini terlalu usang untuk 2026 |
| eilonmore/linkedin-private-api | ~291 | Jul 2022 | ❌ | Profil, pekerjaan, perusahaan, posting | Pembungkus private API; endpoint yang tidak didokumentasikan berubah secara tak terduga |
| nsandman/linkedin-api | ~154 | Jul 2019 | ❌ | Profil, pesan, pencarian | Menarik secara historis; mendokumentasikan pembatasan laju setelah sekitar 900 permintaan/jam |
Hanya 2 dari 8 repo yang tampak benar-benar bisa dipakai bagi pembaca 2026 tanpa banyak catatan. Rasio seperti itu tidak aneh — memang begitulah kenyataannya untuk scraping LinkedIn di GitHub.
Playbook Pencegahan Ban: Proxy, Rate Limit, dan Keamanan Akun
Pemblokiran akun adalah risiko operasional terbesar. Bahkan scraper yang secara teknis rapi pun sering gagal di sini. Kodenya jalan; akunnya tidak. Pengguna melaporkan kena flag setelah hanya meski memakai proxy dan jeda yang panjang.
Pembatasan Laju: Apa yang Dilaporkan Komunitas

Tidak ada angka aman yang benar-benar pasti. LinkedIn menilai usia sesi, timing klik, pola burst, reputasi IP, dan perilaku akun — bukan sekadar volume mentah. Data komunitas mengarah ke kisaran berikut:
- Seorang pengguna melaporkan terdeteksi setelah 40–80 profil dengan proxy dan pacing 33 detik
- Pengguna lain menyarankan tetap di sekitar 30 profil/hari/akun
- Operator yang lebih agresif mengklaim yang disebar sepanjang hari
- mendokumentasikan peringatan rate-limit internal setelah sekitar 900 permintaan dalam satu jam
Ringkasnya: di bawah 50 tampilan profil/hari/akun itu zona risiko yang lebih rendah. 50–100/hari masuk risiko menengah, dan kualitas sesi mulai jadi sangat penting. Di atas 100/hari/akun sudah tergolong agresif.
Strategi Proxy: Residential vs Datacenter
Residential proxy tetap jadi standar untuk LinkedIn karena tampilannya mirip trafik pengguna normal. IP datacenter memang lebih murah, tapi lebih cepat ditandai di situs yang canggih — dan LinkedIn termasuk jenis situs yang sangat peka terhadap trafik murah.
Konteks harga saat ini:
- : $3,00–$4,00/GB tergantung paket
- : $4,00–$6,00/GB tergantung paket
Rotasikan per sesi, bukan per permintaan. Rotasi per permintaan justru menciptakan sidik jari yang lebih jelas, seperti berteriak "ini infrastruktur proxy" daripada IP mana pun.
Protokol Akun Cadangan
Saran komunitas cukup tegas soal ini: jangan perlakukan akun LinkedIn utama Anda sebagai infrastruktur scraping sekali pakai.
Kalau Anda tetap ingin scraping berbasis akun:
- Gunakan akun terpisah dari identitas profesional utama Anda
- Lengkapi profil sepenuhnya dan biarkan berperilaku seperti manusia selama beberapa hari sebelum scraping
- Jangan pernah mengaitkan nomor ponsel asli Anda ke akun scraping
- Pisahkan sesi scraping sepenuhnya dari outreach dan messaging yang nyata
Perlu dicatat: LinkedIn (berlaku sejak 3 November 2025) secara eksplisit melarang identitas palsu dan berbagi akun. Taktik akun cadangan memang umum secara operasional, tetapi rumit secara kontraktual.
Menangani CAPTCHA
CAPTCHA bukan sekadar gangguan. Itu sinyal bahwa sesi Anda sedang diawasi. Opsi yang ada meliputi:
- Menyelesaikannya secara manual untuk melanjutkan sesi
- Menggunakan ulang cookie alih-alih menjalankan login berulang
- Layanan solver seperti (~$0,50–$1,00 per 1.000 CAPTCHA gambar, ~$1,00–$2,99 per 1.000 penyelesaian reCAPTCHA v2)
Tapi kalau alur kerja Anda terus-menerus memicu CAPTCHA, biaya layanan solver adalah masalah terkecil Anda. Stack Anda sedang kalah dalam perang stealth.
Spektrum Risiko
| Volume | Tingkat Risiko | Pendekatan yang Disarankan |
|---|---|---|
| < 50 profil/hari | Lebih rendah | Sesi browser atau reuse cookie, pacing lambat, tanpa otomatisasi agresif |
| 50–500 profil/hari | Menengah hingga tinggi | Residential proxy, akun yang sudah "warm", reuse sesi, jeda acak |
| 500+/hari | Sangat tinggi | API komersial atau tool yang dipelihara dengan anti-deteksi bawaan; repo GitHub publik saja biasanya tidak cukup |
Paradoks Open Source: Mengapa Repo LinkedIn Scraper GitHub yang Populer Lebih Cepat Rusak
Pengguna mengajukan kekhawatiran yang masuk akal: "Membuat versi open-source berarti LinkedIn bisa melihat apa yang Anda lakukan dan mencegahnya." Kekhawatiran itu bukan paranoia. Secara struktural, itu benar.
Masalah Visibilitas
Jumlah bintang yang tinggi menciptakan dua sinyal sekaligus: kepercayaan bagi pengguna dan target bagi tim keamanan LinkedIn. Semakin populer sebuah repo, semakin besar kemungkinan LinkedIn sengaja menutup metode yang dipakai.
Anda bisa melihat siklus ini dalam data audit. linkedtales/scrapedin dulu cukup menonjol untuk mengiklankan bahwa ia bekerja dengan "website baru" LinkedIn pada 2020. Tapi repo itu tidak mengikuti perubahan verifikasi dan tata letak berikutnya. nsandman/linkedin-api dulu mendokumentasikan trik yang berguna, tetapi commit terakhirnya bertahun-tahun sebelum lingkungan anti-bot saat ini.
Keunggulan Patch dari Komunitas
Open source tetap punya satu keuntungan nyata: maintainer dan kontributor yang aktif bisa cepat menambal saat LinkedIn mengubah pertahanan. joeyism/linkedin_scraper adalah contoh utama dari audit ini — masih memunculkan issue auth yang diblokir dan pencarian yang rusak, tetapi setidaknya masih bergerak. Fork sering mengadopsi teknik evasi yang lebih baru lebih cepat daripada repo aslinya.
Apa yang Sebaiknya Dilakukan
- Jangan mengandalkan satu repo publik sebagai infrastruktur permanen
- Perhatikan fork aktif yang menerapkan teknik evasi yang diperbarui
- Pertimbangkan memelihara private fork untuk penggunaan produksi (agar adaptasi spesifik Anda tidak publik)
- Bersiaplah mengganti metode saat LinkedIn mengubah deteksi atau perilaku UI
- Diversifikasikan pendekatan, jangan bertaruh semuanya pada satu alat
Ekstraksi Berbasis AI vs CSS Selector: Perbandingan Praktis

Pemisahan teknis yang lebih menarik di 2026 bukan GitHub versus no-code. Melainkan ekstraksi berbasis selector versus ekstraksi semantik — dan bedanya jauh lebih penting daripada yang diakui banyak ringkasan.
Cara Kerja CSS Selector (dan Kenapa Gagal)
Scraper tradisional membaca DOM LinkedIn dan memetakan setiap field ke CSS selector atau ekspresi XPath. Kalau struktur halaman stabil, pendekatan ini sangat bagus: presisi tinggi, biaya marjinal rendah, parsing sangat cepat.
Mode gagalnya juga sangat jelas. LinkedIn mengubah nama class, nesting, perilaku lazy-loading, atau mengunci konten di balik auth wall yang berbeda — lalu scraper langsung rusak. Judul-judul issue dalam audit repo menceritakan hal itu: "changed HTML," "broken job search," "missing values," "authwall blocks."
Cara Kerja Ekstraksi AI/LLM
Pola yang lebih baru lebih sederhana secara konsep: render halaman, ambil teks yang terlihat, lalu minta model menghasilkan field terstruktur. Itulah logika di balik banyak AI scraper no-code dan beberapa alur kerja kustom yang lebih baru.
Dengan harga saat ini ($0,15/1M token input, $0,60/1M token output), satu kali ekstraksi berbasis teks untuk satu profil biasanya berbiaya $0,0006–$0,0018 per profil. Itu terlalu kecil untuk jadi masalah dalam workflow volume menengah.
Perbandingan Head-to-Head
| Dimensi | CSS Selector / XPath | Ekstraksi AI/LLM |
|---|---|---|
| Upaya setup | Tinggi — periksa DOM, tulis selector untuk tiap field | Rendah — jelaskan output yang diinginkan dalam bahasa alami |
| Kerusakan saat layout berubah | Langsung rusak | Beradaptasi otomatis (membaca secara semantik) |
| Akurasi pada field terstruktur | ~99% jika selector benar | ~95–98% (kadang ada kesalahan interpretasi LLM) |
| Menangani data tak terstruktur/variabel | Lemah tanpa logika kustom | Kuat — AI memahami konteks |
| Biaya per profil | Hampir nol (hanya komputasi) | ~$0,001–$0,002 (biaya token API) |
| Pelabelan/kategorisasi | Memerlukan pemrosesan pasca terpisah | Bisa mengategorikan, menerjemahkan, melabeli dalam satu kali proses |
| Beban pemeliharaan | Perbaikan selector berkelanjutan | Hampir nol |
Mana yang Harus Dipilih?
Untuk pipeline yang sangat besar, stabil, dan dimiliki tim engineering, parsing berbasis selector masih bisa unggul dari sisi biaya. Untuk sebagian besar pengguna skala kecil dan menengah yang men-scrape ratusan, bukan jutaan, profil, ekstraksi AI adalah investasi jangka panjang yang lebih baik karena perubahan layout LinkedIn menghabiskan waktu developer lebih mahal daripada token model yang Anda hemat.
Kapan Repo GitHub Itu Berlebihan: Jalur No-Code
Kebanyakan orang yang mencari "linkedin scraper github" tidak ingin menjadi pemelihara otomatisasi browser.
Mereka cuma ingin baris-baris di tabel.
Pengguna secara eksplisit mengeluhkan kegunaan scraper GitHub di thread issue: "It does not handle 2FA and it is not easy to use since there is no UI." Audiensnya mencakup recruiter, SDR, dan manajer operasional — bukan hanya developer Python.
Keputusan Build vs Buy
| Faktor | Repo GitHub | Alat No-Code (mis. Thunderbit) |
|---|---|---|
| Waktu setup | 30 menit–2+ jam (Python, dependensi, proxy) | Di bawah 2 menit (pasang ekstensi, klik) |
| Pemeliharaan | Anda yang memperbaiki saat LinkedIn berubah | Penyedia alat menangani pembaruan |
| Anti-deteksi | Anda mengonfigurasi proxy, delay, sesi | Sudah tertanam di alat |
| Struktur data | Anda menulis logika parsing | AI menyarankan field secara otomatis |
| Opsi ekspor | Anda membangun pipeline ekspor | Sekali klik ke Excel, Google Sheets, Airtable, Notion |
| Biaya | Repo gratis + biaya proxy + waktu Anda | Tersedia paket gratis; berbasis kredit untuk volume |
Cara Thunderbit Menangani Scraping LinkedIn Tanpa Kode
menangani masalah ini dengan cara yang berbeda dari repo GitHub. Alih-alih menulis selector atau mengatur otomatisasi browser, Anda:
- Pasang
- Buka halaman LinkedIn apa pun (hasil pencarian, profil, halaman perusahaan)
- Klik "AI Suggest Fields" — AI Thunderbit membaca halaman dan menyarankan kolom terstruktur (nama, jabatan, perusahaan, lokasi, dll.)
- Sesuaikan kolom jika perlu, lalu klik untuk mengekstrak
- Ekspor langsung ke Excel, Google Sheets, , atau Notion
Karena Thunderbit memakai AI untuk membaca halaman secara semantik setiap kali, alat ini tidak rusak ketika LinkedIn mengubah DOM-nya. Itu keunggulan yang sama seperti pendekatan terintegrasi GPT dalam skrip Python kustom, tetapi dikemas dalam ekstensi no-code alih-alih codebase yang harus Anda pelihara.
Untuk — mengklik profil individual dari daftar hasil pencarian untuk memperkaya tabel data Anda — Thunderbit menanganinya secara otomatis. Mode browser berfungsi untuk halaman yang memerlukan login tanpa konfigurasi proxy terpisah.
Siapa yang Masih Sebaiknya Memakai Repo GitHub?
Repo GitHub masih masuk akal untuk:
- Developer yang butuh kustomisasi mendalam atau jenis data yang tidak biasa
- Tim yang melakukan scraping dalam volume sangat tinggi sehingga biaya per kredit menjadi penting
- Pengguna yang perlu menjalankan scraping di pipeline CI/CD atau di server
- Orang yang membangun data LinkedIn ke dalam workflow otomatis yang lebih besar
Untuk yang lain — terutama tim sales, recruiting, dan operasional — menghilangkan seluruh siklus setup dan maintenance.
Langkah demi Langkah: Cara Mengevaluasi dan Menggunakan LinkedIn Scraper dari GitHub
Kalau Anda memutuskan GitHub adalah jalur yang tepat, berikut workflow bertahap untuk meminimalkan waktu terbuang dan risiko akun.
Langkah 1: Cari dan Pilih Repo Terbaik
Cari GitHub untuk "linkedin scraper" dan filter berdasarkan:
- Baru diperbarui (6 bulan terakhir)
- Bahasa yang cocok dengan stack Anda (Python paling umum)
- Cakupan yang sesuai kebutuhan aktual Anda (profil vs pekerjaan vs perusahaan)
Pilih 3–5 repo yang terlihat masih hidup.
Langkah 2: Terapkan Skor Kesehatan Repo
Jalankan setiap repo melalui skor yang dijelaskan sebelumnya. Singkirkan apa pun dengan:
- Tidak ada commit dalam setahun terakhir
- Issue "blocked" atau "CAPTCHA" yang belum terselesaikan
- Autentikasi hanya berbasis password
- Tidak ada penyebutan sesi, cookie, atau proxy
Langkah 3: Siapkan Environment Anda
Perintah setup umum dari repo yang saya audit:
1pip install linkedin-scraper
2playwright install chromium
3pip install linkedin-jobs-scraper
4LI_AT_COOKIE=<cookie> python your_app.py
5scrapy crawl linkedin_people_profile
Titik gesek yang sering muncul:
- File
session.jsonyang hilang - Ketidakcocokan versi browser driver (Chromium/Playwright)
- Ekstraksi cookie dari DevTools browser
- Timeout autentikasi proxy
Langkah 4: Jalankan Scrape Kecil untuk Uji Coba
Mulailah dengan 10–20 profil. Periksa:
- Apakah field di-parse dengan benar?
- Apakah datanya lengkap?
- Apakah Anda kena checkpoint keamanan?
- Apakah format output bisa dipakai atau cuma noise JSON mentah?
Langkah 5: Skalakan dengan Hati-Hati
Tambahkan jeda acak (5–15 detik antar permintaan), kurangi concurrency, reuse sesi, dan gunakan residential proxy. Jangan langsung lompat ke ratusan profil/hari pada akun baru.
Langkah 6: Ekspor dan Strukturkan Data Anda
Kebanyakan repo GitHub menghasilkan JSON mentah atau CSV. Anda masih perlu:
- Menghapus duplikasi data
- Menormalkan jabatan dan nama perusahaan
- Memetakan field ke CRM atau ATS Anda
- Mendokumentasikan asal data untuk kepatuhan
(Thunderbit menangani struktur dan ekspor secara otomatis jika Anda lebih suka melewati langkah ini.)
LinkedIn Scraper GitHub vs. Alat No-Code: Perbandingan Lengkap
| Dimensi | Repo GitHub (CSS Selector) | Repo GitHub (AI/LLM) | Alat No-Code (Thunderbit) |
|---|---|---|---|
| Waktu setup | 1–2+ jam | 1–3+ jam (+ API key) | Di bawah 2 menit |
| Keahlian teknis | Tinggi (Python, CLI) | Tinggi (Python + API LLM) | Tidak perlu |
| Pemeliharaan | Tinggi (selector mudah rusak) | Menengah (LLM beradaptasi, kode tetap perlu diperbarui) | Tidak ada (ditangani penyedia) |
| Anti-deteksi | DIY (proxy, delay) | DIY | Bawaan |
| Akurasi | Tinggi saat berfungsi | Tinggi dengan sesekali kesalahan LLM | Tinggi (berbasis AI) |
| Biaya | Gratis + biaya proxy + waktu Anda | Gratis + biaya API LLM + biaya proxy | Paket gratis; berbasis kredit untuk volume |
| Ekspor | DIY (JSON, CSV) | DIY | Excel, Sheets, Airtable, Notion |
| Paling cocok untuk | Developer, pipeline kustom | Developer yang ingin pemeliharaan lebih rendah | Tim sales, recruiting, operasional |
Pertimbangan Hukum dan Etika
Saya akan singkat saja di bagian ini, tapi bagian ini tidak boleh dilewati.
LinkedIn (berlaku sejak 3 November 2025) secara eksplisit melarang penggunaan software, skrip, robot, crawler, atau plugin browser untuk scraping layanan. LinkedIn juga menegakkan ini lewat langkah hukum:
- : LinkedIn mengumumkan tindakan hukum terhadap Proxycurl
- : LinkedIn menyatakan kasus itu telah diselesaikan
- : Law360 melaporkan bahwa LinkedIn menggugat terdakwa tambahan atas dugaan scraping berskala industri
Rangkaian kasus hiQ v. LinkedIn menciptakan nuansa tertentu soal akses data publik, tetapi lebih berpihak pada LinkedIn berdasarkan teori pelanggaran kontrak. "Terlihat publik" tidak berarti "aman untuk di-scrape dalam skala besar untuk penggunaan ulang komersial."
Untuk workflow yang terkait UE, . oleh otoritas data Prancis adalah contoh konkret regulator memperlakukan data LinkedIn hasil scraping sebagai data pribadi yang tunduk pada aturan perlindungan data.
Menggunakan alat yang dipelihara seperti Thunderbit tidak mengubah kewajiban hukum Anda. Tetapi itu mengurangi risiko tanpa sengaja memicu respons keamanan atau melanggar rate limit dengan cara yang menarik perhatian LinkedIn.
Apa yang Berfungsi dan Apa yang Tidak di 2026
Yang Berfungsi
- Menerapkan Skor Kesehatan Repo sebelum berkomitmen ke repo apa pun
- Reuse cookie/sesi alih-alih login otomatis berulang
- Residential proxy saat Anda harus menjalankan scraping berbasis akun
- Workflow scraping yang lebih kecil, lebih lambat, dan mirip manusia
- Ekstraksi berbantuan AI saat Anda lebih menghargai adaptabilitas daripada biaya token marjinal
- saat kebutuhan sebenarnya adalah output spreadsheet, bukan kepemilikan scraper
- Mendiferensiasikan pendekatan daripada bertaruh pada satu repo publik
Yang Tidak Berfungsi
- Kloning repo bintang tinggi tanpa memeriksa status pemeliharaan atau issue terbaru
- Menggunakan datacenter proxy atau daftar proxy gratis untuk LinkedIn
- Menskalakan ke ratusan profil/hari tanpa rate limit atau anti-deteksi
- Mengandalkan CSS selector dalam jangka panjang tanpa rencana pemeliharaan
- Memperlakukan akun LinkedIn asli Anda sebagai infrastruktur sekali pakai
- Mengira "dapat diakses publik" sama dengan "tidak bermasalah secara kontraktual atau hukum"
FAQ
Apakah repo GitHub LinkedIn scraper masih berfungsi di 2026?
Sebagian masih, tetapi hanya sebagian kecil. Dalam audit ini terhadap delapan repo yang terlihat, hanya dua yang tampak benar-benar layak dipakai bagi pembaca 2026 tanpa banyak penafian. Kuncinya adalah menilai repo berdasarkan aktivitas pemeliharaan dan kesehatan issue, bukan jumlah bintang. Gunakan Skor Kesehatan Repo sebelum menghabiskan waktu setup di proyek apa pun.
Berapa banyak profil LinkedIn yang bisa saya scrape per hari tanpa diblokir?
Tidak ada angka aman yang pasti karena LinkedIn menilai perilaku sesi, bukan hanya volume. Laporan komunitas menunjukkan bahwa di bawah 50 profil/hari/akun adalah zona risiko lebih rendah, 50–100/hari adalah risiko menengah di mana kualitas infrastruktur penting, dan di atas 100/hari menjadi semakin agresif. Jeda acak 5–15 detik dan residential proxy membantu, tetapi tidak ada yang sepenuhnya menghilangkan risiko.
Apakah ada alternatif no-code untuk proyek LinkedIn scraper GitHub?
Ada. memungkinkan Anda scraping halaman LinkedIn dalam beberapa klik dengan deteksi field berbasis AI, autentikasi berbasis browser (tanpa perlu konfigurasi proxy), dan ekspor sekali klik ke Excel, Google Sheets, Airtable, atau Notion. Ini dirancang untuk tim sales, recruiting, dan operasional yang ingin mendapatkan data tanpa harus memelihara kode. Anda bisa mencobanya lewat .
Apakah scraping data LinkedIn legal?
Ini area abu-abu dengan batas yang makin tegas. User Agreement LinkedIn secara eksplisit melarang scraping, dan LinkedIn telah menempuh jalur hukum terhadap scraper pada . Preseden hiQ v. LinkedIn tentang akses data publik telah dipersempit oleh putusan yang lebih baru. GDPR berlaku untuk data pribadi penduduk UE terlepas dari cara pengumpulannya. Untuk kasus penggunaan komersial apa pun, mintalah nasihat hukum yang spesifik untuk situasi Anda.
Ekstraksi AI atau CSS selector — mana yang sebaiknya saya pakai untuk scraping LinkedIn?
CSS selector lebih cepat dan lebih murah per catatan saat berfungsi, tetapi ia menciptakan treadmill pemeliharaan karena LinkedIn sering mengubah DOM-nya. Ekstraksi AI/LLM sedikit lebih mahal per profil (~$0,001–$0,002 pada tarif saat ini) tetapi menyesuaikan diri dengan perubahan layout secara otomatis. Untuk sebagian besar pengguna non-enterprise yang men-scrape ratusan, bukan jutaan, profil, ekstraksi AI adalah investasi jangka panjang yang lebih baik. Mesin AI bawaan Thunderbit menawarkan keuntungan ini tanpa mengharuskan Anda menulis atau memelihara kode apa pun.
Pelajari Lebih Lanjut
