LinkedIn Scraper GitHub: Mana yang Berfungsi di 2026 (dan Mana yang Tidak)

Pencarian GitHub untuk "linkedin scraper" menghasilkan sekitar per April 2026. Sebagian besar hanya akan menghabiskan waktu Anda. Kedengarannya keras? Mungkin. Tapi itu kesimpulan saya setelah mengaudit delapan repo yang paling menonjol, membaca puluhan thread issue di GitHub, lalu membandingkannya dengan laporan komunitas dari Reddit dan forum scraping. Polanya berulang: repo dengan bintang tinggi menarik perhatian, tim anti-bot LinkedIn mempelajari kodenya, deteksi diperbarui, lalu pengguna berakhir dengan selector yang rusak, loop CAPTCHA, atau bahkan akun yang diblokir. Seorang pengguna Reddit menggambarkan situasinya secara blak-blakan — LinkedIn sudah menambah "pembatasan laju yang lebih ketat, deteksi bot yang lebih baik, pelacakan sesi, dan perubahan yang sering," dan alat lama sekarang "cepat rusak atau membuat akun/IP ditandai." Kalau Anda sales rep, recruiter, atau manajer operasional yang cuma ingin data LinkedIn masuk ke spreadsheet, repo yang Anda kloning bulan lalu bisa jadi sudah mati. Panduan ini dibuat untuk membantu Anda menilai proyek GitHub mana yang masih layak dicoba, bagaimana menghindari akun Anda ikut kena dampak, dan kapan lebih masuk akal untuk tidak memakai kode sama sekali.

Apa Itu LinkedIn Scraper di GitHub?

Proyek LinkedIn scraper GitHub adalah skrip open-source — biasanya Python, kadang Node.js — yang mengotomatiskan ekstraksi data terstruktur dari halaman LinkedIn. Target yang umum meliputi:

Profil orang: nama, headline, perusahaan, lokasi, keahlian, pengalaman
Lowongan kerja: judul, perusahaan, lokasi, tanggal posting, URL lowongan
Halaman perusahaan: ringkasan, jumlah karyawan, industri, jumlah pengikut
Posting dan engagement: teks konten, suka, komentar, berbagi

Di balik layar, sebagian besar repo memakai salah satu dari dua pendekatan. Scraper berbasis browser mengandalkan Selenium, Playwright, atau Puppeteer untuk merender halaman, mengklik alur kerja, dan mengekstrak data lewat CSS selector atau XPath. Sebagian kecil mencoba memanggil endpoint API internal LinkedIn yang tidak didokumentasikan secara langsung. Dan gelombang yang lebih baru — masih jarang di GitHub, tetapi terus bertumbuh — menggabungkan otomatisasi browser dengan LLM seperti GPT-4o mini untuk mengubah teks halaman menjadi field terstruktur tanpa selector yang rapuh.

Ada ketidakcocokan audiens yang mendasar. Alat-alat ini dibangun oleh developer yang nyaman dengan virtual environment, dependensi browser, dan konfigurasi proxy. Tetapi banyak orang yang mencari "linkedin scraper github" adalah recruiter, SDR, manajer RevOps, dan founder yang hanya ingin baris-baris data di spreadsheet.

Kesenjangan itu menjelaskan sebagian besar frustrasi di thread issue.

Mengapa Orang Beralih ke GitHub untuk Scraping LinkedIn

Daya tariknya jelas. Gratis. Bisa dikustomisasi. Tanpa ketergantungan vendor. Kontrol penuh atas pipeline data Anda. Kalau alat SaaS mengubah harga atau berhenti beroperasi, kode Anda tetap ada.

Kasus Penggunaan	Siapa yang Membutuhkan	Data yang Biasanya Diambil
Pencarian lead	Tim sales	Nama, jabatan, perusahaan, URL profil, petunjuk email
Pencarian kandidat	Recruiter	Profil, keahlian, pengalaman, lokasi
Riset pasar	Tim operasional dan strategi	Data perusahaan, jumlah karyawan, lowongan kerja
Intelijen kompetitif	Tim marketing	Posting, engagement, pembaruan perusahaan, sinyal perekrutan

Tapi "gratis" itu cuma label lisensi, bukan biaya operasional. Biaya nyatanya adalah:

Waktu setup: bahkan repo yang ramah biasanya butuh 30 menit sampai lebih dari 2 jam untuk menyiapkan environment, dependensi browser, ekstraksi cookie, dan konfigurasi proxy
Pemeliharaan: LinkedIn sering mengubah DOM dan pertahanan anti-bot — scraper yang jalan hari ini bisa rusak minggu depan
Proxy: bandwidth residential proxy berkisar tergantung penyedia dan paket
Risiko akun: akun LinkedIn Anda adalah aset paling mahal yang dipertaruhkan, dan tidak bisa diganti seperti IP proxy

Skor Kesehatan Repo: Cara Mengevaluasi Proyek LinkedIn Scraper GitHub Apa Pun

Kebanyakan daftar "LinkedIn scraper terbaik" memberi peringkat repo berdasarkan jumlah bintang. Bintang mengukur minat historis, bukan fungsi saat ini. Repo dengan 3.000 bintang dan tanpa commit sejak 2022 itu artefak museum, bukan alat produksi.

Sebelum menjalankan git clone pada apa pun, gunakan kerangka ini:

Kriteria	Mengapa Penting	Tanda Bahaya
Tanggal commit terakhir	LinkedIn sering mengubah DOM	> 6 bulan lalu untuk repo berbasis browser
Rasio issue terbuka/tertutup	Responsivitas maintainer	Rasio terbuka-tertutup > 3:1, terutama jika ada laporan terbaru tentang "blocked" atau "CAPTCHA"
Fitur anti-deteksi	LinkedIn agresif memblokir	Tidak ada penyebutan cookie, sesi, pacing, atau proxy di README
Metode autentikasi	2FA dan CAPTCHA merusak alur login	Hanya mendukung login headless berbasis password
Jenis lisensi	Risiko hukum untuk penggunaan komersial	Tidak ada lisensi atau ketentuan yang ambigu
Jenis data yang didukung	Kasus penggunaan berbeda butuh repo berbeda	Hanya satu jenis data padahal Anda butuh beberapa

Trik yang paling menghemat waktu: sebelum benar-benar komit ke repo apa pun, cek tab Issues untuk kata "blocked," "banned," "CAPTCHA," atau "not working." Kalau issue terbaru penuh istilah-istilah itu dan maintainer-nya diam saja, lanjutkan. Repo itu sudah kalah.

Apa yang Sebenarnya Ditemukan Audit 2026

Saya menerapkan skor ini ke delapan repo LinkedIn scraper yang paling terlihat di GitHub. Hasilnya tidak menggembirakan.

Repo	Bintang	Commit Terakhir	Berfungsi di 2026?	Cakupan Utama	Catatan Kunci
joeyism/linkedin_scraper	~3.983	Apr 2026	✅ Dengan catatan	Profil, perusahaan, posting, pekerjaan	Rewrite berbasis Playwright, reuse sesi — tetapi issue terbaru menunjukkan blok keamanan dan pencarian kerja yang rusak
python-scrapy-playbook/linkedin-python-scrapy-scraper	~111	Jan 2026	✅ Untuk tutorial/data publik	Orang, perusahaan, pekerjaan	Integrasi proxy ScrapeOps; paket gratis memungkinkan 1.000 permintaan/bulan dengan 1 thread
spinlud/py-linkedin-jobs-scraper	~472	Mar 2025	⚠️ Hanya pekerjaan	Pekerjaan	Dukungan cookie, mode proxy eksperimental — berguna jika Anda hanya butuh daftar lowongan publik
madingess/EasyApplyBot	~170	Mar 2025	⚠️ Alat yang salah	Otomatisasi Easy Apply	Bukan scraper data — mengotomatiskan lamaran kerja
linkedtales/scrapedin	~611	May 2021	❌	Profil	README masih bilang "working in 2020"; issue menunjukkan verifikasi pin dan perubahan HTML
austinoboyle/scrape-linkedin-selenium	~526	Oct 2022	❌	Profil, perusahaan	Dulu berguna, kini terlalu usang untuk 2026
eilonmore/linkedin-private-api	~291	Jul 2022	❌	Profil, pekerjaan, perusahaan, posting	Pembungkus private API; endpoint yang tidak didokumentasikan berubah secara tak terduga
nsandman/linkedin-api	~154	Jul 2019	❌	Profil, pesan, pencarian	Menarik secara historis; mendokumentasikan pembatasan laju setelah sekitar 900 permintaan/jam

Hanya 2 dari 8 repo yang tampak benar-benar bisa dipakai bagi pembaca 2026 tanpa banyak catatan. Rasio seperti itu tidak aneh — memang begitulah kenyataannya untuk scraping LinkedIn di GitHub.

Playbook Pencegahan Ban: Proxy, Rate Limit, dan Keamanan Akun

Pemblokiran akun adalah risiko operasional terbesar. Bahkan scraper yang secara teknis rapi pun sering gagal di sini. Kodenya jalan; akunnya tidak. Pengguna melaporkan kena flag setelah hanya meski memakai proxy dan jeda yang panjang.

Pembatasan Laju: Apa yang Dilaporkan Komunitas

Tidak ada angka aman yang benar-benar pasti. LinkedIn menilai usia sesi, timing klik, pola burst, reputasi IP, dan perilaku akun — bukan sekadar volume mentah. Data komunitas mengarah ke kisaran berikut:

Seorang pengguna melaporkan terdeteksi setelah 40–80 profil dengan proxy dan pacing 33 detik
Pengguna lain menyarankan tetap di sekitar 30 profil/hari/akun
Operator yang lebih agresif mengklaim yang disebar sepanjang hari
mendokumentasikan peringatan rate-limit internal setelah sekitar 900 permintaan dalam satu jam

Ringkasnya: di bawah 50 tampilan profil/hari/akun itu zona risiko yang lebih rendah. 50–100/hari masuk risiko menengah, dan kualitas sesi mulai jadi sangat penting. Di atas 100/hari/akun sudah tergolong agresif.

Strategi Proxy: Residential vs Datacenter

Residential proxy tetap jadi standar untuk LinkedIn karena tampilannya mirip trafik pengguna normal. IP datacenter memang lebih murah, tapi lebih cepat ditandai di situs yang canggih — dan LinkedIn termasuk jenis situs yang sangat peka terhadap trafik murah.

Konteks harga saat ini:

: $3,00–$4,00/GB tergantung paket
: $4,00–$6,00/GB tergantung paket

Rotasikan per sesi, bukan per permintaan. Rotasi per permintaan justru menciptakan sidik jari yang lebih jelas, seperti berteriak "ini infrastruktur proxy" daripada IP mana pun.

Protokol Akun Cadangan

Saran komunitas cukup tegas soal ini: jangan perlakukan akun LinkedIn utama Anda sebagai infrastruktur scraping sekali pakai.

Kalau Anda tetap ingin scraping berbasis akun:

Gunakan akun terpisah dari identitas profesional utama Anda
Lengkapi profil sepenuhnya dan biarkan berperilaku seperti manusia selama beberapa hari sebelum scraping
Jangan pernah mengaitkan nomor ponsel asli Anda ke akun scraping
Pisahkan sesi scraping sepenuhnya dari outreach dan messaging yang nyata

Perlu dicatat: LinkedIn (berlaku sejak 3 November 2025) secara eksplisit melarang identitas palsu dan berbagi akun. Taktik akun cadangan memang umum secara operasional, tetapi rumit secara kontraktual.

Menangani CAPTCHA

CAPTCHA bukan sekadar gangguan. Itu sinyal bahwa sesi Anda sedang diawasi. Opsi yang ada meliputi:

Menyelesaikannya secara manual untuk melanjutkan sesi
Menggunakan ulang cookie alih-alih menjalankan login berulang
Layanan solver seperti (~$0,50–$1,00 per 1.000 CAPTCHA gambar, ~$1,00–$2,99 per 1.000 penyelesaian reCAPTCHA v2)

Tapi kalau alur kerja Anda terus-menerus memicu CAPTCHA, biaya layanan solver adalah masalah terkecil Anda. Stack Anda sedang kalah dalam perang stealth.

Spektrum Risiko

Volume	Tingkat Risiko	Pendekatan yang Disarankan
< 50 profil/hari	Lebih rendah	Sesi browser atau reuse cookie, pacing lambat, tanpa otomatisasi agresif
50–500 profil/hari	Menengah hingga tinggi	Residential proxy, akun yang sudah "warm", reuse sesi, jeda acak
500+/hari	Sangat tinggi	API komersial atau tool yang dipelihara dengan anti-deteksi bawaan; repo GitHub publik saja biasanya tidak cukup

Paradoks Open Source: Mengapa Repo LinkedIn Scraper GitHub yang Populer Lebih Cepat Rusak

Pengguna mengajukan kekhawatiran yang masuk akal: "Membuat versi open-source berarti LinkedIn bisa melihat apa yang Anda lakukan dan mencegahnya." Kekhawatiran itu bukan paranoia. Secara struktural, itu benar.

Masalah Visibilitas

Jumlah bintang yang tinggi menciptakan dua sinyal sekaligus: kepercayaan bagi pengguna dan target bagi tim keamanan LinkedIn. Semakin populer sebuah repo, semakin besar kemungkinan LinkedIn sengaja menutup metode yang dipakai.

Anda bisa melihat siklus ini dalam data audit. linkedtales/scrapedin dulu cukup menonjol untuk mengiklankan bahwa ia bekerja dengan "website baru" LinkedIn pada 2020. Tapi repo itu tidak mengikuti perubahan verifikasi dan tata letak berikutnya. nsandman/linkedin-api dulu mendokumentasikan trik yang berguna, tetapi commit terakhirnya bertahun-tahun sebelum lingkungan anti-bot saat ini.

Keunggulan Patch dari Komunitas

Open source tetap punya satu keuntungan nyata: maintainer dan kontributor yang aktif bisa cepat menambal saat LinkedIn mengubah pertahanan. joeyism/linkedin_scraper adalah contoh utama dari audit ini — masih memunculkan issue auth yang diblokir dan pencarian yang rusak, tetapi setidaknya masih bergerak. Fork sering mengadopsi teknik evasi yang lebih baru lebih cepat daripada repo aslinya.

Apa yang Sebaiknya Dilakukan

Jangan mengandalkan satu repo publik sebagai infrastruktur permanen
Perhatikan fork aktif yang menerapkan teknik evasi yang diperbarui
Pertimbangkan memelihara private fork untuk penggunaan produksi (agar adaptasi spesifik Anda tidak publik)
Bersiaplah mengganti metode saat LinkedIn mengubah deteksi atau perilaku UI
Diversifikasikan pendekatan, jangan bertaruh semuanya pada satu alat

Ekstraksi Berbasis AI vs CSS Selector: Perbandingan Praktis

Pemisahan teknis yang lebih menarik di 2026 bukan GitHub versus no-code. Melainkan ekstraksi berbasis selector versus ekstraksi semantik — dan bedanya jauh lebih penting daripada yang diakui banyak ringkasan.

Cara Kerja CSS Selector (dan Kenapa Gagal)

Scraper tradisional membaca DOM LinkedIn dan memetakan setiap field ke CSS selector atau ekspresi XPath. Kalau struktur halaman stabil, pendekatan ini sangat bagus: presisi tinggi, biaya marjinal rendah, parsing sangat cepat.

Mode gagalnya juga sangat jelas. LinkedIn mengubah nama class, nesting, perilaku lazy-loading, atau mengunci konten di balik auth wall yang berbeda — lalu scraper langsung rusak. Judul-judul issue dalam audit repo menceritakan hal itu: "changed HTML," "broken job search," "missing values," "authwall blocks."

Cara Kerja Ekstraksi AI/LLM

Pola yang lebih baru lebih sederhana secara konsep: render halaman, ambil teks yang terlihat, lalu minta model menghasilkan field terstruktur. Itulah logika di balik banyak AI scraper no-code dan beberapa alur kerja kustom yang lebih baru.

Dengan harga saat ini ($0,15/1M token input, $0,60/1M token output), satu kali ekstraksi berbasis teks untuk satu profil biasanya berbiaya $0,0006–$0,0018 per profil. Itu terlalu kecil untuk jadi masalah dalam workflow volume menengah.

Perbandingan Head-to-Head

Dimensi	CSS Selector / XPath	Ekstraksi AI/LLM
Upaya setup	Tinggi — periksa DOM, tulis selector untuk tiap field	Rendah — jelaskan output yang diinginkan dalam bahasa alami
Kerusakan saat layout berubah	Langsung rusak	Beradaptasi otomatis (membaca secara semantik)
Akurasi pada field terstruktur	~99% jika selector benar	~95–98% (kadang ada kesalahan interpretasi LLM)
Menangani data tak terstruktur/variabel	Lemah tanpa logika kustom	Kuat — AI memahami konteks
Biaya per profil	Hampir nol (hanya komputasi)	~$0,001–$0,002 (biaya token API)
Pelabelan/kategorisasi	Memerlukan pemrosesan pasca terpisah	Bisa mengategorikan, menerjemahkan, melabeli dalam satu kali proses
Beban pemeliharaan	Perbaikan selector berkelanjutan	Hampir nol

Mana yang Harus Dipilih?

Untuk pipeline yang sangat besar, stabil, dan dimiliki tim engineering, parsing berbasis selector masih bisa unggul dari sisi biaya. Untuk sebagian besar pengguna skala kecil dan menengah yang men-scrape ratusan, bukan jutaan, profil, ekstraksi AI adalah investasi jangka panjang yang lebih baik karena perubahan layout LinkedIn menghabiskan waktu developer lebih mahal daripada token model yang Anda hemat.

Kapan Repo GitHub Itu Berlebihan: Jalur No-Code

Kebanyakan orang yang mencari "linkedin scraper github" tidak ingin menjadi pemelihara otomatisasi browser.

Mereka cuma ingin baris-baris di tabel.

Pengguna secara eksplisit mengeluhkan kegunaan scraper GitHub di thread issue: "It does not handle 2FA and it is not easy to use since there is no UI." Audiensnya mencakup recruiter, SDR, dan manajer operasional — bukan hanya developer Python.

Keputusan Build vs Buy

Faktor	Repo GitHub	Alat No-Code (mis. Thunderbit)
Waktu setup	30 menit–2+ jam (Python, dependensi, proxy)	Di bawah 2 menit (pasang ekstensi, klik)
Pemeliharaan	Anda yang memperbaiki saat LinkedIn berubah	Penyedia alat menangani pembaruan
Anti-deteksi	Anda mengonfigurasi proxy, delay, sesi	Sudah tertanam di alat
Struktur data	Anda menulis logika parsing	AI menyarankan field secara otomatis
Opsi ekspor	Anda membangun pipeline ekspor	Sekali klik ke Excel, Google Sheets, Airtable, Notion
Biaya	Repo gratis + biaya proxy + waktu Anda	Tersedia paket gratis; berbasis kredit untuk volume

Cara Thunderbit Menangani Scraping LinkedIn Tanpa Kode

menangani masalah ini dengan cara yang berbeda dari repo GitHub. Alih-alih menulis selector atau mengatur otomatisasi browser, Anda:

Pasang
Buka halaman LinkedIn apa pun (hasil pencarian, profil, halaman perusahaan)
Klik "AI Suggest Fields" — AI Thunderbit membaca halaman dan menyarankan kolom terstruktur (nama, jabatan, perusahaan, lokasi, dll.)
Sesuaikan kolom jika perlu, lalu klik untuk mengekstrak
Ekspor langsung ke Excel, Google Sheets, , atau Notion

Karena Thunderbit memakai AI untuk membaca halaman secara semantik setiap kali, alat ini tidak rusak ketika LinkedIn mengubah DOM-nya. Itu keunggulan yang sama seperti pendekatan terintegrasi GPT dalam skrip Python kustom, tetapi dikemas dalam ekstensi no-code alih-alih codebase yang harus Anda pelihara.

Untuk — mengklik profil individual dari daftar hasil pencarian untuk memperkaya tabel data Anda — Thunderbit menanganinya secara otomatis. Mode browser berfungsi untuk halaman yang memerlukan login tanpa konfigurasi proxy terpisah.

Siapa yang Masih Sebaiknya Memakai Repo GitHub?

Repo GitHub masih masuk akal untuk:

Developer yang butuh kustomisasi mendalam atau jenis data yang tidak biasa
Tim yang melakukan scraping dalam volume sangat tinggi sehingga biaya per kredit menjadi penting
Pengguna yang perlu menjalankan scraping di pipeline CI/CD atau di server
Orang yang membangun data LinkedIn ke dalam workflow otomatis yang lebih besar

Untuk yang lain — terutama tim sales, recruiting, dan operasional — menghilangkan seluruh siklus setup dan maintenance.

Langkah demi Langkah: Cara Mengevaluasi dan Menggunakan LinkedIn Scraper dari GitHub

Kalau Anda memutuskan GitHub adalah jalur yang tepat, berikut workflow bertahap untuk meminimalkan waktu terbuang dan risiko akun.

Langkah 1: Cari dan Pilih Repo Terbaik

Cari GitHub untuk "linkedin scraper" dan filter berdasarkan:

Baru diperbarui (6 bulan terakhir)
Bahasa yang cocok dengan stack Anda (Python paling umum)
Cakupan yang sesuai kebutuhan aktual Anda (profil vs pekerjaan vs perusahaan)

Pilih 3–5 repo yang terlihat masih hidup.

Langkah 2: Terapkan Skor Kesehatan Repo

Jalankan setiap repo melalui skor yang dijelaskan sebelumnya. Singkirkan apa pun dengan:

Tidak ada commit dalam setahun terakhir
Issue "blocked" atau "CAPTCHA" yang belum terselesaikan
Autentikasi hanya berbasis password
Tidak ada penyebutan sesi, cookie, atau proxy

Langkah 3: Siapkan Environment Anda

Perintah setup umum dari repo yang saya audit:

1pip install linkedin-scraper
2playwright install chromium
3pip install linkedin-jobs-scraper
4LI_AT_COOKIE=<cookie> python your_app.py
5scrapy crawl linkedin_people_profile

Titik gesek yang sering muncul:

File session.json yang hilang
Ketidakcocokan versi browser driver (Chromium/Playwright)
Ekstraksi cookie dari DevTools browser
Timeout autentikasi proxy

Langkah 4: Jalankan Scrape Kecil untuk Uji Coba

Mulailah dengan 10–20 profil. Periksa:

Apakah field di-parse dengan benar?
Apakah datanya lengkap?
Apakah Anda kena checkpoint keamanan?
Apakah format output bisa dipakai atau cuma noise JSON mentah?

Langkah 5: Skalakan dengan Hati-Hati

Tambahkan jeda acak (5–15 detik antar permintaan), kurangi concurrency, reuse sesi, dan gunakan residential proxy. Jangan langsung lompat ke ratusan profil/hari pada akun baru.

Langkah 6: Ekspor dan Strukturkan Data Anda

Kebanyakan repo GitHub menghasilkan JSON mentah atau CSV. Anda masih perlu:

Menghapus duplikasi data
Menormalkan jabatan dan nama perusahaan
Memetakan field ke CRM atau ATS Anda
Mendokumentasikan asal data untuk kepatuhan

(Thunderbit menangani struktur dan ekspor secara otomatis jika Anda lebih suka melewati langkah ini.)

LinkedIn Scraper GitHub vs. Alat No-Code: Perbandingan Lengkap

Dimensi	Repo GitHub (CSS Selector)	Repo GitHub (AI/LLM)	Alat No-Code (Thunderbit)
Waktu setup	1–2+ jam	1–3+ jam (+ API key)	Di bawah 2 menit
Keahlian teknis	Tinggi (Python, CLI)	Tinggi (Python + API LLM)	Tidak perlu
Pemeliharaan	Tinggi (selector mudah rusak)	Menengah (LLM beradaptasi, kode tetap perlu diperbarui)	Tidak ada (ditangani penyedia)
Anti-deteksi	DIY (proxy, delay)	DIY	Bawaan
Akurasi	Tinggi saat berfungsi	Tinggi dengan sesekali kesalahan LLM	Tinggi (berbasis AI)
Biaya	Gratis + biaya proxy + waktu Anda	Gratis + biaya API LLM + biaya proxy	Paket gratis; berbasis kredit untuk volume
Ekspor	DIY (JSON, CSV)	DIY	Excel, Sheets, Airtable, Notion
Paling cocok untuk	Developer, pipeline kustom	Developer yang ingin pemeliharaan lebih rendah	Tim sales, recruiting, operasional

Pertimbangan Hukum dan Etika

Saya akan singkat saja di bagian ini, tapi bagian ini tidak boleh dilewati.

LinkedIn (berlaku sejak 3 November 2025) secara eksplisit melarang penggunaan software, skrip, robot, crawler, atau plugin browser untuk scraping layanan. LinkedIn juga menegakkan ini lewat langkah hukum:

: LinkedIn mengumumkan tindakan hukum terhadap Proxycurl
: LinkedIn menyatakan kasus itu telah diselesaikan
: Law360 melaporkan bahwa LinkedIn menggugat terdakwa tambahan atas dugaan scraping berskala industri

Rangkaian kasus hiQ v. LinkedIn menciptakan nuansa tertentu soal akses data publik, tetapi lebih berpihak pada LinkedIn berdasarkan teori pelanggaran kontrak. "Terlihat publik" tidak berarti "aman untuk di-scrape dalam skala besar untuk penggunaan ulang komersial."

Untuk workflow yang terkait UE, . oleh otoritas data Prancis adalah contoh konkret regulator memperlakukan data LinkedIn hasil scraping sebagai data pribadi yang tunduk pada aturan perlindungan data.

Menggunakan alat yang dipelihara seperti Thunderbit tidak mengubah kewajiban hukum Anda. Tetapi itu mengurangi risiko tanpa sengaja memicu respons keamanan atau melanggar rate limit dengan cara yang menarik perhatian LinkedIn.

Apa yang Berfungsi dan Apa yang Tidak di 2026

Yang Berfungsi

Menerapkan Skor Kesehatan Repo sebelum berkomitmen ke repo apa pun
Reuse cookie/sesi alih-alih login otomatis berulang
Residential proxy saat Anda harus menjalankan scraping berbasis akun
Workflow scraping yang lebih kecil, lebih lambat, dan mirip manusia
Ekstraksi berbantuan AI saat Anda lebih menghargai adaptabilitas daripada biaya token marjinal
saat kebutuhan sebenarnya adalah output spreadsheet, bukan kepemilikan scraper
Mendiferensiasikan pendekatan daripada bertaruh pada satu repo publik

Yang Tidak Berfungsi

Kloning repo bintang tinggi tanpa memeriksa status pemeliharaan atau issue terbaru
Menggunakan datacenter proxy atau daftar proxy gratis untuk LinkedIn
Menskalakan ke ratusan profil/hari tanpa rate limit atau anti-deteksi
Mengandalkan CSS selector dalam jangka panjang tanpa rencana pemeliharaan
Memperlakukan akun LinkedIn asli Anda sebagai infrastruktur sekali pakai
Mengira "dapat diakses publik" sama dengan "tidak bermasalah secara kontraktual atau hukum"

FAQ

Apakah repo GitHub LinkedIn scraper masih berfungsi di 2026?

Sebagian masih, tetapi hanya sebagian kecil. Dalam audit ini terhadap delapan repo yang terlihat, hanya dua yang tampak benar-benar layak dipakai bagi pembaca 2026 tanpa banyak penafian. Kuncinya adalah menilai repo berdasarkan aktivitas pemeliharaan dan kesehatan issue, bukan jumlah bintang. Gunakan Skor Kesehatan Repo sebelum menghabiskan waktu setup di proyek apa pun.

Berapa banyak profil LinkedIn yang bisa saya scrape per hari tanpa diblokir?

Tidak ada angka aman yang pasti karena LinkedIn menilai perilaku sesi, bukan hanya volume. Laporan komunitas menunjukkan bahwa di bawah 50 profil/hari/akun adalah zona risiko lebih rendah, 50–100/hari adalah risiko menengah di mana kualitas infrastruktur penting, dan di atas 100/hari menjadi semakin agresif. Jeda acak 5–15 detik dan residential proxy membantu, tetapi tidak ada yang sepenuhnya menghilangkan risiko.

Apakah ada alternatif no-code untuk proyek LinkedIn scraper GitHub?

Ada. memungkinkan Anda scraping halaman LinkedIn dalam beberapa klik dengan deteksi field berbasis AI, autentikasi berbasis browser (tanpa perlu konfigurasi proxy), dan ekspor sekali klik ke Excel, Google Sheets, Airtable, atau Notion. Ini dirancang untuk tim sales, recruiting, dan operasional yang ingin mendapatkan data tanpa harus memelihara kode. Anda bisa mencobanya lewat .

Apakah scraping data LinkedIn legal?

Ini area abu-abu dengan batas yang makin tegas. User Agreement LinkedIn secara eksplisit melarang scraping, dan LinkedIn telah menempuh jalur hukum terhadap scraper pada . Preseden hiQ v. LinkedIn tentang akses data publik telah dipersempit oleh putusan yang lebih baru. GDPR berlaku untuk data pribadi penduduk UE terlepas dari cara pengumpulannya. Untuk kasus penggunaan komersial apa pun, mintalah nasihat hukum yang spesifik untuk situasi Anda.

Ekstraksi AI atau CSS selector — mana yang sebaiknya saya pakai untuk scraping LinkedIn?

CSS selector lebih cepat dan lebih murah per catatan saat berfungsi, tetapi ia menciptakan treadmill pemeliharaan karena LinkedIn sering mengubah DOM-nya. Ekstraksi AI/LLM sedikit lebih mahal per profil (~$0,001–$0,002 pada tarif saat ini) tetapi menyesuaikan diri dengan perubahan layout secara otomatis. Untuk sebagian besar pengguna non-enterprise yang men-scrape ratusan, bukan jutaan, profil, ekstraksi AI adalah investasi jangka panjang yang lebih baik. Mesin AI bawaan Thunderbit menawarkan keuntungan ini tanpa mengharuskan Anda menulis atau memelihara kode apa pun.

Pelajari Lebih Lanjut

LinkedIn Scraper GitHub: Mana yang Berfungsi di 2026 (dan Mana yang Tidak)

Butuh data web khusus?

Coba Thunderbit