GitHub-haku sanalla "linkedin scraper" palauttaa huhtikuussa 2026 noin . Suurin osa niistä on silkkaa ajan hukkaa. Kova väite? Ehkä. Mutta juuri siihen tulin, kun kävin läpi kahdeksan näkyvintä repositoriota, luin kymmeniä GitHub issue -ketjuja ja vertasin havaintoja Redditin ja scraping-foorumien yhteisöraportteihin. Kaava toistuu: paljon tähtiä keräävät repositoriot saavat huomiota, LinkedInin anti-bot-tiimi tarkastelee koodia, tunnistus paikataan, ja käyttäjät jäävät rikkinäisten selektoreiden, CAPTCHA-silmukoiden tai suorien tilikieltojen kanssa. Eräs Reddit-käyttäjä kuvasi tilanteen suoraan — LinkedIn on lisännyt "tiukemmat rate limitit, paremman bottitunnistuksen, session-seurannan ja usein muuttuvat käytännöt", ja vanhat työkalut "hajoavat nopeasti tai saavat tilit/IP:t liputetuksi". Jos olet myyntiedustaja, rekrytoija tai ops-päällikkö ja etsit LinkedIn-dataa taulukkoon, viime kuussa kloonaamasi repo voi olla jo kuollut. Tämä opas auttaa selvittämään, mitkä GitHub-projektit ovat oikeasti aikasi arvoisia, miten vältät tilisi käräyttämisen ja milloin koko koodin voi jättää suosiolla väliin.
Mikä on LinkedIn Scraper GitHubissa?
LinkedIn scraper GitHub -projekti on avoimen lähdekoodin skripti — yleensä Pythonilla, joskus Node.js:llä — joka automatisoi rakenteisen datan poimimisen LinkedIn-sivuilta. Tyypillisiä kohteita ovat:
- Profiilit: nimi, otsikko, yritys, sijainti, taidot, työkokemus
- Työpaikkailmoitukset: nimi, yritys, sijainti, julkaisupäivä, työpaikan URL
- Yrityssivut: yleiskuvaus, henkilöstömäärä, toimiala, seuraajamäärä
- Julkaisut ja sitoutuminen: tekstisisältö, tykkäykset, kommentit, jaot
Konepellin alla useimmat repositoriot käyttävät yhtä kahdesta lähestymistavasta. Selaimeen perustuvat scraperit nojaavat Seleniumiin, Playwrightiin tai Puppeteeriin sivujen renderöintiä, läpiklikkausta ja datan poimintaa varten CSS-selektoreilla tai XPathilla. Pienempi joukko yrittää kutsua LinkedInin sisäisiä, dokumentoimattomia API-päätepisteitä suoraan. Ja uudempi aalto — GitHubissa yhä harvinainen, mutta kasvussa — yhdistää selainautomaation LLM:ään, kuten GPT-4o miniin, jotta sivun teksti voidaan muuntaa rakenteisiksi kentiksi ilman hauraita selektoreita.
Tässä on perustavanlaatuinen kohdeyleisön epäsuhta. Nämä työkalut on rakennettu kehittäjille, joille virtuaaliympäristöt, selainriippuvuudet ja proxyjen konfigurointi ovat arkipäivää. Mutta iso osa niistä ihmisistä, jotka hakevat "linkedin scraper github", on rekrytoijia, SDR:iä, RevOps-päälliköitä ja perustajia, jotka haluavat vain rivejä taulukkoon.
Se kuilu selittää suurimman osan issue-ketjujen turhautumisesta.
Miksi ihmiset turvautuvat GitHubiin LinkedIn-scrapaukseen
Vetovoima on ilmeinen. Ilmainen. Muokattava. Ei toimittajalukkoa. Täysi kontrolli datavirtaan. Jos SaaS-työkalu muuttaa hinnoitteluaan tai sulkeutuu, koodisi on yhä olemassa.
| Käyttötapaus | Kuka sitä tarvitsee | Tyypillisesti poimittava data |
|---|---|---|
| Liidien generointi | Myyntitiimit | Nimet, tittelit, yritykset, profiili-URL:t, viitteet sähköpostista |
| Ehdokashaun lähteistäminen | Rekrytoijat | Profiilit, taidot, kokemus, sijainnit |
| Markkinatutkimus | Operaatio- ja strategiatiimit | Yritystiedot, henkilöstömäärä, työpaikkailmoitukset |
| Kilpailijaäly | Markkinointitiimit | Julkaisut, sitoutuminen, yrityspäivitykset, rekrytointisignaalit |
Mutta "ilmainen" on lisenssimerkintä, ei käyttökustannus. Todelliset kulut ovat:
- Asennusaika: jopa käyttäjäystävälliset repositoriot vaativat yleensä 30 minuutista yli kahteen tuntiin ympäristön asennusta, selainriippuvuuksia, evästeiden poimintaa ja proxy-konfigurointia
- Ylläpito: LinkedIn muuttaa DOMia ja anti-bot-suojaustaan säännöllisesti — tänään toimiva scraper voi hajota ensi viikolla
- Proxyt: residential-proxyjen kaista maksaa toimittajasta ja paketista riippuen
- Tiliriski: LinkedIn-tilisi on kallein asia, jonka panet alttiiksi, eikä sitä voi vaihtaa kuten proxy-IP:tä
Repojen terveyskortti: miten arvioit minkä tahansa LinkedIn scraper GitHub -projektin
Useimmat "paras LinkedIn scraper" -listat rankkaavat repoja tähtimäärän perusteella. Tähdet mittaavat historiallista kiinnostusta, eivät nykyistä toimivuutta. Repo, jolla on 3 000 tähteä mutta ei committeja vuoden 2022 jälkeen, on museonäyttely, ei tuotantotyökalu.
Ennen kuin suoritat git clone -komennon mihinkään, käytä tätä kehystä:
| Kriteeri | Miksi sillä on väliä | Hälytysmerkki |
|---|---|---|
| Viimeisin commit | LinkedIn muuttaa DOMia usein | Yli 6 kuukautta vanha browser-pohjaisissa repoissa |
| Avoimien/suljettujen issueiden suhde | Ylläpitäjän reagointikyky | Yli 3:1 avoimia suhteessa suljettuihin, erityisesti jos mukana on tuoreita "blocked"- tai "CAPTCHA"-raportteja |
| Anti-detection-ominaisuudet | LinkedIn bannaa aggressiivisesti | README:ssa ei mainintaa evästeistä, sessioista, pacingista tai proxystä |
| Tunnistautumistapa | 2FA ja CAPTCHA rikkovat kirjautumisen | Tukee vain salasanapohjaista headless-kirjautumista |
| Lisenssityyppi | Oikeudellinen riski kaupallisessa käytössä | Ei lisenssiä tai epäselvät ehdot |
| Tuetut datatyypit | Eri käyttötapauksiin tarvitaan eri repoja | Vain yksi datatyyppi, vaikka tarvitset useita |
Yksi tehokkaimmista kikoista säästää eniten aikaa: ennen kuin sitoudut mihinkään repoon, hae Issues-välilehdeltä sanoja "blocked", "banned", "CAPTCHA" tai "not working". Jos tuoreissa issueissa toistuvat nämä termit eikä ylläpitäjältä tule vastausta, siirry eteenpäin. Se repo on jo hävinnyt taistelun.
Mitä 2026-auditointi oikeasti paljasti

Sovelsin tätä kortistoa kahdeksaan näkyvimpään LinkedIn scraper -repoon GitHubissa. Tulokset eivät olleet rohkaisevia.
| Repo | Tähdet | Viimeisin commit | Toimii vuonna 2026? | Pääfokus | Keskeiset huomiot |
|---|---|---|---|---|---|
| joeyism/linkedin_scraper | ~3 983 | huhti 2026 | ✅ Varauksin | Profiilit, yritykset, julkaisut, työpaikat | Playwright-pohjainen uudelleenkirjoitus, session uudelleenkäyttö — mutta tuoreet issue-raportit näyttävät tietoturvalukkoja ja rikkinäistä työpaikkahakua |
| python-scrapy-playbook/linkedin-python-scrapy-scraper | ~111 | tammi 2026 | ✅ Tutoriaaleihin/julkiseen dataan | Ihmiset, yritykset, työpaikat | ScrapeOps-proxyintegraatio; ilmaisella paketilla 1 000 pyyntöä/kk ja 1 säie |
| spinlud/py-linkedin-jobs-scraper | ~472 | maalis 2025 | ⚠️ Vain työpaikat | Työpaikat | Evästetuki, kokeellinen proxy-tila — hyödyllinen, jos tarvitset vain julkiset työpaikkailmoitukset |
| madingess/EasyApplyBot | ~170 | maalis 2025 | ⚠️ Väärä työkalu | Easy Apply -automaatio | Ei data-scraper — automatisoi työhakemuksia |
| linkedtales/scrapedin | ~611 | touko 2021 | ❌ | Profiilit | README:ssa lukee yhä "working in 2020"; issueissa näkyy PIN-varmennuksen ja HTML-muutosten ongelmia |
| austinoboyle/scrape-linkedin-selenium | ~526 | loka 2022 | ❌ | Profiilit, yritykset | Aikoinaan hyödyllinen, nyt liian vanhentunut vuoteen 2026 |
| eilonmore/linkedin-private-api | ~291 | heinä 2022 | ❌ | Profiilit, työpaikat, yritykset, julkaisut | Private API -wrapper; dokumentoimattomat päätepisteet muuttuvat arvaamattomasti |
| nsandman/linkedin-api | ~154 | heinä 2019 | ❌ | Profiilit, viestit, haku | Historiallisesti kiinnostava; dokumentoitu rate limit -varoitus noin 900 pyynnön jälkeen tunnissa |
Vain 2/8 repoa näytti aidosti käyttökelpoiselta vuoden 2026 lukijalle ilman raskaita varauksia. Se suhdeluku ei ole poikkeus — se on LinkedIn-scrapauksen normaali tila GitHubissa.
Bannien ehkäisysuunnitelma: proxyt, rate limitit ja tiliturva
Tilikielto on suurin operatiivinen riski. Jopa teknisesti osaavat scraperit kompastuvat tähän. Koodi toimii; tili ei. Käyttäjät raportoivat liputuksia jo jälkeen, vaikka heillä oli proxyt ja pitkät viiveet.
Rate limiting: mitä yhteisö raportoi

Yhtä turvallista lukua ei ole. LinkedIn arvioi session ikää, klikkausten ajoitusta, piikkimalleja, IP:n mainetta ja tilin käyttäytymistä — ei pelkkää raakaa volyymia. Yhteisödata kasaantuu näihin haarukoihin:
- Yksi käyttäjä raportoi tunnistuksen 40–80 profiilin jälkeen, vaikka käytössä oli proxyt ja 33 sekunnin pacing
- Toinen neuvoi pysymään noin 30 profiilia/päivä/tili -tasolla
- Aggressiivisempi tekijä väitti saavansa hajautettuna koko päivälle
- dokumentoi sisäisen rate limit -varoituksen noin 900 pyynnön kohdalla yhdessä tunnissa
Käytännön yhteenveto: alle 50 profiilin katselua/päivä/tili on matalamman riskin alue. 50–100/päivä on keskiriskiä, jossa session laatu merkitsee paljon. Yli 100/päivä/tili on jo selvästi aggressiivista.
Proxy-strategia: residential vs. datacenter
Residential-proxyt ovat edelleen standardi LinkedInissä, koska ne muistuttavat tavallista loppukäyttäjän liikennettä. Datacenter-IP:t ovat halvempia, mutta kehittyneemmät sivustot liputtavat ne nopeammin — ja LinkedIn on juuri sellainen kehittynyt sivusto, jossa halpa liikenne huomataan.
Nykyinen hintahaarukka:
- : 3,00–4,00 $/GB paketista riippuen
- : 4,00–6,00 $/GB paketista riippuen
Kierrätä sessiokohtaisesti, ei pyyntökohtaisesti. Pyyntökohtainen kierrätys muodostaa sormenjäljen, joka huutaa "proxy-infrastruktuuri" kovempaa kuin mikään yksittäinen IP.
Poltettava tili -protokolla
Yhteisön ohje on tässä asiassa suorasanainen: älä käsittele pääasiallista LinkedIn-tiliäsi kertakäyttöisenä scraping-infrastruktuurina.
Jos silti haluat käyttää tiliin sidottua scrapingia:
- Käytä erillistä tiliä, joka ei ole ensisijainen ammatillinen identiteettisi
- Täydennä profiili kokonaan ja anna sen käyttäytyä kuin ihmisen useiden päivien ajan ennen scrapausta
- Älä koskaan liitä oikeaa puhelinnumeroasi scraping-tileihin
- Pidä scraping-sessionit täysin erillään oikeasta outreachista ja viestinnästä
Huomioitavaa: LinkedInin (voimaan 3.11.2025) kieltää nimenomaisesti väärät identiteetit ja tilien jakamisen. Poltettavan tilin taktiikka on operatiivisesti yleinen, mutta sopimuksellisesti sotkuinen.
CAPTCHA-tapausten käsittely
CAPTCHA ei ole vain ärsytys. Se on merkki siitä, että sessiosi on jo tarkkailun alla. Vaihtoehtoja ovat:
- Manuaalinen täyttö session jatkamiseksi
- Evästeiden uudelleenkäyttö kirjautumisvirran ajamisen sijaan
- Ratkaisupalvelut kuten (~0,50–1,00 $ / 1 000 kuvasisältöistä CAPTCHAa, ~1,00–2,99 $ / 1 000 reCAPTCHA v2 -ratkaisua)
Mutta jos työvirrassasi CAPTCHA laukeaa säännöllisesti, ratkaisupalvelujen hinta on pienin ongelmasi. Pino häviää stealth-taistelun.
Riskispektri
| Volyymi | Riskitaso | Suositeltava lähestymistapa |
|---|---|---|
| < 50 profiilia/päivä | Matalampi | Selainistunto tai evästeiden uudelleenkäyttö, hidas pacing, ei aggressiivista automaatiota |
| 50–500 profiilia/päivä | Keskitaso–korkea | Residential-proxyt, lämpimät tilit, session uudelleenkäyttö, satunnaistetut viiveet |
| 500+/päivä | Hyvin korkea | Kaupalliset API:t tai ylläpidetty työkalu, jossa on sisäänrakennettu anti-detection; pelkät julkiset GitHub-repot eivät yleensä riitä |
Avoimen lähdekoodin paradoksi: miksi suositut LinkedIn scraper GitHub -repositoriot hajoavat nopeammin
Käyttäjät esittävät täysin oikeutetun huolen: "Avoimen lähdekoodin version tekeminen tarkoittaa, että LinkedIn voi vain katsoa mitä teette ja estää sen." Se huoli ei ole vainoharhaista. Se on rakenteellisesti oikein.
Näkyvyysongelma
Suuri tähtimäärä tuottaa yhtä aikaa kaksi signaalia: luottamusta käyttäjille ja kohteen LinkedInin tietoturvatiimille. Mitä suositummaksi repo tulee, sitä todennäköisemmin LinkedIn kohdistaa sen menetelmiin vastatoimia.
Tämän elinkaaren näkee auditointidatassa. linkedtales/scrapedin oli aikanaan tarpeeksi merkittävä mainostaakseen toimivansa LinkedInin "uuden verkkosivun" kanssa vuonna 2020. Repo ei kuitenkaan pysynyt myöhempien varmennus- ja asettelumuutosten tahdissa. nsandman/linkedin-api dokumentoi aikanaan hyödyllisiä kikkoja, mutta sen viimeisin commit oli vuosia ennen nykyistä anti-bot-ympäristöä.
Yhteisön paikkausedun arvo
Avoimessa lähdekoodissa on silti yksi aito etu: aktiiviset ylläpitäjät ja kontribuuttorit voivat paikata muutokset nopeasti, kun LinkedIn muuttaa suojausta. joeyism/linkedin_scraper on tämän auditin pääesimerkki — se tuottaa yhä blocked-auth- ja rikkinäinen-haku -ongelmia, mutta se sentään elää. Forkit ottavat usein uudet kiertotekniikat käyttöön nopeammin kuin alkuperäinen repo.
Mitä asialle voi tehdä
- Älä nojaa yhteen julkiseen repoon pysyvänä infrastruktuurina
- Seuraa aktiivisia forkkeja, jotka toteuttavat päivitettyjä kiertotekniikoita
- Harkitse yksityisen forkin ylläpitämistä tuotantokäyttöä varten (jotta omat mukautuksesi eivät ole julkisia)
- Varaudu muuttamaan menetelmiä, kun LinkedIn muuttaa tunnistustaan tai käyttöliittymäkäyttäytymistään
- Monipuolista lähestymistapoja äläkä lyö kaikkea yhden työkalun varaan
AI-avusteinen poiminta vs. CSS-selektorit: käytännön vertailu

Vuonna 2026 kiinnostavin tekninen jako ei ole GitHub vs. no-code. Se on selektoripohjainen poiminta vs. semanttinen poiminta — ja ero merkitsee enemmän kuin useimmat listaukset myöntävät.
Miten CSS-selektorit toimivat (ja hajoavat)
Perinteiset scraperit tutkivat LinkedInin DOMia ja kartoittavat jokaisen kentän CSS-selektoriin tai XPath-ilmaukseen. Kun sivurakenne on vakaa, lähestymistapa on erinomainen: korkea tarkkuus, matala marginaalikustannus, erittäin nopea jäsennys.
Hajoamismoodi on yhtä ilmeinen. LinkedIn vaihtaa luokkien nimiä, sisäkkäisyyksiä, lazy-loading-käyttäytymistä tai piilottaa sisältöä eri autentikointiseinien taakse — ja scraper hajoaa heti. Repo-auditin issue-otsikot kertovat tarinan: "changed HTML", "broken job search", "missing values", "authwall blocks."
Miten AI/LLM-poiminta toimii
Uudempi malli on periaatteessa yksinkertaisempi: renderöi sivu, kerää näkyvä teksti, pyydä mallia palauttamaan rakenteiset kentät. Se on logiikka monen no-code AI scraperin ja joidenkin uusien omien työnkulkujen taustalla.
Nykyisellä (0,15 $/1M input-tokenia, 0,60 $/1M output-tokenia) pelkkä yhden profiilin tekstipohjainen poiminta maksaa tyypillisesti 0,0006–0,0018 $ per profiili. Se on niin pieni summa, ettei sillä ole käytännössä merkitystä keskitason volyymeissä.
Vertailu rinnakkain
| Ulottuvuus | CSS-selektori / XPath | AI/LLM-poiminta |
|---|---|---|
| Asennusvaiva | Korkea — tutki DOM, kirjoita selektorit kenttä kerrallaan | Matala — kuvaa haluttu tulos luonnollisella kielellä |
| Hajoaminen asettelumuutoksissa | Hajoaa heti | Mukautuu automaattisesti (lukee semantiikkaa) |
| Tarkkuus rakenteisissa kentissä | ~99 %, kun selektorit ovat oikein | ~95–98 % (satunnaisia LLM-tulkintavirheitä) |
| Rakenteettoman tai muuttuvan datan käsittely | Heikko ilman omaa logiikkaa | Vahva — AI tulkitsee kontekstin |
| Hinta per profiili | Lähes nolla (vain laskenta) | ~$0,001–$0,002 (API-tokenien kustannus) |
| Luokittelu / tagitus | Vaatii erillisen jälkikäsittelyn | Voi luokitella, kääntää ja tagittaa yhdellä ajolla |
| Ylläpitotaakka | Jatkuvat selektorikorjaukset | Lähes nolla |
Kumpi kannattaa valita?
Erittäin suurivolyymisissä, vakaissa ja oman tiimin ylläpitämissä putkissa selektoripohjainen jäsentäminen voi yhä voittaa kustannuksissa. Useimmille pienille ja keskisuurille käyttäjille, jotka scrapaavat satoja (ei miljoonia) profiileja, AI-poiminta on parempi pitkän aikavälin sijoitus, koska LinkedInin asettelumuutokset maksavat enemmän kehittäjäaikaa kuin mallin tokenit, jotka säästät.
Kun GitHub-repot ovat liioittelua: no-code-polku
Useimmat, jotka hakevat "linkedin scraper github", eivät halua ryhtyä selainautomaation ylläpitäjiksi.
He haluavat rivejä taulukkoon.
Käyttäjät valittavat GitHub-scraperien käytettävyydestä suoraan issueissa: "Se ei käsittele 2FA:ta eikä sitä ole helppo käyttää, koska käyttöliittymää ei ole." Kohdeyleisöön kuuluu rekrytoijia, SDR:iä ja ops-päälliköitä — ei vain Python-kehittäjiä.
Rakenna vs. osta -päätös
| Tekijä | GitHub-repo | No-code-työkalu (esim. Thunderbit) |
|---|---|---|
| Asennusaika | 30 min–yli 2 h (Python, riippuvuudet, proxyt) | Alle 2 min (asenna lisäosa, klikkaa) |
| Ylläpito | Korjaat itse, kun LinkedIn muuttuu | Työkalutoimittaja hoitaa päivitykset |
| Anti-detection | Konfiguroit proxyt, viiveet ja sessiot itse | Sisäänrakennettu työkaluun |
| Datan jäsentely | Kirjoitat itse parserilogiikan | AI ehdottaa kentät automaattisesti |
| Vientivaihtoehdot | Rakennat export-putken itse | Yhdellä klikkauksella Exceliin, Google Sheetsiin, Airtableen, Notioniin |
| Kustannus | Ilmainen repo + proxykustannukset + aikasi | Ilmainen taso; volyymiin perustuva krediittimalli |
Miten Thunderbit hoitaa LinkedIn-scrapauksen ilman koodia
lähestyy ongelmaa eri tavalla kuin GitHub-repot. Selektoreiden kirjoittamisen tai selainautomaation säätämisen sijaan:
- Asenna
- Siirry mille tahansa LinkedIn-sivulle (hakutulokset, profiili, yrityssivu)
- Klikkaa "AI Suggest Fields" — Thunderbitin AI lukee sivun ja ehdottaa rakenteisia sarakkeita (nimi, titteli, yritys, sijainti jne.)
- Säädä sarakkeita tarvittaessa ja klikkaa poimintaa
- Vie tiedot suoraan Exceliin, Google Sheetsiin, tai Notioniin
Koska Thunderbit käyttää AI:ta lukemaan sivun semanttisesti joka kerta, se ei hajoa, kun LinkedIn muuttaa DOMiaan. Se on sama etu kuin GPT-integroidussa lähestymistavassa omissa Python-skripteissä, mutta pakattuna no-code-laajennukseen koodipohjan sijaan, jota sinun pitäisi ylläpitää.
— kun klikkaat hakutuloslistasta yksittäisiin profiileihin ja rikastat tietotaulukkoasi — Thunderbit hoitaa sen automaattisesti. Selaintila toimii kirjautumista vaativilla sivuilla ilman erillistä proxy-konfiguraatiota.
Kenen kannattaa silti käyttää GitHub-repoa?
GitHub-repot ovat edelleen järkeviä:
- Kehittäjille, jotka tarvitsevat syvää räätälöintiä tai poikkeavia datatyyppejä
- Tiimeille, jotka scrapaavat hyvin suuria volyymejä ja joille krediittikohtaiset kustannukset merkitsevät
- Käyttäjille, jotka haluavat ajaa scrapingia CI/CD-putkissa tai palvelimilla
- Ihmisille, jotka rakentavat LinkedIn-dataa osaksi laajempia automaatiotyönkulkuja
Kaikille muille — erityisesti myynti-, rekrytointi- ja ops-tiimeille — poistaa koko asennus- ja ylläpitosyklin.
Vaihe vaiheelta: miten arvioit ja käytät LinkedIn-scraperia GitHubista
Jos olet päättänyt, että GitHub on oikea reitti, tässä on jaksotettu työnkulku, joka minimoi hukka-ajan ja tiliriskin.
Vaihe 1: hae ja tee lyhytlista repoista
Hae GitHubista "linkedin scraper" ja suodata:
- Viime aikoina päivitetyt (viimeiset 6 kuukautta)
- Kielsi, joka vastaa stackiasi (Python on yleisin)
- Rajaus, joka vastaa oikeaa tarvetta (profiilit vs. työpaikat vs. yritykset)
Tee lyhytlista 3–5 reposta, jotka näyttävät elossa olevilta.
Vaihe 2: sovella Repo Health Scorecardia
Aja jokainen repo aiemman kortiston läpi. Hylkää kaikki, joissa on:
- Ei committeja viimeisen vuoden aikana
- Ratkaisemattomia "blocked"- tai "CAPTCHA"-issueita
- Vain salasanaan perustuva tunnistautuminen
- Ei mainintaa sessioista, evästeistä tai proxystä
Vaihe 3: asenna ympäristö
Tämän auditin repoista tyypillisiä asennuskomentoja:
1pip install linkedin-scraper
2playwright install chromium
3pip install linkedin-jobs-scraper
4LI_AT_COOKIE=<cookie> python your_app.py
5scrapy crawl linkedin_people_profile
Toistuvat kitkakohdat:
- Puuttuvat
session.json-tiedostot - Selainajurin versiomismatchit (Chromium/Playwright)
- Evästeiden poiminta selaimen DevToolsista
- Proxy-authin timeoutit
Vaihe 4: aja pieni testiscrape
Aloita 10–20 profiililla. Tarkista:
- Parsittiinko kentät oikein?
- Onko data täydellistä?
- Törmäsitkö tietoturvaportteihin?
- Onko ulostulo käyttökelpoinen vai pelkkää raakaa JSON-roskaa?
Vaihe 5: skaalaa varovasti
Lisää satunnaistetut viiveet (5–15 sekuntia pyyntöjen välillä), laske rinnakkaisuutta, käytä session uudelleenkäyttöä ja residential-proxyja. Älä hyppää satoihin profiileihin päivässä uudella tilillä.
Vaihe 6: vie ja jäsennä data
Useimmat GitHub-repot tuottavat raakaa JSONia tai CSV:tä. Sinun täytyy silti:
- Poistaa duplikaatit
- Normalisoida tittelit ja yritysnimet
- Mappata kentät CRM:ään tai ATS:ään
- Dokumentoida datan alkuperä vaatimustenmukaisuutta varten
(Thunderbit hoitaa jäsentelyn ja viennin automaattisesti, jos haluat mieluummin skipata tämän vaiheen.)
LinkedIn scraper GitHub vs. no-code-työkalut: koko vertailu
| Ulottuvuus | GitHub-repo (CSS-selektorit) | GitHub-repo (AI/LLM) | No-code-työkalu (Thunderbit) |
|---|---|---|---|
| Asennusaika | 1–2+ tuntia | 1–3+ tuntia (+ API-avain) | Alle 2 minuuttia |
| Tekninen osaaminen | Korkea (Python, CLI) | Korkea (Python + LLM-API:t) | Ei lainkaan |
| Ylläpito | Korkea (selektorit hajoavat) | Keskitaso (LLM mukautuu, mutta koodi tarvitsee silti päivityksiä) | Ei lainkaan (toimittaja ylläpitää) |
| Anti-detection | Itse tehtävä (proxyt, viiveet) | Itse tehtävä | Sisäänrakennettu |
| Tarkkuus | Korkea, kun toimii | Korkea satunnaisilla LLM-virheillä | Korkea (AI-pohjainen) |
| Kustannus | Ilmainen + proxykustannukset + aikasi | Ilmainen + LLM API -kustannukset + proxykustannukset | Ilmainen taso; volyymiin perustuva krediittimalli |
| Vienti | Itse tehtävä (JSON, CSV) | Itse tehtävä | Excel, Sheets, Airtable, Notion |
| Paras kenelle | Kehittäjät, räätälöidyt putket | Kehittäjät, jotka haluavat vähemmän ylläpitoa | Myynti-, rekrytointi- ja ops-tiimit |
Oikeudelliset ja eettiset näkökohdat
Pidän tämän osion lyhyenä, mutta sitä ei voi ohittaa.
LinkedInin (voimaan 3.11.2025) kieltää nimenomaisesti ohjelmistojen, skriptien, bottien, crawlereiden tai selainlaajennusten käytön palvelun scrapaamiseen. LinkedIn on tukenut tätä valvonnalla:
- : LinkedIn ilmoitti oikeustoimista Proxycurlia vastaan
- : LinkedIn kertoi, että tapaus ratkaistiin
- : Law360 raportoi, että LinkedIn haastoi lisää vastaajia oikeuteen teollisen mittakaavan scrapauksesta
hiQ v. LinkedIn -tapaukset loivat jonkin verran sävyeroja julkisen datan käyttöön, mutta suosivat LinkedIniä sopimusrikkomukseen perustuvissa väitteissä. "Julkisesti näkyvä" ei tarkoita "selvästi turvallista scrapata laajassa mittakaavassa kaupalliseen uudelleenkäyttöön".
EU-kytkeytyvissä työnkuluissa . Ranskan tietosuojaviranomaiselta on konkreettinen esimerkki siitä, että sääntelijät pitävät scrapatun LinkedIn-datan käsittelyä henkilötietona, johon sovelletaan tietosuojasääntöjä.
Ylläpidetyn työkalun, kuten Thunderbitin, käyttö ei muuta lakisääteisiä velvollisuuksiasi. Mutta se vähentää riskiä laukaista vahingossa tietoturvatoimia tai ylittää rate limitejä tavoilla, jotka kiinnittävät LinkedInin huomion.
Mikä toimii ja mikä ei vuonna 2026
Mikä toimii
- Repo Health Scorecardin käyttäminen ennen sitoutumista mihinkään repoon
- Evästeiden/session uudelleenkäyttö toistuvan automaattisen kirjautumisen sijaan
- Residential-proxyt, kun tiliin sidottu scraping on pakko tehdä
- Pienemmät, hitaammat, ihmismäisemmän näköiset scraping-työnkulut
- AI-avusteinen poiminta, kun arvostat mukautuvuutta marginaalisen tokenkustannuksen sijaan
- , kun todellinen tarve on taulukkoedotus eikä scraperin omistaminen
- Lähestymistapojen hajauttaminen yhden julkisen repoon nojaamisen sijaan
Mikä ei toimi
- Suositun repon kloonaaminen tarkistamatta ylläpitotilaa tai tuoreita issueita
- Datacenter-proxyjen tai ilmaisten proxylistojen käyttäminen LinkedIniin
- Skaalaaminen satoihin profiileihin päivässä ilman rate limitejä tai anti-detectionia
- CSS-selektoreihin luottaminen pitkällä aikavälillä ilman ylläpitosuunnitelmaa
- Oman oikean LinkedIn-tilin käsitteleminen kertakäyttöisenä infrastruktuurina
- Sekaannus "julkisesti saatavilla" ja "sopimuksellisesti tai oikeudellisesti ongelmaton" välillä
UKK
Toimivatko LinkedIn scraper GitHub -repositoriot yhä vuonna 2026?
Jotkut toimivat, mutta vain pieni osa. Tässä kahdeksan näkyvän repoinnin auditissa vain kaksi näytti aidosti käyttökelpoiselta vuoden 2026 lukijalle ilman raskaita varauksia. Olennaista on arvioida repoja ylläpitotoiminnan ja issue-terveyden perusteella, ei tähtimäärän mukaan. Käytä Repo Health Scorecardia ennen kuin sijoitat asennusaikaa mihinkään projektiin.
Kuinka monta LinkedIn-profiilia voin scrapata päivässä ilman bannia?
Yhtä turvallista lukua ei ole, koska LinkedIn arvioi session käyttäytymistä, ei vain volyymia. Yhteisöraporttien mukaan alle 50 profiilia/päivä/tili on matalamman riskin alue, 50–100/päivä on keskiriskiä, jossa infrastruktuurin laatu merkitsee paljon, ja yli 100/päivä muuttuu yhä aggressiivisemmaksi. Satunnaistetut 5–15 sekunnin viiveet ja residential-proxyt auttavat, mutta mikään ei poista riskiä kokonaan.
Onko LinkedIn scraper GitHub -projektien vaihtoehtona no-code-ratkaisua?
Kyllä. antaa sinun scrapata LinkedIn-sivuja muutamalla klikkauksella AI-pohjaisella kenttätunnistuksella, selainpohjaisella kirjautumisella (proxy-konfiguraatiota ei tarvita) ja yhdellä klikkauksella Exceliin, Google Sheetsiin, Airtableen tai Notioniin. Se on suunniteltu myynti-, rekrytointi- ja ops-tiimeille, jotka haluavat dataa ilman koodin ylläpitoa. Voit kokeilla sitä kautta.
Onko LinkedIn-datan scrapaminen laillista?
Se on harmaa alue, jonka reunat terävöityvät koko ajan. LinkedInin User Agreement kieltää scrapaamisen nimenomaisesti, ja LinkedIn on ryhtynyt oikeustoimiin scrapereita vastaan . hiQ v. LinkedIn -ennakkotapaus julkiseen dataan on kaventunut tuoreemmissa ratkaisuissa. GDPR koskee EU-residenttien henkilötietoja riippumatta siitä, miten ne on kerätty. Kaikkiin kaupallisiin käyttötapauksiin kannattaa hankkia juuri omaan tilanteeseesi räätälöity lakineuvonta.
AI-poiminta vai CSS-selektorit — kumpaa minun pitäisi käyttää LinkedIn-scrapaukseen?
CSS-selektorit ovat nopeampia ja halvempia tietuetta kohti silloin, kun ne toimivat, mutta ne luovat ylläpidon juoksumaton, koska LinkedIn muuttaa DOMiaan säännöllisesti. AI/LLM-poiminta maksaa hieman enemmän profiilia kohti (~0,001–0,002 $ nykyisillä ), mutta mukautuu asettelumuutoksiin automaattisesti. Useimmille ei-enterprise-käyttäjille, jotka scrapaavat satoja eivätkä miljoonia profiileja, AI-poiminta on parempi pitkän aikavälin sijoitus. Thunderbitin sisäänrakennettu AI-moottori tarjoaa tämän edun ilman, että sinun tarvitsee kirjoittaa tai ylläpitää koodia.
Lisätietoja
