LinkedIn Scraper GitHub: Co funguje v roce 2026 (a co ne)

Vyhledávání na GitHubu pro výraz „linkedin scraper“ vrací k dubnu 2026 zhruba . Většina z nich vám ale spíš sebere čas. Drsné? Možná. Ale přesně to jsem zjistil po auditu osmi nejviditelnějších repozitářů, po pročtení desítek vláken v GitHub Issues a po srovnání hlášení z Redditu a scrapingových fór. Vzorec se pořád opakuje: populární repozitáře přitáhnou pozornost, tým LinkedInu se podívá na jejich anti-bot ochranu, detekce se upraví a uživatelům zůstanou rozbité selektory, CAPTCHA smyčky nebo rovnou zablokované účty. Jeden uživatel na Redditu to shrnul napřímo — LinkedIn přidal „přísnější rate limity, lepší detekci botů, sledování relací a časté změny“ a staré nástroje teď „rychle přestávají fungovat nebo nechávají účty/IP adresy označené“. Pokud jste obchodník, recruiter nebo ops manažer a chcete data z LinkedInu v tabulce, repo, které jste klonovali minulý měsíc, už klidně může být mrtvé. Tenhle průvodce vám pomůže zjistit, které projekty na GitHubu opravdu stojí za čas, jak nepřijít o účet a kdy je rozumnější kód úplně přeskočit.

Co je LinkedIn Scraper na GitHubu?

Projekt typu LinkedIn scraper na GitHubu je open-source skript — obvykle v Pythonu, někdy v Node.js — který automatizuje získávání strukturovaných dat z LinkedIn stránek. Typické cíle zahrnují:

Profily lidí: jméno, titulek, firma, lokalita, dovednosti, zkušenosti
Pracovní nabídky: název, firma, lokalita, datum zveřejnění, URL nabídky
Firemní stránky: přehled, počet zaměstnanců, odvětví, počet sledujících
Příspěvky a engagement: text obsahu, lajky, komentáře, sdílení

Uvnitř většina repozitářů používá jeden ze dvou přístupů. Scraper řízený prohlížečem spoléhá na Selenium, Playwright nebo Puppeteer, aby vykreslil stránky, proklikal flow a vytáhl data přes CSS selektory nebo XPath. Menší část se snaží přímo volat interní (nedokumentovaná) API rozhraní LinkedInu. A novější vlna — na GitHubu zatím pořád vzácná, ale rostoucí — kombinuje automatizaci prohlížeče s LLM, třeba GPT-4o mini, aby převedla text stránky do strukturovaných polí bez křehkých selektorů.

Je tu zásadní nesoulad publika. Tyto nástroje vytvářejí vývojáři, kteří umí pracovat s virtuálními prostředími, závislostmi prohlížeče a proxy konfigurací. Ale velká část lidí, kteří hledají „linkedin scraper github“, jsou recruitři, SDR, manažeři RevOps a zakladatelé, kteří prostě chtějí řádky v tabulce.

Právě tenhle rozdíl vysvětluje většinu frustrace ve vláknech s issue.

Proč lidé sahají pro LinkedIn scraping na GitHub

Důvod je jednoduchý. Je to zdarma. Dá se to přizpůsobit. Žádný vendor lock-in. Plná kontrola nad datovým pipeline. Když SaaS nástroj změní ceny nebo skončí, váš kód pořád existuje.

Use Case	Who Needs It	Typical Data Extracted
Generování leadů	Obchodní týmy	Jména, titulky, firmy, URL profilů, náznaky e-mailů
Vyhledávání kandidátů	Recruitoři	Profily, dovednosti, zkušenosti, lokality
Průzkum trhu	Ops a strategické týmy	Firemní data, počty zaměstnanců, pracovní nabídky
Konkurenční inteligence	Marketingové týmy	Příspěvky, engagement, aktualizace firem, signály o náboru

„Zdarma“ je ale licence, ne provozní náklad. Skutečné výdaje jsou:

Čas na nastavení: i přívětivá repa obvykle vyžadují 30 minut až 2+ hodiny na nastavení prostředí, závislosti prohlížeče, extrakci cookies a konfiguraci proxy
Údržba: LinkedIn pravidelně mění DOM i anti-bot obranu — scraper, který dnes funguje, může příští týden spadnout
Proxy: rezidenční proxy bandwidth stojí podle poskytovatele a tarifu zhruba
Riziko účtu: váš LinkedIn účet je nejdražší věc, která je ve hře, a na rozdíl od proxy IP ho nejde nahradit

Skóre zdraví repozitáře: jak vyhodnotit jakýkoli LinkedIn Scraper projekt na GitHubu

Většina seznamů „nejlepších LinkedIn scraperů“ řadí repozitáře podle počtu hvězdiček. Hvězdičky měří historický zájem, ne aktuální funkčnost. Repo s 3 000 hvězdičkami a bez commitu od roku 2022 je muzejní exponát, ne produkční nástroj.

Než na čemkoli spustíte git clone, použijte tenhle rámec:

Kritérium	Proč je důležité	Varovný signál
Datum posledního commitu	LinkedIn často mění DOM	U browser-driven rep starší než 6 měsíců
Poměr otevřených a uzavřených issues	Reakce maintainera	Poměr otevřené:uzavřené vyšší než 3:1, hlavně u nových hlášení „blocked“ nebo „CAPTCHA“
Funkce proti detekci	LinkedIn agresivně blokuje	V README není zmínka o cookies, sessions, pace nebo proxynách
Metoda přihlášení	2FA a CAPTCHA rozbíjejí login flow	Podporuje jen přihlášení heslem bez headless režimu
Typ licence	Právní riziko pro komerční použití	Žádná licence nebo nejasné podmínky
Podporované datové typy	Různé use-casy potřebují různá repo	Jen jeden datový typ, když potřebujete víc

Jediný trik, který ušetří nejvíc času: než se do repa pustíte, vyhledejte v jeho záložce Issues výrazy „blocked“, „banned“, „CAPTCHA“ nebo „not working“. Pokud jsou poslední issue plné těchto výrazů a maintainer nereaguje, jděte dál. To repo už ten boj prohrálo.

Co audit 2026 skutečně ukázal

Tento scorecard jsem aplikoval na osm nejviditelnějších LinkedIn scraper repozitářů na GitHubu. Výsledek nebyl moc povzbudivý.

Repo	Stars	Last Commit	Working in 2026?	Main Scope	Key Notes
joeyism/linkedin_scraper	~3 983	dub 2026	✅ S výhradami	Profily, firmy, příspěvky, práce	Přepis na Playwright, znovupoužití relace — ale poslední issue ukazují bezpečnostní blokace a rozbitý vyhledávač pracovních nabídek
python-scrapy-playbook/linkedin-python-scrapy-scraper	~111	led 2026	✅ Pro návody / veřejná data	Lidé, firmy, práce	Integrace ScrapeOps proxy; bezplatný tarif umožňuje 1 000 požadavků/měsíc s 1 vláknem
spinlud/py-linkedin-jobs-scraper	~472	bře 2025	⚠️ Jen práce	Práce	Podpora cookies, experimentální proxy režim — užitečné, pokud potřebujete jen veřejné nabídky práce
madingess/EasyApplyBot	~170	bře 2025	⚠️ Špatný nástroj	Automatizace Easy Apply	Není to scraper dat — automatizuje přihlášky do pracovních nabídek
linkedtales/scrapedin	~611	kvě 2021	❌	Profily	README pořád tvrdí „working in 2020“; issues ukazují ověřování PINu a změny HTML
austinoboyle/scrape-linkedin-selenium	~526	říj 2022	❌	Profily, firmy	Dříve užitečné, na rok 2026 už moc zastaralé
eilonmore/linkedin-private-api	~291	čvc 2022	❌	Profily, práce, firmy, příspěvky	Wrapper pro privátní API; nedokumentované endpointy se mění nepředvídatelně
nsandman/linkedin-api	~154	čvc 2019	❌	Profily, messaging, vyhledávání	Historicky zajímavé; dokumentované rate limitování po zhruba 900 požadavcích/hodinu

Jen 2 z 8 repozitářů vypadaly pro čtenáře v roce 2026 skutečně použitelné bez velkých výhrad. To není výjimka — to je u LinkedIn scrapingu na GitHubu norma.

Plán prevence banů: proxy, rate limity a bezpečnost účtu

Zablokování účtu je bez debat největší provozní riziko. I technicky schopné scrapery tu často selžou. Kód funguje; účet ne. Uživatelé hlásí, že byli označeni už po i přes proxy a dlouhé prodlevy.

Rate limiting: co hlásí komunita

Neexistuje žádné garantovaně bezpečné číslo. LinkedIn hodnotí stáří session, načasování kliknutí, burst patterny, reputaci IP a chování účtu — ne jen čistý objem. Komunitní data se shlukují kolem těchto pásem:

Jeden uživatel hlásil detekci po 40–80 profilech s proxynami a 33sekundovým rozestupem
Jiný doporučoval držet se kolem 30 profilů/den/účet
Agresivnější provozovatel tvrdil rozprostřených během dne
dokumentovalo interní varování o rate limitu po zhruba 900 požadavcích za hodinu

Praktický závěr: pod 50 zobrazení profilů/den/účet je riziko nižší. 50–100/den je střední riziko, kde hodně záleží na kvalitě session. Nad 100/den/účet už vstupujete do čím dál agresivnější zóny.

Strategie proxy: rezidenční vs. datacentrové

Rezidenční proxy jsou pro LinkedIn standard, protože se podobají běžnému provozu koncových uživatelů. Datacentrové IP jsou levnější, ale na sofistikovaných webech se odhalí rychleji — a LinkedIn je přesně ten typ webu, kde si levný provoz všimnou.

Aktuální cenový kontext:

: $3,00–$4,00/GB podle tarifu
: $4,00–$6,00/GB podle tarifu

Rotujte po session, ne po každém požadavku. Rotace per request vytváří fingerprint, který křičí „proxy infrastruktura“ víc než jakákoli jednotlivá IP.

Protokol pro „burner“ účet

Rada komunity je v tomhle bodě jasná: neberte svůj hlavní LinkedIn účet jako spotřební scrapingovou infrastrukturu.

Pokud trváte na scrapingu přes účet:

Použijte samostatný účet, který není vaší primární profesní identitou
Doplňte profil do plna a nechte ho několik dní chovat se jako člověk, než začnete scrapovat
Nikdy nespojujte s scrapingovým účtem své skutečné telefonní číslo
Udržujte scrapingové session úplně oddělené od reálného outreach a messagingu

Za zmínku stojí, že LinkedInu (platný od 3. listopadu 2025) výslovně zakazuje falešné identity a sdílení účtu. Taktika burner účtu je sice provozně běžná, ale smluvně problematická.

Jak řešit CAPTCHA

CAPTCHA není jen nepříjemnost. Je to signál, že je vaše session už pod dohledem. Možnosti zahrnují:

Ruční vyřešení a pokračování v session
Znovupoužití cookies místo opětovného spouštění přihlašovacího flow
Solver služby jako (~$0,50–$1,00 za 1 000 obrázkových CAPTCHA, ~$1,00–$2,99 za 1 000 řešení reCAPTCHA v2)

Ale pokud váš workflow spouští CAPTCHA pravidelně, ekonomika solverů je ten nejmenší problém. Váš stack prohrává boj o nenápadnost.

Spektrum rizika

Volume	Risk Level	Recommended Approach
< 50 profilů/den	Nižší	Session v prohlížeči nebo znovupoužití cookies, pomalé tempo, bez agresivní automatizace
50–500 profilů/den	Střední až vysoké	Rezidenční proxy, zahřáté účty, znovupoužití session, náhodné prodlevy
500+/den	Velmi vysoké	Komerční API nebo udržovaný nástroj s vestavěnou anti-detection; samotné veřejné GitHub repo obvykle nestačí

Paradox open source: proč populární LinkedIn Scraper repozitáře na GitHubu padají rychleji

Uživatelé často vznesou oprávněnou námitku: „Když uděláte open-source verzi, LinkedIn se přece může jen podívat, co děláte, a zablokovat to.“ Tahle obava není paranoidní. Je strukturálně správná.

Problém viditelnosti

Vysoký počet hvězdiček vytváří dva signály najednou: důvěru pro uživatele a cíl pro bezpečnostní tým LinkedInu. Čím populárnější repo je, tím pravděpodobnější je, že LinkedIn jeho metody cíleně potlačí.

Tenhle životní cyklus je vidět i v datech auditu. linkedtales/scrapedin bylo dost významné na to, aby v roce 2020 tvrdilo, že funguje s „novým webem“ LinkedInu. Repo ale nestíhalo pozdější změny v ověřování a rozvržení. nsandman/linkedin-api kdysi dokumentovalo užitečné triky, ale jeho poslední commit přišel roky před současným anti-bot prostředím.

Výhoda komunitních patchů

Open source má ale jednu reálnou výhodu: aktivní maintainers a přispěvatelé mohou rychle patchovat, když LinkedIn změní obranu. joeyism/linkedin_scraper je z tohoto auditu hlavní příklad — pořád sice naráží na blokace auth a rozbitá vyhledávání, ale aspoň se vyvíjí. Forky často implementují nové obchvaty rychleji než původní repo.

Co s tím dělat

Nespoléhejte na jediné veřejné repo jako na trvalou infrastrukturu
Sledujte aktivní forky, které zavádějí nové obchvaty detekce
Zvažte udržování privátního forku pro produkční použití (aby vaše konkrétní úpravy nebyly veřejné)
Počítejte s tím, že budete muset měnit metody, jakmile LinkedIn změní detekci nebo UI
Diverzifikujte přístupy místo sázení všeho na jeden nástroj

Extrakce pomocí AI vs. CSS selektory: praktické srovnání

Zajímavější technické dělení v roce 2026 není GitHub versus no-code. Je to extrakce založená na selektorech versus sémantická extrakce — a ten rozdíl je důležitější, než většina přehledů přiznává.

Jak fungují CSS selektory (a jak se lámou)

Tradiční scrapery procházejí DOM LinkedInu a mapují každé pole na CSS selektor nebo XPath výraz. Když je struktura stránky stabilní, je tenhle přístup skvělý: vysoká přesnost, nízké mezní náklady, velmi rychlé parsování.

Stejně zřejmý je i režim selhání. LinkedIn změní názvy tříd, vnoření, lazy-loading nebo schová obsah za jinou auth wall — a scraper okamžitě spadne. O tom vypovídají i názvy issues z auditu repozitářů: „changed HTML“, „broken job search“, „missing values“, „authwall blocks“.

Jak funguje AI/LLM extrakce

Novější vzorec je koncepčně jednodušší: vykreslit stránku, sebrat viditelný text a požádat model, aby vrátil strukturovaná pole. Právě to stojí za mnoha no-code AI scrapery i některými novějšími custom workflow.

Při použití aktuálního ($0,15/1M input tokenů, $0,60/1M output tokenů) stojí textová extrakce jednoho profilu obvykle $0,0006–$0,0018 na profil. To je tak málo, že je to pro středně objemové workflow prakticky zanedbatelné.

Přímé srovnání

Dimenze	CSS selektory / XPath	AI/LLM extrakce
Náročnost nastavení	Vysoká — prozkoumat DOM, napsat selektory pro každé pole	Nízká — popsat požadovaný výstup přirozeným jazykem
Rozbití při změnách layoutu	Rozbije se okamžitě	Přizpůsobí se automaticky (čte sémanticky)
Přesnost u strukturovaných polí	~99 % při správných selektorech	~95–98 % (občasné interpretační chyby LLM)
Zpracování nestrukturovaných/proměnlivých dat	Slabé bez vlastní logiky	Silné — AI chápe kontext
Cena na profil	Téměř nulová (jen výpočet)	~$0,001–$0,002 (náklady na API tokeny)
Označování/kategorizace	Vyžaduje samostatný post-processing	Umí kategorizovat, překládat i značit v jednom kroku
Nároky na údržbu	Průběžné opravy selektorů	Téměř nulové

Co si vybrat?

Pro velmi vysoké objemy, stabilní pipeline a inženýrsky vlastněné systémy může selektorové parsování pořád vyhrát na ceně. Pro většinu malých a středně velkých uživatelů, kteří scrapují stovky (ne miliony) profilů, je AI extrakce lepší dlouhodobá investice, protože změny rozvržení LinkedInu stojí víc vývojářského času než tokeny, které ušetříte.

Když jsou GitHub repozitáře zbytečně moc: cesta bez kódu

Většina lidí, kteří hledají „linkedin scraper github“, se nechce stát správcem automatizace prohlížeče.

Chtějí řádky v tabulce.

Uživatelé si v issue vláknech výslovně stěžují na použitelnost GitHub scraperů: „Nezvládá 2FA a není snadné ho používat, protože nemá UI.“ Publikum tvoří recruitři, SDR a ops manažeři — ne jen Python vývojáři.

Rozhodnutí build vs. buy

Faktor	GitHub repo	No-code nástroj (např. Thunderbit)
Čas na nastavení	30 min–2+ hodiny (Python, závislosti, proxy)	Pod 2 minuty (nainstalovat rozšíření, kliknout)
Údržba	Opravujete sami, když LinkedIn změní web	Aktualizace řeší poskytovatel nástroje
Anti-detection	Konfigurujete proxy, prodlevy, session	Vestavěné v nástroji
Strukturování dat	Píšete parsovací logiku	AI automaticky navrhne pole
Možnosti exportu	Budujete exportní pipeline	Jedním klikem do Excelu, Google Sheets, Airtable, Notion
Cena	Zdarma repo + náklady na proxy + váš čas	K dispozici free tier; pro větší objemy kredity

Jak Thunderbit řeší LinkedIn scraping bez kódu

přistupuje k problému jinak než GitHub repozitáře. Místo psaní selektorů nebo konfigurace automatizace prohlížeče:

Nainstalujete
Otevřete libovolnou LinkedIn stránku (výsledky hledání, profil, firemní stránku)
Kliknete na „AI Suggest Fields“ — AI Thunderbitu si přečte stránku a navrhne strukturované sloupce (jméno, titul, firma, lokalita atd.)
Když je potřeba, upravíte sloupce a pak kliknete na extrakci
Data exportujete přímo do Excelu, Google Sheets, nebo Notionu

Protože Thunderbit při každém spuštění používá AI k sémantickému čtení stránky, nerozbije se, když LinkedIn změní DOM. Je to stejná výhoda jako u přístupu s GPT v custom Python skriptech, ale zabalená do no-code rozšíření místo kódu, který musíte udržovat.

Pro — tedy klikání na jednotlivé profily z výsledků vyhledávání, aby se obohatila datová tabulka — to Thunderbit zvládne automaticky. Browser mode funguje i pro stránky vyžadující přihlášení, bez samostatné konfigurace proxy.

Kdo by měl pořád používat GitHub repo?

GitHub repozitáře dávají smysl pro:

Vývojáře, kteří potřebují hluboké přizpůsobení nebo neobvyklé datové typy
Týmy, které scrapují ve velmi vysokém objemu, kde záleží na ceně za kredit
Uživatelé, kteří potřebují spouštět scraping v CI/CD pipelinech nebo na serverech
Lidi, kteří vkládají LinkedIn data do větších automatizovaných workflow

Pro všechny ostatní — hlavně pro sales, recruiting a ops týmy — eliminuje celý cyklus nastavování a údržby.

Krok za krokem: jak vyhodnotit a použít LinkedIn scraper z GitHubu

Pokud jste se rozhodli, že GitHub je správná cesta, tady je postup ve fázích, který minimalizuje ztrátu času i riziko pro účet.

Krok 1: Vyhledání a zúžení repozitářů

Na GitHubu hledejte „linkedin scraper“ a filtrujte podle:

Nedávné aktualizace (posledních 6 měsíců)
Jazyka odpovídajícího vašemu stacku (nejčastěji Python)
Rozsahu odpovídajícího skutečné potřebě (profily vs. práce vs. firmy)

Vyberte 3–5 repozitářů, které vypadají živě.

Krok 2: Použití scorecardu zdraví repa

Projděte každé repo dřívějším scorecardem. Vyřaďte vše, co má:

Žádný commit za poslední rok
Nevyřešené issues typu „blocked“ nebo „CAPTCHA“
Přihlašování jen přes heslo
Žádnou zmínku o sessions, cookies nebo proxynách

Krok 3: Nastavení prostředí

Běžné setup příkazy z repozitářů v tomto auditu:

1pip install linkedin-scraper
2playwright install chromium
3pip install linkedin-jobs-scraper
4LI_AT_COOKIE=<cookie> python your_app.py
5scrapy crawl linkedin_people_profile

Nejčastější třecí plochy:

Chybějící soubory session.json
Nesoulad verzí driveru prohlížeče (Chromium/Playwright)
Extrakce cookies z DevTools prohlížeče
Timeouty při autentizaci proxy

Krok 4: Spusťte malý testovací scraping

Začněte s 10–20 profily. Zkontrolujte:

Jsou pole správně naparsovaná?
Je data kompletní?
Narazili jste na bezpečnostní checkpoint?
Je výstup použitelný, nebo jde o surový JSON šum?

Krok 5: Škálujte opatrně

Přidejte náhodné prodlevy (5–15 sekund mezi požadavky), snižte souběžnost, znovupoužívejte session a použijte rezidenční proxy. Nepřeskakujte na stovky profilů denně na čerstvém účtu.

Krok 6: Export a strukturování dat

Většina GitHub repozitářů vyplivuje surový JSON nebo CSV. I tak budete muset:

Odduplikovat záznamy
Normalizovat názvy titulů a firem
Namapovat pole do CRM nebo ATS
Zdokumentovat původ dat kvůli compliance

(Thunderbit strukturování i export zvládne automaticky, pokud tento krok chcete přeskočit.)

LinkedIn Scraper GitHub vs. no-code nástroje: úplné srovnání

Dimenze	GitHub repo (CSS selektory)	GitHub repo (AI/LLM)	No-code nástroj (Thunderbit)
Čas na nastavení	1–2+ hodiny	1–3+ hodiny (+ API klíč)	Pod 2 minuty
Technické dovednosti	Vysoké (Python, CLI)	Vysoké (Python + LLM API)	Žádné
Údržba	Vysoká (selektory se lámou)	Střední (LLM se přizpůsobí, ale kód stejně potřebuje aktualizace)	Žádná (udržuje poskytovatel)
Anti-detection	DIY (proxy, prodlevy)	DIY	Vestavěné
Přesnost	Vysoká, když to funguje	Vysoká, s občasnými chybami LLM	Vysoká (poháněno AI)
Cena	Zdarma + náklady na proxy + váš čas	Zdarma + náklady na LLM API + proxy	Free tier; pro objemy kreditový model
Export	DIY (JSON, CSV)	DIY	Excel, Sheets, Airtable, Notion
Nejlepší pro	Vývojáře, vlastní pipeline	Vývojáře, kteří chtějí méně údržby	Sales, recruiting, ops týmy

Právní a etické souvislosti

Tuhle část nechám krátkou, ale přeskočit ji nejde.

LinkedInu (platný od 3. listopadu 2025) výslovně zakazuje používat software, skripty, roboty, crawlery nebo browser pluginy k scrapování služby. LinkedIn to podpořil i vymáháním:

: LinkedIn oznámil právní kroky proti Proxycurl
: LinkedIn uvedl, že tento spor byl vyřešen
: Law360 informoval, že LinkedIn žaloval další žalované kvůli scrapingu v průmyslovém měřítku

Série případů hiQ v. LinkedIn vytvořila kolem přístupu k veřejným datům určité nuance, ale hrály ve prospěch LinkedInu z hlediska porušení smlouvy. „Veřejně viditelné“ neznamená „jasně bezpečné pro scraping ve velkém a pro komerční opětovné použití“.

Pro workflow navázaná na EU platí . francouzského úřadu pro ochranu osobních údajů je konkrétním příkladem, kdy regulátor považuje získaná LinkedIn data za osobní údaje podléhající pravidlům ochrany dat.

Použití udržovaného nástroje jako Thunderbit vaše právní povinnosti nemění. Snižuje ale riziko, že omylem spustíte bezpečnostní reakce nebo porušíte rate limity způsobem, který přitáhne pozornost LinkedInu.

Co funguje a co ne v roce 2026

Co funguje

Použití Repo Health Scorecardu před tím, než se do repa pustíte
Znovupoužití cookies/session místo opakovaného automatizovaného loginu
Rezidenční proxy, když musíte scrapovat přes účet
Menší, pomalejší workflow připomínající lidské chování
AI-asistovaná extrakce, když vám záleží víc na přizpůsobivosti než na marginálních nákladech za tokeny
, když skutečná potřeba je výstup do tabulky, ne vlastnictví scraperu
Diverzifikace přístupů místo sázky na jeden veřejný repo projekt

Co nefunguje

Klonování populárních rep bez kontroly údržby nebo posledních issue
Použití datacentrových proxy nebo free seznamů proxy pro LinkedIn
Škálování na stovky profilů denně bez rate limitů nebo anti-detection
Dlouhodobé spoléhání na CSS selektory bez plánu údržby
Chování s vaším skutečným LinkedIn účtem jako s jednorázovou infrastrukturou
Záměna „veřejně dostupné“ za „smluvně nebo právně bezproblémové“

FAQ

Fungují LinkedIn scraper repozitáře z GitHubu v roce 2026?

Některé ano, ale jen malý zlomek. V tomto auditu osmi viditelných repozitářů vypadaly jen dva skutečně použitelné pro čtenáře v roce 2026 bez velkých výhrad. Klíč je hodnotit repozitáře podle aktivity údržby a zdraví issues, ne podle počtu hvězdiček. Než do projektu vložíte čas na setup, použijte Repo Health Scorecard.

Kolik LinkedIn profilů denně můžu scrapovat, aniž bych dostal ban?

Není tu žádné garantovaně bezpečné číslo, protože LinkedIn vyhodnocuje chování session, ne jen objem. Komunitní hlášení naznačují, že pod 50 profilů/den/účet je nižší riziko, 50–100/den je střední riziko, kde záleží na kvalitě infrastruktury, a nad 100/den se už pohybujete v agresivnější zóně. Náhodné prodlevy 5–15 sekund a rezidenční proxy pomáhají, ale riziko neodstraní úplně.

Existuje no-code alternativa k LinkedIn scraper projektům na GitHubu?

Ano. vám umožní scrapovat LinkedIn stránky na pár kliknutí díky AI detekci polí, autentizaci v prohlížeči (bez nutnosti konfigurace proxy) a exportu jedním klikem do Excelu, Google Sheets, Airtable nebo Notionu. Je navržený pro sales, recruiting a ops týmy, které chtějí data bez údržby kódu. Vyzkoušet ho můžete přes .

Je scraping LinkedIn dat legální?

Je to šedá zóna s čím dál ostřejšími hranami. User Agreement LinkedInu scraping výslovně zakazuje a LinkedIn v podnikl právní kroky proti scraperům. Precedent hiQ v. LinkedIn pro přístup k veřejným datům byl novějšími rozhodnutími zúžen. GDPR se vztahuje na osobní údaje obyvatel EU bez ohledu na to, jak byly získány. Pro jakýkoli komerční use-case si nechte poradit právníkem podle své konkrétní situace.

AI extrakce nebo CSS selektory — co mám použít pro scraping LinkedInu?

CSS selektory jsou rychlejší a levnější na záznam, když fungují, ale vytvářejí nekonečný kolotoč údržby, protože LinkedIn pravidelně mění DOM. AI/LLM extrakce stojí na profil o něco víc (~$0,001–$0,002 při aktuálních ), ale na změny rozvržení reaguje automaticky. Pro většinu ne-enterprise uživatelů, kteří scrapují stovky a ne miliony profilů, je AI extrakce lepší dlouhodobá investice. Vestavěný AI engine Thunderbitu tu výhodu nabízí bez nutnosti psát nebo udržovat jakýkoli kód.

Zjistit více

LinkedIn Scraper GitHub: Co funguje v roce 2026 (a co ne)

Vyzkoušej Thunderbit