LinkedIn Scraper GitHub: Co działa w 2026 roku (a co nie)

Ostatnia aktualizacja: April 22, 2026

Wyszukiwanie na GitHubie hasła „linkedin scraper” zwraca około według stanu na kwiecień 2026 roku. Większość z nich tylko zmarnuje ci czas. Brzmi ostro? Może. Ale właśnie to odkryłem po przejrzeniu ośmiu najbardziej widocznych repozytoriów, przeczytaniu dziesiątek wątków z problemami na GitHubie i zestawieniu raportów społeczności z Reddita oraz forów o scrapingu. Schemat powtarza się bez końca: repozytoria z dużą liczbą gwiazdek przyciągają uwagę, zespół LinkedIn od anty-botów analizuje kod, wykrywanie zostaje załatane, a użytkownicy kończą z niedziałającymi selektorami, pętlami CAPTCHA albo po prostu zablokowanymi kontami. Jeden z użytkowników Reddita opisał obecny stan bez ogródek — LinkedIn wprowadził „ostrzejsze limity, lepsze wykrywanie botów, śledzenie sesji i częste zmiany”, a stare narzędzia teraz „szybko się psują albo powodują oznaczanie kont i adresów IP”. Jeśli jesteś handlowcem, rekruterem albo menedżerem operacyjnym i potrzebujesz danych z LinkedIn w arkuszu, repozytorium sklonowane w zeszłym miesiącu może być już martwe. Ten przewodnik pomoże ci ocenić, które projekty na GitHubie naprawdę są warte uwagi, jak nie spalić sobie konta i kiedy lepiej całkiem odpuścić kod.

Czym jest LinkedIn Scraper na GitHubie?

Projekt LinkedIn scraper na GitHubie to skrypt open source — zwykle w Pythonie, czasem w Node.js — który automatyzuje pozyskiwanie uporządkowanych danych ze stron LinkedIn. Najczęstsze cele to:

  • Profile osób: imię i nazwisko, nagłówek, firma, lokalizacja, umiejętności, doświadczenie
  • Oferty pracy: tytuł, firma, lokalizacja, data publikacji, URL oferty
  • Strony firmowe: opis, liczba pracowników, branża, liczba obserwujących
  • Posty i zaangażowanie: treść, polubienia, komentarze, udostępnienia

W praktyce większość repozytoriów korzysta z jednego z dwóch podejść. Scrapery oparte na przeglądarce wykorzystują Selenium, Playwright albo Puppeteer, aby renderować strony, klikać kolejne kroki i wyciągać dane przez selektory CSS lub XPath. Mniejsza część próbuje bezpośrednio wywoływać wewnętrzne, nieudokumentowane endpointy API LinkedIn. A nowsza fala — wciąż rzadka na GitHubie, ale rosnąca — łączy automatyzację przeglądarki z LLM, takim jak GPT-4o mini, aby zamieniać tekst strony na uporządkowane pola bez kruchych selektorów.

Jest tu zasadnicza rozbieżność odbiorców. Te narzędzia budują programiści swobodnie poruszający się w środowiskach wirtualnych, zależnościach przeglądarki i konfiguracji proxy. Ale duża część osób szukających „linkedin scraper github” to rekruterzy, SDR-y, menedżerowie RevOps i założyciele, którym po prostu potrzebne są wiersze w arkuszu.

To właśnie ta przepaść tłumaczy większość frustracji w wątkach z problemami.

Dlaczego ludzie sięgają po GitHub w kontekście scrapingu LinkedIn

Zalety są oczywiste. Darmowe. Możliwość dostosowania. Brak uzależnienia od dostawcy. Pełna kontrola nad potokiem danych. Jeśli narzędzie SaaS zmieni cennik albo zniknie, twój kod nadal istnieje.

ZastosowanieKto tego potrzebujeTypowo pozyskiwane dane
Generowanie leadówZespoły sprzedażyImiona i nazwiska, stanowiska, firmy, URL-e profili, wskazówki dotyczące e-maili
Pozyskiwanie kandydatówRekruterzyProfile, umiejętności, doświadczenie, lokalizacje
Badanie rynkuZespoły operacyjne i strategiczneDane firmowe, liczba pracowników, oferty pracy
Analiza konkurencjiZespoły marketingowePosty, zaangażowanie, aktualizacje firmowe, sygnały rekrutacyjne

Ale „darmowe” to etykieta licencyjna, a nie koszt operacyjny. Prawdziwe koszty to:

  • Czas konfiguracji: nawet przyjazne repozytoria zwykle wymagają od 30 minut do ponad 2 godzin na przygotowanie środowiska, zależności przeglądarki, wyciągnięcie ciasteczek i konfigurację proxy
  • Utrzymanie: LinkedIn regularnie zmienia DOM i mechanizmy anty-botowe — scraper działający dziś może przestać działać w przyszłym tygodniu
  • Proxy: przepustowość proxy residential kosztuje od w zależności od dostawcy i planu
  • Ryzyko dla konta: twoje konto LinkedIn jest najcenniejszą rzeczą, którą ryzykujesz, i nie da się go po prostu wymienić jak adresu IP proxy

Karta oceny repozytorium: jak ocenić dowolny projekt LinkedIn Scraper na GitHubie

Większość list „najlepszych LinkedIn scraperów” porządkuje repozytoria według liczby gwiazdek. Gwiazdki mierzą historyczne zainteresowanie, a nie aktualną funkcjonalność. Repozytorium z 3 000 gwiazdek i bez commitów od 2022 roku to eksponat muzealny, nie narzędzie produkcyjne.

Zanim użyjesz git clone na czymkolwiek, zastosuj ten framework:

KryteriumDlaczego ma znaczenieCzerwona flaga
Data ostatniego commitaLinkedIn często zmienia DOMPonad 6 miesięcy temu w przypadku scraperów opartych na przeglądarce
Stosunek otwartych do zamkniętych issueReakcja maintaineraPonad 3:1 otwartych do zamkniętych, zwłaszcza z niedawnymi zgłoszeniami „blocked” lub „CAPTCHA”
Funkcje antywykrywaniaLinkedIn agresywnie blokujeBrak wzmianki o cookies, sesjach, tempie działania albo proxy w README
Metoda uwierzytelniania2FA i CAPTCHA psują logowanieObsługa tylko logowania headless opartego na haśle
Typ licencjiRyzyko prawne przy użyciu komercyjnymBrak licencji albo niejasne warunki
Obsługiwane typy danychRóżne zastosowania wymagają różnych repozytoriówTylko jeden typ danych, gdy potrzebujesz kilku

Jeden trik, który oszczędza najwięcej czasu: zanim zaangażujesz się w dane repozytorium, wyszukaj w zakładce Issues słowa „blocked”, „banned”, „CAPTCHA” lub „not working”. Jeśli ostatnie zgłoszenia są nimi pełne i nie ma reakcji maintainera, idź dalej. To repozytorium już przegrało.

Co naprawdę pokazał audyt z 2026 roku

linkedin_scraper_repo_audit_v2_17d346a6d6.png

Zastosowałem tę kartę oceny do ośmiu najbardziej widocznych repozytoriów LinkedIn scraper na GitHubie. Wyniki nie były zachęcające.

RepozytoriumGwiazdkiOstatni commitDziała w 2026?Główny zakresNajważniejsze uwagi
joeyism/linkedin_scraper~3 983kwi 2026✅ Z zastrzeżeniamiProfile, firmy, posty, oferty pracyPrzepisane na Playwright, ponowne użycie sesji — ale świeże issue pokazują blokady bezpieczeństwa i niedziałające wyszukiwanie ofert
python-scrapy-playbook/linkedin-python-scrapy-scraper~111sty 2026✅ Do tutoriali/danych publicznychLudzie, firmy, oferty pracyIntegracja z proxy ScrapeOps; darmowy plan pozwala na 1 000 żądań miesięcznie przy 1 wątku
spinlud/py-linkedin-jobs-scraper~472mar 2025⚠️ Tylko oferty pracyOferty pracyObsługa cookies, eksperymentalny tryb proxy — przydatne, jeśli potrzebujesz tylko publicznych ofert
madingess/EasyApplyBot~170mar 2025⚠️ Złe narzędzieAutomatyzacja Easy ApplyTo nie scraper danych — automatyzuje aplikowanie na oferty pracy
linkedtales/scrapedin~611maj 2021ProfileREADME nadal twierdzi, że „działa w 2020 roku”; issue pokazują weryfikację PIN i zmiany HTML
austinoboyle/scrape-linkedin-selenium~526paź 2022Profile, firmyKiedyś użyteczne, dziś zbyt przestarzałe na 2026 rok
eilonmore/linkedin-private-api~291lip 2022Profile, oferty pracy, firmy, postyWrapper do prywatnego API; nieudokumentowane endpointy zmieniają się nieprzewidywalnie
nsandman/linkedin-api~154lip 2019Profile, wiadomości, wyszukiwanieHistorycznie ciekawe; udokumentowane ograniczenie tempa po ok. 900 żądaniach na godzinę

Tylko 2 z 8 repozytoriów wyglądały na naprawdę użyteczne dla czytelnika w 2026 roku bez poważnych zastrzeżeń. Taki wynik nie jest niczym niezwykłym — to norma w scrapingu LinkedIn na GitHubie.

Plan zapobiegania banom: proxy, limity żądań i bezpieczeństwo konta

Ban konta to największe ryzyko operacyjne. Nawet technicznie poprawne scrapery potykają się właśnie tutaj. Kod działa; konto nie. Użytkownicy zgłaszają oznaczenia już po mimo proxy i długich opóźnień.

Ograniczanie tempa: co raportuje społeczność

linkedin_scraper_risk_spectrum_v2_a602c90b7d.png

Nie istnieje żadna gwarantowana bezpieczna liczba. LinkedIn ocenia wiek sesji, czas kliknięć, wzorce gwałtownych serii, reputację IP i zachowanie konta — nie tylko surowy wolumen. Dane społeczności grupują się wokół takich przedziałów:

  • Jeden użytkownik zgłosił wykrycie po 40–80 profilach z proxy i tempem 33 sekund
  • Inny zalecał trzymanie się ok. 30 profilów dziennie na konto
  • Bardziej agresywny operator twierdził, że osiągał 100–200 profili dziennie
  • dokumentuje wewnętrzne ostrzeżenie o limicie po około 900 żądaniach w ciągu godziny

Praktyczny wniosek: mniej niż 50 wyświetleń profili dziennie na konto to strefa niższego ryzyka. 50–100 dziennie to średnie ryzyko, w którym jakość sesji ma duże znaczenie. Powyżej 100/dzień/konto wchodzisz w coraz bardziej agresywny teren.

Strategia proxy: residential vs datacenter

Proxy residential pozostają standardem dla LinkedIn, ponieważ przypominają zwykły ruch użytkownika końcowego. Adresy IP z datacenter są tańsze, ale szybciej są oznaczane na bardziej zaawansowanych stronach — a LinkedIn to dokładnie taki zaawansowany serwis, na którym tani ruch szybko przyciąga uwagę.

Aktualny kontekst cenowy:

  • : 3,00–4,00 USD/GB w zależności od planu
  • : 4,00–6,00 USD/GB w zależności od planu

Rotuj je na poziomie sesji, nie pojedynczego żądania. Rotacja per request tworzy fingerprint, który krzyczy „infrastruktura proxy” głośniej niż jakikolwiek pojedynczy IP.

Protokół konta jednorazowego

Rada społeczności w tej kwestii jest bezpośrednia: nie traktuj głównego konta LinkedIn jak jednorazowej infrastruktury do scrapingu.

Jeśli upierasz się przy scrapingu opartym na koncie:

  • Użyj osobnego konta, niezwiązanego z twoją główną tożsamością zawodową
  • Uzupełnij profil w pełni i pozwól mu zachowywać się jak człowiek przez kilka dni przed scrapowaniem
  • Nigdy nie wiąż swojego prawdziwego numeru telefonu z kontami do scrapingu
  • Całkowicie oddziel sesje scrapingu od prawdziwego outreachu i wiadomości

Warto zauważyć: LinkedIn (obowiązuje od 3 listopada 2025) wyraźnie zakazuje fałszywych tożsamości i współdzielenia kont. Taktyka kont jednorazowych jest operacyjnie powszechna, ale umownie kłopotliwa.

Obsługa CAPTCHA

CAPTCHA to nie tylko niedogodność. To sygnał, że twoja sesja jest już pod obserwacją. Opcje obejmują:

  • Ręczne rozwiązanie, aby kontynuować sesję
  • Ponowne użycie cookies zamiast ponownego uruchamiania logowania
  • Usługi solverów, takie jak (~0,50–1,00 USD za 1 000 CAPTCHA obrazkowych, ~1,00–2,99 USD za 1 000 rozwiązań reCAPTCHA v2)

Ale jeśli twój workflow regularnie uruchamia CAPTCHA, koszty usług solverów są najmniejszym z twoich problemów. Twoja konfiguracja przegrywa bitwę o niewykrywalność.

Spektrum ryzyka

WolumenPoziom ryzykaZalecane podejście
< 50 profili/dzieńNiskieSesja przeglądarki lub ponowne użycie cookies, wolne tempo, bez agresywnej automatyzacji
50–500 profili/dzieńŚrednie do wysokiegoProxy residential, „rozgrzane” konta, ponowne użycie sesji, losowe opóźnienia
500+/dzieńBardzo wysokieKomercyjne API albo utrzymywane narzędzia z wbudowanym antywykrywaniem; same publiczne repozytoria GitHub zwykle nie wystarczą

Paradoks open source: dlaczego popularne repozytoria LinkedIn Scraper na GitHubie psują się szybciej

Użytkownicy zgłaszają rozsądną obawę: „Zrobienie wersji open source oznacza, że LinkedIn może po prostu zobaczyć, co robicie, i temu zapobiec”. To nie jest paranoja. To konstrukcyjnie prawidłowe.

Problem widoczności

Duża liczba gwiazdek tworzy dwa sygnały naraz: zaufanie dla użytkowników i cel dla zespołu bezpieczeństwa LinkedIn. Im bardziej popularne staje się repozytorium, tym większe prawdopodobieństwo, że LinkedIn zacznie aktywnie przeciwdziałać jego metodom.

Widać ten cykl w danych z audytu. linkedtales/scrapedin było na tyle istotne, że reklamowało działanie z „nową stroną” LinkedIn w 2020 roku. Ale repozytorium nie nadążyło za późniejszymi zmianami weryfikacji i układu. nsandman/linkedin-api kiedyś dokumentowało przydatne sztuczki, ale jego ostatni commit był sprzed lat, jeszcze przed obecnym środowiskiem anty-botowym.

Przewaga łatek społeczności

Open source nadal ma jedną realną zaletę: aktywni maintainerzy i współtwórcy mogą szybko wprowadzać poprawki, gdy LinkedIn zmienia zabezpieczenia. joeyism/linkedin_scraper jest głównym przykładem z tego audytu — nadal pojawiają się tam błędy związane z blokadami uwierzytelniania i wyszukiwaniem, ale projekt przynajmniej żyje. Forki często wdrażają nowsze techniki omijania szybciej niż oryginalne repozytorium.

Co z tym zrobić

  • Nie opieraj się na jednym publicznym repozytorium jako stałej infrastrukturze
  • Szukaj aktywnych forków, które wdrażają zaktualizowane techniki omijania
  • Rozważ utrzymywanie prywatnego forka do użycia produkcyjnego (żeby twoje konkretne modyfikacje nie były publiczne)
  • Zakładaj, że będziesz musiał zmieniać metodę, gdy LinkedIn zmieni wykrywanie albo zachowanie UI
  • Dywersyfikuj podejścia zamiast stawiać wszystko na jedno narzędzie

Ekstrakcja oparta na AI kontra selektory CSS: praktyczne porównanie

linkedin_scraper_selectors_vs_ai_v2_2d42fbf5c4.png

Najciekawszy techniczny podział w 2026 roku to nie GitHub kontra no-code. To ekstrakcja oparta na selektorach kontra ekstrakcja semantyczna — a różnica ma większe znaczenie, niż większość zestawień przyznaje.

Jak działają selektory CSS i dlaczego się psują

Tradycyjne scrapery analizują DOM LinkedIn i mapują każde pole na selektor CSS albo wyrażenie XPath. Gdy struktura strony jest stabilna, to podejście jest świetne: wysoka precyzja, niski koszt krańcowy, bardzo szybkie parsowanie.

Tryb awarii jest równie oczywisty. LinkedIn zmienia nazwy klas, zagnieżdżenie, zachowanie lazy-loading albo blokuje treść za innymi warstwami autoryzacji — i scraper natychmiast przestaje działać. Tytuły issue w audycie mówią same za siebie: „changed HTML”, „broken job search”, „missing values”, „authwall blocks”.

Jak działa ekstrakcja AI/LLM

Nowszy wzorzec jest prostszy w założeniu: renderujesz stronę, zbierasz widoczny tekst, prosisz model o zwrócenie uporządkowanych pól. Na tym opiera się wiele no-code AI scraperów i część nowszych, własnych workflow.

Przy aktualnych (0,15 USD/1M tokenów wejściowych, 0,60 USD/1M tokenów wyjściowych) ekstrakcja samego tekstu dla jednego profilu zwykle kosztuje 0,0006–0,0018 USD za profil. To na tyle mało, że przy średnim wolumenie jest praktycznie bez znaczenia.

Porównanie bezpośrednie

WymiarSelektor CSS / XPathEkstrakcja AI/LLM
Nakład na startDuży — analiza DOM, osobne selektory dla każdego polaNiski — opisujesz oczekiwany wynik zwykłym językiem
Pękanie przy zmianach układuPsuje się natychmiastDostosowuje się automatycznie (czyta semantycznie)
Dokładność przy danych uporządkowanych~99% przy poprawnych selektorach~95–98% (okazjonalne błędy interpretacji modelu)
Obsługa danych nieustrukturyzowanych / zmiennychSłaba bez własnej logikiMocna — AI interpretuje kontekst
Koszt na profilBliski zeru (tylko obliczenia)Około 0,001–0,002 USD (koszt tokenów API)
Etykietowanie / kategoryzacjaWymaga osobnego przetwarzaniaMoże kategoryzować, tłumaczyć i etykietować w jednym przebiegu
Nakład na utrzymanieStałe poprawki selektorówPrawie zerowy

Co wybrać?

Dla bardzo dużych, stabilnych pipeline’ów prowadzonych przez zespół inżynieryjny podejście oparte na selektorach nadal może wygrywać kosztem. Dla większości małych i średnich użytkowników scrapujących setki, a nie miliony profili, ekstrakcja AI jest lepszą inwestycją długoterminową, bo zmiany układu LinkedIn kosztują więcej czasu deweloperskiego niż oszczędzone tokeny modelu.

Kiedy repozytoria GitHub są przesadą: ścieżka no-code

Większość osób szukających „linkedin scraper github” nie chce zostać maintainerem automatyzacji przeglądarki.

Chcą wierszy w tabeli.

Użytkownicy otwarcie narzekają na użyteczność scraperów z GitHuba w wątkach z problemami: „Nie obsługuje 2FA i nie jest łatwy w użyciu, bo nie ma UI”. Odbiorcami są rekruterzy, SDR-y i menedżerowie operacyjni — nie tylko programiści Pythona.

Decyzja: budować czy kupić?

CzynnikRepozytorium GitHubNarzędzie no-code (np. Thunderbit)
Czas konfiguracji30 min–ponad 2 godz. (Python, zależności, proxy)Poniżej 2 minut (instalacja rozszerzenia, kliknięcie)
UtrzymanieNaprawiasz, gdy LinkedIn coś zmieniAktualizacje obsługuje dostawca narzędzia
AntywykrywanieKonfigurujesz proxy, opóźnienia, sesjeWbudowane w narzędzie
Strukturyzacja danychPiszesz logikę parsowaniaAI automatycznie proponuje pola
Opcje eksportuBudujesz własny pipeline eksportuJedno kliknięcie do Excel, Google Sheets, Airtable, Notion
KosztDarmowe repo + koszty proxy + twój czasDostępny darmowy plan; przy większym wolumenie rozliczenie kredytowe

Jak Thunderbit obsługuje scrapowanie LinkedIn bez kodu

podchodzi do problemu inaczej niż repozytoria GitHub. Zamiast pisać selektory albo konfigurować automatyzację przeglądarki, ty:

  1. Instalujesz
  2. Przechodzisz na dowolną stronę LinkedIn (wyniki wyszukiwania, profil, strona firmy)
  3. Klikasz „AI Suggest Fields” — AI Thunderbit czyta stronę i proponuje uporządkowane kolumny (imię i nazwisko, stanowisko, firma, lokalizacja itd.)
  4. W razie potrzeby dostosowujesz kolumny, a potem klikasz, aby wyciągnąć dane
  5. Eksportujesz bezpośrednio do Excela, Google Sheets, albo Notion

Ponieważ Thunderbit używa AI do semantycznego odczytu strony za każdym razem, nie psuje się, gdy LinkedIn zmienia DOM. To ta sama przewaga co podejście z GPT w niestandardowych skryptach Pythona, ale zamknięta w rozszerzeniu no-code zamiast w bazie kodu, którą musisz utrzymywać.

W przypadku — czyli klikania w poszczególne profile z listy wyników wyszukiwania, aby wzbogacić tabelę danych — Thunderbit obsługuje to automatycznie. Tryb przeglądarkowy działa także na stronach wymagających logowania, bez osobnej konfiguracji proxy.

Kto nadal powinien używać repozytorium GitHub?

Repozytoria GitHub nadal mają sens dla:

  • Programistów, którzy potrzebują głębokiej personalizacji albo nietypowych typów danych
  • Zespołów scrapujących przy bardzo dużym wolumenie, gdzie liczą się koszty per kredyt
  • Użytkowników, którzy muszą uruchamiać scraping w pipeline’ach CI/CD albo na serwerach
  • Osób budujących dane LinkedIn w większych zautomatyzowanych workflow

Dla wszystkich innych — szczególnie zespołów sprzedaży, rekrutacji i operacji — eliminuje cały cykl konfiguracji i utrzymania.

Krok po kroku: jak ocenić i używać LinkedIn Scraper z GitHuba

Jeśli zdecydowałeś, że GitHub to właściwa ścieżka, oto etapowy workflow, który minimalizuje stracony czas i ryzyko dla konta.

Krok 1: Wyszukaj i zawęź listę repozytoriów

Wyszukaj w GitHub hasło „linkedin scraper” i filtruj według:

  • Ostatnio aktualizowane (ostatnie 6 miesięcy)
  • Język zgodny z twoim stosem (najczęściej Python)
  • Zakres zgodny z rzeczywistą potrzebą (profile vs. oferty pracy vs. firmy)

Zostaw 3–5 repozytoriów, które wyglądają na aktywne.

Krok 2: Zastosuj kartę oceny repozytorium

Przepuść każde repozytorium przez wcześniejszą kartę oceny. Odrzuć wszystko, co ma:

  • Brak commitów w ostatnim roku
  • Nierozwiązane issue „blocked” lub „CAPTCHA”
  • Uwierzytelnianie wyłącznie hasłem
  • Brak wzmianki o sesjach, cookies albo proxy

Krok 3: Przygotuj środowisko

Typowe polecenia konfiguracyjne z repozytoriów z tego audytu:

1pip install linkedin-scraper
2playwright install chromium
3pip install linkedin-jobs-scraper
4LI_AT_COOKIE=<cookie> python your_app.py
5scrapy crawl linkedin_people_profile

Powtarzające się punkty tarcia:

  • Brak plików session.json
  • Niedopasowanie wersji sterownika przeglądarki (Chromium/Playwright)
  • Wyciąganie cookies z DevTools przeglądarki
  • Timeouty autoryzacji proxy

Krok 4: Uruchom mały testowy scraping

Zacznij od 10–20 profili. Sprawdź:

  • Czy pola są poprawnie sparsowane?
  • Czy dane są kompletne?
  • Czy pojawiły się jakieś punkty kontrolne bezpieczeństwa?
  • Czy format wyjściowy jest użyteczny, czy to tylko surowy szum JSON?

Krok 5: Skaluj ostrożnie

Dodaj losowe opóźnienia (5–15 sekund między żądaniami), zmniejsz współbieżność, ponownie używaj sesji i stosuj proxy residential. Nie przechodź od razu do setek profili dziennie na świeżym koncie.

Krok 6: Eksportuj i strukturyzuj dane

Większość repozytoriów GitHub zwraca surowy JSON lub CSV. Nadal będziesz musiał:

  • Usunąć duplikaty rekordów
  • Ujednolicić stanowiska i nazwy firm
  • Mapować pola do CRM lub ATS
  • Udokumentować pochodzenie danych na potrzeby zgodności

(Thunderbit robi strukturyzację i eksport automatycznie, jeśli wolisz pominąć ten krok.)

LinkedIn Scraper GitHub kontra narzędzia no-code: pełne porównanie

WymiarRepozytorium GitHub (selektory CSS)Repozytorium GitHub (AI/LLM)Narzędzie no-code (Thunderbit)
Czas konfiguracji1–2+ godz.1–3+ godz. (+ klucz API)Poniżej 2 minut
Umiejętności techniczneWysokie (Python, CLI)Wysokie (Python + API LLM)Brak
UtrzymanieWysokie (selektory się psują)Średnie (LLM się adaptuje, ale kod nadal wymaga aktualizacji)Brak (utrzymuje dostawca)
AntywykrywanieDIY (proxy, opóźnienia)DIYWbudowane
DokładnośćWysoka, gdy działaWysoka z okazjonalnymi błędami modeluWysoka (oparta na AI)
KosztDarmowe + koszty proxy + twój czasDarmowe + koszty API LLM + koszty proxyDarmowy plan; przy większym wolumenie rozliczenie kredytowe
EksportDIY (JSON, CSV)DIYExcel, Sheets, Airtable, Notion
Najlepsze dlaProgramistów, własnych pipeline’ówProgramistów chcących niższego nakładu na utrzymanieZespołów sprzedaży, rekrutacji i operacji

Aspekty prawne i etyczne

Skrócę tę sekcję, ale nie da się jej pominąć.

LinkedIn (obowiązuje od 3 listopada 2025) wyraźnie zakazuje używania oprogramowania, skryptów, robotów, crawlerów lub wtyczek przeglądarki do scrapowania usługi. LinkedIn potwierdza to egzekwowaniem prawa:

  • : LinkedIn ogłosił działania prawne przeciwko Proxycurl
  • : LinkedIn podał, że sprawa została rozwiązana
  • : Law360 poinformował, że LinkedIn pozwał kolejnych pozwanych za scrapowanie na skalę przemysłową

Linia spraw hiQ v. LinkedIn wprowadziła pewne niuanse wokół dostępu do danych publicznych, ale były korzystniejsze dla LinkedIn w oparciu o naruszenie umowy. „Widoczne publicznie” nie znaczy „na pewno bezpieczne do scrapowania na dużą skalę do ponownego użycia komercyjnego”.

W przypadku workflow powiązanych z UE . ze strony francuskiego organu ochrony danych to konkretny przykład tego, że regulatorzy traktują scrapowane dane LinkedIn jako dane osobowe podlegające przepisom o ochronie danych.

Korzystanie z utrzymywanego narzędzia, takiego jak Thunderbit, nie zmienia twoich obowiązków prawnych. Ale zmniejsza ryzyko przypadkowego uruchomienia reakcji bezpieczeństwa albo naruszenia limitów, które przyciągną uwagę LinkedIn.

Co działa, a co nie w 2026 roku

Co działa

  • Stosowanie karty oceny repozytorium przed zaangażowaniem się w jakiekolwiek repozytorium
  • Ponowne użycie cookies/sesji zamiast wielokrotnego automatycznego logowania
  • Proxy residential, gdy musisz wykonywać scraping oparty na koncie
  • Mniejsze, wolniejsze, bardziej „ludzkie” workflow scrapujące
  • Ekstrakcja wspierana przez AI, gdy zależy ci bardziej na adaptacyjności niż na marginalnym koszcie tokenów
  • , gdy prawdziwą potrzebą jest wynik w arkuszu, a nie posiadanie scrapera
  • Dywersyfikowanie podejść zamiast stawiania wszystkiego na jedno publiczne repozytorium

Co nie działa

  • Klonowanie repozytoriów z dużą liczbą gwiazdek bez sprawdzenia stanu utrzymania i świeżych issue
  • Używanie proxy datacenter albo darmowych list proxy do LinkedIn
  • Skalowanie do setek profili dziennie bez limitów i antywykrywania
  • Długoterminowe poleganie na selektorach CSS bez planu utrzymania
  • Traktowanie własnego prawdziwego konta LinkedIn jako jednorazowej infrastruktury
  • Mylenie „publicznie dostępne” z „umownie lub prawnie bezproblemowe”

FAQ

Czy repozytoria GitHub z LinkedIn scraper nadal działają w 2026 roku?

Niektóre tak, ale tylko niewielka część. W tym audycie ośmiu widocznych repozytoriów tylko dwa wyglądały na naprawdę użyteczne dla czytelnika w 2026 roku bez poważnych zastrzeżeń. Klucz polega na ocenie repozytoriów według aktywności utrzymania i stanu issue, a nie liczby gwiazdek. Zastosuj kartę oceny repozytorium, zanim poświęcisz czas na konfigurację któregokolwiek projektu.

Ile profili LinkedIn mogę scrapować dziennie bez bana?

Nie ma gwarantowanej bezpiecznej liczby, bo LinkedIn ocenia zachowanie sesji, a nie tylko wolumen. Raporty społeczności sugerują, że poniżej 50 profili dziennie na konto to strefa niższego ryzyka, 50–100 dziennie to średnie ryzyko, gdzie liczy się jakość infrastruktury, a powyżej 100 dziennie robi się coraz bardziej agresywnie. Losowe opóźnienia 5–15 sekund i proxy residential pomagają, ale nic nie eliminuje ryzyka całkowicie.

Czy istnieje no-code alternatywa dla projektów LinkedIn scraper z GitHuba?

Tak. pozwala scrapować strony LinkedIn w kilku kliknięciach dzięki wykrywaniu pól wspieranemu przez AI, uwierzytelnianiu w przeglądarce (bez konfiguracji proxy) i eksportowi jednym kliknięciem do Excel, Google Sheets, Airtable lub Notion. Jest zaprojektowany dla zespołów sprzedaży, rekrutacji i operacji, które chcą danych bez utrzymywania kodu. Możesz wypróbować go przez .

Czy scrapowanie danych z LinkedIn jest legalne?

To szara strefa z coraz ostrzejszymi granicami. Umowa użytkownika LinkedIn wyraźnie zakazuje scrapowania, a LinkedIn w podejmował działania prawne przeciwko scraperom. Precedens hiQ v. LinkedIn dotyczący dostępu do danych publicznych został ograniczony przez nowsze orzeczenia. RODO ma zastosowanie do danych osobowych mieszkańców UE niezależnie od sposobu ich pozyskania. W każdym komercyjnym przypadku skonsultuj się z prawnikiem odpowiednim do twojej sytuacji.

Ekstrakcja AI czy selektory CSS — co powinienem wybrać do scrapowania LinkedIn?

Selektory CSS są szybsze i tańsze na rekord, gdy działają, ale tworzą bieżnię do utrzymania, bo LinkedIn regularnie zmienia swój DOM. Ekstrakcja AI/LLM kosztuje nieco więcej na profil (~0,001–0,002 USD przy obecnych ), ale automatycznie dostosowuje się do zmian układu. Dla większości użytkowników spoza enterprise, którzy scrapują setki, a nie miliony profili, ekstrakcja AI jest lepszą inwestycją długoterminową. Wbudowany silnik AI Thunderbit daje tę przewagę bez konieczności pisania lub utrzymywania jakiegokolwiek kodu.

Dowiedz się więcej

Ke
Ke
CTO @ Thunderbit. Ke to osoba, do której wszyscy piszą, gdy dane robią się chaotyczne. Całą swoją karierę spędził na zamienianiu żmudnej, powtarzalnej pracy w ciche, małe automatyzacje, które po prostu działają. Jeśli kiedykolwiek marzyłeś, żeby arkusz kalkulacyjny sam się wypełniał, Ke prawdopodobnie już zbudował narzędzie, które to robi.
Spis treści

Wypróbuj Thunderbit

Pobieraj leady i inne dane w zaledwie 2 kliknięcia. Napędzane przez AI.

Pobierz Thunderbit To za darmo
Wyciągaj dane z pomocą AI
Łatwo przenieś dane do Google Sheets, Airtable lub Notion
Chrome Store Rating
PRODUCT HUNT#1 Product of the Week