LinkedIn Scraper GitHub: Co działa w 2026 roku (a co nie)

Wyszukiwanie na GitHubie hasła „linkedin scraper” zwraca około według stanu na kwiecień 2026 roku. Większość z nich tylko zmarnuje ci czas. Brzmi ostro? Może. Ale właśnie to odkryłem po przejrzeniu ośmiu najbardziej widocznych repozytoriów, przeczytaniu dziesiątek wątków z problemami na GitHubie i zestawieniu raportów społeczności z Reddita oraz forów o scrapingu. Schemat powtarza się bez końca: repozytoria z dużą liczbą gwiazdek przyciągają uwagę, zespół LinkedIn od anty-botów analizuje kod, wykrywanie zostaje załatane, a użytkownicy kończą z niedziałającymi selektorami, pętlami CAPTCHA albo po prostu zablokowanymi kontami. Jeden z użytkowników Reddita opisał obecny stan bez ogródek — LinkedIn wprowadził „ostrzejsze limity, lepsze wykrywanie botów, śledzenie sesji i częste zmiany”, a stare narzędzia teraz „szybko się psują albo powodują oznaczanie kont i adresów IP”. Jeśli jesteś handlowcem, rekruterem albo menedżerem operacyjnym i potrzebujesz danych z LinkedIn w arkuszu, repozytorium sklonowane w zeszłym miesiącu może być już martwe. Ten przewodnik pomoże ci ocenić, które projekty na GitHubie naprawdę są warte uwagi, jak nie spalić sobie konta i kiedy lepiej całkiem odpuścić kod.

Czym jest LinkedIn Scraper na GitHubie?

Projekt LinkedIn scraper na GitHubie to skrypt open source — zwykle w Pythonie, czasem w Node.js — który automatyzuje pozyskiwanie uporządkowanych danych ze stron LinkedIn. Najczęstsze cele to:

Profile osób: imię i nazwisko, nagłówek, firma, lokalizacja, umiejętności, doświadczenie
Oferty pracy: tytuł, firma, lokalizacja, data publikacji, URL oferty
Strony firmowe: opis, liczba pracowników, branża, liczba obserwujących
Posty i zaangażowanie: treść, polubienia, komentarze, udostępnienia

W praktyce większość repozytoriów korzysta z jednego z dwóch podejść. Scrapery oparte na przeglądarce wykorzystują Selenium, Playwright albo Puppeteer, aby renderować strony, klikać kolejne kroki i wyciągać dane przez selektory CSS lub XPath. Mniejsza część próbuje bezpośrednio wywoływać wewnętrzne, nieudokumentowane endpointy API LinkedIn. A nowsza fala — wciąż rzadka na GitHubie, ale rosnąca — łączy automatyzację przeglądarki z LLM, takim jak GPT-4o mini, aby zamieniać tekst strony na uporządkowane pola bez kruchych selektorów.

Jest tu zasadnicza rozbieżność odbiorców. Te narzędzia budują programiści swobodnie poruszający się w środowiskach wirtualnych, zależnościach przeglądarki i konfiguracji proxy. Ale duża część osób szukających „linkedin scraper github” to rekruterzy, SDR-y, menedżerowie RevOps i założyciele, którym po prostu potrzebne są wiersze w arkuszu.

To właśnie ta przepaść tłumaczy większość frustracji w wątkach z problemami.

Dlaczego ludzie sięgają po GitHub w kontekście scrapingu LinkedIn

Zalety są oczywiste. Darmowe. Możliwość dostosowania. Brak uzależnienia od dostawcy. Pełna kontrola nad potokiem danych. Jeśli narzędzie SaaS zmieni cennik albo zniknie, twój kod nadal istnieje.

Zastosowanie	Kto tego potrzebuje	Typowo pozyskiwane dane
Generowanie leadów	Zespoły sprzedaży	Imiona i nazwiska, stanowiska, firmy, URL-e profili, wskazówki dotyczące e-maili
Pozyskiwanie kandydatów	Rekruterzy	Profile, umiejętności, doświadczenie, lokalizacje
Badanie rynku	Zespoły operacyjne i strategiczne	Dane firmowe, liczba pracowników, oferty pracy
Analiza konkurencji	Zespoły marketingowe	Posty, zaangażowanie, aktualizacje firmowe, sygnały rekrutacyjne

Ale „darmowe” to etykieta licencyjna, a nie koszt operacyjny. Prawdziwe koszty to:

Czas konfiguracji: nawet przyjazne repozytoria zwykle wymagają od 30 minut do ponad 2 godzin na przygotowanie środowiska, zależności przeglądarki, wyciągnięcie ciasteczek i konfigurację proxy
Utrzymanie: LinkedIn regularnie zmienia DOM i mechanizmy anty-botowe — scraper działający dziś może przestać działać w przyszłym tygodniu
Proxy: przepustowość proxy residential kosztuje od w zależności od dostawcy i planu
Ryzyko dla konta: twoje konto LinkedIn jest najcenniejszą rzeczą, którą ryzykujesz, i nie da się go po prostu wymienić jak adresu IP proxy

Karta oceny repozytorium: jak ocenić dowolny projekt LinkedIn Scraper na GitHubie

Większość list „najlepszych LinkedIn scraperów” porządkuje repozytoria według liczby gwiazdek. Gwiazdki mierzą historyczne zainteresowanie, a nie aktualną funkcjonalność. Repozytorium z 3 000 gwiazdek i bez commitów od 2022 roku to eksponat muzealny, nie narzędzie produkcyjne.

Zanim użyjesz git clone na czymkolwiek, zastosuj ten framework:

Kryterium	Dlaczego ma znaczenie	Czerwona flaga
Data ostatniego commita	LinkedIn często zmienia DOM	Ponad 6 miesięcy temu w przypadku scraperów opartych na przeglądarce
Stosunek otwartych do zamkniętych issue	Reakcja maintainera	Ponad 3:1 otwartych do zamkniętych, zwłaszcza z niedawnymi zgłoszeniami „blocked” lub „CAPTCHA”
Funkcje antywykrywania	LinkedIn agresywnie blokuje	Brak wzmianki o cookies, sesjach, tempie działania albo proxy w README
Metoda uwierzytelniania	2FA i CAPTCHA psują logowanie	Obsługa tylko logowania headless opartego na haśle
Typ licencji	Ryzyko prawne przy użyciu komercyjnym	Brak licencji albo niejasne warunki
Obsługiwane typy danych	Różne zastosowania wymagają różnych repozytoriów	Tylko jeden typ danych, gdy potrzebujesz kilku

Jeden trik, który oszczędza najwięcej czasu: zanim zaangażujesz się w dane repozytorium, wyszukaj w zakładce Issues słowa „blocked”, „banned”, „CAPTCHA” lub „not working”. Jeśli ostatnie zgłoszenia są nimi pełne i nie ma reakcji maintainera, idź dalej. To repozytorium już przegrało.

Co naprawdę pokazał audyt z 2026 roku

Zastosowałem tę kartę oceny do ośmiu najbardziej widocznych repozytoriów LinkedIn scraper na GitHubie. Wyniki nie były zachęcające.

Repozytorium	Gwiazdki	Ostatni commit	Działa w 2026?	Główny zakres	Najważniejsze uwagi
joeyism/linkedin_scraper	~3 983	kwi 2026	✅ Z zastrzeżeniami	Profile, firmy, posty, oferty pracy	Przepisane na Playwright, ponowne użycie sesji — ale świeże issue pokazują blokady bezpieczeństwa i niedziałające wyszukiwanie ofert
python-scrapy-playbook/linkedin-python-scrapy-scraper	~111	sty 2026	✅ Do tutoriali/danych publicznych	Ludzie, firmy, oferty pracy	Integracja z proxy ScrapeOps; darmowy plan pozwala na 1 000 żądań miesięcznie przy 1 wątku
spinlud/py-linkedin-jobs-scraper	~472	mar 2025	⚠️ Tylko oferty pracy	Oferty pracy	Obsługa cookies, eksperymentalny tryb proxy — przydatne, jeśli potrzebujesz tylko publicznych ofert
madingess/EasyApplyBot	~170	mar 2025	⚠️ Złe narzędzie	Automatyzacja Easy Apply	To nie scraper danych — automatyzuje aplikowanie na oferty pracy
linkedtales/scrapedin	~611	maj 2021	❌	Profile	README nadal twierdzi, że „działa w 2020 roku”; issue pokazują weryfikację PIN i zmiany HTML
austinoboyle/scrape-linkedin-selenium	~526	paź 2022	❌	Profile, firmy	Kiedyś użyteczne, dziś zbyt przestarzałe na 2026 rok
eilonmore/linkedin-private-api	~291	lip 2022	❌	Profile, oferty pracy, firmy, posty	Wrapper do prywatnego API; nieudokumentowane endpointy zmieniają się nieprzewidywalnie
nsandman/linkedin-api	~154	lip 2019	❌	Profile, wiadomości, wyszukiwanie	Historycznie ciekawe; udokumentowane ograniczenie tempa po ok. 900 żądaniach na godzinę

Tylko 2 z 8 repozytoriów wyglądały na naprawdę użyteczne dla czytelnika w 2026 roku bez poważnych zastrzeżeń. Taki wynik nie jest niczym niezwykłym — to norma w scrapingu LinkedIn na GitHubie.

Plan zapobiegania banom: proxy, limity żądań i bezpieczeństwo konta

Ban konta to największe ryzyko operacyjne. Nawet technicznie poprawne scrapery potykają się właśnie tutaj. Kod działa; konto nie. Użytkownicy zgłaszają oznaczenia już po mimo proxy i długich opóźnień.

Ograniczanie tempa: co raportuje społeczność

Nie istnieje żadna gwarantowana bezpieczna liczba. LinkedIn ocenia wiek sesji, czas kliknięć, wzorce gwałtownych serii, reputację IP i zachowanie konta — nie tylko surowy wolumen. Dane społeczności grupują się wokół takich przedziałów:

Jeden użytkownik zgłosił wykrycie po 40–80 profilach z proxy i tempem 33 sekund
Inny zalecał trzymanie się ok. 30 profilów dziennie na konto
Bardziej agresywny operator twierdził, że osiągał 100–200 profili dziennie
dokumentuje wewnętrzne ostrzeżenie o limicie po około 900 żądaniach w ciągu godziny

Praktyczny wniosek: mniej niż 50 wyświetleń profili dziennie na konto to strefa niższego ryzyka. 50–100 dziennie to średnie ryzyko, w którym jakość sesji ma duże znaczenie. Powyżej 100/dzień/konto wchodzisz w coraz bardziej agresywny teren.

Strategia proxy: residential vs datacenter

Proxy residential pozostają standardem dla LinkedIn, ponieważ przypominają zwykły ruch użytkownika końcowego. Adresy IP z datacenter są tańsze, ale szybciej są oznaczane na bardziej zaawansowanych stronach — a LinkedIn to dokładnie taki zaawansowany serwis, na którym tani ruch szybko przyciąga uwagę.

Aktualny kontekst cenowy:

: 3,00–4,00 USD/GB w zależności od planu
: 4,00–6,00 USD/GB w zależności od planu

Rotuj je na poziomie sesji, nie pojedynczego żądania. Rotacja per request tworzy fingerprint, który krzyczy „infrastruktura proxy” głośniej niż jakikolwiek pojedynczy IP.

Protokół konta jednorazowego

Rada społeczności w tej kwestii jest bezpośrednia: nie traktuj głównego konta LinkedIn jak jednorazowej infrastruktury do scrapingu.

Jeśli upierasz się przy scrapingu opartym na koncie:

Użyj osobnego konta, niezwiązanego z twoją główną tożsamością zawodową
Uzupełnij profil w pełni i pozwól mu zachowywać się jak człowiek przez kilka dni przed scrapowaniem
Nigdy nie wiąż swojego prawdziwego numeru telefonu z kontami do scrapingu
Całkowicie oddziel sesje scrapingu od prawdziwego outreachu i wiadomości

Warto zauważyć: LinkedIn (obowiązuje od 3 listopada 2025) wyraźnie zakazuje fałszywych tożsamości i współdzielenia kont. Taktyka kont jednorazowych jest operacyjnie powszechna, ale umownie kłopotliwa.

Obsługa CAPTCHA

CAPTCHA to nie tylko niedogodność. To sygnał, że twoja sesja jest już pod obserwacją. Opcje obejmują:

Ręczne rozwiązanie, aby kontynuować sesję
Ponowne użycie cookies zamiast ponownego uruchamiania logowania
Usługi solverów, takie jak (~0,50–1,00 USD za 1 000 CAPTCHA obrazkowych, ~1,00–2,99 USD za 1 000 rozwiązań reCAPTCHA v2)

Ale jeśli twój workflow regularnie uruchamia CAPTCHA, koszty usług solverów są najmniejszym z twoich problemów. Twoja konfiguracja przegrywa bitwę o niewykrywalność.

Spektrum ryzyka

Wolumen	Poziom ryzyka	Zalecane podejście
< 50 profili/dzień	Niskie	Sesja przeglądarki lub ponowne użycie cookies, wolne tempo, bez agresywnej automatyzacji
50–500 profili/dzień	Średnie do wysokiego	Proxy residential, „rozgrzane” konta, ponowne użycie sesji, losowe opóźnienia
500+/dzień	Bardzo wysokie	Komercyjne API albo utrzymywane narzędzia z wbudowanym antywykrywaniem; same publiczne repozytoria GitHub zwykle nie wystarczą

Paradoks open source: dlaczego popularne repozytoria LinkedIn Scraper na GitHubie psują się szybciej

Użytkownicy zgłaszają rozsądną obawę: „Zrobienie wersji open source oznacza, że LinkedIn może po prostu zobaczyć, co robicie, i temu zapobiec”. To nie jest paranoja. To konstrukcyjnie prawidłowe.

Problem widoczności

Duża liczba gwiazdek tworzy dwa sygnały naraz: zaufanie dla użytkowników i cel dla zespołu bezpieczeństwa LinkedIn. Im bardziej popularne staje się repozytorium, tym większe prawdopodobieństwo, że LinkedIn zacznie aktywnie przeciwdziałać jego metodom.

Widać ten cykl w danych z audytu. linkedtales/scrapedin było na tyle istotne, że reklamowało działanie z „nową stroną” LinkedIn w 2020 roku. Ale repozytorium nie nadążyło za późniejszymi zmianami weryfikacji i układu. nsandman/linkedin-api kiedyś dokumentowało przydatne sztuczki, ale jego ostatni commit był sprzed lat, jeszcze przed obecnym środowiskiem anty-botowym.

Przewaga łatek społeczności

Open source nadal ma jedną realną zaletę: aktywni maintainerzy i współtwórcy mogą szybko wprowadzać poprawki, gdy LinkedIn zmienia zabezpieczenia. joeyism/linkedin_scraper jest głównym przykładem z tego audytu — nadal pojawiają się tam błędy związane z blokadami uwierzytelniania i wyszukiwaniem, ale projekt przynajmniej żyje. Forki często wdrażają nowsze techniki omijania szybciej niż oryginalne repozytorium.

Co z tym zrobić

Nie opieraj się na jednym publicznym repozytorium jako stałej infrastrukturze
Szukaj aktywnych forków, które wdrażają zaktualizowane techniki omijania
Rozważ utrzymywanie prywatnego forka do użycia produkcyjnego (żeby twoje konkretne modyfikacje nie były publiczne)
Zakładaj, że będziesz musiał zmieniać metodę, gdy LinkedIn zmieni wykrywanie albo zachowanie UI
Dywersyfikuj podejścia zamiast stawiać wszystko na jedno narzędzie

Ekstrakcja oparta na AI kontra selektory CSS: praktyczne porównanie

Najciekawszy techniczny podział w 2026 roku to nie GitHub kontra no-code. To ekstrakcja oparta na selektorach kontra ekstrakcja semantyczna — a różnica ma większe znaczenie, niż większość zestawień przyznaje.

Jak działają selektory CSS i dlaczego się psują

Tradycyjne scrapery analizują DOM LinkedIn i mapują każde pole na selektor CSS albo wyrażenie XPath. Gdy struktura strony jest stabilna, to podejście jest świetne: wysoka precyzja, niski koszt krańcowy, bardzo szybkie parsowanie.

Tryb awarii jest równie oczywisty. LinkedIn zmienia nazwy klas, zagnieżdżenie, zachowanie lazy-loading albo blokuje treść za innymi warstwami autoryzacji — i scraper natychmiast przestaje działać. Tytuły issue w audycie mówią same za siebie: „changed HTML”, „broken job search”, „missing values”, „authwall blocks”.

Jak działa ekstrakcja AI/LLM

Nowszy wzorzec jest prostszy w założeniu: renderujesz stronę, zbierasz widoczny tekst, prosisz model o zwrócenie uporządkowanych pól. Na tym opiera się wiele no-code AI scraperów i część nowszych, własnych workflow.

Przy aktualnych (0,15 USD/1M tokenów wejściowych, 0,60 USD/1M tokenów wyjściowych) ekstrakcja samego tekstu dla jednego profilu zwykle kosztuje 0,0006–0,0018 USD za profil. To na tyle mało, że przy średnim wolumenie jest praktycznie bez znaczenia.

Porównanie bezpośrednie

Wymiar	Selektor CSS / XPath	Ekstrakcja AI/LLM
Nakład na start	Duży — analiza DOM, osobne selektory dla każdego pola	Niski — opisujesz oczekiwany wynik zwykłym językiem
Pękanie przy zmianach układu	Psuje się natychmiast	Dostosowuje się automatycznie (czyta semantycznie)
Dokładność przy danych uporządkowanych	~99% przy poprawnych selektorach	~95–98% (okazjonalne błędy interpretacji modelu)
Obsługa danych nieustrukturyzowanych / zmiennych	Słaba bez własnej logiki	Mocna — AI interpretuje kontekst
Koszt na profil	Bliski zeru (tylko obliczenia)	Około 0,001–0,002 USD (koszt tokenów API)
Etykietowanie / kategoryzacja	Wymaga osobnego przetwarzania	Może kategoryzować, tłumaczyć i etykietować w jednym przebiegu
Nakład na utrzymanie	Stałe poprawki selektorów	Prawie zerowy

Co wybrać?

Dla bardzo dużych, stabilnych pipeline’ów prowadzonych przez zespół inżynieryjny podejście oparte na selektorach nadal może wygrywać kosztem. Dla większości małych i średnich użytkowników scrapujących setki, a nie miliony profili, ekstrakcja AI jest lepszą inwestycją długoterminową, bo zmiany układu LinkedIn kosztują więcej czasu deweloperskiego niż oszczędzone tokeny modelu.

Kiedy repozytoria GitHub są przesadą: ścieżka no-code

Większość osób szukających „linkedin scraper github” nie chce zostać maintainerem automatyzacji przeglądarki.

Chcą wierszy w tabeli.

Użytkownicy otwarcie narzekają na użyteczność scraperów z GitHuba w wątkach z problemami: „Nie obsługuje 2FA i nie jest łatwy w użyciu, bo nie ma UI”. Odbiorcami są rekruterzy, SDR-y i menedżerowie operacyjni — nie tylko programiści Pythona.

Decyzja: budować czy kupić?

Czynnik	Repozytorium GitHub	Narzędzie no-code (np. Thunderbit)
Czas konfiguracji	30 min–ponad 2 godz. (Python, zależności, proxy)	Poniżej 2 minut (instalacja rozszerzenia, kliknięcie)
Utrzymanie	Naprawiasz, gdy LinkedIn coś zmieni	Aktualizacje obsługuje dostawca narzędzia
Antywykrywanie	Konfigurujesz proxy, opóźnienia, sesje	Wbudowane w narzędzie
Strukturyzacja danych	Piszesz logikę parsowania	AI automatycznie proponuje pola
Opcje eksportu	Budujesz własny pipeline eksportu	Jedno kliknięcie do Excel, Google Sheets, Airtable, Notion
Koszt	Darmowe repo + koszty proxy + twój czas	Dostępny darmowy plan; przy większym wolumenie rozliczenie kredytowe

Jak Thunderbit obsługuje scrapowanie LinkedIn bez kodu

podchodzi do problemu inaczej niż repozytoria GitHub. Zamiast pisać selektory albo konfigurować automatyzację przeglądarki, ty:

Instalujesz
Przechodzisz na dowolną stronę LinkedIn (wyniki wyszukiwania, profil, strona firmy)
Klikasz „AI Suggest Fields” — AI Thunderbit czyta stronę i proponuje uporządkowane kolumny (imię i nazwisko, stanowisko, firma, lokalizacja itd.)
W razie potrzeby dostosowujesz kolumny, a potem klikasz, aby wyciągnąć dane
Eksportujesz bezpośrednio do Excela, Google Sheets, albo Notion

Ponieważ Thunderbit używa AI do semantycznego odczytu strony za każdym razem, nie psuje się, gdy LinkedIn zmienia DOM. To ta sama przewaga co podejście z GPT w niestandardowych skryptach Pythona, ale zamknięta w rozszerzeniu no-code zamiast w bazie kodu, którą musisz utrzymywać.

W przypadku — czyli klikania w poszczególne profile z listy wyników wyszukiwania, aby wzbogacić tabelę danych — Thunderbit obsługuje to automatycznie. Tryb przeglądarkowy działa także na stronach wymagających logowania, bez osobnej konfiguracji proxy.

Kto nadal powinien używać repozytorium GitHub?

Repozytoria GitHub nadal mają sens dla:

Programistów, którzy potrzebują głębokiej personalizacji albo nietypowych typów danych
Zespołów scrapujących przy bardzo dużym wolumenie, gdzie liczą się koszty per kredyt
Użytkowników, którzy muszą uruchamiać scraping w pipeline’ach CI/CD albo na serwerach
Osób budujących dane LinkedIn w większych zautomatyzowanych workflow

Dla wszystkich innych — szczególnie zespołów sprzedaży, rekrutacji i operacji — eliminuje cały cykl konfiguracji i utrzymania.

Krok po kroku: jak ocenić i używać LinkedIn Scraper z GitHuba

Jeśli zdecydowałeś, że GitHub to właściwa ścieżka, oto etapowy workflow, który minimalizuje stracony czas i ryzyko dla konta.

Krok 1: Wyszukaj i zawęź listę repozytoriów

Wyszukaj w GitHub hasło „linkedin scraper” i filtruj według:

Ostatnio aktualizowane (ostatnie 6 miesięcy)
Język zgodny z twoim stosem (najczęściej Python)
Zakres zgodny z rzeczywistą potrzebą (profile vs. oferty pracy vs. firmy)

Zostaw 3–5 repozytoriów, które wyglądają na aktywne.

Krok 2: Zastosuj kartę oceny repozytorium

Przepuść każde repozytorium przez wcześniejszą kartę oceny. Odrzuć wszystko, co ma:

Brak commitów w ostatnim roku
Nierozwiązane issue „blocked” lub „CAPTCHA”
Uwierzytelnianie wyłącznie hasłem
Brak wzmianki o sesjach, cookies albo proxy

Krok 3: Przygotuj środowisko

Typowe polecenia konfiguracyjne z repozytoriów z tego audytu:

1pip install linkedin-scraper
2playwright install chromium
3pip install linkedin-jobs-scraper
4LI_AT_COOKIE=<cookie> python your_app.py
5scrapy crawl linkedin_people_profile

Powtarzające się punkty tarcia:

Brak plików session.json
Niedopasowanie wersji sterownika przeglądarki (Chromium/Playwright)
Wyciąganie cookies z DevTools przeglądarki
Timeouty autoryzacji proxy

Krok 4: Uruchom mały testowy scraping

Zacznij od 10–20 profili. Sprawdź:

Czy pola są poprawnie sparsowane?
Czy dane są kompletne?
Czy pojawiły się jakieś punkty kontrolne bezpieczeństwa?
Czy format wyjściowy jest użyteczny, czy to tylko surowy szum JSON?

Krok 5: Skaluj ostrożnie

Dodaj losowe opóźnienia (5–15 sekund między żądaniami), zmniejsz współbieżność, ponownie używaj sesji i stosuj proxy residential. Nie przechodź od razu do setek profili dziennie na świeżym koncie.

Krok 6: Eksportuj i strukturyzuj dane

Większość repozytoriów GitHub zwraca surowy JSON lub CSV. Nadal będziesz musiał:

Usunąć duplikaty rekordów
Ujednolicić stanowiska i nazwy firm
Mapować pola do CRM lub ATS
Udokumentować pochodzenie danych na potrzeby zgodności

(Thunderbit robi strukturyzację i eksport automatycznie, jeśli wolisz pominąć ten krok.)

LinkedIn Scraper GitHub kontra narzędzia no-code: pełne porównanie

Wymiar	Repozytorium GitHub (selektory CSS)	Repozytorium GitHub (AI/LLM)	Narzędzie no-code (Thunderbit)
Czas konfiguracji	1–2+ godz.	1–3+ godz. (+ klucz API)	Poniżej 2 minut
Umiejętności techniczne	Wysokie (Python, CLI)	Wysokie (Python + API LLM)	Brak
Utrzymanie	Wysokie (selektory się psują)	Średnie (LLM się adaptuje, ale kod nadal wymaga aktualizacji)	Brak (utrzymuje dostawca)
Antywykrywanie	DIY (proxy, opóźnienia)	DIY	Wbudowane
Dokładność	Wysoka, gdy działa	Wysoka z okazjonalnymi błędami modelu	Wysoka (oparta na AI)
Koszt	Darmowe + koszty proxy + twój czas	Darmowe + koszty API LLM + koszty proxy	Darmowy plan; przy większym wolumenie rozliczenie kredytowe
Eksport	DIY (JSON, CSV)	DIY	Excel, Sheets, Airtable, Notion
Najlepsze dla	Programistów, własnych pipeline’ów	Programistów chcących niższego nakładu na utrzymanie	Zespołów sprzedaży, rekrutacji i operacji

Aspekty prawne i etyczne

Skrócę tę sekcję, ale nie da się jej pominąć.

LinkedIn (obowiązuje od 3 listopada 2025) wyraźnie zakazuje używania oprogramowania, skryptów, robotów, crawlerów lub wtyczek przeglądarki do scrapowania usługi. LinkedIn potwierdza to egzekwowaniem prawa:

: LinkedIn ogłosił działania prawne przeciwko Proxycurl
: LinkedIn podał, że sprawa została rozwiązana
: Law360 poinformował, że LinkedIn pozwał kolejnych pozwanych za scrapowanie na skalę przemysłową

Linia spraw hiQ v. LinkedIn wprowadziła pewne niuanse wokół dostępu do danych publicznych, ale były korzystniejsze dla LinkedIn w oparciu o naruszenie umowy. „Widoczne publicznie” nie znaczy „na pewno bezpieczne do scrapowania na dużą skalę do ponownego użycia komercyjnego”.

W przypadku workflow powiązanych z UE . ze strony francuskiego organu ochrony danych to konkretny przykład tego, że regulatorzy traktują scrapowane dane LinkedIn jako dane osobowe podlegające przepisom o ochronie danych.

Korzystanie z utrzymywanego narzędzia, takiego jak Thunderbit, nie zmienia twoich obowiązków prawnych. Ale zmniejsza ryzyko przypadkowego uruchomienia reakcji bezpieczeństwa albo naruszenia limitów, które przyciągną uwagę LinkedIn.

Co działa, a co nie w 2026 roku

Co działa

Stosowanie karty oceny repozytorium przed zaangażowaniem się w jakiekolwiek repozytorium
Ponowne użycie cookies/sesji zamiast wielokrotnego automatycznego logowania
Proxy residential, gdy musisz wykonywać scraping oparty na koncie
Mniejsze, wolniejsze, bardziej „ludzkie” workflow scrapujące
Ekstrakcja wspierana przez AI, gdy zależy ci bardziej na adaptacyjności niż na marginalnym koszcie tokenów
, gdy prawdziwą potrzebą jest wynik w arkuszu, a nie posiadanie scrapera
Dywersyfikowanie podejść zamiast stawiania wszystkiego na jedno publiczne repozytorium

Co nie działa

Klonowanie repozytoriów z dużą liczbą gwiazdek bez sprawdzenia stanu utrzymania i świeżych issue
Używanie proxy datacenter albo darmowych list proxy do LinkedIn
Skalowanie do setek profili dziennie bez limitów i antywykrywania
Długoterminowe poleganie na selektorach CSS bez planu utrzymania
Traktowanie własnego prawdziwego konta LinkedIn jako jednorazowej infrastruktury
Mylenie „publicznie dostępne” z „umownie lub prawnie bezproblemowe”

FAQ

Czy repozytoria GitHub z LinkedIn scraper nadal działają w 2026 roku?

Niektóre tak, ale tylko niewielka część. W tym audycie ośmiu widocznych repozytoriów tylko dwa wyglądały na naprawdę użyteczne dla czytelnika w 2026 roku bez poważnych zastrzeżeń. Klucz polega na ocenie repozytoriów według aktywności utrzymania i stanu issue, a nie liczby gwiazdek. Zastosuj kartę oceny repozytorium, zanim poświęcisz czas na konfigurację któregokolwiek projektu.

Ile profili LinkedIn mogę scrapować dziennie bez bana?

Nie ma gwarantowanej bezpiecznej liczby, bo LinkedIn ocenia zachowanie sesji, a nie tylko wolumen. Raporty społeczności sugerują, że poniżej 50 profili dziennie na konto to strefa niższego ryzyka, 50–100 dziennie to średnie ryzyko, gdzie liczy się jakość infrastruktury, a powyżej 100 dziennie robi się coraz bardziej agresywnie. Losowe opóźnienia 5–15 sekund i proxy residential pomagają, ale nic nie eliminuje ryzyka całkowicie.

Czy istnieje no-code alternatywa dla projektów LinkedIn scraper z GitHuba?

Tak. pozwala scrapować strony LinkedIn w kilku kliknięciach dzięki wykrywaniu pól wspieranemu przez AI, uwierzytelnianiu w przeglądarce (bez konfiguracji proxy) i eksportowi jednym kliknięciem do Excel, Google Sheets, Airtable lub Notion. Jest zaprojektowany dla zespołów sprzedaży, rekrutacji i operacji, które chcą danych bez utrzymywania kodu. Możesz wypróbować go przez .

Czy scrapowanie danych z LinkedIn jest legalne?

To szara strefa z coraz ostrzejszymi granicami. Umowa użytkownika LinkedIn wyraźnie zakazuje scrapowania, a LinkedIn w podejmował działania prawne przeciwko scraperom. Precedens hiQ v. LinkedIn dotyczący dostępu do danych publicznych został ograniczony przez nowsze orzeczenia. RODO ma zastosowanie do danych osobowych mieszkańców UE niezależnie od sposobu ich pozyskania. W każdym komercyjnym przypadku skonsultuj się z prawnikiem odpowiednim do twojej sytuacji.

Ekstrakcja AI czy selektory CSS — co powinienem wybrać do scrapowania LinkedIn?

Selektory CSS są szybsze i tańsze na rekord, gdy działają, ale tworzą bieżnię do utrzymania, bo LinkedIn regularnie zmienia swój DOM. Ekstrakcja AI/LLM kosztuje nieco więcej na profil (~0,001–0,002 USD przy obecnych ), ale automatycznie dostosowuje się do zmian układu. Dla większości użytkowników spoza enterprise, którzy scrapują setki, a nie miliony profili, ekstrakcja AI jest lepszą inwestycją długoterminową. Wbudowany silnik AI Thunderbit daje tę przewagę bez konieczności pisania lub utrzymywania jakiegokolwiek kodu.

Dowiedz się więcej

Wyciągaj dane z pomocą AI

Łatwo przenieś dane do Google Sheets, Airtable lub Notion

Chrome Store Rating

PRODUCT HUNT#1 Product of the Week

LinkedIn Scraper GitHub: Co działa w 2026 roku (a co nie)

Wypróbuj Thunderbit