Wyszukiwanie na GitHubie hasła „linkedin scraper” zwraca około według stanu na kwiecień 2026 roku. Większość z nich tylko zmarnuje ci czas. Brzmi ostro? Może. Ale właśnie to odkryłem po przejrzeniu ośmiu najbardziej widocznych repozytoriów, przeczytaniu dziesiątek wątków z problemami na GitHubie i zestawieniu raportów społeczności z Reddita oraz forów o scrapingu. Schemat powtarza się bez końca: repozytoria z dużą liczbą gwiazdek przyciągają uwagę, zespół LinkedIn od anty-botów analizuje kod, wykrywanie zostaje załatane, a użytkownicy kończą z niedziałającymi selektorami, pętlami CAPTCHA albo po prostu zablokowanymi kontami. Jeden z użytkowników Reddita opisał obecny stan bez ogródek — LinkedIn wprowadził „ostrzejsze limity, lepsze wykrywanie botów, śledzenie sesji i częste zmiany”, a stare narzędzia teraz „szybko się psują albo powodują oznaczanie kont i adresów IP”. Jeśli jesteś handlowcem, rekruterem albo menedżerem operacyjnym i potrzebujesz danych z LinkedIn w arkuszu, repozytorium sklonowane w zeszłym miesiącu może być już martwe. Ten przewodnik pomoże ci ocenić, które projekty na GitHubie naprawdę są warte uwagi, jak nie spalić sobie konta i kiedy lepiej całkiem odpuścić kod.
Czym jest LinkedIn Scraper na GitHubie?
Projekt LinkedIn scraper na GitHubie to skrypt open source — zwykle w Pythonie, czasem w Node.js — który automatyzuje pozyskiwanie uporządkowanych danych ze stron LinkedIn. Najczęstsze cele to:
- Profile osób: imię i nazwisko, nagłówek, firma, lokalizacja, umiejętności, doświadczenie
- Oferty pracy: tytuł, firma, lokalizacja, data publikacji, URL oferty
- Strony firmowe: opis, liczba pracowników, branża, liczba obserwujących
- Posty i zaangażowanie: treść, polubienia, komentarze, udostępnienia
W praktyce większość repozytoriów korzysta z jednego z dwóch podejść. Scrapery oparte na przeglądarce wykorzystują Selenium, Playwright albo Puppeteer, aby renderować strony, klikać kolejne kroki i wyciągać dane przez selektory CSS lub XPath. Mniejsza część próbuje bezpośrednio wywoływać wewnętrzne, nieudokumentowane endpointy API LinkedIn. A nowsza fala — wciąż rzadka na GitHubie, ale rosnąca — łączy automatyzację przeglądarki z LLM, takim jak GPT-4o mini, aby zamieniać tekst strony na uporządkowane pola bez kruchych selektorów.
Jest tu zasadnicza rozbieżność odbiorców. Te narzędzia budują programiści swobodnie poruszający się w środowiskach wirtualnych, zależnościach przeglądarki i konfiguracji proxy. Ale duża część osób szukających „linkedin scraper github” to rekruterzy, SDR-y, menedżerowie RevOps i założyciele, którym po prostu potrzebne są wiersze w arkuszu.
To właśnie ta przepaść tłumaczy większość frustracji w wątkach z problemami.
Dlaczego ludzie sięgają po GitHub w kontekście scrapingu LinkedIn
Zalety są oczywiste. Darmowe. Możliwość dostosowania. Brak uzależnienia od dostawcy. Pełna kontrola nad potokiem danych. Jeśli narzędzie SaaS zmieni cennik albo zniknie, twój kod nadal istnieje.
| Zastosowanie | Kto tego potrzebuje | Typowo pozyskiwane dane |
|---|---|---|
| Generowanie leadów | Zespoły sprzedaży | Imiona i nazwiska, stanowiska, firmy, URL-e profili, wskazówki dotyczące e-maili |
| Pozyskiwanie kandydatów | Rekruterzy | Profile, umiejętności, doświadczenie, lokalizacje |
| Badanie rynku | Zespoły operacyjne i strategiczne | Dane firmowe, liczba pracowników, oferty pracy |
| Analiza konkurencji | Zespoły marketingowe | Posty, zaangażowanie, aktualizacje firmowe, sygnały rekrutacyjne |
Ale „darmowe” to etykieta licencyjna, a nie koszt operacyjny. Prawdziwe koszty to:
- Czas konfiguracji: nawet przyjazne repozytoria zwykle wymagają od 30 minut do ponad 2 godzin na przygotowanie środowiska, zależności przeglądarki, wyciągnięcie ciasteczek i konfigurację proxy
- Utrzymanie: LinkedIn regularnie zmienia DOM i mechanizmy anty-botowe — scraper działający dziś może przestać działać w przyszłym tygodniu
- Proxy: przepustowość proxy residential kosztuje od w zależności od dostawcy i planu
- Ryzyko dla konta: twoje konto LinkedIn jest najcenniejszą rzeczą, którą ryzykujesz, i nie da się go po prostu wymienić jak adresu IP proxy
Karta oceny repozytorium: jak ocenić dowolny projekt LinkedIn Scraper na GitHubie
Większość list „najlepszych LinkedIn scraperów” porządkuje repozytoria według liczby gwiazdek. Gwiazdki mierzą historyczne zainteresowanie, a nie aktualną funkcjonalność. Repozytorium z 3 000 gwiazdek i bez commitów od 2022 roku to eksponat muzealny, nie narzędzie produkcyjne.
Zanim użyjesz git clone na czymkolwiek, zastosuj ten framework:
| Kryterium | Dlaczego ma znaczenie | Czerwona flaga |
|---|---|---|
| Data ostatniego commita | LinkedIn często zmienia DOM | Ponad 6 miesięcy temu w przypadku scraperów opartych na przeglądarce |
| Stosunek otwartych do zamkniętych issue | Reakcja maintainera | Ponad 3:1 otwartych do zamkniętych, zwłaszcza z niedawnymi zgłoszeniami „blocked” lub „CAPTCHA” |
| Funkcje antywykrywania | LinkedIn agresywnie blokuje | Brak wzmianki o cookies, sesjach, tempie działania albo proxy w README |
| Metoda uwierzytelniania | 2FA i CAPTCHA psują logowanie | Obsługa tylko logowania headless opartego na haśle |
| Typ licencji | Ryzyko prawne przy użyciu komercyjnym | Brak licencji albo niejasne warunki |
| Obsługiwane typy danych | Różne zastosowania wymagają różnych repozytoriów | Tylko jeden typ danych, gdy potrzebujesz kilku |
Jeden trik, który oszczędza najwięcej czasu: zanim zaangażujesz się w dane repozytorium, wyszukaj w zakładce Issues słowa „blocked”, „banned”, „CAPTCHA” lub „not working”. Jeśli ostatnie zgłoszenia są nimi pełne i nie ma reakcji maintainera, idź dalej. To repozytorium już przegrało.
Co naprawdę pokazał audyt z 2026 roku

Zastosowałem tę kartę oceny do ośmiu najbardziej widocznych repozytoriów LinkedIn scraper na GitHubie. Wyniki nie były zachęcające.
| Repozytorium | Gwiazdki | Ostatni commit | Działa w 2026? | Główny zakres | Najważniejsze uwagi |
|---|---|---|---|---|---|
| joeyism/linkedin_scraper | ~3 983 | kwi 2026 | ✅ Z zastrzeżeniami | Profile, firmy, posty, oferty pracy | Przepisane na Playwright, ponowne użycie sesji — ale świeże issue pokazują blokady bezpieczeństwa i niedziałające wyszukiwanie ofert |
| python-scrapy-playbook/linkedin-python-scrapy-scraper | ~111 | sty 2026 | ✅ Do tutoriali/danych publicznych | Ludzie, firmy, oferty pracy | Integracja z proxy ScrapeOps; darmowy plan pozwala na 1 000 żądań miesięcznie przy 1 wątku |
| spinlud/py-linkedin-jobs-scraper | ~472 | mar 2025 | ⚠️ Tylko oferty pracy | Oferty pracy | Obsługa cookies, eksperymentalny tryb proxy — przydatne, jeśli potrzebujesz tylko publicznych ofert |
| madingess/EasyApplyBot | ~170 | mar 2025 | ⚠️ Złe narzędzie | Automatyzacja Easy Apply | To nie scraper danych — automatyzuje aplikowanie na oferty pracy |
| linkedtales/scrapedin | ~611 | maj 2021 | ❌ | Profile | README nadal twierdzi, że „działa w 2020 roku”; issue pokazują weryfikację PIN i zmiany HTML |
| austinoboyle/scrape-linkedin-selenium | ~526 | paź 2022 | ❌ | Profile, firmy | Kiedyś użyteczne, dziś zbyt przestarzałe na 2026 rok |
| eilonmore/linkedin-private-api | ~291 | lip 2022 | ❌ | Profile, oferty pracy, firmy, posty | Wrapper do prywatnego API; nieudokumentowane endpointy zmieniają się nieprzewidywalnie |
| nsandman/linkedin-api | ~154 | lip 2019 | ❌ | Profile, wiadomości, wyszukiwanie | Historycznie ciekawe; udokumentowane ograniczenie tempa po ok. 900 żądaniach na godzinę |
Tylko 2 z 8 repozytoriów wyglądały na naprawdę użyteczne dla czytelnika w 2026 roku bez poważnych zastrzeżeń. Taki wynik nie jest niczym niezwykłym — to norma w scrapingu LinkedIn na GitHubie.
Plan zapobiegania banom: proxy, limity żądań i bezpieczeństwo konta
Ban konta to największe ryzyko operacyjne. Nawet technicznie poprawne scrapery potykają się właśnie tutaj. Kod działa; konto nie. Użytkownicy zgłaszają oznaczenia już po mimo proxy i długich opóźnień.
Ograniczanie tempa: co raportuje społeczność

Nie istnieje żadna gwarantowana bezpieczna liczba. LinkedIn ocenia wiek sesji, czas kliknięć, wzorce gwałtownych serii, reputację IP i zachowanie konta — nie tylko surowy wolumen. Dane społeczności grupują się wokół takich przedziałów:
- Jeden użytkownik zgłosił wykrycie po 40–80 profilach z proxy i tempem 33 sekund
- Inny zalecał trzymanie się ok. 30 profilów dziennie na konto
- Bardziej agresywny operator twierdził, że osiągał 100–200 profili dziennie
- dokumentuje wewnętrzne ostrzeżenie o limicie po około 900 żądaniach w ciągu godziny
Praktyczny wniosek: mniej niż 50 wyświetleń profili dziennie na konto to strefa niższego ryzyka. 50–100 dziennie to średnie ryzyko, w którym jakość sesji ma duże znaczenie. Powyżej 100/dzień/konto wchodzisz w coraz bardziej agresywny teren.
Strategia proxy: residential vs datacenter
Proxy residential pozostają standardem dla LinkedIn, ponieważ przypominają zwykły ruch użytkownika końcowego. Adresy IP z datacenter są tańsze, ale szybciej są oznaczane na bardziej zaawansowanych stronach — a LinkedIn to dokładnie taki zaawansowany serwis, na którym tani ruch szybko przyciąga uwagę.
Aktualny kontekst cenowy:
- : 3,00–4,00 USD/GB w zależności od planu
- : 4,00–6,00 USD/GB w zależności od planu
Rotuj je na poziomie sesji, nie pojedynczego żądania. Rotacja per request tworzy fingerprint, który krzyczy „infrastruktura proxy” głośniej niż jakikolwiek pojedynczy IP.
Protokół konta jednorazowego
Rada społeczności w tej kwestii jest bezpośrednia: nie traktuj głównego konta LinkedIn jak jednorazowej infrastruktury do scrapingu.
Jeśli upierasz się przy scrapingu opartym na koncie:
- Użyj osobnego konta, niezwiązanego z twoją główną tożsamością zawodową
- Uzupełnij profil w pełni i pozwól mu zachowywać się jak człowiek przez kilka dni przed scrapowaniem
- Nigdy nie wiąż swojego prawdziwego numeru telefonu z kontami do scrapingu
- Całkowicie oddziel sesje scrapingu od prawdziwego outreachu i wiadomości
Warto zauważyć: LinkedIn (obowiązuje od 3 listopada 2025) wyraźnie zakazuje fałszywych tożsamości i współdzielenia kont. Taktyka kont jednorazowych jest operacyjnie powszechna, ale umownie kłopotliwa.
Obsługa CAPTCHA
CAPTCHA to nie tylko niedogodność. To sygnał, że twoja sesja jest już pod obserwacją. Opcje obejmują:
- Ręczne rozwiązanie, aby kontynuować sesję
- Ponowne użycie cookies zamiast ponownego uruchamiania logowania
- Usługi solverów, takie jak (~0,50–1,00 USD za 1 000 CAPTCHA obrazkowych, ~1,00–2,99 USD za 1 000 rozwiązań reCAPTCHA v2)
Ale jeśli twój workflow regularnie uruchamia CAPTCHA, koszty usług solverów są najmniejszym z twoich problemów. Twoja konfiguracja przegrywa bitwę o niewykrywalność.
Spektrum ryzyka
| Wolumen | Poziom ryzyka | Zalecane podejście |
|---|---|---|
| < 50 profili/dzień | Niskie | Sesja przeglądarki lub ponowne użycie cookies, wolne tempo, bez agresywnej automatyzacji |
| 50–500 profili/dzień | Średnie do wysokiego | Proxy residential, „rozgrzane” konta, ponowne użycie sesji, losowe opóźnienia |
| 500+/dzień | Bardzo wysokie | Komercyjne API albo utrzymywane narzędzia z wbudowanym antywykrywaniem; same publiczne repozytoria GitHub zwykle nie wystarczą |
Paradoks open source: dlaczego popularne repozytoria LinkedIn Scraper na GitHubie psują się szybciej
Użytkownicy zgłaszają rozsądną obawę: „Zrobienie wersji open source oznacza, że LinkedIn może po prostu zobaczyć, co robicie, i temu zapobiec”. To nie jest paranoja. To konstrukcyjnie prawidłowe.
Problem widoczności
Duża liczba gwiazdek tworzy dwa sygnały naraz: zaufanie dla użytkowników i cel dla zespołu bezpieczeństwa LinkedIn. Im bardziej popularne staje się repozytorium, tym większe prawdopodobieństwo, że LinkedIn zacznie aktywnie przeciwdziałać jego metodom.
Widać ten cykl w danych z audytu. linkedtales/scrapedin było na tyle istotne, że reklamowało działanie z „nową stroną” LinkedIn w 2020 roku. Ale repozytorium nie nadążyło za późniejszymi zmianami weryfikacji i układu. nsandman/linkedin-api kiedyś dokumentowało przydatne sztuczki, ale jego ostatni commit był sprzed lat, jeszcze przed obecnym środowiskiem anty-botowym.
Przewaga łatek społeczności
Open source nadal ma jedną realną zaletę: aktywni maintainerzy i współtwórcy mogą szybko wprowadzać poprawki, gdy LinkedIn zmienia zabezpieczenia. joeyism/linkedin_scraper jest głównym przykładem z tego audytu — nadal pojawiają się tam błędy związane z blokadami uwierzytelniania i wyszukiwaniem, ale projekt przynajmniej żyje. Forki często wdrażają nowsze techniki omijania szybciej niż oryginalne repozytorium.
Co z tym zrobić
- Nie opieraj się na jednym publicznym repozytorium jako stałej infrastrukturze
- Szukaj aktywnych forków, które wdrażają zaktualizowane techniki omijania
- Rozważ utrzymywanie prywatnego forka do użycia produkcyjnego (żeby twoje konkretne modyfikacje nie były publiczne)
- Zakładaj, że będziesz musiał zmieniać metodę, gdy LinkedIn zmieni wykrywanie albo zachowanie UI
- Dywersyfikuj podejścia zamiast stawiać wszystko na jedno narzędzie
Ekstrakcja oparta na AI kontra selektory CSS: praktyczne porównanie

Najciekawszy techniczny podział w 2026 roku to nie GitHub kontra no-code. To ekstrakcja oparta na selektorach kontra ekstrakcja semantyczna — a różnica ma większe znaczenie, niż większość zestawień przyznaje.
Jak działają selektory CSS i dlaczego się psują
Tradycyjne scrapery analizują DOM LinkedIn i mapują każde pole na selektor CSS albo wyrażenie XPath. Gdy struktura strony jest stabilna, to podejście jest świetne: wysoka precyzja, niski koszt krańcowy, bardzo szybkie parsowanie.
Tryb awarii jest równie oczywisty. LinkedIn zmienia nazwy klas, zagnieżdżenie, zachowanie lazy-loading albo blokuje treść za innymi warstwami autoryzacji — i scraper natychmiast przestaje działać. Tytuły issue w audycie mówią same za siebie: „changed HTML”, „broken job search”, „missing values”, „authwall blocks”.
Jak działa ekstrakcja AI/LLM
Nowszy wzorzec jest prostszy w założeniu: renderujesz stronę, zbierasz widoczny tekst, prosisz model o zwrócenie uporządkowanych pól. Na tym opiera się wiele no-code AI scraperów i część nowszych, własnych workflow.
Przy aktualnych (0,15 USD/1M tokenów wejściowych, 0,60 USD/1M tokenów wyjściowych) ekstrakcja samego tekstu dla jednego profilu zwykle kosztuje 0,0006–0,0018 USD za profil. To na tyle mało, że przy średnim wolumenie jest praktycznie bez znaczenia.
Porównanie bezpośrednie
| Wymiar | Selektor CSS / XPath | Ekstrakcja AI/LLM |
|---|---|---|
| Nakład na start | Duży — analiza DOM, osobne selektory dla każdego pola | Niski — opisujesz oczekiwany wynik zwykłym językiem |
| Pękanie przy zmianach układu | Psuje się natychmiast | Dostosowuje się automatycznie (czyta semantycznie) |
| Dokładność przy danych uporządkowanych | ~99% przy poprawnych selektorach | ~95–98% (okazjonalne błędy interpretacji modelu) |
| Obsługa danych nieustrukturyzowanych / zmiennych | Słaba bez własnej logiki | Mocna — AI interpretuje kontekst |
| Koszt na profil | Bliski zeru (tylko obliczenia) | Około 0,001–0,002 USD (koszt tokenów API) |
| Etykietowanie / kategoryzacja | Wymaga osobnego przetwarzania | Może kategoryzować, tłumaczyć i etykietować w jednym przebiegu |
| Nakład na utrzymanie | Stałe poprawki selektorów | Prawie zerowy |
Co wybrać?
Dla bardzo dużych, stabilnych pipeline’ów prowadzonych przez zespół inżynieryjny podejście oparte na selektorach nadal może wygrywać kosztem. Dla większości małych i średnich użytkowników scrapujących setki, a nie miliony profili, ekstrakcja AI jest lepszą inwestycją długoterminową, bo zmiany układu LinkedIn kosztują więcej czasu deweloperskiego niż oszczędzone tokeny modelu.
Kiedy repozytoria GitHub są przesadą: ścieżka no-code
Większość osób szukających „linkedin scraper github” nie chce zostać maintainerem automatyzacji przeglądarki.
Chcą wierszy w tabeli.
Użytkownicy otwarcie narzekają na użyteczność scraperów z GitHuba w wątkach z problemami: „Nie obsługuje 2FA i nie jest łatwy w użyciu, bo nie ma UI”. Odbiorcami są rekruterzy, SDR-y i menedżerowie operacyjni — nie tylko programiści Pythona.
Decyzja: budować czy kupić?
| Czynnik | Repozytorium GitHub | Narzędzie no-code (np. Thunderbit) |
|---|---|---|
| Czas konfiguracji | 30 min–ponad 2 godz. (Python, zależności, proxy) | Poniżej 2 minut (instalacja rozszerzenia, kliknięcie) |
| Utrzymanie | Naprawiasz, gdy LinkedIn coś zmieni | Aktualizacje obsługuje dostawca narzędzia |
| Antywykrywanie | Konfigurujesz proxy, opóźnienia, sesje | Wbudowane w narzędzie |
| Strukturyzacja danych | Piszesz logikę parsowania | AI automatycznie proponuje pola |
| Opcje eksportu | Budujesz własny pipeline eksportu | Jedno kliknięcie do Excel, Google Sheets, Airtable, Notion |
| Koszt | Darmowe repo + koszty proxy + twój czas | Dostępny darmowy plan; przy większym wolumenie rozliczenie kredytowe |
Jak Thunderbit obsługuje scrapowanie LinkedIn bez kodu
podchodzi do problemu inaczej niż repozytoria GitHub. Zamiast pisać selektory albo konfigurować automatyzację przeglądarki, ty:
- Instalujesz
- Przechodzisz na dowolną stronę LinkedIn (wyniki wyszukiwania, profil, strona firmy)
- Klikasz „AI Suggest Fields” — AI Thunderbit czyta stronę i proponuje uporządkowane kolumny (imię i nazwisko, stanowisko, firma, lokalizacja itd.)
- W razie potrzeby dostosowujesz kolumny, a potem klikasz, aby wyciągnąć dane
- Eksportujesz bezpośrednio do Excela, Google Sheets, albo Notion
Ponieważ Thunderbit używa AI do semantycznego odczytu strony za każdym razem, nie psuje się, gdy LinkedIn zmienia DOM. To ta sama przewaga co podejście z GPT w niestandardowych skryptach Pythona, ale zamknięta w rozszerzeniu no-code zamiast w bazie kodu, którą musisz utrzymywać.
W przypadku — czyli klikania w poszczególne profile z listy wyników wyszukiwania, aby wzbogacić tabelę danych — Thunderbit obsługuje to automatycznie. Tryb przeglądarkowy działa także na stronach wymagających logowania, bez osobnej konfiguracji proxy.
Kto nadal powinien używać repozytorium GitHub?
Repozytoria GitHub nadal mają sens dla:
- Programistów, którzy potrzebują głębokiej personalizacji albo nietypowych typów danych
- Zespołów scrapujących przy bardzo dużym wolumenie, gdzie liczą się koszty per kredyt
- Użytkowników, którzy muszą uruchamiać scraping w pipeline’ach CI/CD albo na serwerach
- Osób budujących dane LinkedIn w większych zautomatyzowanych workflow
Dla wszystkich innych — szczególnie zespołów sprzedaży, rekrutacji i operacji — eliminuje cały cykl konfiguracji i utrzymania.
Krok po kroku: jak ocenić i używać LinkedIn Scraper z GitHuba
Jeśli zdecydowałeś, że GitHub to właściwa ścieżka, oto etapowy workflow, który minimalizuje stracony czas i ryzyko dla konta.
Krok 1: Wyszukaj i zawęź listę repozytoriów
Wyszukaj w GitHub hasło „linkedin scraper” i filtruj według:
- Ostatnio aktualizowane (ostatnie 6 miesięcy)
- Język zgodny z twoim stosem (najczęściej Python)
- Zakres zgodny z rzeczywistą potrzebą (profile vs. oferty pracy vs. firmy)
Zostaw 3–5 repozytoriów, które wyglądają na aktywne.
Krok 2: Zastosuj kartę oceny repozytorium
Przepuść każde repozytorium przez wcześniejszą kartę oceny. Odrzuć wszystko, co ma:
- Brak commitów w ostatnim roku
- Nierozwiązane issue „blocked” lub „CAPTCHA”
- Uwierzytelnianie wyłącznie hasłem
- Brak wzmianki o sesjach, cookies albo proxy
Krok 3: Przygotuj środowisko
Typowe polecenia konfiguracyjne z repozytoriów z tego audytu:
1pip install linkedin-scraper
2playwright install chromium
3pip install linkedin-jobs-scraper
4LI_AT_COOKIE=<cookie> python your_app.py
5scrapy crawl linkedin_people_profile
Powtarzające się punkty tarcia:
- Brak plików
session.json - Niedopasowanie wersji sterownika przeglądarki (Chromium/Playwright)
- Wyciąganie cookies z DevTools przeglądarki
- Timeouty autoryzacji proxy
Krok 4: Uruchom mały testowy scraping
Zacznij od 10–20 profili. Sprawdź:
- Czy pola są poprawnie sparsowane?
- Czy dane są kompletne?
- Czy pojawiły się jakieś punkty kontrolne bezpieczeństwa?
- Czy format wyjściowy jest użyteczny, czy to tylko surowy szum JSON?
Krok 5: Skaluj ostrożnie
Dodaj losowe opóźnienia (5–15 sekund między żądaniami), zmniejsz współbieżność, ponownie używaj sesji i stosuj proxy residential. Nie przechodź od razu do setek profili dziennie na świeżym koncie.
Krok 6: Eksportuj i strukturyzuj dane
Większość repozytoriów GitHub zwraca surowy JSON lub CSV. Nadal będziesz musiał:
- Usunąć duplikaty rekordów
- Ujednolicić stanowiska i nazwy firm
- Mapować pola do CRM lub ATS
- Udokumentować pochodzenie danych na potrzeby zgodności
(Thunderbit robi strukturyzację i eksport automatycznie, jeśli wolisz pominąć ten krok.)
LinkedIn Scraper GitHub kontra narzędzia no-code: pełne porównanie
| Wymiar | Repozytorium GitHub (selektory CSS) | Repozytorium GitHub (AI/LLM) | Narzędzie no-code (Thunderbit) |
|---|---|---|---|
| Czas konfiguracji | 1–2+ godz. | 1–3+ godz. (+ klucz API) | Poniżej 2 minut |
| Umiejętności techniczne | Wysokie (Python, CLI) | Wysokie (Python + API LLM) | Brak |
| Utrzymanie | Wysokie (selektory się psują) | Średnie (LLM się adaptuje, ale kod nadal wymaga aktualizacji) | Brak (utrzymuje dostawca) |
| Antywykrywanie | DIY (proxy, opóźnienia) | DIY | Wbudowane |
| Dokładność | Wysoka, gdy działa | Wysoka z okazjonalnymi błędami modelu | Wysoka (oparta na AI) |
| Koszt | Darmowe + koszty proxy + twój czas | Darmowe + koszty API LLM + koszty proxy | Darmowy plan; przy większym wolumenie rozliczenie kredytowe |
| Eksport | DIY (JSON, CSV) | DIY | Excel, Sheets, Airtable, Notion |
| Najlepsze dla | Programistów, własnych pipeline’ów | Programistów chcących niższego nakładu na utrzymanie | Zespołów sprzedaży, rekrutacji i operacji |
Aspekty prawne i etyczne
Skrócę tę sekcję, ale nie da się jej pominąć.
LinkedIn (obowiązuje od 3 listopada 2025) wyraźnie zakazuje używania oprogramowania, skryptów, robotów, crawlerów lub wtyczek przeglądarki do scrapowania usługi. LinkedIn potwierdza to egzekwowaniem prawa:
- : LinkedIn ogłosił działania prawne przeciwko Proxycurl
- : LinkedIn podał, że sprawa została rozwiązana
- : Law360 poinformował, że LinkedIn pozwał kolejnych pozwanych za scrapowanie na skalę przemysłową
Linia spraw hiQ v. LinkedIn wprowadziła pewne niuanse wokół dostępu do danych publicznych, ale były korzystniejsze dla LinkedIn w oparciu o naruszenie umowy. „Widoczne publicznie” nie znaczy „na pewno bezpieczne do scrapowania na dużą skalę do ponownego użycia komercyjnego”.
W przypadku workflow powiązanych z UE . ze strony francuskiego organu ochrony danych to konkretny przykład tego, że regulatorzy traktują scrapowane dane LinkedIn jako dane osobowe podlegające przepisom o ochronie danych.
Korzystanie z utrzymywanego narzędzia, takiego jak Thunderbit, nie zmienia twoich obowiązków prawnych. Ale zmniejsza ryzyko przypadkowego uruchomienia reakcji bezpieczeństwa albo naruszenia limitów, które przyciągną uwagę LinkedIn.
Co działa, a co nie w 2026 roku
Co działa
- Stosowanie karty oceny repozytorium przed zaangażowaniem się w jakiekolwiek repozytorium
- Ponowne użycie cookies/sesji zamiast wielokrotnego automatycznego logowania
- Proxy residential, gdy musisz wykonywać scraping oparty na koncie
- Mniejsze, wolniejsze, bardziej „ludzkie” workflow scrapujące
- Ekstrakcja wspierana przez AI, gdy zależy ci bardziej na adaptacyjności niż na marginalnym koszcie tokenów
- , gdy prawdziwą potrzebą jest wynik w arkuszu, a nie posiadanie scrapera
- Dywersyfikowanie podejść zamiast stawiania wszystkiego na jedno publiczne repozytorium
Co nie działa
- Klonowanie repozytoriów z dużą liczbą gwiazdek bez sprawdzenia stanu utrzymania i świeżych issue
- Używanie proxy datacenter albo darmowych list proxy do LinkedIn
- Skalowanie do setek profili dziennie bez limitów i antywykrywania
- Długoterminowe poleganie na selektorach CSS bez planu utrzymania
- Traktowanie własnego prawdziwego konta LinkedIn jako jednorazowej infrastruktury
- Mylenie „publicznie dostępne” z „umownie lub prawnie bezproblemowe”
FAQ
Czy repozytoria GitHub z LinkedIn scraper nadal działają w 2026 roku?
Niektóre tak, ale tylko niewielka część. W tym audycie ośmiu widocznych repozytoriów tylko dwa wyglądały na naprawdę użyteczne dla czytelnika w 2026 roku bez poważnych zastrzeżeń. Klucz polega na ocenie repozytoriów według aktywności utrzymania i stanu issue, a nie liczby gwiazdek. Zastosuj kartę oceny repozytorium, zanim poświęcisz czas na konfigurację któregokolwiek projektu.
Ile profili LinkedIn mogę scrapować dziennie bez bana?
Nie ma gwarantowanej bezpiecznej liczby, bo LinkedIn ocenia zachowanie sesji, a nie tylko wolumen. Raporty społeczności sugerują, że poniżej 50 profili dziennie na konto to strefa niższego ryzyka, 50–100 dziennie to średnie ryzyko, gdzie liczy się jakość infrastruktury, a powyżej 100 dziennie robi się coraz bardziej agresywnie. Losowe opóźnienia 5–15 sekund i proxy residential pomagają, ale nic nie eliminuje ryzyka całkowicie.
Czy istnieje no-code alternatywa dla projektów LinkedIn scraper z GitHuba?
Tak. pozwala scrapować strony LinkedIn w kilku kliknięciach dzięki wykrywaniu pól wspieranemu przez AI, uwierzytelnianiu w przeglądarce (bez konfiguracji proxy) i eksportowi jednym kliknięciem do Excel, Google Sheets, Airtable lub Notion. Jest zaprojektowany dla zespołów sprzedaży, rekrutacji i operacji, które chcą danych bez utrzymywania kodu. Możesz wypróbować go przez .
Czy scrapowanie danych z LinkedIn jest legalne?
To szara strefa z coraz ostrzejszymi granicami. Umowa użytkownika LinkedIn wyraźnie zakazuje scrapowania, a LinkedIn w podejmował działania prawne przeciwko scraperom. Precedens hiQ v. LinkedIn dotyczący dostępu do danych publicznych został ograniczony przez nowsze orzeczenia. RODO ma zastosowanie do danych osobowych mieszkańców UE niezależnie od sposobu ich pozyskania. W każdym komercyjnym przypadku skonsultuj się z prawnikiem odpowiednim do twojej sytuacji.
Ekstrakcja AI czy selektory CSS — co powinienem wybrać do scrapowania LinkedIn?
Selektory CSS są szybsze i tańsze na rekord, gdy działają, ale tworzą bieżnię do utrzymania, bo LinkedIn regularnie zmienia swój DOM. Ekstrakcja AI/LLM kosztuje nieco więcej na profil (~0,001–0,002 USD przy obecnych ), ale automatycznie dostosowuje się do zmian układu. Dla większości użytkowników spoza enterprise, którzy scrapują setki, a nie miliony profili, ekstrakcja AI jest lepszą inwestycją długoterminową. Wbudowany silnik AI Thunderbit daje tę przewagę bez konieczności pisania lub utrzymywania jakiegokolwiek kodu.
Dowiedz się więcej
