LinkedIn Scraper GitHub: Was 2026 funktioniert (und was nicht)

Eine GitHub-Suche nach „linkedin scraper“ liefert Stand April 2026 rund . Die meisten davon kosten dich am Ende nur Zeit. Hart? Vielleicht. Aber genau das habe ich nach der Prüfung von acht der sichtbarsten Repos, dem Lesen Dutzender GitHub-Issuethreads und dem Abgleich von Community-Berichten aus Reddit und Scraping-Foren festgestellt. Das Muster ist immer wieder dasselbe: Repos mit vielen Sternen ziehen Aufmerksamkeit auf sich, das Anti-Bot-Team von LinkedIn analysiert den Code, die Erkennung wird nachgeschärft, und am Ende bleiben kaputte Selektoren, CAPTCHA-Schleifen oder sogar gesperrte Konten zurück. Ein Reddit-Nutzer brachte den aktuellen Stand auf den Punkt: LinkedIn habe inzwischen „strengere Rate Limits, bessere Bot-Erkennung, Session-Tracking und häufige Änderungen“ eingeführt, und alte Tools würden nun „schnell kaputtgehen oder Konten/IPs auf die Blacklist setzen“. Wenn du als Sales-Rep, Recruiter oder Ops-Manager LinkedIn-Daten in einer Tabelle brauchst, ist das Repo, das du letzten Monat geklont hast, womöglich schon Geschichte. Dieser Leitfaden soll dir helfen herauszufinden, welche GitHub-Projekte deine Zeit wirklich wert sind, wie du dein Konto nicht verheizt und wann es sinnvoller ist, ganz auf Code zu verzichten.

Was ist ein LinkedIn Scraper auf GitHub?

Ein LinkedIn-Scraper-GitHub-Projekt ist ein Open-Source-Skript — meist in Python, manchmal in Node.js —, das das Extrahieren strukturierter Daten von LinkedIn-Seiten automatisiert. Typische Zielseiten sind:

Profile von Personen: Name, Überschrift, Unternehmen, Standort, Fähigkeiten, Berufserfahrung
Stellenanzeigen: Titel, Unternehmen, Standort, Veröffentlichungsdatum, Job-URL
Unternehmensseiten: Übersicht, Mitarbeiterzahl, Branche, Follower-Zahl
Beiträge und Interaktionen: Inhaltstext, Likes, Kommentare, Shares

Unter der Haube nutzen die meisten Repos einen von zwei Ansätzen. Browsergesteuerte Scraper setzen auf Selenium, Playwright oder Puppeteer, um Seiten zu rendern, Abläufe durchzuklicken und Daten per CSS-Selektoren oder XPath zu extrahieren. Ein kleinerer Teil versucht, direkt die internen (nicht dokumentierten) API-Endpunkte von LinkedIn aufzurufen. Und eine neuere Welle — auf GitHub noch selten, aber im Wachstum — kombiniert Browser-Automatisierung mit einem LLM wie GPT-4o mini, um Seitentext in strukturierte Felder umzuwandeln, ohne fragile Selektoren zu brauchen.

Es gibt einen grundlegenden Zielgruppen-Konflikt. Diese Tools werden von Entwicklern gebaut, die mit virtuellen Umgebungen, Browser-Abhängigkeiten und Proxy-Konfigurationen vertraut sind. Aber ein großer Teil der Menschen, die nach „linkedin scraper github“ suchen, sind Recruiter, SDRs, RevOps-Manager und Gründer, die einfach Zeilen in einer Tabelle wollen.

Diese Lücke erklärt den Großteil der Frustration in den Issuethreads.

Warum Menschen bei LinkedIn-Scraping zu GitHub greifen

Der Reiz ist offensichtlich. Kostenlos. Anpassbar. Kein Vendor Lock-in. Volle Kontrolle über die Datenpipeline. Wenn ein SaaS-Tool die Preise ändert oder eingestellt wird, läuft dein Code immer noch.

Anwendungsfall	Wer braucht es	Typische extrahierte Daten
Leadgenerierung	Vertriebsteams	Namen, Titel, Unternehmen, Profil-URLs, Hinweise auf E-Mail-Adressen
Kandidatensuche	Recruiter	Profile, Fähigkeiten, Erfahrung, Standorte
Marktforschung	Ops- und Strategieteams	Unternehmensdaten, Mitarbeiterzahlen, Stellenausschreibungen
Competitive Intelligence	Marketingteams	Beiträge, Interaktionen, Unternehmensupdates, Hiring-Signale

„Kostenlos“ ist allerdings nur ein Lizenzetikett, kein Hinweis auf die tatsächlichen Betriebskosten. Die echten Kosten sind:

Einrichtungszeit: Selbst einfache Repos brauchen meist 30 Minuten bis über 2 Stunden für Setup, Browser-Abhängigkeiten, Cookie-Extraktion und Proxy-Konfiguration
Wartung: LinkedIn ändert regelmäßig sein DOM und seine Anti-Bot-Abwehr — ein Scraper, der heute funktioniert, kann nächste Woche schon brechen
Proxys: Residential-Proxy-Bandbreite kostet je nach Anbieter und Tarif etwa
Kontorisiko: Dein LinkedIn-Konto ist das teuerste Gut auf dem Spiel und lässt sich nicht wie eine Proxy-IP einfach austauschen

Die Repo-Health-Scorecard: So bewertest du jedes LinkedIn-Scraper-GitHub-Projekt

Die meisten Listen mit den „besten LinkedIn-Scrapern“ bewerten Repos nach der Sternanzahl. Sterne messen historisches Interesse, nicht aktuelle Funktion. Ein Repo mit 3.000 Sternen und keinen Commits seit 2022 ist ein Museumsstück, kein Produktionstool.

Bevor du irgendwo git clone ausführst, nutze dieses Raster:

Kriterium	Warum es wichtig ist	Warnsignal
Datum des letzten Commits	LinkedIn ändert sein DOM häufig	Vor mehr als 6 Monaten bei browsergesteuerten Repos
Verhältnis offener/geschlossener Issues	Reaktionsfähigkeit der Maintainer	Über 3:1 offen zu geschlossen, besonders bei aktuellen Berichten zu „blocked“ oder „CAPTCHA“
Anti-Detection-Funktionen	LinkedIn sperrt aggressiv	Kein Hinweis auf Cookies, Sessions, Pacing oder Proxys in der README
Authentifizierungsmethode	2FA und CAPTCHA brechen Login-Flows	Nur passwortbasierter Headless-Login wird unterstützt
Lizenztyp	Rechtliches Risiko bei kommerzieller Nutzung	Keine Lizenz oder unklare Bedingungen
Unterstützte Datentypen	Unterschiedliche Use Cases brauchen unterschiedliche Repos	Nur ein Datentyp, obwohl du mehrere brauchst

Der eine Trick, der am meisten Zeit spart: Suche vor dem Commit in der Issues-Ansicht nach „blocked“, „banned“, „CAPTCHA“ oder „not working“. Wenn aktuelle Issues voll mit solchen Begriffen sind und der Maintainer nicht reagiert, geh weiter. Dieses Repo hat den Kampf schon verloren.

Was der Audit 2026 tatsächlich ergeben hat

Ich habe diese Scorecard auf acht der sichtbarsten LinkedIn-Scraper-Repos auf GitHub angewendet. Das Ergebnis war wenig ermutigend.

Repo	Sterne	Letzter Commit	2026 nutzbar?	Hauptumfang	Wichtige Hinweise
joeyism/linkedin_scraper	~3.983	Apr. 2026	✅ Mit Vorbehalten	Profile, Unternehmen, Beiträge, Jobs	Playwright-Umschreibung, Wiederverwendung von Sessions — aktuelle Issues zeigen aber Sicherheitsblockaden und kaputte Jobsuche
python-scrapy-playbook/linkedin-python-scrapy-scraper	~111	Jan. 2026	✅ Für Tutorials/öffentliche Daten	Personen, Unternehmen, Jobs	ScrapeOps-Proxy-Integration; der Free-Plan erlaubt 1.000 Anfragen/Monat mit 1 Thread
spinlud/py-linkedin-jobs-scraper	~472	März 2025	⚠️ Nur Jobs	Jobs	Cookie-Support, experimenteller Proxy-Modus — nützlich, wenn du nur öffentliche Stellenanzeigen brauchst
madingess/EasyApplyBot	~170	März 2025	⚠️ Falsches Tool	Easy-Apply-Automatisierung	Kein Datenscraper — automatisiert Bewerbungen
linkedtales/scrapedin	~611	Mai 2021	❌	Profile	README sagt immer noch „working in 2020“; Issues zeigen Pin-Verifikation und HTML-Änderungen
austinoboyle/scrape-linkedin-selenium	~526	Okt. 2022	❌	Profile, Unternehmen	Früher nützlich, 2026 aber zu veraltet
eilonmore/linkedin-private-api	~291	Juli 2022	❌	Profile, Jobs, Unternehmen, Beiträge	Wrapper für eine private API; nicht dokumentierte Endpunkte ändern sich unvorhersehbar
nsandman/linkedin-api	~154	Juli 2019	❌	Profile, Messaging, Suche	Historisch interessant; dokumentiertes Rate-Limiting nach etwa 900 Anfragen/Stunde

Nur 2 von 8 Repos wirkten für einen Leser im Jahr 2026 ohne größere Einschränkungen wirklich brauchbar. Das ist bei LinkedIn-Scraping auf GitHub keineswegs ungewöhnlich — es ist der Normalfall.

Der Plan zur Ban-Vermeidung: Proxys, Rate Limits und Kontosicherheit

Kontosperren sind das größte Betriebsrisiko. Selbst technisch saubere Scraper scheitern hier. Der Code funktioniert — das Konto nicht. Nutzer berichten, schon nach nur markiert worden zu sein, obwohl sie Proxys und lange Verzögerungen verwendet hatten.

Rate Limiting: Was die Community berichtet

Es gibt keine garantiert sichere Zahl. LinkedIn bewertet Session-Alter, Klicktiming, Burst-Muster, IP-Reputation und Kontoverhalten — nicht nur das rohe Volumen. Community-Daten clustern sich grob in diese Bereiche:

Ein Nutzer berichtete von Erkennung nach 40–80 Profilen mit Proxys und 33-Sekunden-Taktung
Ein anderer empfahl, ungefähr bei 30 Profilen/Tag/Konto zu bleiben
Ein aggressiverer Betreiber behauptete , über den Tag verteilt
dokumentierte eine interne Rate-Limit-Warnung nach etwa 900 Anfragen in einer Stunde

Die praktische Einordnung: Unter 50 Profilaufrufen/Tag/Konto liegt der risikoärmere Bereich. 50–100/Tag ist mittleres Risiko, bei dem die Session-Qualität stark zählt. Oberhalb von 100/Tag/Konto wird es zunehmend aggressiv.

Proxy-Strategie: Residential vs. Datacenter

Residential Proxys bleiben für LinkedIn der Standard, weil sie normalem Endnutzer-Traffic ähneln. Datacenter-IPs sind günstiger, fallen auf anspruchsvollen Seiten aber schneller auf — und LinkedIn ist genau die Art von anspruchsvoller Seite, auf der billiger Traffic bemerkt wird.

Aktueller Preisrahmen:

: 3,00–4,00 US-Dollar/GB je nach Tarif
: 4,00–6,00 US-Dollar/GB je nach Tarif

Rotiere pro Session, nicht pro Request. Eine Rotation pro Anfrage erzeugt ein Fingerprint-Muster, das „Proxy-Infrastruktur“ lauter schreit als jede einzelne IP es je könnte.

Protocol für Wegwerfkonten

Die Community ist hier sehr deutlich: Behandle dein Haupt-LinkedIn-Konto nicht als entbehrliche Scraping-Infrastruktur.

Wenn du unbedingt kontobasiert scrapen willst:

Nutze ein separates Konto, getrennt von deiner primären beruflichen Identität
Fülle das Profil vollständig aus und verhalte dich mehrere Tage lang wie ein Mensch, bevor du mit dem Scraping beginnst
Verknüpfe niemals deine echte Telefonnummer mit Scraping-Konten
Halte Scraping-Sessions strikt getrennt von echtem Outreach und Messaging

Wichtig: Die (gültig ab 3. November 2025) verbietet ausdrücklich falsche Identitäten und das Teilen von Konten. Der Wegwerfkonten-Ansatz ist operativ verbreitet, aber vertraglich heikel.

Umgang mit CAPTCHAs

Ein CAPTCHA ist nicht nur lästig. Es ist ein Signal, dass deine Session bereits unter Beobachtung steht. Optionen sind:

Manuelle Eingabe, um eine Session fortzusetzen
Cookies wiederverwenden, statt Login-Flows jedes Mal neu auszuführen
Solver-Dienste wie (~0,50–1,00 US-Dollar pro 1.000 Bild-CAPTCHAs, ~1,00–2,99 US-Dollar pro 1.000 reCAPTCHA-v2-Lösungen)

Wenn dein Workflow jedoch regelmäßig CAPTCHAs auslöst, sind die Kosten für Solver-Dienste dein kleinstes Problem. Dein Stack verliert den Stealth-Kampf.

Das Risikospektrum

Umfang	Risikostufe	Empfohlener Ansatz
< 50 Profile/Tag	Niedrig	Browser-Session oder Cookie-Wiederverwendung, langsames Pacing, keine aggressive Automatisierung
50–500 Profile/Tag	Mittel bis hoch	Residential Proxys, „warme“ Konten, Session-Wiederverwendung, randomisierte Verzögerungen
500+/Tag	Sehr hoch	Kommerzielle APIs oder gepflegte Tools mit integrierter Anti-Detection; öffentliche GitHub-Repos allein reichen meist nicht aus

Das Open-Source-Paradox: Warum populäre LinkedIn-Scraper-GitHub-Repos schneller kaputtgehen

Nutzer äußern einen fairen Einwand: „Wenn ihr eine Open-Source-Version baut, kann LinkedIn einfach anschauen, was ihr tut, und es verhindern.“ Diese Sorge ist nicht paranoid. Sie ist strukturell korrekt.

Das Sichtbarkeitsproblem

Viele Sterne erzeugen zwei Signale zugleich: Vertrauen für Nutzer und ein Ziel für das Security-Team von LinkedIn. Je populärer ein Repo wird, desto wahrscheinlicher ist es, dass LinkedIn genau seine Methoden gezielt kontert.

Im Audit-Datenmaterial sieht man diesen Lebenszyklus gut. linkedtales/scrapedin war damals schon bemerkenswert genug, um zu erwähnen, dass es mit der „neuen Website“ von LinkedIn in 2020 funktionierte. Doch das Repo hielt späteren Verifizierungs- und Layoutänderungen nicht stand. nsandman/linkedin-api dokumentierte einst nützliche Tricks, aber der letzte Commit lag Jahre vor der heutigen Anti-Bot-Umgebung.

Der Vorteil von Community-Patches

Open Source hat dennoch einen echten Vorteil: Aktive Maintainer und Mitwirkende können schnell patchen, wenn LinkedIn seine Abwehr ändert. joeyism/linkedin_scraper ist das Hauptbeispiel aus diesem Audit — es liefert zwar weiterhin Blockierungs- und Suchfehler, bewegt sich aber immerhin noch. Forks setzen neue Umgehungstechniken oft schneller um als das Original-Repo.

Was du daraus machen solltest

Verlass dich nicht auf ein einzelnes öffentliches Repo als dauerhafte Infrastruktur
Achte auf aktive Forks, die neue Umgehungstechniken implementieren
Erwäge für den Produktionseinsatz einen privaten Fork zu pflegen (damit deine spezifischen Anpassungen nicht öffentlich sind)
Rechne damit, Methoden anzupassen, wenn LinkedIn Erkennung oder UI-Verhalten ändert
Diversifiziere Ansätze, statt alles auf ein Tool zu setzen

KI-gestützte Extraktion vs. CSS-Selektoren: ein praktischer Vergleich

Die spannendere technische Trennlinie im Jahr 2026 ist nicht GitHub gegen No-Code. Es ist selektorbasierte Extraktion gegen semantische Extraktion — und der Unterschied ist wichtiger, als die meisten Übersichten zugeben.

Wie CSS-Selektoren funktionieren — und warum sie brechen

Traditionelle Scraper untersuchen das DOM von LinkedIn und ordnen jedes Feld einem CSS-Selektor oder einer XPath-Expression zu. Wenn die Seitenstruktur stabil ist, ist dieser Ansatz hervorragend: hohe Präzision, geringe Grenzkosten, sehr schnelle Verarbeitung.

Der Ausfallmodus ist ebenso klar. LinkedIn ändert Klassennamen, Verschachtelungen, Lazy-Loading-Verhalten oder sperrt Inhalte hinter anderen Auth-Wänden — und der Scraper bricht sofort. Die Issue-Titel im Repo-Audit erzählen die Geschichte: „changed HTML“, „broken job search“, „missing values“, „authwall blocks“.

Wie KI-/LLM-Extraktion funktioniert

Das neuere Muster ist konzeptionell einfacher: Seite rendern, sichtbaren Text sammeln, ein Modell darum bitten, strukturierte Felder auszugeben. Genau das steckt hinter vielen No-Code-KI-Scrapern und einigen neueren individuellen Workflows.

Mit den aktuellen (0,15 US-Dollar/1 Mio. Input-Token, 0,60 US-Dollar/1 Mio. Output-Token) kostet ein reiner Textextraktionslauf für ein Profil typischerweise 0,0006–0,0018 US-Dollar pro Profil. Das ist bei Workflows mit mittlerem Volumen praktisch vernachlässigbar.

Direkter Vergleich

Dimension	CSS-Selektor / XPath	KI-/LLM-Extraktion
Einrichtungsaufwand	Hoch — DOM prüfen, Selektoren pro Feld schreiben	Gering — gewünschte Ausgabe in natürlicher Sprache beschreiben
Bruch bei Layoutänderungen	Bricht sofort	Passt sich automatisch an (versteht semantisch)
Genauigkeit bei strukturierten Feldern	~99 %, wenn Selektoren korrekt sind	~95–98 % (gelegentliche Interpretationsfehler des LLM)
Umgang mit unstrukturierten/variablen Daten	Schwach ohne zusätzliche Logik	Stark — KI interpretiert den Kontext
Kosten pro Profil	Nahezu null (nur Rechenkosten)	~0,001–0,002 US-Dollar (API-Tokenkosten)
Labeling/Kategorisierung	Erfordert zusätzliche Nachbearbeitung	Kann in einem Durchlauf kategorisieren, übersetzen und labeln
Wartungsaufwand	Laufende Selektor-Fixes	Nahezu null

Wofür solltest du dich entscheiden?

Für sehr große, stabile, von Engineering betreute Pipelines kann selektorbasiertes Parsing bei den Kosten weiterhin gewinnen. Für die meisten kleinen und mittelgroßen Nutzer, die Hunderte statt Millionen von Profilen scrapen, ist KI-Extraktion die bessere Langzeitinvestition, weil LinkedIns Layoutänderungen mehr Entwicklerzeit kosten als die Modell-Token, die du sparst.

Wenn GitHub-Repos überdimensioniert sind: der No-Code-Weg

Die meisten Leute, die nach „linkedin scraper github“ suchen, wollen keine Browser-Automation pflegen.

Sie wollen Zeilen in einer Tabelle.

Nutzer beschweren sich in Issuethreads ausdrücklich über die Nutzbarkeit von GitHub-Scrapern: „It does not handle 2FA and it is not easy to use since there is no UI.“ Die Zielgruppe umfasst Recruiter, SDRs und Ops-Manager — nicht nur Python-Entwickler.

Die Make-vs.-Buy-Entscheidung

Faktor	GitHub-Repo	No-Code-Tool (z. B. Thunderbit)
Einrichtungszeit	30 Min.–über 2 Std. (Python, Abhängigkeiten, Proxys)	Unter 2 Minuten (Erweiterung installieren, klicken)
Wartung	Du reparierst es, wenn LinkedIn sich ändert	Der Tool-Anbieter übernimmt Updates
Anti-Detection	Proxys, Verzögerungen, Sessions selbst konfigurieren	Im Tool integriert
Datenstrukturierung	Du schreibst Parsing-Logik	KI schlägt Felder automatisch vor
Exportoptionen	Export-Pipeline selbst bauen	Ein Klick nach Excel, Google Sheets, Airtable, Notion
Kosten	Kostenloses Repo + Proxykosten + deine Zeit	Free Tier verfügbar; für Volumen kreditbasiert

Wie Thunderbit LinkedIn-Scraping ohne Code löst

geht das Problem anders an als GitHub-Repos. Statt Selektoren zu schreiben oder Browser-Automation zu konfigurieren, machst du Folgendes:

Installiere die
Öffne eine beliebige LinkedIn-Seite (Suchergebnisse, Profil, Unternehmensseite)
Klicke auf „KI-Felder vorschlagen“ — die KI von Thunderbit liest die Seite und schlägt strukturierte Spalten vor (Name, Titel, Unternehmen, Standort usw.)
Passe die Spalten bei Bedarf an und starte dann die Extraktion
Exportiere direkt nach Excel, Google Sheets, oder Notion

Da Thunderbit die Seite jedes Mal semantisch per KI liest, bricht es nicht, wenn LinkedIn sein DOM ändert. Das ist derselbe Vorteil wie beim GPT-integrierten Ansatz in individuellen Python-Skripten — nur verpackt in einer No-Code-Erweiterung statt in einer Codebasis, die du selbst wartest.

Beim — also beim Anklicken einzelner Profile aus einer Suchergebnisliste, um deine Datentabelle anzureichern — übernimmt Thunderbit das automatisch. Der Browser-Modus funktioniert auch für Seiten mit Login-Zwang ohne separate Proxy-Konfiguration.

Wer sollte trotzdem ein GitHub-Repo verwenden?

GitHub-Repos machen weiterhin Sinn für:

Entwickler, die tiefe Anpassungen oder ungewöhnliche Datentypen brauchen
Teams mit sehr hohem Scraping-Volumen, bei denen Kreditkosten wichtig sind
Nutzer, die Scraping in CI/CD-Pipelines oder auf Servern ausführen müssen
Personen, die LinkedIn-Daten in größere automatisierte Workflows einbauen

Für alle anderen — besonders Sales-, Recruiting- und Ops-Teams — eliminiert der den gesamten Einrichtungs- und Wartungszyklus.

Schritt für Schritt: Wie du einen LinkedIn Scraper von GitHub bewertest und nutzt

Wenn du dich für GitHub als Weg entschieden hast, ist hier ein gestaffelter Ablauf, der Zeitverschwendung und Kontorisiko minimiert.

Schritt 1: Repos suchen und vorselektieren

Suche auf GitHub nach „linkedin scraper“ und filtere nach:

Kürzlich aktualisiert (letzte 6 Monate)
Sprache passend zu deinem Stack (Python ist am häufigsten)
Umfang passend zu deinem tatsächlichen Bedarf (Profile vs. Jobs vs. Unternehmen)

Mache eine Shortlist mit 3–5 Repos, die lebendig wirken.

Schritt 2: Repo-Health-Scorecard anwenden

Prüfe jedes Repo mit der oben genannten Scorecard. Streiche alles mit:

keinen Commits im letzten Jahr
ungelösten „blocked“- oder „CAPTCHA“-Issues
nur passwortbasierter Authentifizierung
keinem Hinweis auf Sessions, Cookies oder Proxys

Schritt 3: Deine Umgebung einrichten

Typische Setup-Befehle aus den Repos dieses Audits:

1pip install linkedin-scraper
2playwright install chromium
3pip install linkedin-jobs-scraper
4LI_AT_COOKIE=<cookie> python your_app.py
5scrapy crawl linkedin_people_profile

Die wiederkehrenden Reibungspunkte:

Fehlende session.json-Dateien
Version-Mismatch bei Browser-Driver (Chromium/Playwright)
Cookie-Extraktion aus den Browser-DevTools
Timeouts bei Proxy-Authentifizierung

Schritt 4: Einen kleinen Testlauf machen

Starte mit 10–20 Profilen. Prüfe:

Werden Felder korrekt geparst?
Sind die Daten vollständig?
Bist du auf Sicherheitsprüfungen gestoßen?
Ist das Ausgabeformat brauchbar oder nur rohes JSON-Chaos?

Schritt 5: Vorsichtig skalieren

Füge zufällige Verzögerungen hinzu (5–15 Sekunden zwischen Requests), reduziere Parallelität, verwende Sessions wieder und setze Residential Proxys ein. Springe nicht mit einem frischen Konto direkt auf Hunderte Profile pro Tag.

Schritt 6: Daten exportieren und strukturieren

Die meisten GitHub-Repos geben rohes JSON oder CSV aus. Du musst trotzdem noch:

Datensätze deduplizieren
Titel und Firmennamen normalisieren
Felder in dein CRM oder ATS mappen
Datenherkunft für Compliance dokumentieren

(Thunderbit übernimmt Strukturierung und Export automatisch, wenn du diesen Schritt lieber überspringen willst.)

LinkedIn Scraper GitHub vs. No-Code-Tools: Der vollständige Vergleich

Dimension	GitHub-Repo (CSS-Selektoren)	GitHub-Repo (KI/LLM)	No-Code-Tool (Thunderbit)
Einrichtungszeit	1–2+ Stunden	1–3+ Stunden (+ API-Schlüssel)	Unter 2 Minuten
Technische Kenntnisse	Hoch (Python, CLI)	Hoch (Python + LLM-APIs)	Keine
Wartung	Hoch (Selektoren brechen)	Mittel (LLM passt sich an, Code braucht trotzdem Updates)	Keine (Anbieter wartet)
Anti-Detection	Selbst gemacht (Proxys, Verzögerungen)	Selbst gemacht	Integriert
Genauigkeit	Hoch, wenn es funktioniert	Hoch mit gelegentlichen LLM-Fehlern	Hoch (KI-gestützt)
Kosten	Kostenlos + Proxykosten + deine Zeit	Kostenlos + LLM-API-Kosten + Proxykosten	Free Tier; für Volumen kreditbasiert
Export	Selbst gebaut (JSON, CSV)	Selbst gebaut	Excel, Sheets, Airtable, Notion
Am besten geeignet für	Entwickler, individuelle Pipelines	Entwickler, die weniger Wartung wollen	Sales-, Recruiting- und Ops-Teams

Rechtliche und ethische Überlegungen

Ich halte diesen Abschnitt kurz, aber ganz überspringen kann man ihn nicht.

Die (gültig ab 3. November 2025) verbietet ausdrücklich den Einsatz von Software, Skripten, Bots, Crawlern oder Browser-Plugins zum Scraping des Dienstes. LinkedIn hat das auch durchgesetzt:

: LinkedIn kündigte rechtliche Schritte gegen Proxycurl an
: LinkedIn erklärte, der Fall sei beigelegt worden
: Law360 berichtete, LinkedIn habe weitere Beklagte wegen Scraping im industriellen Maßstab verklagt

Die hiQ-vs.-LinkedIn-Reihe von Verfahren brachte gewisse Nuancen beim Zugriff auf öffentliche Daten, aber waren bei Vertragsbruch-Theorien eher zugunsten von LinkedIn. „Öffentlich sichtbar“ heißt nicht „eindeutig unbedenklich in großem Maßstab für kommerzielle Wiederverwendung zu scrapen“.

Für EU-bezogene Workflows gilt die . Die durch die französische Datenschutzbehörde ist ein konkretes Beispiel dafür, dass Aufsichtsbehörden gescrapte LinkedIn-Daten als personenbezogene Daten behandeln, für die Datenschutzregeln gelten.

Die Verwendung eines gepflegten Tools wie Thunderbit ändert nichts an deinen rechtlichen Pflichten. Sie reduziert aber das Risiko, versehentlich Sicherheitsreaktionen auszulösen oder Rate Limits zu verletzen, die LinkedIns Aufmerksamkeit auf sich ziehen.

Was 2026 funktioniert und was nicht

Was funktioniert

Die Repo-Health-Scorecard anwenden, bevor du dich auf irgendein Repo einlässt
Cookies/Sessions wiederverwenden statt wiederholt automatisiert einzuloggen
Residential Proxys nutzen, wenn kontobasiertes Scraping nötig ist
Kleinere, langsamere, menschenähnliche Scraping-Workflows
KI-gestützte Extraktion, wenn dir Anpassungsfähigkeit wichtiger ist als minimale Tokenkosten
, wenn du am Ende Tabellenexport brauchst und kein Scraper-Ownership
Ansätze diversifizieren, statt auf ein einziges öffentliches Repo zu setzen

Was nicht funktioniert

Hoch bewertete Repos klonen, ohne Wartungsstatus oder aktuelle Issues zu prüfen
Datacenter-Proxys oder kostenlose Proxylisten für LinkedIn verwenden
Auf Hunderte Profile pro Tag skalieren, ohne Rate Limits oder Anti-Detection
Langfristig auf CSS-Selektoren setzen, ohne Wartungsplan
Dein echtes LinkedIn-Konto als entbehrliche Infrastruktur behandeln
„Öffentlich zugänglich“ mit „vertraglich oder rechtlich unproblematisch“ verwechseln

FAQs

Funktionieren LinkedIn-Scraper-GitHub-Repos 2026 noch?

Einige schon, aber nur ein kleiner Teil. In diesem Audit von acht sichtbaren Repos wirkten nur zwei für einen Leser im Jahr 2026 ohne größere Einschränkungen wirklich brauchbar. Entscheidend ist, Repos nach Wartungsaktivität und Issue-Gesundheit zu bewerten, nicht nach Sternen. Nutze die Repo-Health-Scorecard, bevor du Zeit ins Setup eines Projekts investierst.

Wie viele LinkedIn-Profile kann ich pro Tag scrapen, ohne gesperrt zu werden?

Es gibt keine garantiert sichere Zahl, weil LinkedIn nicht nur das Volumen, sondern das Session-Verhalten bewertet. Community-Berichte deuten darauf hin, dass unter 50 Profilen/Tag/Konto der risikoärmere Bereich ist, 50–100/Tag mittleres Risiko darstellt, bei dem die Infrastrukturqualität wichtig wird, und über 100/Tag zunehmend aggressiv ist. Zufällige Verzögerungen von 5–15 Sekunden und Residential Proxys helfen, aber eliminieren das Risiko nie vollständig.

Gibt es eine No-Code-Alternative zu LinkedIn-Scraper-GitHub-Projekten?

Ja. ermöglicht es dir, LinkedIn-Seiten in wenigen Klicks zu scrapen — mit KI-gestützter Felderkennung, browserbasierter Anmeldung (keine Proxy-Konfiguration nötig) und Ein-Klick-Export nach Excel, Google Sheets, Airtable oder Notion. Es ist für Sales-, Recruiting- und Ops-Teams gedacht, die Daten wollen, ohne Code zu pflegen. Du kannst es über den testen.

Ist das Scrapen von LinkedIn-Daten legal?

Es ist eine Grauzone mit immer schärferen Kanten. Die LinkedIn-Nutzungsvereinbarung verbietet Scraping ausdrücklich, und LinkedIn ist 2025 rechtlich gegen Scraper vorgegangen. Der hiQ-vs.-LinkedIn-Präzedenzfall zum Zugriff auf öffentliche Daten wurde durch spätere Urteile eingeengt. Die DSGVO gilt für personenbezogene Daten von EU-Bürgern unabhängig davon, wie sie erhoben wurden. Für jeden kommerziellen Anwendungsfall solltest du rechtlichen Rat einholen, der auf deine Situation zugeschnitten ist.

KI-Extraktion oder CSS-Selektoren — was soll ich für LinkedIn-Scraping verwenden?

CSS-Selektoren sind schneller und pro Datensatz günstiger, solange sie funktionieren, aber sie erzeugen ein dauerhaftes Wartungsrad, weil LinkedIn sein DOM regelmäßig ändert. KI-/LLM-Extraktion kostet pro Profil etwas mehr (~0,001–0,002 US-Dollar bei aktuellen ), passt sich aber automatisch an Layoutänderungen an. Für die meisten Nicht-Enterprise-Nutzer, die Hunderte statt Millionen Profile scrapen, ist KI-Extraktion die bessere Langzeitinvestition. Die integrierte KI-Engine von Thunderbit bietet diesen Vorteil, ohne dass du Code schreiben oder warten musst.

Mehr erfahren

Daten mit KI extrahieren

Daten ganz einfach zu Google Sheets, Airtable oder Notion übertragen

Chrome Store Rating

PRODUCT HUNT#1 Product of the Week

LinkedIn Scraper GitHub: Was 2026 funktioniert (und was nicht)

Thunderbit testen