Eine GitHub-Suche nach „linkedin scraper“ liefert Stand April 2026 rund . Die meisten davon kosten dich am Ende nur Zeit. Hart? Vielleicht. Aber genau das habe ich nach der Prüfung von acht der sichtbarsten Repos, dem Lesen Dutzender GitHub-Issuethreads und dem Abgleich von Community-Berichten aus Reddit und Scraping-Foren festgestellt. Das Muster ist immer wieder dasselbe: Repos mit vielen Sternen ziehen Aufmerksamkeit auf sich, das Anti-Bot-Team von LinkedIn analysiert den Code, die Erkennung wird nachgeschärft, und am Ende bleiben kaputte Selektoren, CAPTCHA-Schleifen oder sogar gesperrte Konten zurück. Ein Reddit-Nutzer brachte den aktuellen Stand auf den Punkt: LinkedIn habe inzwischen „strengere Rate Limits, bessere Bot-Erkennung, Session-Tracking und häufige Änderungen“ eingeführt, und alte Tools würden nun „schnell kaputtgehen oder Konten/IPs auf die Blacklist setzen“. Wenn du als Sales-Rep, Recruiter oder Ops-Manager LinkedIn-Daten in einer Tabelle brauchst, ist das Repo, das du letzten Monat geklont hast, womöglich schon Geschichte. Dieser Leitfaden soll dir helfen herauszufinden, welche GitHub-Projekte deine Zeit wirklich wert sind, wie du dein Konto nicht verheizt und wann es sinnvoller ist, ganz auf Code zu verzichten.
Was ist ein LinkedIn Scraper auf GitHub?
Ein LinkedIn-Scraper-GitHub-Projekt ist ein Open-Source-Skript — meist in Python, manchmal in Node.js —, das das Extrahieren strukturierter Daten von LinkedIn-Seiten automatisiert. Typische Zielseiten sind:
- Profile von Personen: Name, Überschrift, Unternehmen, Standort, Fähigkeiten, Berufserfahrung
- Stellenanzeigen: Titel, Unternehmen, Standort, Veröffentlichungsdatum, Job-URL
- Unternehmensseiten: Ăśbersicht, Mitarbeiterzahl, Branche, Follower-Zahl
- Beiträge und Interaktionen: Inhaltstext, Likes, Kommentare, Shares
Unter der Haube nutzen die meisten Repos einen von zwei Ansätzen. Browsergesteuerte Scraper setzen auf Selenium, Playwright oder Puppeteer, um Seiten zu rendern, Abläufe durchzuklicken und Daten per CSS-Selektoren oder XPath zu extrahieren. Ein kleinerer Teil versucht, direkt die internen (nicht dokumentierten) API-Endpunkte von LinkedIn aufzurufen. Und eine neuere Welle — auf GitHub noch selten, aber im Wachstum — kombiniert Browser-Automatisierung mit einem LLM wie GPT-4o mini, um Seitentext in strukturierte Felder umzuwandeln, ohne fragile Selektoren zu brauchen.
Es gibt einen grundlegenden Zielgruppen-Konflikt. Diese Tools werden von Entwicklern gebaut, die mit virtuellen Umgebungen, Browser-Abhängigkeiten und Proxy-Konfigurationen vertraut sind. Aber ein großer Teil der Menschen, die nach „linkedin scraper github“ suchen, sind Recruiter, SDRs, RevOps-Manager und Gründer, die einfach Zeilen in einer Tabelle wollen.
Diese Lücke erklärt den Großteil der Frustration in den Issuethreads.
Warum Menschen bei LinkedIn-Scraping zu GitHub greifen
Der Reiz ist offensichtlich. Kostenlos. Anpassbar. Kein Vendor Lock-in. Volle Kontrolle über die Datenpipeline. Wenn ein SaaS-Tool die Preise ändert oder eingestellt wird, läuft dein Code immer noch.
| Anwendungsfall | Wer braucht es | Typische extrahierte Daten |
|---|---|---|
| Leadgenerierung | Vertriebsteams | Namen, Titel, Unternehmen, Profil-URLs, Hinweise auf E-Mail-Adressen |
| Kandidatensuche | Recruiter | Profile, Fähigkeiten, Erfahrung, Standorte |
| Marktforschung | Ops- und Strategieteams | Unternehmensdaten, Mitarbeiterzahlen, Stellenausschreibungen |
| Competitive Intelligence | Marketingteams | Beiträge, Interaktionen, Unternehmensupdates, Hiring-Signale |
„Kostenlos“ ist allerdings nur ein Lizenzetikett, kein Hinweis auf die tatsächlichen Betriebskosten. Die echten Kosten sind:
- Einrichtungszeit: Selbst einfache Repos brauchen meist 30 Minuten bis über 2 Stunden für Setup, Browser-Abhängigkeiten, Cookie-Extraktion und Proxy-Konfiguration
- Wartung: LinkedIn ändert regelmäßig sein DOM und seine Anti-Bot-Abwehr — ein Scraper, der heute funktioniert, kann nächste Woche schon brechen
- Proxys: Residential-Proxy-Bandbreite kostet je nach Anbieter und Tarif etwa
- Kontorisiko: Dein LinkedIn-Konto ist das teuerste Gut auf dem Spiel und lässt sich nicht wie eine Proxy-IP einfach austauschen
Die Repo-Health-Scorecard: So bewertest du jedes LinkedIn-Scraper-GitHub-Projekt
Die meisten Listen mit den „besten LinkedIn-Scrapern“ bewerten Repos nach der Sternanzahl. Sterne messen historisches Interesse, nicht aktuelle Funktion. Ein Repo mit 3.000 Sternen und keinen Commits seit 2022 ist ein Museumsstück, kein Produktionstool.
Bevor du irgendwo git clone ausfĂĽhrst, nutze dieses Raster:
| Kriterium | Warum es wichtig ist | Warnsignal |
|---|---|---|
| Datum des letzten Commits | LinkedIn ändert sein DOM häufig | Vor mehr als 6 Monaten bei browsergesteuerten Repos |
| Verhältnis offener/geschlossener Issues | Reaktionsfähigkeit der Maintainer | Über 3:1 offen zu geschlossen, besonders bei aktuellen Berichten zu „blocked“ oder „CAPTCHA“ |
| Anti-Detection-Funktionen | LinkedIn sperrt aggressiv | Kein Hinweis auf Cookies, Sessions, Pacing oder Proxys in der README |
| Authentifizierungsmethode | 2FA und CAPTCHA brechen Login-Flows | Nur passwortbasierter Headless-Login wird unterstĂĽtzt |
| Lizenztyp | Rechtliches Risiko bei kommerzieller Nutzung | Keine Lizenz oder unklare Bedingungen |
| UnterstĂĽtzte Datentypen | Unterschiedliche Use Cases brauchen unterschiedliche Repos | Nur ein Datentyp, obwohl du mehrere brauchst |
Der eine Trick, der am meisten Zeit spart: Suche vor dem Commit in der Issues-Ansicht nach „blocked“, „banned“, „CAPTCHA“ oder „not working“. Wenn aktuelle Issues voll mit solchen Begriffen sind und der Maintainer nicht reagiert, geh weiter. Dieses Repo hat den Kampf schon verloren.
Was der Audit 2026 tatsächlich ergeben hat

Ich habe diese Scorecard auf acht der sichtbarsten LinkedIn-Scraper-Repos auf GitHub angewendet. Das Ergebnis war wenig ermutigend.
| Repo | Sterne | Letzter Commit | 2026 nutzbar? | Hauptumfang | Wichtige Hinweise |
|---|---|---|---|---|---|
| joeyism/linkedin_scraper | ~3.983 | Apr. 2026 | ✅ Mit Vorbehalten | Profile, Unternehmen, Beiträge, Jobs | Playwright-Umschreibung, Wiederverwendung von Sessions — aktuelle Issues zeigen aber Sicherheitsblockaden und kaputte Jobsuche |
| python-scrapy-playbook/linkedin-python-scrapy-scraper | ~111 | Jan. 2026 | ✅ Für Tutorials/öffentliche Daten | Personen, Unternehmen, Jobs | ScrapeOps-Proxy-Integration; der Free-Plan erlaubt 1.000 Anfragen/Monat mit 1 Thread |
| spinlud/py-linkedin-jobs-scraper | ~472 | März 2025 | ⚠️ Nur Jobs | Jobs | Cookie-Support, experimenteller Proxy-Modus — nützlich, wenn du nur öffentliche Stellenanzeigen brauchst |
| madingess/EasyApplyBot | ~170 | März 2025 | ⚠️ Falsches Tool | Easy-Apply-Automatisierung | Kein Datenscraper — automatisiert Bewerbungen |
| linkedtales/scrapedin | ~611 | Mai 2021 | ❌ | Profile | README sagt immer noch „working in 2020“; Issues zeigen Pin-Verifikation und HTML-Änderungen |
| austinoboyle/scrape-linkedin-selenium | ~526 | Okt. 2022 | ❌ | Profile, Unternehmen | Früher nützlich, 2026 aber zu veraltet |
| eilonmore/linkedin-private-api | ~291 | Juli 2022 | ❌ | Profile, Jobs, Unternehmen, Beiträge | Wrapper für eine private API; nicht dokumentierte Endpunkte ändern sich unvorhersehbar |
| nsandman/linkedin-api | ~154 | Juli 2019 | ❌ | Profile, Messaging, Suche | Historisch interessant; dokumentiertes Rate-Limiting nach etwa 900 Anfragen/Stunde |
Nur 2 von 8 Repos wirkten für einen Leser im Jahr 2026 ohne größere Einschränkungen wirklich brauchbar. Das ist bei LinkedIn-Scraping auf GitHub keineswegs ungewöhnlich — es ist der Normalfall.
Der Plan zur Ban-Vermeidung: Proxys, Rate Limits und Kontosicherheit
Kontosperren sind das größte Betriebsrisiko. Selbst technisch saubere Scraper scheitern hier. Der Code funktioniert — das Konto nicht. Nutzer berichten, schon nach nur markiert worden zu sein, obwohl sie Proxys und lange Verzögerungen verwendet hatten.
Rate Limiting: Was die Community berichtet

Es gibt keine garantiert sichere Zahl. LinkedIn bewertet Session-Alter, Klicktiming, Burst-Muster, IP-Reputation und Kontoverhalten — nicht nur das rohe Volumen. Community-Daten clustern sich grob in diese Bereiche:
- Ein Nutzer berichtete von Erkennung nach 40–80 Profilen mit Proxys und 33-Sekunden-Taktung
- Ein anderer empfahl, ungefähr bei 30 Profilen/Tag/Konto zu bleiben
- Ein aggressiverer Betreiber behauptete , ĂĽber den Tag verteilt
- dokumentierte eine interne Rate-Limit-Warnung nach etwa 900 Anfragen in einer Stunde
Die praktische Einordnung: Unter 50 Profilaufrufen/Tag/Konto liegt der risikoärmere Bereich. 50–100/Tag ist mittleres Risiko, bei dem die Session-Qualität stark zählt. Oberhalb von 100/Tag/Konto wird es zunehmend aggressiv.
Proxy-Strategie: Residential vs. Datacenter
Residential Proxys bleiben für LinkedIn der Standard, weil sie normalem Endnutzer-Traffic ähneln. Datacenter-IPs sind günstiger, fallen auf anspruchsvollen Seiten aber schneller auf — und LinkedIn ist genau die Art von anspruchsvoller Seite, auf der billiger Traffic bemerkt wird.
Aktueller Preisrahmen:
- : 3,00–4,00 US-Dollar/GB je nach Tarif
- : 4,00–6,00 US-Dollar/GB je nach Tarif
Rotiere pro Session, nicht pro Request. Eine Rotation pro Anfrage erzeugt ein Fingerprint-Muster, das „Proxy-Infrastruktur“ lauter schreit als jede einzelne IP es je könnte.
Protocol fĂĽr Wegwerfkonten
Die Community ist hier sehr deutlich: Behandle dein Haupt-LinkedIn-Konto nicht als entbehrliche Scraping-Infrastruktur.
Wenn du unbedingt kontobasiert scrapen willst:
- Nutze ein separates Konto, getrennt von deiner primären beruflichen Identität
- Fülle das Profil vollständig aus und verhalte dich mehrere Tage lang wie ein Mensch, bevor du mit dem Scraping beginnst
- VerknĂĽpfe niemals deine echte Telefonnummer mit Scraping-Konten
- Halte Scraping-Sessions strikt getrennt von echtem Outreach und Messaging
Wichtig: Die (gültig ab 3. November 2025) verbietet ausdrücklich falsche Identitäten und das Teilen von Konten. Der Wegwerfkonten-Ansatz ist operativ verbreitet, aber vertraglich heikel.
Umgang mit CAPTCHAs
Ein CAPTCHA ist nicht nur lästig. Es ist ein Signal, dass deine Session bereits unter Beobachtung steht. Optionen sind:
- Manuelle Eingabe, um eine Session fortzusetzen
- Cookies wiederverwenden, statt Login-Flows jedes Mal neu auszufĂĽhren
- Solver-Dienste wie (~0,50–1,00 US-Dollar pro 1.000 Bild-CAPTCHAs, ~1,00–2,99 US-Dollar pro 1.000 reCAPTCHA-v2-Lösungen)
Wenn dein Workflow jedoch regelmäßig CAPTCHAs auslöst, sind die Kosten für Solver-Dienste dein kleinstes Problem. Dein Stack verliert den Stealth-Kampf.
Das Risikospektrum
| Umfang | Risikostufe | Empfohlener Ansatz |
|---|---|---|
| < 50 Profile/Tag | Niedrig | Browser-Session oder Cookie-Wiederverwendung, langsames Pacing, keine aggressive Automatisierung |
| 50–500 Profile/Tag | Mittel bis hoch | Residential Proxys, „warme“ Konten, Session-Wiederverwendung, randomisierte Verzögerungen |
| 500+/Tag | Sehr hoch | Kommerzielle APIs oder gepflegte Tools mit integrierter Anti-Detection; öffentliche GitHub-Repos allein reichen meist nicht aus |
Das Open-Source-Paradox: Warum populäre LinkedIn-Scraper-GitHub-Repos schneller kaputtgehen
Nutzer äußern einen fairen Einwand: „Wenn ihr eine Open-Source-Version baut, kann LinkedIn einfach anschauen, was ihr tut, und es verhindern.“ Diese Sorge ist nicht paranoid. Sie ist strukturell korrekt.
Das Sichtbarkeitsproblem
Viele Sterne erzeugen zwei Signale zugleich: Vertrauen für Nutzer und ein Ziel für das Security-Team von LinkedIn. Je populärer ein Repo wird, desto wahrscheinlicher ist es, dass LinkedIn genau seine Methoden gezielt kontert.
Im Audit-Datenmaterial sieht man diesen Lebenszyklus gut. linkedtales/scrapedin war damals schon bemerkenswert genug, um zu erwähnen, dass es mit der „neuen Website“ von LinkedIn in 2020 funktionierte. Doch das Repo hielt späteren Verifizierungs- und Layoutänderungen nicht stand. nsandman/linkedin-api dokumentierte einst nützliche Tricks, aber der letzte Commit lag Jahre vor der heutigen Anti-Bot-Umgebung.
Der Vorteil von Community-Patches
Open Source hat dennoch einen echten Vorteil: Aktive Maintainer und Mitwirkende können schnell patchen, wenn LinkedIn seine Abwehr ändert. joeyism/linkedin_scraper ist das Hauptbeispiel aus diesem Audit — es liefert zwar weiterhin Blockierungs- und Suchfehler, bewegt sich aber immerhin noch. Forks setzen neue Umgehungstechniken oft schneller um als das Original-Repo.
Was du daraus machen solltest
- Verlass dich nicht auf ein einzelnes öffentliches Repo als dauerhafte Infrastruktur
- Achte auf aktive Forks, die neue Umgehungstechniken implementieren
- Erwäge für den Produktionseinsatz einen privaten Fork zu pflegen (damit deine spezifischen Anpassungen nicht öffentlich sind)
- Rechne damit, Methoden anzupassen, wenn LinkedIn Erkennung oder UI-Verhalten ändert
- Diversifiziere Ansätze, statt alles auf ein Tool zu setzen
KI-gestĂĽtzte Extraktion vs. CSS-Selektoren: ein praktischer Vergleich

Die spannendere technische Trennlinie im Jahr 2026 ist nicht GitHub gegen No-Code. Es ist selektorbasierte Extraktion gegen semantische Extraktion — und der Unterschied ist wichtiger, als die meisten Übersichten zugeben.
Wie CSS-Selektoren funktionieren — und warum sie brechen
Traditionelle Scraper untersuchen das DOM von LinkedIn und ordnen jedes Feld einem CSS-Selektor oder einer XPath-Expression zu. Wenn die Seitenstruktur stabil ist, ist dieser Ansatz hervorragend: hohe Präzision, geringe Grenzkosten, sehr schnelle Verarbeitung.
Der Ausfallmodus ist ebenso klar. LinkedIn ändert Klassennamen, Verschachtelungen, Lazy-Loading-Verhalten oder sperrt Inhalte hinter anderen Auth-Wänden — und der Scraper bricht sofort. Die Issue-Titel im Repo-Audit erzählen die Geschichte: „changed HTML“, „broken job search“, „missing values“, „authwall blocks“.
Wie KI-/LLM-Extraktion funktioniert
Das neuere Muster ist konzeptionell einfacher: Seite rendern, sichtbaren Text sammeln, ein Modell darum bitten, strukturierte Felder auszugeben. Genau das steckt hinter vielen No-Code-KI-Scrapern und einigen neueren individuellen Workflows.
Mit den aktuellen (0,15 US-Dollar/1 Mio. Input-Token, 0,60 US-Dollar/1 Mio. Output-Token) kostet ein reiner Textextraktionslauf für ein Profil typischerweise 0,0006–0,0018 US-Dollar pro Profil. Das ist bei Workflows mit mittlerem Volumen praktisch vernachlässigbar.
Direkter Vergleich
| Dimension | CSS-Selektor / XPath | KI-/LLM-Extraktion |
|---|---|---|
| Einrichtungsaufwand | Hoch — DOM prüfen, Selektoren pro Feld schreiben | Gering — gewünschte Ausgabe in natürlicher Sprache beschreiben |
| Bruch bei Layoutänderungen | Bricht sofort | Passt sich automatisch an (versteht semantisch) |
| Genauigkeit bei strukturierten Feldern | ~99 %, wenn Selektoren korrekt sind | ~95–98 % (gelegentliche Interpretationsfehler des LLM) |
| Umgang mit unstrukturierten/variablen Daten | Schwach ohne zusätzliche Logik | Stark — KI interpretiert den Kontext |
| Kosten pro Profil | Nahezu null (nur Rechenkosten) | ~0,001–0,002 US-Dollar (API-Tokenkosten) |
| Labeling/Kategorisierung | Erfordert zusätzliche Nachbearbeitung | Kann in einem Durchlauf kategorisieren, übersetzen und labeln |
| Wartungsaufwand | Laufende Selektor-Fixes | Nahezu null |
WofĂĽr solltest du dich entscheiden?
Für sehr große, stabile, von Engineering betreute Pipelines kann selektorbasiertes Parsing bei den Kosten weiterhin gewinnen. Für die meisten kleinen und mittelgroßen Nutzer, die Hunderte statt Millionen von Profilen scrapen, ist KI-Extraktion die bessere Langzeitinvestition, weil LinkedIns Layoutänderungen mehr Entwicklerzeit kosten als die Modell-Token, die du sparst.
Wenn GitHub-Repos ĂĽberdimensioniert sind: der No-Code-Weg
Die meisten Leute, die nach „linkedin scraper github“ suchen, wollen keine Browser-Automation pflegen.
Sie wollen Zeilen in einer Tabelle.
Nutzer beschweren sich in Issuethreads ausdrücklich über die Nutzbarkeit von GitHub-Scrapern: „It does not handle 2FA and it is not easy to use since there is no UI.“ Die Zielgruppe umfasst Recruiter, SDRs und Ops-Manager — nicht nur Python-Entwickler.
Die Make-vs.-Buy-Entscheidung
| Faktor | GitHub-Repo | No-Code-Tool (z. B. Thunderbit) |
|---|---|---|
| Einrichtungszeit | 30 Min.–über 2 Std. (Python, Abhängigkeiten, Proxys) | Unter 2 Minuten (Erweiterung installieren, klicken) |
| Wartung | Du reparierst es, wenn LinkedIn sich ändert | Der Tool-Anbieter übernimmt Updates |
| Anti-Detection | Proxys, Verzögerungen, Sessions selbst konfigurieren | Im Tool integriert |
| Datenstrukturierung | Du schreibst Parsing-Logik | KI schlägt Felder automatisch vor |
| Exportoptionen | Export-Pipeline selbst bauen | Ein Klick nach Excel, Google Sheets, Airtable, Notion |
| Kosten | Kostenloses Repo + Proxykosten + deine Zeit | Free Tier verfĂĽgbar; fĂĽr Volumen kreditbasiert |
Wie Thunderbit LinkedIn-Scraping ohne Code löst
geht das Problem anders an als GitHub-Repos. Statt Selektoren zu schreiben oder Browser-Automation zu konfigurieren, machst du Folgendes:
- Installiere die
- Ă–ffne eine beliebige LinkedIn-Seite (Suchergebnisse, Profil, Unternehmensseite)
- Klicke auf „KI-Felder vorschlagen“ — die KI von Thunderbit liest die Seite und schlägt strukturierte Spalten vor (Name, Titel, Unternehmen, Standort usw.)
- Passe die Spalten bei Bedarf an und starte dann die Extraktion
- Exportiere direkt nach Excel, Google Sheets, oder Notion
Da Thunderbit die Seite jedes Mal semantisch per KI liest, bricht es nicht, wenn LinkedIn sein DOM ändert. Das ist derselbe Vorteil wie beim GPT-integrierten Ansatz in individuellen Python-Skripten — nur verpackt in einer No-Code-Erweiterung statt in einer Codebasis, die du selbst wartest.
Beim — also beim Anklicken einzelner Profile aus einer Suchergebnisliste, um deine Datentabelle anzureichern — übernimmt Thunderbit das automatisch. Der Browser-Modus funktioniert auch für Seiten mit Login-Zwang ohne separate Proxy-Konfiguration.
Wer sollte trotzdem ein GitHub-Repo verwenden?
GitHub-Repos machen weiterhin Sinn fĂĽr:
- Entwickler, die tiefe Anpassungen oder ungewöhnliche Datentypen brauchen
- Teams mit sehr hohem Scraping-Volumen, bei denen Kreditkosten wichtig sind
- Nutzer, die Scraping in CI/CD-Pipelines oder auf Servern ausfĂĽhren mĂĽssen
- Personen, die LinkedIn-Daten in größere automatisierte Workflows einbauen
Für alle anderen — besonders Sales-, Recruiting- und Ops-Teams — eliminiert der den gesamten Einrichtungs- und Wartungszyklus.
Schritt fĂĽr Schritt: Wie du einen LinkedIn Scraper von GitHub bewertest und nutzt
Wenn du dich fĂĽr GitHub als Weg entschieden hast, ist hier ein gestaffelter Ablauf, der Zeitverschwendung und Kontorisiko minimiert.
Schritt 1: Repos suchen und vorselektieren
Suche auf GitHub nach „linkedin scraper“ und filtere nach:
- KĂĽrzlich aktualisiert (letzte 6 Monate)
- Sprache passend zu deinem Stack (Python ist am häufigsten)
- Umfang passend zu deinem tatsächlichen Bedarf (Profile vs. Jobs vs. Unternehmen)
Mache eine Shortlist mit 3–5 Repos, die lebendig wirken.
Schritt 2: Repo-Health-Scorecard anwenden
PrĂĽfe jedes Repo mit der oben genannten Scorecard. Streiche alles mit:
- keinen Commits im letzten Jahr
- ungelösten „blocked“- oder „CAPTCHA“-Issues
- nur passwortbasierter Authentifizierung
- keinem Hinweis auf Sessions, Cookies oder Proxys
Schritt 3: Deine Umgebung einrichten
Typische Setup-Befehle aus den Repos dieses Audits:
1pip install linkedin-scraper
2playwright install chromium
3pip install linkedin-jobs-scraper
4LI_AT_COOKIE=<cookie> python your_app.py
5scrapy crawl linkedin_people_profile
Die wiederkehrenden Reibungspunkte:
- Fehlende
session.json-Dateien - Version-Mismatch bei Browser-Driver (Chromium/Playwright)
- Cookie-Extraktion aus den Browser-DevTools
- Timeouts bei Proxy-Authentifizierung
Schritt 4: Einen kleinen Testlauf machen
Starte mit 10–20 Profilen. Prüfe:
- Werden Felder korrekt geparst?
- Sind die Daten vollständig?
- Bist du auf SicherheitsprĂĽfungen gestoĂźen?
- Ist das Ausgabeformat brauchbar oder nur rohes JSON-Chaos?
Schritt 5: Vorsichtig skalieren
Füge zufällige Verzögerungen hinzu (5–15 Sekunden zwischen Requests), reduziere Parallelität, verwende Sessions wieder und setze Residential Proxys ein. Springe nicht mit einem frischen Konto direkt auf Hunderte Profile pro Tag.
Schritt 6: Daten exportieren und strukturieren
Die meisten GitHub-Repos geben rohes JSON oder CSV aus. Du musst trotzdem noch:
- Datensätze deduplizieren
- Titel und Firmennamen normalisieren
- Felder in dein CRM oder ATS mappen
- Datenherkunft fĂĽr Compliance dokumentieren
(Thunderbit ĂĽbernimmt Strukturierung und Export automatisch, wenn du diesen Schritt lieber ĂĽberspringen willst.)
LinkedIn Scraper GitHub vs. No-Code-Tools: Der vollständige Vergleich
| Dimension | GitHub-Repo (CSS-Selektoren) | GitHub-Repo (KI/LLM) | No-Code-Tool (Thunderbit) |
|---|---|---|---|
| Einrichtungszeit | 1–2+ Stunden | 1–3+ Stunden (+ API-Schlüssel) | Unter 2 Minuten |
| Technische Kenntnisse | Hoch (Python, CLI) | Hoch (Python + LLM-APIs) | Keine |
| Wartung | Hoch (Selektoren brechen) | Mittel (LLM passt sich an, Code braucht trotzdem Updates) | Keine (Anbieter wartet) |
| Anti-Detection | Selbst gemacht (Proxys, Verzögerungen) | Selbst gemacht | Integriert |
| Genauigkeit | Hoch, wenn es funktioniert | Hoch mit gelegentlichen LLM-Fehlern | Hoch (KI-gestĂĽtzt) |
| Kosten | Kostenlos + Proxykosten + deine Zeit | Kostenlos + LLM-API-Kosten + Proxykosten | Free Tier; fĂĽr Volumen kreditbasiert |
| Export | Selbst gebaut (JSON, CSV) | Selbst gebaut | Excel, Sheets, Airtable, Notion |
| Am besten geeignet fĂĽr | Entwickler, individuelle Pipelines | Entwickler, die weniger Wartung wollen | Sales-, Recruiting- und Ops-Teams |
Rechtliche und ethische Ăśberlegungen
Ich halte diesen Abschnitt kurz, aber ganz ĂĽberspringen kann man ihn nicht.
Die (gĂĽltig ab 3. November 2025) verbietet ausdrĂĽcklich den Einsatz von Software, Skripten, Bots, Crawlern oder Browser-Plugins zum Scraping des Dienstes. LinkedIn hat das auch durchgesetzt:
- : LinkedIn kĂĽndigte rechtliche Schritte gegen Proxycurl an
- : LinkedIn erklärte, der Fall sei beigelegt worden
- : Law360 berichtete, LinkedIn habe weitere Beklagte wegen Scraping im industriellen MaĂźstab verklagt
Die hiQ-vs.-LinkedIn-Reihe von Verfahren brachte gewisse Nuancen beim Zugriff auf öffentliche Daten, aber waren bei Vertragsbruch-Theorien eher zugunsten von LinkedIn. „Öffentlich sichtbar“ heißt nicht „eindeutig unbedenklich in großem Maßstab für kommerzielle Wiederverwendung zu scrapen“.
Für EU-bezogene Workflows gilt die . Die durch die französische Datenschutzbehörde ist ein konkretes Beispiel dafür, dass Aufsichtsbehörden gescrapte LinkedIn-Daten als personenbezogene Daten behandeln, für die Datenschutzregeln gelten.
Die Verwendung eines gepflegten Tools wie Thunderbit ändert nichts an deinen rechtlichen Pflichten. Sie reduziert aber das Risiko, versehentlich Sicherheitsreaktionen auszulösen oder Rate Limits zu verletzen, die LinkedIns Aufmerksamkeit auf sich ziehen.
Was 2026 funktioniert und was nicht
Was funktioniert
- Die Repo-Health-Scorecard anwenden, bevor du dich auf irgendein Repo einlässt
- Cookies/Sessions wiederverwenden statt wiederholt automatisiert einzuloggen
- Residential Proxys nutzen, wenn kontobasiertes Scraping nötig ist
- Kleinere, langsamere, menschenähnliche Scraping-Workflows
- KI-gestützte Extraktion, wenn dir Anpassungsfähigkeit wichtiger ist als minimale Tokenkosten
- , wenn du am Ende Tabellenexport brauchst und kein Scraper-Ownership
- Ansätze diversifizieren, statt auf ein einziges öffentliches Repo zu setzen
Was nicht funktioniert
- Hoch bewertete Repos klonen, ohne Wartungsstatus oder aktuelle Issues zu prĂĽfen
- Datacenter-Proxys oder kostenlose Proxylisten fĂĽr LinkedIn verwenden
- Auf Hunderte Profile pro Tag skalieren, ohne Rate Limits oder Anti-Detection
- Langfristig auf CSS-Selektoren setzen, ohne Wartungsplan
- Dein echtes LinkedIn-Konto als entbehrliche Infrastruktur behandeln
- „Öffentlich zugänglich“ mit „vertraglich oder rechtlich unproblematisch“ verwechseln
FAQs
Funktionieren LinkedIn-Scraper-GitHub-Repos 2026 noch?
Einige schon, aber nur ein kleiner Teil. In diesem Audit von acht sichtbaren Repos wirkten nur zwei für einen Leser im Jahr 2026 ohne größere Einschränkungen wirklich brauchbar. Entscheidend ist, Repos nach Wartungsaktivität und Issue-Gesundheit zu bewerten, nicht nach Sternen. Nutze die Repo-Health-Scorecard, bevor du Zeit ins Setup eines Projekts investierst.
Wie viele LinkedIn-Profile kann ich pro Tag scrapen, ohne gesperrt zu werden?
Es gibt keine garantiert sichere Zahl, weil LinkedIn nicht nur das Volumen, sondern das Session-Verhalten bewertet. Community-Berichte deuten darauf hin, dass unter 50 Profilen/Tag/Konto der risikoärmere Bereich ist, 50–100/Tag mittleres Risiko darstellt, bei dem die Infrastrukturqualität wichtig wird, und über 100/Tag zunehmend aggressiv ist. Zufällige Verzögerungen von 5–15 Sekunden und Residential Proxys helfen, aber eliminieren das Risiko nie vollständig.
Gibt es eine No-Code-Alternative zu LinkedIn-Scraper-GitHub-Projekten?
Ja. ermöglicht es dir, LinkedIn-Seiten in wenigen Klicks zu scrapen — mit KI-gestützter Felderkennung, browserbasierter Anmeldung (keine Proxy-Konfiguration nötig) und Ein-Klick-Export nach Excel, Google Sheets, Airtable oder Notion. Es ist für Sales-, Recruiting- und Ops-Teams gedacht, die Daten wollen, ohne Code zu pflegen. Du kannst es über den testen.
Ist das Scrapen von LinkedIn-Daten legal?
Es ist eine Grauzone mit immer schärferen Kanten. Die LinkedIn-Nutzungsvereinbarung verbietet Scraping ausdrücklich, und LinkedIn ist 2025 rechtlich gegen Scraper vorgegangen. Der hiQ-vs.-LinkedIn-Präzedenzfall zum Zugriff auf öffentliche Daten wurde durch spätere Urteile eingeengt. Die DSGVO gilt für personenbezogene Daten von EU-Bürgern unabhängig davon, wie sie erhoben wurden. Für jeden kommerziellen Anwendungsfall solltest du rechtlichen Rat einholen, der auf deine Situation zugeschnitten ist.
KI-Extraktion oder CSS-Selektoren — was soll ich für LinkedIn-Scraping verwenden?
CSS-Selektoren sind schneller und pro Datensatz günstiger, solange sie funktionieren, aber sie erzeugen ein dauerhaftes Wartungsrad, weil LinkedIn sein DOM regelmäßig ändert. KI-/LLM-Extraktion kostet pro Profil etwas mehr (~0,001–0,002 US-Dollar bei aktuellen ), passt sich aber automatisch an Layoutänderungen an. Für die meisten Nicht-Enterprise-Nutzer, die Hunderte statt Millionen Profile scrapen, ist KI-Extraktion die bessere Langzeitinvestition. Die integrierte KI-Engine von Thunderbit bietet diesen Vorteil, ohne dass du Code schreiben oder warten musst.
Mehr erfahren
