n8n Web Scraping meistern: Automatisierte Workflows

Zuletzt aktualisiert am April 14, 2026

Vor ein paar Monaten schickte uns ein Nutzer einen Screenshot eines n8n-Workflows mit 14 Nodes, einem halben Dutzend Haftnotizen und einer Betreffzeile, in der nur stand: „Hilfe“. Er hatte einem beliebten n8n-Web-Scraping-Tutorial gefolgt, auf einer Testseite eine hübsche Demo mit 10 Zeilen zum Laufen gebracht und dann versucht, echte Wettbewerberpreise über 200 Produktseiten hinweg zu scrapen. Das Ergebnis? Eine kaputte Pagination-Schleife, eine 403-Fehlermauer und ein stiller Scheduler, der nach dem ersten Dienstag nicht mehr ausgelöst wurde.

Genau diese Lücke — zwischen Demo und produktivem Datenfluss — ist der Punkt, an dem die meisten n8n-Scraping-Projekte scheitern. Ich habe jahrelang aufgebaut und in der Automatisierung gearbeitet, und ich kann dir sagen: Das Scraping selbst ist selten der schwierige Teil. Es ist alles nach dem ersten erfolgreichen Abruf, das die meisten ausbremst. Pagination, Zeitplanung, Anti-Bot-Schutz, Datenbereinigung, Export und — der große Punkt — Wartung, wenn die Website ihr Layout zum dritten Mal in diesem Quartal ändert. Dieser Leitfaden deckt die komplette Pipeline ab: von deinem ersten HTTP-Request-Node bis hin zu einem wiederkehrenden, produktionsreifen n8n-Web-Scraping-Workflow. Und wenn der DIY-Ansatz von n8n an seine Grenzen stößt, zeige ich dir, wo KI-gestützte Tools wie Thunderbit dir Stunden — oder Tage — an Frust ersparen können.

Was ist n8n Web Scraping eigentlich — und warum viele Tutorials nur an der Oberfläche kratzen?

n8n ist eine Open-Source-Plattform für Low-Code-Workflow-Automatisierung. Stell dir eine visuelle Arbeitsfläche vor, auf der du „Nodes“ miteinander verbindest — jede Node erledigt eine bestimmte Aufgabe (eine Webseite abrufen, HTML parsen, eine Slack-Nachricht senden, Daten in Google Sheets schreiben) — und daraus automatisierte Workflows baust. Viel Programmierung ist dafür nicht nötig, auch wenn du bei Bedarf JavaScript einfügen kannst.

„n8n Web Scraping“ bedeutet, die integrierten HTTP-Request- und HTML-Nodes von n8n — plus Community-Nodes — zu nutzen, um Website-Daten innerhalb solcher Workflows abzurufen, zu parsen und weiterzuverarbeiten. Der Kern besteht aus zwei Schritten: Abrufen (die HTTP-Request-Node holt das rohe HTML von einer URL) und Extrahieren (die HTML-Node nutzt CSS-Selektoren, um genau die Datenpunkte herauszuziehen, die du brauchst — Produktnamen, Preise, E-Mails, was auch immer).

Die Plattform ist riesig: Stand April 2026 hat n8n , mehr als 230.000 aktive Nutzer, über 9.166 Community-Workflow-Vorlagen und veröffentlicht ungefähr jede Woche ein neues Minor Release. Im März 2025 hat das Unternehmen aufgenommen. Hier steckt also ordentlich Momentum drin.

Aber es gibt eine Lücke, über die kaum jemand spricht. Das populärste n8n-Scraping-Tutorial auf dev.to (von Lakshay Nasa, veröffentlicht unter der Organisation „Extract by Zyte“) versprach Pagination in „Teil 2“. Teil 2 kam tatsächlich — und das Fazit des Autors lautete selbst: „N8N gibt uns einen Standard-Pagination-Modus in der HTTP-Request-Node unter Optionen, und obwohl das bequem klingt, hat es sich meiner Erfahrung nach bei typischen Web-Scraping-Anwendungsfällen nicht zuverlässig verhalten.“ Am Ende leitete der Autor die Pagination über eine kostenpflichtige Drittanbieter-API. Gleichzeitig berichten Nutzer im n8n-Forum immer wieder, dass genau bei „Pagination, Throttling, Login“ das n8n-Scraping „sehr schnell kompliziert“ wird. Dieser Leitfaden soll genau diese Lücke schließen.

Warum n8n Web Scraping fĂĽr Sales-, Ops- und E-Commerce-Teams wichtig ist

n8n Web Scraping ist kein Hobby für Entwickler. Es ist ein Business-Tool. Der liegt 2025 bei rund 1 bis 1,3 Milliarden US-Dollar und soll bis 2030 auf 2 bis 2,3 Milliarden US-Dollar wachsen. Allein dynamische Preisgestaltung wird bereits von etwa genutzt, und setzen inzwischen auf alternative Daten — ein großer Teil davon stammt aus dem Web-Scraping. McKinsey berichtet, dass dynamische Preisgestaltung bei Anwendern liefern kann.

Hier spielt n8ns eigentliche Stärke aus: Es geht nicht nur darum, Daten zu bekommen. Es geht darum, was danach passiert. n8n ermöglicht es, Scraping direkt mit Folgeaktionen zu verknüpfen — CRM-Updates, Slack-Alerts, Tabellen-Exporte, KI-Analysen — alles in einem einzigen Workflow.

AnwendungsfallWer davon profitiertWas Sie scrapenGeschäftlicher Nutzen
Lead-GenerierungVertriebsteamsBranchenverzeichnisse, KontaktseitenCRM mit qualifizierten Leads befĂĽllen
Wettbewerber-PreisĂĽberwachungE-Commerce-TeamsProduktlisten-SeitenPreise in Echtzeit anpassen
Tracking von ImmobilienangebotenMaklerZillow, Realtor, lokale MLS-SeitenNeue Angebote vor der Konkurrenz entdecken
MarktforschungMarketingteamsBewertungsseiten, Foren, NachrichtenTrends und Kundenstimmung erkennen
BestandsĂĽberwachung bei Lieferanten/SKUsSupply-Chain-TeamsProduktseiten von LieferantenOut-of-Stock vermeiden, Einkauf optimieren

Die Zahlen zeigen, dass sich der Aufwand lohnt: planen, 2025 mehr in KI zu investieren, und automatisiertes Lead-Nurturing hat nachweislich in neun Monaten zu geführt. Wenn dein Team noch immer Inhalte von Webseiten per Copy-Paste in Tabellen überträgt, lässt du Geld liegen.

Ihr n8n-Web-Scraping-Toolkit: Die wichtigsten Nodes und verfügbaren Lösungen

Bevor du loslegst, solltest du wissen, was im Werkzeugkasten steckt. Das sind die wichtigsten n8n-Nodes fĂĽrs Web Scraping:

  • HTTP Request node: Ruft rohes HTML von jeder beliebigen URL ab. Funktioniert wie ein Browser, der eine Seite anfragt, liefert aber den Quellcode statt die gerenderte Ansicht. UnterstĂĽtzt GET/POST, Header, Batching und theoretisch auch integrierte Pagination.
  • HTML node (frĂĽher „HTML Extract“): Parst HTML mit CSS-Selektoren, um bestimmte Daten herauszuziehen — Titel, Preise, Links, Bilder, alles, was du benötigst.
  • Code node: Ermöglicht JavaScript-Snippets fĂĽr Datenbereinigung, URL-Normalisierung, Duplikatentfernung und individuelle Logik.
  • Edit Fields (Set) node: Strukturiert Felder um oder benennt sie fĂĽr nachfolgende Nodes um.
  • Split Out node: Zerlegt Arrays in einzelne Elemente fĂĽr die weitere Verarbeitung.
  • Convert to File node: Exportiert strukturierte Daten z. B. als CSV oder JSON.
  • Loop Over Items node: Iteriert ĂĽber Listen (entscheidend fĂĽr Pagination — dazu gleich mehr).
  • Schedule Trigger: Startet deinen Workflow nach einem Cron-Zeitplan.
  • Error Trigger: Benachrichtigt dich, wenn ein Workflow fehlschlägt (wichtig fĂĽr produktive Umgebungen).

Für fortgeschrittenes Scraping — Seiten mit JavaScript-Rendering oder starkem Anti-Bot-Schutz — brauchst du Community-Nodes:

AnsatzAm besten geeignet fĂĽrSkill-LevelUnterstĂĽtzt JS-gerenderte SeitenAnti-Bot-Handling
n8n HTTP Request + HTML nodesStatische Seiten, APIsAnfänger bis FortgeschritteneNeinManuell (Header, Proxies)
n8n + ScrapeNinja/Firecrawl Community NodeDynamische/geschĂĽtzte SeitenFortgeschritteneJaIntegriert (Proxy-Rotation, CAPTCHA)
n8n + Headless Browser (Puppeteer)Komplexe JS-InteraktionenFortgeschritteneJaTeilweise (abhängig vom Setup)
Thunderbit (AI Web Scraper)Jede Website, nicht-technische NutzerAnfängerJa (Browser- oder Cloud-Modus)Integriert (nutzt Browser-Session oder Cloud-Handling)

In n8n gibt es Stand v2.15.1 keine native Headless-Browser-Node. Jedes Scraping von JS-gerenderten Seiten benötigt entweder eine Community-Node oder eine externe API.

Ein kurzer Hinweis zu Thunderbit: Das ist eine KI-gestützte , die unser Team entwickelt hat. Du klickst auf „KI-Felder vorschlagen“, dann auf „Scrapen“ und erhältst strukturierte Daten — ohne CSS-Selektoren, ohne Node-Konfiguration, ohne Wartungsaufwand. Im Laufe dieses Leitfadens zeige ich dir, wo Thunderbit passt — und wo n8n die bessere Wahl ist.

Schritt fĂĽr Schritt: Ihren ersten n8n-Web-Scraping-Workflow bauen

Jetzt, da die Werkzeuge klar sind, zeigen wir, wie du von Grund auf einen funktionierenden n8n-Webscraper baust. Als Beispiel nehme ich eine Produktlisten-Seite — also genau so etwas, das man für Preisüberwachung oder Wettbewerbsanalyse tatsächlich scrapen würde.

Bevor du startest:

  • Schwierigkeit: Anfänger bis Fortgeschrittene
  • Benötigte Zeit: ca. 20–30 Minuten
  • Was du brauchst: n8n (self-hosted oder Cloud), eine Ziel-URL, Chrome-Browser (zum Finden von CSS-Selektoren)

Schritt 1: Einen neuen Workflow erstellen und einen manuellen Trigger hinzufĂĽgen

Öffne n8n, klicke auf „New Workflow“ und gib ihm einen aussagekräftigen Namen — zum Beispiel „Wettbewerber-Preis-Scraper“. Ziehe eine Manual Trigger-Node hinein. (Später ersetzen wir sie durch einen geplanten Trigger.)

Du solltest jetzt einen einzelnen Node auf der Arbeitsfläche sehen, der ausgelöst wird, sobald du auf „Test Workflow“ klickst.

Schritt 2: Die Seite mit der HTTP Request Node abrufen

FĂĽge eine HTTP Request-Node hinzu und verbinde sie mit dem Manual Trigger. Stelle die Methode auf GET und gib deine Ziel-URL ein, z. B. https://example.com/products.

Jetzt der entscheidende Schritt, den die meisten Tutorials auslassen: Füge einen realistischen User-Agent-Header hinzu. Standardmäßig sendet n8n axios/xx als User-Agent — und der ist sofort als Bot erkennbar. Unter „Headers“ fügst du Folgendes hinzu:

Header-NameWert
User-AgentMozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36
Accepttext/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8

Wenn du mehrere URLs scrapen willst, aktiviere Batching (unter Optionen) und setze eine Wartezeit von 1–3 Sekunden zwischen den Requests. Das hilft, Rate-Limits zu vermeiden.

Starte den Node. Im Ausgabebereich sollte nun rohes HTML erscheinen.

Schritt 3: Die Daten mit der HTML Node parsen

Verbinde eine HTML-Node mit der Ausgabe der HTTP Request-Node. Stelle die Operation auf Extract HTML Content.

Um die richtigen CSS-Selektoren zu finden, öffne die Zielseite in Chrome, klicke mit der rechten Maustaste auf die gewünschte Information, z. B. einen Produkttitel, und wähle „Inspect“. Im Elements-Panel klickst du mit der rechten Maustaste auf das markierte HTML-Element und wählst „Copy → Copy selector“.

Konfiguriere die Extraktionswerte etwa so:

SchlĂĽsselCSS-SelektorRĂĽckgabewert
product_name.product-titleText
price.price-currentText
url.product-linkAttribut: href

Führe den Node aus. Im Output solltest du nun eine Tabelle mit strukturierten Daten sehen — Produktnamen, Preise und URLs.

Schritt 4: Mit der Code Node bereinigen und normalisieren

Rohe Scraping-Daten sind meist unsauber. Preise enthalten zusätzliche Leerzeichen, URLs sind womöglich relativ, und Textfelder haben Zeilenumbrüche am Ende. Füge eine Code-Node hinzu und verbinde sie mit der HTML-Node.

Hier ist ein einfaches JavaScript-Snippet, um die Daten zu säubern:

1return items.map(item => {
2  const d = item.json;
3  return {
4    json: {
5      product_name: (d.product_name || '').trim(),
6      price: parseFloat((d.price || '').replace(/[^0-9.]/g, '')),
7      url: d.url && d.url.startsWith('http') ? d.url : `https://example.com${d.url}`
8    }
9  };
10});

Dieser Schritt ist für produktionsreife Daten unverzichtbar. Wenn du ihn überspringst, landen in deiner Tabelle später Einträge wie „$ 29.99\n“.

Schritt 5: In Google Sheets, Airtable oder CSV exportieren

Verbinde eine Google Sheets-Node (oder Airtable, oder „Convert to File“ für CSV). Authentifiziere dich mit deinem Google-Konto, wähle deine Tabelle und dein Sheet aus und mappe die Felder aus der Code-Node auf deine Spaltenüberschriften.

FĂĽhre den gesamten Workflow aus. Die bereinigten, strukturierten Daten sollten nun in deiner Tabelle landen.

Randnotiz: nach Google Sheets, Airtable, Notion und Excel — ganz ohne Node-Setup. Wenn du keine komplette Workflow-Kette brauchst und einfach nur die Daten möchtest, ist das ein praktischer Shortcut.

Der Teil, den jedes n8n-Web-Scraping-Tutorial auslässt: komplette Pagination-Workflows

Pagination ist die größte Lücke in n8n-Scraping-Inhalten — und die häufigste Frustquelle in den n8n-Community-Foren.

Es gibt zwei Hauptmuster fĂĽr Pagination:

  1. Klickbasierte / URL-increment-Pagination — Seiten wie ?page=1, ?page=2 usw.
  2. Unendliches Scrollen — Inhalte werden nachgeladen, wenn man weiter nach unten scrollt (wie bei Twitter, Instagram oder vielen modernen Produktkatalogen).

Klickbasierte Pagination in n8n (URL-Erhöhung mit Loop-Nodes)

Die integrierte Pagination-Option im Options-Menü der HTTP Request-Node klingt bequem. In der Praxis ist sie jedoch unzuverlässig. Der Autor des beliebtesten n8n-Scraping-Tutorials (Lakshay Nasa) hat sie ausprobiert und schrieb: „it didn't behave reliably in my experience.“ Nutzer im Forum berichten, dass sie , und die letzte Seite nicht erkennt.

n8n-pagination-chain-workflow.webp

Der zuverlässige Ansatz: Baue die URL-Liste explizit in einer Code-Node und iteriere dann mit Loop Over Items.

So geht’s:

  1. FĂĽge eine Code-Node hinzu, die deine Seiten-URLs erzeugt:
1const base = 'https://example.com/products';
2const totalPages = 10; // oder dynamisch erkennen
3return Array.from({length: totalPages}, (_, i) => ({
4  json: { url: `${base}?page=${i + 1}` }
5}));
  1. Verbinde eine Loop Over Items-Node, um ĂĽber die Liste zu iterieren.
  2. Innerhalb der Schleife fĂĽgst du deine HTTP Request-Node ein (URL auf {{ $json.url }} setzen) und danach die HTML-Node zum Parsen.
  3. Füge innerhalb der Schleife eine Wait-Node ein (1–3 Sekunden, zufällig), um 429-Rate-Limits zu vermeiden.
  4. Nach der Schleife aggregierst du die Ergebnisse und exportierst sie nach Google Sheets oder CSV.

Die komplette Kette lautet: Code (URLs erzeugen) → Loop Over Items → HTTP Request → HTML → Wait → (zurück in die Schleife) → Aggregieren → Exportieren.

Ein möglicher Stolperstein: Die Loop Over Items-Node hat einen , bei dem verschachtelte Schleifen Elemente stillschweigend überspringen. Wenn du also Seiten paginierst und Unterseiten anreicherst, teste besonders sorgfältig — die „done“-Zahl stimmt möglicherweise nicht mit der Eingangsanzahl überein.

Pagination per Infinite Scroll: Warum die eingebauten n8n-Nodes an Grenzen stoĂźen

Seiten mit Infinite Scroll laden Inhalte per JavaScript nach, während du scrollst. Die HTTP Request-Node holt nur das initiale HTML — sie kann kein JavaScript ausführen und auch keine Scroll-Events auslösen. Du hast zwei Möglichkeiten:

  • Einen Headless-Browser-Community-Node verwenden (z. B. oder ), um die Seite zu rendern und Scrollen zu simulieren.
  • Eine Scraping-API nutzen (ScrapeNinja, Firecrawl, ZenRows) mit aktivem JavaScript-Rendering.

Beides erhöht die Komplexität deutlich. Pro Website solltest du mit 30–60+ Minuten Setup rechnen — plus laufender Wartung.

Wie Thunderbit Pagination ohne Konfiguration handhabt

Ich bin natĂĽrlich voreingenommen, aber der Unterschied ist deutlich:

Fähigkeitn8n (DIY-Workflow)Thunderbit
Klickbasierte PaginationManuelles Loop-Setup, URL-ErhöhungAutomatisch — erkennt und folgt der Pagination
Seiten mit Infinite ScrollBraucht Headless Browser + Community-NodeIntegrierte Unterstützung, keine Konfiguration nötig
Einrichtungsaufwand30–60 Min. pro Website2 Klicks
Seiten pro BatchSequenziell (eine nach der anderen)50 Seiten gleichzeitig (Cloud Scraping)

Wenn du 200 Produktseiten über 10 paginierte Listen scrapen willst, dauert n8n einen ganzen Nachmittag. Thunderbit braucht dafür ungefähr zwei Minuten. Das ist kein Vorwurf an n8n — es ist einfach ein anderes Werkzeug für eine andere Aufgabe.

Einmal einrichten, dann laufen lassen: Cron-gesteuerte n8n-Web-Scraping-Pipelines

Einmaliges Scraping ist nützlich, aber die eigentliche Stärke von n8n Web Scraping liegt in wiederkehrender, automatisierter Datenerfassung. Überraschenderweise deckt fast kein n8n-Scraping-Tutorial den Schedule Trigger fürs Scraping ab — obwohl das eine der meistgewünschten Funktionen in der Community ist.

Eine tägliche Preisüberwachungs-Pipeline bauen

Ersetze deinen Manual Trigger durch eine Schedule Trigger-Node. Du kannst die n8n-Oberfläche verwenden („Jeden Tag um 8:00 Uhr“) oder einen Cron-Ausdruck (0 8 * * *).

Die komplette Workflow-Kette:

  1. Schedule Trigger (täglich um 8 Uhr)
  2. Code-Node (paginierte URLs generieren)
  3. Loop Over Items → HTTP Request → HTML → Wait (alle Seiten scrapen)
  4. Code-Node (Daten bereinigen, Preise normalisieren)
  5. Google Sheets (neue Zeilen anhängen)
  6. IF-Node (ist ein Preis unter den Schwellenwert gefallen?)
  7. Slack (bei Bedarf Alarm senden)

Richte daneben einen Error Trigger-Workflow ein, der bei jedem fehlgeschlagenen Lauf ausgelöst wird und Slack benachrichtigt. Sonst merkst du erst drei Wochen später, wenn ein Selektor bricht — und der Bericht plötzlich leer ist.

Zwei weniger offensichtliche Anforderungen:

  • n8n muss 24/7 laufen. Ein auf dem Laptop gehosteter Self-Host-Server löst nichts aus, wenn der Deckel zu ist. Nutze einen Server, Docker oder n8n Cloud.
  • Nach jeder Workflow-Ă„nderung den Workflow aus- und wieder einschalten. n8n Cloud hat ein , bei dem Scheduler nach Ă„nderungen stillschweigend abgemeldet werden — ohne Fehlermeldung.

Eine wöchentliche Lead-Extraktions-Pipeline bauen

Dasselbe Muster, anderes Ziel: Schedule Trigger (jeden Montag um 9 Uhr) → HTTP Request (Branchenverzeichnis) → HTML (Name, Telefon, E-Mail extrahieren) → Code (Duplikate entfernen, Format bereinigen) → Airtable- oder HubSpot-Push.

n8n-vs-thunderbit-scheduled-scraping.webp

Der Wartungsaufwand ist hier der oft unterschätzte Preis. Wenn sich das Verzeichnis-Layout ändert, brechen deine CSS-Selektoren und der Workflow scheitert stillschweigend. HasData schätzt, dass der anfänglichen Build-Zeit pro Jahr als laufendes Wartungsbudget für jede selector-basierte Pipeline eingeplant werden sollten. Wenn du etwa 20 Websites betreust, wird der Overhead real.

Thunderbits Scheduled Scraper: Die No-Code-Alternative

Mit Thunderbits Scheduled Scraper beschreibst du das Intervall in natürlicher Sprache (z. B. „jeden Montag um 9 Uhr“), gibst deine URLs ein und klickst auf „Planen“. Alles läuft in der Cloud — kein Hosting, keine Cron-Ausdrücke, keine stillen Abmeldungen.

Aspektn8n Scheduled WorkflowThunderbit Scheduled Scraper
Zeitplan einrichtenCron-Ausdruck oder n8n-Schedule-UIIn natĂĽrlicher Sprache beschreiben
DatenbereinigungManuelle Code-Node erforderlichKI bereinigt, labelt und ĂĽbersetzt automatisch
Export-ZieleBenötigt Integrations-NodesGoogle Sheets, Airtable, Notion, Excel (gratis)
Hosting-AnforderungSelf-Hosted oder n8n CloudKeine — läuft in der Cloud
Wartung bei SeitenänderungenSelektoren brechen, manuelle Korrektur nötigKI liest die Seite jedes Mal frisch aus

Die letzte Zeile ist die wichtigste. Nutzer im Forum sagen es klar: „Die meisten funktionieren, bis sich das Layout einer Website ändert.“ Thunderbits KI-Ansatz nimmt genau diesen Schmerz, weil er nicht auf feste CSS-Selektoren angewiesen ist.

Wenn Ihr n8n-Webscraper blockiert wird: Leitfaden zur Anti-Bot-Fehlersuche

Blockiert zu werden ist nach Pagination der häufigste Frustfaktor. Der Standardrat — „füge einen User-Agent-Header hinzu“ — ist ungefähr so hilfreich wie eine Fliegengittertür gegen einen Hurrikan.

Laut dem Imperva Bad Bot Report 2025 machen aus, und davon sind bösartig. Anti-Bot-Anbieter (Cloudflare, Akamai, DataDome, HUMAN, PerimeterX) reagieren mit TLS-Fingerprinting, JavaScript-Challenges und Verhaltensanalysen. Die n8n HTTP Request-Node, die intern die Axios-Bibliothek nutzt, erzeugt einen auffälligen, leicht erkennbaren, nicht-browserspezifischen TLS-Fingerprint. Der User-Agent-Header allein hilft da nichts — der verrät dich, bevor überhaupt ein HTTP-Header gelesen wird.

Entscheidungsbaum fĂĽr Anti-Bot-Probleme

Hier ist ein systematisches Vorgehen — nicht nur „User-Agent hinzufügen“:

Request blockiert?

  • 403 Forbidden → User-Agent- und Accept-Header hinzufĂĽgen (siehe Schritt 2 oben) → immer noch blockiert?
    • Ja → Residential-Proxy-Rotation hinzufĂĽgen → immer noch blockiert?
      • Ja → Auf eine Scraping-API (ScrapeNinja, Firecrawl, ZenRows) oder eine Headless-Browser-Community-Node umsteigen
      • Nein → Weiter
    • Nein → Weiter
  • CAPTCHA erscheint → Scraping-API mit integrierter CAPTCHA-Lösung verwenden (z. B. )
  • Leere Antwort (JS-gerenderter Inhalt) → Headless-Browser-Community-Node oder Scraping-API mit JavaScript-Rendering verwenden
  • Rate-Limit erreicht (429-Fehler) → Batching in der HTTP Request-Node aktivieren, Wartezeit zwischen Batches auf 2–5 Sekunden setzen, Parallelität reduzieren

Noch ein Stolperstein: n8n hat einen , bei dem die HTTP Request-Node HTTPS nicht korrekt durch einen HTTP-Proxy tunneln kann. Die Axios-Bibliothek scheitert beim TLS-Handshake, obwohl curl im selben Container problemlos funktioniert. Wenn du einen Proxy verwendest und rätselhafte Verbindungsfehler erhältst, ist das sehr wahrscheinlich die Ursache.

Warum Thunderbit die meisten Anti-Bot-Probleme umgeht

Thunderbit bietet zwei Scraping-Modi:

  • Browser Scraping: Läuft in deinem echten Chrome-Browser und ĂĽbernimmt deine Session-Cookies, deinen Login-Status und deinen Browser-Fingerprint. Das umgeht die meisten Anti-Bot-Mechanismen, die serverseitige Requests blockieren — weil die Anfrage ein echter Browser ist.
  • Cloud Scraping: FĂĽr öffentlich zugängliche Websites ĂĽbernimmt Thunderbits Cloud das Anti-Bot-Handling in groĂźem MaĂźstab — .

Wenn du mehr Zeit damit verbringst, gegen Cloudflare anzukämpfen, als mit den Daten zu arbeiten, ist das die pragmatische Alternative.

Ehrliche Einschätzung: Wann n8n Web Scraping funktioniert — und wann Sie etwas anderes nehmen sollten

n8n ist eine großartige Plattform. Aber sie ist nicht für jeden Scraping-Job das richtige Werkzeug, und kein Konkurrenzartikel ist darüber wirklich ehrlich. Nutzer fragen in Foren sogar ganz direkt: „Wie schwierig ist es, mit n8n einen Webscraper zu bauen?“ und „Welches Scraping-Tool funktioniert am besten mit n8n?“

Wo n8n Web Scraping glänzt

  • Mehrstufige Workflows, die Scraping mit nachgelagerter Verarbeitung kombinieren — CRM-Updates, Slack-Alerts, KI-Analyse, Datenbank-Schreibvorgänge. Das ist n8ns Kernstärke.
  • Anwendungsfälle, bei denen Scraping nur ein Baustein in einer größeren Automatisierung ist — scrape → anreichern → filtern → ins CRM schieben.
  • Technische Nutzer, die sich mit CSS-Selektoren und node-basierter Logik wohlfĂĽhlen.
  • Szenarien, in denen zwischen Scraping und Speicherung individuelle Transformationen nötig sind.

Wo n8n Web Scraping mĂĽhsam wird

  • Nicht-technische Nutzer, die einfach schnell Daten brauchen. Node-Setup, CSS-Selektoren finden und Fehlersuche sind fĂĽr Business-Anwender eine hohe HĂĽrde.
  • Websites mit starkem Anti-Bot-Schutz. Proxies und API-Erweiterungen erhöhen Kosten und Komplexität.
  • Wartung bei Layout-Ă„nderungen. CSS-Selektoren brechen, Workflows scheitern still.
  • Massenscraping ĂĽber viele verschiedene Website-Typen. Jede Seite braucht ihre eigene Selektor-Konfiguration.
  • Anreicherung von Unterseiten. DafĂĽr mĂĽssen in n8n separate Sub-Workflows gebaut werden.

Direktvergleich: n8n vs. Thunderbit vs. Python-Skripte

Faktorn8n DIY-ScrapingThunderbitPython-Skript
Benötigtes technisches Know-howMittel (Nodes + CSS-Selektoren)Keines (KI schlägt Felder vor)Hoch (Programmierung)
Setup-Zeit pro neuer Website30–90 Min.ca. 2 Min.1–4 Std.
Anti-Bot-HandlingManuell (Header, Proxies, APIs)Integriert (Browser-/Cloud-Modi)Manuell (Bibliotheken)
Wartung bei SeitenänderungenSelektoren manuell anpassenKeine — KI passt sich automatisch anCode manuell aktualisieren
Unterstützung für mehrstufige WorkflowsSehr gut (Kernstärke)Export nach Sheets/Airtable/NotionBenötigt eigenen Code
Kosten bei Skalierungn8n-Hosting + Proxy/API-KostenCredit-basiert (ca. 1 Credit pro Zeile)Server- + Proxy-Kosten
Anreicherung von UnterseitenManuell — separaten Sub-Workflow bauenUnterseiten-Scraping mit 1 KlickEigene Skripte nötig

Die Quintessenz: Nutze n8n, wenn Scraping Teil einer komplexen, mehrstufigen Automatisierungskette ist. Nutze Thunderbit, wenn du schnell Daten brauchst, ohne Workflows zu bauen. Nutze Python, wenn du maximale Kontrolle brauchst und Entwicklerressourcen hast. Das sind keine Konkurrenten — sie ergänzen sich.

n8n-thunderbit-python-comparison.webp

Praxisnahe n8n-Web-Scraping-Workflows, die Sie direkt übernehmen können

Im Forum wird ständig gefragt: „Hat das schon jemand zu mehrstufigen Workflows verknüpft?“ Hier sind drei konkrete Workflows — echte Node-Abfolgen, die du heute bauen kannst.

Workflow 1: Preis-Monitoring fĂĽr E-Commerce-Wettbewerber

Ziel: Die Preise von Wettbewerbern täglich verfolgen und eine Benachrichtigung erhalten, wenn sie sinken.

Node-Kette: Schedule Trigger (täglich, 8 Uhr) → Code (paginierte URLs generieren) → Loop Over Items → HTTP Request → HTML (Produktname, Preis, Verfügbarkeit extrahieren) → Wait (2 Sek.) → (zurück in die Schleife) → Code (Daten bereinigen, Preise normalisieren) → Google Sheets (Zeilen anhängen) → IF (Preis unter Schwelle?) → Slack (Alarm senden)

Komplexität: 8–10 Nodes, 30–60 Minuten Setup pro Wettbewerber-Website.

Thunderbit-Abkürzung: Thunderbits Scheduled Scraper + erzielen ähnliche Ergebnisse in Minuten, mit kostenlosem Export nach Google Sheets.

Workflow 2: Lead-Generierung fĂĽr den Vertrieb

Ziel: Ein Branchenverzeichnis wöchentlich scrapen, Leads bereinigen und kategorisieren und ins CRM pushen.

Node-Kette: Schedule Trigger (wöchentlich, Montag 9 Uhr) → HTTP Request (Verzeichnis-Seite) → HTML (Name, Telefon, E-Mail, Adresse extrahieren) → Code (Duplikate entfernen, Format bereinigen) → OpenAI/Gemini Node (nach Branche kategorisieren) → HubSpot Node (Kontakte anlegen)

Hinweis: n8n hat eine native — praktisch für CRM-Pushes. Das Scraping und die Bereinigung erfordern aber weiterhin manuelle CSS-Selektor-Arbeit.

Thunderbit-Abkürzung: Thunderbits kostenloser und Phone Number Extractor können Kontaktdaten mit einem Klick extrahieren — ganz ohne Workflow-Bau. Die KI-Beschriftung kann Leads bereits während der Extraktion kategorisieren. Nutzer, die die komplette Automatisierungskette nicht brauchen, können sich das n8n-Setup sparen.

Workflow 3: Tracker fĂĽr neue Immobilienangebote

Ziel: Neue Angebote auf Zillow oder Realtor.com wöchentlich erkennen und eine Zusammenfassung per E-Mail verschicken.

Node-Kette: Schedule Trigger (wöchentlich) → HTTP Request (Angebotsseiten) → HTML (Adresse, Preis, Schlafzimmer, Link extrahieren) → Code (Daten bereinigen) → Google Sheets (anhängen) → Code (mit den Daten der Vorwoche vergleichen, neue Angebote markieren) → IF (neue Angebote gefunden?) → Gmail/SendGrid (Digest senden)

Hinweis: Thunderbit hat — ganz ohne CSS-Selektoren. Nutzer, die die komplette Automatisierungskette brauchen (scrapen → vergleichen → alarmieren), profitieren von n8n; Nutzer, die nur die Angebotsdaten brauchen, profitieren von Thunderbit.

FĂĽr weitere Workflow-Ideen bietet die n8n-Community-Bibliothek Vorlagen fĂĽr , und .

Tipps, damit Ihre n8n-Web-Scraping-Pipelines stabil laufen

Produktives Scraping besteht zu 20 % aus Aufbau und zu 80 % aus Wartung.

Batching und Verzögerungen nutzen, um Rate Limits zu vermeiden

Aktiviere Batching in der HTTP Request-Node und setze eine Wartezeit von 1–3 Sekunden zwischen den Batches. Gleichzeitige Requests sind der schnellste Weg zu einer IP-Sperre. Etwas Geduld spart später viel Ärger.

Workflow-AusfĂĽhrungen auf stille Fehler ĂĽberwachen

Nutze den Tab Executions in n8n, um fehlgeschlagene Läufe zu prüfen. Scraping-Daten können stillschweigend leer zurückkommen, wenn eine Website ihr Layout ändert — der Workflow „erfolgreich“, aber deine Tabelle ist voller leerer Zellen.

Richte einen Error Trigger-Workflow ein, der bei jedem Fehler ausgelöst wird und eine Slack- oder E-Mail-Benachrichtigung verschickt. Für produktive Pipelines ist das Pflicht.

Ihre CSS-Selektoren extern speichern, damit Updates einfach bleiben

Bewahre CSS-Selektoren in einem Google Sheet oder in n8n-Umgebungsvariablen auf, damit du sie aktualisieren kannst, ohne den Workflow selbst zu bearbeiten. Wenn sich das Layout einer Website ändert, musst du den Selektor nur an einer Stelle anpassen.

Wissen, wann Sie auf einen KI-gestĂĽtzten Scraper wechseln sollten

Wenn du ständig CSS-Selektoren anpasst, gegen Anti-Bot-Maßnahmen ankämpfst oder mehr Zeit mit der Wartung von Scrapern verbringst als mit der Nutzung der Daten, solltest du ein KI-gestütztes Tool wie in Betracht ziehen, das die Website jedes Mal frisch ausliest und sich automatisch anpasst. Der funktioniert sehr gut: Thunderbit übernimmt die fragile Extraktionsschicht — also den Teil, der bei jeder kleinen Änderung am <div> zerbricht —, exportiert nach Google Sheets oder Airtable, und n8n übernimmt über den nativen Sheets-/Airtable-Trigger die Orchestrierung: CRM-Updates, Alerts, Bedingungen, Verteilung auf mehrere Systeme.

Fazit: Bauen Sie die Pipeline, die zu Ihrem Team passt

n8n Web Scraping ist stark, wenn Scraping nur ein Schritt in einer größeren Automatisierung ist. Es braucht aber technisches Setup, laufende Wartung und Geduld bei Pagination, Anti-Bot-Schutz und Zeitplanung. Dieser Leitfaden hat die komplette Pipeline abgedeckt: deinen ersten Workflow, Pagination — der Teil, den fast jedes Tutorial auslässt —, Scheduling, Anti-Bot-Fehlersuche, eine ehrliche Einordnung von n8n und echte Workflows zum Nachbauen.

So denke ich darĂĽber:

  • Nutze n8n, wenn Scraping Teil einer komplexen, mehrstufigen Automatisierungskette ist — CRM-Updates, Slack-Alerts, KI-Anreicherung, bedingtes Routing.
  • Nutze , wenn du schnell Daten brauchst, ohne Workflows zu bauen — KI ĂĽbernimmt Feldvorschläge, Pagination, Anti-Bot und Export in 2 Klicks.
  • Nutze Python, wenn du maximale Kontrolle brauchst und Entwicklerressourcen zur VerfĂĽgung hast.

Und ehrlich gesagt ist für viele Teams die beste Lösung eine Kombination aus beidem: Thunderbit für die Extraktion, n8n für die Orchestrierung. Wenn du sehen möchtest, wie KI-gestütztes Scraping im Vergleich zu deinem n8n-Workflow abschneidet, kannst du mit in kleinem Rahmen experimentieren — und die ist in Sekunden installiert. Für Video-Anleitungen und Workflow-Ideen schau dir den an.

Thunderbit fĂĽr KI-Web-Scraping testen

FAQs

Kann n8n JavaScript-lastige Websites scrapen?

Nicht allein mit der eingebauten HTTP Request-Node. Die HTTP Request-Node ruft rohes HTML ab und kann kein JavaScript ausfĂĽhren. FĂĽr JS-gerenderte Seiten brauchst du eine Community-Node wie oder eine Scraping-API-Integration (ScrapeNinja, Firecrawl), die JavaScript serverseitig rendert. Thunderbit unterstĂĽtzt stark JavaScript-lastige Seiten nativ sowohl im Browser- als auch im Cloud-Scraping-Modus.

Ist n8n Web Scraping kostenlos?

Die selbst gehostete Version von n8n ist kostenlos und Open Source. n8n Cloud hatte früher einen Free-Tarif, bietet Stand April 2026 aber nur noch eine 14-tägige Testphase an — danach beginnen die Pläne bei 24 US-Dollar pro Monat für 2.500 Ausführungen. Das Scrapen geschützter Websites kann außerdem kostenpflichtige Proxy-Dienste erfordern (Residential Proxies kosten etwa 5–15 US-Dollar/GB) oder Scraping-APIs (je nach Volumen 49–200+ US-Dollar pro Monat).

Wie unterscheidet sich n8n Web Scraping von Thunderbit?

n8n ist besser für mehrstufige Automatisierungen, bei denen Scraping nur ein Teil eines größeren Workflows ist (z. B. scrape → anreichern → filtern → ins CRM pushen → auf Slack alarmieren). Thunderbit ist besser für schnelle, No-Code-Datenextraktion mit KI-gestützter Felderkennung, automatischer Pagination und ohne Wartungsaufwand bei Seitenänderungen. Viele Teams nutzen beides zusammen — Thunderbit für die Extraktion, n8n für die Orchestrierung.

Kann ich mit n8n Daten von Websites scrapen, die Login erfordern?

Ja, aber dafür müssen Cookies oder Session-Tokens in der HTTP Request-Node konfigurieren, was in der Wartung knifflig sein kann. Thunderbits Browser-Scraping-Modus übernimmt die eingeloggte Chrome-Session des Nutzers automatisch — wenn du eingeloggt bist, kann Thunderbit das sehen, was du siehst.

Was sollte ich tun, wenn mein n8n-Scraper plötzlich keine Daten mehr liefert?

Prüfe zuerst den Tab „Executions“ in n8n auf Fehler. Die häufigste Ursache ist eine Layout-Änderung auf der Website, durch die deine CSS-Selektoren nicht mehr passen — der Workflow „läuft erfolgreich“, liefert aber leere Felder. Überprüfe deine Selektoren mit dem Inspect-Tool in Chrome, aktualisiere sie im Workflow (oder in deinem externen Selektor-Sheet) und teste erneut. Wenn du an Anti-Bot-Sperren hängenbleibst, folge dem Troubleshooting-Entscheidungsbaum in diesem Leitfaden. Für langfristige Zuverlässigkeit solltest du einen KI-gestützten Scraper wie Thunderbit in Betracht ziehen, der sich automatisch an Layout-Änderungen anpasst.

Mehr erfahren

Shuai Guan
Shuai Guan
Co-founder/CEO @ Thunderbit. Passionate about cross section of AI and Automation. He's a big advocate of automation and loves making it more accessible to everyone. Beyond tech, he channels his creativity through a passion for photography, capturing stories one picture at a time.
Inhaltsverzeichnis

Thunderbit testen

Leads und andere Daten in nur 2 Klicks extrahieren. Mit KI.

Thunderbit holen Es ist kostenlos
Daten mit KI extrahieren
Daten einfach nach Google Sheets, Airtable oder Notion ĂĽbertragen
PRODUCT HUNT#1 Product of the Week