n8n Web Scraping meistern: Automatisierte Workflows

Vor ein paar Monaten schickte uns ein Nutzer einen Screenshot eines n8n-Workflows mit 14 Nodes, einem halben Dutzend Haftnotizen und einer Betreffzeile, auf der schlicht „Hilfe“ stand. Er war einem beliebten n8n-Web-Scraping-Tutorial gefolgt, hatte auf einer Testseite einen hübschen Demo-Workflow mit 10 Zeilen zum Laufen gebracht und dann versucht, echte Wettbewerberpreise über 200 Produktseiten hinweg zu erfassen. Das Ergebnis? Eine kaputte Paginierungsschleife, eine 403-Fehlermauer und ein stiller Zeitplaner, der nach dem ersten Dienstag nicht mehr ausgelöst wurde.

Genau an dieser Lücke — zwischen Demo und produktionsreifem Pipeline-Betrieb — scheitern die meisten n8n-Scraping-Projekte. Ich habe jahrelang aufgebaut und im Bereich Automatisierung gearbeitet, und ich kann Ihnen sagen: Das Scraping selbst ist selten das eigentliche Problem. Es ist alles nach dem ersten erfolgreichen Abruf, woran viele scheitern. Paginierung, Zeitplanung, Anti-Bot-Schutz, Datenbereinigung, Export und — der große Punkt — Wartung, wenn die Website ihr Layout zum dritten Mal in diesem Quartal ändert. Dieser Leitfaden deckt die komplette Pipeline ab: von Ihrem ersten HTTP-Request-Node bis zu einem wiederkehrenden, produktionsreifen n8n-Web-Scraping-Workflow. Und dort, wo der Do-it-yourself-Ansatz von n8n an seine Grenzen stößt, zeige ich Ihnen, wo KI-gestützte Tools wie Thunderbit Ihnen Stunden — oder Tage — an Frust ersparen können.

Was ist n8n Web Scraping (und warum kratzen die meisten Tutorials nur an der Oberfläche)?

n8n ist eine Open-Source-Automatisierungsplattform mit Low-Code-Ansatz. Stellen Sie sich eine visuelle Arbeitsfläche vor, auf der Sie „Nodes“ verbinden — jeder Node übernimmt eine bestimmte Aufgabe (eine Webseite abrufen, HTML parsen, eine Slack-Nachricht senden, in Google Sheets schreiben) — und daraus automatisierte Workflows bauen. Dafür braucht es kein schweres Coding, auch wenn Sie bei Bedarf JavaScript einfügen können.

„n8n Web Scraping“ bedeutet, die eingebauten HTTP-Request- und HTML-Nodes von n8n (plus Community-Nodes) zu nutzen, um Website-Daten innerhalb dieser automatisierten Workflows abzurufen, zu parsen und weiterzuverarbeiten. Im Kern sind es zwei Schritte: Abrufen (der HTTP-Request-Node holt das rohe HTML von einer URL) und Parsen (der HTML-Node extrahiert mit CSS-Selektoren genau die Datenpunkte, die Sie brauchen — Produktnamen, Preise, E-Mail-Adressen, was auch immer).

Die Plattform ist riesig: Stand April 2026 hat n8n , über 230.000 aktive Nutzer, mehr als 9.166 Community-Workflow-Vorlagen und veröffentlicht ungefähr jede Woche ein neues Minor-Release. Im März 2025 hat das Unternehmen eingesammelt. Hier steckt also ordentlich Momentum dahinter.

Doch es gibt eine Lücke, über die kaum jemand spricht. Das beliebteste n8n-Scraping-Tutorial auf dev.to (von Lakshay Nasa, veröffentlicht unter der Organisation „Extract by Zyte“) versprach Paginierung in „Teil 2“. Teil 2 kam tatsächlich — und das Fazit des Autors lautete sinngemäß: „N8N bietet im HTTP-Request-Node unter den Optionen einen Standard-Paginierungsmodus, und obwohl das praktisch klingt, hat es sich in meiner Erfahrung für typische Web-Scraping-Anwendungsfälle nicht zuverlässig verhalten.“ Am Ende leitete der Autor die Paginierung über eine kostenpflichtige Drittanbieter-API um. Gleichzeitig berichten Nutzer im n8n-Forum immer wieder, dass „Paginierung, Throttling, Login“ genau der Punkt sei, an dem n8n-Scraping „schnell kompliziert wird“. Dieser Leitfaden schließt genau diese Lücke.

Warum n8n Web Scraping für Sales-, Ops- und Ecommerce-Teams wichtig ist

n8n Web Scraping ist kein Hobby für Entwickler. Es ist ein Business-Tool. Der liegt 2025 bei rund 1 bis 1,3 Milliarden US-Dollar und soll bis 2030 auf 2 bis 2,3 Milliarden US-Dollar wachsen. Schon dynamische Preisgestaltung wird von etwa eingesetzt, und verlassen sich inzwischen auf alternative Daten — vieles davon aus dem Web gescraped. McKinsey berichtet, dass dynamische Preisgestaltung für Anwender bringt.

Hier zeigt sich die eigentliche Stärke von n8n: Es geht nicht nur darum, Daten zu holen. Entscheidend ist, was danach passiert. n8n ermöglicht es, Scraping mit Folgeaktionen in einem einzigen Workflow zu verketten — CRM-Updates, Slack-Warnungen, Tabellen-Exporte, KI-Analysen.

Anwendungsfall	Wer profitiert	Was Sie scrapen	Geschäftlicher Nutzen
Lead-Generierung	Vertriebsteams	Branchenverzeichnisse, Kontaktseiten	CRM mit qualifizierten Leads füllen
Wettbewerber-Preisbeobachtung	Ecommerce-Operations	Produktlisten-Seiten	Preise in Echtzeit anpassen
Tracking von Immobilienangeboten	Immobilienmakler	Zillow, Realtor, lokale MLS-Seiten	Neue Objekte vor Wettbewerbern entdecken
Marktforschung	Marketing-Teams	Bewertungsportale, Foren, News	Trends und Kundenstimmung erkennen
Bestandsüberwachung von Lieferanten/SKUs	Supply-Chain-Teams	Produktseiten von Lieferanten	Engpässe vermeiden, Einkauf optimieren

Die Zahlen zeigen: Der ROI ist real. planen, ihre KI-Investitionen 2025 zu erhöhen, und automatisiertes Lead-Nurturing hat nachweislich dazu beigetragen, die . Wenn Ihr Team Daten noch immer per Copy-and-Paste aus Webseiten in Tabellen überträgt, lassen Sie Geld liegen.

Ihr n8n-Web-Scraping-Werkzeugkasten: Wichtige Nodes und verfügbare Lösungen

Bevor Sie etwas bauen, sollten Sie wissen, was im Werkzeugkasten steckt. Das sind die wichtigsten n8n-Nodes fürs Web Scraping:

HTTP Request Node: Ruft rohes HTML von jeder URL ab. Funktioniert wie ein Browser, der eine Seite anfordert, liefert aber den Code statt der gerenderten Ansicht. Unterstützt GET/POST, Header, Batching und theoretisch auch eine integrierte Paginierung.
HTML Node (früher „HTML Extract“): Parst HTML mithilfe von CSS-Selektoren, um gezielt Daten herauszuziehen — Titel, Preise, Links, Bilder, was immer Sie brauchen.
Code Node: Ermöglicht JavaScript-Snippets für Datenbereinigung, URL-Normalisierung, Deduplizierung und individuelle Logik.
Edit Fields (Set) Node: Strukturiert Daten neu oder benennt Felder für nachgelagerte Nodes um.
Split Out Node: Zerlegt Arrays in einzelne Elemente für die weitere Verarbeitung.
Convert to File Node: Exportiert strukturierte Daten als CSV, JSON usw.
Loop Over Items Node: Iteriert über Listen (entscheidend für Paginierung — dazu gleich mehr).
Schedule Trigger: Startet Ihren Workflow nach Zeitplan.
Error Trigger: Benachrichtigt Sie, wenn ein Workflow fehlschlägt (für den produktiven Einsatz unverzichtbar).

Für fortgeschrittenes Scraping — also Seiten mit JavaScript-Rendering oder starker Anti-Bot-Abwehr — brauchen Sie Community-Nodes:

Ansatz	Am besten geeignet für	Kenntnisstand	Unterstützt JS-gerenderte Seiten	Anti-Bot-Handhabung
n8n HTTP Request + HTML-Nodes	Statische Seiten, APIs	Anfänger–Fortgeschrittene	Nein	Manuell (Header, Proxys)
n8n + ScrapeNinja/Firecrawl Community Node	Dynamische/geschützte Seiten	Fortgeschrittene	Ja	Integriert (Proxy-Rotation, CAPTCHA)
n8n + Headless Browser (Puppeteer)	Komplexe JS-Interaktionen	Fortgeschritten	Ja	Teilweise (abhängig vom Setup)
Thunderbit (AI Web Scraper)	Jede Website, nicht-technische Nutzer	Anfänger	Ja (Browser- oder Cloud-Modus)	Integriert (übernimmt Browser-Sitzung oder Cloud-Verarbeitung)

Es gibt in n8n Stand v2.15.1 keinen nativen Headless-Browser-Node. Jedes Scraping von JS-gerenderten Seiten benötigt also entweder einen Community-Node oder eine externe API.

Ein kurzer Hinweis zu Thunderbit: Das ist eine KI-gestützte , die unser Team gebaut hat. Sie klicken auf „AI Suggest Fields“, dann auf „Scrape“ und erhalten strukturierte Daten — ohne CSS-Selektoren, ohne Node-Konfiguration, ohne Wartungsaufwand. Im Verlauf dieses Leitfadens zeige ich Ihnen, wo Thunderbit passt — und wo n8n die bessere Wahl ist.

Schritt für Schritt: Ihren ersten n8n-Web-Scraper bauen

Jetzt, da der Werkzeugkasten klar ist, bauen wir von Grund auf einen funktionierenden n8n-Web-Scraper. Als Beispiel nehmen wir eine Produktlisten-Seite — also genau die Art von Seite, die man für Preisbeobachtung oder Wettbewerbsanalyse scrapen würde.

Bevor Sie anfangen:

Schwierigkeitsgrad: Anfänger–Fortgeschrittene
Benötigte Zeit: ca. 20–30 Minuten
Was Sie brauchen: n8n (self-hosted oder Cloud), eine Ziel-URL, Chrome-Browser (zum Finden von CSS-Selektoren)

Schritt 1: Neuen Workflow erstellen und einen manuellen Trigger hinzufügen

Öffnen Sie n8n, klicken Sie auf „New Workflow“ und geben Sie ihm einen sprechenden Namen — zum Beispiel „Competitor Price Scraper“. Ziehen Sie einen Manual Trigger-Node hinein. (Später stellen wir auf einen geplanten Trigger um.)

Sie sollten nun einen einzelnen Node auf Ihrer Arbeitsfläche sehen, bereit zum Start, sobald Sie auf „Test Workflow“ klicken.

Schritt 2: Seite mit dem HTTP Request Node abrufen

Fügen Sie einen HTTP Request-Node hinzu und verbinden Sie ihn mit dem Manual Trigger. Stellen Sie die Methode auf GET und tragen Sie Ihre Ziel-URL ein (z. B. https://example.com/products).

Jetzt der entscheidende Schritt, den die meisten Tutorials überspringen: Fügen Sie einen realistischen User-Agent-Header hinzu. Standardmäßig sendet n8n axios/xx als User-Agent — für Bots ist das sofort erkennbar. Unter „Headers“ fügen Sie Folgendes hinzu:

Header-Name	Wert
User-Agent	Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36
Accept	text/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8

Wenn Sie mehrere URLs scrapen, aktivieren Sie Batching (unter Optionen) und setzen Sie eine Wartezeit von 1–3 Sekunden zwischen den Requests. Das hilft dabei, Rate Limits nicht auszulösen.

Führen Sie den Node aus. Im Ausgabefenster sollten Sie rohes HTML sehen.

Schritt 3: Daten mit dem HTML Node parsen

Verbinden Sie einen HTML-Node mit der Ausgabe des HTTP Request Nodes. Stellen Sie die Operation auf Extract HTML Content.

Um die passenden CSS-Selektoren zu finden, öffnen Sie die Zielseite in Chrome, klicken Sie mit der rechten Maustaste auf die gewünschte Information (z. B. einen Produkttitel) und wählen Sie „Inspect“. Klicken Sie im Elements-Bereich mit der rechten Maustaste auf das hervorgehobene HTML-Element und wählen Sie „Copy → Copy selector“.

Konfigurieren Sie die Extraktionswerte so:

Schlüssel	CSS-Selektor	Rückgabewert
product_name	.product-title	Text
price	.price-current	Text
url	.product-link	Attribut: href

Führen Sie den Node aus. Im Output sollte nun eine Tabelle mit strukturierten Daten erscheinen — Produktnamen, Preise und URLs.

Schritt 4: Mit dem Code Node bereinigen und normalisieren

Rohdaten aus Scraping sind selten sauber. Preise enthalten zusätzliche Leerzeichen, URLs sind eventuell relativ, und Textfelder haben Zeilenumbrüche am Ende. Fügen Sie einen Code-Node hinzu und verbinden Sie ihn mit dem HTML-Node.

Hier ein einfaches JavaScript-Snippet, das die Daten bereinigt:

1return items.map(item => {
2  const d = item.json;
3  return {
4    json: {
5      product_name: (d.product_name || '').trim(),
6      price: parseFloat((d.price || '').replace(/[^0-9.]/g, '')),
7      url: d.url && d.url.startsWith('http') ? d.url : `https://example.com$\{d.url\}`
8    }
9  };
10});

Dieser Schritt ist für Daten in Produktionsqualität unverzichtbar. Lassen Sie ihn weg, und Ihre Tabelle wird voller Einträge wie „$ 29.99\n“ sein.

Schritt 5: In Google Sheets, Airtable oder CSV exportieren

Verbinden Sie einen Google Sheets-Node (oder Airtable, oder Convert to File für CSV). Authentifizieren Sie sich mit Ihrem Google-Konto, wählen Sie Ihre Tabelle und das Arbeitsblatt aus und ordnen Sie die Felder aus dem Code-Node den Spaltenüberschriften zu.

Führen Sie den kompletten Workflow aus. Die sauberen, strukturierten Daten sollten nun in Ihrer Tabelle landen.

Nebenbei: nach Google Sheets, Airtable, Notion und Excel — ganz ohne Node-Setup. Wenn Sie nicht den kompletten Workflow-Zweig brauchen und nur die Daten wollen, ist das ein praktischer Shortcut.

Der Teil, den jedes n8n-Web-Scraping-Tutorial überspringt: vollständige Paginierungs-Workflows

Paginierung ist die größte Lücke in n8n-Scraping-Inhalten — und die größte Frustquelle in den n8n-Community-Foren.

Es gibt zwei Hauptmuster für Paginierung:

Klickbasierte / URL-inkrementierende Paginierung — Seiten wie ?page=1, ?page=2 usw.
Infinite Scroll — Inhalte werden geladen, während Sie nach unten scrollen (denken Sie an Twitter, Instagram oder viele moderne Produktkataloge).

Klickbasierte Paginierung in n8n (URL-Inkrementierung mit Loop Nodes)

Die eingebaute Pagination-Option im Options-Menü des HTTP Request Nodes klingt bequem. In der Praxis ist sie unzuverlässig. Der Autor des bekanntesten n8n-Scraping-Tutorials (Lakshay Nasa) hat sie ausprobiert und schrieb sinngemäß: „In meiner Erfahrung hat sie sich nicht zuverlässig verhalten.“ Im Forum berichten Nutzer, dass sie , und die letzte Seite nicht erkennt.

Der zuverlässige Ansatz: Die URL-Liste explizit in einem Code-Node erzeugen und dann mit Loop Over Items iterieren.

So geht’s:

Einen Code-Node hinzufügen, der Ihre Seiten-URLs erzeugt:

1const base = 'https://example.com/products';
2const totalPages = 10; // oder dynamisch erkennen
3return Array.from({length: totalPages}, (_, i) => ({
4  json: { url: `$\{base\}?page=${i + 1}` }
5}));

Einen Loop Over Items-Node verbinden, um über die Liste zu iterieren.
Innerhalb der Schleife Ihren HTTP Request Node hinzufügen (URL auf {{ $json.url }} setzen) und danach den HTML-Node für das Parsen.
Einen Wait-Node einfügen (1–3 Sekunden, zufällig), um 429-Rate-Limits zu vermeiden.
Nach der Schleife Ergebnisse zusammenführen und nach Google Sheets oder CSV exportieren.

Die vollständige Kette lautet: Code (URLs bauen) → Loop Over Items → HTTP Request → HTML → Wait → (zurück zur Schleife) → Aggregieren → Exportieren.

Ein Haken: Der Loop Over Items-Node hat einen , bei dem verschachtelte Schleifen Elemente stillschweigend überspringen. Wenn Sie also sowohl paginieren als auch Unterseiten anreichern, testen Sie sorgfältig — die „done“-Anzahl stimmt möglicherweise nicht mit Ihrer Eingabezahl überein.

Infinite-Scroll-Paginierung: Warum die eingebauten n8n-Nodes an ihre Grenzen stoßen

Infinite-Scroll-Seiten laden Inhalte per JavaScript nach, während Sie scrollen. Der HTTP Request Node holt nur das initiale HTML — er kann kein JavaScript ausführen und keine Scroll-Events auslösen. Sie haben zwei Möglichkeiten:

Einen Headless-Browser-Community-Node nutzen (z. B. oder ), um die Seite zu rendern und Scrollen zu simulieren.
Eine Scraping-API (ScrapeNinja, Firecrawl, ZenRows) mit aktiviertem JavaScript-Rendering einsetzen.

Beides erhöht die Komplexität deutlich. Pro Website sind 30–60+ Minuten Setup-Zeit realistisch, plus laufende Wartung.

Wie Thunderbit Paginierung ohne Konfiguration handhabt

Ich bin natürlich voreingenommen, aber der Unterschied ist deutlich:

Funktion	n8n (DIY-Workflow)	Thunderbit
Klickbasierte Paginierung	Manuelles Loop-Node-Setup, URL-Inkrementierung	Automatisch — erkennt und folgt der Paginierung
Infinite-Scroll-Seiten	Erfordert Headless Browser + Community-Node	Integrierte Unterstützung, keine Konfiguration nötig
Setup-Aufwand	30–60 Min. pro Website	2 Klicks
Seiten pro Batch	Nacheinander (eine nach der anderen)	50 Seiten gleichzeitig (Cloud Scraping)

Wenn Sie 200 Produktseiten über 10 paginierte Listen hinweg scrapen, brauchen Sie mit n8n locker einen halben Arbeitstag. Mit Thunderbit dauert es etwa zwei Minuten. Das ist kein Angriff auf n8n — es ist einfach das bessere Werkzeug für einen anderen Job.

Einrichten und vergessen: Cron-getriebene n8n-Web-Scraping-Pipelines

Einmaliges Scraping ist nützlich, aber die eigentliche Stärke von n8n Web Scraping liegt in wiederkehrender, automatisierter Datenerfassung. Überraschenderweise behandelt fast kein n8n-Scraping-Tutorial den Schedule Trigger fürs Scraping — obwohl er zu den am häufigsten gewünschten Funktionen in der Community gehört.

Eine tägliche Preisüberwachungs-Pipeline bauen

Ersetzen Sie Ihren Manual Trigger durch einen Schedule Trigger-Node. Sie können dafür die n8n-Oberfläche nutzen („Every day at 8:00 AM“) oder einen Cron-Ausdruck (0 8 * * *).

Die komplette Workflow-Kette:

Schedule Trigger (täglich um 8 Uhr)
Code-Node (paginierte URLs erzeugen)
Loop Over Items → HTTP Request → HTML → Wait (alle Seiten scrapen)
Code-Node (Daten bereinigen, Preise normalisieren)
Google Sheets (neue Zeilen anhängen)
IF-Node (liegt irgendein Preis unter dem Schwellenwert?)
Slack (bei Ja eine Warnung senden)

Richten Sie daneben einen Error Trigger-Workflow ein, der bei jeder fehlgeschlagenen Ausführung ausgelöst wird und Slack anpingt. Sonst merken Sie erst drei Wochen später, dass die Selektoren kaputt sind — nämlich dann, wenn der Bericht leer ist.

Zwei nicht offensichtliche Voraussetzungen:

n8n muss 24/7 laufen. Ein selbst gehosteter Laptop-Server löst nichts aus, wenn der Deckel geschlossen ist. Nutzen Sie einen Server, Docker oder n8n Cloud.
Nach jeder Workflow-Änderung den Workflow einmal aus- und wieder einschalten. n8n Cloud hat ein , bei dem Zeitplaner nach Änderungen stillschweigend abgemeldet werden — ohne Fehlermeldung.

Eine wöchentliche Lead-Extraktions-Pipeline bauen

Das gleiche Muster, anderes Ziel: Schedule Trigger (jeden Montag um 9 Uhr) → HTTP Request (Branchenverzeichnis) → HTML (Name, Telefon, E-Mail extrahieren) → Code (Deduplizierung, Format bereinigen) → Push an Airtable oder HubSpot.

Die Wartung ist hier der oft unterschätzte Kostenfaktor. Wenn das Verzeichnis-Portal sein Layout ändert, brechen Ihre CSS-Selektoren, und der Workflow schlägt stillschweigend fehl. HasData schätzt, dass man für jede selector-basierte Pipeline der anfänglichen Build-Zeit pro Jahr für laufende Wartung einplanen sollte. Sobald Sie rund 20 Websites betreuen, wird der Overhead real.

Thunderbits Scheduled Scraper: Die No-Code-Alternative

Thunderbits Scheduled Scraper erlaubt es Ihnen, das Intervall in natürlicher Sprache zu beschreiben (z. B. „jeden Montag um 9 Uhr“), Ihre URLs einzugeben und auf „Schedule“ zu klicken. Er läuft in der Cloud — kein Hosting, keine Cron-Ausdrücke, keine stillen Abmeldungen.

Dimension	n8n Scheduled Workflow	Thunderbit Scheduled Scraper
Zeitplanung einrichten	Cron-Ausdruck oder n8n-Schedule-UI	In natürlicher Sprache beschreiben
Datenbereinigung	Manueller Code-Node erforderlich	KI bereinigt/labelt/übersetzt automatisch
Export-Ziele	Benötigt Integrations-Nodes	Google Sheets, Airtable, Notion, Excel (kostenlos)
Hosting-Anforderung	Self-hosted oder n8n Cloud	Keine — läuft in der Cloud
Wartung bei Website-Änderungen	Selektoren brechen, manuelle Korrektur nötig	KI liest die Seite jedes Mal neu ein

Die letzte Zeile ist die wichtigste. Nutzer im Forum sagen es ganz offen: „Die meisten funktionieren gut, bis eine Seite ihr Layout ändert.“ Thunderbits KI-basierter Ansatz nimmt genau diesen Schmerzpunkt heraus, weil er nicht auf festen CSS-Selektoren basiert.

Wenn Ihr n8n-Web-Scraper blockiert wird: Ein Leitfaden zur Anti-Bot-Fehlersuche

Blockiert zu werden ist nach der Paginierung die größte Frustquelle. Der Standardtipp — „füge einen User-Agent-Header hinzu“ — ist ungefähr so nützlich wie ein Bildschirmtürchen gegen einen Hurrikan.

Laut dem Imperva 2025 Bad Bot Report machen , und davon sind bösartig. Anti-Bot-Anbieter (Cloudflare, Akamai, DataDome, HUMAN, PerimeterX) reagieren mit TLS-Fingerprinting, JavaScript-Challenges und Verhaltensanalysen. Der n8n HTTP Request Node, der intern die Axios-Bibliothek nutzt, erzeugt einen klar unterscheidbaren, browseruntypischen TLS-Fingerabdruck. Ein geänderter User-Agent-Header ändert daran nichts — der verrät Sie, bevor überhaupt ein HTTP-Header gelesen wird.

Der Anti-Bot-Entscheidungsbaum

Hier ist ein systematischer Troubleshooting-Ansatz — nicht einfach nur „User-Agent hinzufügen“:

Request blockiert?

403 Forbidden → User-Agent- + Accept-Header hinzufügen (siehe Schritt 2 oben) → Immer noch blockiert?
- Ja → Residential-Proxy-Rotation hinzufügen → Immer noch blockiert?
  - Ja → Auf eine Scraping-API (ScrapeNinja, Firecrawl, ZenRows) oder einen Headless-Browser-Community-Node umsteigen
  - Nein → Weiter
- Nein → Weiter
CAPTCHA erscheint → Scraping-API mit integrierter CAPTCHA-Lösung nutzen (z. B. )
Leere Antwort (JS-gerenderter Inhalt) → Headless-Browser-Community-Node oder Scraping-API mit JavaScript-Rendering nutzen
Rate-Limit erreicht (429-Fehler) → Batching im HTTP Request Node aktivieren, Wartezeit zwischen Batches auf 2–5 Sekunden setzen, Parallelität reduzieren

Noch ein Fallstrick: n8n hat einen , bei dem der HTTP Request Node HTTPS nicht korrekt über einen HTTP-Proxy tunneln kann. Die Axios-Bibliothek scheitert beim TLS-Handshake, obwohl curl im selben Container problemlos funktioniert. Wenn Sie einen Proxy nutzen und rätselhafte Verbindungsfehler bekommen, liegt es wahrscheinlich daran.

Warum Thunderbit die meisten Anti-Bot-Probleme umgeht

Thunderbit bietet zwei Scraping-Modi:

Browser Scraping: Läuft in Ihrem echten Chrome-Browser und übernimmt Ihre Session-Cookies, Ihren Login-Status und den Browser-Fingerabdruck. Das umgeht die meisten Anti-Bot-Maßnahmen, die serverseitige Requests blockieren — denn der Request ist ein echter Browser.
Cloud Scraping: Für öffentlich zugängliche Websites übernimmt Thunderbits Cloud den Anti-Bot-Teil im großen Maßstab — .

Wenn Sie mehr Zeit mit Cloudflare als mit der Datenanalyse verbringen, ist das die praxisnahe Alternative.

Ehrliche Einschätzung: Wann n8n Web Scraping funktioniert — und wann Sie etwas anderes nutzen sollten

n8n ist eine großartige Plattform. Aber sie ist nicht für jeden Scraping-Job das richtige Werkzeug, und kein Wettbewerbsartikel ist darüber wirklich ehrlich. Nutzer fragen im Forum ganz direkt: „Wie schwierig ist es, mit n8n einen Web-Scraper zu bauen?“ und „Welches Scraping-Tool funktioniert am besten mit n8n?“

Wo n8n Web Scraping glänzt

Mehrstufige Workflows, die Scraping mit nachgelagerter Verarbeitung kombinieren — CRM-Updates, Slack-Warnungen, KI-Analysen, Datenbank-Schreibvorgänge. Das ist n8ns Kernstärke.
Anwendungsfälle, bei denen Scraping nur ein Node in einer größeren Automatisierungskette ist — scrapen → anreichern → filtern → ins CRM senden.
Technische Nutzer, die sich mit CSS-Selektoren und nodebasierter Logik wohlfühlen.
Szenarien mit individueller Datenumwandlung zwischen Scraping und Speicherung.

Wo n8n Web Scraping schmerzhaft wird

Nicht-technische Nutzer, die einfach schnell Daten brauchen. Node-Setup, Finden von CSS-Selektoren und Debugging sind für Business-Anwender eine steile Lernkurve.
Websites mit starkem Anti-Bot-Schutz. Proxy- und API-Add-ons erhöhen Kosten und Komplexität.
Wartung, wenn sich Layouts ändern. CSS-Selektoren brechen, Workflows schlagen stillschweigend fehl.
Massen-Scraping über viele unterschiedliche Seitentypen. Jede Website braucht ihre eigene Selektor-Konfiguration.
Anreicherung von Unterseiten. Erfordert separate Teil-Workflows in n8n.

Direktvergleich: n8n vs. Thunderbit vs. Python-Skripte

Faktor	n8n DIY Scraping	Thunderbit	Python-Skript
Benötigte technische Kenntnisse	Mittel (Nodes + CSS-Selektoren)	Keine (KI schlägt Felder vor)	Hoch (Programmierung)
Setup-Zeit pro neuer Website	30–90 Min.	ca. 2 Min.	1–4 Std.
Anti-Bot-Handhabung	Manuell (Header, Proxys, APIs)	Integriert (Browser-/Cloud-Modi)	Manuell (Bibliotheken)
Wartung bei Website-Änderungen	Selektoren manuell anpassen	Keine — KI passt sich automatisch an	Code manuell aktualisieren
Unterstützung für mehrstufige Workflows	Sehr gut (Kernstärke)	Export nach Sheets/Airtable/Notion	Benötigt eigenen Code
Kosten im großen Maßstab	n8n-Hosting + Proxy/API-Kosten	Credit-basiert (ca. 1 Credit pro Zeile)	Server- + Proxy-Kosten
Anreicherung von Unterseiten	Manuell — separaten Teil-Workflow bauen	Unterseiten-Scraping mit 1 Klick	Eigenes Skript

Die Kernaussage: Nutzen Sie n8n, wenn Scraping Teil einer komplexen, mehrstufigen Automatisierungskette ist. Nutzen Sie Thunderbit, wenn Sie Daten schnell brauchen, ohne Workflows bauen zu müssen. Nutzen Sie Python, wenn Sie maximale Kontrolle brauchen und Entwicklerressourcen haben. Das sind keine Konkurrenten — sie ergänzen sich.

Praxisnahe n8n-Web-Scraping-Workflows, die Sie tatsächlich übernehmen können

Im Forum wird immer wieder gefragt: „Hat das schon jemand zu mehrstufigen Workflows verkettet?“ Drei konkrete Workflows — echte Node-Sequenzen, die Sie heute bauen können.

Workflow 1: Preismonitor für Ecommerce-Wettbewerber

Ziel: Wettbewerberpreise täglich verfolgen und benachrichtigt werden, wenn sie sinken.

Node-Kette: Schedule Trigger (täglich, 8 Uhr) → Code (paginierte URLs erzeugen) → Loop Over Items → HTTP Request → HTML (Produktname, Preis, Verfügbarkeit extrahieren) → Wait (2 Sek.) → (zurück zur Schleife) → Code (Daten bereinigen, Preise normalisieren) → Google Sheets (Zeilen anhängen) → IF (Preis unter Schwelle?) → Slack (Warnung senden)

Komplexität: 8–10 Nodes, 30–60 Minuten Setup pro Wettbewerber-Website.

Thunderbit-Shortcut: Thunderbits Scheduled Scraper plus können ähnliche Ergebnisse in wenigen Minuten liefern, inklusive kostenlosem Export nach Google Sheets.

Workflow 2: Pipeline zur Lead-Generierung im Vertrieb

Ziel: Wöchentlich ein Branchenverzeichnis scrapen, Leads bereinigen und kategorisieren, ins CRM pushen.

Node-Kette: Schedule Trigger (wöchentlich, Montag 9 Uhr) → HTTP Request (Verzeichnis-Listing-Seite) → HTML (Name, Telefon, E-Mail, Adresse extrahieren) → Code (Deduplizierung, Format bereinigen) → OpenAI/Gemini-Node (nach Branche kategorisieren) → HubSpot-Node (Kontakte erstellen)

Hinweis: n8n hat einen nativen — praktisch für CRM-Übertragungen. Aber die Scraping- und Bereinigungsschritte erfordern weiterhin manuelle CSS-Selektor-Arbeit.

Thunderbit-Shortcut: Thunderbits kostenloser und Phone Number Extractor ziehen Kontaktdaten mit 1 Klick heraus, ohne dass Sie einen Workflow bauen müssen. Die KI-Labeling-Funktion kann Leads bereits während der Extraktion kategorisieren. Wer die komplette Automatisierungskette nicht braucht, kann das n8n-Setup komplett überspringen.

Workflow 3: Tracker für neue Immobilienangebote

Ziel: Wöchentlich neue Inserate auf Zillow oder Realtor.com erkennen und eine Zusammenfassung per E-Mail versenden.

Node-Kette: Schedule Trigger (wöchentlich) → HTTP Request (Listing-Seiten) → HTML (Adresse, Preis, Zimmer, Link extrahieren) → Code (Daten bereinigen) → Google Sheets (anhängen) → Code (mit den Daten der Vorwoche vergleichen, neue Inserate markieren) → IF (neue Inserate gefunden?) → Gmail/SendGrid (Digest senden)

Hinweis: Thunderbit hat — ganz ohne CSS-Selektoren. Wer die komplette Automatisierungskette (scrapen → vergleichen → alarmieren) braucht, profitiert von n8n; wer nur die Angebotsdaten benötigt, fährt mit Thunderbit besser.

Für weitere Workflow-Ideen bietet die n8n-Community-Bibliothek Vorlagen für , und .

Tipps, damit Ihre n8n-Web-Scraping-Pipelines stabil laufen

Produktions-Scraping besteht zu 20 % aus Aufbau und zu 80 % aus Wartung.

Nutzen Sie Batching und Verzögerungen, um Rate Limits zu vermeiden

Aktivieren Sie Batching im HTTP Request Node und setzen Sie eine Wartezeit von 1–3 Sekunden zwischen den Batches. Gleichzeitige Requests sind der schnellste Weg zu einer IP-Sperre. Ein wenig Geduld spart später viel Ärger.

Überwachen Sie Workflow-Ausführungen auf stille Fehler

Nutzen Sie den Executions-Tab von n8n, um fehlgeschlagene Läufe zu prüfen. Gescrapte Daten können stillschweigend leer zurückkommen, wenn eine Website ihr Layout ändert — der Workflow „erfolgreich“ beendet, aber Ihre Tabelle voller Leerfelder ist.

Richten Sie einen Error Trigger-Workflow ein, der bei jeder fehlgeschlagenen Ausführung ausgelöst wird und eine Slack- oder E-Mail-Benachrichtigung sendet. Für produktive Pipelines ist das nicht verhandelbar.

Speichern Sie CSS-Selektoren extern, damit Updates leichter sind

Bewahren Sie CSS-Selektoren in einem Google Sheet oder in n8n-Umgebungsvariablen auf, damit Sie sie aktualisieren können, ohne den Workflow selbst zu bearbeiten. Wenn sich das Layout einer Website ändert, müssen Sie den Selektor nur an einer Stelle anpassen.

Wissen, wann Sie auf einen KI-gestützten Scraper wechseln sollten

Wenn Sie feststellen, dass Sie ständig CSS-Selektoren anpassen, gegen Anti-Bot-Maßnahmen kämpfen oder mehr Zeit mit der Wartung von Scrapern als mit der Nutzung der Daten verbringen, sollten Sie ein KI-gestütztes Tool wie in Betracht ziehen, das die Seite jedes Mal frisch einliest und sich automatisch anpasst. Der funktioniert gut: Thunderbit übernimmt die fragile Extraktionsschicht — also den Teil, der bei jedem <div>-Update kaputtgeht —, exportiert nach Google Sheets oder Airtable, und n8n greift die neuen Zeilen über den nativen Sheets-/Airtable-Trigger auf und übernimmt die Orchestrierung: CRM-Updates, Benachrichtigungen, bedingte Logik, Multi-System-Fan-out.

Fazit: Bauen Sie die Pipeline, die zu Ihrem Team passt

n8n Web Scraping ist stark, wenn Scraping nur ein Schritt in einem größeren Automatisierungs-Workflow ist. Dafür braucht es aber technisches Setup, laufende Wartung und Geduld bei Paginierung, Anti-Bot-Schutz und Zeitplanung. Dieser Leitfaden hat die komplette Pipeline abgedeckt: Ihren ersten Workflow, Paginierung (der Teil, den jedes Tutorial überspringt), Scheduling, Anti-Bot-Fehlersuche, eine ehrliche Einordnung von n8n und praxisnahe Workflows, die Sie kopieren können.

So denke ich darüber:

Nutzen Sie n8n, wenn Scraping Teil einer komplexen, mehrstufigen Automatisierungskette ist — CRM-Updates, Slack-Warnungen, KI-Anreicherung, bedingtes Routing.
Nutzen Sie , wenn Sie Daten schnell brauchen, ohne Workflows bauen zu müssen — KI übernimmt Felderkennung, Paginierung, Anti-Bot und Export mit 2 Klicks.
Nutzen Sie Python, wenn Sie maximale Kontrolle brauchen und Entwicklerressourcen vorhanden sind.

Und ehrlich gesagt ist für viele Teams die beste Lösung beides: Thunderbit für die Extraktion, n8n für die Orchestrierung. Wenn Sie sehen möchten, wie sich KI-gestütztes Scraping mit Ihrem n8n-Workflow vergleichen lässt, können Sie mit im kleinen Rahmen experimentieren — und die ist in Sekunden installiert. Für Video-Anleitungen und Workflow-Ideen schauen Sie auf dem vorbei.

Thunderbit für KI-Web-Scraping testen

FAQs

Kann n8n Websites mit viel JavaScript scrapen?

Nicht allein mit dem eingebauten HTTP Request Node. Der HTTP Request Node holt rohes HTML und kann kein JavaScript ausführen. Für JS-gerenderte Seiten brauchen Sie einen Community-Node wie oder eine Scraping-API-Integration (ScrapeNinja, Firecrawl), die JavaScript serverseitig rendert. Thunderbit unterstützt JS-lastige Websites nativ im Browser- und Cloud-Scraping-Modus.

Ist n8n Web Scraping kostenlos?

Die selbst gehostete Version von n8n ist kostenlos und Open Source. n8n Cloud hatte früher einen Free-Tarif, bietet Stand April 2026 aber nur noch eine 14-tägige Testphase an — danach beginnen die Pläne bei 24 US-Dollar pro Monat für 2.500 Ausführungen. Das Scrapen geschützter Websites kann außerdem kostenpflichtige Proxy-Dienste erfordern (5–15 US-Dollar/GB für Residential Proxies) oder Scraping-APIs (49–200+ US-Dollar/Monat, je nach Volumen).

Wie unterscheidet sich n8n Web Scraping von Thunderbit?

n8n ist besser für mehrstufige Automatisierungen, bei denen Scraping nur ein Teil eines größeren Workflows ist (z. B. scrapen → anreichern → filtern → ins CRM pushen → per Slack alarmieren). Thunderbit ist besser für schnelle, No-Code-Datenextraktion mit KI-gestützter Felderkennung, automatischer Paginierung und ohne Wartungsaufwand, wenn sich Websites ändern. Viele Teams nutzen beides zusammen — Thunderbit für die Extraktion, n8n für die Orchestrierung.

Ja, aber dafür müssen Cookies oder Session-Tokens im HTTP Request Node konfiguriert werden, was in der Wartung knifflig sein kann. Thunderbits Browser-Scraping-Modus übernimmt automatisch die eingeloggte Chrome-Sitzung des Nutzers — wenn Sie eingeloggt sind, kann Thunderbit das scrapen, was Sie sehen.

Was sollte ich tun, wenn mein n8n-Scraper plötzlich keine Daten mehr zurückliefert?

Prüfen Sie zuerst den Executions-Tab von n8n auf Fehler. Die häufigste Ursache ist eine Layout-Änderung der Website, durch die Ihre CSS-Selektoren kaputt gegangen sind — der Workflow „erfolgreich“ läuft, aber leere Felder zurückgibt. Überprüfen Sie Ihre Selektoren mit dem Inspect-Tool in Chrome, aktualisieren Sie sie in Ihrem Workflow (oder in Ihrem externen Selektor-Sheet) und testen Sie erneut. Wenn Sie gegen Anti-Bot-Sperren laufen, folgen Sie dem Troubleshooting-Entscheidungsbaum in diesem Leitfaden. Für langfristige Zuverlässigkeit sollten Sie einen KI-gestützten Scraper wie Thunderbit in Betracht ziehen, der sich automatisch an Layout-Änderungen anpasst.

Mehr erfahren

n8n-Web-Scraping meistern: Automatisierte Workflows

Brauchst du individuelle Webdaten?

Teste Thunderbit