Letzte Woche bat mich ein Kollege aus unserem Sales-Team, ihm zu helfen, Kontaktdaten aus rund 200 Branchenverzeichnissen herauszuziehen. Sein Plan? Alles per Copy & Paste in eine Tabelle zu kippen. Ich schlug vor, stattdessen ChatGPT zu nutzen, um einen Python-Scraper zu bauen. Zwanzig Minuten später hatte er ein Skript. Dreißig Minuten danach schrieb er mir: „Es hat auf den ersten fünf Seiten funktioniert und dann einfach … aufgehört.“
Genau das passiert überraschend oft. ChatGPT ist tatsächlich ziemlich gut darin, Scraping-Code zu schreiben – bis es das plötzlich nicht mehr ist. Und die meisten Tutorials im Netz hören genau dort auf, wo es spannend wird: „Schau, auf dieser Mini-Testseite klappt’s“ – und lassen dich dann allein, sobald du auf eine echte Seite mit JavaScript, Bot-Schutz oder Pagination triffst. In diesem Leitfaden zeige ich dir, wie ChatGPT Web Scraping in der Praxis wirklich aussieht: den kompletten Ablauf, fünf wiederverwendbare Prompt-Vorlagen statt nur eines Beispiels, eine ehrliche Analyse der typischen Fehlerquellen und was du tun kannst, wenn etwas schiefgeht – inklusive No-Code-Alternativen wie , mit denen du ganz ohne Programmieren auskommst.
Was ist ChatGPT Web Scraping?
Mit „ChatGPT Web Scraping“ ist gemeint, ChatGPT zum Extrahieren von Daten aus Websites zu nutzen. Der wichtige Punkt, den viele übersehen: ChatGPT selbst scrapt keine Websites. Es kann keine URL aufrufen, kein HTML abrufen und sich nicht durch Seiten klicken. Was es kann: Code erzeugen – meist in Python –, der genau diese Aufgaben übernimmt, oder rohes HTML, das du in den Chat einfügst, analysieren und daraus strukturierte Daten machen.
Es gibt zwei gängige Ansätze:
- ChatGPT als Code-Generator: Du beschreibst die Seite und die gewünschten Daten, und ChatGPT schreibt ein Python-Skript – typischerweise mit BeautifulSoup, Selenium oder Playwright –, das du lokal ausführst.
- ChatGPT als Datenparser: Du kopierst rohes HTML in den Chat (oder lädst es über den Code Interpreter hoch), und ChatGPT extrahiert die benötigten Felder in JSON- oder CSV-Form.
In beiden Fällen holst du die Daten selbst ab und führst den Prozess selbst aus. ChatGPT ist das Gehirn, nicht die Hand. Selbst mit dem neueren ChatGPT Atlas Browser (veröffentlicht im Oktober 2025), der Webseiten konversationell durchsuchen kann, bekommst du Antworten – aber keine strukturierten CSV-Tabellen mit 500 Produktzeilen. Es ist ein Browsing-Assistent, keine Datenextraktions-Pipeline.
Warum ChatGPT fürs Web Scraping nutzen? Und für wen ist das gedacht?
ChatGPT senkt die Einstiegshürde für Web Scraping enorm. Laut der nutzen oder planen der Entwickler inzwischen KI-Tools in ihrem Workflow, und ChatGPT liegt mit 82% Anteil vorne. Aber die Zielgruppe für „ChatGPT Web Scraping“ sind nicht nur Entwickler. Es sind SDRs, die Prospect-Listen bauen, E-Commerce-Manager, die Wettbewerberpreise überwachen, Immobilienanalysten, die Listing-Daten ziehen, und Marketing-Teams, die Inhalte bündeln.
Hier ein schneller Überblick über typische Anwendungsfälle und wer davon profitiert:
| Anwendungsfall | Wer profitiert | Welche Daten werden extrahiert |
|---|---|---|
| Lead-Generierung im Vertrieb | SDRs, Sales Ops | Namen, E-Mail-Adressen, Telefonnummern aus Verzeichnissen |
| Preisbeobachtung im Wettbewerb | E-Commerce-, Pricing-Teams | Produktnamen, Preise, Verfügbarkeit, SKUs |
| Marktforschung | Analysten, Gründer | Unternehmensinfos, Bewertungen, Ratings, Feature-Listen |
| Immobilien-Datenerfassung | Makler, Investoren | Immobilienpreise, Adressen, Zimmer/Bäder, Maklerinfos |
| Content-Aggregation | Marketing-, SEO-Teams | Artikeltitel, URLs, Veröffentlichungsdaten, Autoren |
Das manuelle Kopieren von Daten von 100 Seiten kann 3–5 Stunden dauern. Ein von ChatGPT erzeugtes Skript erledigt dasselbe in Minuten – wenn es funktioniert. Genau dieses „wenn“ ist der Kern dieses Artikels.
Gartner prognostiziert, dass bis 2026 Entwickler außerhalb formeller IT-Abteilungen mindestens der Nutzer von Low-Code-Tools ausmachen werden. Wer nach „ChatGPT Web Scraping“ sucht, sind immer häufiger Nicht-Entwickler, die Daten wollen, ohne einen Engineer einzustellen. Für sie ist ChatGPT meist die erste Anlaufstelle – und Tools wie Thunderbit sind die Lösung, wenn das Skript sich weigert zu laufen.
So funktioniert ChatGPT Web Scraping: Schritt für Schritt
Hier ist der komplette Ablauf von Anfang bis Ende anhand einer Verzeichnisliste für Unternehmen – nicht auf einer Spielzeugseite.
- Schwierigkeitsgrad: Mittel (du solltest Python zumindest grundsätzlich bedienen können)
- Zeitaufwand: ca. 15–30 Minuten für den ersten Lauf
- Was du brauchst: Chrome-Browser, eine Python-Umgebung (Python 3.10+), ChatGPT (die Free-Version reicht) und eine Ziel-URL
Schritt 1: Website prüfen und die benötigten Daten identifizieren
Öffne die Seite, die du scrapen willst, in Chrome. Klicke mit der rechten Maustaste auf ein Datenfeld, das du brauchst (z. B. einen Firmennamen), und wähle Untersuchen. Dadurch öffnet sich Chrome DevTools und das zugehörige HTML-Element wird hervorgehoben.
Achte auf CSS-Selektoren – also Dinge wie h2.business-name, span.phone, oder a.website-link. Je präziser deine Selektoren sind, desto besser wird das Ergebnis von ChatGPT. Kopiere einen repräsentativen HTML-Ausschnitt (eine „Karte“ oder Zeile mit Daten), den du später in deinen Prompt einfügst.
Am Ende solltest du eine kurze Liste mit Feldnamen haben, zum Beispiel business_name, phone, website_url, plus die passenden CSS-Selektoren.
Schritt 2: Einen detaillierten Prompt für ChatGPT schreiben
Hier scheitern die meisten Anleitungen – sie liefern einen vagen Prompt und hoffen auf das Beste. Ein guter Scraping-Prompt besteht aus sechs Teilen:
- Sprache und Library: „Schreibe ein Python-3.11-Skript mit BeautifulSoup 4.“
- Ziel-URL: Die exakte Seite, die gescrapt werden soll.
- CSS-Selektoren: Für jedes Feld der in Schritt 1 gefundene Selektor.
- Ausgabeformat: CSV, JSON oder beides.
- Spezielle Vorgaben: Encoding, Fehlerbehandlung, Wartezeiten.
- HTML-Ausschnitt: Füge 20–40 Zeilen echtes HTML ein, damit ChatGPT die Struktur sieht.
Hier ist ein Beispiel-Prompt mit Kommentaren:
1Du bist ein Senior-Python-Engineer. Schreibe einen Web-Scraper mit Python 3.11 und BeautifulSoup 4.
2Ziel-URL: https://example.com/businesses
3Ziel: Extrahiere jede Business-Karte auf der Seite und gib pro Unternehmen eine Zeile zurück.
4Benötigte Felder (CSS-Selektoren in Klammern):
5- business_name (h2.biz-name)
6- phone (span.phone-number)
7- website_url (a.biz-link, href)
8- rating (div.stars[data-rating])
9Ausgabe: Speichere als businesses.csv mit UTF-8-Encoding und einer Kopfzeile.
10Anforderungen:
11- Verwende requests mit einem realistischen User-Agent-Header
12- Gehe mit fehlenden Feldern sauber um (None statt Absturz)
13- Gib am Ende die Anzahl der extrahierten Unternehmen aus
14- Füge eine 1-Sekunden-Pause zwischen Requests ein, wenn du über mehrere Seiten iterierst
15Hier ist ein repräsentativer HTML-Ausschnitt von der Seite (eine Business-Karte):
16<PASTE 20-40 LINES OF THE ACTUAL HTML HERE>
Tipp: Der HTML-Ausschnitt ist der größte Genauigkeitsbooster. ChatGPT kann die URL nicht selbst besuchen, daher ist dieses Snippet seine einzige verlässliche Quelle für die Seitenstruktur.
Schritt 3: Den erzeugten Code prüfen und testen
Führe ChatGPTs Code nicht einfach blind aus. Lies ihn zuerst durch. Achte auf:
- Ausgedachte Selektoren: ChatGPT erfindet manchmal CSS-Klassen, die auf der Seite gar nicht existieren.
- Fehlende Libraries: Prüfe, ob
pip install requests beautifulsoup4(oderplaywrightetc.) berücksichtigt ist. - Feste Werte: Kontrolliere, ob URL, Feldnamen und Dateipfade korrekt sind.
Richte ein Python-virtuelles Umfeld ein, installiere die Abhängigkeiten und teste das Skript zunächst mit einer kleinen Stichprobe (eine oder zwei Seiten). Prüfe die CSV-Ausgabe: Sind die Spalten gefüllt? Gibt es Leerstellen, wo du Daten erwartet hättest?
Schritt 4: Mit Folge-Prompts verfeinern
ChatGPT ist stark bei Iterationen. Wenn das erste Skript nur Seite 1 erwischt, frag:
„Das Skript scrapt nur die erste Seite. Kannst du Pagination hinzufügen, damit alle Seiten erfasst werden? Die Seite nutzt ?page=1, ?page=2 usw. Stoppe, wenn eine Seite keine Ergebnisse liefert oder nach 50 Seiten.“
Wenn Felder fehlen, bitte ChatGPT, Regex-Fallbacks für E-Mails oder Telefonnummern einzubauen. Wenn die Seite stark auf JavaScript setzt, verlange eine Playwright-Version. Jeder Folge-Prompt baut auf dem vorherigen Code auf – denk an Pair Programming mit einem sehr schnellen (aber manchmal etwas zu selbstsicheren) Partner.
5 Copy-and-Paste-Prompt-Vorlagen für ChatGPT Web Scraping
Ich habe bisher keine andere Anleitung gefunden, die das anbietet. Ich habe fünf Prompt-Vorlagen für unterschiedliche Szenarien entworfen, getestet und überarbeitet. Kopiere sie, ersetze URL und HTML-Ausschnitt, und ChatGPT liefert dir im ersten Versuch – oder zumindest ziemlich nah dran – funktionsfähigen Code.
Vorlage 1: Scraper für Listing-Seiten (Produktkataloge, Verzeichnisse)
Wann verwenden: Du hast eine Seite mit vielen Einträgen (Produkte, Unternehmen, Jobangebote) und möchtest pro Eintrag eine Zeile.
1Du bist ein Senior-Python-Engineer. Schreibe einen Web-Scraper mit Python 3.11 und BeautifulSoup 4.
2Ziel-URL: [DEINE URL]
3Ziel: Extrahiere jede Kartenansicht auf der Seite und gib pro Eintrag eine Zeile zurück.
4Benötigte Felder (CSS-Selektoren in Klammern — aus dem Inspect-Dialog abgeleitet):
5- [feld_1] ([selektor_1])
6- [feld_2] ([selektor_2])
7- [feld_3] ([selektor_3])
8- [feld_4] ([selektor_4, falls Attribut nötig])
9Ausgabe: Speichere als items.csv mit UTF-8-Encoding und einer Kopfzeile.
10Anforderungen:
11- Verwende requests mit einem realistischen User-Agent-Header
12- Gehe mit fehlenden Feldern sauber um (None statt Absturz)
13- Gib am Ende die Anzahl der extrahierten Einträge aus
14- Füge eine 1-Sekunden-Pause zwischen Requests ein, wenn du über mehrere Seiten iterierst
15Hier ist ein repräsentativer HTML-Ausschnitt von der Seite (eine Kartenansicht):
16[20-40 ZEILEN DES ECHTEN HTML EINFÜGEN]
Erwartetes Ergebnis: Eine CSV-Datei mit einer Zeile pro Eintrag und Spalten, die deinen Feldnamen entsprechen.
Vorlage 2: Detail-/Unterseiten-Scraper (einzelne Produkt- oder Profilseiten)
Wann verwenden: Du hast eine einzelne Seite mit vielen Details (Produktseite, Personenprofil, Immobilienangebot) und möchtest alles in einem strukturierten Datensatz erfassen.
1Schreibe eine Python-Funktion `scrape_detail(url)`, die eine Detailseiten-URL entgegennimmt und ein Dict mit diesen Schlüsseln zurückgibt:
2- [feld_1]
3- [feld_2]
4- [feld_3]
5- [feld_4]
6- [feld_5]
7Verwende BeautifulSoup. Gehe mit fehlenden Feldern sauber um (gib dafür None zurück).
8Baue Regex-Fallbacks für E-Mail und Telefonnummern ein — nicht jede Seite markiert sie gleich.
9Gib das Dict zurück und hänge es außerdem als eine Zeile an details.csv an (Datei beim ersten Aufruf mit Kopfzeile erstellen).
10Referenz-HTML-Ausschnitt von einer echten Detailseite:
11[40-60 ZEILEN HTML EINER DETAILSEITE EINFÜGEN]
Erwartetes Ergebnis: Ein Dict pro Seite und eine wachsende CSV-Datei mit einer Zeile pro Detailseite.
Vorlage 3: Scraper für dynamische/JavaScript-gerenderte Seiten (Playwright)
Wann verwenden: Die Seite lädt Inhalte per JavaScript nach (React, Angular usw.) – im HTML-Quelltext siehst du nur ein leeres <div id="root">.
1Schreibe einen Python-Web-Scraper mit Playwright (sync API) für eine JavaScript-gerenderte Seite.
2Ziel-URL: [DEINE URL]
3Ziel: Extrahiere alle Ergebnis-Karten, die nach dem vollständigen Laden der Seite dynamisch erscheinen.
4Anforderungen:
5- Verwende `page.wait_for_selector('[DEIN KARTEN-SELEKTOR]', timeout=15000)`, um auf Inhalte zu warten
6- Scrolle zweimal bis zum Seitenende und mache dazwischen jeweils eine 1-Sekunden-Pause, um Lazy-Loading-Inhalte auszulösen
7- Extrahiere aus jeder Karte: [feld_1], [feld_2], [feld_3], [feld_4]
8- Speichere als results.json als Liste von Dicts, UTF-8
9- Starte mit headless=False (damit ich den Ablauf sehen kann) und füge am Ende eine 2-Sekunden-Pause vor dem Schließen ein
10Verwende nicht requests oder BeautifulSoup — nur Playwright.
Erwartetes Ergebnis: Eine JSON-Datei mit einem Objekt pro Ergebnis-Karte und vollständig gefüllten Feldern.
Vorlage 4: Pagination-Handler (Scraping über mehrere Seiten)
Wann verwenden: Du hast bereits einen funktionierenden Scraper für eine Seite und musst jetzt alle Seiten durchlaufen.
1Nimm den folgenden bestehenden BeautifulSoup-Scraper und erweitere ihn um eine Pagination-Schleife, die ALLE Seiten sammelt, nicht nur Seite 1.
2Die Seite nutzt URL-Parameter-Pagination: ?page=1, ?page=2 usw.
3Abbruchbedingung: wenn die aktuelle Seite keine Einträge liefert ODER wenn der HTTP-Status nicht 200 ist ODER wenn Seite 100 erreicht ist (Sicherheitsgrenze).
4Füge hinzu:
5- Eine höfliche 1,5-Sekunden-Pause zwischen den Seitenaufrufen
6- Einen try/except-Block um jeden Request, der den Fehler protokolliert und weitermacht
7- Eine Fortschrittsausgabe alle 5 Seiten: „Seite 15 → bisher 300 Einträge“
8- Abschließendes Speichern in items_all.csv
9Vorhandenes Skript:
10[DEIN AKTUELLES EINZELSEITEN-SKRIPT EINFÜGEN]
Erwartetes Ergebnis: Eine einzige CSV mit allen Einträgen aller Seiten plus Konsolenausgabe zum Fortschritt.
Vorlage 5: Daten bereinigen und strukturieren („HTML einfügen“-Ansatz)
Wann verwenden: Du hast bereits rohes HTML (aus curl, aus dem Browser oder aus einer Datei) und möchtest, dass ChatGPT es in saubere strukturierte Daten umwandelt – ganz ohne Code.
1Ich werde rohes HTML von einer Produkt-Detailseite einfügen. Du musst keinen Code schreiben — gib die extrahierten Daten einfach als JSON-Objekt zurück, das diesem Schema entspricht:
2{
3 "name": string,
4 "brand": string,
5 "price": number,
6 "currency": string (ISO 4217),
7 "availability": "in_stock" | "out_of_stock" | "preorder" | "unknown",
8 "rating": number (0-5) oder null,
9 "review_count": integer oder null,
10 "description": string (max. 500 Zeichen),
11 "key_specs": [{"name": string, "value": string}]
12}
13Verwende null für alles, was du wirklich nicht finden kannst — erfinde nichts.
14Gib AUSSCHLIESSLICH das JSON-Objekt zurück, keinen Fließtext, keinen Markdown-Block.
15HTML:
16[GESAMTES SEITEN-HTML EINFÜGEN]
Erwartetes Ergebnis: Ein einzelnes JSON-Objekt, das sich direkt in eine Tabelle oder Datenbank übernehmen lässt.
Wo ChatGPT Web Scraping scheitert: ehrliche Grenzen
Die meisten Anleitungen ignorieren diesen Teil komplett. Ich habe genug Zeit mit dem Debugging von ChatGPT-generierten Scrapern verbracht, um genau zu wissen, wo sie auseinanderfallen – und die bestätigt, dass nur der Entwickler KI-Ausgaben „sehr stark“ vertrauen. Hier ist der Grund.
JavaScript-lastige und dynamische Websites
Über aller Websites nutzen JavaScript für clientseitige Funktionen. Allein React läuft inzwischen auf 7,2% aller Websites – ein innerhalb eines Jahres. Wenn du ChatGPT sagst „scrape diese Seite“, kommt standardmäßig meist ein requests + BeautifulSoup-Skript zurück. Dieses Skript holt nur das rohe HTML – und auf einer React- oder Angular-Seite ist das rohe HTML oft nur ein leeres <div id="root">. Die eigentlichen Daten werden erst nach Ausführung von JavaScript geladen, was requests nie ausführt.
ChatGPT kann Selenium- oder Playwright-Code erzeugen, wenn du danach fragst. Aber solche Skripte sind langsamer (Playwright braucht im Schnitt statt unter einer Sekunde bei statischen Requests) und müssen häufig wegen Wartebedingungen, Scroll-Triggern und Element-Selektoren debuggt werden, die ChatGPT falsch errät.
Bot-Schutz und CAPTCHAs
Cloudflare schützt etwa , und Dienste wie DataDome werben mit . Ein nackter requests.get() mit Python-User-Agent ist, offen gesagt, ein klassischer Bot-Fingerabdruck. ChatGPT-generierte Skripte enthalten keine Proxy-Rotation, kein TLS-Fingerprinting-Spoofing, kein Cookie-Handling und keine CAPTCHA-Lösung. Auf jeder kommerziellen Seite mit auch nur grundlegender Absicherung wird das Skript schon beim ersten Request blockiert.
Pagination und Scraping im großen Maßstab
Die Standard-Pagination-Schleife von ChatGPT geht meist ?page=N durch oder klickt auf einen .next-Button. Echte Websites nutzen jedoch cursor-basierte Pagination, Infinite Scroll mit IntersectionObserver oder GraphQL-Aufrufe. ChatGPT kann dafür nur dann brauchbaren Code erzeugen, wenn du den exakten Netzwerkruf zeigst – und selbst dann sind die Schleifen oft fragil. Sowohl der als auch das nennen Pagination als den Punkt, an dem ihre Beispiel-Scraper am häufigsten einen zweiten oder dritten Prompt brauchen.
Laufendes und geplantes Scraping
ChatGPT liefert dir ein Einmal-Skript. Es gibt keinen Scheduler, keine Änderungsüberwachung, keine Benachrichtigungen. Wenn du „Wettbewerberpreise jeden Morgen prüfen“ willst, brauchst du Cron, Airflow oder Lambda – Dinge, die im ersten ChatGPT-Antwortblock nicht abgedeckt sind. Für Business-User, die regelmäßig Daten brauchen, ist das schnell eine Sackgasse.
Das Geschwindigkeits- und Kostenproblem
Bei JS-lastigen Seiten liegen echte Laufzeiten mit Selenium oder Playwright unter Idealbedingungen bei 3–10 Sekunden pro Seite, mit Wiederholungen und Bot-Schutz-Wartezeiten eher bei 40–60 Sekunden pro Seite – ein Problem, das in Foren und Tutorials wird.
Wenn du die ChatGPT-API nutzt, um HTML zu parsen (also den „HTML einfügen“-Ansatz im großen Maßstab), steigen die Tokenkosten schnell an. Bei den aktuellen GPT-4o-Preisen (~2,50 $/M Input-Tokens, 10 $/M Output-Tokens) kostet das Parsen von 1.000 Produktseiten allein an Tokens ungefähr 95–105 $. Mit GPT-4o mini liegt derselbe Umfang bei etwa 6,50 $. Rechnet man Proxy-Kosten (3–10 $/GB), Wartung des lokalen Crawlers und Entwicklerzeit hinzu, wirkt „einfach ChatGPT verwenden“ plötzlich deutlich teurer.
| Skalierung | GPT-4o Tokenkosten (geschätzt) | GPT-4o mini Tokenkosten (geschätzt) |
|---|---|---|
| 100 Seiten | ~9,55 $ | ~0,65 $ |
| 1.000 Seiten | ~95,50 $ | ~6,50 $ |
| 10.000 Seiten | ~955 $ | ~65 $ |
Die Schätzungen basieren auf ca. 50.000 Input-Tokens und 2.000 Output-Tokens pro Seite. Die tatsächlichen Kosten hängen von Seitengröße und Komplexität der Ausgabe ab.
ChatGPT Web Scraping vs. No-Code-AI-Scraper vs. Custom Code: Entscheidungsrahmen
Nicht jede Scraping-Aufgabe braucht dasselbe Tool. Das ist der Entscheidungsrahmen, den ich bei Thunderbit nach Tests aller drei Ansätze in echten Projekten verwende.
| Szenario | ChatGPT + Python | No-Code AI Scraper (z. B. Thunderbit) | Custom Code + Proxies |
|---|---|---|---|
| Einfache statische Seiten | ✅ Sehr gut – schnell erzeugt | ✅ Funktioniert, aber evtl. überdimensioniert | ⚠️ Überengineert |
| JS-gerenderte / dynamische Inhalte | ⚠️ Braucht Selenium/Playwright – Code bricht oft | ✅ Verarbeitet per Browser-/Cloud-Scraping | ✅ Volle Kontrolle |
| Seiten mit Bot-Schutz / CAPTCHA | ❌ ChatGPT kann keine CAPTCHAs lösen | ✅ Cloud-Scraping-Infrastruktur deckt vieles ab | ✅ Mit Proxy-Rotation |
| Pagination (100+ Seiten) | ⚠️ Fragile Schleifen, Debugging nötig | ✅ Eingebaute Pagination-Unterstützung | ✅ Robust mit Engineering |
| Nutzer ohne Entwicklerhintergrund | ❌ Python-Kenntnisse erforderlich | ✅ 2 Klicks, kein Code | ❌ Programmierung nötig |
| Laufendes/geplantes Scraping | ❌ Manuelles Wiederholen nötig | ✅ Scheduled-Scraper-Funktion | ✅ Mit Cron/Orchestrierung |
| Export nach Sheets/Airtable/Notion | ⚠️ Zusätzlicher Code nötig | ✅ Nativer Export mit einem Klick | ⚠️ Zusätzlicher Integrationscode |
Kurz gesagt: Nutze ChatGPT für schnelle Einmal-Skripte und zum Lernen. Nimm ein No-Code-Tool wie Thunderbit für produktionsreifes, wiederkehrendes oder nicht-technisches Scraping. Und verwende Custom Code plus Proxies für Engineering-Projekte im Enterprise-Maßstab, bei denen du maximale Kontrolle brauchst.
Die No-Code-Alternative: So erledigt Thunderbit Web-Scraping-Aufgaben ohne Code
Für Leser ohne Programmiererfahrung – oder für alle, die genug Abende mit dem Debuggen von ChatGPT-Skripten verloren haben – gibt es einen völlig anderen Weg. ChatGPT erzeugt den Code. überspringt ihn.
Ich arbeite im Thunderbit-Team, deshalb sage ich das offen. Aber ich bin auch ehrlich überzeugt: Für die meisten Business-User ist das der schnellste Weg. So sieht der Ablauf aus.
AI Suggest Fields: Datenstruktur auf jeder Seite automatisch erkennen
Öffne irgendeine Webseite, klicke auf die und wähle „AI Suggest Fields“. Die KI von Thunderbit liest die gerenderte Seite – inklusive per JavaScript geladener Inhalte – und schlägt Spaltennamen sowie Datentypen vor. Kein Inspect, keine CSS-Selektoren, kein Prompt Engineering. Danach einfach auf „Scrape“ klicken.
Vergleiche das mit dem ChatGPT-Ansatz: DevTools öffnen, Selektoren suchen, Prompt schreiben, Code prüfen, Abhängigkeiten installieren, Skript ausführen, Ausgabe kontrollieren, nachbessern. Thunderbit reduziert das auf zwei Klicks.
Unterseiten-Scraping, um Listen automatisch anzureichern
Nach dem Scraping einer Liste klickst du auf „Scrape Subpages“. Thunderbit besucht dann die Detailseite jeder Zeile und ergänzt weitere Felder – zum Beispiel E-Mail, Telefonnummer oder Bio – direkt in deiner bestehenden Tabelle. Mit ChatGPT bräuchtest du dafür ein separates Skript, eine Schleife, Fehlerbehandlung für jede Unterseite und einen Mechanismus zum Zusammenführen der Daten. Thunderbit erledigt das in einem Schritt.
Überall exportieren: Google Sheets, Airtable, Notion, Excel
Thunderbit bietet kostenlosen Export mit einem Klick nach Google Sheets, Airtable, Notion und Excel – nicht nur als CSV. Ein von ChatGPT generiertes Skript schreibt normalerweise in eine lokale CSV- oder JSON-Datei. Der Weg in Sheets oder Airtable erfordert zusätzliche Bibliotheken und Authentifizierungscode.
Cloud Scraping vs. Browser Scraping
Thunderbit bietet zwei Modi. Cloud Scraping läuft auf den Servern von Thunderbit, verarbeitet rund 50 Seiten pro Batch und ist schnell für öffentliche Seiten. Browser Scraping nutzt deine eingeloggte Sitzung für geschützte oder login-pflichtige Seiten. Mit ChatGPT müsstest du Proxies, Cookies und Session-Handling im Code konfigurieren – jedes davon ein eigenes Debugging-Abenteuer.
Unter der Haube nutzt Thunderbit mehrere KI-Modelle (darunter ChatGPT, Gemini, Claude und andere), um Seiten visuell zu lesen und zu erkennen, was extrahiert werden soll. In gewisser Weise nutzt Thunderbit also schon ChatGPT – plus drei weitere führende Modelle – und übernimmt für dich das Abrufen, Rendern, den Bot-Schutz, Pagination und Export.
Praxisbeispiele: Sales, E-Commerce und Immobilien
Die meisten ChatGPT-Scraping-Tutorials verwenden „Books to Scrape“ oder irgendeine andere Spielzeugseite. So sieht echtes Business-Scraping aus – einmal mit dem ChatGPT-Ansatz und einmal mit dem Thunderbit-Shortcut.
Lead-Generierung aus Unternehmensverzeichnissen
Szenario: Du brauchst Namen, E-Mail-Adressen und Telefonnummern aus einem Verzeichnis für den Outbound-Vertrieb.
ChatGPT-Ansatz: Nutze Vorlage 1 (Listing-Seite), um das Verzeichnis zu scrapen, und anschließend Vorlage 2 (Detailseite), um jedes Profil nach Kontaktdaten zu durchsuchen. Du brauchst Regex-Fallbacks für E-Mails und Telefonnummern, eine höfliche Verzögerung und einen Deduplizierungsdurchlauf. Rechne mit 30–60 Minuten Setup und Debugging.
Thunderbit-Ansatz: Öffne das Verzeichnis, klicke auf „AI Suggest Fields“, scrape die Liste und nutze dann „Scrape Subpages“, um Kontaktdaten aus jedem Profil zu ziehen. Exportiere alles in eine CRM-fähige Tabelle. Gesamtzeit: etwa 3 Minuten. Die integrierten übernehmen das Parsen automatisch.
Preisüberwachung im E-Commerce
Szenario: Du willst Produkte, Preise, Verfügbarkeit und SKUs von Wettbewerbern wöchentlich verfolgen.
ChatGPT-Ansatz: Erzeuge mit Vorlage 1 einen Scraper, ergänze Pagination mit Vorlage 4 und starte ihn jede Woche manuell. Ändert der Wettbewerber das Seitenlayout, brechen die Selektoren und du musst von vorn anfangen.
Thunderbit-Ansatz: Einmal Scraper einrichten, mit dem geplanten Cloud Scraping von Thunderbit täglich oder wöchentlich ausführen lassen und nach Google Sheets exportieren. Die KI liest die Seitenstruktur bei jedem Lauf neu ein, sodass Layoutänderungen nichts kaputtmachen. Mehr dazu findest du in unserem .
Datenerfassung bei Immobilienangeboten
Szenario: Du brauchst Preise, Adressen, Zimmer/Bäder und Maklerinfos von einer Immobilienplattform.
ChatGPT-Ansatz: Die meisten Immobilienseiten (à la Zillow) sind React-SPAs mit starkem Bot-Schutz. Ein requests + BeautifulSoup-Skript liefert nur eine leere Seite. Eine Playwright-Version wird innerhalb weniger Minuten gedrosselt.
Thunderbit-Ansatz: Cloud Scraping mit KI-Felderkennung verarbeitet das JavaScript-Rendering und passt sich an Layoutänderungen an. Immobilienportale ändern ihr Design häufig – Thunderbits KI liest die Seite jedes Mal neu ein, sodass du keine Selektoren manuell aktualisieren musst. Sieh dir unseren an.
Mehr als Einmalscrapes: ChatGPT-API-Pipelines vs. Thunderbit Extract API
Wenn Scraping Teil eines Produkts oder einer Pipeline wird, verschiebt sich die Frage: ChatGPT-API zum Parsen von HTML oder eine speziell dafür gebaute Scraping-API?
Die ChatGPT-API zum Parsen von HTML verwenden
Der Ansatz: Ein lokaler Crawler (requests, Playwright) holt das HTML, anschließend schickst du es an die OpenAI-API, um strukturiertes JSON zu extrahieren. Das ist der „HTML einfügen“-Trick in großem Maßstab.
Es funktioniert. Aber Kosten und Wartung sind real. Bei GPT-4o-Preisen kostet das Parsen von 1.000 Seiten rund 95 $ an Tokens. Du kümmerst dich selbst um Crawler, Proxies, Prompt Engineering und das Ausgabeschema. Ändert sich die Seite, bricht dein Prompt und du musst nachjustieren.
Thunderbit Extract API: speziell für strukturierte Webdaten gebaut
Die von Thunderbit verfolgt ein anderes Modell. Du definierst ein JSON Schema, sendest per POST eine URL und erhältst strukturierte Daten zurück. JavaScript-Rendering und Bot-Schutz sind bereits integriert. Batch-Verarbeitung unterstützt bis zu 100 URLs pro Anfrage.
| Funktion | ChatGPT API + Custom Code | Thunderbit Extract API |
|---|---|---|
| Strukturierte Ausgabe | Manuelles Schema im Prompt | Über JSON Schema definiert |
| JavaScript-Rendering | Selbst umgesetzt (Playwright etc.) | Integriert (mehrere Render-Modi) |
| Bot-Schutz / CAPTCHA | Selbst umgesetzt (Proxies etc.) | Automatisch gehandhabt |
| Batch-Verarbeitung | Du baust die Schleife | Batch-Endpunkt (bis zu 100 URLs) |
| Wartung | Prompts brechen, Code veraltet | Verwaltete KI-Engine |
Für Teams, die Webdaten als Service möchten, ohne eine Scraping-Pipeline dauerhaft zu pflegen, ist Thunderbits API der kürzere Weg in die Produktion. Schau dir die für die Kreditkosten pro Extraktion an.
Tipps für bessere Ergebnisse mit ChatGPT Web Scraping
Ein paar Dinge, die ich auf die harte Tour gelernt habe.
Sei in deinen Prompts präzise. Nenne immer: Programmiersprache, Library, Ziel-URL, CSS-Selektoren, Ausgabeformat und Sonderfälle. Vage Prompts erzeugen vagen Code.
Füge HTML-Ausschnitte ein, nicht nur URLs. ChatGPT kann URLs nicht selbst öffnen. Das HTML-Snippet ist seine einzige verlässliche Quelle für die Seitenstruktur. Schon 20–40 Zeilen einer einzelnen Datenkarte verbessern die Genauigkeit deutlich.
Bitte ChatGPT, Code zu prüfen und zu optimieren. Nachdem es ein Skript erzeugt hat, frage: „Prüfe diesen Code auf Fehler, füge Fehlerbehandlung hinzu und optimiere ihn hinsichtlich Performance.“ Im zweiten Durchgang findet es seine eigenen Fehler überraschend oft.
Teste immer zuerst mit einer kleinen Stichprobe. Lass das Skript auf 1–2 Seiten laufen, bevor du skalierst. Einen kaputten Selektor auf Seite 1 zu erkennen, spart dir den Ärger von 500 fehlgeschlagenen Requests.
Iteriere statt neu anzufangen. Wenn das erste Skript zu 80% passt, füge die Ausgabe wieder ein und bitte ChatGPT, die restlichen 20% zu korrigieren. Genau in diesem iterativen Dialog spielt ChatGPT seine Stärke aus.
Ethische und rechtliche Aspekte von ChatGPT Web Scraping
Die rechtliche Seite ist wichtig, deshalb hier die Kurzfassung.
Nach aktueller US-Rechtsprechung ist das Scraping öffentlich zugänglicher Daten grundsätzlich kein Bundes-Computerverbrechen. Das hat das Urteil festgelegt, und das Urteil vom Januar 2024 hat das bestätigt – ein Richter entschied, dass das Scraping öffentlich zugänglicher, ausgeloggter Daten von Facebook und Instagram nicht gegen Metas Nutzungsbedingungen verstößt, weil ein Besucher ohne Konto kein „User“ im Sinne dieser Bedingungen ist.
Trotzdem kann das Scrapen geschützter oder authentifizierter Daten oder ein Verstoß gegen die Nutzungsbedingungen einer Website nach deren Zustimmung rechtliche Risiken mit sich bringen. Und wenn du personenbezogene Daten scrapest (E-Mails, Telefonnummern), gelten unabhängig von der Herkunft der Daten die Datenschutzgesetze der EU und Kaliforniens (DSGVO, CCPA).
Prüfe vor dem Scraping immer robots.txt und die Nutzungsbedingungen. Halte dich an Ratenlimits. Gehe verantwortungsvoll mit personenbezogenen Daten um. Und nutze Tools mit integrierten Compliance-Funktionen – Thunderbit respektiert zum Beispiel standardmäßig robots.txt und unterstützt verantwortungsvolle Datenpraktiken. Für einen tieferen Einblick siehe unseren .
Wann ChatGPT fürs Web Scraping sinnvoll ist – und wann etwas Besseres die richtige Wahl ist
ChatGPT ist ein wirklich starkes Tool fürs Web Scraping – es erstellt schnelle Prototypen und hilft dir zu verstehen, wie Scraping unter der Haube funktioniert. Für schnelle Einmal-Skripte auf einfachen statischen Seiten ist es schwer zu schlagen.
Für produktionsreifes, laufendes oder groß angelegtes Scraping – besonders wenn du kein Entwickler bist – ist ein spezialisiertes Tool wie Thunderbit schneller, zuverlässiger und wartungsfrei. Und für Enterprise-Engineering-Projekte gibt dir Custom Code mit Proxy-Infrastruktur die volle Kontrolle.
Meine Kurzentscheidungshilfe:
- Schneller Einmal-Use, Lernen oder Prototyping: ChatGPT + Python
- Business-User, No-Code, wiederkehrende Scrapes:
- Developer-Pipelines, strukturierter API-Zugriff:
- Enterprise-Skalierung, volle Kontrolle: Custom Code + Proxies + Orchestrierung
Wenn du den No-Code-Weg ausprobieren möchtest, bietet Thunderbit eine kostenlose Stufe, damit du in kleinem Umfang testen und die Ergebnisse selbst sehen kannst. Und wenn du das Tool in Aktion sehen willst, findest du auf unserem Walkthroughs für verschiedene Anwendungsfälle.
FAQs
Kann ChatGPT Websites wirklich selbst scrapen?
Nein. ChatGPT erzeugt Scraping-Code oder analysiert HTML, das du bereitstellst, aber es besucht keine URLs, lädt keine Seiten und führt keine Skripte aus. Selbst ChatGPT Atlas (der integrierte Browser, der im Oktober 2025 veröffentlicht wurde) ist nur ein konversationsbasierter Browsing-Assistent – er kann eine Seite zusammenfassen, liefert dir aber keine strukturierte CSV mit 500 Zeilen.
Ist ChatGPT Web Scraping kostenlos?
Die kostenlose ChatGPT-Version kann Scraping-Code ohne direkte Kosten erzeugen. Aber das Ausführen des Codes erfordert Python und Bibliotheken (kostenlos). Wenn du die OpenAI-API nutzt, um HTML im großen Stil zu parsen, fallen Tokenkosten an – ungefähr 6,50 $ pro 1.000 Seiten mit GPT-4o mini oder etwa 95 $ mit GPT-4o. Proxies und Infrastruktur kommen zusätzlich dazu.
Welche Python-Library ist am besten für von ChatGPT erzeugte Web-Scraper?
Für statische HTML-Seiten sind BeautifulSoup und die requests-Library die einfachste und schnellste Lösung. Für JavaScript-gerenderte Seiten ist Playwright die moderne Wahl – schneller als Selenium (im Schnitt etwa 2,9 Sekunden pro Seitenaufruf gegenüber 4,8 Sekunden) und mit einer saubereren API. Selenium ist hauptsächlich noch für Legacy-Projekte sinnvoll.
Kann ich ChatGPT nutzen, um Daten ohne Programmieren zu scrapen?
Nicht direkt. ChatGPT erzeugt Code, den du trotzdem ausführen musst. Wenn du eine echte No-Code-Option willst, ermöglichen dir Tools wie das Scraping mit zwei Klicks – ohne Python, ohne Terminal, ohne Debugging. Du bekommst von der KI vorgeschlagene Felder, Ein-Klick-Export zu Google Sheets oder Airtable und integrierte Unterstützung für JavaScript-Rendering und Bot-Schutz.
Ist es legal, Websites mit von ChatGPT erzeugtem Code zu scrapen?
Das Scrapen öffentlich verfügbarer, ausgeloggter Daten ist nach aktueller US-Rechtsprechung in der Regel legal (hiQ v. LinkedIn, Meta v. Bright Data). Das Scrapen geschützter Inhalte, ein Verstoß gegen die Nutzungsbedingungen einer Website oder der unsachgemäße Umgang mit personenbezogenen Daten (E-Mails, Telefonnummern) kann jedoch rechtliche Risiken nach Vertragsrecht oder Datenschutzgesetzen wie DSGVO und CCPA mit sich bringen. Prüfe immer robots.txt und die Nutzungsbedingungen der Website, bevor du Daten scrapest.
Mehr erfahren