Lass mich dich mal mitnehmen zu meinem allerersten Versuch, Produktdaten von einer E-Commerce-Seite zu ziehen. Ausgestattet mit Python, einer frischen Tasse Kaffee und dem Plan, einen Preis-Tracker für Amazon zu basteln, war ich voller Tatendrang. Nach ein paar Stunden war aus dem „schnellen Projekt“ ein ziemliches Chaos aus XPath-Selektoren, Paginierungsproblemen und endlosem Debugging geworden. Wer schon mal versucht hat, Webdaten per Code zu sammeln, kennt das Gefühl: Erst Euphorie, dann die Frage „Warum ist das eigentlich so kompliziert?“
Das Spannende daran: Web-Scraping ist längst nicht mehr nur ein Thema für Data Scientists oder Entwickler. Heute ist es eine echte Schlüsselqualifikation für Vertrieb, E-Commerce-Manager, Marketing und alle, die aus dem Datenwust des Internets wertvolle Infos ziehen wollen. Der Markt für Web-Scraping-Software lag – und wächst weiter. Python und Frameworks wie Scrapy sind zwar immer noch das Maß der Dinge für große, individuelle Scraping-Projekte, aber für Einsteiger sind sie oft eine echte Hürde. Deshalb zeige ich dir in diesem Tutorial Schritt für Schritt, wie du mit Scrapy arbeitest – am Beispiel Amazon – und stelle dir eine viel einfachere, KI-gestützte Alternative für Nicht-Programmierer vor: .
Was ist Scrapy Python? Dein Profi-Tool fürs Web-Scraping
Starten wir mit den Basics. Scrapy ist ein Open-Source-Framework für Python, das speziell fürs Web-Crawling und -Scraping entwickelt wurde. Stell dir Scrapy wie einen Werkzeugkasten vor, mit dem du eigene „Spiders“ (so nennt Scrapy seine Crawler) baust, Websites durchstöberst, Links folgst, Paginierung meisterst und strukturierte Daten im großen Stil extrahierst.
Was unterscheidet Scrapy von einfachen Python-Bibliotheken wie requests
und BeautifulSoup
? Während diese für kleine, einmalige Aufgaben super sind, ist Scrapy für große, komplexe Projekte gemacht – also wenn du zum Beispiel:
- Tausende Seiten durchforsten willst (z. B. das komplette Produktsortiment eines Shops)
- Automatisch Links und Paginierung abbilden möchtest
- Daten asynchron und damit besonders flott verarbeiten willst
- Deine Daten sauber, strukturiert und wiederholbar exportieren möchtest
Kurz gesagt: Scrapy ist das Schweizer Taschenmesser unter den Web-Scraping-Tools – mächtig, flexibel, aber für Einsteiger durchaus fordernd.
Warum Scrapy Python fürs Web-Scraping nutzen?
Warum greifen Entwickler und Datenteams immer wieder zu Scrapy? Hier die wichtigsten Vorteile auf einen Blick:
Anwendungsfall | Stärken von Scrapy | Business-Nutzen |
---|---|---|
Preisüberwachung | Beherrscht Paginierung, asynchrone Requests, Zeitplanung | Konkurrenz im Blick, dynamische Preisgestaltung |
Produktkatalog-Extraktion | Folgt Links, extrahiert strukturierte Daten | Aufbau von Produktdatenbanken, Analytics-Feeds |
Wettbewerbsanalyse | Skalierbar, robust bei Website-Änderungen | Trends, neue Produkte, Lagerbestände verfolgen |
Marktforschung | Modulare Pipelines für Datenbereinigung/-transformation | Bewertungen aggregieren, Sentiment-Analysen durchführen |
Dank des asynchronen Kerns (basiert auf Twisted) kann Scrapy viele Seiten gleichzeitig abfragen – das macht es schnell und skalierbar. Die modulare Architektur erlaubt es, eigene Logik (z. B. Proxys, User-Agents, Datenbereinigung) flexibel einzubinden. Und mit Pipelines kannst du deine Daten nach Belieben verarbeiten, prüfen und in jedes gewünschte Format exportieren – egal ob CSV, JSON oder direkt in eine Datenbank.
Für Teams mit Python-Know-how ist Scrapy ein echtes Power-Tool. Aber: Für die meisten Business-Anwender ist es alles andere als selbsterklärend.
Scrapy Python: So richtest du deine Umgebung ein
Bereit für den Einstieg? So installierst du Scrapy Schritt für Schritt:
1. Scrapy installieren
Stell sicher, dass Python 3.9 oder neuer auf deinem Rechner läuft. Öffne dann das Terminal und gib ein:
pip install scrapy
Mit folgendem Befehl prüfst du, ob alles geklappt hat:
scrapy version
Unter Windows oder mit Anaconda empfiehlt sich ein virtuelles Environment, um Ärger mit Abhängigkeiten zu vermeiden. Scrapy läuft auf Windows, macOS und Linux.
2. Ein neues Scrapy-Projekt anlegen
Starte ein neues Projekt, z. B. amazonscraper
:
scrapy startproject amazonscraper
Die Ordnerstruktur sieht dann so aus:
amazonscraper/
├── scrapy.cfg
├── amazonscraper/
│ ├── __init__.py
│ ├── items.py
│ ├── pipelines.py
│ ├── middlewares.py
│ ├── settings.py
│ └── spiders/
Wofür sind diese Dateien?
scrapy.cfg
: Projekt-Konfiguration (meist bleibt die so)items.py
: Hier legst du deine Datenmodelle an (z. B. Produkt mit Name, Preis etc.)pipelines.py
: Hier werden Daten bereinigt, geprüft und exportiertmiddlewares.py
: Für fortgeschrittene Einstellungen (Proxys, eigene Header)settings.py
: Hier steuerst du Scrapy-Parameter (z. B. Parallelität, Wartezeiten)spiders/
: Hier liegt die eigentliche Scraping-Logik
Falls du jetzt schon denkst „Puh, das ist viel“: Du bist nicht allein. Genau hier steigen viele Nicht-Programmierer aus.
Python Web-Scraper bauen: Amazon-Produktdaten mit Scrapy extrahieren
Gehen wir ein Praxisbeispiel durch: Wir holen Produktdaten aus den Amazon-Suchergebnissen. (Achtung: Das Scrapen von Amazon ist laut deren Nutzungsbedingungen nicht erlaubt und Amazon setzt starke Anti-Bot-Maßnahmen ein. Dieses Beispiel ist nur zu Lernzwecken!)
1. Einen Spider erstellen
Lege im Ordner spiders/
eine Datei namens amazon_spider.py
an:
import scrapy
class AmazonSpider(scrapy.Spider):
name = "amazon_example"
allowed_domains = ["amazon.com"]
start_urls = ["https://www.amazon.com/s?k=smartphones"]
def parse(self, response):
products = response.xpath("//div[@data-component-type='s-search-result']")
for product in products:
yield {
'name': product.xpath(".//span[@class='a-size-medium a-color-base a-text-normal']/text()").get(),
'price': product.xpath(".//span[@class='a-price-whole']/text()").get(),
'rating': product.xpath(".//span[@aria-label]/text()").get()
}
next_page = response.xpath("//li[@class='a-last']/a/@href").get()
if next_page:
yield scrapy.Request(url=response.urljoin(next_page), callback=self.parse)
Was passiert hier?
- Wir starten auf einer Amazon-Suchergebnisseite für „Smartphones“.
- Für jedes Produkt werden Name, Preis und Bewertung per XPath extrahiert.
- Der „Nächste Seite“-Link wird gesucht und Scrapy folgt ihm, um weitere Produkte zu erfassen.
2. Spider ausführen
Im Projektverzeichnis ausführen:
scrapy crawl amazon_example -o products.json
Fertig – Scrapy durchforstet die Suchergebnisse, folgt der Paginierung und speichert die Daten als JSON-Datei.
Paginierung und dynamische Inhalte meistern
Scrapy kann Links und Paginierung von Haus aus abbilden – das ist eine seiner größten Stärken. Aber was ist mit dynamischen Inhalten, die per JavaScript nachgeladen werden? Standardmäßig sieht Scrapy nur das statische HTML. Für Inhalte, die erst durch JavaScript erscheinen (z. B. Infinite Scroll oder Pop-up-Bewertungen), musst du Tools wie Selenium oder Splash einbinden – das ist ein eigenes Thema für sich.
Daten mit Scrapy Python verarbeiten und exportieren
Nach dem Scraping willst du deine Daten meist noch aufbereiten und weiterverarbeiten.
- Pipelines: In
pipelines.py
kannst du Python-Klassen schreiben, um Daten zu bereinigen, zu prüfen oder anzureichern (z. B. Preise in Zahlen umwandeln, unvollständige Zeilen rauswerfen oder Übersetzungs-APIs nutzen). - Export: Scrapy exportiert mit dem
-o
-Flag direkt in CSV, JSON oder XML. Für komplexere Exporte (z. B. nach Google Sheets) brauchst du zusätzlichen Code oder eine externe Bibliothek.
Du willst Sentiment-Analysen oder Übersetzungen? Dafür musst du externe APIs oder Python-Bibliotheken anbinden – Scrapy bringt das nicht von Haus aus mit.
Die versteckten Hürden: Scrapy Python aus Business-Sicht
Ganz ehrlich: Scrapy ist mächtig, aber für Nicht-Entwickler alles andere als intuitiv. Das sind die größten Stolpersteine:
- Hohe Einstiegshürde: Du brauchst Kenntnisse in Python, HTML, XPath/CSS-Selektoren und der Scrapy-Projektstruktur. Bis man sich sicher fühlt, vergeht oft einiges an Zeit.
- Aufwendige Einrichtung: Python-Installation, Abhängigkeitsmanagement und Fehlersuche können gerade unter Windows nerven.
- Keine visuelle Oberfläche: Alles läuft über Code. Du kannst nicht einfach auf ein Element klicken, um es auszuwählen.
- Wartung: Ändert sich die Website, funktioniert dein Spider nicht mehr – und du musst nachbessern.
- Keine integrierte KI: Übersetzen, Zusammenfassen oder Sentiment-Analysen? Dafür ist zusätzlicher Code nötig.
Hier ein schneller Vergleich:
Herausforderung | Scrapy (Python) | Business-Anforderungen |
---|---|---|
Programmierkenntnisse nötig | Ja | Lieber ohne Code |
Einrichtungszeit | Stunden (oder Tage) | Minuten |
Wartung | Laufend (bei Website-Änderungen) | Minimal |
Datenexport | CSV/JSON (manuelle Integration) | Direkt nach Excel/Sheets/Notion |
KI-Funktionen | Keine (selbst integrieren) | Übersetzung/Sentiment integriert |
Für Solo-Marketer, Vertrieb oder Operations fühlt sich Scrapy oft wie mit Kanonen auf Spatzen schießen an.
Thunderbit: Die No-Code-Alternative zu Scrapy Python
Hier kommt ins Spiel. Nach Jahren in der Automatisierung weiß ich: Die meisten Business-Anwender wollen nicht programmieren – sie wollen einfach schnell an die Daten.
Thunderbit ist ein KI-Web-Scraper als Chrome-Erweiterung. Entwickelt für alle, die ohne Technikkenntnisse:
- Mit wenigen Klicks Daten von jeder Website extrahieren möchten
- In natürlicher Sprache beschreiben, was sie brauchen („Produktname, Preis, Bewertung“)
- Paginierung und Unterseiten automatisch abbilden lassen
- Daten direkt nach Excel, Google Sheets, Airtable oder Notion exportieren
- Übersetzen, zusammenfassen oder Sentiment-Analysen direkt im Tool nutzen wollen
Kein Python. Keine Selektoren. Keine Wartungsprobleme.
Thunderbit richtet sich an Business-Anwender, die schnell Ergebnisse wollen und die KI die Arbeit machen lassen.
Thunderbit vs. Scrapy Python: Der Direktvergleich
Hier die beiden Tools im Überblick:
Kriterium | Scrapy (Python) | Thunderbit (KI-Tool) |
---|---|---|
Erforderliche Kenntnisse | Python, HTML, Selektoren | Keine – Point & Click, natürliche Sprache |
Einrichtungszeit | Stunden (Installation, Code, Debugging) | Minuten (Chrome-Erweiterung, Login) |
Datenstrukturierung | Manuell (Items, Pipelines definieren) | KI erkennt Spalten, schlägt Felder vor |
Paginierung/Unterseiten | Code nötig | 1 Klick (KI übernimmt) |
Übersetzung | Eigener Code/API nötig | Integriert – einfach „Übersetzen“ aktivieren |
Sentiment-Analyse | Externe Bibliothek/API | Integriert – „Sentiment“-Spalte hinzufügen |
Exportoptionen | CSV/JSON (manueller Import) | 1 Klick nach Excel, Google Sheets, Airtable, Notion |
Wartung | Manuell (Code anpassen bei Änderungen) | KI passt sich kleinen Änderungen automatisch an |
Skalierung | Ideal für große, laufende Projekte | Optimal für schnelle Aufgaben, mittlere Datenmengen |
Kosten | Kostenlos (aber Zeit-/Entwickleraufwand) | Kostenloser Einstieg + bezahlte Pläne (ab 9 $/Monat, spart viel Zeit und Nerven) |
Wann Scrapy Python, wann Thunderbit fürs Web-Scraping?
Meine Faustregel:
- Scrapy nutzen, wenn:
- Du Entwickler bist oder einen im Team hast
- Du zehntausende Seiten scrapen oder eine dauerhafte Pipeline bauen willst
- Die Website sehr komplex ist oder spezielle Logik erfordert
- Du volle Kontrolle willst (und Wartung nicht scheust)
- Thunderbit nutzen, wenn:
- Du nicht programmieren (willst)
- Du schnell Daten für eine einmalige oder wiederkehrende Aufgabe brauchst
- Du Übersetzung, Sentiment oder Datenanreicherung direkt im Tool möchtest
- Du Wert auf Tempo und Flexibilität legst
Hier eine schnelle Entscheidungs-Checkliste:
- Kannst du Python programmieren?
- Ja → Scrapy oder Thunderbit (für schnelle Aufgaben)
- Nein → Thunderbit
- Ist dein Projekt groß und dauerhaft?
- Ja → Scrapy
- Nein → Thunderbit
- Brauchst du Übersetzung oder Sentiment-Analyse?
- Ja → Thunderbit
- Nein → Beides möglich
Schritt für Schritt: Amazon-Produktdaten mit Thunderbit scrapen (ohne Code)
Nehmen wir unser Amazon-Beispiel – diesmal auf die einfache Art.
1. Thunderbit installieren
- Kostenlos registrieren
2. Amazon öffnen und Produkt suchen
- Gehe auf und suche z. B. nach „Laptops“ (oder einem anderen Produkt)
3. Thunderbit auf der Seite starten
- Klicke auf das Thunderbit-Icon im Browser
- Das Seitenpanel öffnet sich und erkennt die Amazon-Seite automatisch
4. KI-Felder vorschlagen lassen
- Klicke auf „KI-Felder vorschlagen“
- Thunderbits KI scannt die Seite und schlägt Spalten wie „Produktname“, „Preis“, „Bewertung“, „Anzahl Bewertungen“ vor
- Du kannst Spalten hinzufügen oder entfernen (z. B. „Produkt-URL“ oder „Prime-Status“ einfach eintippen)
5. Paginierung und Unterseiten aktivieren
- Paginierung aktivieren: Thunderbit klickt automatisch auf „Weiter“ und sammelt alle Seiten
- Unterseiten aktivieren: Thunderbit besucht jede Produktdetailseite und holt Zusatzinfos (z. B. Beschreibung oder ASIN)
6. Scraping starten
- Klicke auf Scrapen
- Thunderbit sammelt die Daten live, Seite für Seite
7. Übersetzen und Sentiment analysieren (optional)
- Produktbeschreibungen übersetzen? Einfach „Übersetzen“ für die Spalte aktivieren
- Sentiment-Analyse für Bewertungen? „Sentiment“-Spalte hinzufügen – Thunderbits KI erledigt den Rest
8. Daten exportieren
- Klicke auf Exportieren
- Wähle Excel, Google Sheets, Airtable oder Notion
- Die Daten sind sofort einsatzbereit – kein manueller Import, kein CSV-Chaos
9. Wiederkehrende Scrapes planen (optional)
- Lege einen Zeitplan fest (z. B. täglich um 8 Uhr)
- Thunderbit führt das Scraping automatisch aus und aktualisiert dein Zielsystem
Das war’s. Kein Code, keine Selektoren, keine Wartung. Einfach Daten, bereit für dein Business.
Extra-Tipps: So holst du mehr aus deinen Web-Scraping-Projekten raus
Egal ob mit Scrapy, Thunderbit oder anderen Tools – diese Best Practices haben sich bewährt:
- Daten prüfen: Kontrolliere immer auf fehlende oder auffällige Werte (z. B. 0 € Preise oder leere Namen)
- Rechtliche Vorgaben beachten: Prüfe die Nutzungsbedingungen der Website, respektiere
robots.txt
und überlaste keine Server - Automatisierung mit Augenmaß: Plane regelmäßige Scrapes, aber nicht häufiger als nötig
- Kostenlose Tools nutzen: Thunderbit bietet kostenlose E-Mail-, Telefon- und Bild-Extraktoren – ideal für Lead-Generierung oder Content-Kuration
- Daten für Analyse organisieren: Exportiere direkt nach Sheets/Excel, um schnell filtern, pivotieren und visualisieren zu können
Weitere Tipps findest du im oder im .
Für noch mehr Tipps schau im oder im vorbei.
Fazit: Web-Scraping leicht gemacht – das richtige Tool für dein Team
Das Wichtigste zum Schluss: Scrapy ist ein Top-Tool für Entwickler, aber für die meisten Business-Anwender zu komplex. Wer mit Python fit ist und große, individuelle Scraper bauen will, ist mit Scrapy bestens bedient. Wer aber schnell Ergebnisse ohne Code, mit Übersetzung und Sentiment-Analyse will, fährt mit deutlich entspannter.
Ich habe selbst erlebt, wie viel Zeit und Nerven Thunderbit gerade für nicht-technische Teams spart. Von „Ich hätte gern diese Daten“ bis „Sie sind in meiner Tabelle“ vergehen oft nur Minuten – nicht Stunden oder Tage. Mit Features wie KI-Feldvorschlägen, Unterseiten-Scraping und 1-Klick-Export war es nie einfacher, das Web in Business-Intelligenz zu verwandeln.
Wenn du also das nächste Mal Produktdaten sammelst, Preise überwachst oder eine Lead-Liste baust, frag dich: Willst du Python schreiben – oder einfach Ergebnisse? Probier Thunderbit kostenlos aus und erlebe, wie einfach Web-Scraping heute sein kann.
Neugierig geworden? Schau auf der , oder stöbere im nach weiteren Best Practices rund ums Web-Scraping.
Weiterführende Artikel:
Hinweis: Achte beim Web-Scraping immer auf die Nutzungsbedingungen der jeweiligen Website und die geltenden Gesetze. Im Zweifel lieber rechtlichen Rat einholen – niemand will wegen einer Tabelle eine Abmahnung riskieren.
Verfasst von Shuai Guan, Co-Founder & CEO von Thunderbit. Ich beschäftige mich seit Jahren mit SaaS, Automatisierung und KI – damit du es nicht musst.