So scrape ich Reddit mit Python: 4 Methoden, die heute noch funktionieren

Google zahlt jährlich 60 Millionen US-Dollar für eine Reddit-Datenlizenz. Bei OpenAI soll der Deal angeblich bei 70 Millionen US-Dollar liegen. Das zeigt ziemlich deutlich, was in diesen Kommentar-Threads steckt. Wenn Sie schon einmal versucht haben, Diskussionen, Kommentare oder Stimmungsdaten manuell von Reddit zu sammeln, kennen Sie das Problem: endloses Scrollen, Copy-Paste-Marathon und ein Browser voller Tabs.

Im letzten Quartal habe ich einen großen Teil meiner Zeit damit verbracht, unser Team bei Thunderbit dabei zu unterstützen, herauszufinden, wie man Reddit-Daten im Jahr 2025 tatsächlich extrahiert. Seit der Preisüberarbeitung der Reddit-API im Jahr 2023 hat sich die Lage stark verändert, und die meisten Anleitungen im Netz sind entweder veraltet oder decken nur einen einzigen Weg ab. Deshalb habe ich alles zusammengetragen, was aktuell wirklich funktioniert — vier unterschiedliche Ansätze, von komplettem Python-Scripting bis hin zur Extraktion ganz ohne Code. So können Sie die Methode wählen, die zu Ihrem Kenntnisstand und Ihrem Anwendungsfall passt. Egal, ob Sie einen NLP-Datensatz aufbauen, einen Subreddit auf Marken-Erwähnungen überwachen oder einfach eine Tabelle mit Trend-Posts möchten: Dieser Leitfaden hilft Ihnen weiter.

Was bedeutet Reddit Scraping eigentlich – und warum ist es wichtig?

Beim Reddit Scraping werden Posts, Kommentare, Nutzerdaten und Metadaten programmgesteuert aus Reddit-Seiten oder der API ausgelesen. Statt Threads manuell zu öffnen und Text zu kopieren, nutzt man ein Skript oder Tool, um strukturierte Daten in großem Umfang zu sammeln.

Warum sich der Aufwand lohnt? Reddit umfasst über und erzeugt schätzungsweise . Dort äußern Menschen ungefiltert ihre Meinung zu Produkten, Dienstleistungen, Wettbewerbern und Trends — also genau die Art authentischer Signale, die man auf polierten Bewertungsportalen oder Corporate Blogs kaum findet. Google zahlt rund für eine Reddit-Content-Lizenz, und OpenAI soll einen Deal über abgeschlossen haben. Wenn die größten KI-Unternehmen der Welt solche Summen für diese Daten zahlen, lohnt es sich, selbst zu lernen, wie man darauf zugreift.

Warum Reddit 2025 mit Python scrapen?

Python ist die Standard-Sprache fürs Reddit Scraping — PRAW, requests, BeautifulSoup und pandas decken jeden Schritt ab, von API-Aufrufen bis zum Export. Aber das „Warum“ geht über Tools hinaus.

Hier sind die häufigsten Anwendungsfälle, die ich in Business- und Research-Teams sehe:

Anwendungsfall	Wer profitiert	Beispiel
Marktanalyse & Validierung	Produktmanager, Gründer	Wiederkehrende Pain Points in r/SaaS oder r/Entrepreneur analysieren
Sentiment-Analyse	Marketing, Brand-Teams	Beobachten, wie über Ihr Produkt im Vergleich zum Wettbewerb gesprochen wird
Lead-Generierung	Vertriebsteams	In Nischen-Subreddits nach Posts wie „suche ein Tool, das X kann“ suchen
Content-Ideenfindung	Content-Marketer	Trendfragen und Themen in r/marketing oder r/SEO aufspüren
Akademische / NLP-Forschung	Forscher, Data Scientists	Labeled Datasets aus Kommentar-Threads für Emotionsklassifizierung erstellen
Competitive Intelligence	Strategie, Operations	Wettbewerber-Subreddits auf wiederkehrende Beschwerden überwachen

Die Reddit-Nutzerbasis erreichte 2025 schätzungsweise und — ein Plus von 24 % im Jahresvergleich. Und nach Googles Core Update im August 2024 wurde Reddit-Content in den organischen Suchergebnissen etwa [400 % sichtbarer](https://www.sGoogle zahlt jährlich 60 Millionen US-Dollar für eine Reddit-Datenlizenz. Bei OpenAI soll der Deal angeblich bei 70 Millionen US-Dollar liegen. Das zeigt ziemlich klar, was in diesen Kommentar-Threads steckt. Wenn Sie schon einmal versucht haben, Diskussionen, Kommentare oder Stimmungsdaten manuell von Reddit zu sammeln, kennen Sie das Problem: endloses Scrollen, Copy-and-paste-Marathon und ein Browser voller Tabs.

Im letzten Quartal habe ich einen großen Teil meiner Zeit damit verbracht, unser Team bei Thunderbit dabei zu unterstützen, herauszufinden, wie man Reddit-Daten im Jahr 2025 tatsächlich extrahiert. Seit der Reddit-API 2023 preislich neu aufgestellt wurde, hat sich die Lage deutlich verändert, und die meisten Anleitungen im Netz sind entweder veraltet oder zeigen nur einen einzigen Weg. Deshalb habe ich alles zusammengetragen, was aktuell wirklich funktioniert — vier unterschiedliche Ansätze, vom kompletten Python-Scripting bis zur Extraktion ganz ohne Code. So können Sie die Methode wählen, die zu Ihrem Kenntnisstand und Ihrem Anwendungsfall passt. Egal, ob Sie einen NLP-Datensatz aufbauen, einen Subreddit auf Marken-Erwähnungen überwachen oder einfach eine Tabelle mit Trend-Posts möchten: Dieser Leitfaden hilft Ihnen weiter.

Was bedeutet Reddit Scraping eigentlich – und warum ist es wichtig?

Warum lohnt sich der Aufwand? Reddit umfasst über und erzeugt schätzungsweise . Dort äußern Menschen ihre Meinung zu Produkten, Dienstleistungen, Wettbewerbern und Trends oft ungefiltert — also genau die Art authentischer Signale, die man auf glattpolierten Bewertungsportalen oder Corporate Blogs kaum findet. Google zahlt rund für eine Reddit-Content-Lizenz, und OpenAI soll einen Deal über abgeschlossen haben. Wenn die größten KI-Unternehmen der Welt solche Summen für diese Daten zahlen, lohnt es sich, selbst zu lernen, wie man darauf zugreift.

Warum Reddit 2025 mit Python scrapen?

Hier sind die häufigsten Anwendungsfälle, die ich in Business- und Research-Teams sehe:

Anwendungsfall	Wer profitiert	Beispiel
Marktanalyse & Validierung	Produktmanager, Gründer	Wiederkehrende Pain Points in r/SaaS oder r/Entrepreneur analysieren
Sentiment-Analyse	Marketing, Brand-Teams	Beobachten, wie über Ihr Produkt im Vergleich zum Wettbewerb gesprochen wird
Lead-Generierung	Vertriebsteams	In Nischen-Subreddits nach Posts wie „suche ein Tool, das X kann“ suchen
Content-Ideenfindung	Content-Marketer	Trendfragen und Themen in r/marketing oder r/SEO aufspüren
Akademische / NLP-Forschung	Forscher, Data Scientists	Labelte Datensätze aus Kommentar-Threads für Emotionsklassifizierung erstellen
Competitive Intelligence	Strategie, Operations	Wettbewerber-Subreddits auf wiederkehrende Beschwerden überwachen

Anders gesagt: Die Daten, die Sie von Reddit scrapen, sind zunehmend genau dieselben Daten, die Google Suchenden anzeigt.

Welche Methode sollten Sie zum Reddit Scrapen verwenden? (Schneller Vergleich)

Die häufigste Frage in Reddit-Scraping-Foren lautet wortwörtlich: „Welche Methode soll ich nehmen?“ Deshalb habe ich diese Tabelle erstellt. Einfach die passende Zeile auswählen und loslegen.

Kriterium	PRAW	.json-Endpunkt	BeautifulSoup (HTML)	No-Code (Thunderbit)
Einrichtungsaufwand	Mittel (API-App + pip install)	Keiner (nur eine URL)	Mittel (pip + DOM-Analyse)	Sehr gering (Chrome-Erweiterung)
API-Schlüssel nötig?	Ja	Nein	Nein	Nein
Kommentar-Scraping	Tief (verschachtelte Bäume)	Eingeschränkt (Top-Level)	Manuelle Analyse	KI-strukturiert
Pagination	Integriert	Manuell (`after`-Parameter)	Manuell	Automatisch
Rate Limiting	100 req/min (von PRAW verwaltet)	~10 req/min (ohne Authentifizierung)	Risiko von IP-Blockaden	Vom Tool abgefangen
Am besten geeignet für	Vollwertige Projekte, Forschung	Schnelle Einzelabrufe	Lernen/Anpassung	Nicht-Programmierer, schnelle Exporte
Exportoptionen	CSV, JSON (mit manuellem Code)	JSON (roh)	Individuell (manueller Code)	Excel, Google Sheets, Airtable, Notion

Wenn Sie komplette Python-Projekte mit tiefem Kommentar-Parsing bauen möchten, starten Sie mit Methode 1 (PRAW). Brauchen Sie in den nächsten 10 Minuten schnell Daten — ohne Setup? Dann nehmen Sie Methode 2 (den .json-Trick). Möchten Sie HTML Scraping lernen oder eigene Felder extrahieren? Dann ist Methode 3 (BeautifulSoup) die richtige Wahl. Und wenn Sie lieber komplett auf Python verzichten und einfach nur an die Daten kommen möchten, springen Sie direkt zu Methode 4 ().

Was sich geändert hat: Reddits API-Preisupdate 2023–2024 und was noch kostenlos möglich ist

Kaum ein Scraping-Guide geht darauf ein — dabei ist genau das der wichtigste Kontext für alle, die heute Reddit scrapen.

Im Juni 2023 führte Reddit erstmals seit 2008 kostenpflichtige API-Tarife ein. Die Folgen waren enorm:

Pushshift wurde für die öffentliche Nutzung abgeschaltet. Reddit entzog Pushshift im Mai 2023 den API-Zugang. Forschende, die darauf angewiesen waren (über zitierten Pushshift), verloren über Nacht ihre wichtigste Datenquelle. Der Nachfolger für historische Daten ist , aber es gibt keinen öffentlichen Live-API-Ersatz.
Drittanbieter-Apps wurden eingestellt. Apollo, Reddit is Fun, Sync, BaconReader und andere machten bis zum 30. Juni 2023 dicht, nachdem Reddit für Apollo laut Entwickler Gebühren von aufgerufen hatte.
Über 8.500 Subreddits gingen offline als Protest, darunter r/funny (40 Mio. Abonnenten), r/gaming und r/science ().

Was 2025 noch kostenlos verfügbar ist:

Die steht weiterhin für nicht-kommerzielle, private und akademische Nutzung zur Verfügung — 100 Abfragen pro Minute und OAuth-Client-ID. PRAW funktioniert in diesem Rahmen problemlos für moderates Scraping. Der anonyme Zugriff (einschließlich des .json-Endpunkts) ist auf rund 10 Anfragen pro Minute begrenzt.

Die praktische Schlussfolgerung: Für kleine bis mittlere Scraping-Projekte reicht die kostenlose Stufe völlig aus. Für große oder kommerzielle Vorhaben müssen Sie entweder Reddit wegen Enterprise-Zugang kontaktieren, den .json-Endpunkt oder BeautifulSoup nutzen (ohne API-Schlüssel) oder ein Tool wie Thunderbit einsetzen, das überhaupt nicht von der Reddit-API abhängt.

Bevor Sie starten

Schwierigkeitsgrad: Anfänger bis Fortgeschrittene (je nach Methode)
Benötigte Zeit: ca. 15–30 Minuten für Methode 1–3; ca. 5 Minuten für Methode 4
Das brauchen Sie:
- Python 3.8+ installiert (für Methode 1–3)
- Ein Reddit-Konto (für Methode 1)
- Den Chrome-Browser (für Methode 4)
- (für Methode 4)

Methode 1: Reddit mit Python und PRAW scrapen (Schritt für Schritt)

PRAW (Python Reddit API Wrapper) ist die beliebteste und am besten dokumentierte Methode, um Reddit mit Python zu scrapen. Authentifizierung, Rate Limiting und Pagination werden für Sie übernommen, und das Projekt wird aktiv gepflegt — die aktuelle stabile Version ist PRAW 7.8.1 (Oktober 2024) und unterstützt Python 3.8 bis 3.13.

Schritt 1: Reddit-App erstellen und API-Zugangsdaten abrufen

Gehen Sie zu und scrollen Sie nach unten. Klicken Sie auf „are you a developer? create an app...“

Füllen Sie das Formular aus:

Name: frei wählbar, aber aussagekräftig (z. B. „my-reddit-scraper“)
App type: script auswählen
Redirect URI: http://localhost:8080 eingeben (erforderlich, aber bei Script-Apps ungenutzt)
Description: optional

Klicken Sie auf Create app. Danach sehen Sie Ihre Zugangsdaten:

client_id — die 14-stellige Zeichenfolge direkt unter dem App-Namen (beschriftet als „personal use script“)
client_secret — das Feld mit der Beschriftung „secret“

Sie müssen außerdem Reddits und die akzeptieren, bevor die App-Erstellung abgeschlossen wird.

Ein wichtiger Hinweis: Seit Ende 2024 müssen neue Entwickler möglicherweise erst einen Zugangsantrag einreichen und auf Freigabe warten. Das ist die größte Hürde für PRAW-Anfänger — und daran führt kein Weg vorbei.

Schritt 2: PRAW installieren und eine Reddit-Instanz anlegen

Öffnen Sie Ihr Terminal und führen Sie aus:

1pip install praw pandas

Erstellen Sie dann eine schreibgeschützte Reddit-Instanz:

1import praw
2reddit = praw.Reddit(
3    client_id="YOUR_CLIENT_ID",
4    client_secret="YOUR_CLIENT_SECRET",
5    user_agent="python:reddit-scraper:v1.0 (by u/yourname)",
6)
7# reddit.read_only ist bei Script-Apps ohne Passwort standardmäßig True

Das Format des user_agent ist wichtig. Reddit drosselt aktiv generische Strings wie python-requests/2.x. Verwenden Sie das von Reddit empfohlene Format: platform:app_id:version (by u/username).

Schritt 3: Posts aus einem Subreddit scrapen

So holen Sie die Top-Posts aus r/python der letzten Monate und speichern sie in einem pandas DataFrame:

1import pandas as pd
2subreddit = reddit.subreddit("python")
3rows = []
4for post in subreddit.top(time_filter="month", limit=500):
5    rows.append({
6        "id": post.id,
7        "title": post.title,
8        "selftext": post.selftext,
9        "score": post.score,
10        "upvote_ratio": post.upvote_ratio,
11        "num_comments": post.num_comments,
12        "author": str(post.author) if post.author else "[deleted]",
13        "created_utc": post.created_utc,
14        "url": post.url,
15        "permalink": f"https://reddit.com\{post.permalink\}",
16    })
17df = pd.DataFrame(rows)
18print(df.head())

Sie können .top() durch .hot(), .new() oder .controversial() ersetzen, und time_filter akzeptiert "all", "day", "hour", "month", "week" oder "year".

Kleine Warnung: Reddit begrenzt jede Listing-Abfrage auf rund 1.000 Elemente, unabhängig davon, wie hoch Sie limit setzen. Das ist eine Grenze auf Reddit-Seite, nicht von PRAW.

Schritt 4: Reddit-Daten als CSV oder Excel exportieren

1df.to_csv("reddit_python_top.csv", index=False)
2df.to_json("reddit_python_top.json", orient="records", lines=True)

PRAW übernimmt das Rate Limiting automatisch — es liest bei jeder Antwort die Header X-Ratelimit-Remaining und X-Ratelimit-Reset aus und pausiert bei Bedarf zwischen den Aufrufen. Bei moderatem Scraping müssen Sie selten manuelle Verzögerungen einbauen.

So scrapen Sie Reddit-Kommentare mit Python (verschachtelte Threads)

Beim Scrapen von Kommentaren scheitern die meisten zuerst.

Reddit speichert Kommentare als Baum: Jeder Kommentar kann Unterkommentare haben, und einige Verzweigungen sind hinter „load more comments“-Links versteckt. In der PRAW-Welt werden diese versteckten Zweige als MoreComments-Objekte dargestellt.

Das ist das Grundprinzip:

1Submission (t3_abc123)
2├── Kommentar A (Top-Level)
3│   ├── Antwort A1
4│   │   └── Antwort A1a
5│   └── Antwort A2
6├── Kommentar B (Top-Level)
7│   └── MoreComments (versteckt — „mehr Kommentare laden")
8└── MoreComments (versteckt — „Thread fortsetzen")

Mit `replace_more()` alle versteckten Kommentare abrufen

Die Methode replace_more() durchläuft den Kommentarbaum und ersetzt jeden MoreComments-Platzhalter durch die tatsächlichen Kommentare, auf die er verweist:

1submission = reddit.submission(id="abcdef")
2submission.comments.replace_more(limit=10)  # praxisnahes Limit für große Threads
3all_comments = submission.comments.list()   # flach in Breadth-first-Reihenfolge

Wenn Sie limit=None setzen, wird jeder einzelne MoreComments-Knoten ersetzt — bei einem Thread mit 5.000+ Kommentaren kann das mehrere Minuten dauern, da jeder Ersatz eine API-Anfrage ist, die höchstens etwa 100 Kommentare zurückliefert. Bei großen Threads würde ich mit limit=10 oder limit=20 starten und nur dann erhöhen, wenn Sie vollständige Daten brauchen.

Verschachtelte Kommentare in eine Tabelle umwandeln

1rows = []
2for c in all_comments:
3    rows.append({
4        "comment_id": c.id,
5        "parent_id": c.parent_id,   # t1_xxx = Elternkommentar, t3_xxx = Submission
6        "depth": c.depth,
7        "author": str(c.author) if c.author else "[deleted]",
8        "body": c.body,
9        "score": c.score,
10        "created_utc": c.created_utc,
11        "is_submitter": c.is_submitter,
12    })
13comments_df = pd.DataFrame(rows)

Top-Level-Kommentare haben eine parent_id, die mit t3_ beginnt (dem Fullname der Submission). Die Spalte depth zeigt, wie tief ein Kommentar verschachtelt ist — praktisch für Filter oder Visualisierungen. Ein wichtiger Punkt: len(all_comments) stimmt meist nicht mit submission.num_comments überein, weil gelöschte, entfernte und durch Spam-Filter blockierte Kommentare nicht im Baum enthalten sind.

Methode 2: Der .json-Endpunkt-Trick — Reddit ohne API-Schlüssel scrapen

Hängen Sie einfach .json an jede Reddit-URL an. Das war’s. Sie erhalten strukturiertes JSON zurück — keine Authentifizierung, keine App-Registrierung, kein pip install.

Beispiel: https://www.reddit.com/r/python/hot.json

In Foren wird dieser Trick ständig erwähnt, aber kaum ein Tutorial erklärt ihn richtig.

Ein funktionierender Python-Code

1import requests
2headers = {"User-Agent": "python:reddit-scraper:v1.0 (by /u/yourname)"}
3r = requests.get(
4    "https://www.reddit.com/r/python/hot.json",
5    headers=headers,
6    params={"limit": 100},
7)
8data = r.json()
9for post in data["data"]["children"]:
10    p = post["data"]
11    print(p["title"], p["score"], p["num_comments"], p["author"])

Der User-Agent-Header ist entscheidend. Reddit blockiert oder drosselt generische User-Agents wie python-requests/2.31.0 — wie , basiert dieses Rate Limiting auf dem User-Agent. Verwenden Sie denselben aussagekräftigen Stil wie bei PRAW.

Pagination mit dem `after`-Parameter

Der .json-Endpunkt liefert standardmäßig etwa 25 Ergebnisse zurück (maximal 100 pro Anfrage). Für mehr nutzen Sie den after-Cursor aus der Antwort:

1import requests, time
2headers = {"User-Agent": "python:reddit-scraper:v1.0 (by /u/yourname)"}
3after = None
4all_posts = []
5for _ in range(10):  # bis zu ~1000 Posts
6    r = requests.get(
7        "https://www.reddit.com/r/python/hot.json",
8        headers=headers,
9        params={"limit": 100, "after": after},
10    )
11    data = r.json()
12    all_posts.extend(data["data"]["children"])
13    after = data["data"].get("after")
14    if not after:
15        break
16    time.sleep(6)  # ~10 QPM = eine Anfrage alle 6 Sekunden

Der after-Wert ist ein Cursor-Token (Format: t3_xxxxxx). Wie bei PRAW liegt die harte Obergrenze bei insgesamt rund 1.000 Elementen über mehrere paginierte Anfragen hinweg.

Grenzen der .json-Methode

Kein Zugriff auf tief verschachtelte Kommentarbäume — Sie erhalten Top-Level-Kommentare plus eine Ebene von „more“-Platzhaltern, aber keine automatische Auflösung wie bei PRAWs replace_more()
Nur lesend — kein Voten, Posten oder Moderieren
~10 Anfragen pro Minute bei anonymem Zugriff — aggressive Schleifen führen zu 429-Fehlern
Dieselbe 1.000-Elemente-Grenze wie bei der authentifizierten API

Diese Methode eignet sich am besten für schnelle Einzelabrufe, Prototyping oder Situationen, in denen Sie keine API-App registrieren möchten.

Methode 3: Reddit mit BeautifulSoup scrapen (HTML-Parsing)

Wenn Sie schon einmal gescrapt haben, kennen Sie BeautifulSoup wahrscheinlich. Der entscheidende Reddit-spezifische Trick: Nutzen Sie old.reddit.com statt des neuen React-Frontends. Die alte Oberfläche wird serverseitig gerendert, ist schlanker und deutlich einfacher zu parsen — bestätigen, dass sie weiterhin online und scraper-freundlich ist.

Requests und BeautifulSoup einrichten

1pip install requests beautifulsoup4

1import requests
2from bs4 import BeautifulSoup
3headers = {"User-Agent": "python:reddit-scraper:v1.0 (by /u/yourname)"}
4r = requests.get("https://old.reddit.com/r/python/", headers=headers)
5soup = BeautifulSoup(r.text, "html.parser")

Post-Daten aus dem DOM extrahieren

Auf old.reddit.com steckt jeder Post in einem <div> mit der Klasse thing. Die stabilsten Selektoren sind die data-*-Attribute:

1for thing in soup.select("div#siteTable > div.thing"):
2    title_el = thing.select_one("a.title")
3    print({
4        "title":    title_el.get_text(strip=True) if title_el else None,
5        "author":   thing.get("data-author"),
6        "score":    thing.get("data-score"),
7        "comments": thing.get("data-comments-count"),
8        "domain":   thing.get("data-domain"),
9        "url":      title_el.get("href") if title_el else None,
10    })

Verlassen Sie sich lieber auf die data-*-Attribute als auf verschachtelte Klassenselektoren — Reddit hat Klassennamen im Laufe der Jahre mehrfach geändert, die Datenattribute sind dagegen templatebasiert und ändern sich selten.

Pagination auf old.reddit.com handhaben

1import time
2url = "https://old.reddit.com/r/python/"
3all_rows = []
4while url:
5    r = requests.get(url, headers=headers)
6    soup = BeautifulSoup(r.text, "html.parser")
7    for thing in soup.select("div#siteTable > div.thing"):
8        title_el = thing.select_one("a.title")
9        all_rows.append({
10            "title":    title_el.get_text(strip=True) if title_el else None,
11            "author":   thing.get("data-author"),
12            "score":    thing.get("data-score"),
13            "comments": thing.get("data-comments-count"),
14            "url":      title_el.get("href") if title_el else None,
15        })
16    nxt = soup.select_one("span.next-button a")
17    url = nxt["href"] if nxt else None
18    time.sleep(2)  # höfliche Verzögerung

Wann sollte man BeautifulSoup statt PRAW verwenden?

BeautifulSoup passt gut, wenn Sie DOM-Scraping lernen möchten, kein OAuth-App-Setup wollen oder spezielle Felder brauchen, die PRAW nicht bereitstellt. Allerdings ist die Methode anfälliger: Die HTML-Struktur kann sich ohne Vorwarnung ändern, IP-Blockaden sind 2025 aggressiver als früher, und Sie müssen Pagination und Fehlerbehandlung komplett selbst schreiben. Bei Zuverlässigkeit und Tiefe liegt PRAW vorn.

Methode 4: Reddit ohne Code mit Thunderbit scrapen

Ein Geständnis: Viele Menschen, die nach „How to Scrape Reddit with Python“ suchen, wollen eigentlich gar kein Python schreiben. Sie wollen einfach nur die Daten. Wenn das auf Sie zutrifft, ist dieser Abschnitt Ihr Ausweg.

ist eine KI-gestützte Chrome-Erweiterung, die unser Team speziell für solche Anwendungsfälle gebaut hat — strukturierte Daten aus Webseiten extrahieren, ohne Code zu schreiben.

Schritt 1: Thunderbit installieren und eine Reddit-Seite öffnen

Installieren Sie die und öffnen Sie dann irgendeine Reddit-Subreddit- oder Post-Seite, z. B. reddit.com/r/python.

Kein API-Schlüssel, keine Python-Umgebung, keine Terminal-Befehle.

Schritt 2: Auf „AI Suggest Fields“ klicken und die KI die Seite lesen lassen

Klicken Sie in der Browser-Toolbar auf das Thunderbit-Symbol und dann auf „AI Suggest Fields.“ Die KI von Thunderbit scannt die Seite und schlägt automatisch Spalten wie Post-Titel, Benutzername, Upvotes, Kommentaranzahl, Veröffentlichungsdatum, Post-Beschreibung, Community-Name und Post-URL vor.

Sie können Spalten jederzeit hinzufügen, entfernen oder umbenennen. Wenn Sie sich zum Beispiel nur für Titel und Score interessieren, löschen Sie einfach die übrigen Felder.

Schritt 3: Auf „Scrape“ klicken und Daten exportieren

Klicken Sie auf „Scrape“ und Thunderbit extrahiert die Daten; die Pagination wird automatisch verarbeitet. Sobald die Tabelle gefüllt ist, können Sie direkt nach Excel, Google Sheets, Airtable oder Notion exportieren — ganz ohne CSV-Code.

Für tiefere Daten bietet Thunderbits Subpage Scraping die Möglichkeit, einzelne Threads zu öffnen und Ihre Tabelle automatisch mit Kommentar-Daten anzureichern. Das ist konzeptionell ähnlich wie PRAWs replace_more() — nur eben ohne eine einzige Codezeile.

Bonus: Geplantes Scraping für laufendes Reddit-Monitoring

Wenn Sie einen Subreddit täglich überwachen müssen — etwa Marken-Erwähnungen in r/SaaS oder Wettbewerbsdiskussionen in einer Nischen-Community — erledigt Thunderbits geplanter Scraper wiederkehrende Läufe automatisch. Sie beschreiben das Intervall in normaler Sprache (z. B. „jeden Werktag um 9 Uhr“) und das Tool macht den Rest und liefert frische Daten an Ihre verbundene Tabelle oder Datenbank.

Mehr über Thunderbits Reddit-Scraping-Funktionen erfahren Sie auf dem .

Tipps und Best Practices fürs Reddit Scraping mit Python

Die meisten dieser Punkte habe ich auf die harte Tour gelernt — sie gelten unabhängig davon, welche der oben genannten Methoden Sie nutzen.

Reddit-Nutzungsbedingungen und Rate Limits beachten

Reddits verbieten kommerzielles Scraping ausdrücklich ohne schriftliche Genehmigung — und das gilt für alle Zugriffswege, nicht nur für die API. Für private, akademische und interne Forschungszwecke liegen die kostenlose OAuth-Stufe und Thunderbits Workflows innerhalb angemessener Nutzungsgrenzen.

Rate-Limit-Übersicht:

Szenario	Limit	Was passiert?
Authentifiziert (OAuth)	60–100 req/min	PRAW verwaltet das automatisch
Nicht authentifiziert (.json, HTML)	~10–30 req/min	429 Too Many Requests
Generischer User-Agent	Stark gedrosselt	403 Forbidden oder stille Blockade

Verwenden Sie immer einen aussagekräftigen User-Agent-String. Das ist der häufigste Grund, warum Einsteiger auf 429- oder 403-Fehler stoßen.

Daten sauber speichern und strukturieren

Verwenden Sie pandas DataFrames mit klar definierter Spaltenreihenfolge für vorhersehbare CSV-/Excel-Exporte
Wandeln Sie created_utc in lesbare Zeitstempel um: pd.to_datetime(df["created_utc"], unit="s")
Entfernen Sie Duplikate über id, wenn Sie aus mehreren Sortierungen scrapen (hot, new und top überschneiden sich oft)
Behandeln Sie gelöschte Autoren sauber: str(post.author) if post.author else "[deleted]"

Häufige Fehler elegant abfangen

Fehler	Ursache	Lösung
429 Too Many Requests	Rate Limit überschritten (60–100 req/min bei OAuth)	Exponential Backoff implementieren; Header `X-Ratelimit-Reset` prüfen
403 Forbidden	Schlechter User-Agent oder blockierte IP	Einen eindeutigen, aussagekräftigen UA-String verwenden; sicherstellen, dass die OAuth-App aktiv ist
`None`-Autor	Gelöschter oder gesperrter Account	Mit `if post.author else "[deleted]"` absichern
`prawcore.TooManyRequests`	PRAW-interner Rate-Limit-Puffer ausgelöst	`ratelimit_seconds` erhöhen oder Anfragen gleichmäßiger verteilen
5xx oder 413 bei großen Bäumen	Überlastetes Reddit-Backend bei tiefen Threads	`replace_more()` mit Retry-Logik umgeben; Rekursionstiefe begrenzen

Reddit-Scraping-Anwendungsfälle: Was kann man mit den Daten machen?

Das Scraping ist nur Schritt eins. Entscheidend ist, was Sie daraus machen:

Vertriebsteams: Subreddits wie r/SaaS, r/smallbusiness oder r/Entrepreneur nach Posts wie „suche ein Tool, das X kann“ überwachen. Treffer in Lead-Listen oder CRM-Workflows einspeisen. Für das tägliche Monitoring Thunderbits geplanten Scraper nutzen.
Marketing- und Content-Teams: Marken-Erwähnungen verfolgen, Sentiment-Trends analysieren und Trendfragen für Content-Ideen auswerten. Reddit-Exporte mit Google Sheets für die Teamarbeit kombinieren.
E-Commerce und Operations: Wettbewerber-Diskussionen nach wiederkehrenden Beschwerden überwachen. Subreddits wie r/BuyItForLife und branchenspezifische Communities sind wahre Goldgruben für Produktfeedback.
Forscher und Analysten: NLP-Datensätze aufbauen — akademische Arbeiten nutzten 2024 Datensätze mit bis für Sentiment- und Emotionsklassifizierung. PRAWs Datensammlung ist in Peer Reviews zitierfähig.

Wenn Sie tiefer einsteigen möchten, wie man oder , haben wir diese Workflows im Thunderbit-Blog ausführlich behandelt.

Fazit

Reddit Scraping sieht 2025 völlig anders aus als noch vor zwei Jahren. Die API-Änderungen von 2023 haben Pushshift abgeschaltet, beliebte Drittanbieter-Apps beendet und kostenpflichtige Tarife eingeführt.

Aber die kostenlose Stufe lebt weiter und ist für private und akademische Nutzung völlig ausreichend — und es gibt heute mehr Wege denn je, an die Daten zu kommen.

Hier die Kurzfassung für jede Methode:

Egal ob Python-Profi oder jemand, der bis Mittag einfach eine Tabelle haben will — eine dieser vier Methoden bringt Sie ans Ziel. Wenn Sie den Code lieber ganz überspringen möchten, können Sie und sehen, wie Reddit mit ein paar Klicks verarbeitet wird. Und wenn Sie Ihre Python-Scraping-Fähigkeiten weiter ausbauen möchten, speichern Sie diesen Leitfaden — ich werde ihn aktuell halten, während sich die Reddit-Landschaft weiter verändert.

Mehr zu Web-Scraping-Ansätzen finden Sie in unseren Anleitungen zu , und .

FAQs

Ist es legal, Reddit mit Python zu scrapen?

Reddits verbieten kommerzielles Scraping ohne schriftliche Genehmigung. Die kostenlose OAuth-Stufe ist für private, nicht-kommerzielle und akademische Nutzung verfügbar. Die rechtliche Bewertung ist unabhängig vom Transportweg — sie gilt also für API, .json-Endpunkt und HTML-Scraping gleichermaßen. Prüfen Sie vor Scraping in großem Umfang immer die aktuellen Reddit-Nutzungsbedingungen.

Funktioniert PRAW nach Reddits API-Änderungen 2023 noch?

Ja. PRAW 7.8.1 (Oktober 2024) wird aktiv gepflegt und arbeitet automatisch innerhalb der . Die Preisänderungen von 2023 betrafen vor allem hochvolumige und kommerzielle API-Nutzung, nicht die typischen PRAW-Scraping-Muster.

Kann ich Reddit ohne API-Schlüssel scrapen?

Ja — der .json-Endpunkt und die HTML-Analyse mit BeautifulSoup funktionieren beide ohne API-Schlüssel. Auch benötigt keinen API-Schlüssel. Alle drei Methoden unterliegen jedoch weiterhin Reddits Nutzungsbedingungen für kommerzielle Nutzung.

Wie scrape ich Reddit-Kommentare und nicht nur Posts?

Mit PRAW verwenden Sie submission.comments.replace_more(limit=10) und anschließend submission.comments.list(), um den verschachtelten Kommentarbaum in eine flache Liste umzuwandeln. Mit Thunderbit nutzen Sie Subpage Scraping, um eine Post-Liste automatisch mit Kommentardaten aus jedem Thread anzureichern.

Was ist der schnellste Weg, Reddit ohne Programmieren zu scrapen?

Die erlaubt es Ihnen, Reddit-Posts und -Kommentare mit zwei Klicks zu scrapen und direkt nach Excel, Google Sheets, Airtable oder Notion zu exportieren — ohne Python, ohne API-Schlüssel, ohne Einrichtung.

Mehr erfahren

So scrape ich Reddit mit Python: 4 Methoden, die heute noch funktionieren

Brauchst du individuelle Webdaten?

Teste Thunderbit