Google betaler 60 millioner dollar i året for å lisensiere Reddit-data. OpenAIs avtale er angivelig verdt 70 millioner dollar. Det sier litt om hva som skjuler seg i kommentarfeltene. Hvis du noen gang har prøvd å samle diskusjonstråder, kommentarer eller sentimentdata fra Reddit manuelt, kjenner du frustrasjonen: endeløs scrolling, copy-paste og altfor mange faner samtidig.
Jeg brukte en god del av forrige kvartal på å hjelpe teamet vårt i Thunderbit med å finne ut hvordan folk faktisk henter ut Reddit-data i 2025. Landskapet har endret seg mye siden Reddits API-prisendring i 2023, og de fleste guider på nettet er enten utdaterte eller dekker bare én metode. Derfor har jeg samlet alt som faktisk fungerer nå — fire ulike tilnærminger, fra full Python-skripting til helt kodefri uthenting — slik at du kan velge det som passer ferdighetsnivået og bruksområdet ditt. Enten du bygger et NLP-datasett, følger med på en subreddit for merkenavn, eller bare vil ha et regneark med populære innlegg, har denne guiden det du trenger.
Hva er Reddit-scraping, og hvorfor er det viktig?
Reddit-scraping betyr å hente ut innlegg, kommentarer, brukerdata og metadata fra Reddits sider eller API på en programmert måte. I stedet for å bla manuelt gjennom tråder og kopiere tekst, bruker du et skript eller et verktøy til å samle strukturert data i stor skala.
Hvorfor gidde? Reddit har over og genererer anslagsvis . Det er stedet folk deler ufiltrerte meninger om produkter, tjenester, konkurrenter og trender — den typen ekte signaler som nesten er umulige å finne på polerte anmeldelsessider eller bedriftsblogger. Google betaler rundt for en Reddit-lisens, og OpenAIs avtale er angivelig verdt . Når verdens største AI-selskaper betaler i hundremillionersklassen for denne typen data, er det verdt å lære hvordan du kan få tilgang til den selv.
Hvorfor bruke Python til å scrappe Reddit i 2025?
Python er standardvalget for Reddit-scraping — PRAW, requests, BeautifulSoup og pandas dekker alt fra API-kall til eksport av data. Men «hvorfor» handler om mer enn bare verktøy.
Her er de vanligste bruksområdene jeg ser på tvers av virksomhets- og forskningsteam:
| Bruksområde | Hvem har nytte av det | Eksempel |
|---|---|---|
| Markedsundersøkelser og validering | Produktledere, gründere | Finne gjentakende smertepunkter i r/SaaS eller r/Entrepreneur |
| Sentimentanalyse | Markedsføring, merkevareteam | Følge med på hvordan folk snakker om produktet ditt kontra konkurrentene |
| Lead-generering | Salgsteam | Finne innlegg som sier «leter etter et verktøy som gjør X» i nisjesubreddits |
| Idéutvikling for innhold | Innholdsmarkedsførere | Oppdage populære spørsmål og temaer i r/marketing eller r/SEO |
| Akademisk / NLP-forskning | Forskere, data scientists | Bygge merkede datasett fra kommentarfelt for følelsesklassifisering |
| Konkurranseanalyse | Strategi, drift | Overvåke konkurrenters subreddits for gjentakende klager |
Reddits brukerbase passerte anslagsvis , med — opp 24 % fra året før. Og etter Googles core-oppdatering i august 2024 ble Reddit-innhold omtrent i organiske søkeresultater.
Kort fortalt: Dataene du henter fra Reddit, er i stadig større grad de samme dataene Google viser til søkere.
Hvilken metode bør du bruke for å scrape Reddit? (Rask sammenligning)
Det vanligste spørsmålet i Reddit-scraping-forum er bokstavelig talt: «Hvilken metode bør jeg bruke?» Så jeg laget denne tabellen. Velg raden din og kjør på.
| Kriterium | PRAW | .json-endepunkt | BeautifulSoup (HTML) | Kodefritt (Thunderbit) |
|---|---|---|---|---|
| Oppsett-kompleksitet | Middels (API-app + pip install) | Ingen (bare en URL) | Middels (pip + DOM-inspeksjon) | Svært lav (Chrome-utvidelse) |
| API-nøkkel nødvendig? | Ja | Nei | Nei | Nei |
| Kommentar-scraping | Dyp (nestede trær) | Begrenset (øverste nivå) | Manuell parsing | AI-strukturert |
| Paginering | Innebygd | Manuell (after-parameter) | Manuell | Automatisk |
| Rate limiting | 100 forespørsler/min (håndteres av PRAW) | ~10 forespørsler/min (uten autentisering) | Risiko for IP-blokkering | Håndteres av verktøyet |
| Best for | Fullverdige prosjekter, forskning | Kjappe engangshentinger | Læring/tilpasning | Ikke-kodere, raske eksportjobber |
| Eksportalternativer | CSV, JSON (manuell kode) | JSON (rådata) | Egendefinert (manuell kode) | Excel, Google Sheets, Airtable, Notion |
Hvis du vil ha fullverdige Python-prosjekter med dyp kommentaruthenting, start med metode 1 (PRAW). Trenger du en rask datainnhenting i løpet av de neste 10 minuttene uten oppsett? Prøv metode 2 (.json-trikset). Vil du lære HTML-scraping eller trenger egendefinerte felter? Gå for metode 3 (BeautifulSoup). Og hvis du helst vil hoppe over Python helt og bare få dataene, gå rett til metode 4 ().
Hva som endret seg: Reddits API-prisoppdatering i 2023–2024 (og hva som fortsatt er gratis)
Nesten ingen scraping-guider snakker om dette — og det er den viktigste konteksten for alle som scraper Reddit i dag.
I juni 2023 innførte Reddit for første gang siden 2008 betalte nivåer for API-tilgang. Følgene var enorme:
- Pushshift forsvant for offentlig bruk. Reddit trakk tilbake Pushshifts API-tilgang i mai 2023. Forskere som var avhengige av det (over siterte Pushshift) mistet datakilden sin over natten. Etterfølgeren for historiske data er , men det finnes ingen offentlig erstatning for en live API.
- Tredjepartsapper ble lagt ned. Apollo, Reddit is Fun, Sync, BaconReader og flere andre stengte innen 30. juni 2023, etter at Reddit oppga at Apollo-utvikleren ville bli belastet i API-kostnader.
- Over 8 500 subreddits gikk i svart i protest, inkludert r/funny (40 millioner abonnenter), r/gaming og r/science ().
Det som fortsatt er gratis i 2025:
Det er fortsatt tilgjengelig for ikke-kommersiell, personlig og akademisk bruk — 100 forespørsler per minutt per OAuth-klient-ID. PRAW fungerer helt fint innenfor dette nivået for moderat scraping. Uautentisert tilgang (inkludert .json-endepunktet) er begrenset til omtrent 10 forespørsler per minutt.
Det praktiske poenget: For små til mellomstore scraping-oppgaver er gratisnivået mer enn nok. For storskala eller kommersiell bruk må du enten kontakte Reddit for enterprise-tilgang, bruke .json-endepunktet eller BeautifulSoup (som ikke krever API-nøkler), eller bruke et verktøy som Thunderbit som ikke er avhengig av Reddits API i det hele tatt.
Før du begynner
- Vanskelighetsgrad: Nybegynner til viderekommen (avhenger av metode)
- Tidsbruk: Ca. 15–30 minutter for metode 1–3; ca. 5 minutter for metode 4
- Det du trenger:
- Python 3.8+ installert (for metode 1–3)
- En Reddit-konto (for metode 1)
- Chrome-nettleser (for metode 4)
- (for metode 4)
Metode 1: Slik scraper du Reddit med Python ved hjelp av PRAW (trinn for trinn)
PRAW (Python Reddit API Wrapper) er den mest populære og best dokumenterte måten å scrape Reddit med Python på. Den håndterer autentisering, rate limiting og paginering for deg, og er aktivt vedlikeholdt — nyeste stabile versjon er PRAW 7.8.1 (oktober 2024), med støtte for Python 3.8 til 3.13.
Trinn 1: Opprett en Reddit-app og hent API-legitimasjon
Gå til og bla ned til bunnen. Klikk "are you a developer? create an app..."
Fyll ut skjemaet:
- Name: hva som helst beskrivende (f.eks. "my-reddit-scraper")
- App type: velg script
- Redirect URI: skriv inn
http://localhost:8080(påkrevd, men ikke brukt for script-apper) - Description: valgfritt
Klikk Create app. Du vil se legitimasjonen din:
- client_id — den 14 tegn lange strengen rett under appnavnet (merket "personal use script")
- client_secret — feltet merket "secret"
Du må også godta Reddits og før appopprettelsen fullføres.
Et viktig forbehold: Siden slutten av 2024 må nye utviklere kanskje sende inn en tilgangsforespørsel og vente på godkjenning. Dette er den største friksjonen for førstegangsbrukere av PRAW, og det finnes ingen vei utenom.
Trinn 2: Installer PRAW og opprett en Reddit-instans
Åpne terminalen og kjør:
1pip install praw pandas
Deretter oppretter du en skrivebeskyttet Reddit-instans:
1import praw
2reddit = praw.Reddit(
3 client_id="YOUR_CLIENT_ID",
4 client_secret="YOUR_CLIENT_SECRET",
5 user_agent="python:reddit-scraper:v1.0 (by u/yourname)",
6)
7# reddit.read_only er True som standard for script-apper uten passord
Formatet på user_agent er viktig. Reddit struper aktivt generiske strenger som python-requests/2.x. Bruk Reddits anbefalte format: plattform:app_id:versjon (by u/brukernavn).
Trinn 3: Scrape innlegg fra en subreddit
Slik henter du toppinnleggene fra r/python for den siste måneden og lagrer dem i en pandas DataFrame:
1import pandas as pd
2subreddit = reddit.subreddit("python")
3rows = []
4for post in subreddit.top(time_filter="month", limit=500):
5 rows.append({
6 "id": post.id,
7 "title": post.title,
8 "selftext": post.selftext,
9 "score": post.score,
10 "upvote_ratio": post.upvote_ratio,
11 "num_comments": post.num_comments,
12 "author": str(post.author) if post.author else "[deleted]",
13 "created_utc": post.created_utc,
14 "url": post.url,
15 "permalink": f"https://reddit.com{post.permalink}",
16 })
17df = pd.DataFrame(rows)
18print(df.head())
Du kan bytte ut .top() med .hot(), .new() eller .controversial(), og time_filter godtar "all", "day", "hour", "month", "week" eller "year".
En viktig begrensning: Reddit stopper enhver listing ved omtrent 1 000 elementer, uansett hvor høyt du setter limit. Det er en grense på Reddit-siden, ikke i PRAW.
Trinn 4: Eksporter Reddit-data til CSV eller Excel
1df.to_csv("reddit_python_top.csv", index=False)
2df.to_json("reddit_python_top.json", orient="records", lines=True)
PRAW håndterer rate limiting automatisk — den leser X-Ratelimit-Remaining- og X-Ratelimit-Reset-headerne på hvert svar og venter mellom kallene ved behov. For moderat scraping trenger du sjelden å legge inn manuelle forsinkelser.
Slik scraper du Reddit-kommentarer med Python (dype nestede tråder)
Å scrape kommentarer er der de fleste møter veggen.
Reddit lagrer kommentarer som et tre: hver kommentar kan ha underkommentarer, og noen grener er skjult bak «load more comments»-lenker. I PRAWs verden representeres disse skjulte grenene som MoreComments-objekter.
Slik ser det ut mentalt:
1Submission (t3_abc123)
2├── Comment A (top-level)
3│ ├── Reply A1
4│ │ └── Reply A1a
5│ └── Reply A2
6├── Comment B (top-level)
7│ └── MoreComments (hidden — "load more comments")
8└── MoreComments (hidden — "continue this thread")
Bruk replace_more() for å hente alle skjulte kommentarer
Metoden replace_more() går gjennom kommentartreet og erstatter hver MoreComments-plassholder med de faktiske kommentarene den peker til:
1submission = reddit.submission(id="abcdef")
2submission.comments.replace_more(limit=10) # praktisk tak for store tråder
3all_comments = submission.comments.list() # flattet bredde-først
Hvis du setter limit=None, erstattes hver eneste MoreComments-node — men i en tråd med 5 000+ kommentarer kan dette ta flere minutter, fordi hver erstatting er ett API-kall som maksimalt returnerer omtrent 100 kommentarer. For store tråder anbefaler jeg å starte med limit=10 eller limit=20 og bare øke hvis du trenger fullstendighet.
Flat ut nestede kommentarer til en tabell
1rows = []
2for c in all_comments:
3 rows.append({
4 "comment_id": c.id,
5 "parent_id": c.parent_id, # t1_xxx = foreldrenode, t3_xxx = innlegget
6 "depth": c.depth,
7 "author": str(c.author) if c.author else "[deleted]",
8 "body": c.body,
9 "score": c.score,
10 "created_utc": c.created_utc,
11 "is_submitter": c.is_submitter,
12 })
13comments_df = pd.DataFrame(rows)
Kommentarer på øverste nivå har parent_id som starter med t3_ (innleggets fullname). Kolonnen depth viser hvor dypt hver kommentar ligger i tråden — nyttig for filtrering eller visualisering. En fallgruve: len(all_comments) vil vanligvis ikke matche submission.num_comments, fordi slettede, fjernede og spamfiltrerte kommentarer ikke tas med i treet.
Metode 2: .json-endepunktet — scrape Reddit uten API-nøkkel
Legg til .json i hvilken som helst Reddit-URL. Det er alt. Du får strukturert JSON tilbake — ingen autentisering, ingen appregistrering, ingen pip install.
Eksempel: https://www.reddit.com/r/python/hot.json
Folk i forum nevner dette trikset hele tiden, men nesten ingen guider dekker det.
Et fungerende Python-eksempel
1import requests
2headers = {"User-Agent": "python:reddit-scraper:v1.0 (by /u/yourname)"}
3r = requests.get(
4 "https://www.reddit.com/r/python/hot.json",
5 headers=headers,
6 params={"limit": 100},
7)
8data = r.json()
9for post in data["data"]["children"]:
10 p = post["data"]
11 print(p["title"], p["score"], p["num_comments"], p["author"])
User-Agent-headeren er kritisk. Reddit blokkerer eller struper generiske user agents som python-requests/2.31.0 — som , «this rate limiting is based on user-agent». Bruk samme beskrivende format som i PRAW.
Slik håndterer du paginering med after-parameteren
.json-endepunktet returnerer som standard rundt 25 resultater (maks 100 per forespørsel). For å hente flere, bruk after-cursoren fra responsen:
1import requests, time
2headers = {"User-Agent": "python:reddit-scraper:v1.0 (by /u/yourname)"}
3after = None
4all_posts = []
5for _ in range(10): # opptil ca. 1000 innlegg
6 r = requests.get(
7 "https://www.reddit.com/r/python/hot.json",
8 headers=headers,
9 params={"limit": 100, "after": after},
10 )
11 data = r.json()
12 all_posts.extend(data["data"]["children"])
13 after = data["data"].get("after")
14 if not after:
15 break
16 time.sleep(6) # ~10 forespørsler/min = én forespørsel hvert 6. sekund
Verdien i after er en cursor-token (format: t3_xxxxxx). Akkurat som i PRAW er den harde grensen omtrent 1 000 elementer totalt på tvers av paginerte forespørsler.
Begrensninger ved .json-metoden
- Ingen tilgang til dype kommentartre — du får toppkommentarer pluss ett nivå med «more»-stubber, men ingen automatisk utvidelse som med PRAWs
replace_more() - Skrivebeskyttet — ingen stemming, posting eller moderering
- ~10 forespørsler per minutt for uautentisert trafikk — aggressive løkker gir 429-feil
- Samme grense på 1 000 elementer som den autentiserte API-en
Denne metoden er best for raske engangshentinger, prototyping eller situasjoner der du ikke vil registrere en API-app.
Metode 3: Slik scraper du Reddit med BeautifulSoup (HTML-parsing)
Hvis du har gjort noe webscraping før, kjenner du sannsynligvis til BeautifulSoup. Det viktigste poenget for Reddit er å bruke old.reddit.com i stedet for den nye React-baserte frontenden. Det gamle grensesnittet rendres på serveren, er lettere og mye enklere å parse — bekrefter at det fortsatt er oppe og scraper-vennlig.
Sett opp requests og BeautifulSoup
1pip install requests beautifulsoup4
1import requests
2from bs4 import BeautifulSoup
3headers = {"User-Agent": "python:reddit-scraper:v1.0 (by /u/yourname)"}
4r = requests.get("https://old.reddit.com/r/python/", headers=headers)
5soup = BeautifulSoup(r.text, "html.parser")
Hent ut innleggsdata fra DOM-en
På old.reddit.com ligger hvert innlegg inne i en <div> med klassen thing. De mest stabile velgerne er data-*-attributtene:
1for thing in soup.select("div#siteTable > div.thing"):
2 title_el = thing.select_one("a.title")
3 print({
4 "title": title_el.get_text(strip=True) if title_el else None,
5 "author": thing.get("data-author"),
6 "score": thing.get("data-score"),
7 "comments": thing.get("data-comments-count"),
8 "domain": thing.get("data-domain"),
9 "url": title_el.get("href") if title_el else None,
10 })
Foretrekk data-*-attributtene framfor nestede klasseselektorer — Reddit har justert klassenavnene flere ganger, men data-attributtene styres av malen og endrer seg sjelden.
Håndtere paginering på old.reddit.com
1import time
2url = "https://old.reddit.com/r/python/"
3all_rows = []
4while url:
5 r = requests.get(url, headers=headers)
6 soup = BeautifulSoup(r.text, "html.parser")
7 for thing in soup.select("div#siteTable > div.thing"):
8 title_el = thing.select_one("a.title")
9 all_rows.append({
10 "title": title_el.get_text(strip=True) if title_el else None,
11 "author": thing.get("data-author"),
12 "score": thing.get("data-score"),
13 "comments": thing.get("data-comments-count"),
14 "url": title_el.get("href") if title_el else None,
15 })
16 nxt = soup.select_one("span.next-button a")
17 url = nxt["href"] if nxt else None
18 time.sleep(2) # høflig pause
Når bør du bruke BeautifulSoup i stedet for PRAW?
BeautifulSoup passer godt når du vil lære DOM-scraping, ikke vil registrere en OAuth-app, eller trenger egendefinerte felt PRAW ikke eksponerer. Men det er mer skjørt — HTML-strukturen kan endre seg uten forvarsel, IP-blokkering er mer aggressiv i 2025 enn før, og du må skrive all kode for paginering og feilhåndtering selv. For stabilitet og dybde vinner PRAW.
Metode 4: Slik scraper du Reddit uten kode med Thunderbit
En liten innrømmelse: Mange som søker etter «how to scrape Reddit with Python» vil egentlig ikke skrive Python. De vil ha dataene. Hvis det er deg, er denne delen en snarvei.
er en AI-drevet Chrome-utvidelse teamet vårt har laget nettopp for denne typen bruk — å hente strukturert data fra nettsider uten å skrive kode.
Trinn 1: Installer Thunderbit og åpne en Reddit-side
Installer , og gå deretter til en hvilken som helst subreddit- eller innleggsside på Reddit (for eksempel reddit.com/r/python).
Ingen API-nøkkel, ingen Python-miljø, ingen terminalkommandoer.
Trinn 2: Klikk «AI Suggest Fields» og la AI lese siden
Klikk Thunderbit-ikonet i nettleserens verktøylinje, og trykk deretter "AI Suggest Fields." Thunderbits AI skanner siden og foreslår automatisk kolonner som Post Title, User Name, Upvotes, Comments Count, Date Posted, Post Description, Community Name og Post URL.
Du kan legge til, fjerne eller gi kolonnene nye navn etter behov. Hvis du for eksempel bare bryr deg om innleggstitler og score, sletter du bare de andre feltene.
Trinn 3: Klikk «Scrape» og eksporter dataene dine
Trykk "Scrape", så henter Thunderbit ut dataene og håndterer paginering automatisk. Når tabellen er fylt ut, kan du eksportere direkte til Excel, Google Sheets, Airtable eller Notion — uten CSV-kode.
For dypere data lar Thunderbits subpage scraping deg åpne individuelle tråder og berike tabellen med kommentar-data automatisk. Dette ligner konseptuelt på PRAWs replace_more() — bare uten å skrive én eneste kodelinje.
Ekstra: Planlagt scraping for løpende Reddit-overvåking
Hvis du trenger å følge en subreddit daglig — for eksempel overvåke merkenavn i r/SaaS eller konkurrentdiskusjoner i et nisjefellesskap — håndterer Thunderbits planlagte scraper gjentatte kjøringer. Du beskriver intervallet med vanlig språk (for eksempel «hver ukedag kl. 09:00»), og verktøyet gjør resten og leverer ferske data til det tilkoblede regnearket eller databasen din.
Du kan lære mer om Thunderbits Reddit-scraping på .
Tips og beste praksis for å scrape Reddit med Python
Jeg har lært de fleste av disse på den harde måten — de gjelder uansett hvilken metode du valgte over.
Respekter Reddits bruksvilkår og rate limits
Reddits forbyr uttrykkelig kommersiell scraping uten skriftlig godkjenning — og det gjelder alle tilgangsmetoder, ikke bare API-et. For personlig, akademisk og intern forskningsbruk ligger gratis OAuth-nivået og Thunderbits arbeidsflyter innenfor rimelig bruk.
Kjappe regler for rate limits:
| Scenario | Grense | Hva skjer |
|---|---|---|
| Autentisert (OAuth) | 60–100 forespørsler/min | PRAW håndterer dette automatisk |
| Uautentisert (.json, HTML) | ~10–30 forespørsler/min | 429 Too Many Requests |
| Generisk User-Agent | Kraftig strupet | 403 Forbidden eller stille blokkeringer |
Sett alltid en beskrivende User-Agent-streng. Dette er den vanligste årsaken til at førstegangs-scrapere får 429- eller 403-feil.
Lagre og strukturer dataene ryddig
- Bruk pandas DataFrames med eksplisitt kolonnerekkefølge for forutsigbar CSV/Excel-eksport
- Gjør
created_utcom til lesbare tidsstempler:pd.to_datetime(df["created_utc"], unit="s") - Fjern duplikater på
idnår du scraper på tvers av flere sorteringer (hot, new og top overlapper ofte) - Håndter slettede forfattere:
str(post.author) if post.author else "[deleted]"
Håndter vanlige feil på en ryddig måte
| Feil | Årsak | Fiks |
|---|---|---|
| 429 Too Many Requests | Du overskrider rate limit (60–100 forespørsler/min for OAuth) | Bruk eksponentiell backoff; sjekk X-Ratelimit-Reset-headeren |
| 403 Forbidden | Dårlig User-Agent eller blokkert IP | Bruk en unik, beskrivende UA-streng; sørg for at OAuth-appen er aktiv |
None author | Slettet eller suspendert konto | Pakk inn med if post.author else "[deleted]" |
prawcore.TooManyRequests | PRAWs rate-limit-buffer ble utløst | Øk ratelimit_seconds eller fordel forespørslene jevnere |
| 5xx eller 413 på store trær | Overbelastning i Reddits backend på dype tråder | Legg replace_more() inn i retry-logikk; begrens rekursjonsdybde |
Bruksområder for Reddit-scraping: Hva kan du gjøre med dataene?
Scraping er første steg. Her er det som faktisk gir effekt:
- Salgsteam: Følg subreddits som r/SaaS, r/smallbusiness eller r/Entrepreneur for innlegg som sier «leter etter et verktøy som gjør X». Send treff videre til lead-lister eller CRM-arbeidsflyter. Bruk Thunderbits planlagte scraper for daglig overvåking.
- Markedsføring og innhold: Følg med på merkenavn, analyser sentimenttrender og hent ut populære spørsmål til innholdsideer. Kombiner Reddit-eksport med Google Sheets for samarbeid i teamet.
- E-handel og drift: Overvåk diskusjoner om konkurrentprodukter for gjentakende klager. Subreddits som r/BuyItForLife og bransjespesifikke communities er gullgruver for produktinnsikt.
- Forskere og analytikere: Bygg NLP-datasett — akademiske artikler i 2024 brukte datasett på til for sentiment- og følelsesklassifisering. PRAWs korpussamling er siterbar i fagfellevurderte arbeider.
Hvis du vil gå dypere på hvordan du eller , har vi dekket disse arbeidsflytene grundig på Thunderbit-bloggen.
Avslutning
Reddit-scraping i 2025 ligner ikke på det det gjorde for to år siden. API-endringene i 2023 tok livet av Pushshift, stengte populære tredjepartsapper og innførte betalte nivåer.
Men gratisnivået lever fortsatt for personlig og akademisk bruk, og det finnes flere måter å hente dataene på enn noen gang.
Her er én-linje-oppsummeringen for hver metode:

Enten du er Python-veteran eller en regneark-person som vil være ferdig før lunsj — én av disse fire metodene vil få deg i mål. Hvis du heller vil hoppe over koding helt, kan du og se hvordan den håndterer Reddit med et par klikk. Og hvis du vil fortsette å skjerpe Python-ferdighetene dine innen scraping, legg denne guiden i bokmerkene — jeg oppdaterer den etter hvert som Reddit-landskapet fortsetter å endre seg.
For mer om webscraping, se våre guider om , og .
Ofte stilte spørsmål
Er det lovlig å scrape Reddit med Python?
Reddits forbyr kommersiell scraping uten skriftlig godkjenning. Det gratis OAuth-nivået er tilgjengelig for personlig, ikke-kommersiell og akademisk bruk. Den juridiske rammen er uavhengig av metode — den gjelder enten du bruker API-et, .json-endepunktet eller HTML-scraping. Sjekk alltid Reddits gjeldende vilkår før du scraper i stor skala.
Fungerer PRAW fortsatt etter Reddits API-endringer i 2023?
Ja. PRAW 7.8.1 (oktober 2024) er aktivt vedlikeholdt og fungerer automatisk innenfor . Prisendringene i 2023 påvirket hovedsakelig bruk med høy trafikk og kommersiell API-bruk, ikke vanlige PRAW-scrapingmønstre.
Kan jeg scrape Reddit uten API-nøkkel?
Ja — både .json-endepunktet og HTML-parsing med BeautifulSoup fungerer uten API-nøkler. krever heller ingen API-nøkkel. Alle tre metodene er likevel bundet av Reddits vilkår for kommersiell bruk.
Hvordan scraper jeg kommentarer på Reddit, ikke bare innlegg?
Med PRAW bruker du submission.comments.replace_more(limit=10) etterfulgt av submission.comments.list() for å flate ut det nestede kommentartreet til en liste. Med Thunderbit bruker du subpage scraping for automatisk å berike en innleggsliste med kommentar-data fra hver tråd.
Hva er den raskeste måten å scrape Reddit uten koding?
lar deg scrape Reddit-innlegg og kommentarer i to klikk og eksportere direkte til Excel, Google Sheets, Airtable eller Notion — uten Python, uten API-nøkkel, uten oppsett.
Les mer