Cómo extraer Reddit con Python: 4 métodos que sí funcionan hoy

Google paga 60 millones de dólares al año por licenciar datos de Reddit. Según informes, el acuerdo de OpenAI ronda los 70 millones. Eso ya te da una idea de lo que hay escondido en esos hilos de comentarios. Si alguna vez has intentado recopilar manualmente hilos de discusión, comentarios o datos de sentimiento de Reddit, ya conoces la frustración: desplazamiento infinito, copiar y pegar sin parar y demasiadas pestañas abiertas.

Pasé buena parte del último trimestre ayudando a nuestro equipo en Thunderbit a investigar cómo se extraen de verdad los datos de Reddit en 2025. El panorama cambió muchísimo desde la subida de precios de la API de Reddit en 2023, y la mayoría de las guías en internet están desactualizadas o solo cubren un método. Así que reuní todo lo que realmente funciona ahora —cuatro enfoques distintos, desde programación completa en Python hasta extracción sin código— para que puedas elegir el que mejor encaje con tu nivel y tu caso de uso. Tanto si vas a crear un dataset para NLP, como si quieres vigilar un subreddit en busca de menciones de marca o simplemente necesitas una hoja de cálculo con publicaciones en tendencia, esta guía te cubre.

¿Qué es la extracción de datos de Reddit y por qué importa?

La extracción de datos de Reddit consiste en obtener de forma programática publicaciones, comentarios, datos de usuarios y metadatos de las páginas o de la API de Reddit. En lugar de navegar hilos manualmente y copiar texto, utilizas un script o una herramienta para recopilar datos estructurados a gran escala.

¿Por qué hacerlo? Reddit alberga más de y genera una media estimada de . Es el lugar donde la gente comparte opiniones sin filtros sobre productos, servicios, competidores y tendencias, ese tipo de señal auténtica que es casi imposible encontrar en webs de reseñas pulidas o blogs corporativos. Google paga aproximadamente por una licencia de contenido de Reddit, y el acuerdo de OpenAI se sitúa supuestamente en . Si las mayores empresas de IA del mundo están pagando cifras de nueve dígitos por estos datos, merece la pena aprender a acceder a ellos por tu cuenta.

¿Por qué extraer Reddit con Python en 2025?

Python es el lenguaje por defecto para extraer datos de Reddit: PRAW, requests, BeautifulSoup y pandas cubren todo el proceso, desde llamadas a la API hasta la exportación de datos. Pero el motivo va más allá de las herramientas.

Estos son los usos más habituales que veo en equipos de negocio e investigación:

Caso de uso	Quién se beneficia	Ejemplo
Investigación y validación de mercado	Product managers, fundadores	Analizar r/SaaS o r/Entrepreneur para detectar puntos de dolor repetidos
Análisis de sentimiento	Equipos de marketing y marca	Seguir cómo habla la gente de tu producto frente a la competencia
Generación de leads	Equipos de ventas	Encontrar publicaciones tipo "busco una herramienta que haga X" en subreddits nicho
Ideas de contenido	Equipos de content marketing	Detectar preguntas y temas en tendencia en r/marketing o r/SEO
Investigación académica / NLP	Investigadores, data scientists	Crear datasets etiquetados a partir de hilos de comentarios para clasificar emociones
Inteligencia competitiva	Estrategia, operaciones	Vigilar subreddits de competidores en busca de quejas recurrentes

La base de usuarios de Reddit alcanzó una cifra estimada de , con , un 24% más interanual. Y, tras la actualización principal de Google de agosto de 2024, el contenido de Reddit pasó a ser aproximadamente en los resultados orgánicos.

En otras palabras: los datos que extraes de Reddit son cada vez más los mismos que Google muestra a los usuarios en sus búsquedas.

¿Qué método deberías usar para extraer Reddit? (Comparativa rápida)

La pregunta más común en los foros de scraping de Reddit es literalmente: "¿Qué método debería usar?" Así que preparé esta tabla. Elige tu fila y listo.

Criterio	PRAW	Endpoint .json	BeautifulSoup (HTML)	Sin código (Thunderbit)
Complejidad de configuración	Media (app de API + instalación con pip)	Ninguna (solo una URL)	Media (pip + inspección del DOM)	Muy baja (extensión de Chrome)
¿Requiere clave de API?	Sí	No	No	No
Extracción de comentarios	Profunda (árboles anidados)	Limitada (nivel superior)	Análisis manual	Estructurada por IA
Paginación	Integrada	Manual (parámetro `after`)	Manual	Automática
Limitación de tasa	100 req/min (gestionado por PRAW)	~10 req/min (sin autenticación)	Riesgo de bloqueo de IP	Gestionado por la herramienta
Ideal para	Proyectos completos, investigación	Extracciones rápidas puntuales	Aprendizaje/personalización	No programadores, exportaciones rápidas
Opciones de exportación	CSV, JSON (con código manual)	JSON (sin procesar)	Personalizada (con código manual)	Excel, Google Sheets, Airtable, Notion

Si quieres proyectos completos en Python con extracción profunda de comentarios, empieza por el Método 1 (PRAW). ¿Necesitas sacar datos rápido en los próximos 10 minutos sin configurar nada? Prueba el Método 2 (el truco del .json). ¿Quieres aprender a extraer HTML o necesitas campos personalizados? Ve al Método 3 (BeautifulSoup). Y si prefieres saltarte Python por completo y simplemente obtener los datos, ve al Método 4 ().

Qué cambió: actualización de precios de la API de Reddit en 2023–2024 (y qué sigue siendo gratis)

Casi ninguna guía de scraping habla de esto, y es el contexto más importante para cualquiera que extraiga datos de Reddit hoy.

En junio de 2023, Reddit introdujo por primera vez desde 2008 planes de pago para acceder a su API. El impacto fue enorme:

Pushshift dejó de estar disponible para el uso público. Reddit revocó el acceso a la API de Pushshift en mayo de 2023. Los investigadores que dependían de ella —citada en más de — perdieron su fuente principal de datos de la noche a la mañana. El sucesor para datos históricos es , pero no existe una alternativa pública de API en vivo.
Las apps de terceros se cerraron. Apollo, Reddit is Fun, Sync, BaconReader y otras cerraron antes del 30 de junio de 2023, después de que Reddit pidiera al desarrollador de Apollo en tarifas de API.
Más de 8.500 subreddits se apagaron en protesta, incluidos r/funny (40M de suscriptores), r/gaming y r/science ().

Qué sigue siendo gratis en 2025:

El sigue disponible para uso no comercial, personal y académico: 100 consultas por minuto por cada client ID de OAuth. PRAW funciona perfectamente dentro de este nivel para extracciones moderadas. El acceso sin autenticación (incluido el endpoint .json) está limitado a unas 10 solicitudes por minuto.

Conclusión práctica: para tareas de scraping pequeñas o medianas, el nivel gratuito es más que suficiente. Para usos a gran escala o comerciales, tendrás que contactar con Reddit para obtener acceso empresarial, usar el endpoint .json o BeautifulSoup (que no requieren claves de API) o utilizar una herramienta como Thunderbit, que no depende en absoluto de la API de Reddit.

Antes de empezar

Dificultad: de principiante a intermedio (según el método)
Tiempo necesario: entre 15 y 30 minutos para los métodos 1–3; unos 5 minutos para el método 4
Lo que necesitarás:
- Python 3.8+ instalado (para los métodos 1–3)
- Una cuenta de Reddit (para el método 1)
- Navegador Chrome (para el método 4)
- (para el método 4)

Método 1: cómo extraer Reddit con Python usando PRAW (paso a paso)

PRAW (Python Reddit API Wrapper) es la forma más popular y mejor documentada de extraer Reddit con Python. Se encarga por ti de la autenticación, la limitación de tasa y la paginación, y además sigue manteniéndose activamente: la última versión estable es PRAW 7.8.1 (octubre de 2024), compatible con Python 3.8 a 3.13.

Paso 1: crea una app de Reddit y consigue tus credenciales de API

Ve a y baja hasta el final. Haz clic en "are you a developer? create an app..."

Rellena el formulario:

Name: cualquier nombre descriptivo (por ejemplo, "my-reddit-scraper")
App type: selecciona script
Redirect URI: introduce http://localhost:8080 (es obligatorio, pero no se usa en apps tipo script)
Description: opcional

Haz clic en Create app. Verás tus credenciales:

client_id — la cadena de 14 caracteres justo debajo del nombre de la app (etiquetada como "personal use script")
client_secret — el campo etiquetado como "secret"

También tendrás que aceptar los de Reddit y la antes de completar la creación de la app.

Un aviso: desde finales de 2024, es posible que los nuevos desarrolladores deban enviar una solicitud de acceso y esperar aprobación. Este es el principal obstáculo para quienes usan PRAW por primera vez, y no hay forma de evitarlo.

Paso 2: instala PRAW y crea una instancia de Reddit

Abre tu terminal y ejecuta:

1pip install praw pandas

Después, crea una instancia de Reddit de solo lectura:

1import praw
2reddit = praw.Reddit(
3    client_id="YOUR_CLIENT_ID",
4    client_secret="YOUR_CLIENT_SECRET",
5    user_agent="python:reddit-scraper:v1.0 (by u/yourname)",
6)
7# reddit.read_only es True por defecto en apps tipo script sin contraseña

El formato de user_agent importa. Reddit limita activamente cadenas genéricas como python-requests/2.x. Usa el formato recomendado por Reddit: plataforma:id_app:versión (by u/usuario).

Paso 3: extrae publicaciones de un subreddit

Así puedes obtener las publicaciones más populares de r/python del último mes y guardarlas en un DataFrame de pandas:

1import pandas as pd
2subreddit = reddit.subreddit("python")
3rows = []
4for post in subreddit.top(time_filter="month", limit=500):
5    rows.append({
6        "id": post.id,
7        "title": post.title,
8        "selftext": post.selftext,
9        "score": post.score,
10        "upvote_ratio": post.upvote_ratio,
11        "num_comments": post.num_comments,
12        "author": str(post.author) if post.author else "[deleted]",
13        "created_utc": post.created_utc,
14        "url": post.url,
15        "permalink": f"https://reddit.com\{post.permalink\}",
16    })
17df = pd.DataFrame(rows)
18print(df.head())

Puedes cambiar .top() por .hot(), .new() o .controversial(), y time_filter admite "all", "day", "hour", "month", "week" o "year".

Aviso importante: Reddit limita cualquier listado a unas 1.000 entradas, sin importar lo alto que pongas limit. Ese tope lo impone Reddit, no PRAW.

Paso 4: exporta los datos de Reddit a CSV o Excel

1df.to_csv("reddit_python_top.csv", index=False)
2df.to_json("reddit_python_top.json", orient="records", lines=True)

PRAW gestiona la limitación de tasa automáticamente: lee los encabezados X-Ratelimit-Remaining y X-Ratelimit-Reset en cada respuesta y pausa entre llamadas cuando hace falta. Para scraping moderado, rara vez tendrás que añadir pausas manuales.

Cómo extraer comentarios de Reddit con Python (hilos anidados profundos)

Extraer comentarios es donde la mayoría se atasca.

Reddit guarda los comentarios como un árbol: cada comentario puede tener respuestas hijas, y algunas ramas quedan colapsadas detrás de enlaces tipo "load more comments". En el mundo de PRAW, esas ramas ocultas se representan como objetos MoreComments.

Este es el modelo mental:

1Submission (t3_abc123)
2├── Comment A (top-level)
3│   ├── Reply A1
4│   │   └── Reply A1a
5│   └── Reply A2
6├── Comment B (top-level)
7│   └── MoreComments (hidden — "load more comments")
8└── MoreComments (hidden — "continue this thread")

Usar `replace_more()` para obtener todos los comentarios ocultos

El método replace_more() recorre el árbol de comentarios y sustituye cada marcador MoreComments por los comentarios reales a los que apunta:

1submission = reddit.submission(id="abcdef")
2submission.comments.replace_more(limit=10)  # límite práctico para hilos grandes
3all_comments = submission.comments.list()   # aplanado en orden amplio

Si limit=None, se sustituye cada nodo MoreComments —pero en un hilo con más de 5.000 comentarios esto puede tardar varios minutos, porque cada sustitución es una petición a la API que devuelve como mucho unos 100 comentarios. Para hilos grandes, recomiendo empezar con limit=10 o limit=20 e ir subiendo solo si necesitas máxima completitud.

Convertir comentarios anidados en una tabla

1rows = []
2for c in all_comments:
3    rows.append({
4        "comment_id": c.id,
5        "parent_id": c.parent_id,   # t1_xxx = comentario padre, t3_xxx = submission
6        "depth": c.depth,
7        "author": str(c.author) if c.author else "[deleted]",
8        "body": c.body,
9        "score": c.score,
10        "created_utc": c.created_utc,
11        "is_submitter": c.is_submitter,
12    })
13comments_df = pd.DataFrame(rows)

Los comentarios de nivel superior tienen parent_id que empieza por t3_ (el fullname de la publicación). La columna depth indica cuán anidado está cada comentario, algo útil para filtrar o visualizar. Un detalle importante: len(all_comments) normalmente no coincidirá con submission.num_comments porque los comentarios borrados, eliminados y filtrados por spam no se incluyen en el árbol.

Método 2: el truco del endpoint .json — extraer Reddit sin clave de API

Añade .json a cualquier URL de Reddit. Eso es todo. Obtendrás JSON estructurado, sin autenticación, sin registrar una app y sin instalar pip.

Ejemplo: https://www.reddit.com/r/python/hot.json

La gente en foros menciona este truco constantemente, pero casi ningún tutorial lo explica.

Un fragmento de código Python que funciona

1import requests
2headers = {"User-Agent": "python:reddit-scraper:v1.0 (by /u/yourname)"}
3r = requests.get(
4    "https://www.reddit.com/r/python/hot.json",
5    headers=headers,
6    params={"limit": 100},
7)
8data = r.json()
9for post in data["data"]["children"]:
10    p = post["data"]
11    print(p["title"], p["score"], p["num_comments"], p["author"])

El encabezado User-Agent es clave. Reddit bloquea o limita cadenas genéricas como python-requests/2.31.0; como documentó , "esta limitación de tasa se basa en el user-agent". Usa el mismo formato descriptivo que en PRAW.

Cómo manejar la paginación con el parámetro `after`

El endpoint .json devuelve unas 25 entradas por defecto (máximo 100 por solicitud). Para obtener más, usa el cursor after de la respuesta:

1import requests, time
2headers = {"User-Agent": "python:reddit-scraper:v1.0 (by /u/yourname)"}
3after = None
4all_posts = []
5for _ in range(10):  # hasta ~1000 publicaciones
6    r = requests.get(
7        "https://www.reddit.com/r/python/hot.json",
8        headers=headers,
9        params={"limit": 100, "after": after},
10    )
11    data = r.json()
12    all_posts.extend(data["data"]["children"])
13    after = data["data"].get("after")
14    if not after:
15        break
16    time.sleep(6)  # ~10 solicitudes por minuto = una cada 6 segundos

El valor after es un token cursor (formato: t3_xxxxxx). Igual que con PRAW, el límite duro es de unas 1.000 entradas totales en solicitudes paginadas.

Limitaciones del método .json

No hay acceso profundo al árbol de comentarios: obtienes comentarios de primer nivel y un nivel de marcadores "more", pero no expansión automática como con replace_more() de PRAW
Solo lectura: no permite votar, publicar ni moderar
Unas 10 solicitudes por minuto para tráfico no autenticado: los bucles agresivos provocan errores 429
El mismo tope de 1.000 elementos que la API autenticada

Este método es ideal para capturas rápidas puntuales, prototipos o situaciones en las que no quieres registrar una app de API.

Método 3: cómo extraer Reddit con BeautifulSoup (análisis HTML)

Si has hecho scraping web antes, seguramente conoces BeautifulSoup. La idea clave para Reddit es usar old.reddit.com en lugar de la nueva interfaz basada en React. La interfaz antigua se renderiza en el servidor, es más ligera y mucho más fácil de analizar; varias confirman que sigue activa y es amigable para scraping.

Configurar requests y BeautifulSoup

1pip install requests beautifulsoup4

1import requests
2from bs4 import BeautifulSoup
3headers = {"User-Agent": "python:reddit-scraper:v1.0 (by /u/yourname)"}
4r = requests.get("https://old.reddit.com/r/python/", headers=headers)
5soup = BeautifulSoup(r.text, "html.parser")

Extraer datos de publicaciones desde el DOM

En old.reddit.com, cada publicación vive dentro de un <div> con la clase thing. Los selectores más estables son los atributos data-*:

1for thing in soup.select("div#siteTable > div.thing"):
2    title_el = thing.select_one("a.title")
3    print({
4        "title":    title_el.get_text(strip=True) if title_el else None,
5        "author":   thing.get("data-author"),
6        "score":    thing.get("data-score"),
7        "comments": thing.get("data-comments-count"),
8        "domain":   thing.get("data-domain"),
9        "url":      title_el.get("href") if title_el else None,
10    })

Es mejor usar los atributos data-* que selectores de clases anidadas: Reddit ha cambiado los nombres de las clases a lo largo de los años, pero los atributos de datos dependen de la plantilla y rara vez cambian.

Cómo manejar la paginación en old.reddit.com

1import time
2url = "https://old.reddit.com/r/python/"
3all_rows = []
4while url:
5    r = requests.get(url, headers=headers)
6    soup = BeautifulSoup(r.text, "html.parser")
7    for thing in soup.select("div#siteTable > div.thing"):
8        title_el = thing.select_one("a.title")
9        all_rows.append({
10            "title":    title_el.get_text(strip=True) if title_el else None,
11            "author":   thing.get("data-author"),
12            "score":    thing.get("data-score"),
13            "comments": thing.get("data-comments-count"),
14            "url":      title_el.get("href") if title_el else None,
15        })
16    nxt = soup.select_one("span.next-button a")
17    url = nxt["href"] if nxt else None
18    time.sleep(2)  # pausa de cortesía

Cuándo usar BeautifulSoup frente a PRAW

BeautifulSoup encaja bien cuando quieres aprender a extraer del DOM, no quieres registrar una app OAuth o necesitas campos personalizados que PRAW no expone. Pero es más frágil: la estructura HTML puede cambiar sin aviso, el bloqueo de IP es más agresivo en 2025 que antes, y además tienes que escribir tú mismo toda la paginación y la gestión de errores. En fiabilidad y profundidad, gana PRAW.

Método 4: cómo extraer Reddit sin código usando Thunderbit

Una confesión: mucha gente que busca "cómo extraer Reddit con Python" en realidad no quiere escribir Python. Lo que quiere son los datos. Si ese es tu caso, esta sección es tu salida rápida.

es una extensión de Chrome impulsada por IA que nuestro equipo creó específicamente para este tipo de casos: extraer datos estructurados de páginas web sin escribir código.

Paso 1: instala Thunderbit y abre una página de Reddit

Instala la y luego navega a cualquier subreddit o página de publicación de Reddit (por ejemplo, reddit.com/r/python).

Sin clave de API, sin entorno Python, sin comandos de terminal.

Paso 2: haz clic en "AI Suggest Fields" y deja que la IA lea la página

Haz clic en el icono de Thunderbit en la barra del navegador y pulsa "AI Suggest Fields." La IA de Thunderbit analiza la página y sugiere automáticamente columnas como título de la publicación, nombre de usuario, votos positivos, número de comentarios, fecha de publicación, descripción de la publicación, nombre de la comunidad y URL de la publicación.

Puedes añadir, quitar o renombrar columnas según necesites. Por ejemplo, si solo te interesan los títulos y las puntuaciones, simplemente elimina los demás campos.

Paso 3: haz clic en "Scrape" y exporta tus datos

Pulsa "Scrape" y Thunderbit extraerá los datos, gestionando la paginación automáticamente. Cuando la tabla esté lista, exporta directamente a Excel, Google Sheets, Airtable o Notion, sin escribir código CSV.

Para datos más profundos, el scraping de subpáginas de Thunderbit te permite abrir hilos individuales y enriquecer automáticamente tu tabla con datos de comentarios. Conceptualmente es parecido a replace_more() de PRAW, pero sin escribir ni una sola línea de código.

Extra: scraping programado para monitorización continua de Reddit

Si necesitas seguir un subreddit a diario —por ejemplo, monitorizar menciones de marca en r/SaaS o conversaciones de competidores en una comunidad nicho—, el scraper programado de Thunderbit se encarga de las ejecuciones recurrentes. Tú describes el intervalo en lenguaje natural (por ejemplo, "todos los días laborables a las 9:00") y la herramienta hace el resto, entregando datos nuevos a tu hoja de cálculo o base de datos conectada.

Puedes aprender más sobre las capacidades de Thunderbit para extraer datos de Reddit en el .

Consejos y buenas prácticas para extraer Reddit con Python

La mayoría de estas lecciones las aprendí por las malas, y aplican sin importar qué método hayas elegido arriba.

Respeta los términos de servicio y los límites de tasa de Reddit

Los de Reddit prohíben explícitamente el scraping comercial sin aprobación por escrito, y eso aplica a todos los métodos de acceso, no solo a la API. Para uso personal, académico y de investigación interna, el nivel gratuito de OAuth y los flujos de Thunderbit están dentro de límites razonables.

Resumen rápido de límites de tasa:

Escenario	Límite	Qué ocurre
Autenticado (OAuth)	60–100 req/min	PRAW lo gestiona automáticamente
Sin autenticación (.json, HTML)	~10–30 req/min	Error 429 Too Many Requests
User-Agent genérico	Muy limitado	Error 403 Forbidden o bloqueo silencioso

Configura siempre una cadena User-Agent descriptiva. Esta es la causa más común de que quienes empiezan se topen con errores 429 o 403.

Guarda y estructura bien tus datos

Usa DataFrames de pandas con un orden de columnas explícito para exportaciones previsibles a CSV o Excel
Convierte created_utc a marcas de tiempo legibles: pd.to_datetime(df["created_utc"], unit="s")
Elimina duplicados por id cuando extraigas desde varias ordenaciones (hot, new y top suelen solaparse)
Gestiona autores borrados: str(post.author) if post.author else "[deleted]"

Maneja con elegancia los errores más comunes

Error	Causa	Solución
429 Too Many Requests	Superar el límite de tasa (60-100 req/min para OAuth)	Implementa retroceso exponencial; revisa el encabezado `X-Ratelimit-Reset`
403 Forbidden	User-Agent incorrecto o IP bloqueada	Usa una cadena UA única y descriptiva; asegúrate de que la app OAuth esté activa
autor `None`	Cuenta borrada o suspendida	Usa `if post.author else "[deleted]"`
`prawcore.TooManyRequests`	Se activó el buffer de límite de tasa de PRAW	Aumenta `ratelimit_seconds` o distribuye mejor las solicitudes
5xx o 413 en árboles grandes	Sobrecarga del backend de Reddit en hilos profundos	Envuelve `replace_more()` en lógica de reintento; limita la profundidad de recursión

Casos de uso de scraping de Reddit: ¿qué puedes hacer con los datos?

El scraping es solo el primer paso. Esto es lo que realmente marca la diferencia:

Equipos de ventas: vigilan subreddits como r/SaaS, r/smallbusiness o r/Entrepreneur en busca de publicaciones del tipo "busco una herramienta que haga X". Luego envían las coincidencias a listas de leads o flujos de trabajo del CRM. Usa el scraper programado de Thunderbit para monitorización diaria.
Equipos de marketing y contenido: siguen menciones de marca, analizan tendencias de sentimiento y extraen preguntas en tendencia para ideas de contenido. Combina las exportaciones de Reddit con Google Sheets para colaborar en equipo.
Ecommerce y operaciones: monitorean conversaciones sobre productos de la competencia para detectar quejas recurrentes. Subreddits como r/BuyItForLife y comunidades verticales son minas de oro para obtener feedback de producto.
Investigadores y analistas: crean datasets para NLP; artículos académicos de 2024 usaron datasets de a para clasificar sentimiento y emociones. La recopilación de corpus con PRAW puede citarse en revisiones por pares.

Si quieres profundizar en cómo o , hemos cubierto esos flujos de trabajo en detalle en el blog de Thunderbit.

Conclusión

Extraer datos de Reddit en 2025 no se parece en nada a lo que era hace dos años. Los cambios de la API en 2023 acabaron con Pushshift, cerraron apps de terceros muy queridas e introdujeron planes de pago.

Pero el nivel gratuito sigue vivo y funciona bien para uso personal y académico, y hoy hay más formas que nunca de obtener los datos.

Aquí tienes el resumen en una línea de cada método:

Tanto si eres un veterano de Python como si prefieres tener una hoja de cálculo antes de la hora de comer, uno de estos cuatro métodos te llevará hasta allí. Si prefieres saltarte el código por completo, puedes y ver cómo gestiona Reddit en un par de clics. Y si quieres seguir mejorando tus habilidades de scraping en Python, guarda esta guía en favoritos: la mantendré actualizada a medida que evolucione el panorama de Reddit.

Para más información sobre enfoques de scraping web, consulta nuestras guías sobre , y .

Preguntas frecuentes

¿Es legal extraer datos de Reddit con Python?

Los de Reddit prohíben el scraping comercial sin aprobación por escrito. El nivel gratuito de OAuth está disponible para uso personal, no comercial y académico. El marco legal es independiente del método: aplica tanto si usas la API, el endpoint .json o scraping HTML. Revisa siempre las condiciones vigentes de Reddit antes de extraer datos a gran escala.

¿PRAW sigue funcionando después de los cambios de la API de Reddit en 2023?

Sí. PRAW 7.8.1 (octubre de 2024) sigue manteniéndose activamente y opera automáticamente dentro del . Los cambios de precios de 2023 afectaron sobre todo al uso comercial y de alto volumen de la API, no a los patrones habituales de scraping con PRAW.

¿Puedo extraer Reddit sin clave de API?

Sí: el endpoint .json y el análisis HTML con BeautifulSoup funcionan sin claves de API. tampoco requiere clave de API. Los tres métodos siguen sujetos a los Términos de servicio de Reddit para uso comercial.

¿Cómo extraigo comentarios de Reddit, no solo publicaciones?

Con PRAW, usa submission.comments.replace_more(limit=10) y luego submission.comments.list() para aplanar el árbol anidado de comentarios en una lista. Con Thunderbit, usa el scraping de subpáginas para enriquecer automáticamente una extracción de listados de publicaciones con los datos de comentarios de cada hilo.

¿Cuál es la forma más rápida de extraer Reddit sin programar?

La te permite extraer publicaciones y comentarios de Reddit en dos clics y exportarlos directamente a Excel, Google Sheets, Airtable o Notion, sin Python, sin clave de API y sin configuración.

Más información

Cómo extraer datos de Reddit con Python: 4 métodos que sí funcionan hoy

¿Necesitas datos web personalizados?

Prueba Thunderbit