O Google paga US$ 60 milhões por ano para licenciar dados do Reddit. O acordo da OpenAI, segundo relatos, chega a US$ 70 milhões. Isso já diz bastante sobre o valor escondido dentro dessas discussões. Se você já tentou coletar manualmente threads, comentários ou dados de sentimento do Reddit, sabe como é frustrante: rolagem sem fim, copiar e colar o tempo todo e dezenas de abas abertas.
Passei boa parte do último trimestre ajudando nossa equipe na Thunderbit a pesquisar como as pessoas realmente extraem dados do Reddit em 2025. O cenário mudou bastante desde a revisão de preços da API do Reddit em 2023, e a maioria dos guias online está desatualizada ou cobre apenas um método. Então reuni tudo o que realmente funciona agora — quatro abordagens diferentes, desde scripts completos em Python até extração sem código — para você escolher a que faz mais sentido para seu nível técnico e seu caso de uso. Se você está montando um conjunto de dados para NLP, monitorando menções à marca em um subreddit ou só quer uma planilha com posts em alta, este guia vai te atender.
O que é raspagem do Reddit e por que isso importa?
Raspar o Reddit é o processo de extrair programaticamente posts, comentários, dados de usuários e metadados das páginas ou da API do Reddit. Em vez de navegar manualmente por threads e copiar textos, você usa um script ou ferramenta para coletar dados estruturados em escala.
Por que se dar ao trabalho? O Reddit reúne mais de e gera cerca de . É onde as pessoas compartilham opiniões sem filtro sobre produtos, serviços, concorrentes e tendências — um tipo de sinal autêntico que quase nunca aparece com a mesma riqueza em sites de avaliação polidos ou blogs corporativos. O Google paga algo em torno de por uma licença de conteúdo do Reddit, e o acordo da OpenAI, segundo relatos, é de cerca de . Se as maiores empresas de IA do mundo estão pagando valores de nove dígitos por esses dados, vale a pena aprender a acessá-los por conta própria.
Por que raspar o Reddit com Python em 2025?
Python é a linguagem padrão para raspar o Reddit — PRAW, requests, BeautifulSoup e pandas cobrem todas as etapas, das chamadas de API à exportação dos dados. Mas o motivo vai além das ferramentas.
Aqui estão os casos de uso mais comuns que vejo em equipes de negócios e pesquisa:
| Caso de uso | Quem se beneficia | Exemplo |
|---|---|---|
| Pesquisa e validação de mercado | Gerentes de produto, fundadores | Minerar r/SaaS ou r/Entrepreneur em busca de dores recorrentes |
| Análise de sentimento | Marketing, equipes de marca | Acompanhar como as pessoas falam do seu produto versus concorrentes |
| Geração de leads | Times de vendas | Encontrar posts do tipo "procuro uma ferramenta que faça X" em subreddits de nicho |
| Ideias para conteúdo | Profissionais de conteúdo | Identificar perguntas e temas em alta em r/marketing ou r/SEO |
| Pesquisa acadêmica / NLP | Pesquisadores, cientistas de dados | Montar datasets rotulados a partir de threads de comentários para classificação de emoções |
| Inteligência competitiva | Estratégia, operações | Monitorar subreddits de concorrentes em busca de reclamações recorrentes |
A base de usuários do Reddit chegou a cerca de , com — um crescimento de 24% em relação ao ano anterior. E, depois da atualização principal do Google em agosto de 2024, o conteúdo do Reddit ficou cerca de nos resultados orgânicos de busca.
Em outras palavras: os dados que você raspa do Reddit são cada vez mais os mesmos que o Google mostra aos usuários.
Qual método usar para raspar o Reddit? (Comparação rápida)
A pergunta mais comum em fóruns sobre raspagem do Reddit é literalmente: "qual método devo usar?" Então montei esta tabela. Escolha a linha que faz sentido e siga em frente.
| Critério | PRAW | Endpoint .json | BeautifulSoup (HTML) | Sem código (Thunderbit) |
|---|---|---|---|---|
| Complexidade da configuração | Média (app de API + pip install) | Nenhuma (só uma URL) | Média (pip + inspeção do DOM) | Muito baixa (extensão do Chrome) |
| Precisa de chave de API? | Sim | Não | Não | Não |
| Coleta de comentários | Profunda (árvores aninhadas) | Limitada (nível superior) | Análise manual | Estruturada por IA |
| Paginação | Integrada | Manual (parâmetro after) | Manual | Automática |
| Limite de requisições | 100 req/min (gerenciado pelo PRAW) | ~10 req/min (sem autenticação) | Risco de bloqueio de IP | Gerenciado pela ferramenta |
| Melhor para | Projetos completos, pesquisa | Coletas rápidas e pontuais | Aprendizado/personalização | Quem não programa, exportações rápidas |
| Opções de exportação | CSV, JSON (código manual) | JSON bruto | Personalizada (código manual) | Excel, Google Sheets, Airtable, Notion |
Se você quer projetos robustos em Python com extração profunda de comentários, comece pelo Método 1 (PRAW). Precisa pegar dados rápidos em 10 minutos, sem configuração? Tente o Método 2 (o truque do .json). Quer aprender scraping de HTML ou precisa de campos personalizados? Vá de Método 3 (BeautifulSoup). E, se preferir pular o Python e só obter os dados, vá direto ao Método 4 ().
O que mudou: atualização de preços da API do Reddit em 2023–2024 (e o que ainda funciona de graça)
Quase nenhum guia de raspagem fala sobre isso — e esse é o contexto mais importante para quem quer raspar o Reddit hoje.
Em junho de 2023, o Reddit passou a cobrar pelo acesso à API pela primeira vez desde 2008. O impacto foi enorme:
- O Pushshift deixou de funcionar para uso público. O Reddit revogou o acesso à API do Pushshift em maio de 2023. Pesquisadores que dependiam dele — citado em mais de — perderam sua principal fonte de dados da noite para o dia. O sucessor para dados históricos é o , mas não existe uma substituição pública de API ao vivo.
- Aplicativos de terceiros foram encerrados. Apollo, Reddit is Fun, Sync, BaconReader e outros fecharam até 30 de junho de 2023, depois que o Reddit informou ao desenvolvedor do Apollo que os custos de API seriam de .
- Mais de 8.500 subreddits saíram do ar em protesto, incluindo r/funny (40 milhões de inscritos), r/gaming e r/science ().
O que ainda é gratuito em 2025:
O continua disponível para uso não comercial, pessoal e acadêmico — 100 consultas por minuto por client ID OAuth. O PRAW funciona perfeitamente nesse nível para raspagem moderada. O acesso sem autenticação, incluindo o endpoint .json, fica limitado a cerca de 10 requisições por minuto.
Resumo prático: Para tarefas de raspagem de pequeno e médio porte, o nível gratuito é mais do que suficiente. Para uso em grande escala ou comercial, você vai precisar entrar em contato com o Reddit para acesso empresarial, usar o endpoint .json ou o BeautifulSoup (que não exigem chave de API), ou usar uma ferramenta como o Thunderbit, que não depende da API do Reddit.
Antes de começar
- Nível de dificuldade: Iniciante a intermediário (varia conforme o método)
- Tempo necessário: ~15–30 minutos para os Métodos 1–3; ~5 minutos para o Método 4
- O que você vai precisar:
- Python 3.8+ instalado (para os Métodos 1–3)
- Uma conta no Reddit (para o Método 1)
- Navegador Chrome (para o Método 4)
- (para o Método 4)
Método 1: Como raspar o Reddit com Python usando PRAW (passo a passo)
PRAW (Python Reddit API Wrapper) é a forma mais popular e bem documentada de raspar o Reddit com Python. Ele cuida da autenticação, do controle de taxa e da paginação para você, e ainda está em manutenção ativa — a versão estável mais recente é a PRAW 7.8.1 (outubro de 2024), com suporte do Python 3.8 ao 3.13.
Passo 1: Crie um app no Reddit e obtenha suas credenciais de API
Acesse e role até o final. Clique em "are you a developer? create an app..."
Preencha o formulário:
- Name: qualquer nome descritivo (por exemplo, "my-reddit-scraper")
- App type: selecione script
- Redirect URI: informe
http://localhost:8080(obrigatório, mas não usado em apps do tipo script) - Description: opcional
Clique em Create app. Você verá suas credenciais:
- client_id — a sequência de 14 caracteres logo abaixo do nome do app (marcada como "personal use script")
- client_secret — o campo marcado como "secret"
Você também precisará aceitar os e a do Reddit antes que a criação do app seja concluída.
Um aviso: desde o fim de 2024, novos desenvolvedores podem precisar enviar uma solicitação de acesso e aguardar aprovação. Esse é o maior ponto de atrito para quem está usando o PRAW pela primeira vez, e não há muito o que fazer além de esperar.
Passo 2: Instale o PRAW e crie uma instância do Reddit
Abra o terminal e execute:
1pip install praw pandas
Depois crie uma instância do Reddit em modo somente leitura:
1import praw
2reddit = praw.Reddit(
3 client_id="YOUR_CLIENT_ID",
4 client_secret="YOUR_CLIENT_SECRET",
5 user_agent="python:reddit-scraper:v1.0 (by u/yourname)",
6)
7# reddit.read_only é True por padrão para apps de script sem senha
O formato do user_agent importa. O Reddit limita ativamente strings genéricas como python-requests/2.x. Use o formato recomendado pelo Reddit: plataforma:id_do_app:versão (by u/usuário).
Passo 3: Raspe posts de um subreddit
Veja como buscar os posts mais populares do r/python do último mês e armazená-los em um DataFrame do pandas:
1import pandas as pd
2subreddit = reddit.subreddit("python")
3rows = []
4for post in subreddit.top(time_filter="month", limit=500):
5 rows.append({
6 "id": post.id,
7 "title": post.title,
8 "selftext": post.selftext,
9 "score": post.score,
10 "upvote_ratio": post.upvote_ratio,
11 "num_comments": post.num_comments,
12 "author": str(post.author) if post.author else "[deleted]",
13 "created_utc": post.created_utc,
14 "url": post.url,
15 "permalink": f"https://reddit.com{post.permalink}",
16 })
17df = pd.DataFrame(rows)
18print(df.head())
Você pode trocar .top() por .hot(), .new() ou .controversial(), e time_filter aceita "all", "day", "hour", "month", "week" ou "year".
Um alerta: o Reddit limita qualquer listagem a cerca de 1.000 itens, não importa quão alto você defina limit. Esse teto é do lado do Reddit, não uma limitação do PRAW.
Passo 4: Exporte os dados do Reddit para CSV ou Excel
1df.to_csv("reddit_python_top.csv", index=False)
2df.to_json("reddit_python_top.json", orient="records", lines=True)
O PRAW lida com o controle de taxa automaticamente — ele lê os cabeçalhos X-Ratelimit-Remaining e X-Ratelimit-Reset em cada resposta e faz pausas entre as chamadas quando necessário. Para raspagem moderada, raramente é preciso adicionar atrasos manuais.
Como raspar comentários do Reddit com Python (threads profundas e aninhadas)
Raspar comentários é onde a maioria das pessoas trava.
O Reddit organiza comentários em forma de árvore: cada comentário pode ter respostas filhas, e alguns ramos ficam recolhidos atrás de links do tipo "carregar mais comentários". No mundo do PRAW, esses ramos ocultos aparecem como objetos MoreComments.
Pense assim:
1Submission (t3_abc123)
2├── Comentário A (nível superior)
3│ ├── Resposta A1
4│ │ └── Resposta A1a
5│ └── Resposta A2
6├── Comentário B (nível superior)
7│ └── MoreComments (oculto — "carregar mais comentários")
8└── MoreComments (oculto — "continuar esta thread")
Usando replace_more() para buscar todos os comentários ocultos
O método replace_more() percorre a árvore de comentários e substitui cada placeholder MoreComments pelos comentários reais aos quais ele aponta:
1submission = reddit.submission(id="abcdef")
2submission.comments.replace_more(limit=10) # limite prático para threads grandes
3all_comments = submission.comments.list() # achatado em ordem breadth-first
Definir limit=None substitui todos os nós MoreComments — mas, em uma thread com mais de 5.000 comentários, isso pode levar vários minutos, porque cada substituição é uma requisição à API retornando no máximo cerca de 100 comentários. Em threads grandes, recomendo começar com limit=10 ou limit=20 e aumentar só se você realmente precisar de tudo.
Transformando comentários aninhados em uma tabela
1rows = []
2for c in all_comments:
3 rows.append({
4 "comment_id": c.id,
5 "parent_id": c.parent_id, # t1_xxx = comentário pai, t3_xxx = submission
6 "depth": c.depth,
7 "author": str(c.author) if c.author else "[deleted]",
8 "body": c.body,
9 "score": c.score,
10 "created_utc": c.created_utc,
11 "is_submitter": c.is_submitter,
12 })
13comments_df = pd.DataFrame(rows)
Comentários de nível superior têm parent_id começando com t3_ (o fullname da submission). A coluna depth mostra o nível de aninhamento de cada comentário — útil para filtros ou visualização. Um detalhe importante: len(all_comments) normalmente não bate com submission.num_comments, porque comentários excluídos, removidos e filtrados como spam ficam fora da árvore.
Método 2: O truque do endpoint .json — raspe o Reddit sem chave de API
Adicione .json a qualquer URL do Reddit. Só isso. Você recebe JSON estruturado de volta — sem autenticação, sem registrar app, sem instalar pip.
Exemplo: https://www.reddit.com/r/python/hot.json
Usuários de fórum citam esse truque o tempo todo, mas quase nenhum tutorial o aborda.
Um exemplo de código Python funcionando
1import requests
2headers = {"User-Agent": "python:reddit-scraper:v1.0 (by /u/yourname)"}
3r = requests.get(
4 "https://www.reddit.com/r/python/hot.json",
5 headers=headers,
6 params={"limit": 100},
7)
8data = r.json()
9for post in data["data"]["children"]:
10 p = post["data"]
11 print(p["title"], p["score"], p["num_comments"], p["author"])
O cabeçalho User-Agent é essencial. O Reddit bloqueia ou restringe agentes genéricos como python-requests/2.31.0 — como , “essa limitação de taxa é baseada no user-agent”. Use o mesmo formato descritivo do PRAW.
Como lidar com paginação usando o parâmetro after
O endpoint .json retorna cerca de 25 resultados por padrão (máximo de 100 por requisição). Para buscar mais, use o cursor after da resposta:
1import requests, time
2headers = {"User-Agent": "python:reddit-scraper:v1.0 (by /u/yourname)"}
3after = None
4all_posts = []
5for _ in range(10): # até ~1000 posts
6 r = requests.get(
7 "https://www.reddit.com/r/python/hot.json",
8 headers=headers,
9 params={"limit": 100, "after": after},
10 )
11 data = r.json()
12 all_posts.extend(data["data"]["children"])
13 after = data["data"].get("after")
14 if not after:
15 break
16 time.sleep(6) # ~10 QPM = uma requisição a cada 6 segundos
O valor de after é um token de cursor (formato: t3_xxxxxx). Assim como no PRAW, o teto rígido continua em cerca de 1.000 itens no total, somando todas as páginas.
Limitações do método .json
- Sem acesso profundo à árvore de comentários — você obtém comentários de nível superior e mais um nível de stubs de "mais", mas sem expansão automática como o
replace_more()do PRAW - Somente leitura — sem votar, postar ou moderar
- ~10 requisições por minuto para tráfego sem autenticação — loops agressivos geram erros 429
- Mesmo limite de 1.000 itens da API autenticada
Esse método é melhor para coletas rápidas e pontuais, protótipos ou situações em que você não quer registrar um app de API.
Método 3: Como raspar o Reddit com BeautifulSoup (análise de HTML)
Se você já fez qualquer tipo de web scraping, provavelmente conhece o BeautifulSoup. A sacada principal para o Reddit é usar old.reddit.com em vez da interface nova em React. A versão antiga é renderizada no servidor, mais leve e muito mais fácil de analisar — confirmam que ela continua online e amigável para scraping.
Configurando requests e BeautifulSoup
1pip install requests beautifulsoup4
1import requests
2from bs4 import BeautifulSoup
3headers = {"User-Agent": "python:reddit-scraper:v1.0 (by /u/yourname)"}
4r = requests.get("https://old.reddit.com/r/python/", headers=headers)
5soup = BeautifulSoup(r.text, "html.parser")
Extraindo dados de posts do DOM
Em old.reddit.com, cada post fica dentro de uma <div> com a classe thing. Os seletores mais estáveis são os atributos data-*:
1for thing in soup.select("div#siteTable > div.thing"):
2 title_el = thing.select_one("a.title")
3 print({
4 "title": title_el.get_text(strip=True) if title_el else None,
5 "author": thing.get("data-author"),
6 "score": thing.get("data-score"),
7 "comments": thing.get("data-comments-count"),
8 "domain": thing.get("data-domain"),
9 "url": title_el.get("href") if title_el else None,
10 })
Prefira os atributos data-* em vez de seletores de classes aninhadas — o Reddit altera nomes de classe com o tempo, mas os atributos de dados são gerados por template e quase nunca mudam.
Como lidar com paginação no old.reddit.com
1import time
2url = "https://old.reddit.com/r/python/"
3all_rows = []
4while url:
5 r = requests.get(url, headers=headers)
6 soup = BeautifulSoup(r.text, "html.parser")
7 for thing in soup.select("div#siteTable > div.thing"):
8 title_el = thing.select_one("a.title")
9 all_rows.append({
10 "title": title_el.get_text(strip=True) if title_el else None,
11 "author": thing.get("data-author"),
12 "score": thing.get("data-score"),
13 "comments": thing.get("data-comments-count"),
14 "url": title_el.get("href") if title_el else None,
15 })
16 nxt = soup.select_one("span.next-button a")
17 url = nxt["href"] if nxt else None
18 time.sleep(2) # pausa de cortesia
Quando usar BeautifulSoup em vez de PRAW
BeautifulSoup funciona bem quando você quer aprender a raspar o DOM, não quer registrar um app OAuth ou precisa de campos personalizados que o PRAW não expõe. Mas ele é mais frágil — a estrutura HTML pode mudar sem aviso, o bloqueio de IP está mais agressivo em 2025 do que costumava ser, e você precisa escrever toda a lógica de paginação e tratamento de erros manualmente. Em confiabilidade e profundidade, o PRAW leva vantagem.
Método 4: Como raspar o Reddit sem código usando Thunderbit
Uma confissão: muita gente que pesquisa "como raspar o Reddit com Python" na verdade não quer escrever Python. Ela quer os dados. Se esse é o seu caso, esta seção é sua saída mais rápida.
é uma extensão de Chrome com IA que nossa equipe criou especificamente para esse tipo de situação — extrair dados estruturados de páginas da web sem escrever código.
Passo 1: Instale o Thunderbit e abra uma página do Reddit
Instale a e navegue até qualquer subreddit ou página de post do Reddit (por exemplo, reddit.com/r/python).
Sem chave de API, sem ambiente Python, sem comandos no terminal.
Passo 2: Clique em "AI Suggest Fields" e deixe a IA ler a página
Clique no ícone do Thunderbit na barra do navegador e depois em "AI Suggest Fields." A IA do Thunderbit analisa a página e sugere automaticamente colunas como Título do Post, Nome do Usuário, Upvotes, Contagem de Comentários, Data da Publicação, Descrição do Post, Nome da Comunidade e URL do Post.
Você pode adicionar, remover ou renomear colunas como quiser. Por exemplo, se só se importa com título e pontuação, basta apagar os outros campos.
Passo 3: Clique em "Scrape" e exporte seus dados
Clique em "Scrape" e o Thunderbit extrai os dados, lidando com a paginação automaticamente. Quando a tabela estiver preenchida, exporte diretamente para Excel, Google Sheets, Airtable ou Notion — sem precisar escrever código para CSV.
Para dados mais profundos, o raspador de subpáginas do Thunderbit permite entrar em threads individuais e enriquecer sua tabela automaticamente com dados de comentários. Conceitualmente, isso é parecido com o replace_more() do PRAW — mas sem escrever uma única linha de código.
Bônus: raspagem agendada para monitoramento contínuo do Reddit
Se você precisa acompanhar um subreddit todos os dias — por exemplo, monitorar menções à marca em r/SaaS ou discussões sobre concorrentes em uma comunidade de nicho — o raspador agendado do Thunderbit faz as execuções recorrentes. Você descreve o intervalo em linguagem natural (por exemplo, "todo dia útil às 9h") e a ferramenta faz o resto, entregando dados novos para sua planilha ou banco conectado.
Você pode saber mais sobre os recursos de raspagem do Reddit do Thunderbit no .
Dicas e boas práticas para raspar o Reddit com Python
Aprendi a maioria dessas lições da forma difícil — e elas valem para qualquer método que você escolher acima.
Respeite os Termos de Serviço e os limites de taxa do Reddit
Os do Reddit proíbem explicitamente a raspagem comercial sem aprovação por escrito — e isso vale para todos os métodos de acesso, não só para a API. Para uso pessoal, acadêmico e de pesquisa interna, o nível OAuth gratuito e os fluxos do Thunderbit estão dentro de limites razoáveis.
Resumo rápido dos limites de taxa:
| Cenário | Limite | O que acontece |
|---|---|---|
| Autenticado (OAuth) | 60–100 req/min | O PRAW gerencia isso automaticamente |
| Sem autenticação (.json, HTML) | ~10–30 req/min | 429 Too Many Requests |
| User-Agent genérico | Forte restrição | 403 Forbidden ou bloqueios silenciosos |
Sempre defina uma string User-Agent descritiva. Esse é, de longe, o motivo mais comum de quem está começando receber erros 429 ou 403.
Armazene e estruture seus dados com organização
- Use DataFrames do pandas com ordem explícita de colunas para exportações previsíveis em CSV/Excel
- Converta
created_utcem data e hora legíveis:pd.to_datetime(df["created_utc"], unit="s") - Remova duplicidades com base em
idao raspar múltiplas ordenações (hot, new e top frequentemente se sobrepõem) - Trate autores apagados:
str(post.author) if post.author else "[deleted]"
Lide com erros comuns de forma elegante
| Erro | Causa | Correção |
|---|---|---|---|
| 429 Too Many Requests | Excesso de requisições (60-100 req/min para OAuth) | Implemente backoff exponencial; verifique o cabeçalho X-Ratelimit-Reset |
| 403 Forbidden | User-Agent ruim ou IP bloqueado | Use uma string de UA única e descritiva; verifique se o app OAuth está ativo |
| Autor None | Conta excluída ou suspensa | Use if post.author else "[deleted]" |
| prawcore.TooManyRequests | Acionamento do buffer de limite do PRAW | Aumente ratelimit_seconds ou distribua melhor as requisições |
| Erros 5xx ou 413 em árvores grandes | Sobrecarga no backend do Reddit em threads profundas | Envolva replace_more() em lógica de retry; limite a profundidade da recursão |
Casos de uso de raspagem do Reddit: o que você pode fazer com os dados?
A raspagem é só o primeiro passo. O que realmente gera resultado é isto:
- Equipes de vendas: monitore subreddits como r/SaaS, r/smallbusiness ou r/Entrepreneur em busca de posts do tipo "procuro uma ferramenta que faça X". Envie os resultados para listas de leads ou fluxos de CRM. Use o raspador agendado do Thunderbit para monitoramento diário.
- Marketing e conteúdo: acompanhe menções à marca, analise tendências de sentimento e extraia perguntas em alta para ideias de conteúdo. Combine exportações do Reddit com Google Sheets para colaboração em equipe.
- Ecommerce e operações: monitore discussões sobre produtos concorrentes para identificar reclamações recorrentes. Subreddits como r/BuyItForLife e comunidades de nicho são verdadeiras minas de ouro para feedback de produto.
- Pesquisadores e analistas: crie datasets para NLP — artigos acadêmicos de 2024 usaram conjuntos de dados de a para classificação de sentimento e emoções. A coleta de corpus com PRAW pode ser citada em revisões por pares.
Se você quiser se aprofundar em como ou , cobrimos esses fluxos em detalhes no blog da Thunderbit.
Conclusão
Raspar o Reddit em 2025 não se parece em nada com o que era há dois anos. As mudanças na API de 2023 encerraram o Pushshift, derrubaram aplicativos de terceiros muito queridos e introduziram planos pagos.
Mas o nível gratuito continua vivo e útil para uso pessoal e acadêmico, e hoje existem mais maneiras de acessar esses dados do que antes.
Aqui vai um resumo de uma linha para cada método:

Seja você um veterano em Python ou alguém que quer uma planilha pronta até o almoço, um destes quatro métodos vai te levar até lá. Se preferir pular o código por completo, você pode e ver como ele lida com o Reddit em poucos cliques. E, se quiser continuar aprimorando suas habilidades de scraping em Python, salve este guia nos favoritos — vou mantê-lo atualizado conforme o cenário do Reddit evolui.
Para mais conteúdo sobre abordagens de web scraping, confira nossos guias sobre , e .
Perguntas frequentes
É legal raspar o Reddit com Python?
Os do Reddit proíbem raspagem comercial sem aprovação por escrito. O nível OAuth gratuito está disponível para uso pessoal, não comercial e acadêmico. A interpretação legal é independente da ferramenta — vale tanto para a API quanto para o endpoint .json ou para a raspagem de HTML. Sempre verifique os termos atuais do Reddit antes de raspar em escala.
O PRAW ainda funciona depois das mudanças na API do Reddit em 2023?
Sim. O PRAW 7.8.1 (outubro de 2024) continua em manutenção ativa e opera automaticamente dentro do . As mudanças de preço de 2023 afetaram principalmente o uso da API em alto volume e comercial, não os padrões típicos de raspagem com PRAW.
Posso raspar o Reddit sem chave de API?
Sim — o endpoint .json e a análise de HTML com BeautifulSoup funcionam sem chave de API. também não exige chave de API. Os três métodos ainda estão sujeitos aos Termos de Serviço do Reddit para uso comercial.
Como raspo comentários do Reddit, e não só posts?
Com PRAW, use submission.comments.replace_more(limit=10) seguido de submission.comments.list() para achatar a árvore de comentários aninhada em uma lista. Com o Thunderbit, use a raspagem de subpáginas para enriquecer automaticamente uma coleta de listagem de posts com dados de comentários de cada thread.
Qual é a forma mais rápida de raspar o Reddit sem programar?
A permite raspar posts e comentários do Reddit em dois cliques e exportar diretamente para Excel, Google Sheets, Airtable ou Notion — sem Python, sem chave de API e sem configuração.
Saiba mais
