Como reduzi em 90% o uso de tokens do OpenClaw (com os modelos mais baratos dentro)

Meu painel do OpenRouter já mostrava US$ 47 gastos antes do almoço numa terça-feira. Eu tinha feito talvez uma dúzia de tarefas de programação — nada absurdo, só algumas refatorações e correções de bugs. Foi aí que percebi que os padrões do OpenClaw estavam, sem alarde, roteando cada interação, inclusive os pings de heartbeat em segundo plano, pelo Claude Opus, a mais de US$ 15 por milhão de tokens.

Se você já passou por sustos parecidos — e, pelos fóruns, muita gente passou (“já estou gastando 40 dólares e nem uso tanto assim”, escreveu um usuário) — este guia mostra o processo completo de auditoria e otimização que usei para cortar meu gasto mensal em cerca de 90%. Não é só “trocar por um modelo mais barato”, mas sim desmontar de forma sistemática para onde os tokens realmente vão, como monitorá-los, quais modelos econômicos realmente aguentam trabalho agentic de verdade e três configurações prontas para copiar e colar que você pode usar hoje. Todo o processo levou uma tarde.

O que é o uso de tokens do OpenClaw (e por que ele é tão alto por padrão)?

Tokens são a unidade de cobrança de toda interação de IA no OpenClaw. Pense neles como pequenos blocos de texto — algo em torno de 4 caracteres em inglês por token. Cada mensagem que você envia, cada resposta que recebe, cada processo em segundo plano que dispara: tudo é cobrado em tokens.

O problema é que os padrões do OpenClaw são ajustados para máxima capacidade, não para menor custo. Logo de cara, o modelo principal vem definido como anthropic/claude-opus-4-5 — a opção mais cara disponível. Pings de heartbeat? Também rodam no Opus. Subagentes criados para tarefas paralelas? Também em Opus. Usar Opus para um ping de heartbeat é como contratar um neurocirurgião para colar um curativo. Tecnicamente competente, mas absurdamente caro.

A maioria dos usuários não percebe que está pagando tarifa premium por tarefas triviais de bastidor. A configuração padrão praticamente assume que você quer o melhor modelo para tudo, o tempo todo — e cobra de acordo.

Por que reduzir o uso de tokens do OpenClaw economiza mais do que dinheiro

O benefício mais óbvio é a redução de custos. Mas há ganhos secundários que se acumulam com o tempo.

Modelos mais baratos costumam ser mais rápidos. O Gemini 2.5 Flash-Lite roda em cerca de contra cerca de 51 do Opus — isso é uma melhora de 4x em velocidade em cada interação. O GPT-OSS-120B no Cerebras chega a , algo em torno de 35x mais rápido que o Opus. Em um loop agentic com mais de 50 rodadas de chamadas de ferramentas, essa diferença de velocidade significa concluir em minutos em vez de ficar preso aos dolorosos 13,6 segundos até o primeiro token do Opus em cada ida e volta.

Você também ganha mais margem antes de bater limites de taxa, menos sessões estranguladas e espaço para escalar o uso sem escalar sua ansiedade com a conta.

Economia projetada em diferentes perfis de uso:

Perfil de usuário	Gasto mensal estimado (padrão)	Após otimização completa	Economia mensal
Leve (~10 consultas/dia)	~$100	~$12	~88%
Moderado (~50 consultas/dia)	~$500	~$90	~82%
Intenso (~200+ consultas/dia)	~$1.750	~$220	~87%

Isso não é hipotético. Um desenvolvedor documentou uma queda de — um corte real de 90% — combinando roteamento de modelos com as correções para vazamentos ocultos que veremos adiante neste guia.

Anatomia do uso de tokens do OpenClaw: para onde cada token realmente vai

Essa é a parte que a maioria dos guias de otimização pula, e justamente a mais importante. Você não consegue consertar o que não enxerga.

Para onde os tokens do OpenClaw realmente vão — detalhamento por tarefa

Auditei várias sessões e cruzei os dados com o e dumps da comunidade /context para montar um livro-razão de tokens de uma tarefa típica de programação. Eis onde cerca de 20.000 tokens realmente foram parar:

Categoria de token	% típico do total	Exemplo (1 tarefa de programação)	Dá para controlar?
Acúmulo de contexto (histórico da conversa reenviado a cada chamada)	~40–50%	~9.000 tokens	Sim — `/clear`, `/compact`, sessões mais curtas
Armazenamento de saída de ferramentas (saída do shell, leituras de arquivos mantidas no histórico)	~20–30%	~5.000 tokens	Sim — leituras menores, escopo de ferramenta mais restrito
Reenvio do prompt de sistema (~15K base)	~10–15%	~3.000 tokens	Parcialmente — cache de leitura a 0,1x
Raciocínio em várias rodadas (loops encadeados de chamada de ferramentas)	~10–15%	~2.500 tokens	Escolha do modelo + prompts melhores
Pings de heartbeat / keep-alive	~5–10%	~1.500 tokens	Sim — mudança de configuração
Chamadas de subagentes	~5–10%	~1.500 tokens	Sim — roteamento de modelo

O maior bloco — acúmulo de contexto — é o histórico da conversa sendo reenviado a cada chamada de API. Um mostrou 185.400 tokens apenas na caixa de Messages, sem o modelo sequer ter respondido ainda. O prompt de sistema e as ferramentas adicionaram outros ~35.800 tokens de overhead fixo em cima disso.

A lição é direta: se você não limpa sessões entre tarefas sem relação, está pagando para retransmitir todo o seu histórico de conversa em cada turno.

Como monitorar o uso de tokens do OpenClaw (não dá para cortar o que você não vê)

Antes de mudar qualquer coisa, obtenha visibilidade sobre para onde seus tokens estão indo. Sair direto para “usar um modelo mais barato” sem monitoramento é como tentar emagrecer sem jamais subir numa balança.

Verifique seu painel do OpenRouter

Se você roteia pelo OpenRouter, a é o painel mais fácil e sem configuração inicial. Você pode filtrar por modelo, provedor, chave de API e período. A visualização de Usage Accounting detalha prompt, completion, reasoning e tokens em cache em cada requisição. Há um botão de Exportação (CSV ou PDF) para análise em períodos mais longos.

O que observar: qual modelo consumiu mais tokens e se os pedidos de heartbeat ou subagentes estão aparecendo como itens inesperadamente grandes.

Audite seus logs locais de API

O OpenClaw armazena os dados da sessão em ~/.openclaw/agents.main/sessions/sessions.json, que inclui totalTokens por sessão. Você também pode rodar openclaw logs --follow --json para registro em tempo real por requisição.

Um aviso importante: , então o painel pode mostrar valores antigos, anteriores à compactação. Confie mais em /status e /context detail do que nos totais armazenados.

Use ferramentas de terceiros para rastreamento (para usuários moderados ou intensos)

LiteLLM proxy oferece um endpoint compatível com OpenAI na frente de mais de 100 provedores e . O grande diferencial: orçamentos rígidos por chave que sobrevivem ao /clear — um subagente descontrolado não consegue ultrapassar o limite que você definiu.

Helicone é ainda mais simples — uma que oferece uma visão de Sessions agrupando requisições relacionadas. Um único prompt “corrija esse bug” que se divide em 8 ou mais chamadas de subagentes aparece como uma linha de sessão com o custo total real. .

Checagens rápidas dentro do OpenClaw

Para monitoramento do dia a dia, quatro comandos na sessão resolvem:

/status — mostra uso de contexto, últimos tokens de entrada/saída, custo estimado
/usage full — rodapé de uso por resposta
/context detail — detalhamento por arquivo, habilidade e ferramenta
/compact [guidance] — força compactação com string opcional de foco

Rode /context detail antes e depois de mudar a configuração. É assim que você mede se as otimizações realmente funcionaram.

O confronto dos modelos mais baratos do OpenClaw: quais LLMs econômicos realmente aguentam trabalho agentic

A maioria dos guias erra aqui. Mostram uma tabela de preços, apontam para a linha mais barata e encerram o assunto. Benchmarks não preveem desempenho agentic no mundo real — um ponto que a comunidade vem destacando com força e repetidamente. Como disse um usuário: “benchmarks não ajudam em nada para entender qual funciona melhor para IA agentic”.

A percepção crucial: o modelo mais barato nem sempre gera o resultado mais barato. Um modelo que falha e tenta de novo quatro vezes custa mais do que um modelo intermediário que . Em sistemas agentic de produção, planeje uma — e, se cinco chamadas de LLM são encadeadas e a etapa quatro falha, um retry ingênuo reexecuta as cinco etapas.

Aqui está minha matriz de capacidade, com uma “pontuação agentic real” baseada em relatos de usuários reais, e não em benchmarks sintéticos:

Modelo	Entrada $/1M	Saída $/1M	Confiabilidade em chamadas de ferramentas	Raciocínio em várias etapas	Pontuação agentic real (1–5)	Melhor uso
Gemini 2.5 Flash-Lite	$0,10	$0,40	Misto — loops ocasionais	Básico	⭐2,5	Heartbeats, buscas simples
GPT-OSS-120B	$0,04	$0,19	Adequado	Adequado	⭐3,0	Experimentação barata, tarefas críticas de velocidade
DeepSeek V3.2	$0,26	$0,38	Inconsistente (6 issues abertas)	Bom	⭐3,0	Muito raciocínio, pouca chamada de ferramentas
Kimi K2.5	$0,38	$1,72	Bom (via :exacto)	Adequado	⭐3,5	Programação simples a intermediária
MiniMax M2.5 / M2.7	$0,28	$1,10	Bom	Bom	⭐4,0	Modelo diário para programação geral
Claude Haiku 4.5	$1,00	$5,00	Excelente	Bom	⭐4,5	Fallback intermediário confiável
Claude Sonnet 4.6	$3,00	$15,00	Excelente	Excelente	⭐5,0	Tarefas complexas em várias etapas
Claude Opus 4.5/4.6	$5,00	$15,00	Excelente	Excelente	⭐5,0	Reserve só para os problemas mais difíceis

Um alerta sobre DeepSeek e Gemini Flash para chamadas de ferramentas

O DeepSeek V3.2 parece ótimo no papel — 72–74% no , 11–36x mais barato que o Sonnet. Na prática, em Cline, Roo Code, Continue e NVIDIA NIM documentam comportamento quebrado em tool calling. O veredito do confronto direto da Composio: “.” A síntese de Zvi Mowshowitz: “.”

O Gemini 2.5 Flash tem uma lacuna parecida. Um tópico no Google AI Developers Forum, intitulado “Very frustrating experience with Gemini 2.5 function calling performance”, abre com: “.”

O OpenRouter destacou uma nuance crítica: “.” Se você roteia modelos baratos pelo OpenRouter, procure a tag :exacto — uma troca silenciosa de provedor pode transformar da noite para o dia um modelo barato confiável em um loop caro de retries.

Quando usar cada modelo

Gemini Flash-Lite: heartbeats, keep-alive pings, perguntas e respostas simples. Nunca para chamadas de ferramentas em várias etapas.
MiniMax M2.5/M2.7: seu modelo diário para tarefas gerais de programação. por uma fração do preço do Sonnet.
Claude Haiku 4.5: o fallback confiável quando modelos baratos travam em chamadas de ferramentas. Excelente confiabilidade com custo cerca de 3x menor que o Sonnet.
Claude Sonnet 4.6: trabalho agentic complexo em várias etapas. É aqui que você vê o dinheiro valer a pena.
Claude Opus: reserve para os problemas mais difíceis. Não deixe esse ser o padrão para nada.

(Os preços dos modelos mudam com frequência — confirme as tarifas atuais no ou nas páginas diretas dos provedores antes de fechar qualquer configuração.)

Os vazamentos ocultos de tokens que a maioria dos guias ignora

Usuários dos fóruns relatam que desativar recursos específicos reduz bastante os custos, mas nenhum guia que encontrei reúne numa lista única todos os vazamentos ocultos com seu impacto real em tokens. O desmonte completo:

Vazamento oculto	Custo em tokens por ocorrência	Como corrigir	Chave de configuração
Heartbeat padrão no Opus	~100.000 tokens/execução sem isolamento	Override para Haiku + isolatedSession	`heartbeat.model`, `heartbeat.isolatedSession: true`
Criação de subagentes	~20.000 tokens por criação antes de qualquer trabalho	Roteie subagentes para Haiku	`subagents.model`
Carregamento completo do contexto da base de código	~3.000–15.000 tokens por auto-explore	`.clawignore` para node_modules, dist, lockfiles	`.clawrules` + `.clawignore`
Auto-resumo de memória	~500–2.000 tokens/sessão	Desativar ou reduzir frequência	`memory: false` ou `memory.max_context_tokens`
Acúmulo do histórico da conversa	~500+ tokens/turno (cumulativo)	Inicie novas sessões entre tarefas sem relação	Disciplina de `/clear`
Overhead de ferramentas do servidor MCP	~7.000 tokens para 4 servidores; 50.000+ para 5 ou mais	Mantenha o MCP mínimo	Remover MCPs não usados
Inicialização de habilidades/plugins	200–1.000 tokens por habilidade carregada	Desative habilidades não usadas	`skills.entries.<name>.enabled: false`
Agent Teams (modo de planejamento)	~7x o custo de uma sessão padrão	Use apenas para trabalho realmente paralelo	Prefira sequência

O vazamento do heartbeat merece destaque próprio. Por padrão, os heartbeats disparam no modelo principal (Opus) a cada 30 minutos. Definir isolatedSession: true reduz isso de cerca de 100.000 tokens por execução — uma redução de 95–98% nesse único bloco.

Três vitórias rápidas que economizam mais tokens em menos de dois minutos

As três são sem risco e levam menos de dois minutos:

/clear entre tarefas sem relação (5 segundos). Esse é o maior economizador de tokens. O consenso dos fóruns estima só por limpar o histórico da sessão antes de começar um novo trabalho. Lembra daqueles 185 mil tokens na caixa de Messages do dump de /context? /clear apaga isso.
/model haiku-4.5 para tarefas operacionais (10 segundos). A troca tática de modelo gera em tarefas rotineiras. O Haiku lida muito bem com a maioria das tarefas de programação direta, buscas em arquivos e mensagens de commit.
Enxugue .clawrules para menos de 200 linhas + adicione .clawignore (90 segundos). Seu arquivo de regras é carregado em toda e qualquer mensagem. Com 200 linhas, isso representa cerca de 1.500–2.000 tokens por turno; com 1.000 linhas, são 8.000–10.000 tokens cobrando cada requisição permanentemente. Combinado com um .clawignore excluindo node_modules/, dist/, lockfiles e código gerado, um desenvolvedor afirma ter alcançado só com essa disciplina.

Passo a passo: três configurações prontas para copiar e cortar o uso de tokens do OpenClaw

Gasto mensal do OpenClaw — configuração padrão vs. otimizada

A seguir, três configurações completas e comentadas de openclaw.json — desde “só quero começar” até “stack de otimização completa”. Cada uma inclui comentários inline e estimativas de custo mensal.

Antes de começar:

Nível: Iniciante (Config A) → Intermediário (Config B) → Avançado (Config C)
Tempo necessário: ~5 minutos para a Config A, ~15 minutos para a Config C
O que você vai precisar: OpenClaw instalado, um editor de texto e acesso a ~/.openclaw/openclaw.json

Config A: Iniciante — só economizar dinheiro

Cinco linhas. Zero complexidade. Troca o modelo padrão de Opus para Sonnet, desativa o overhead de memória e isola os heartbeats no Haiku.

1// ~/.openclaw/openclaw.json
2{
3  "agents": {
4    "defaults": {
5      "model": { "primary": "anthropic/claude-sonnet-4-6" },  // antes era Opus — economia imediata de 3-5x
6      "heartbeat": {
7        "every": "55m",                // alinhado ao TTL de cache de 1h para maximizar hits
8        "model": "anthropic/claude-haiku-4-5",  // Haiku para pings, não Opus
9        "isolatedSession": true        // ~100k → 2-5k tokens por execução
10      }
11    }
12  },
13  "memory": { "enabled": false }       // economiza ~500-2k tokens/sessão
14}

O que você deve ver depois de aplicar isso: rode /status antes e depois. Seu custo por requisição deve cair de forma visível, e os itens de heartbeat na página de Activity do OpenRouter devem mostrar Haiku em vez de Opus.

Faixa de uso	Padrão (Opus)	Config A (Sonnet + heartbeats em Haiku)	Economia
Leve (~10 consultas/dia)	~$100	~$35	65%
Moderado (~50 consultas/dia)	~$500	~$250	50%
Intenso (~200 consultas/dia)	~$1.750	~$900	49%

Config B: Intermediária — roteamento inteligente em três níveis

Sonnet como principal para trabalho real. Haiku para subagentes e compactação. Gemini Flash-Lite como fallback econômico quando o Claude estiver com throttling. Cadeias de fallback tratam indisponibilidades do provedor automaticamente.

1{
2  "agents": {
3    "defaults": {
4      "model": {
5        "primary": "anthropic/claude-sonnet-4-6",
6        "fallbacks": [
7          "anthropic/claude-haiku-4-5",       // se o Sonnet estiver com throttling
8          "google/gemini-2.5-flash-lite"      // último recurso ultrabarato
9        ]
10      },
11      "models": {
12        "anthropic/claude-sonnet-4-6": {
13          "params": { "cacheControlTtl": "1h", "maxTokens": 8192 }
14        }
15      },
16      "heartbeat": {
17        "every": "55m",                       // 55min &lt; TTL de cache de 1h = hits de cache
18        "model": "google/gemini-2.5-flash-lite",  // centavos por ping
19        "isolatedSession": true,
20        "lightContext": true                   // contexto mínimo nas chamadas de heartbeat
21      },
22      "subagents": {
23        "maxConcurrent": 4,                   // reduzido do padrão 8
24        "model": "anthropic/claude-haiku-4-5" // subagentes não precisam de Sonnet
25      },
26      "compaction": {
27        "mode": "safeguard",
28        "model": "anthropic/claude-haiku-4-5", // resumos de compactação via Haiku
29        "memoryFlush": { "enabled": true }
30      }
31    }
32  }
33}

Resultado esperado: as entradas de subagentes nos seus logs devem agora mostrar preço de Haiku. Os heartbeats devem custar quase nada. Sua cadeia de fallback garante que uma queda do Claude não paralise a sessão — ela degrada de forma elegante para o Gemini.

Faixa de uso	Padrão	Config B	Economia
Leve	~$100	~$20	80%
Moderado	~$500	~$150	70%
Intenso	~$1.750	~$500	71%

Config C: Power user — stack completa de otimização

Atribuição de modelo por subagente, compactação de contexto fixa em Haiku, roteamento de visão para Gemini Flash, .clawrules + .clawignore enxutos e habilidades não usadas desativadas. Esta é a configuração que leva você à faixa de 85–90% de economia.

1{
2  "agents": {
3    "defaults": {
4      "workspace": "~/clawd",
5      "model": {
6        "primary": "anthropic/claude-sonnet-4-6",
7        "fallbacks": [
8          "openrouter/anthropic/claude-sonnet-4-6",  // provedor diferente como backup
9          "minimax/minimax-m2-7",                     // fallback econômico para o dia a dia
10          "anthropic/claude-haiku-4-5"                // último recurso
11        ]
12      },
13      "models": {
14        "anthropic/claude-sonnet-4-6": {
15          "params": { "cacheControlTtl": "1h", "maxTokens": 8192 }
16        },
17        "minimax/minimax-m2-7": {
18          "params": { "maxTokens": 8192 }
19        }
20      },
21      "heartbeat": {
22        "every": "55m",
23        "model": "google/gemini-2.5-flash-lite",
24        "isolatedSession": true,
25        "lightContext": true,
26        "activeHours": "09:00-19:00"           // sem heartbeats durante a madrugada
27      },
28      "subagents": {
29        "maxConcurrent": 4,
30        "model": "anthropic/claude-haiku-4-5"
31      },
32      "contextPruning": { "mode": "cache-ttl", "ttl": "1h" },
33      "compaction": {
34        "mode": "safeguard",
35        "model": "anthropic/claude-haiku-4-5",
36        "identifierPolicy": "strict",
37        "memoryFlush": { "enabled": true }
38      },
39      "bootstrapMaxChars": 12000,              // reduzido do padrão 20000
40      "imageModel": "google/gemini-3-flash"    // tarefas visuais via modelo barato
41    }
42  },
43  "memory": { "enabled": true, "max_context_tokens": 800 },  // memória mínima
44  "skills": {
45    "entries": {
46      "web-search":       { "enabled": false },
47      "image-generation": { "enabled": false },
48      "audio-transcribe": { "enabled": false }
49    }
50  }
51}

Exemplo de override por subagente — cole em ~/.openclaw/agents/lint-runner/SOUL.md:

1---
2name: lint-runner
3description: Executa verificações de lint/format e aplica correções triviais
4tools: [Bash, Read, Edit]
5model: anthropic/claude-haiku-4-5
6---

.clawignore mínimo viável — isso sozinho reduz bootstraps típicos de 150 mil caracteres para algo entre 30–50 mil:

1node_modules/
2dist/
3build/
4.next/
5coverage/
6.venv/
7vendor/
8*.lock
9package-lock.json
10yarn.lock
11pnpm-lock.yaml
12*.min.js
13*.min.css
14**/__snapshots__/
15**/*.snap

Faixa de uso	Padrão	Config C	Economia
Leve	~$100	~$12	88%
Moderado	~$500	~$90	82%
Intenso	~$1.750	~$220	87%

Esses números batem com dois relatos independentes de usuários reais: o caso documentado de Praney Behl de (corte de 90%) e os estudos de caso da LaoZhang mostrando com otimização parcial.

Como usar o comando `/model` para controlar o uso de tokens do OpenClaw em tempo real

O comando /model troca o modelo ativo para o próximo turno enquanto preserva o contexto da conversa — sem reset, sem perder histórico. Esse é o hábito diário que multiplica a economia ao longo do tempo.

Fluxo de trabalho prático:

Trabalhando numa refatoração pesada em vários arquivos? Fique no Sonnet.
Pergunta rápida do tipo “o que esse regex faz?”? /model haiku, pergunte, depois /model sonnet para voltar.
Mensagem de commit ou polimento de documentação? /model flash-lite, pronto.

Você pode criar aliases em openclaw.json em commands.aliases para mapear nomes curtos (haiku, sonnet, opus, flash) às strings completas dos provedores. Economiza alguns toques de teclado a cada troca.

A conta: 50 consultas/dia no Sonnet dá algo em torno de US$ 3/dia. As mesmas 50 consultas divididas em 70/20/10 entre Haiku/Sonnet/Opus ficam em cerca de US$ 1,10/dia. Em um mês, isso vai de US$ 90 para US$ 33 — 63% mais barato sem mudar ferramentas, só hábitos.

Bônus: acompanhando preços de modelos do OpenClaw entre provedores com Thunderbit

Com tantos modelos e provedores — OpenRouter, API direta da Anthropic, Google AI Studio, DeepSeek, MiniMax — os preços mudam o tempo todo. A Anthropic reduziu o preço de saída do Opus em cerca de 67% de uma hora para outra. O Google apertou os limites do Gemini no plano gratuito em em dezembro de 2025. Manter uma planilha estática de preços atualizada manualmente é uma batalha perdida.

resolve isso sem precisar de código de scraping. É uma extensão de de AI web scraper feita exatamente para esse tipo de extração estruturada de dados.

O fluxo que eu uso:

Abra a página de modelos do OpenRouter no Chrome e clique em “AI Suggest Fields” do Thunderbit. Ele lê a página e propõe colunas — nome do modelo, preço de entrada, preço de saída, janela de contexto, provedor.
Clique em Scrape e depois exporte diretamente para o Google Sheets.
Configure uma extração agendada em linguagem natural — “toda segunda-feira às 9h, reextraia a lista de modelos do OpenRouter” — e ela roda automaticamente na nuvem.

A partir daí, seu rastreador pessoal de preços se atualiza sozinho. Qualquer modelo que fique 30% mais barato de repente — ou qualquer provedor que receba uma tag Exacto — aparece na sua planilha de segunda-feira de manhã sem você fazer nada. Escrevemos mais sobre no nosso blog.

Comparando preços em páginas diretas dos provedores (Anthropic, Google, DeepSeek)? O scraping de subpáginas do Thunderbit segue cada link de modelo até a página de detalhes e extrai as tarifas por provedor — útil quando você quer saber se rotear Kimi K2.5 via OpenRouter sai mais barato do que ir direto pelo . Veja para detalhes do plano e do plano gratuito.

Principais conclusões para cortar o uso de tokens do OpenClaw

O framework é: Entender → Monitorar → Roteirizar → Otimizar.

Ações de maior impacto, em ordem:

Não deixe Opus como padrão. Troque o modelo principal para Sonnet ou MiniMax M2.7. Isso sozinho já reduz o custo em 3–5x.
Isole os heartbeats. Defina isolatedSession: true e roteie os heartbeats para Gemini Flash-Lite. Isso transforma um consumo de ~100k tokens em ~2–5k.
Roteie subagentes para Haiku. Cada spawn carrega cerca de 20k tokens de contexto antes de fazer qualquer coisa. Não deixe isso acontecer no Opus.
Use /clear com disciplina. É gratuito, leva 5 segundos e, segundo o consenso da comunidade, economiza mais do que qualquer outra ação isolada.
Adicione .clawignore. Excluir node_modules, lockfiles e artefatos de build reduz drasticamente o contexto carregado no bootstrap.
Monitore com /context detail antes e depois das mudanças. Se você não mede, não melhora.

O modelo mais barato depende da tarefa. Gemini Flash-Lite para heartbeats. MiniMax M2.7 para programação diária. Haiku para chamadas de ferramentas confiáveis. Sonnet para trabalhos complexos em várias etapas. Opus só para os problemas realmente mais difíceis — e nada além disso.

A maioria dos leitores consegue ver uma economia de 50–70% numa única tarde com a Config A ou B. A faixa completa de 85–90% exige empilhar tudo o que vimos — roteamento de modelos, correção dos vazamentos ocultos, .clawignore, disciplina de sessão —, mas é perfeitamente possível, e funciona de forma duradoura.

Perguntas frequentes

1. Quanto custa o OpenClaw por mês?

Depende totalmente da sua configuração, do volume de uso e dos modelos escolhidos. Usuários leves (~10 consultas/dia) costumam gastar US$ 5–30/mês com otimização, ou mais de US$ 100 com os padrões. Usuários moderados (~50 consultas/dia) ficam entre US$ 90–400/mês. Usuários intensos podem chegar a com os padrões — um extremo documentado foi US$ 5.623 em um único mês. A própria telemetria interna da Anthropic sugere uma mediana de .

2. Qual é o modelo mais barato do OpenClaw que ainda funciona bem para programar?

O é o melhor modelo diário para uso geral — boa confiabilidade em tool calling, SWE-Pro 56,22, a cerca de US$ 0,28/US$ 1,10 por milhão de tokens. Para heartbeats e consultas simples, o Gemini 2.5 Flash-Lite a US$ 0,10/US$ 0,40 é difícil de bater. O Claude Haiku 4.5, a US$ 1/US$ 5, é o fallback intermediário confiável quando você precisa de excelente tool calling sem pagar o preço do Sonnet.

3. Posso usar modelos de plano gratuito com o OpenClaw?

Tecnicamente, sim. O GPT-OSS-120B é gratuito no tag :free do OpenRouter e no NVIDIA Build. O Gemini Flash-Lite tem plano gratuito (15 RPM, 1.000 requisições/dia). O DeepSeek oferece . Mas planos gratuitos têm limites agressivos, velocidades mais lentas e disponibilidade pouco confiável. Modelos pagos baratos — centavos por milhão de tokens — são bem mais confiáveis para uso regular.

4. Trocar de modelo no meio da conversa com /model faz perder o contexto?

Não. O /model preserva todo o contexto da sessão — o próximo turno vai para o novo modelo com o histórico completo intacto. Isso é confirmado na documentação de conceitos do OpenClaw e funciona do mesmo jeito no Claude Code. Você pode alternar livremente entre Haiku para perguntas rápidas e Sonnet para trabalho complexo sem perder nada.

5. Qual é a forma mais rápida de reduzir minha conta do OpenClaw hoje?

Digite /clear entre tarefas sem relação. É grátis, leva cinco segundos e apaga o histórico da conversa que é reenviado em toda chamada de API. Uma sessão real mostrou de histórico acumulado — tudo isso sendo retransmitido e recobrado em cada turno. Limpar isso antes de começar um novo trabalho é o hábito com melhor retorno que você pode criar.

Experimente Thunderbit para scraping de dados da web com IA

Como reduzi em 90% o uso de tokens do OpenClaw (com os modelos mais baratos dentro)

Precisa de dados personalizados da web?

Experimente o Thunderbit