Wie ich den OpenClaw-Tokenverbrauch um 90 % gesenkt habe (inklusive der günstigsten Modelle)

Mein OpenRouter-Dashboard zeigte an einem Dienstag schon vor dem Mittagessen 47 Dollar Ausgaben. Ich hatte vielleicht ein Dutzend Programmieraufgaben erledigt — nichts Wildes, nur etwas Refactoring und ein paar Bugfixes. Genau da wurde mir klar, dass OpenClaw mit seinen Standardwerten heimlich jede einzelne Interaktion, einschließlich der Background-Heartbeat-Pings, über Claude Opus mit über 15 Dollar pro Million Tokens routete.

Wenn dir so eine Überraschung bekannt vorkommt — und den Foren nach zu urteilen, bist du damit nicht allein („Ich habe bereits 40 Dollar ausgegeben und benutze es kaum“, schrieb ein Nutzer) — dann zeigt dir dieser Leitfaden den kompletten Audit- und Optimierungsansatz, mit dem ich meine monatlichen Kosten um etwa 90 % reduziert habe. Nicht nur „auf ein günstigeres Modell wechseln“, sondern eine systematische Analyse davon, wohin die Tokens tatsächlich fließen, wie du sie überwachen kannst, welche Budget-Modelle sich für echte Agentenarbeit bewähren und welche drei Copy-Paste-Konfigurationen du sofort einsetzen kannst. Der ganze Prozess hat einen Nachmittag gedauert.

Was ist der OpenClaw-Tokenverbrauch – und warum ist er standardmäßig so hoch?

Tokens sind die Abrechnungseinheit für jede KI-Interaktion in OpenClaw. Stell sie dir als winzige Textbausteine vor — ungefähr 4 englische Zeichen pro Token. Jede Nachricht, die du sendest, jede Antwort, die du erhältst, jeder Hintergrundprozess, der anspringt: alles wird in Tokens berechnet.

Das Problem: Die Standardwerte von OpenClaw sind auf maximale Leistungsfähigkeit ausgelegt, nicht auf minimale Kosten. Out of the box ist das Primärmodell auf anthropic/claude-opus-4-5 gesetzt — also auf die teuerste verfügbare Option. Heartbeat-Pings? Die laufen ebenfalls über Opus. Sub-Agents, die für Nebentasks gestartet werden? Ebenfalls Opus. Opus für einen Heartbeat-Ping zu verwenden, ist, als würde man einen Neurochirurgen beauftragen, ein Pflaster aufzukleben. Fachlich möglich, finanziell absurd teuer.

Den meisten Nutzern ist nicht klar, dass sie für triviale Hintergrundaufgaben Premiumpreise zahlen. Die Standardkonfiguration geht im Grunde davon aus, dass du immer und für alles das beste Modell willst — und rechnet genau so ab.

Warum es mehr bringt, den OpenClaw-Tokenverbrauch zu senken als nur Geld zu sparen

Der offensichtliche Vorteil sind niedrigere Kosten. Aber es gibt zusätzliche Effekte, die sich mit der Zeit verstärken.

Günstigere Modelle sind oft schneller. Gemini 2.5 Flash-Lite schafft etwa im Vergleich zu rund 51 bei Opus — also etwa 4x mehr Tempo bei jeder Interaktion. GPT-OSS-120B auf Cerebras erreicht , also ungefähr 35x schneller als Opus. In einer Agenten-Schleife mit mehr als 50 Tool-Calling-Runden bedeutet dieser Geschwindigkeitsvorteil, dass Aufgaben in Minuten erledigt sind, statt bei jedem Round-Trip die schmerzhaften 13,6 Sekunden bis zum ersten Token von Opus abzuwarten.

Außerdem bekommst du mehr Spielraum, bevor Rate Limits greifen, weniger gedrosselte Sessions und Platz zum Skalieren, ohne dass die Rechnung gleich dein Nervenkostüm mit skaliert.

Prognostizierte Einsparungen für verschiedene Nutzungsprofile:

Nutzerprofil	Geschätzte monatliche Kosten (Standard)	Nach vollständiger Optimierung	Monatliche Ersparnis
Gering (~10 Abfragen/Tag)	~$100	~$12	~88%
Mittel (~50 Abfragen/Tag)	~$500	~$90	~82%
Stark (~200+ Abfragen/Tag)	~$1,750	~$220	~87%

Das ist nicht hypothetisch. Ein Entwickler dokumentierte, wie er von kam — also echte 90 % weniger — indem er Modell-Routing mit den später in diesem Leitfaden beschriebenen Maßnahmen gegen versteckte Kostentreiber kombinierte.

Anatomie des OpenClaw-Tokenverbrauchs: Wohin jeder Token tatsächlich geht

Das ist der Teil, den die meisten Optimierungsleitfäden überspringen — und genau der ist am wichtigsten. Was du nicht sehen kannst, kannst du nicht beheben.

Wohin die OpenClaw-Tokens tatsächlich fließen — Aufschlüsselung pro Aufgabe

Ich habe mehrere Sessions untersucht und mit dem sowie Community-/context-Dumps abgeglichen, um ein Token-Ledger für eine typische einzelne Coding-Aufgabe zu erstellen. Hier gingen ungefähr 20.000 Tokens tatsächlich hin:

Token-Kategorie	Typischer Anteil am Gesamtvolumen	Beispiel (1 Coding-Aufgabe)	Kannst du es beeinflussen?
Kontextaufbau (Konversationsverlauf wird bei jedem Call erneut gesendet)	~40–50%	~9.000 Tokens	Ja — `/clear`, `/compact`, kürzere Sessions
Speicherung von Tool-Ausgaben (Shell-Output, Dateiinhalte bleiben im Verlauf)	~20–30%	~5.000 Tokens	Ja — kleinere Reads, engerer Tool-Umfang
Erneutes Senden des System-Prompts (~15K Basis)	~10–15%	~3.000 Tokens	Teilweise — Cache-Reads mit 0,1x Rate
Mehrstufiges Reasoning (verkettete Tool-Calling-Schleifen)	~10–15%	~2.500 Tokens	Modellwahl + bessere Prompts
Heartbeat-/Keep-Alive-Pings	~5–10%	~1.500 Tokens	Ja — Konfigurationsänderung
Sub-Agent-Aufrufe	~5–10%	~1.500 Tokens	Ja — Model Routing

Der größte Einzelposten — der Kontextaufbau — entsteht dadurch, dass dein Gesprächsverlauf bei jedem API-Call erneut mitgeschickt wird. Ein zeigte allein im Messages-Bucket 185.400 Tokens, noch bevor das Modell überhaupt geantwortet hatte. Der System-Prompt und die Tools kamen obendrauf noch auf rund 35.800 Tokens an Fixkosten.

Die wichtigste Erkenntnis: Wenn du Sessions nicht zwischen unabhängigen Aufgaben leerst, bezahlst du bei jedem einzelnen Schritt dafür, deinen gesamten Gesprächsverlauf neu zu übertragen.

So überwachst du den OpenClaw-Tokenverbrauch (man kann nicht sparen, was man nicht sieht)

Bevor du irgendetwas änderst, brauchst du Transparenz darüber, wohin deine Tokens gehen. Direkt mit „nimm ein günstigeres Modell“ loszulegen, ohne zu messen, ist wie Abnehmen ohne jemals auf die Waage zu steigen.

Schau in dein OpenRouter-Dashboard

Wenn du über OpenRouter routest, ist die das einfachste Dashboard ohne Setup. Du kannst nach Modell, Provider, API-Key und Zeitraum filtern. Die Usage-Accounting-Ansicht trennt Prompt-, Completion-, Reasoning- und Cached-Tokens pro Request auf. Für längere Analysen gibt es einen Export-Button (CSV oder PDF).

Worauf du achten solltest: Welches Modell die meisten Tokens verbraucht hat und ob Heartbeat- oder Sub-Agent-Requests als unerwartet große Posten auftauchen.

Prüfe deine lokalen API-Logs

OpenClaw speichert Session-Daten in ~/.openclaw/agents.main/sessions/sessions.json; dort ist totalTokens pro Session enthalten. Außerdem kannst du openclaw logs --follow --json für Live-Logging pro Request verwenden.

Ein wichtiger Hinweis: , weshalb das Dashboard veraltete Werte vor dem Compacting anzeigen kann. Verlass dich eher auf /status und /context detail als auf die gespeicherten Gesamtzahlen.

Nutze Tracking von Drittanbietern (für mittlere bis starke Nutzer)

LiteLLM Proxy stellt dir einen OpenAI-kompatiblen Endpunkt vor 100+ Providern bereit und . Der größte Vorteil: harte Budgets pro Key, die /clear überleben — ein aus dem Ruder laufender Sub-Agent kann also nicht dein gesetztes Limit sprengen.

Helicone ist noch einfacher — ein , der dir eine Sessions-Ansicht für zusammengehörige Requests liefert. Ein einzelner „Beheb diesen Bug“-Prompt, der in 8+ Sub-Agent-Aufrufe auseinanderläuft, erscheint als eine Session-Zeile mit den echten Gesamtkosten. .

Schnelle Kontrollchecks direkt in OpenClaw

Für das tägliche Monitoring reichen vier Befehle in der Session:

/status — zeigt Kontextnutzung, letzte Input-/Output-Tokens, geschätzte Kosten
/usage full — Nutzungs-Footer pro Antwort
/context detail — Token-Aufschlüsselung nach Datei, Skill und Tool
/compact [guidance] — erzwingt Compacting mit optionalem Fokus-String

Führe /context detail vor und nach Konfigurationsänderungen aus. So siehst du, ob deine Optimierungen wirklich etwas gebracht haben.

Das OpenClaw-Showdown der günstigsten Modelle: Welche Budget-LLMs echte Agentenarbeit können

Hier gehen die meisten Leitfäden in die Irre. Sie zeigen dir eine Preistabelle, verweisen auf die billigste Zeile und erklären das Thema für erledigt. Benchmarks sagen aber kaum etwas über reale Agentenleistung aus — darauf weist die Community seit Langem und sehr deutlich hin. Ein Nutzer brachte es so auf den Punkt: „Benchmarks helfen überhaupt nicht dabei zu verstehen, welches Modell für agentische KI am besten funktioniert.“

Die entscheidende Erkenntnis: Das günstigste Modell ist nicht immer die günstigste Lösung. Ein Modell, das scheitert und viermal neu ansetzen muss, kostet mehr als ein Mittelklassemodell, das . In produktiven Agentensystemen solltest du mit einer rechnen — und wenn fünf LLM-Calls verkettet sind und Schritt vier scheitert, startet ein naives Retry die kompletten fünf Schritte erneut.

Hier ist meine Fähigkeitsmatrix mit einem „Real Agentic Score“, der auf echten Nutzerberichten statt auf synthetischen Benchmarks basiert:

Modell	Input $/1M	Output $/1M	Zuverlässigkeit beim Tool-Calling	Mehrstufiges Reasoning	Real Agentic Score (1–5)	Am besten geeignet für
Gemini 2.5 Flash-Lite	$0.10	$0.40	Gemischt — gelegentliche Schleifen	Grundlegend	⭐2.5	Heartbeats, einfache Abfragen
GPT-OSS-120B	$0.04	$0.19	Ausreichend	Ausreichend	⭐3.0	Budget-Experimente, geschwindigkeitskritisch
DeepSeek V3.2	$0.26	$0.38	Inkonsistent (6 offene Issues)	Gut	⭐3.0	Reasoning-lastig, wenig Tool-Calling
Kimi K2.5	$0.38	$1.72	Gut (über :exacto)	Ausreichend	⭐3.5	Einfache bis mittlere Coding-Aufgaben
MiniMax M2.5 / M2.7	$0.28	$1.10	Gut	Gut	⭐4.0	Allzweckmodell für den täglichen Einsatz
Claude Haiku 4.5	$1.00	$5.00	Exzellent	Gut	⭐4.5	Zuverlässiger Fallback der Mittelklasse
Claude Sonnet 4.6	$3.00	$15.00	Exzellent	Exzellent	⭐5.0	Komplexe mehrstufige Aufgaben
Claude Opus 4.5/4.6	$5.00	$15.00	Exzellent	Exzellent	⭐5.0	Nur für die schwierigsten Probleme reservieren

Eine Warnung zu DeepSeek und Gemini Flash beim Tool-Calling

DeepSeek V3.2 sieht auf dem Papier stark aus — 72–74 % auf , 11–36x günstiger als Sonnet. In der Praxis dokumentieren aus Cline, Roo Code, Continue und NVIDIA NIM defektes Tool-Calling-Verhalten. Das Fazit von Composio im Direktvergleich: „.“ Der Kurzkommentar von Zvi Mowshowitz: „.“

Bei Gemini 2.5 Flash gibt es eine ähnliche Lücke. Ein Thread im Google AI Developers Forum mit dem Titel „Very frustrating experience with Gemini 2.5 function calling performance“ beginnt mit: „.“

OpenRouter hat auf eine wichtige Nuance hingewiesen: „.“ Wenn du günstige Modelle über OpenRouter routest, achte auf das :exacto-Tag — ein stiller Provider-Wechsel kann aus einem zuverlässigen Budget-Modell über Nacht eine teure Retry-Schleife machen.

Wann du welches Modell einsetzen solltest

Gemini Flash-Lite: Heartbeats, Keep-Alive-Pings, einfache Q&A. Niemals für mehrstufiges Tool-Calling.
MiniMax M2.5/M2.7: Dein tägliches Standardmodell für allgemeine Coding-Aufgaben. zu einem Bruchteil des Sonnet-Preises.
Claude Haiku 4.5: Der verlässliche Fallback, wenn günstige Modelle beim Tool-Calling hängen bleiben. Hervorragend bei der Tool-Calling-Zuverlässigkeit und etwa 3x günstiger als Sonnet.
Claude Sonnet 4.6: Komplexe, mehrstufige Agentenarbeit. Hier bekommst du echten Gegenwert.
Claude Opus: Nur für die schwersten Probleme reservieren. Lass es niemals dein Standardmodell für irgendetwas sein.

(Die Modellpreise ändern sich häufig — prüfe die aktuellen Tarife auf oder direkt auf den Seiten der Provider, bevor du eine Konfiguration festschreibst.)

Die versteckten Token-Lecks, die die meisten Leitfäden auslassen

Nutzer in Foren berichten, dass das Deaktivieren bestimmter Funktionen die Kosten drastisch senkt, aber kein Leitfaden, den ich gefunden habe, liefert eine gemeinsame Checkliste aller versteckten Kostentreiber mit ihrem tatsächlichen Token-Effekt. Hier die komplette Analyse:

Versteckter Kostentreiber	Token-Kosten pro Auftreten	So behebst du es	Konfigurationsschlüssel
Standard-Heartbeat auf Opus	~100.000 Tokens/Lauf ohne Isolierung	Haiku-Override + isolatedSession	`heartbeat.model`, `heartbeat.isolatedSession: true`
Erzeugung von Sub-Agents	~20.000 Tokens pro Spawn noch vor der eigentlichen Arbeit	Sub-Agents auf Haiku routen	`subagents.model`
Vollständiges Laden des Codebase-Kontexts	~3.000–15.000 Tokens pro Auto-Explore	`.clawignore` für node_modules, dist, Lockfiles	`.clawrules` + `.clawignore`
Automatisches Zusammenfassen des Speichers	~500–2.000 Tokens/Session	Deaktivieren oder Frequenz senken	`memory: false` oder `memory.max_context_tokens`
Anhäufung des Konversationsverlaufs	~500+ Tokens/Turn (kumulativ)	Zwischen unabhängigen Aufgaben neue Sessions starten	`/clear`-Disziplin
Tool-Overhead durch MCP-Server	~7.000 Tokens für 4 Server; 50.000+ bei 5+	MCPs minimal halten	Unbenutzte MCPs entfernen
Initialisierung von Skills/Plugins	200–1.000 Tokens pro geladenem Skill	Unbenutzte Skills deaktivieren	`skills.entries.<name>.enabled: false`
Agent Teams (Plan-Modus)	~7x Standard-Session-Kosten	Nur für echte Parallelarbeit nutzen	Sequenziell bevorzugen

Der Heartbeat-Kostentreiber verdient eine eigene Hervorhebung. Standardmäßig laufen Heartbeats alle 30 Minuten auf dem Primärmodell (Opus). Mit isolatedSession: true sinkt das von etwa 100.000 Tokens pro Lauf auf — also 95–98 % weniger in genau diesem Posten.

Drei schnelle Maßnahmen, die in unter zwei Minuten die meisten Tokens sparen

Alle drei sind risikofrei und dauern weniger als zwei Minuten:

Zwischen unabhängigen Aufgaben /clear nutzen (5 Sekunden). Das ist der größte einzelne Sparhebel. Der Forenkonsens sieht hier allein dadurch, dass man den Session-Verlauf vor neuem Arbeiten leert. Erinnerst du dich an den 185k-Token-Messages-Bucket aus dem /context-Dump? /clear löscht ihn.
Für Routineaufgaben /model haiku-4.5 verwenden (10 Sekunden). Ein taktischer Modellwechsel bringt bei Standardaufgaben. Haiku kann die meisten einfachen Coding-Aufgaben, Dateiabfragen und Commit-Nachrichten problemlos erledigen.
.clawrules auf unter 200 Zeilen reduzieren + .clawignore hinzufügen (90 Sekunden). Deine Rules-Datei wird bei jeder einzelnen Nachricht geladen. Bei 200 Zeilen sind das etwa 1.500–2.000 Tokens pro Turn; bei 1.000 Zeilen belastet sie dauerhaft jede Anfrage mit 8.000–10.000 Tokens. Zusammen mit einer .clawignore, die node_modules/, dist/, Lockfiles und generierten Code ausschließt, berichtet ein Entwickler von einer allein durch diese Disziplin.

Schritt für Schritt: Drei sofort nutzbare Konfigurationen, um den OpenClaw-Tokenverbrauch zu senken

OpenClaw monatliche Ausgaben — Standard- vs. optimierte Konfigurationen

Im Folgenden findest du drei vollständige, kommentierte openclaw.json-Konfigurationen — von „einfach nur loslegen“ bis „vollständiger Optimierungs-Stack“. Jede enthält Inline-Kommentare und Schätzungen der monatlichen Kosten.

Bevor du startest:

Schwierigkeit: Anfänger (Config A) → Fortgeschritten (Config B) → Pro (Config C)
Zeitbedarf: ca. 5 Minuten für Config A, ca. 15 Minuten für Config C
Was du brauchst: installierter OpenClaw, ein Texteditor, Zugriff auf ~/.openclaw/openclaw.json

Config A: Anfänger — einfach Kosten sparen

Fünf Zeilen. Keine Komplexität. Tauscht das Standardmodell von Opus auf Sonnet, deaktiviert Memory-Overhead und isoliert Heartbeats auf Haiku.

1// ~/.openclaw/openclaw.json
2{
3  "agents": {
4    "defaults": {
5      "model": { "primary": "anthropic/claude-sonnet-4-6" },  // war Opus — sofort 3–5x günstiger
6      "heartbeat": {
7        "every": "55m",                // auf 1h Cache-TTL abgestimmt für maximale Cache-Hits
8        "model": "anthropic/claude-haiku-4-5",  // Haiku für Pings, nicht Opus
9        "isolatedSession": true        // ~100k → 2–5k Tokens pro Lauf
10      }
11    }
12  },
13  "memory": { "enabled": false }       // spart ~500–2k Tokens/Session
14}

Was du nach der Anwendung sehen solltest: Führe /status vor und nachher aus. Deine Kosten pro Anfrage sollten spürbar sinken, und Heartbeat-Einträge in deiner OpenRouter-Activity-Seite sollten Haiku statt Opus anzeigen.

Nutzungsstufe	Standard (Opus)	Config A (Sonnet + Haiku-Heartbeats)	Ersparnis
Gering (~10 Abfragen/Tag)	~$100	~$35	65%
Mittel (~50 Abfragen/Tag)	~$500	~$250	50%
Stark (~200 Abfragen/Tag)	~$1,750	~$900	49%

Config B: Fortgeschritten — intelligentes Drei-Stufen-Routing

Sonnet als Primärmodell für echte Arbeit. Haiku für Sub-Agents und Compacting. Gemini Flash-Lite als Budget-Fallback, wenn Claude gedrosselt ist. Fallback-Ketten fangen Provider-Ausfälle automatisch ab.

1{
2  "agents": {
3    "defaults": {
4      "model": {
5        "primary": "anthropic/claude-sonnet-4-6",
6        "fallbacks": [
7          "anthropic/claude-haiku-4-5",       // falls Sonnet gedrosselt wird
8          "google/gemini-2.5-flash-lite"      // ultra-günstige letzte Option
9        ]
10      },
11      "models": {
12        "anthropic/claude-sonnet-4-6": {
13          "params": { "cacheControlTtl": "1h", "maxTokens": 8192 }
14        }
15      },
16      "heartbeat": {
17        "every": "55m",                       // 55 Min &lt; 1h Cache-TTL = Cache-Treffer
18        "model": "google/gemini-2.5-flash-lite",  // Centbeträge pro Ping
19        "isolatedSession": true,
20        "lightContext": true                   // minimaler Kontext für Heartbeat-Calls
21      },
22      "subagents": {
23        "maxConcurrent": 4,                   // runter von standardmäßig 8
24        "model": "anthropic/claude-haiku-4-5" // Sub-Agents brauchen kein Sonnet
25      },
26      "compaction": {
27        "mode": "safeguard",
28        "model": "anthropic/claude-haiku-4-5", // Komprimierungszusammenfassungen via Haiku
29        "memoryFlush": { "enabled": true }
30      }
31    }
32  }
33}

Erwartetes Ergebnis: Sub-Agent-Einträge in deinen Logs sollten jetzt Haiku-Preise zeigen. Heartbeats sollten nahezu nichts kosten. Deine Fallback-Kette sorgt dafür, dass ein Claude-Ausfall deine Session nicht blockiert — sie fällt sauber auf Gemini zurück.

Nutzungsstufe	Standard	Config B	Ersparnis
Gering	~$100	~$20	80%
Mittel	~$500	~$150	70%
Stark	~$1,750	~$500	71%

Config C: Power User — vollständiger Optimierungs-Stack

Modellzuweisung pro Sub-Agent, Kontext-Compacting auf Haiku festgelegt, Vision-Routing auf Gemini Flash, schlanke .clawrules + .clawignore, ungenutzte Skills deaktiviert. Das ist die Konfiguration, mit der du in den Bereich von 85–90 % Ersparnis kommst.

1{
2  "agents": {
3    "defaults": {
4      "workspace": "~/clawd",
5      "model": {
6        "primary": "anthropic/claude-sonnet-4-6",
7        "fallbacks": [
8          "openrouter/anthropic/claude-sonnet-4-6",  // anderer Provider als Backup
9          "minimax/minimax-m2-7",                     // günstiger Daily-Driver-Fallback
10          "anthropic/claude-haiku-4-5"                // letzte Option
11        ]
12      },
13      "models": {
14        "anthropic/claude-sonnet-4-6": {
15          "params": { "cacheControlTtl": "1h", "maxTokens": 8192 }
16        },
17        "minimax/minimax-m2-7": {
18          "params": { "maxTokens": 8192 }
19        }
20      },
21      "heartbeat": {
22        "every": "55m",
23        "model": "google/gemini-2.5-flash-lite",
24        "isolatedSession": true,
25        "lightContext": true,
26        "activeHours": "09:00-19:00"           // nachts keine Heartbeats
27      },
28      "subagents": {
29        "maxConcurrent": 4,
30        "model": "anthropic/claude-haiku-4-5"
31      },
32      "contextPruning": { "mode": "cache-ttl", "ttl": "1h" },
33      "compaction": {
34        "mode": "safeguard",
35        "model": "anthropic/claude-haiku-4-5",
36        "identifierPolicy": "strict",
37        "memoryFlush": { "enabled": true }
38      },
39      "bootstrapMaxChars": 12000,              // runter vom Standard 20000
40      "imageModel": "google/gemini-3-flash"    // Vision-Aufgaben über günstiges Modell
41    }
42  },
43  "memory": { "enabled": true, "max_context_tokens": 800 },  // minimales Memory
44  "skills": {
45    "entries": {
46      "web-search":       { "enabled": false },
47      "image-generation": { "enabled": false },
48      "audio-transcribe": { "enabled": false }
49    }
50  }
51}

Per-Sub-Agent-Override-Beispiel — in ~/.openclaw/agents/lint-runner/SOUL.md einfügen:

1---
2name: lint-runner
3description: Führt Lint-/Format-Checks aus und behebt triviale Fehler
4tools: [Bash, Read, Edit]
5model: anthropic/claude-haiku-4-5
6---

Minimal brauchbare .clawignore — allein das senkt typische Bootstraps von 150k Zeichen auf etwa 30–50k:

1node_modules/
2dist/
3build/
4.next/
5coverage/
6.venv/
7vendor/
8*.lock
9package-lock.json
10yarn.lock
11pnpm-lock.yaml
12*.min.js
13*.min.css
14**/__snapshots__/
15**/*.snap

Nutzungsstufe	Standard	Config C	Ersparnis
Gering	~$100	~$12	88%
Mittel	~$500	~$90	82%
Stark	~$1,750	~$220	87%

Diese Zahlen passen zu zwei unabhängigen Berichten aus der Praxis: Praney Behl dokumentierte einen Rückgang von (90 % weniger) und die LaoZhang-Case-Studies zeigen mit teilweiser Optimierung .

Mit dem `/model`-Befehl den OpenClaw-Tokenverbrauch spontan steuern

Der /model-Befehl wechselt das aktive Modell für die nächste Runde, ohne deinen Gesprächskontext zu verlieren — kein Reset, kein Datenverlust. Das ist die tägliche Gewohnheit, die sich über Zeit stark auszahlt.

Praktischer Workflow:

Du arbeitest an einem kniffligen Multi-File-Refactor? Bleib auf Sonnet.
Kurze Frage wie „Was macht dieser Regex?“? /model haiku, Frage stellen, danach mit /model sonnet zurückwechseln.
Commit-Message oder Feinschliff an Doku? /model flash-lite, fertig.

Du kannst in openclaw.json unter commands.aliases Aliase einrichten, um kurze Namen (haiku, sonnet, opus, flash) auf vollständige Provider-Strings abzubilden. Spart bei jedem Wechsel ein paar Tastenanschläge.

Die Rechnung: 50 Abfragen pro Tag mit Sonnet kosten ungefähr 3 Dollar pro Tag. Dieselben 50 Abfragen, aufgeteilt zu 70/20/10 über Haiku/Sonnet/Opus, kosten etwa 1,10 Dollar pro Tag. Auf den Monat gerechnet sind das 90 Dollar → 33 Dollar — 63 % günstiger, ohne Tools zu wechseln, nur durch Gewohnheiten.

Bonus: OpenClaw-Modellpreise über mehrere Provider mit Thunderbit verfolgen

Bei so vielen Modellen und Providern — OpenRouter, direkte Anthropic-API, Google AI Studio, DeepSeek, MiniMax — ändern sich Preise ständig. Anthropic hat den Opus-Output-Preis über Nacht um rund 67 % gesenkt. Google hat im Dezember 2025 die Gemini-Free-Tier-Limits um reduziert. Eine statische Preis-Spreadsheet manuell aktuell zu halten, ist ein aussichtsloser Kampf.

löst das ohne Scraping-Code. Es ist eine für KI-Web-Scraping, genau gemacht für strukturierte Datenerfassung wie diese.

So arbeite ich damit:

Die OpenRouter-Modelle-Seite in Chrome öffnen und in Thunderbit auf „AI Suggest Fields“ klicken. Die Seite wird ausgelesen und die Spalten vorgeschlagen — Modellname, Input-Preis, Output-Preis, Context Window, Provider.
Auf Scrape klicken und direkt nach Google Sheets exportieren.
Einen geplanten Scrape in normalem Deutsch einrichten — „jeden Montag um 9 Uhr die OpenRouter-Modellliste neu auslesen“ — und die Cloud erledigt das automatisch.

Ab dann aktualisiert sich dein persönlicher Preis-Tracker von selbst. Jedes Modell, das plötzlich 30 % günstiger wird — oder jeder Provider, der ein Exacto-Tag bekommt — taucht am Montagmorgen in deiner Tabelle auf, ohne dass du einen Finger rühren musst. Mehr über findest du in unserem Blog.

Vergleichst du Preise direkt auf Provider-Seiten (Anthropic, Google, DeepSeek)? Thunderbits Subpage-Scraping folgt jedem Modell-Link zur Detailseite und zieht die jeweiligen Tarife heraus — praktisch, wenn du wissen willst, ob das Routing von Kimi K2.5 über OpenRouter günstiger ist als direkt über . Sieh dir für Free-Tier- und Plan-Details an.

Zentrale Erkenntnisse zur Senkung des OpenClaw-Tokenverbrauchs

Das Framework: Verstehen → Überwachen → Routen → Optimieren.

Die wirksamsten Maßnahmen, sortiert nach Wirkung:

Nicht standardmäßig Opus verwenden. Stell dein Primärmodell auf Sonnet oder MiniMax M2.7 um. Das allein senkt die Kosten um das 3–5-Fache.
Heartbeats isolieren. Setze isolatedSession: true und route Heartbeats zu Gemini Flash-Lite. Dadurch wird aus einem Verbrauch von rund 100k Tokens ein Wert von etwa 2–5k.
Sub-Agents auf Haiku routen. Jeder Spawn lädt vor der eigentlichen Arbeit rund 20k Tokens Kontext. Das sollte auf Opus nicht passieren.
/clear konsequent nutzen. Kostenlos, fünf Sekunden, und laut Community bringt keine andere Einzelmaßnahme mehr.
.clawignore hinzufügen. Das Ausschließen von node_modules, Lockfiles und Build-Artefakten reduziert den Bootstrap-Kontext drastisch.
Vor und nach Änderungen mit /context detail messen. Was du nicht messen kannst, kannst du nicht verbessern.

Das günstigste Modell hängt von der Aufgabe ab. Gemini Flash-Lite für Heartbeats. MiniMax M2.7 für tägliches Coding. Haiku für zuverlässiges Tool-Calling. Sonnet für komplexe mehrstufige Arbeit. Opus nur für die wirklich härtesten Probleme — und sonst für nichts.

Die meisten Leser erreichen mit Config A oder B schon an einem einzigen Nachmittag 50–70 % weniger Kosten. Die vollen 85–90 % erfordern das Stapeln aller Maßnahmen — Model Routing, Beheben versteckter Kostentreiber, .clawignore, Disziplin bei Sessions — aber es ist machbar und nachhaltig.

FAQs

1. Was kostet OpenClaw pro Monat?

Das hängt vollständig von deiner Konfiguration, deinem Nutzungsvolumen und der Modellwahl ab. Nutzer mit geringer Aktivität (~10 Abfragen/Tag) geben mit Optimierung typischerweise 5–30 Dollar/Monat aus, oder über 100 Dollar mit den Standardwerten. Bei mittlerer Nutzung (~50 Abfragen/Tag) liegt die Spanne bei 90–400 Dollar/Monat. Vielnutzer erreichen mit den Standardwerten — ein dokumentierter Extremfall lag bei 5.623 Dollar in nur einem Monat. Anthropics eigene Telemetrie deutet auf einen Median von hin.

2. Welches OpenClaw-Modell ist am günstigsten und trotzdem gut zum Coden?

ist der beste Allround-Daily-Driver — solide Tool-Calling-Zuverlässigkeit, SWE-Pro 56.22, bei ungefähr 0,28/1,10 Dollar pro Million Tokens. Für Heartbeats und einfache Abfragen ist Gemini 2.5 Flash-Lite mit 0,10/0,40 Dollar kaum zu schlagen. Claude Haiku 4.5 mit 1/5 Dollar ist der verlässliche Fallback der Mittelklasse, wenn du exzellentes Tool-Calling brauchst, ohne Sonnet-Preise zu zahlen.

3. Kann ich kostenlose Modelle mit OpenClaw verwenden?

Technisch ja. GPT-OSS-120B ist kostenlos über das :free-Tag von OpenRouter und über NVIDIA Build verfügbar. Gemini Flash-Lite hat ein Free Tier (15 RPM, 1.000 Requests/Tag). DeepSeek bietet bei der Anmeldung . Aber Free Tiers haben harte Rate Limits, langsamere Geschwindigkeit und oft unzuverlässige Verfügbarkeit. Günstige kostenpflichtige Modelle — also nur Centbeträge pro Million Tokens — sind für den regelmäßigen Einsatz deutlich zuverlässiger.

4. Verliere ich meinen Kontext, wenn ich mitten in der Unterhaltung mit /model das Modell wechsle?

Nein. /model behält den vollständigen Session-Kontext bei — die nächste Runde läuft dann mit dem neuen Modell, aber die komplette Historie bleibt erhalten. Das ist in der OpenClaw-Dokumentation zu den Konzepten bestätigt und funktioniert genauso in Claude Code. Du kannst also problemlos zwischen Haiku für schnelle Fragen und Sonnet für komplexe Arbeit wechseln, ohne etwas zu verlieren.

5. Was ist der schnellste Weg, um heute meine OpenClaw-Rechnung zu senken?

Tippe zwischen unabhängigen Aufgaben /clear. Das ist kostenlos, dauert fünf Sekunden und löscht den Gesprächsverlauf, der bei jedem API-Call erneut mitgesendet wird. Eine reale Session zeigte angesammelten Nachrichtenverlauf — alles wurde bei jedem Turn erneut übertragen und erneut berechnet. Diesen Verlauf vor neuen Aufgaben zu löschen, ist die Gewohnheit mit dem höchsten ROI.

Thunderbit für KI-Web-Scraping ausprobieren

Wie ich den OpenClaw-Tokenverbrauch um 90 % gesenkt habe (inklusive der günstigsten Modelle)

Brauchst du individuelle Webdaten?

Teste Thunderbit