Jak jsem snížil využití tokenů v OpenClaw o 90 % (nejlevnější modely uvnitř)

Naposledy aktualizováno April 14, 2026

Můj dashboard v OpenRouteru ukázal do úterý před obědem utracených 47 dolarů. Stihl jsem asi tucet programovacích úkolů — nic divokého, jen refactoring a pár oprav chyb. V tu chvíli mi došlo, že výchozí nastavení OpenClaw tiše posílá úplně každou interakci, včetně background heartbeat pingů, přes Claude Opus za víc než 15 dolarů za milion tokenů.

Jestli vás někdy překvapil podobný účet — a podle fór nejste sami („už jsem utratil 40 dolarů a ani to pořádně nepoužívám,“ napsal jeden uživatel) — tenhle průvodce vás provede celým postupem auditu a optimalizace, díky kterému jsem dostal měsíční náklady zhruba o 90 % dolů. Nejde jen o „přepnutí na levnější model“, ale o systematické rozebrání toho, kam tokeny opravdu mizí, jak je sledovat, které budget modely obstojí i při reálné agentní práci, a o tři hotové konfigurace, které můžete použít hned dnes. Celé to zabralo jedno odpoledne.

Co je využití tokenů v OpenClaw (a proč je ve výchozím stavu tak vysoké)?

Tokeny jsou účetní jednotkou pro každou AI interakci v OpenClaw. Představ si je jako malé úseky textu — zhruba 4 anglické znaky na jeden token. Každá zpráva, kterou odešleš, každá odpověď, kterou dostaneš, i každý background proces, který se spustí, se účtuje v tokenech.

Problém je v tom, že výchozí nastavení OpenClaw je laděné na maximální výkon, ne na minimální cenu. V základu je primární model nastavený na anthropic/claude-opus-4-5 — tedy na nejdražší dostupnou volbu. Heartbeat pings? I ty běží na Opusu. Sub-agenti, kteří se spouštějí pro vedlejší úkoly? Také Opus. Používat Opus na heartbeat ping je jako najmout neurochirurga, aby ti nalepil náplast. Technicky to funguje, ale je to katastrofálně předražené.

Většina uživatelů si vůbec neuvědomuje, že platí prémiové sazby za triviální background úlohy. Výchozí konfigurace v podstatě předpokládá, že chcete nejlepší model na všechno, pořád — a odpovídajícím způsobem si to účtuje.

Proč snížení využití tokenů v OpenClaw šetří víc než jen peníze

Nejzřejmější přínos je úspora nákladů. Ale časem se přidávají i další výhody.

Levnější modely bývají často rychlejší. Gemini 2.5 Flash-Lite zvládá zhruba oproti Opusu s asi 51 — tedy zhruba 4× rychleji při každé interakci. GPT-OSS-120B na Cerebras dosahuje , což je přibližně 35× víc než Opus. V agentním cyklu s více než 50 koly volání nástrojů tenhle rozdíl znamená dokončení za minuty místo čekání na bolestivých 13,6 sekundy do prvního tokenu u Opusu při každém zpětném okruhu.

Získáte také větší rezervu před limity, méně zadržených session a prostor škálovat využití bez toho, abyste škálovali i úzkost z účtu.

Odhadované úspory podle různých profilů použití:

Typ uživateleOdhadovaná měsíční útrata (výchozí stav)Po plné optimalizaciMěsíční úspora
Lehký (~10 dotazů/den)~$100~$12~88%
Střední (~50 dotazů/den)~$500~$90~82%
Těžký (~200+ dotazů/den)~$1,750~$220~87%

Tohle nejsou hypotézy. Jeden vývojář zdokumentoval, že se dostal z — skutečné snížení o 90 % — díky kombinaci modelového routování a oprav skrytých průsaků, které rozebírám níže.

Anatomie využití tokenů v OpenClaw: kam se každý token opravdu poděje

Tuhle část většina průvodců přeskočí, a přitom je nejdůležitější. Nemůžeš opravit to, co nevidíš.

Kam se tokeny v OpenClaw skutečně ztrácejí — rozpad podle úloh

Prošel jsem několik session a porovnal je s a komunitními /context dumpy, abych vytvořil tokenový rozpis pro typický jeden programovací úkol. Přibližně 20 000 tokenů šlo sem:

This paragraph contains content that cannot be parsed and has been skipped.

Jestli vás někdy překvapil podobný účet — a podle fór nejste sami („už jsem utratil 40 dolarů a ani to pořádně nepoužívám,“ napsal jeden uživatel) — tenhle průvodce vás provede celým postupem auditu a optimalizace, díky kterému jsem dostal měsíční náklady zhruba o 90 % dolů. Nejde jen o „přepnutí na levnější model“, ale o systematické rozebrání toho, kam tokeny opravdu mizí, jak je sledovat, které budget modely obstojí i při reálné agentní práci, a o tři hotové konfigurace, které můžete použít hned dnes. Celé to zabralo jedno odpoledne.

Co je využití tokenů v OpenClaw (a proč je ve výchozím stavu tak vysoké)?

Tokeny jsou účetní jednotkou pro každou AI interakci v OpenClaw. Představte si je jako malé úseky textu — zhruba 4 anglické znaky na jeden token. Každá zpráva, kterou odešlete, každá odpověď, kterou dostanete, i každý background proces, který se spustí, se účtuje v tokenech.

Problém je v tom, že výchozí nastavení OpenClaw je laděné na maximální výkon, ne na minimální cenu. V základu je primární model nastavený na anthropic/claude-opus-4-5 — tedy na nejdražší dostupnou volbu. Heartbeat pings? I ty běží na Opusu. Sub-agenti, kteří se spouštějí pro vedlejší úkoly? Také Opus. Používat Opus na heartbeat ping je jako najmout neurochirurga, aby vám nalepil náplast. Technicky to funguje, ale je to katastrofálně předražené.

Většina uživatelů si vůbec neuvědomuje, že platí prémiové sazby za triviální background úlohy. Výchozí konfigurace v podstatě předpokládá, že chcete nejlepší model na všechno, pořád — a odpovídajícím způsobem si to účtuje.

Proč snížení využití tokenů v OpenClaw šetří víc než jen peníze

Nejzřejmější přínos je úspora nákladů. Ale časem se přidávají i další výhody.

Levnější modely bývají často rychlejší. Gemini 2.5 Flash-Lite zvládá zhruba oproti Opusu s asi 51 — tedy zhruba 4× rychleji při každé interakci. GPT-OSS-120B na Cerebras dosahuje , což je přibližně 35× víc než Opus. V agentním cyklu s více než 50 koly volání nástrojů tenhle rozdíl znamená dokončení za minuty místo čekání na bolestivých 13,6 sekundy do prvního tokenu u Opusu při každém zpětném okruhu.

Získáte také větší rezervu před limity, méně zadržených session a prostor škálovat využití bez toho, abyste škálovali i úzkost z účtu.

Odhadované úspory podle různých profilů použití:

Typ uživateleOdhadovaná měsíční útrata (výchozí stav)Po plné optimalizaciMěsíční úspora
Lehký (~10 dotazů/den)~$100~$12~88%
Střední (~50 dotazů/den)~$500~$90~82%
Těžký (~200+ dotazů/den)~$1,750~$220~87%

Tohle nejsou hypotézy. Jeden vývojář zdokumentoval, že se dostal z — skutečné snížení o 90 % — díky kombinaci modelového routování a oprav skrytých průsaků, které rozebírám níže.

Anatomie využití tokenů v OpenClaw: kam se každý token opravdu poděje

Tuhle část většina průvodců přeskočí, a přitom je nejdůležitější. Nemůžete opravit to, co nevidíte.

Kam se tokeny v OpenClaw skutečně ztrácejí — rozpad podle úloh

Prošel jsem několik session a porovnal je s a komunitními /context dumpy, abych vytvořil tokenový rozpis pro typický jeden programovací úkol. Přibližně 20 000 tokenů šlo sem:

Kategorie tokenůTypické % z celkuPříklad (1 programovací úkol)Dá se to ovlivnit?
Akumulace kontextu (historie konverzace se posílá znovu při každém volání)~40–50%~9 000 tokenůAno — /clear, /compact, kratší session
Ukládání výstupů nástrojů (shell output, čtení souborů v historii)~20–30%~5 000 tokenůAno — menší čtení, užší rozsah nástrojů
Znovuposílání systémového promptu (~15K základ)~10–15%~3 000 tokenůČástečně — cache reads za 0,1× sazby
Vícekrokové uvažování (řetězené cykly volání nástrojů)~10–15%~2 500 tokenůVolbou modelu + lepšími prompty
Heartbeat / keep-alive pings~5–10%~1 500 tokenůAno — změna konfigurace
Volání sub-agentů~5–10%~1 500 tokenůAno — routování modelů

Největší položka — akumulace kontextu — je vaše historie konverzace, která se při každém API volání posílá znovu. Jeden ukázal 185 400 tokenů jen v bucketu Messages, a to ještě předtím, než model vůbec odpověděl. K tomu systémový prompt a nástroje přidaly dalších zhruba 35 800 tokenů pevného overheadu.

Závěr: pokud mezi nesouvisejícími úkoly nečistíte session, platíte za přenos celé historie konverzace při každém jediném kroku.

Jak sledovat využití tokenů v OpenClaw (co neměříte, to neosekáte)

Než změníte cokoliv jiného, získejte přehled o tom, kam tokeny odcházejí. Skočit rovnou na „použijte levnější model“ bez monitoringu je jako snažit se zhubnout bez vážení.

Zkontrolujte dashboard v OpenRouteru

Pokud routujete přes OpenRouter, stránka je nejjednodušší dashboard bez nastavování. Můžete filtrovat podle modelu, provideru, API klíče i časového období. Zobrazení Usage Accounting rozpadá prompt, completion, reasoning a cached tokeny u každého requestu. K dispozici je i tlačítko Export (CSV nebo PDF) pro delší analýzu.

Na co se dívat: který model spálil nejvíc tokenů a jestli se heartbeat nebo sub-agent requesty neobjevují jako nečekaně velké položky.

Projděte lokální API logy

OpenClaw ukládá session data do ~/.openclaw/agents.main/sessions/sessions.json, kde je u každé session totalTokens. Můžete také spustit openclaw logs --follow --json pro průběžné logování každého requestu v reálném čase.

Jeden důležitý detail: , takže dashboard může ukazovat staré hodnoty před kompakcí. Spoléhejte spíš na /status a /context detail než na uložené součty.

Použijte tracking třetích stran (pro střední až těžké uživatele)

LiteLLM proxy vám dá endpoint kompatibilní s OpenAI před 100+ providery a . Největší výhoda: tvrdé rozpočty na klíč, které přežijí /clear — rozjetý sub-agent nepřekročí limit, který jste nastavili.

Helicone je ještě jednodušší — , která vám přidá Sessions view pro seskupení souvisejících requestů. Jeden prompt „opravte tuhle chybu“, který se rozpadne do 8+ volání sub-agentů, se zobrazí jako jeden řádek session s reálnými celkovými náklady. .

Rychlé kontroly přímo v OpenClaw

Pro každodenní monitoring stačí čtyři příkazy přímo v session:

  • /status — ukazuje využití kontextu, poslední input/output tokeny, odhad nákladů
  • /usage full — footer s využitím u každé odpovědi
  • /context detail — rozpis tokenů podle souboru, skillu a nástroje
  • /compact [guidance] — vynutí kompakci s volitelným zaměřením

Spusťte /context detail před změnami konfigurace i po nich. Tak zjistíte, jestli optimalizace opravdu fungovala.

Souboj o nejlevnější model OpenClaw: které budget LLM zvládnou agentní práci doopravdy

Většina průvodců tady chybuje. Ukážou tabulku cen, označí nejlevnější řádek a hotovo. Benchmarky ale neříkají moc o reálném agentním výkonu — to komunita opakovaně zdůrazňuje velmi hlasitě. Jak to vyjádřil jeden uživatel: „benchmarky vůbec nepomáhají pochopit, který model funguje nejlépe pro agentní AI.“

Klíčový poznatek: nejlevnější model není vždy nejlevnější výsledná volba. Model, který selže a opakuje pokus čtyřikrát, vás ve skutečnosti stojí víc než střední třída, která . V produkčních agentních systémech počítejte s — a pokud se pět LLM volání řetězí a krok čtyři selže, naivní retry spustí znovu všech pět kroků.

Tady je moje matice schopností s „Real Agentic Score“ založeným na skutečných hlášeních uživatelů, ne na syntetických benchmarkech:

ModelInput $/1MOutput $/1MSpolehlivost tool-callingVícekrokové uvažováníReal Agentic Score (1–5)Nejlepší pro
Gemini 2.5 Flash-Lite$0.10$0.40Smíšená — občasné smyčkyZákladní⭐2.5Heartbeat, jednoduché dotazy
GPT-OSS-120B$0.04$0.19DostatečnáDostatečné⭐3.0Budget experimenty, úlohy citlivé na rychlost
DeepSeek V3.2$0.26$0.38Nekonzistentní (6 otevřených issue)Dobré⭐3.0Úlohy náročné na reasoning, minimum tool-calling
Kimi K2.5$0.38$1.72Dobrá (přes :exacto)Dostatečné⭐3.5Jednodušší až středně náročné kódování
MiniMax M2.5 / M2.7$0.28$1.10DobráDobrá⭐4.0Každodenní univerzální model na programování
Claude Haiku 4.5$1.00$5.00VýbornáDobrá⭐4.5Spolehlivý mid-tier fallback
Claude Sonnet 4.6$3.00$15.00VýbornáVýborná⭐5.0Složité vícekrokové úkoly
Claude Opus 4.5/4.6$5.00$15.00VýbornáVýborná⭐5.0Rezervovat jen pro nejtěžší problémy

Varování před DeepSeek a Gemini Flash při tool callingu

DeepSeek V3.2 vypadá na papíře skvěle — 72–74 % na , 11–36× levnější než Sonnet. V praxi ale v Cline, Roo Code, Continue a NVIDIA NIM popisuje rozbité chování při volání nástrojů. Verdikt Composio v přímém srovnání: „.“ Jednovětý soud Zvi Mowshowitze: „.“

Gemini 2.5 Flash má podobnou mezeru. Vlákno na Google AI Developers Forum s názvem „Very frustrating experience with Gemini 2.5 function calling performance“ začíná větou: „."

OpenRouter upozornil na důležitý detail: „.“ Pokud levné modely routujete přes OpenRouter, hledejte štítek :exacto — tichá změna providera může z levného a spolehlivého modelu přes noc udělat drahou retry smyčku.

Kdy použít který model

  • Gemini Flash-Lite: Heartbeat, keep-alive pings, jednoduché Q&A. Nikdy ne pro vícekrokové volání nástrojů.
  • MiniMax M2.5/M2.7: Váš každodenní model pro obecné programovací úlohy. za zlomek ceny Sonnetu.
  • Claude Haiku 4.5: Spolehlivý fallback, když levné modely selhávají při volání nástrojů. Výborná spolehlivost tool-callingu za asi 3× nižší cenu než Sonnet.
  • Claude Sonnet 4.6: Složité vícekrokové agentní úlohy. Tady dostáváte za peníze skutečnou hodnotu.
  • Claude Opus: Nechte si ho jen pro opravdu nejtěžší problémy. Nenechte z něj dělat výchozí volbu pro cokoliv.

(Ceny modelů se často mění — před nasazením konfigurace si ověřte aktuální sazby na nebo na stránkách příslušného providera.)

Skryté průsaky tokenů, které většina průvodců vynechává

Uživatelé na fórech hlásí, že vypnutí konkrétních funkcí dramaticky sníží náklady, ale žádný průvodce, který jsem našel, nedává dohromady jednotný checklist všech skrytých průsaků i s jejich skutečným dopadem na tokeny. Tady je kompletní rozklad:

Skrytý průsakCena v tokenech na výskytJak to opravitKlíč v konfiguraci
Výchozí heartbeat na Opusu~100 000 tokenů/spuštění bez izolaceOverride na Haiku + isolatedSessionheartbeat.model, heartbeat.isolatedSession: true
Spouštění sub-agentů~20 000 tokenů na spawn ještě před samotnou pracíSměrovat sub-agenty na Haikusubagents.model
Načítání plného kontextu codebase~3 000–15 000 tokenů na auto-explore.clawignore pro node_modules, dist, lockfiles.clawrules + .clawignore
Automatické shrnování paměti~500–2 000 tokenů/sessionVypnout nebo snížit frekvencimemory: false nebo memory.max_context_tokens
Hromadění historie konverzace~500+ tokenů/turn (kumulativně)Začínat nové session mezi nesouvisejícími úkolyDisciplína s /clear
Přetížení nástroji MCP serverů~7 000 tokenů pro 4 servery; 50 000+ pro 5+Držet MCP na minimuOdstranit nepoužívané MCP
Inicializace skillů/pluginů200–1 000 tokenů za načtený skillVypnout nepoužívané skillsskills.entries.<name>.enabled: false
Agent Teams (plan mode)~7× cena standardní sessionPoužívat jen pro opravdu paralelní práciUpřednostnit sekvenční postup

Heartbeat dren si zaslouží vlastní upozornění. Ve výchozím stavu heartbeat každých 30 minut běží na primárním modelu (Opus). Nastavení isolatedSession: true to srazí zhruba z ~100 000 tokenů na spuštění — tedy o 95–98 % u jediné položky.

Tři rychlé výhry, které ušetří nejvíc tokenů za méně než dvě minuty

Všechny tři jsou bezrizikové a zvládnete je do dvou minut:

  1. /clear mezi nesouvisejícími úkoly (5 sekund). Tohle je největší úspora tokenů. Shoda na fórech mluví o už jen tím, že před novou prací smažete historii session. Pamatujete na bucket Messages s 185k tokeny z /context dumpu? /clear ho vymaže.

  2. /model haiku-4.5 pro rutinní práci (10 sekund). Taktické přepínání modelů přináší u běžných úkolů. Haiku bez problémů zvládne většinu jednoduchého kódování, hledání v souborech i commit message.

  3. Zkraťte .clawrules na méně než 200 řádků + přidejte .clawignore (90 sekund). Soubor s pravidly se načítá při každé jediné zprávě. Při 200 řádcích je to asi 1 500–2 000 tokenů na turn; při 1 000 řádcích už permanentně zatěžujete každý request o 8 000–10 000 tokenů. V kombinaci s .clawignore, který vyloučí node_modules/, dist/, lockfiles a generovaný kód, jeden vývojář tvrdí, že z toho dostal už jen díky této disciplíně.

Krok za krokem: tři připravené konfigurace, které dramaticky sníží využití tokenů v OpenClaw

Měsíční útrata v OpenClaw — výchozí vs. optimalizované konfigurace

Následují tři kompletní, okomentované konfigurace openclaw.json — od varianty „jen začněte šetřit“ po „plný optimalizační stack“. Každá obsahuje inline komentáře i odhad měsíčních nákladů.

Než začnete:

  • Obtížnost: Začátečník (Config A) → Středně pokročilý (Config B) → Pokročilý (Config C)
  • Časová náročnost: ~5 minut pro Config A, ~15 minut pro Config C
  • Co budete potřebovat: nainstalovaný OpenClaw, textový editor, přístup k ~/.openclaw/openclaw.json

Config A: Začátečník — prostě ušetřit peníze

Pět řádků. Žádná složitost. Mění výchozí model z Opusu na Sonnet, vypíná memory overhead a izoluje heartbeat na Haiku.

1// ~/.openclaw/openclaw.json
2{
3  "agents": {
4    "defaults": {
5      "model": { "primary": "anthropic/claude-sonnet-4-6" },  // dříve Opus — okamžitá úspora 3–5×
6      "heartbeat": {
7        "every": "55m",                // sladěno s 1h TTL cache pro maximum cache hitů
8        "model": "anthropic/claude-haiku-4-5",  // Haiku na pingy, ne Opus
9        "isolatedSession": true        // ~100k → 2–5k tokenů na spuštění
10      }
11    }
12  },
13  "memory": { "enabled": false }       // ušetří ~500–2k tokenů/session
14}

Co byste měli vidět po použití: Spusťte /status předtím a potom. Cena na jeden request by měla viditelně spadnout a heartbeat položky v OpenRouter Activity by měly ukazovat Haiku místo Opusu.

Úroveň použitíVýchozí stav (Opus)Config A (Sonnet + Haiku heartbeats)Úspora
Lehká (~10 dotazů/den)~$100~$3565%
Střední (~50 dotazů/den)~$500~$25050%
Těžká (~200 dotazů/den)~$1,750~$90049%

Config B: Středně pokročilý — chytré tříúrovňové routování

Primární Sonnet pro skutečnou práci. Haiku pro sub-agenty a kompakci. Gemini Flash-Lite jako budget fallback, když je Claude přetížený. Fallback řetězce řeší výpadky providera automaticky.

1{
2  "agents": {
3    "defaults": {
4      "model": {
5        "primary": "anthropic/claude-sonnet-4-6",
6        "fallbacks": [
7          "anthropic/claude-haiku-4-5",       // pokud je Sonnet throttled
8          "google/gemini-2.5-flash-lite"      // ultra-levná poslední záchrana
9        ]
10      },
11      "models": {
12        "anthropic/claude-sonnet-4-6": {
13          "params": { "cacheControlTtl": "1h", "maxTokens": 8192 }
14        }
15      },
16      "heartbeat": {
17        "every": "55m",                       // 55 min &lt; 1h cache TTL = cache hit
18        "model": "google/gemini-2.5-flash-lite",  // pár haléřů za ping
19        "isolatedSession": true,
20        "lightContext": true                   // minimum kontextu u heartbeat callů
21      },
22      "subagents": {
23        "maxConcurrent": 4,                   // dolů z výchozích 8
24        "model": "anthropic/claude-haiku-4-5" // sub-agenti nepotřebují Sonnet
25      },
26      "compaction": {
27        "mode": "safeguard",
28        "model": "anthropic/claude-haiku-4-5", // shrnutí kompakce přes Haiku
29        "memoryFlush": { "enabled": true }
30      }
31    }
32  }
33}

Očekávaný výsledek: Položky pro sub-agenty v logu by teď měly ukazovat ceny Haiku. Heartbeat by měl být téměř zdarma. Váš fallback chain zajistí, že výpadek Claude nezastaví session — plynule se přepne na Gemini.

Úroveň použitíVýchozí stavConfig BÚspora
Lehká~$100~$2080%
Střední~$500~$15070%
Těžká~$1,750~$50071%

Config C: Power user — plný optimalizační stack

Model po sub-agentovi, kompakce kontextu připnutá na Haiku, vision routování na Gemini Flash, úzký .clawrules + .clawignore, vypnuté nepoužívané skills. Tohle je konfigurace, která vás dostane do pásma 85–90% úspory.

1{
2  "agents": {
3    "defaults": {
4      "workspace": "~/clawd",
5      "model": {
6        "primary": "anthropic/claude-sonnet-4-6",
7        "fallbacks": [
8          "openrouter/anthropic/claude-sonnet-4-6",  // jiný provider jako záloha
9          "minimax/minimax-m2-7",                     // levný denní fallback
10          "anthropic/claude-haiku-4-5"                // poslední záchrana
11        ]
12      },
13      "models": {
14        "anthropic/claude-sonnet-4-6": {
15          "params": { "cacheControlTtl": "1h", "maxTokens": 8192 }
16        },
17        "minimax/minimax-m2-7": {
18          "params": { "maxTokens": 8192 }
19        }
20      },
21      "heartbeat": {
22        "every": "55m",
23        "model": "google/gemini-2.5-flash-lite",
24        "isolatedSession": true,
25        "lightContext": true,
26        "activeHours": "09:00-19:00"           // v noci bez heartbeatů
27      },
28      "subagents": {
29        "maxConcurrent": 4,
30        "model": "anthropic/claude-haiku-4-5"
31      },
32      "contextPruning": { "mode": "cache-ttl", "ttl": "1h" },
33      "compaction": {
34        "mode": "safeguard",
35        "model": "anthropic/claude-haiku-4-5",
36        "identifierPolicy": "strict",
37        "memoryFlush": { "enabled": true }
38      },
39      "bootstrapMaxChars": 12000,              // dolů z výchozích 20000
40      "imageModel": "google/gemini-3-flash"    // vision úlohy přes levný model
41    }
42  },
43  "memory": { "enabled": true, "max_context_tokens": 800 },  // minimální paměť
44  "skills": {
45    "entries": {
46      "web-search":       { "enabled": false },
47      "image-generation": { "enabled": false },
48      "audio-transcribe": { "enabled": false }
49    }
50  }
51}

Příklad override pro konkrétní sub-agent — vložte do ~/.openclaw/agents/lint-runner/SOUL.md:

1---
2name: lint-runner
3description: Spouští lint/format kontroly a aplikuje triviální opravy
4tools: [Bash, Read, Edit]
5model: anthropic/claude-haiku-4-5
6---

Minimum viable .clawignore — už to samo o sobě stáhne typické bootstrapy ze 150k znaků někam k 30–50k:

1node_modules/
2dist/
3build/
4.next/
5coverage/
6.venv/
7vendor/
8*.lock
9package-lock.json
10yarn.lock
11pnpm-lock.yaml
12*.min.js
13*.min.css
14**/__snapshots__/
15**/*.snap
Úroveň použitíVýchozí stavConfig CÚspora
Lehká~$100~$1288%
Střední~$500~$9082%
Těžká~$1,750~$22087%

Tato čísla odpovídají dvěma nezávislým reportům reálných uživatelů: zdokumentovanému poklesu Praney Behlových nákladů z (snížení o 90 %) a případovým studiím LaoZhang, kde šlo z při částečné optimalizaci.

Jak používat příkaz /model ke kontrole využití tokenů v OpenClaw za běhu

Příkaz /model přepne aktivní model pro další turn, ale zachová kontext vaší konverzace — žádný reset, žádná ztracená historie. To je každodenní návyk, který postupně přináší velké úspory.

Praktický workflow:

  • Pracujete na ošklivém refactoru ve více souborech? Zůstaňte na Sonnetu.
  • Rychlý dotaz „co dělá tenhle regex?“? /model haiku, zeptejte se, pak /model sonnet pro návrat.
  • Commit message nebo úprava dokumentace? /model flash-lite, hotovo.

Můžete si nastavit aliasy v openclaw.json pod commands.aliases, které mapují krátká jména (haiku, sonnet, opus, flash) na plné provider řetězce. Ušetří to pár stisků kláves při každém přepnutí.

Počty: 50 dotazů denně na Sonnetu je zhruba 3 dolary denně. Stejných 50 dotazů rozdělených v poměru 70/20/10 mezi Haiku/Sonnet/Opus je asi 1,10 dolaru denně. Za měsíc je to $90 → $33 — o 63 % levnější bez změny nástrojů, jen díky návykům.

Bonus: Jak sledovat ceny modelů OpenClaw napříč providery pomocí Thunderbit

S tolika modely a providery — OpenRouter, přímé Anthropic API, Google AI Studio, DeepSeek, MiniMax — se ceny často mění. Anthropic přes noc snížil cenu výstupu u Opusu zhruba o 67 %. Google v prosinci 2025 stáhl limity free tieru . Udržovat statickou cenovou tabulku ručně aktuální je prohraný boj.

to řeší bez jakéhokoli scraping kódu. Je to AI web scraper jako , navržený přesně pro tenhle typ strukturované extrakce dat.

Postup, který používám:

  1. Otevřu stránku modelů v OpenRouteru v Chromu a kliknu na Thunderbit „AI Suggest Fields“. Projde stránku a navrhne sloupce — název modelu, input price, output price, context window, provider.
  2. Kliknu na Scrape a hned to vyexportuju do Google Sheets.
  3. Nastavím scheduled scrape obyčejnou angličtinou — „každé pondělí v 9 ráno znovu projdi seznam modelů v OpenRouteru“ — a poběží to automaticky v cloudu.

Od té chvíle se váš vlastní tracker cen aktualizuje sám. Jakýkoli model, který zlevní o 30 %, nebo provider, který dostane štítek Exacto, se objeví v pondělní tabulce bez toho, abyste se o něco starali. Více jsme o psali na blogu.

Porovnáváte ceny na přímých stránkách providerů (Anthropic, Google, DeepSeek)? Thunderbit umí subpage scraping, takže otevře každou stránku modelu a vytáhne sazby podle providera — hodí se, když chcete vědět, jestli je routování Kimi K2.5 přes OpenRouter levnější než přímé použití přes . Podívejte se na pro informace o free tieru a plánech.

Klíčové závěry pro snížení využití tokenů v OpenClaw

Rámec je jednoduchý: Pochopit → Sledovat → Routovat → Optimalizovat.

Největší dopad mají tyto kroky, seřazené podle důležitosti:

  1. Nenechávejte jako výchozí Opus. Přepněte primární model na Sonnet nebo MiniMax M2.7. Už to samo o sobě znamená 3–5× nižší náklady.
  2. Izolujte heartbeat. Nastavte isolatedSession: true a routujte heartbeat na Gemini Flash-Lite. Z průsaku ~100k tokenů uděláte ~2–5k.
  3. Směrujte sub-agenty na Haiku. Každý spawn načte kolem 20k tokenů kontextu ještě před tím, než začne pracovat. Nenechávejte to běžet na Opusu.
  4. Používejte /clear bez výjimky. Je zdarma, trvá 5 sekund a podle komunity šetří víc než jakýkoli jiný jednotlivý krok.
  5. Přidejte .clawignore. Vyloučení node_modules, lockfiles a build artefaktů dramaticky zmenší bootstrap kontext.
  6. Monitorujte přes /context detail před změnami i po nich. Co neměříte, nemůžete zlepšit.

Nejlevnější model závisí na úkolu. Gemini Flash-Lite na heartbeat. MiniMax M2.7 na každodenní kódování. Haiku na spolehlivé volání nástrojů. Sonnet na složitou vícekrokovou práci. Opus jen pro opravdu nejtěžší problémy — a nic jiného.

Většina čtenářů může během jediného odpoledne ušetřit 50–70 % s Config A nebo B. Plných 85–90 % vyžaduje naskládat všechno dohromady — modelové routování, opravy skrytých průsaků, .clawignore, disciplínu se session — ale je to dosažitelné a výsledky drží.

Často kladené otázky

1. Kolik stojí OpenClaw měsíčně?

Záleží čistě na vaší konfiguraci, objemu použití a volbě modelu. Lehcí uživatelé (~10 dotazů/den) obvykle utratí po optimalizaci 5–30 dolarů měsíčně, zatímco ve výchozím stavu přes 100 dolarů. Střední uživatelé (~50 dotazů/den) se pohybují zhruba na 90–400 dolarech měsíčně. Těžcí uživatelé mohou na defaultu dosáhnout — jeden zdokumentovaný extrém byl 5 623 dolarů za jediný měsíc. Interní telemetrie Anthropic naznačuje medián kolem .

2. Jaký je nejlevnější model OpenClaw, který je pořád dobrý na kódování?

je nejlepší obecný denní model — dobrá spolehlivost tool-callingu, SWE-Pro 56.22, za zhruba $0.28/$1.10 za milion tokenů. Pro heartbeat a jednoduché dotazy je Gemini 2.5 Flash-Lite za $0.10/$0.40 těžké porazit. Claude Haiku 4.5 za $1/$5 je spolehlivý mid-tier fallback, když potřebujete výborné volání nástrojů bez cen Sonnetu.

3. Můžu v OpenClaw používat modely z free tieru?

Technicky ano. GPT-OSS-120B je zdarma přes tag :free v OpenRouteru i na NVIDIA Build. Gemini Flash-Lite má free tier (15 RPM, 1 000 requestů denně). DeepSeek dává . Free tier ale mívá tvrdé rate limity, nižší rychlost a horší dostupnost. Levné placené modely — pár haléřů za milion tokenů — jsou pro běžné používání mnohem spolehlivější.

4. Ztratím po přepnutí modelu uprostřed konverzace přes /model kontext?

Ne. /model zachová celý kontext session — další turn se pošle novému modelu, ale s kompletní historií. Je to potvrzené v dokumentaci OpenClaw k pojmům a funguje to stejně i v Claude Code. Můžete volně přecházet mezi Haiku pro rychlé otázky a Sonnetem pro složitou práci, aniž byste o cokoliv přišli.

5. Jaký je nejrychlejší způsob, jak dnes snížit účet za OpenClaw?

Zadejte /clear mezi nesouvisejícími úkoly. Je to zdarma, trvá pět sekund a smaže historii konverzace, která se při každém API volání posílá znovu. Jedna reálná session ukázala nashromážděné historie zpráv — a vše se přenášelo a účtovalo znovu při každém kroku. Vymazat to před začátkem nové práce je návyk s nejvyšší návratností.

Shuai Guan
Shuai Guan
Co-founder/CEO @ Thunderbit. Passionate about cross section of AI and Automation. He's a big advocate of automation and loves making it more accessible to everyone. Beyond tech, he channels his creativity through a passion for photography, capturing stories one picture at a time.
Topics
využití tokenů OpenClawnejlevnější model OpenClaw
Obsah

Vyzkoušej Thunderbit

Získej leady a další data jen na 2 kliknutí. Pohání AI.

Získej Thunderbit Je to zdarma
Získej data pomocí AI
Snadno přenes data do Google Sheets, Airtable nebo Notion
PRODUCT HUNT#1 Product of the Week