Jak obniżyłem zużycie tokenów w OpenClaw o 90% (najtańsze modele w środku)

Mój panel OpenRouter pokazał 47 dolarów wydane przed lunchem we wtorek. Zrobiłem może kilkanaście zadań programistycznych — nic szalonego, tylko trochę refaktoryzacji i kilka poprawek błędów. Wtedy dotarło do mnie, że domyślne ustawienia OpenClaw po cichu kierowały każdą interakcję, łącznie z pingami heartbeat w tle, do Claude Opus, czyli modelu kosztującego 15+ dolarów za milion tokenów.

Jeśli też przytrafiły Ci się podobne niespodzianki — a sądząc po forach, nie jesteś w tym sam — ten poradnik przeprowadzi Cię przez pełny audyt i optymalizację, dzięki którym obniżyłem miesięczny koszt o około 90%. To nie jest tylko proste „zamień model na tańszy”, ale systematyczne rozłożenie na czynniki pierwsze tego, gdzie naprawdę uciekają tokeny, jak je monitorować, które budżetowe modele sprawdzają się w realnej pracy agentowej oraz trzy gotowe konfiguracje do skopiowania. Całość zajęła mi jedno popołudnie.

Czym jest zużycie tokenów w OpenClaw i dlaczego domyślnie jest tak wysokie?

Tokeny są jednostką rozliczeniową dla każdej interakcji AI w OpenClaw. Najłatwiej myśleć o nich jak o małych kawałkach tekstu — mniej więcej 4 znaki angielskie na token. Każda wysłana wiadomość, każda odebrana odpowiedź, każdy uruchomiony proces w tle — wszystko jest liczone w tokenach.

Problem w tym, że domyślne ustawienia OpenClaw są zoptymalizowane pod maksymalną jakość, a nie pod minimalny koszt. „Out of the box” główny model ustawiony jest na anthropic/claude-opus-4-5 — najdroższą dostępną opcję. Pingi heartbeat? One też lecą na Opus. Sub-agenci uruchamiani do zadań pobocznych? Też Opus. Używanie Opusa do pinga heartbeat to jak zatrudnienie neurochirurga do przyklejenia plastra. Technicznie możliwe, ale absurdalnie drogie.

Większość użytkowników nie zdaje sobie sprawy, że płaci premium za drobne zadania w tle. Domyślna konfiguracja zakłada, że chcesz zawsze najlepszy model do wszystkiego — i wystawia rachunek zgodnie z tym założeniem.

Dlaczego ograniczenie zużycia tokenów w OpenClaw daje więcej niż tylko oszczędność pieniędzy

Najbardziej oczywista korzyść to niższy koszt. Ale są też dodatkowe plusy, które z czasem się kumulują.

Tańsze modele są często szybsze. Gemini 2.5 Flash-Lite działa z prędkością około wobec około 51 w przypadku Opusa — to 4x szybsza odpowiedź przy każdej interakcji. GPT-OSS-120B na Cerebras osiąga , czyli około 35x szybciej niż Opus. W pętli agentowej z 50+ iteracjami wywołań narzędzi taka różnica oznacza zakończenie pracy w kilka minut zamiast czekania na bolesne 13,6 sekundy do pierwszego tokena przy każdym obiegu Opusa.

Zyskujesz też większy zapas zanim trafisz na limity przepustowości, mniej sesji przycinanych przez throttling i przestrzeń do skalowania użycia bez skalowania nerwów związanych z rachunkiem.

Szacowane oszczędności w różnych profilach użycia:

Profil użytkownika	Szacowany miesięczny koszt (domyślnie)	Po pełnej optymalizacji	Miesięczna oszczędność
Lekki (~10 zapytań/dzień)	~$100	~$12	~88%
Średni (~50 zapytań/dzień)	~$500	~$90	~82%
Intensywny (~200+ zapytań/dzień)	~$1,750	~$220	~87%

To nie są teoretyczne liczby. Jeden deweloper opisał zejście z — realne cięcie o 90% — dzięki połączeniu routingu modeli z ukrytymi wyciekami, które opisuję dalej w tym poradniku.

Anatomia zużycia tokenów w OpenClaw: dokąd naprawdę trafia każdy token

To jest fragment, który większość poradników pomija, a właśnie on ma największe znaczenie. Nie da się naprawić czegoś, czego nie widać.

Gdzie naprawdę trafiają tokeny OpenClaw — rozbicie na zadania

Przeanalizowałem kilka sesji i porównałem je z oraz zrzutami /context ze społeczności, żeby zbudować rejestr tokenów dla typowego pojedynczego zadania programistycznego. Oto, gdzie mniej więcej rozchodzi się około 20 000 tokenów:

Kategoria tokenów	Typowy % całości	Przykład (1 zadanie programistyczne)	Czy masz nad tym kontrolę?
Akumulacja kontekstu (historia rozmowy dosyłana przy każdym wywołaniu)	~40–50%	~9,000 tokenów	Tak — `/clear`, `/compact`, krótsze sesje
Przechowywanie wyników narzędzi (output z shella, odczyty plików trzymane w historii)	~20–30%	~5,000 tokenów	Tak — mniejsze odczyty, węższy zakres narzędzi
Ponowne wysyłanie promptu systemowego (~15K bazowo)	~10–15%	~3,000 tokenów	Częściowo — odczyty cache po stawce 0.1x
Wieloetapowe rozumowanie (łańcuchowe pętle wywołań narzędzi)	~10–15%	~2,500 tokenów	Wybór modelu + lepsze prompty
Pingi heartbeat / keep-alive	~5–10%	~1,500 tokenów	Tak — zmiana konfiguracji
Wywołania sub-agentów	~5–10%	~1,500 tokenów	Tak — routing modeli

Największa pozycja — akumulacja kontekstu — to Twoja historia rozmowy wysyłana ponownie przy każdym wywołaniu API. Jeden pokazał 185,400 tokenów tylko w bucketcie Messages, zanim model w ogóle odpowiedział. Prompt systemowy i narzędzia dorzuciły do tego kolejne ~35,800 tokenów stałego narzutu.

Wniosek: jeśli nie czyścisz sesji między niezależnymi zadaniami, płacisz za ponowne przesyłanie całej historii rozmowy przy każdej turze.

Jak monitorować zużycie tokenów w OpenClaw (nie da się ciąć tego, czego nie widać)

Zanim cokolwiek zmienisz, zyskaj wgląd w to, dokąd płyną tokeny. Skakanie od razu do „użyj tańszego modelu” bez monitoringu jest jak próba schudnięcia bez wchodzenia na wagę.

Sprawdź pulpit OpenRouter

Jeśli routujesz przez OpenRouter, strona to najprostszy pulpit bez konfiguracji. Możesz filtrować po modelu, dostawcy, kluczu API i zakresie czasu. Widok Usage Accounting rozbija prompt, completion, reasoning i cached tokens dla każdego żądania. Jest też przycisk Export (CSV lub PDF) do dłuższej analizy.

Na co patrzeć: który model zużył najwięcej tokenów oraz czy pingi heartbeat albo wywołania sub-agentów nie pojawiają się jako zaskakująco duże pozycje.

Przeanalizuj lokalne logi API

OpenClaw przechowuje dane sesji w ~/.openclaw/agents.main/sessions/sessions.json, gdzie znajduje się totalTokens dla każdej sesji. Możesz też uruchomić openclaw logs --follow --json, aby uzyskać logowanie per-request w czasie rzeczywistym.

Jedna ważna uwaga: , więc panel może pokazywać nieaktualne wartości sprzed kompaktacji. Zamiast zapisanych sum ufaj /status oraz /context detail.

Skorzystaj z narzędzi zewnętrznych do monitorowania (dla użytkowników od średniego do intensywnego)

LiteLLM proxy daje endpoint zgodny z OpenAI przed 100+ dostawcami i . Najlepsza funkcja: twarde budżety per klucz, które działają nawet po /clear — niekontrolowany sub-agent nie przebije ustalonego limitu.

Helicone jest jeszcze prostsze — wystarczy , a dostajesz widok Sessions grupujący powiązane żądania. Jeden prompt „napraw ten błąd”, który rozgałęzia się do 8+ wywołań sub-agentów, pojawia się jako jeden wiersz sesji z prawdziwym całkowitym kosztem. .

Szybkie sprawdzenia bezpośrednio w OpenClaw

Do codziennego monitoringu wystarczą cztery komendy w sesji:

/status — pokazuje użycie kontekstu, ostatnie tokeny wejścia/wyjścia, szacunkowy koszt
/usage full — stopka użycia dla każdej odpowiedzi
/context detail — rozbicie tokenów per plik, per skill, per narzędzie
/compact [guidance] — wymusza kompakcję z opcjonalnym stringiem kierunkowym

Uruchom /context detail przed i po zmianach w konfiguracji. Dzięki temu sprawdzisz, czy Twoje optymalizacje rzeczywiście działają.

Pojedynek na najtańszy model w OpenClaw: które budżetowe LLM-y naprawdę radzą sobie z pracą agentową

Wiele poradników myli się właśnie tutaj. Pokazują tabelę cen, wskazują najtańszy wiersz i na tym kończą. Benchmarks nie przewidują realnej wydajności w pracy agentowej — społeczność podkreśla to głośno i wielokrotnie. Jak ujął to jeden użytkownik: „benchmarks w ogóle nie pomagają zrozumieć, który model najlepiej sprawdza się w agentowym AI”.

Kluczowa obserwacja: najtańszy model nie zawsze daje najtańszy efekt końcowy. Model, który się wywala i wymaga czterech prób, kosztuje więcej niż model ze średniej półki, który . W produkcyjnych systemach agentowych zakładaj — a jeśli pięć wywołań LLM jest połączonych w łańcuch i krok czwarty zawiedzie, naiwna ponowna próba uruchomi wszystkie pięć kroków od nowa.

Oto moja macierz możliwości z „Real Agentic Score” opartym na rzeczywistych raportach użytkowników, a nie na syntetycznych benchmarkach:

Model	Wejście $/1M	Wyjście $/1M	Niezawodność wywołań narzędzi	Rozumowanie wieloetapowe	Real Agentic Score (1–5)	Najlepsze zastosowanie
Gemini 2.5 Flash-Lite	$0.10	$0.40	Mieszane — sporadyczne pętle	Podstawowe	⭐2.5	Pingi heartbeat, proste wyszukiwania
GPT-OSS-120B	$0.04	$0.19	Wystarczające	Wystarczające	⭐3.0	Eksperymenty budżetowe, zadania krytyczne pod kątem szybkości
DeepSeek V3.2	$0.26	$0.38	Niespójne (6 otwartych issue)	Dobre	⭐3.0	Zadania mocno nastawione na rozumowanie, minimalne wywołania narzędzi
Kimi K2.5	$0.38	$1.72	Dobre (przez :exacto)	Wystarczające	⭐3.5	Prostsze i średniozaawansowane kodowanie
MiniMax M2.5 / M2.7	$0.28	$1.10	Dobre	Dobre	⭐4.0	Codzienny model do ogólnego kodowania
Claude Haiku 4.5	$1.00	$5.00	Doskonałe	Dobre	⭐4.5	Niezawodny średniopółkowy backup
Claude Sonnet 4.6	$3.00	$15.00	Doskonałe	Doskonałe	⭐5.0	Złożone zadania wieloetapowe
Claude Opus 4.5/4.6	$5.00	$15.00	Doskonałe	Doskonałe	⭐5.0	Tylko do najtrudniejszych problemów

Ostrzeżenie dotyczące DeepSeek i Gemini Flash przy wywołaniach narzędzi

DeepSeek V3.2 wygląda świetnie na papierze — 72–74% na , 11–36x taniej niż Sonnet. W praktyce w Cline, Roo Code, Continue i NVIDIA NIM dokumentuje błędne działanie tool calling. Werdykt Composio w bezpośrednim porównaniu: „.” Jednozdaniowy komentarz Zvi Mowshowitza: „.”

Gemini 2.5 Flash ma podobną lukę. Wątek na Google AI Developers Forum zatytułowany „Very frustrating experience with Gemini 2.5 function calling performance” zaczyna się od: „."

OpenRouter zwrócił uwagę na ważny niuans: „.” Jeśli routujesz tanie modele przez OpenRouter, szukaj tagu :exacto — cicha zmiana dostawcy może z dnia na dzień zamienić niezawodny tani model w kosztowną pętlę retry.

Kiedy używać którego modelu

Gemini Flash-Lite: Pingi heartbeat, keep-alive, proste Q&A. Nigdy do wieloetapowego tool calling.
MiniMax M2.5/M2.7: Twój codzienny model do ogólnych zadań programistycznych. za ułamek ceny Sonnet.
Claude Haiku 4.5: Niezawodny fallback, gdy tanie modele nie radzą sobie z wywołaniami narzędzi. Doskonała niezawodność przy około 3x niższej cenie niż Sonnet.
Claude Sonnet 4.6: Złożona, wieloetapowa praca agentowa. Tu dostajesz realny zwrot z wydanych pieniędzy.
Claude Opus: Zostaw go do najtrudniejszych problemów. Nie pozwól, by był domyślny do czegokolwiek.

(Ceny modeli zmieniają się często — przed wdrożeniem konfiguracji sprawdź aktualne stawki na albo na stronach bezpośrednich dostawców.)

Ukryte źródła pożerania tokenów, które większość poradników pomija

Użytkownicy na forach zgłaszają, że wyłączenie konkretnych funkcji znacząco obniża koszty, ale żaden poradnik, na który trafiłem, nie daje jednego wspólnego checklistu wszystkich ukrytych drenów i ich realnego wpływu na tokeny. Pełny przegląd:

Ukryty dren	Koszt tokenowy na wystąpienie	Jak naprawić	Klucz konfiguracji
Domyślny heartbeat na Opus	~100,000 tokenów/uruchomienie bez izolacji	Nadpisanie na Haiku + isolatedSession	`heartbeat.model`, `heartbeat.isolatedSession: true`
Uruchamianie sub-agentów	~20,000 tokenów na uruchomienie jeszcze przed rozpoczęciem pracy	Kieruj sub-agentów do Haiku	`subagents.model`
Ładowanie pełnego kontekstu bazy kodu	~3,000–15,000 tokenów na auto-explore	`.clawignore` dla node_modules, dist, lockfile’ów	`.clawrules` + `.clawignore`
Automatyczne podsumowanie pamięci	~500–2,000 tokenów/sesję	Wyłącz lub zmniejsz częstotliwość	`memory: false` albo `memory.max_context_tokens`
Akumulacja historii rozmowy	~500+ tokenów/turę (narastająco)	Zaczynaj nowe sesje między niezależnymi zadaniami	Dyscyplina `/clear`
Narzut narzędzi serwera MCP	~7,000 tokenów dla 4 serwerów; 50,000+ dla 5+	Trzymaj MCP minimalnie	Usuń nieużywane MCP
Inicjalizacja skilli/pluginów	200–1,000 tokenów na załadowany skill	Wyłącz nieużywane skille	`skills.entries.<name>.enabled: false`
Agent Teams (tryb planowania)	~7x standardowy koszt sesji	Używaj tylko do naprawdę równoległej pracy	Preferuj sekwencyjnie

Osobnego omówienia wymaga dren związany z heartbeat. Domyślnie heartbeat odpala się na głównym modelu (Opus) co 30 minut. Ustawienie isolatedSession: true obniża to z około 100,000 tokenów na uruchomienie — czyli o 95–98% dla tej jednej kategorii.

Trzy szybkie wygrane, które oszczędzają najwięcej tokenów w mniej niż dwie minuty

Wszystkie trzy są bezpieczne i zajmują mniej niż dwie minuty:

/clear między niezależnymi zadaniami (5 sekund). To pojedyncza największa oszczędność tokenów. Konsensus na forach mówi o już samym wyczyszczeniem historii sesji przed nową pracą. Pamiętasz bucket Messages z 185k tokenów z dumpa /context? /clear go usuwa.
/model haiku-4.5 do prostych zadań (10 sekund). Taktyczne przełączanie modelu daje w rutynowych zadaniach. Haiku bardzo dobrze radzi sobie z większością prostych zadań programistycznych, odczytem plików i wiadomościami commitów.
Skróć .clawrules do <200 linii + dodaj .clawignore (90 sekund). Plik z regułami ładuje się przy każdej wiadomości. Przy 200 liniach to około 1,500–2,000 tokenów na turę; przy 1,000 liniach robi się to 8,000–10,000 tokenów stałego narzutu każdego requestu. W połączeniu z .clawignore, który wyklucza node_modules/, dist/, pliki lock i wygenerowany kod, jeden deweloper twierdzi, że uzyskał wyłącznie dzięki tej dyscyplinie.

Krok po kroku: trzy gotowe do skopiowania konfiguracje, które drastycznie obniżą zużycie tokenów OpenClaw

Miesięczny wydatek OpenClaw — konfiguracja domyślna vs zoptymalizowana

Poniżej znajdziesz trzy kompletne, opisane konfiguracje openclaw.json — od „po prostu zacznij oszczędzać” do „pełny stos optymalizacji”. Każda zawiera komentarze w linii i szacunkowe koszty miesięczne.

Zanim zaczniesz:

Poziom trudności: Początkujący (Config A) → Średni (Config B) → Zaawansowany (Config C)
Czas potrzebny: ~5 minut dla Config A, ~15 minut dla Config C
Czego potrzebujesz: zainstalowanego OpenClaw, edytora tekstu, dostępu do ~/.openclaw/openclaw.json

Config A: Początkujący — po prostu oszczędzaj pieniądze

Pięć linii. Zero komplikacji. Zastępuje domyślny model Opus modelem Sonnet, wyłącza narzut pamięci i izoluje heartbeat do Haiku.

1// ~/.openclaw/openclaw.json
2{
3  "agents": {
4    "defaults": {
5      "model": { "primary": "anthropic/claude-sonnet-4-6" },  // zamiast Opus — natychmiastowe oszczędności 3-5x
6      "heartbeat": {
7        "every": "55m",                // dopasowanie do 1h cache TTL dla maks. trafień cache
8        "model": "anthropic/claude-haiku-4-5",  // Haiku do pingów, nie Opus
9        "isolatedSession": true        // ~100k → 2-5k tokenów na uruchomienie
10      }
11    }
12  },
13  "memory": { "enabled": false }       // oszczędza ~500-2k tokenów/sesję
14}

Co powinieneś zobaczyć po wdrożeniu: Uruchom /status przed i po. Koszt na request powinien zauważalnie spaść, a wpisy heartbeat w panelu OpenRouter Activity powinny pokazywać Haiku zamiast Opusa.

Poziom użycia	Domyślnie (Opus)	Config A (Sonnet + heartbeat na Haiku)	Oszczędność
Lekki (~10 zapytań/dzień)	~$100	~$35	65%
Średni (~50 zapytań/dzień)	~$500	~$250	50%
Intensywny (~200 zapytań/dzień)	~$1,750	~$900	49%

Config B: Średni poziom — inteligentny routing w trzech warstwach

Sonnet jako główny model do prawdziwej pracy. Haiku dla sub-agentów i kompakcji. Gemini Flash-Lite jako budżetowy fallback, gdy Claude jest przeciążony. Łańcuch fallbacków automatycznie obsługuje awarie dostawców.

1{
2  "agents": {
3    "defaults": {
4      "model": {
5        "primary": "anthropic/claude-sonnet-4-6",
6        "fallbacks": [
7          "anthropic/claude-haiku-4-5",       // jeśli Sonnet jest limitowany
8          "google/gemini-2.5-flash-lite"      // ultra-tani ostatni ratunek
9        ]
10      },
11      "models": {
12        "anthropic/claude-sonnet-4-6": {
13          "params": { "cacheControlTtl": "1h", "maxTokens": 8192 }
14        }
15      },
16      "heartbeat": {
17        "every": "55m",                       // 55 min &lt; 1h cache TTL = trafienia cache
18        "model": "google/gemini-2.5-flash-lite",  // grosze za ping
19        "isolatedSession": true,
20        "lightContext": true                   // minimalny kontekst w wywołaniach heartbeat
21      },
22      "subagents": {
23        "maxConcurrent": 4,                   // zamiast domyślnych 8
24        "model": "anthropic/claude-haiku-4-5" // sub-agenci nie potrzebują Sonneta
25      },
26      "compaction": {
27        "mode": "safeguard",
28        "model": "anthropic/claude-haiku-4-5", // podsumowania kompakcji przez Haiku
29        "memoryFlush": { "enabled": true }
30      }
31    }
32  }
33}

Oczekiwany efekt: W logach wpisy sub-agentów powinny teraz pokazywać ceny Haiku. Heartbeat powinien kosztować prawie zero. Łańcuch fallbacków oznacza, że awaria Claude nie zatrzyma sesji — płynnie przełączy się na Gemini.

Poziom użycia	Domyślnie	Config B	Oszczędność
Lekki	~$100	~$20	80%
Średni	~$500	~$150	70%
Intensywny	~$1,750	~$500	71%

Config C: Power user — pełny stos optymalizacji

Przypisanie modeli per sub-agent, kompakcja kontekstu przypięta do Haiku, routing vision do Gemini Flash, ciasne .clawrules + .clawignore, wyłączone nieużywane skille. To konfiguracja, która daje oszczędności rzędu 85–90%.

1{
2  "agents": {
3    "defaults": {
4      "workspace": "~/clawd",
5      "model": {
6        "primary": "anthropic/claude-sonnet-4-6",
7        "fallbacks": [
8          "openrouter/anthropic/claude-sonnet-4-6",  // inny dostawca jako backup
9          "minimax/minimax-m2-7",                     // tani fallback do codziennej pracy
10          "anthropic/claude-haiku-4-5"                // ostatnia deska ratunku
11        ]
12      },
13      "models": {
14        "anthropic/claude-sonnet-4-6": {
15          "params": { "cacheControlTtl": "1h", "maxTokens": 8192 }
16        },
17        "minimax/minimax-m2-7": {
18          "params": { "maxTokens": 8192 }
19        }
20      },
21      "heartbeat": {
22        "every": "55m",
23        "model": "google/gemini-2.5-flash-lite",
24        "isolatedSession": true,
25        "lightContext": true,
26        "activeHours": "09:00-19:00"           // bez heartbeatów w nocy
27      },
28      "subagents": {
29        "maxConcurrent": 4,
30        "model": "anthropic/claude-haiku-4-5"
31      },
32      "contextPruning": { "mode": "cache-ttl", "ttl": "1h" },
33      "compaction": {
34        "mode": "safeguard",
35        "model": "anthropic/claude-haiku-4-5",
36        "identifierPolicy": "strict",
37        "memoryFlush": { "enabled": true }
38      },
39      "bootstrapMaxChars": 12000,              // zamiast domyślnych 20000
40      "imageModel": "google/gemini-3-flash"    // zadania vision przez tani model
41    }
42  },
43  "memory": { "enabled": true, "max_context_tokens": 800 },  // minimalna pamięć
44  "skills": {
45    "entries": {
46      "web-search":       { "enabled": false },
47      "image-generation": { "enabled": false },
48      "audio-transcribe": { "enabled": false }
49    }
50  }
51}

Przykład nadpisania dla pojedynczego sub-agenta — wklej do ~/.openclaw/agents/lint-runner/SOUL.md:

1---
2name: lint-runner
3description: Uruchamia lint/format i wprowadza drobne poprawki
4tools: [Bash, Read, Edit]
5model: anthropic/claude-haiku-4-5
6---

Minimalny .clawignore, od którego warto zacząć — sam w sobie obcina typowe bootstraps z 150k znaków do około 30–50k:

1node_modules/
2dist/
3build/
4.next/
5coverage/
6.venv/
7vendor/
8*.lock
9package-lock.json
10yarn.lock
11pnpm-lock.yaml
12*.min.js
13*.min.css
14**/__snapshots__/
15**/*.snap

Poziom użycia	Domyślnie	Config C	Oszczędność
Lekki	~$100	~$12	88%
Średni	~$500	~$90	82%
Intensywny	~$1,750	~$220	87%

Te liczby zgadzają się z dwoma niezależnymi raportami rzeczywistych użytkowników: z dokumentacją Praney Behl o przejściu z (cięcie o 90%) oraz z case studies LaoZhang pokazującymi przy częściowej optymalizacji.

Jak używać komendy `/model`, by na bieżąco kontrolować zużycie tokenów w OpenClaw

Komenda /model przełącza aktywny model na następną turę, zachowując kontekst rozmowy — bez resetu i bez utraty historii. To codzienny nawyk, który z czasem kumuluje oszczędności.

Praktyczny workflow:

Pracujesz nad trudnym refaktorem obejmującym wiele plików? Zostań na Sonnet.
Szybkie pytanie „co robi ten regex?”? /model haiku, zadaj pytanie, potem /model sonnet, żeby wrócić.
Wiadomość do commita albo dopracowanie dokumentacji? /model flash-lite i gotowe.

Możesz ustawić aliasy w openclaw.json w sekcji commands.aliases, aby mapować krótkie nazwy (haiku, sonnet, opus, flash) na pełne stringi dostawców. Oszczędza to kilka kliknięć przy każdej zmianie.

Matematyka: 50 zapytań dziennie na Sonnet to około 3 dolarów dziennie. Te same 50 zapytań rozłożone w 70/20/10 na Haiku/Sonnet/Opus to około 1,10 dolara dziennie. W skali miesiąca daje to $90 → $33 — 63% taniej bez zmiany narzędzi, tylko nawyków.

Bonus: śledzenie cen modeli OpenClaw u różnych dostawców z Thunderbit

Przy tak dużej liczbie modeli i dostawców — OpenRouter, bezpośrednie API Anthropic, Google AI Studio, DeepSeek, MiniMax — ceny zmieniają się bardzo często. Anthropic obniżył cenę wyjściową Opusa o około 67% z dnia na dzień. Google w grudniu 2025 przyciął limity darmowego planu Gemini . Ręczne utrzymywanie statycznego arkusza cenowego w aktualności to przegrana bitwa.

rozwiązuje to bez pisania ani jednej linijki scrapingu. To AI web scraper stworzone dokładnie do tego typu strukturalnej ekstrakcji danych.

Mój workflow:

Otwórz stronę modeli OpenRouter w Chrome i kliknij w Thunderbit „AI Suggest Fields”. Narzędzie odczytuje stronę i proponuje kolumny — nazwę modelu, cenę wejściową, cenę wyjściową, okno kontekstu, dostawcę.
Kliknij Scrape, a następnie wyeksportuj dane bezpośrednio do Google Sheets.
Ustaw zaplanowany scraping prostym językiem — „w każdy poniedziałek o 9:00 ponownie zeskanuj listę modeli OpenRouter” — a całość uruchomi się automatycznie w chmurze.

Od tego momentu Twój osobisty tracker cen aktualizuje się sam. Każdy model, który nagle tanieje o 30% — albo dostawca, który dostaje tag Exacto — pojawi się w poniedziałkowym arkuszu bez żadnego ręcznego działania. Więcej pisaliśmy o na naszym blogu.

Porównujesz ceny między bezpośrednimi stronami dostawców (Anthropic, Google, DeepSeek)? Scrapowanie podstron w Thunderbit podąża za linkiem każdego modelu na jego stronę szczegółową i pobiera stawki per dostawca — przydatne, gdy chcesz sprawdzić, czy routing Kimi K2.5 przez OpenRouter jest tańszy niż bezpośrednio przez . Sprawdź , aby poznać darmowy plan i szczegóły pakietów.

Najważniejsze wnioski dotyczące ograniczania zużycia tokenów w OpenClaw

Schemat jest prosty: Zrozum → Monitoruj → Routuj → Optymalizuj.

Najbardziej wpływowe działania, uszeregowane:

Nie ustawiaj Opusa jako domyślnego. Zmień model główny na Sonnet lub MiniMax M2.7. Sam ten krok daje 3–5x redukcję kosztów.
Izoluj heartbeat. Ustaw isolatedSession: true i kieruj heartbeat do Gemini Flash-Lite. To zmienia dren ~100k tokenów w ~2–5k.
Kieruj sub-agentów do Haiku. Każde uruchomienie ładuje około 20k tokenów kontekstu, zanim wykona jakąkolwiek pracę. Nie pozwól, żeby działo się to na Opusie.
Stosuj /clear bez wyjątku. Jest darmowe, zajmuje 5 sekund i według społeczności oszczędza więcej niż jakakolwiek inna pojedyncza czynność.
Dodaj .clawignore. Wykluczenie node_modules, lockfile’i i artefaktów builda radykalnie zmniejsza bootstrap context.
Monitoruj przez /context detail przed i po zmianach. Jeśli nie możesz czegoś zmierzyć, nie możesz tego poprawić.

Najtańszy model zależy od zadania. Gemini Flash-Lite do heartbeatów. MiniMax M2.7 do codziennego kodowania. Haiku do niezawodnych wywołań narzędzi. Sonnet do złożonych, wieloetapowych zadań. Opus tylko do naprawdę najtrudniejszych problemów — i niczego więcej.

Większość czytelników może zobaczyć 50–70% oszczędności już jednego popołudnia dzięki Config A lub B. Pełne 85–90% wymaga połączenia wszystkich elementów — routingu modeli, usunięcia ukrytych drenów, .clawignore, dyscypliny sesji — ale to jest osiągalne i działa trwale.

FAQ

1. Ile kosztuje OpenClaw miesięcznie?

To zależy wyłącznie od konfiguracji, skali użycia i wyboru modeli. Lekcy użytkownicy (~10 zapytań/dzień) zwykle wydają $5–30/mies. po optymalizacji albo $100+ na ustawieniach domyślnych. Użytkownicy średni (~50 zapytań/dzień) mieszczą się zwykle w zakresie $90–400/mies. Intensywni użytkownicy mogą dochodzić do na domyślnych ustawieniach — jednym z dokumentowanych ekstremów było $5,623 w jednym miesiącu. Wewnętrzna telemetria Anthropic sugeruje medianę na poziomie .

2. Jaki jest najtańszy model OpenClaw, który nadal dobrze radzi sobie z kodowaniem?

to najlepszy ogólny model do codziennej pracy — dobra niezawodność wywołań narzędzi, SWE-Pro 56.22, przy około $0.28/$1.10 za milion tokenów. Do heartbeatów i prostych wyszukiwań trudno pobić Gemini 2.5 Flash-Lite za $0.10/$0.40. Claude Haiku 4.5 za $1/$5 to niezawodny fallback średniej klasy, gdy potrzebujesz świetnych wywołań narzędzi bez płacenia cen Sonneta.

3. Czy mogę używać modeli z darmowego planu w OpenClaw?

Technicznie tak. GPT-OSS-120B jest darmowy na tagu :free w OpenRouter i w NVIDIA Build. Gemini Flash-Lite ma darmowy plan (15 RPM, 1,000 requestów/dzień). DeepSeek daje . Ale darmowe plany mają agresywne limity, wolniejsze działanie i mniej stabilną dostępność. Tanie płatne modele — grosze za milion tokenów — są znacznie pewniejsze przy regularnym użyciu.

4. Czy przełączanie modeli w trakcie rozmowy przez /model powoduje utratę kontekstu?

Nie. /model zachowuje pełny kontekst sesji — następna tura trafia do nowego modelu z całą historią rozmowy. Potwierdza to dokumentacja konceptów OpenClaw i działa tak samo w Claude Code. Możesz swobodnie przechodzić między Haiku do szybkich pytań a Sonnet do złożonych zadań bez utraty czegokolwiek.

5. Jaki jest najszybszy sposób na zmniejszenie rachunku za OpenClaw już dziś?

Wpisuj /clear między niezależnymi zadaniami. To darmowe, zajmuje pięć sekund i usuwa historię rozmowy, która jest ponownie wysyłana przy każdym wywołaniu API. Jedna rzeczywista sesja pokazała nagromadzonej historii wiadomości — wszystko to było retransmitowane i ponownie rozliczane przy każdej turze. Wyczyszczenie tego przed rozpoczęciem nowej pracy to nawyk o najwyższym zwrocie z inwestycji, jaki możesz wyrobić.

Wypróbuj Thunderbit do AI Web Scraping