cacheWrite)、その後の一致したリクエストはキャッシュ トークンを読み戻すことができます (cacheRead)。
これが重要な理由: トークンコストの削減、応答の高速化、長時間実行セッションのパフォーマンスの予測可能性の向上。キャッシュを使用しないと、ほとんどの入力が変更されなかった場合でも、プロンプトが繰り返されると、ターンごとにプロンプト コストの全額が支払われます。
このページでは、プロンプト再利用とトークン コストに影響を与えるキャッシュ関連のノブをすべて取り上げます。
Anthropic の価格の詳細については、以下を参照してください。
https://docs.anthropic.com/docs/build-with-claude/prompt-caching
プライマリノブ
cacheRetention (モデルおよびエージェントごと)
モデルパラメータでキャッシュ保持を設定します。
agents.defaults.models["provider/model"].paramsagents.list[].params(エージェント ID の一致、キーによるオーバーライド)
レガシー cacheControlTtl
従来の値は引き続き受け入れられ、マッピングされます。
5m->short1h->long
cacheRetention を優先します。
contextPruning.mode: "cache-ttl"
キャッシュ TTL ウィンドウの後に古いツール結果コンテキストを削除し、アイドル後のリクエストがサイズを超えた履歴を再キャッシュしないようにします。
agents.list[].heartbeat でサポートされています。
プロバイダーの動作
Anthropic (直接 API)
cacheRetentionがサポートされています。- Anthropic API キー認証プロファイルを使用すると、OpenClaw は設定を解除すると Anthropic モデル参照に
cacheRetention: "short"をシードします。
アマゾンの岩盤
- Anthropic Claude モデル参照 (
amazon-bedrock/*anthropic.claude*) は、明示的なcacheRetentionパススルーをサポートします。 - 非人為的岩盤モデルは実行時に
cacheRetention: "none"に強制されます。
OpenRouter 人間モデル
openrouter/anthropic/* モデル参照の場合、OpenClaw はシステム/開発者プロンプト ブロックに Anthropic cache_control を挿入して、プロンプト キャッシュの再利用を改善します。
他のプロバイダー
プロバイダーがこのキャッシュ モードをサポートしていない場合、cacheRetention は効果がありません。
チューニングパターン
混合トラフィック (推奨デフォルト)
メイン エージェントで長期間のベースラインを維持し、バースト通知エージェントのキャッシュを無効にします。コスト優先のベースライン
- ベースライン
cacheRetention: "short"を設定します。 contextPruning.mode: "cache-ttl"を有効にします。- ウォーム キャッシュの恩恵を受けるエージェントに対してのみ、ハートビートを TTL 未満に保ちます。