Date
2026/05/24
Category
Hermes Agent
Title
APIコールの73%は固定オーバーヘッド|@Bichevのトークン消費プロファイル事例
「すべてのAPIコールの73%が固定オーバーヘッドだった」— Xユーザー @Bichev が2026年4月22日に公開した、Hermes Agent でトークン消費をプロファイリングした検証結果は、AIエージェント運用のコスト最適化に取り組むエンジニア・経営者にとって衝撃的な数字でした。本記事では、株式会社Fyveの法人視点で、この事例の意味・固定オーバーヘッドが生まれる仕組み・そして実務でどう減らすかまで分解して解説します。
本記事で扱う事例は、Hermes Agent のオープンソース・コミュニティで広く共有された一次情報です。@Bichev は Hermes Agent のトークン消費を1コールごとにプロファイリングするツールを構築し、その分解結果を公開しました。
誰 | @Bichev(Xユーザー / 開発者) |
いつ | 2026年4月22日 |
ツール | Hermes Agent(Nous Research 製・オープンソース) |
検証内容 | API コール単位のトークン消費プロファイリング |
結果 | 「73% of every API call is fixed overhead」 |
発信原文は次の通りです。
"73% of every API call is fixed overhead"
— @Bichev, 2026-04-22
この一文の意味するところは深刻です。エンジニアが書いたプロンプトの内容・指示・コンテキストといった「本当に必要な情報」は、実は1回のAPIコールの中で 27%程度しか占めていない ということです。残りの73%は、システムプロンプト・スキル定義・メモリ参照・ツール定義のスキーマなど、毎回ほぼ同じ内容が繰り返し送信されている「固定費」だったのです。
仮に月100万トークン使う運用であれば、そのうち約73万トークン分が「実質、毎回同じものに払い続けている料金」だった、ということになります。これは Claude API・OpenAI API の高単価モデルを使う場合、無視できない金額差につながります。
「無駄が多いだけでは?」と捉えるのは早計です。固定オーバーヘッドが大きくなるのには、AIエージェントの設計上の必然的な理由があります。私たちが実務でAIエージェントを設計するうえで、まずこの構造を理解しておく必要があります。
1回のAPIコールで「固定費」として送られている内容は、おおむね次のカテゴリに分かれます。
これらは「毎ターン同じものを送る」性質のため、プロンプト内容が変わってもほぼ同量送信されます。@Bichev のプロファイリング結果は、これら固定費の累積が全体の73%を占めていることを実測で示しました。
@Bichev のアプローチは比較的シンプルです。Hermes Agent の API リクエスト送信時のペイロードをフックし、メッセージごとに「役割(role)」と「トークン数」を分解集計するロガーを組み込みました。具体的には次のステップで分解しています。
この方法のポイントは 「差分検出」 です。毎回ほぼ同じ内容で送られているテキストブロックを抽出することで、「これは固定費だ」とラベル付けできます。AIエージェントを本格運用するチームであれば、自社のエージェントにも同じプロファイラを組み込めば、ほぼ同じ構造の数字が出てくるはずです。

株式会社Fyveとしてこの数字を見ると、まず最初に伝えたいのは 「73%は単なる無駄ではない」 ということです。固定オーバーヘッドの大半は、エージェントが「賢く動くために必要な土台」だからです。システムプロンプトもツール定義もメモリも、削れば動作品質が落ちます。
ただし、「73%という塊が存在する」という事実は、コスト最適化の主戦場がどこかを明確にします。プロンプトを5%短くする努力よりも、固定オーバーヘッドの73%にメスを入れる方が、桁違いに大きいリターンが得られるからです。
同じAIエージェント領域で日本国内でも普及している Claude Code は、Anthropic純正のサービスとして プロンプトキャッシング を標準で活用しています。これは固定オーバーヘッドの大部分を「キャッシュヒット」として安価に再利用する仕組みです。Anthropic 公式のドキュメントによれば、キャッシュヒット時のトークン単価は通常の 10% 程度まで下がります。
つまり、固定オーバーヘッドが73%あったとしても、その大半がキャッシュヒットになれば、実質コストは大幅に圧縮されます。@Bichev の数字は「キャッシュが効いていない場合」のフルコストを可視化したと捉えるのが正しい読み方です。
Hermes Agent のように複数の LLM プロバイダを切り替えて使うエージェントでは、プロバイダによってキャッシング対応の有無が異なります。Anthropic 直接 API・OpenAI などはキャッシュ対応していますが、ローカルLLM経由ではキャッシュの恩恵を受けにくい構造です。コスト試算ではこの点を見落とさないことが重要です。
私たちが中小企業のAI活用顧問として現場に入ると、「ChatGPT は月20ドルだから安い」「Claude も似たような額だろう」という感覚で導入されるケースをよく見ます。しかしAIエージェントを本格的に業務に組み込み始めると、固定オーバーヘッドの累積で月のAPI料金が10倍・20倍に膨らむことは珍しくありません。
逆に言えば、固定オーバーヘッドの構造を理解して設計すれば、同じ業務をはるかに低コストで回せます。@Bichev の73%という数字は、私たちにとって「最適化前の出発点」を示すベンチマークになります。

では実際に、固定オーバーヘッドを抑えるために何をすればよいのか。私たちが顧問先で導入を勧めている、効果の大きい順に4つの施策を紹介します。
最も投資対効果が高いのは、プロンプトキャッシングの活用です。Anthropic Claude API では cache_control ブロックを使って、システムプロンプトとツール定義をキャッシュ対象に指定できます。OpenAI も2024年以降、自動プロンプトキャッシングを段階的に導入しています。
固定オーバーヘッドが73%あるエージェントでも、その大半がキャッシュヒットになれば、実コストは元の30〜40%にまで下がる試算になります。
固定オーバーヘッドは「コールの回数」に比例します。同じ73%でも、コール数が半分になれば固定コストも半分です。実務では次のような工夫が有効です。
これは Hermes Agent のサブエージェント並列実行とトレードオフです。並列化は速度には効きますが、コスト面では固定費を増やします。「速度優先か、コスト優先か」をタスクごとに判断する設計が必要です。
Hermes Agent は70以上のビルトインツールと、MCP経由で追加される無数のツールを抱えます。これら全てのスキーマが毎コール送信されるため、ツール定義は固定オーバーヘッドの大きな割合を占めます。
私たちが顧問先で見るケースでは、「全部入り」のツール構成のままで運用されていることが多く、ここを見直すだけでコールあたり数千トークン削れることもあります。
Hermes Agent の3層メモリは、永続記憶層から「現在のタスクに関連しそうなスニペット」をプロンプトに注入します。この検索精度が低いと、無関係なメモリが大量に流し込まれて固定オーバーヘッドが膨らみます。

@Bichev の73%プロファイリングと併せて参照すべき、コスト視点での代表的な事例を3つ紹介します。
海外のスタートアップコミュニティで広く共有された事例として、5日間で130ドル消費していた Claude Max ユーザーが Hermes Agent + VPS構成に移行することで 10ドル / 5日 まで圧縮した報告があります。10倍以上のコスト差が出る背景には、本記事で扱った固定オーバーヘッドの最適化余地が直接効いています。
2026年4月30日、@EXM7777 は ChatGPT $200プラン1本で家族3人分のWhatsApp秘書を Hermes Agent 経由で運用している事例を公開しました。1アカウントを複数人で共有することで固定費を分散させる、コストシェア型の運用例です。
Reddit の r/LocalLLaMA では、Claude Code から Hermes Agent に乗り換えたユーザーから「much less token hungry(はるかにトークン消費が少ない)」という体感報告が複数寄せられています。@Bichev のプロファイリングが示した最適化余地が、実運用ベースでも体感されている裏付けです。
これら3つの事例に共通するのは「料金プランの選択」ではなく「アーキテクチャ理解による削減」がコスト最適化の本丸だ、という構造です。@Bichev の73%はその出発点を数字で示した一次情報です。
出典:
Company
株式会社Fyve
Address
〒810-0001
福岡県福岡市中央区天神4丁目6-28
天神ファーストビル7階
Tel
080-1460-2728
info@fyve.co.jp