アーキテクチャ
モデル非依存・3層メモリ・スキル自己改善ループ — Hermes Agent の中身を分解する
全体像
Hermes Agent は、自律的に動作するエージェントランタイムです。「ユーザーが指示を出す → AI が考える → ツールを実行する → 結果を受け取る → 次の判断をする」というループを、人間が介在せずに長時間継続できる設計になっています。
重要なのは、Hermes Agent 自体は LLM ではない ということです。推論を担当する LLM は外部から接続して使う形になっており、Hermes Agent は「ツールの実行・記憶の管理・スキルの組み合わせ・外部との通信」を担当する基盤として機能します。
構成要素
Hermes Agent の主要なコンポーネントは以下の通りです。
- TUI: ターミナル UI。コマンドラインから対話・操作する
- 70+ ビルトインツール: ファイル操作、ターミナル実行、Web取得、ブラウザ操作など、エージェントが使う基本道具一式
- MCP 統合: Model Context Protocol 経由で外部サービスのツールを後から追加できる仕組み
- スキルシステム: 再利用可能なタスク単位。Hermes 自身が新しいスキルを生成・改善する
- 3層メモリ: 短期 / 中期 / 永続記憶を持ち、過去の文脈を保持し続ける
- cron スケジューラ: 定期実行(例: 毎朝9時に Inbox 要約)
- サブエージェント: 並列実行・分離実行。複数の役割を持つエージェントを連携させる
- Voice モード: 音声入出力対応
モデル非依存 — 25+ プロバイダ対応
Hermes Agent の最大の特徴の一つが モデル非依存であることです。推論を担当する LLM プロバイダを自由に選べます。
対応プロバイダの例:
- Nous Portal(Nous Research 公式)
- OpenRouter(複数モデルを単一インタフェースで利用)
- Anthropic(Claude を直接 API で利用)
- OpenAI
- DeepSeek
- NVIDIA NIM
- HuggingFace
- カスタム OpenAI 互換エンドポイント(Ollama / LM Studio などのローカル LLM)
これにより、用途や予算に応じて柔軟に切り替えられます。例えば「メインは Claude Sonnet、ルーチンは Haiku や DeepSeek、プライバシー重視のときだけローカル LLM」という三層運用が、設定ファイル一つで実現できます。
必須要件として、接続するモデルは 64,000 トークン以上のコンテキスト をサポートしている必要があります。ローカル LLM を使う場合は、Modelfile で num_ctx を明示しないと Hermes Agent が起動拒否するので注意です。
3層メモリ — エージェントが「育つ」基盤
Hermes Agent は短期・中期・永続の3層メモリを持ちます。これが「使い込むほど自分のことを理解してくれる」体感の正体です。
- 短期メモリ: 現在のセッション内の文脈(チャットの直近のやりとり)
- 中期メモリ: セッションをまたいで保持される作業文脈(プロジェクト状況など)
- 永続メモリ: ユーザーの好み・過去の判断・スタイル等、長期的に蓄積される情報
海外の Hermes Agent ユーザーで 「10日使ったら自分のコードベースを自分より理解してた」 と報告している人がいますが、これは永続メモリと自己改善スキルが相乗で効くからです(@techNmak, 2026/4)。
スキルの自己改善ループ
Hermes Agent は **新しいスキルを自分で生成・改善・統合** する仕組みを持っています。ユーザーが「こういう処理をやってほしい」と頼むと、Hermes は対応する手順を Skill として保存し、次回以降は同じ処理を素早く実行できるようになります。
ただしこれには副作用があり、長く運用すると Skill が肥大化していきます("skill bloat")。これに対処するために、2026年4月に公式から Hermes Curator という Skill 剪定・統合システムが導入されました。
20+ メッセージングゲートウェイ統一
Hermes Agent は外部とのやりとりを20以上のチャネルから統一的に受けられます。「どのアプリから話しかけても、同じ Hermes が応答する」というのが重要なポイントです。
対応するメッセージング:
- Telegram / Discord / Slack / WhatsApp / Signal / Matrix / Microsoft Teams
- Email / SMS
田嶋プロジェクトでは、最初は Telegram から話しかける構成で動かす予定です。Telegram は Bot 化が簡単で、Push 通知の到達率も高く、AI エージェント運用の入口として最適です。
実行バックエンド — どこで動かすか
Hermes Agent はランタイム自体をどこで動かすかも選べます。
- local: 直接 OS 上で動かす(手軽だがセキュリティ的に最も無防備)
- Docker: コンテナで隔離(推奨。公式セキュリティ監査でも推奨)
- SSH: リモートホスト上で実行
- Daytona / Singularity / Modal / Vercel Sandbox: クラウド実行環境
本ガイドでは Mac mini 上の Docker で動かす構成を後の章で扱います。local backend を直接使うとセキュリティ的に問題があることが公式監査で指摘されているためです(詳細は「セキュリティ監査 #7826」の章)。
他のAIエージェントとの位置づけ
Hermes Agent は「AIエージェント・ランタイム」のカテゴリに属しますが、いくつかの主要競合と明確に違いがあります。
- vs Claude Code: Claude Code は Anthropic 純正で Claude モデル前提。Hermes Agent はモデル選択自由・セルフホスト
- vs OpenClaw: 両者ともオープンソース型エージェント。Hermes Agent は「育つ」設計(スキル自己改善)が強み
- vs LangGraph: LangGraph はフレームワーク(自分でエージェントを組む)。Hermes Agent は完成型ランタイム(すぐ動かせる)
まとめ
Hermes Agent は「LLMを脳として使い、自分は手足と記憶を担当するエージェント基盤」です。モデルは自由に差し替えられ、3層メモリと自己改善スキルで使い込むほど賢くなり、20+ のメッセージング経由でどこからでも話しかけられる。これが「育つAIエージェント」と言われる根拠です。
次の章では、実際にこのアーキテクチャを使って何ができるのか、海外で報告されている業務活用シーンを具体的に見ていきます。