2026/05/24Hermes Agent事例研究AIエージェントSkills活用

Hermes Agentで planner/coder/QA の3エージェント並列パイプラインを組む｜@gkisokayの事例

3つのエージェント（planner / coder / QA）を並列で走らせ、自律的にコードをビルド・検証するパイプライン。X 上で「Day 10 AGI build」と銘打って公開された @gkisokay 氏の Hermes Agent 活用事例は、マルチエージェント編成の実装イメージを掴むうえで参考になる一次情報です。本記事では、株式会社Fyveが受託開発で扱ってきたエージェント設計の知見を踏まえ、この3エージェントパイプラインの構造、役割分担、運用の判断軸を実務目線で解説します。「複数エージェントを連携させたいが設計の指針が見えない」という方の判断材料を一気に揃えます。

事例の概要：3エージェント編成と役割分担

@gkisokay 氏は 2026年4月15日〜17日にかけて、Hermes Agent を使った「Day 10 AGI build」を X 上で公開しました。10日間のビルドログ形式で、自身が組み上げたplanner / coder / QA の3エージェント並列パイプラインと、それらを Codex runtime monitor で監視する構成を紹介しています。

3エージェントの役割は明確に分かれています。

planner（計画）: タスクを受け取り、サブタスクへの分解・優先順位付け・依存関係の整理を担当。後続の coder に渡す作業仕様を生成する
coder（実装）: planner から渡された仕様を受け取り、コードを実装する。複数の coder インスタンスを並列に走らせることで、独立したサブタスクを同時進行できる
QA（検証）: coder の成果物をテスト・レビューし、失敗時は planner にフィードバックを返す。合格基準を満たすまでループする

そして、これら3エージェントの稼働状況を Codex runtime monitor が監視し、暴走・無限ループ・コスト超過などの異常を検知する役割を担います。エージェント本体ではなく、その「上位の監視レイヤー」を別建てで用意している点が、設計上の特徴です。

planner / coder / QA の3エージェント並列パイプラインの構成図

仕組み解説：オーケストレーションの構造

このパイプラインの肝は、3エージェントの「並列性」と「同期点」を分けて設計している点にあります。

並列実行と直列実行の組み合わせ

planner → coder → QA という流れ自体は直列（前の出力を次の入力にする）ですが、coder の内部では複数インスタンスが並列に動きます。具体的には次のような流れになります。

Phase 1（planner 単独）: タスクを N 個のサブタスクに分解。サブタスク間の依存関係を整理し、並列実行可能なものをグループ化する
Phase 2（coder 並列）: 独立したサブタスクをそれぞれ別の coder インスタンスに割り当て、並列にコードを生成。Hermes Agent のサブエージェント機能を使うことで、再帰無制限のサブエージェント呼び出しが可能になっている
Phase 3（QA 検証）: 各 coder の成果物を QA エージェントが順次レビュー。失敗があれば planner に戻して再計画させる

このフェーズ分割により、独立性の高い作業は並列化してスループットを稼ぎ、依存関係のあるフェーズは直列に保って整合性を守る、というハイブリッド構成が成立します。

エージェント間の通信

Hermes Agent はサブエージェント機能と中期メモリを組み合わせることで、エージェント間の状態共有を実現します。@gkisokay 氏の構成では、以下のような通信パターンが想定されます。

planner → coder への引き継ぎ: サブタスク定義（タスクID、入力、期待出力、依存サブタスクID）を構造化された形式で渡す。中期メモリに書き込むことで、coder 側はそれを読み取って作業を開始する
coder → QA への引き渡し: 実装結果（ファイルパス、変更行数、テスト結果）を同様に構造化して渡す。QA はそれを読み取り、検証ロジックを走らせる
QA → planner のフィードバック: 失敗ケースの詳細（どのテストが落ちたか、なぜ落ちたか）を planner に返し、再計画のトリガーにする

中期メモリを「共有ホワイトボード」として使うこの設計は、Hermes Agent の3層メモリ（短期・中期・永続）の特性を活かした実装パターンです。各エージェントが自分のセッションを持ちつつ、プロジェクト単位の共有情報を中期層に集約することで、独立性と連携性を両立できます。

Codex runtime monitor の役割

3エージェント本体とは別に走る Codex runtime monitor は、いわば「監督役」です。各エージェントの稼働時間、トークン消費、再帰深度、エラー頻度などをリアルタイムで監視し、しきい値を超えたら警告またはエージェント停止を発動します。

マルチエージェント構成を本番運用に乗せる場合、この監視レイヤーがあるかないかで運用の安心感が大きく変わります。エージェント自身に「自分の異常を検知させる」のは難しいため、外部の監視プロセスを別建てするのは合理的な判断です。

私たちの解釈：この構成が示す設計思想

この事例から、私たちは3つの設計思想を読み取っています。

1. 役割を「行為」で分けるのではなく「フェーズ」で分ける

planner / coder / QA という分け方は、いわゆる「役割分担」ですが、より正確には「ソフトウェア開発のフェーズ」を分割しています。計画フェーズ、実装フェーズ、検証フェーズ——人間の開発チームでも自然に存在する区分です。

マルチエージェント設計で陥りがちな落とし穴は、「フロントエンド担当」「バックエンド担当」「DB担当」のように領域で分けてしまうことです。領域で分けると、ひとつのタスクが複数領域にまたがるたびにエージェント間の調整コストが膨らみます。一方、フェーズで分けると、ひとつのタスクは1人の planner が計画 → 複数の coder が並列実装 → 1人の QA が検証、という流れで素直に進みます。

2. 並列性は「独立性」のあるところだけに使う

coder フェーズだけを並列化し、planner と QA は直列に保つ設計は、並列化の鉄則を踏まえています。並列実行できるのは、互いに依存しない作業のみ。依存関係のあるフェーズを無理に並列化すると、競合・矛盾・整合性の崩壊が起きます。

planner は全体像を1か所で把握する必要があるため並列化しない。QA も最終判定の一貫性を保つために並列化しない。実装だけが独立性を持つから並列化できる——この判断軸は、自社の受託開発でマルチエージェントを設計する際にも応用できる原則です。

3. 監視レイヤーを「同階層」ではなく「上位」に置く

Codex runtime monitor を3エージェントとは別建てにしている点は、特に重要です。エージェント同士が相互監視する設計（A が B を監視し、B が C を監視し、C が A を監視する）は一見冗長性が高そうに見えますが、実際には全員が同じ前提で動いているため、共通の暴走パターンに対しては全員が同時に騙されます。

上位レイヤーに監視を置くことで、エージェントの「外側」から客観的に状態を観測できる構造になります。これは Kubernetes の control plane と worker node の関係に似た発想で、システム設計として筋がよいパターンです。

実務落とし込み：役割分担設計の判断軸

この事例を自社の業務自動化に応用する場合、エージェントの役割をどう分けるかが最初の判断ポイントになります。私たちが実案件で使っている判断軸は次の通りです。

マルチエージェント設計の役割分担マトリクス（フェーズ分割 × 並列性 × 監視レイヤー）

判断軸1：作業フローに自然なフェーズが存在するか

業務を観察したときに、「計画 → 実行 → 検証」のような明確なフェーズが存在する場合、それをそのままエージェントの役割境界にできます。例えば次のような業務はフェーズ分割が効きます。

記事制作: リサーチ → 執筆 → 校正
提案書作成: ヒアリング整理 → ドラフト生成 → レビュー
データ分析: クエリ設計 → 集計実行 → 結果解釈

逆に、フェーズが明確でない作業（例：チャット応対のように1往復で完結する処理）は、無理に複数エージェントに分けず、単一エージェント＋スキルで構成したほうがシンプルです。

判断軸2：並列実行できる粒度のサブタスクに分解できるか

planner 相当の役割がサブタスクを切り出したときに、それらが互いに独立して進められるかを確認します。独立していれば並列化、依存関係があれば直列のまま——これを最初に整理しておかないと、並列実行したつもりが実は競合で停まる、という事態が起きます。

分かりやすい目安は、「サブタスクA を完了させずに B を開始できるか」を問うことです。Yes なら並列化候補、No なら直列です。

判断軸3：監視・停止の権限を持つレイヤーを最初に決める

マルチエージェント構成では、コスト超過・無限ループ・暴走を止めるための「強制停止権限」を誰が持つかを最初に決める必要があります。@gkisokay 氏の構成では Codex runtime monitor がそれを担っていますが、自社実装の場合は次のいずれかになります。

監視専用エージェントを別建てする: 本事例のパターン。本格運用に推奨
ホスト OS のリソース監視を使う: トークン消費・実行時間をホスト側で計測し、しきい値超過でプロセス停止
人間の承認ゲートを挟む: 重要な分岐点で人間の確認を必須にする。検証段階の業務向け

初期検証段階では人間の承認ゲートで始め、安定運用フェーズで監視エージェントに切り替える、という段階的な導入が現実的です。

まとめ

@gkisokay 氏の Day 10 AGI build は、planner / coder / QA の3エージェント並列パイプライン + Codex runtime monitor で構成される
役割分担は「領域」ではなく「フェーズ」で分けるのが基本。計画・実装・検証のように、人間の開発チームでも自然に存在する区分を踏襲する
並列化は coder のような「独立性」のあるフェーズだけに使う。planner と QA は一貫性を保つために直列のまま運用する
監視レイヤーは3エージェントと同階層ではなく「上位」に別建てする。Codex runtime monitor のように、エージェントの外側から客観的に状態を観測する構造が筋がよい
自社業務に応用する判断軸は「自然なフェーズの有無」「並列実行可能な粒度のサブタスク分解」「強制停止権限の所在」の3点
Teknium 氏の12並列構成や autonovel の7段階パイプラインなど、同じ設計思想で規模を拡張した事例が存在する

マルチエージェント構成は「すごそう」という雰囲気だけで採用すると、調整コストで沈みます。本事例のように、フェーズ分割・並列性の制限・監視レイヤーの分離という3つの軸で設計を整えてから取り組むことを推奨します。私たちもエージェント自動化案件では、まずこの設計レビューを最初に行うようにしています。

出典

@gkisokay の X 投稿（2026年4月15日〜17日 / Day 10 AGI build シリーズ）
@Teknium の X 投稿（2026年4月25日 / 12並列インスタンス開発体制）
@codewithimanshu の X 投稿（2026年4月24日 / UGC 広告スタジオ約4分）
Nous Research 公式 autonovel リファレンス実装（github.com/NousResearch/autonovel）
Hermes Agent 公式ドキュメント（hermes-agent.nousresearch.com/docs/）

[ FREE DISCOVERY ]

Hermes Agent を本気で活用するなら

「Hermes Agent を自分で使いこなしたい」「自社の業務に組み込みたい」
— そんな方は、まず初回無料相談でお話ししてみませんか。

個人・副業の方お悩み相談・レクチャー・伴走無料相談を予約 →法人・経営者の方導入・運用・開発サポート無料相談を予約 →

← 記事一覧に戻る