2026/06/07Hermes Agent

Hermes Agent 音声モード設定ガイド｜faster-whisper + Voxtral でハンズフリー運用【2026年版】

株式会社Fyveは中小企業向けにAI業務効率化の受託開発を行っており、その中でも Hermes Agent をクライアントの常駐エージェントとして導入する案件が増えています。今回はその中でも問い合わせの多い「音声モード」について、私たちが実際に検証した構成と設定を、2026年6月時点の最新情報でまとめます。

キーボード操作なしで AI に指示を出せる音声モードは、移動中・運転中・調理中・介護現場の口頭記録など「視覚も手も使えない場面」での生産性を大きく変えます。一方で日本語認識精度、レイテンシ、録音データの取り扱いといった現場特有の論点があり、英語ベースのドキュメントだけでは情報が不足しがちです。私たちが導入支援の中で詰めてきた構成を共有します。

Hermes Agent 音声モードのパイプライン：マイク入力 → VAD → STT → LLM → TTS → スピーカー出力

Hermes Agent 音声モードとは

Hermes Agent の音声モードは、CLI を立ち上げたまま「Hey Hermes」などのホットワードでウェイクアップし、口頭で指示を出し、結果を音声で返してもらう実行モードです。公式ドキュメント（hermes-agent.nousresearch.com/docs/user-guide/features/voice-mode）に英語版の手順がありますが、日本語環境向けの実装情報はほぼ存在しません。

裏側では3つのコンポーネントが連携して動きます。

STT（Speech-to-Text）：マイク入力をテキストに変換
TTS（Text-to-Speech）：Hermes Agent の応答を音声に変換
VAD（Voice Activity Detection）：無音区間を検知して発話の終端を自動で確定

この3層を理解しておくと、後段のチューニングで「どこが詰まっているのか」を切り分けやすくなります。

構成要素と選定理由

STT: faster-whisper

私たちは faster-whisper を第一選択にしています。OpenAI Whisper を CTranslate2 で再実装したもので、同じ精度のまま2〜4倍速で動きます。M2/M3 の Mac mini でも large-v3 モデルがほぼリアルタイムで回り、ローカル完結できる点が大きな利点です。日本語の認識精度も体感ベースで実用に耐えるレベルです。

TTS: Voxtral / OpenAI TTS / ElevenLabs

用途に応じて使い分けています。

Voxtral：ローカル実行可能、プライバシー重視の案件向け
OpenAI TTS：日本語の自然さと安定性のバランスが良く、第一候補にしやすい
ElevenLabs：声の表現力が必要なコンテンツ用途向け（コスト高）

VAD: Silero VAD

Hermes Agent の標準は Silero VAD を採用しており、無音判定が秀逸です。設定でしきい値を調整すれば「ゆっくり話す高齢者」「早口の現場マネジャー」のどちらにも合わせられます。

読者特典・無料ダウンロードHermes Agentに「任せる」前に読む本無料でダウンロード →

セットアップ手順

大枠は次の流れで進めます。具体的なコマンドは Claude Code や Hermes Agent CLI に「下記の設定でセットアップして」と渡してしまうのが一番速いです。

1. 音声モデルのインストール

faster-whisper の large-v3 モデルと Silero VAD をローカルに落としておきます。Mac mini を母艦にする構成は別記事の Mac mini で Hermes Agent を運用する場合のコスト試算【2026年版】に詳しく書いています。

2. 設定ファイルの編集

Hermes Agent の設定ファイル（~/.hermes/config.yaml）に音声モードのブロックを追加します。私たちが日本語環境で使っているベース設定はこちらです。

voice:
  enabled: true
  hotword: "hey hermes"
  stt:
    provider: faster-whisper
    model: large-v3
    language: ja
    device: auto
    compute_type: int8
  tts:
    provider: openai
    model: tts-1
    voice: alloy
    language: ja
  vad:
    provider: silero
    threshold: 0.5
    min_silence_ms: 700
  audio:
    input_device: "MacBook Pro Microphone"
    output_device: "External Speaker"

min_silence_ms は日本語だと700前後がしっくりきます。英語ベースの初期値（400〜500）のままだと、助詞のあとで切れてしまい誤動作の原因になります。

3. マイク・スピーカーの指定

audio.input_device / output_device には OS 側で見えているデバイス名を入れます。Mac の場合は system_profiler SPAudioDataType で正確な名前を取得できます。

4. ホットワード起動の確認

起動後、「Hey Hermes、今日のタスク一覧を読み上げて」と話しかけて応答が返ればセットアップ完了です。誤反応が多い場合はホットワードを2語以上の固有な組み合わせに変えるのが有効です。

ユースケース

1. 通勤中の音声メモ

移動中に思いついた施策を「Hey Hermes、明日朝にやることリストに追加して」と口頭で投げ、帰社後に整理された形で確認できます。私たちは Argus（独自に命名した秘書AIエージェント）と組み合わせ、移動中のメモを朝のブリーフィングに自動で取り込む運用にしています。

2. 介護現場の口頭記録

介護施設での記録業務は、その場でキーボードを叩く時間がないのが現場の本音です。利用者対応の合間に口頭で状態を吹き込み、Hermes Agent が定型フォーマットに整える運用がうまくフィットしています。手が塞がる現場ほど音声モードの価値が大きく出ます。

3. 料理中のレシピ問い合わせ

個人利用ですが、料理中に「Hey Hermes、鶏もも200gに対する塩の量は」と聞くと即答してくれます。手が汚れていても操作できるのが純粋に便利です。

4. 会議のリアルタイム議事録

会議室の集音マイクから faster-whisper にストリーミングさせ、Hermes Agent が要点を整理して議事録ドラフトを生成する構成です。終了直後にドラフトが出ているので、後続作業の立ち上がりが圧倒的に早くなります。

レイテンシとコストの目安

私たちの環境（Mac mini M2 Pro / faster-whisper large-v3 / OpenAI TTS）で計測した体感値は次の通りです。

発話終了 → テキスト確定：おおむね0.5〜1.2秒
テキスト確定 → Hermes Agent 応答：1〜3秒（指示内容に依存）
応答テキスト → 音声再生開始：0.8〜1.5秒

合計で「話し終えてから音声が返ってくるまで3〜5秒」がリアルな数字です。コスト面では、STT/VAD をローカルにすれば OpenAI TTS のみの課金で済み、月100時間の使用でも数千円台に収まります。完全ローカル構成（Voxtral）にすれば実質ゼロです。

セキュリティ：録音データの扱い

音声モードで最も慎重に設計すべきはここです。私たちは案件特性で2系統を使い分けています。

ローカル完結構成：faster-whisper + Voxtral。録音もテキストも端末外に出さない。介護・医療・法務系の案件で採用
クラウド経由構成：faster-whisper（ローカル） + OpenAI TTS（クラウド）。STT は手元、TTS のみ外部。発話内容のテキストは外に出ない設計が可能

外部送信が一切許されない案件では、TTS まで Voxtral に寄せ、ネットワークから完全に切り離して動作確認します。録音データを残す場合は、保存期間・アクセス権限・破棄プロセスまで設計に含めるのが必須です。Hermes Agent 全体のセキュリティ設計思想は Hermes Agent の知られざる機能15選も併せて参照すると、音声モード以外の論点も把握しやすくなります。

運用上の注意点

周囲音への対応：オープンオフィスや車内では指向性マイクの利用が前提。ノイズキャンセル機能つきヘッドセットを推奨
聞き間違い対策：固有名詞は辞書登録で精度が大きく改善。クライアント名・製品名は事前に登録する
誤反応の防止：ホットワードは2語以上の固有な組み合わせに。日常会話に出てこない語を選ぶ
長時間運用時のメモリ：large-v3 モデルは常駐させると数GB使う。Mac mini を母艦にしてリモートから叩く構成が運用しやすい

常駐エージェントとしての運用例は Trevor Gordon 氏の iMessage 連携事例に学ぶ常駐秘書設計も参考になります。音声入力と他チャネルを組み合わせると、Hermes Agent を「自分専属のオペレーター」として完成度高く運用できます。

まとめ

Hermes Agent の音声モードは、ハンズフリー業務の生産性を変えるポテンシャルがあり、faster-whisper + Voxtral / OpenAI TTS + Silero VAD の組み合わせがバランスのとれた現実解です。日本語環境では min_silence_ms やホットワード設計、辞書登録といった小さなチューニングが効きます。録音データの扱いは案件特性に合わせて、ローカル完結とクラウド経由を明確に切り分けて設計すべき領域です。私たちは現場ごとに最小構成からスタートし、効果が見えた段階で拡張する進め方を推奨しています。

この記事を読んでいるあなたへ無料プレゼント