Hermes Agent 音声モード設定ガイド|faster-whisper + Voxtral でハンズフリー運用【2026年版】

Hermes Agent 音声モード設定ガイド|faster-whisper + Voxtral でハンズフリー運用【2026年版】

株式会社Fyveは中小企業向けにAI業務効率化の受託開発を行っており、その中でも Hermes Agent をクライアントの常駐エージェントとして導入する案件が増えています。今回はその中でも問い合わせの多い「音声モード」について、私たちが実際に検証した構成と設定を、2026年6月時点の最新情報でまとめます。

キーボード操作なしで AI に指示を出せる音声モードは、移動中・運転中・調理中・介護現場の口頭記録など「視覚も手も使えない場面」での生産性を大きく変えます。一方で日本語認識精度、レイテンシ、録音データの取り扱いといった現場特有の論点があり、英語ベースのドキュメントだけでは情報が不足しがちです。私たちが導入支援の中で詰めてきた構成を共有します。

Hermes Agent 音声モードのパイプライン:マイク入力 → VAD → STT → LLM → TTS → スピーカー出力

Hermes Agent 音声モードとは

Hermes Agent の音声モードは、CLI を立ち上げたまま「Hey Hermes」などのホットワードでウェイクアップし、口頭で指示を出し、結果を音声で返してもらう実行モードです。公式ドキュメント(hermes-agent.nousresearch.com/docs/user-guide/features/voice-mode)に英語版の手順がありますが、日本語環境向けの実装情報はほぼ存在しません。

裏側では3つのコンポーネントが連携して動きます。

  • STT(Speech-to-Text):マイク入力をテキストに変換
  • TTS(Text-to-Speech):Hermes Agent の応答を音声に変換
  • VAD(Voice Activity Detection):無音区間を検知して発話の終端を自動で確定

この3層を理解しておくと、後段のチューニングで「どこが詰まっているのか」を切り分けやすくなります。

音声モードの3層構成(STT: faster-whisper / TTS: Voxtral / VAD: Silero)と推奨設定

構成要素と選定理由

STT: faster-whisper

私たちは faster-whisper を第一選択にしています。OpenAI Whisper を CTranslate2 で再実装したもので、同じ精度のまま2〜4倍速で動きます。M2/M3 の Mac mini でも large-v3 モデルがほぼリアルタイムで回り、ローカル完結できる点が大きな利点です。日本語の認識精度も体感ベースで実用に耐えるレベルです。

TTS: Voxtral / OpenAI TTS / ElevenLabs

用途に応じて使い分けています。

  • Voxtral:ローカル実行可能、プライバシー重視の案件向け
  • OpenAI TTS:日本語の自然さと安定性のバランスが良く、第一候補にしやすい
  • ElevenLabs:声の表現力が必要なコンテンツ用途向け(コスト高)

VAD: Silero VAD

Hermes Agent の標準は Silero VAD を採用しており、無音判定が秀逸です。設定でしきい値を調整すれば「ゆっくり話す高齢者」「早口の現場マネジャー」のどちらにも合わせられます。

セットアップ手順

大枠は次の流れで進めます。具体的なコマンドは Claude Code や Hermes Agent CLI に「下記の設定でセットアップして」と渡してしまうのが一番速いです。

1. 音声モデルのインストール

faster-whisper の large-v3 モデルと Silero VAD をローカルに落としておきます。Mac mini を母艦にする構成は別記事の Mac mini で Hermes Agent を運用する場合のコスト試算【2026年版】 に詳しく書いています。

2. 設定ファイルの編集

Hermes Agent の設定ファイル(~/.hermes/config.yaml)に音声モードのブロックを追加します。私たちが日本語環境で使っているベース設定はこちらです。

voice:
  enabled: true
  hotword: "hey hermes"
  stt:
    provider: faster-whisper
    model: large-v3
    language: ja
    device: auto
    compute_type: int8
  tts:
    provider: openai
    model: tts-1
    voice: alloy
    language: ja
  vad:
    provider: silero
    threshold: 0.5
    min_silence_ms: 700
  audio:
    input_device: "MacBook Pro Microphone"
    output_device: "External Speaker"

min_silence_ms は日本語だと700前後がしっくりきます。英語ベースの初期値(400〜500)のままだと、助詞のあとで切れてしまい誤動作の原因になります。

3. マイク・スピーカーの指定

audio.input_device / output_device には OS 側で見えているデバイス名を入れます。Mac の場合は system_profiler SPAudioDataType で正確な名前を取得できます。

4. ホットワード起動の確認

起動後、「Hey Hermes、今日のタスク一覧を読み上げて」と話しかけて応答が返ればセットアップ完了です。誤反応が多い場合はホットワードを2語以上の固有な組み合わせに変えるのが有効です。

音声モードが効くユースケース4選:通勤音声メモ / 介護現場の口頭記録 / 料理レシピ問い合わせ / 会議リアルタイム議事録

ユースケース

1. 通勤中の音声メモ

移動中に思いついた施策を「Hey Hermes、明日朝にやることリストに追加して」と口頭で投げ、帰社後に整理された形で確認できます。私たちは Argus(独自に命名した秘書AIエージェント)と組み合わせ、移動中のメモを朝のブリーフィングに自動で取り込む運用にしています。

2. 介護現場の口頭記録

介護施設での記録業務は、その場でキーボードを叩く時間がないのが現場の本音です。利用者対応の合間に口頭で状態を吹き込み、Hermes Agent が定型フォーマットに整える運用がうまくフィットしています。手が塞がる現場ほど音声モードの価値が大きく出ます。

3. 料理中のレシピ問い合わせ

個人利用ですが、料理中に「Hey Hermes、鶏もも200gに対する塩の量は」と聞くと即答してくれます。手が汚れていても操作できるのが純粋に便利です。

4. 会議のリアルタイム議事録

会議室の集音マイクから faster-whisper にストリーミングさせ、Hermes Agent が要点を整理して議事録ドラフトを生成する構成です。終了直後にドラフトが出ているので、後続作業の立ち上がりが圧倒的に早くなります。

レイテンシとコストの目安

私たちの環境(Mac mini M2 Pro / faster-whisper large-v3 / OpenAI TTS)で計測した体感値は次の通りです。

  • 発話終了 → テキスト確定:おおむね0.5〜1.2秒
  • テキスト確定 → Hermes Agent 応答:1〜3秒(指示内容に依存)
  • 応答テキスト → 音声再生開始:0.8〜1.5秒

合計で「話し終えてから音声が返ってくるまで3〜5秒」がリアルな数字です。コスト面では、STT/VAD をローカルにすれば OpenAI TTS のみの課金で済み、月100時間の使用でも数千円台に収まります。完全ローカル構成(Voxtral)にすれば実質ゼロです。

セキュリティ:録音データの扱い

音声モードで最も慎重に設計すべきはここです。私たちは案件特性で2系統を使い分けています。

  • ローカル完結構成:faster-whisper + Voxtral。録音もテキストも端末外に出さない。介護・医療・法務系の案件で採用
  • クラウド経由構成:faster-whisper(ローカル) + OpenAI TTS(クラウド)。STT は手元、TTS のみ外部。発話内容のテキストは外に出ない設計が可能

外部送信が一切許されない案件では、TTS まで Voxtral に寄せ、ネットワークから完全に切り離して動作確認します。録音データを残す場合は、保存期間・アクセス権限・破棄プロセスまで設計に含めるのが必須です。Hermes Agent 全体のセキュリティ設計思想は Hermes Agent の知られざる機能15選 も併せて参照すると、音声モード以外の論点も把握しやすくなります。

運用上の注意点

  • 周囲音への対応:オープンオフィスや車内では指向性マイクの利用が前提。ノイズキャンセル機能つきヘッドセットを推奨
  • 聞き間違い対策:固有名詞は辞書登録で精度が大きく改善。クライアント名・製品名は事前に登録する
  • 誤反応の防止:ホットワードは2語以上の固有な組み合わせに。日常会話に出てこない語を選ぶ
  • 長時間運用時のメモリ:large-v3 モデルは常駐させると数GB使う。Mac mini を母艦にしてリモートから叩く構成が運用しやすい

常駐エージェントとしての運用例は Trevor Gordon 氏の iMessage 連携事例に学ぶ常駐秘書設計 も参考になります。音声入力と他チャネルを組み合わせると、Hermes Agent を「自分専属のオペレーター」として完成度高く運用できます。

まとめ

Hermes Agent の音声モードは、ハンズフリー業務の生産性を変えるポテンシャルがあり、faster-whisper + Voxtral / OpenAI TTS + Silero VAD の組み合わせがバランスのとれた現実解です。日本語環境では min_silence_ms やホットワード設計、辞書登録といった小さなチューニングが効きます。録音データの扱いは案件特性に合わせて、ローカル完結とクラウド経由を明確に切り分けて設計すべき領域です。私たちは現場ごとに最小構成からスタートし、効果が見えた段階で拡張する進め方を推奨しています。

[ FREE DISCOVERY ]

Hermes Agent を本気で活用するなら

「Hermes Agent を自分で使いこなしたい」「自社の業務に組み込みたい」
— そんな方は、まず初回無料相談でお話ししてみませんか。

個人・副業の方お悩み相談・レクチャー・伴走無料相談を予約 →法人・経営者の方導入・運用・開発サポート無料相談を予約 →
← 記事一覧に戻る