Hermes Agent 音声モード設定ガイド|faster-whisper + Voxtral でハンズフリー運用【2026年版】

株式会社Fyveは中小企業向けにAI業務効率化の受託開発を行っており、その中でも Hermes Agent をクライアントの常駐エージェントとして導入する案件が増えています。今回はその中でも問い合わせの多い「音声モード」について、私たちが実際に検証した構成と設定を、2026年6月時点の最新情報でまとめます。
キーボード操作なしで AI に指示を出せる音声モードは、移動中・運転中・調理中・介護現場の口頭記録など「視覚も手も使えない場面」での生産性を大きく変えます。一方で日本語認識精度、レイテンシ、録音データの取り扱いといった現場特有の論点があり、英語ベースのドキュメントだけでは情報が不足しがちです。私たちが導入支援の中で詰めてきた構成を共有します。

Hermes Agent 音声モードとは
Hermes Agent の音声モードは、CLI を立ち上げたまま「Hey Hermes」などのホットワードでウェイクアップし、口頭で指示を出し、結果を音声で返してもらう実行モードです。公式ドキュメント(hermes-agent.nousresearch.com/docs/user-guide/features/voice-mode)に英語版の手順がありますが、日本語環境向けの実装情報はほぼ存在しません。
裏側では3つのコンポーネントが連携して動きます。
- STT(Speech-to-Text):マイク入力をテキストに変換
- TTS(Text-to-Speech):Hermes Agent の応答を音声に変換
- VAD(Voice Activity Detection):無音区間を検知して発話の終端を自動で確定
この3層を理解しておくと、後段のチューニングで「どこが詰まっているのか」を切り分けやすくなります。

構成要素と選定理由
STT: faster-whisper
私たちは faster-whisper を第一選択にしています。OpenAI Whisper を CTranslate2 で再実装したもので、同じ精度のまま2〜4倍速で動きます。M2/M3 の Mac mini でも large-v3 モデルがほぼリアルタイムで回り、ローカル完結できる点が大きな利点です。日本語の認識精度も体感ベースで実用に耐えるレベルです。
TTS: Voxtral / OpenAI TTS / ElevenLabs
用途に応じて使い分けています。
- Voxtral:ローカル実行可能、プライバシー重視の案件向け
- OpenAI TTS:日本語の自然さと安定性のバランスが良く、第一候補にしやすい
- ElevenLabs:声の表現力が必要なコンテンツ用途向け(コスト高)
VAD: Silero VAD
Hermes Agent の標準は Silero VAD を採用しており、無音判定が秀逸です。設定でしきい値を調整すれば「ゆっくり話す高齢者」「早口の現場マネジャー」のどちらにも合わせられます。
セットアップ手順
大枠は次の流れで進めます。具体的なコマンドは Claude Code や Hermes Agent CLI に「下記の設定でセットアップして」と渡してしまうのが一番速いです。
1. 音声モデルのインストール
faster-whisper の large-v3 モデルと Silero VAD をローカルに落としておきます。Mac mini を母艦にする構成は別記事の Mac mini で Hermes Agent を運用する場合のコスト試算【2026年版】 に詳しく書いています。
2. 設定ファイルの編集
Hermes Agent の設定ファイル(~/.hermes/config.yaml)に音声モードのブロックを追加します。私たちが日本語環境で使っているベース設定はこちらです。
voice:
enabled: true
hotword: "hey hermes"
stt:
provider: faster-whisper
model: large-v3
language: ja
device: auto
compute_type: int8
tts:
provider: openai
model: tts-1
voice: alloy
language: ja
vad:
provider: silero
threshold: 0.5
min_silence_ms: 700
audio:
input_device: "MacBook Pro Microphone"
output_device: "External Speaker"
min_silence_ms は日本語だと700前後がしっくりきます。英語ベースの初期値(400〜500)のままだと、助詞のあとで切れてしまい誤動作の原因になります。
3. マイク・スピーカーの指定
audio.input_device / output_device には OS 側で見えているデバイス名を入れます。Mac の場合は system_profiler SPAudioDataType で正確な名前を取得できます。
4. ホットワード起動の確認
起動後、「Hey Hermes、今日のタスク一覧を読み上げて」と話しかけて応答が返ればセットアップ完了です。誤反応が多い場合はホットワードを2語以上の固有な組み合わせに変えるのが有効です。

ユースケース
1. 通勤中の音声メモ
移動中に思いついた施策を「Hey Hermes、明日朝にやることリストに追加して」と口頭で投げ、帰社後に整理された形で確認できます。私たちは Argus(独自に命名した秘書AIエージェント)と組み合わせ、移動中のメモを朝のブリーフィングに自動で取り込む運用にしています。
2. 介護現場の口頭記録
介護施設での記録業務は、その場でキーボードを叩く時間がないのが現場の本音です。利用者対応の合間に口頭で状態を吹き込み、Hermes Agent が定型フォーマットに整える運用がうまくフィットしています。手が塞がる現場ほど音声モードの価値が大きく出ます。
3. 料理中のレシピ問い合わせ
個人利用ですが、料理中に「Hey Hermes、鶏もも200gに対する塩の量は」と聞くと即答してくれます。手が汚れていても操作できるのが純粋に便利です。
4. 会議のリアルタイム議事録
会議室の集音マイクから faster-whisper にストリーミングさせ、Hermes Agent が要点を整理して議事録ドラフトを生成する構成です。終了直後にドラフトが出ているので、後続作業の立ち上がりが圧倒的に早くなります。
レイテンシとコストの目安
私たちの環境(Mac mini M2 Pro / faster-whisper large-v3 / OpenAI TTS)で計測した体感値は次の通りです。
- 発話終了 → テキスト確定:おおむね0.5〜1.2秒
- テキスト確定 → Hermes Agent 応答:1〜3秒(指示内容に依存)
- 応答テキスト → 音声再生開始:0.8〜1.5秒
合計で「話し終えてから音声が返ってくるまで3〜5秒」がリアルな数字です。コスト面では、STT/VAD をローカルにすれば OpenAI TTS のみの課金で済み、月100時間の使用でも数千円台に収まります。完全ローカル構成(Voxtral)にすれば実質ゼロです。
セキュリティ:録音データの扱い
音声モードで最も慎重に設計すべきはここです。私たちは案件特性で2系統を使い分けています。
- ローカル完結構成:faster-whisper + Voxtral。録音もテキストも端末外に出さない。介護・医療・法務系の案件で採用
- クラウド経由構成:faster-whisper(ローカル) + OpenAI TTS(クラウド)。STT は手元、TTS のみ外部。発話内容のテキストは外に出ない設計が可能
外部送信が一切許されない案件では、TTS まで Voxtral に寄せ、ネットワークから完全に切り離して動作確認します。録音データを残す場合は、保存期間・アクセス権限・破棄プロセスまで設計に含めるのが必須です。Hermes Agent 全体のセキュリティ設計思想は Hermes Agent の知られざる機能15選 も併せて参照すると、音声モード以外の論点も把握しやすくなります。
運用上の注意点
- 周囲音への対応:オープンオフィスや車内では指向性マイクの利用が前提。ノイズキャンセル機能つきヘッドセットを推奨
- 聞き間違い対策:固有名詞は辞書登録で精度が大きく改善。クライアント名・製品名は事前に登録する
- 誤反応の防止:ホットワードは2語以上の固有な組み合わせに。日常会話に出てこない語を選ぶ
- 長時間運用時のメモリ:large-v3 モデルは常駐させると数GB使う。Mac mini を母艦にしてリモートから叩く構成が運用しやすい
常駐エージェントとしての運用例は Trevor Gordon 氏の iMessage 連携事例に学ぶ常駐秘書設計 も参考になります。音声入力と他チャネルを組み合わせると、Hermes Agent を「自分専属のオペレーター」として完成度高く運用できます。
まとめ
Hermes Agent の音声モードは、ハンズフリー業務の生産性を変えるポテンシャルがあり、faster-whisper + Voxtral / OpenAI TTS + Silero VAD の組み合わせがバランスのとれた現実解です。日本語環境では min_silence_ms やホットワード設計、辞書登録といった小さなチューニングが効きます。録音データの扱いは案件特性に合わせて、ローカル完結とクラウド経由を明確に切り分けて設計すべき領域です。私たちは現場ごとに最小構成からスタートし、効果が見えた段階で拡張する進め方を推奨しています。
Hermes Agent を本気で活用するなら
「Hermes Agent を自分で使いこなしたい」「自社の業務に組み込みたい」
— そんな方は、まず初回無料相談でお話ししてみませんか。