使用语音模式与 Hermes 互动

本指南是语音模式功能参考的实用配套文档。
若功能页面解释了语音模式能做什么，本指南则展示如何有效使用它。

语音模式适合哪些场景

语音模式特别适用于：

希望实现无手操作的 CLI 工作流
在 Telegram 或 Discord 中获取语音回复
让 Hermes 进入 Discord 语音频道进行实时对话
步行时快速记录想法、调试或进行即时问答，无需打字

选择你的语音模式配置

Hermes 实际上提供三种不同的语音体验。

模式	最佳用途	平台
交互式麦克风循环	编码或研究时个人无手操作使用	CLI
聊天中的语音回复	与常规消息并行的语音回复	Telegram、Discord
实时语音频道机器人	在语音频道中进行群组或个人实时对话	Discord 语音频道

推荐路径：

先确保文本模式正常工作
再启用语音回复
若需要完整体验，最后再尝试 Discord 语音频道

第一步：确保普通 Hermes 正常运行

在启用语音模式前，请确认以下事项：

Hermes 已成功启动
你的服务提供商已正确配置
代理能正常响应文本提示

hermes

输入一个简单问题测试：

What tools do you have available?

如果这一步还不稳定，请先修复文本模式。

第二步：安装必要的附加组件

CLI 麦克风 + 播放

pip install "hermes-agent[voice]"

消息平台支持

pip install "hermes-agent[messaging]"

高级 ElevenLabs TTS（付费）

pip install "hermes-agent[tts-premium]"

本地 NeuTTS（可选）

python -m pip install -U neutts[all]

全部安装

pip install "hermes-agent[all]"

第三步：安装系统依赖

macOS

brew install portaudio ffmpeg opus
brew install espeak-ng

Ubuntu / Debian

sudo apt install portaudio19-dev ffmpeg libopus0
sudo apt install espeak-ng

这些依赖的重要性说明：

portaudio → CLI 语音模式的麦克风输入/播放支持
ffmpeg → TTS 和消息传递所需的音频转换
opus → Discord 语音编码支持
espeak-ng → NeuTTS 所需的音素化后端

第四步：选择 STT 和 TTS 提供商

Hermes 支持本地和云端语音处理方案。

最简单 / 最低成本设置

使用本地 STT + 免费 Edge TTS：

STT 提供商：local
TTS 提供商：edge

这通常是最佳起点。

环境文件示例

将以下内容添加至 ~/.hermes/.env：

# Cloud STT options (local needs no key)
GROQ_API_KEY=***
VOICE_TOOLS_OPENAI_KEY=***

# Premium TTS (optional)
ELEVENLABS_API_KEY=***

如果你使用 `hermes setup`

若在设置向导中选择了 NeuTTS，Hermes 会检查 neutts 是否已安装。若缺失，向导将提示你需要安装 Python 包 neutts 和系统包 espeak-ng，并提供自动安装选项。系统将通过你的平台包管理器安装 espeak-ng，然后执行：

python -m pip install -U neutts[all]

若跳过此步骤或安装失败，向导将回退至 Edge TTS。

第五步：推荐配置

voice:
  record_key: "ctrl+b"
  max_recording_seconds: 120
  auto_tts: false
  silence_threshold: 200
  silence_duration: 3.0

stt:
  provider: "local"
  local:
    model: "base"

tts:
  provider: "edge"
  edge:
    voice: "en-US-AriaNeural"

这对大多数用户来说是一个稳妥的默认设置。

如需使用本地 TTS，可将 tts 块替换为：

tts:
  provider: "neutts"
  neutts:
    ref_audio: ''
    ref_text: ''
    model: neuphonic/neutts-air-q4-gguf
    device: cpu

用例 1：CLI 语音模式

启用语音模式

启动 Hermes：

hermes

进入 CLI 后：

/voice on

录音流程

默认快捷键：

Ctrl+B

操作流程：

按下 Ctrl+B
开始说话
等待静音检测自动停止录音
Hermes 完成语音识别并作出回应
若启用了 TTS，将语音播报答案
循环可自动重启，实现连续使用

实用命令

/voice
/voice on
/voice off
/voice tts
/voice status

优秀的 CLI 工作流

快速调试（边走边问）

说：

I keep getting a docker permission error. Help me debug it.

然后继续无手操作：

“再读一遍上一条错误”
“用更简单的语言解释根本原因”
“现在告诉我确切的修复方法”

研究 / 头脑风暴

非常适合：

边走边思考
口述尚未成型的想法
让 Hermes 实时帮你梳理思路

可访问性 / 低打字量会话

当打字不便时，语音模式是保留完整 Hermes 工作流的最快方式之一。

调整 CLI 行为

静音阈值

若 Hermes 反应过于敏感，可调整：

voice:
  silence_threshold: 250

数值越高，灵敏度越低。

静音持续时间

若你在句子间停顿较多，可增加：

voice:
  silence_duration: 4.0

录音快捷键

若 Ctrl+B 与你的终端或 tmux 设置冲突：

voice:
  record_key: "ctrl+space"

用例 2：Telegram 或 Discord 的语音回复

此模式比完整语音频道更简单。

Hermes 仍作为普通聊天机器人运行，但可以用语音回复。

启动网关

hermes gateway

开启语音回复

在 Telegram 或 Discord 中：

/voice on

或

/voice tts

模式说明

模式	含义
`off`	仅文本回复
`voice_only`	仅当用户发送语音消息时才语音回复
`all`	所有回复均语音播报

各模式适用场景

/voice on：仅希望对语音消息进行语音回复
/voice tts：希望始终作为语音助手使用

优质消息工作流

手机上的 Telegram 助手

适用于：

远离电脑时
发送语音便条并快速获得语音回复
让 Hermes 像随身的研究或运维助手一样工作

Discord 私聊 + 语音输出

适合希望进行私密互动，避免服务器频道提及行为的场景。

用例 3：Discord 语音频道

这是最高级的模式。

Hermes 会加入 Discord 语音频道，监听用户发言，将其转录，执行标准代理流程，并把回复以语音形式返回到频道中。

必需的 Discord 权限

除常规文本机器人设置外，请确保机器人拥有：

连接（Connect）
发言（Speak）
推荐开启：使用语音活动（Use Voice Activity）

同时在开发者门户中启用特权意图：

状态意图（Presence Intent）
服务器成员意图（Server Members Intent）
消息内容意图（Message Content Intent）

加入与退出

在机器人所在的 Discord 文本频道中输入：

/voice join
/voice leave
/voice status

加入后发生什么

用户在语音频道中发言
Hermes 检测语音边界
转录内容显示在关联的文本频道中
Hermes 以文字和语音方式回应
文本频道即为发出 /voice join 命令的频道

Discord 语音频道使用最佳实践

保持 DISCORD_ALLOWED_USERS 尽可能简洁
初期建议使用专用机器人/测试频道
在尝试语音频道模式前，先验证 STT 和 TTS 在普通文本聊天语音模式下的表现

语音质量建议

最佳音质配置

STT：本地 large-v3 或 Groq whisper-large-v3
TTS：ElevenLabs

最佳速度 / 便捷性配置

STT：本地 base 或 Groq
TTS：Edge

最佳零成本配置

STT：本地
TTS：Edge

常见故障排除

“未找到音频设备”

请安装 portaudio。

“机器人已加入但听不到声音”

检查：

你的 Discord 用户 ID 是否在 DISCORD_ALLOWED_USERS 中
你是否被静音
特权意图是否已启用
机器人是否有“连接”和“发言”权限

“能转录但不发声”

检查：

TTS 提供商配置
ElevenLabs 或 OpenAI 的 API 密钥 / 配额
Edge 转换路径所需的 ffmpeg 安装

“Whisper 输出乱码”

尝试：

更安静的环境
提高 silence_threshold 值
更换 STT 提供商或模型
使用更短、更清晰的语句

“在私聊中可用但在服务器频道中不可用”

这通常与提及策略有关。

默认情况下，机器人在 Discord 服务器文本频道中需要提及 @mention，除非另行配置。

语音模式适合哪些场景​

选择你的语音模式配置​

第一步：确保普通 Hermes 正常运行​

第二步：安装必要的附加组件​

CLI 麦克风 + 播放​

消息平台支持​

高级 ElevenLabs TTS（付费）​

本地 NeuTTS（可选）​

全部安装​

第三步：安装系统依赖​

macOS​

Ubuntu / Debian​

第四步：选择 STT 和 TTS 提供商​

最简单 / 最低成本设置​

环境文件示例​

推荐提供商​

语音转文字（STT）​

文字转语音（TTS）​

如果你使用 hermes setup​

第五步：推荐配置​

用例 1：CLI 语音模式​

启用语音模式​

录音流程​

实用命令​

优秀的 CLI 工作流​

快速调试（边走边问）​

研究 / 头脑风暴​

可访问性 / 低打字量会话​

调整 CLI 行为​

静音阈值​

静音持续时间​

录音快捷键​

用例 2：Telegram 或 Discord 的语音回复​

启动网关​

开启语音回复​

模式说明​

各模式适用场景​

优质消息工作流​

手机上的 Telegram 助手​

Discord 私聊 + 语音输出​

用例 3：Discord 语音频道​

必需的 Discord 权限​

加入与退出​

加入后发生什么​

Discord 语音频道使用最佳实践​

语音质量建议​

最佳音质配置​

最佳速度 / 便捷性配置​

最佳零成本配置​

常见故障排除​

“未找到音频设备”​

“机器人已加入但听不到声音”​

“能转录但不发声”​

“Whisper 输出乱码”​

“在私聊中可用但在服务器频道中不可用”​

推荐的首周设置​

接下来阅读的内容​