Skip to main content

功能概览

Hermes Agent 拥有丰富的功能,远超基础聊天能力。从持久化记忆和文件感知上下文,到浏览器自动化与语音对话,这些功能协同工作,使 Hermes 成为一个强大的自主助手。

核心功能

  • 工具与工具集 — 工具是扩展代理能力的函数。它们被组织成逻辑上的工具集,可按平台启用或禁用,涵盖网络搜索、终端执行、文件编辑、记忆管理、任务委派等。
  • 技能系统 — 按需加载的知识文档,代理在需要时可调用。技能采用渐进式披露模式以减少 token 使用量,并兼容 agentskills.io 开放标准。
  • 持久化记忆 — 有限且经过筛选的记忆,可在会话间持续保留。Hermes 会记住您的偏好、项目、环境以及通过 MEMORY.mdUSER.md 学习到的内容。
  • 上下文文件 — Hermes 自动发现并加载项目上下文文件(.hermes.mdAGENTS.mdCLAUDE.mdSOUL.md.cursorrules),从而塑造其在您项目中的行为方式。
  • 上下文引用 — 输入 @ 后跟引用,即可将文件、文件夹、git 差异和 URL 内容直接注入消息中。Hermes 会自动展开引用并在消息末尾附加内容。
  • 检查点 — Hermes 在修改文件前自动快照工作目录,若出现问题,可通过 /rollback 回滚至之前状态,提供安全保障。

自动化能力

  • 定时任务(Cron) — 使用自然语言或 cron 表达式安排任务自动运行。任务可附加技能,结果可发送至任意平台,并支持暂停、恢复、编辑操作。
  • 子代理委派delegate_task 工具可创建具有独立上下文、受限工具集和专属终端会话的子代理实例。最多可并行运行 3 个子代理,处理多个并行工作流。
  • 代码执行execute_code 工具允许代理编写 Python 脚本,以程序化方式调用 Hermes 工具,通过沙箱化的 RPC 执行,将多步骤流程压缩为一次 LLM 调用。
  • 事件钩子 — 在关键生命周期节点运行自定义代码。网关钩子用于日志记录、告警和 webhook;插件钩子用于工具拦截、指标统计和安全防护。
  • 批量处理 — 并行运行 Hermes 代理处理数百甚至数千个提示,生成结构化的 ShareGPT 格式轨迹数据,用于训练数据生成或评估。

媒体与网页功能

  • 语音模式 — 支持 CLI 和消息平台的完整语音交互。使用麦克风与代理对话,听取语音回复,并在 Discord 音频频道中进行实时语音交流。
  • 浏览器自动化 — 支持多种后端的完整浏览器自动化:Browserbase 云服务、Browser Use 云服务、本地 Chrome(通过 CDP)、本地 Chromium。可实现网站导航、表单填写和信息提取。
  • 视觉与图像粘贴 — 多模态视觉支持。可将剪贴板中的图片粘贴到 CLI 中,让代理分析、描述或基于图像开展工作,适用于任何具备视觉能力的模型。
  • 图像生成 — 使用 FAL.ai 的 FLUX 2 Pro 模型,根据文本提示生成图像,并通过 Clarity Upscaler 实现自动 2 倍超分辨率增强。
  • 语音与 TTS — 所有消息平台均支持文本转语音输出及语音消息转录,提供五种语音合成服务选项:Edge TTS(免费)、ElevenLabs、OpenAI TTS、MiniMax 和 NeuTTS。

集成能力

  • MCP 集成 — 通过 stdio 或 HTTP 传输连接任意 MCP 服务器。无需编写原生 Hermes 工具即可访问 GitHub、数据库、文件系统及内部 API 等外部工具。支持按服务器的工具过滤与采样。
  • 提供商路由 — 对 AI 提供商处理请求的方式进行细粒度控制。可根据成本、速度或质量优化选择,支持排序、白名单、黑名单和优先级设置。
  • 备用提供商 — 当主模型出现错误时,自动切换至备用 LLM 提供商,包括对视觉、压缩等辅助任务的独立故障转移机制。
  • 凭证池 — 将同一提供商的 API 请求分发到多个密钥上。在遇到速率限制或失败时自动轮换密钥。
  • 记忆提供者 — 接入外部记忆后端(Honcho、OpenViking、Mem0、Hindsight、Holographic、RetainDB、ByteRover),实现跨会话用户建模与个性化,超越内置记忆系统。
  • API 服务器 — 将 Hermes 暴露为兼容 OpenAI 的 HTTP 接口。可连接任何支持 OpenAI 格式的前端应用——如 Open WebUI、LobeChat、LibreChat 等。
  • IDE 集成(ACP) — 在 VS Code、Zed、JetBrains 等 ACP 兼容编辑器中使用 Hermes。聊天记录、工具活动、文件差异和终端命令可直接在编辑器内渲染。
  • 强化学习训练 — 从代理会话中生成轨迹数据,用于强化学习和模型微调。

可定制性

  • 个性与 SOUL.md — 完全可自定义的代理人格。SOUL.md 是主要身份文件——系统提示中的首个元素——您可在每个会话中切换内置或自定义的 /personality 预设。
  • 皮肤与主题 — 自定义 CLI 的视觉呈现:横幅颜色、旋转图标与动词、响应框标签、品牌文字,以及工具活动前缀。
  • 插件 — 无需修改核心代码即可添加自定义工具、钩子和集成。支持三类插件:通用插件(工具/钩子)、记忆提供者(跨会话知识)、上下文引擎(替代上下文管理)。通过统一的 hermes plugins 交互界面进行管理。