功能概览
Hermes Agent 的能力远不止“聊天”。从持久化记忆、项目上下文感知,到浏览器自动化、语音交互与批量任务处理,这些功能可以彼此配合,让 Hermes 更像一个可长期协作的自主助手。
核心功能
- 工具与工具集 — 工具用于扩展代理能力,并按逻辑分组为工具集。你可以按平台启用或禁用它们,覆盖网络搜索、终端执行、文件编辑、记忆管理、任务委派等能力。
- 技能系统 — 技能是按需加载的知识文档,代理在需要时才会读取。它采用渐进式披露模式以减少 token 消耗,并兼容 agentskills.io 开放标准。
- 持久化记忆 — 经过筛选的长期记忆可跨会话保留。Hermes 会逐步记住你的偏好、项目背景、工作环境,以及从
MEMORY.md和USER.md中学到的信息。 - 上下文文件 — Hermes 会自动发现并加载项目中的上下文文件(
.hermes.md、AGENTS.md、CLAUDE.md、SOUL.md、.cursorrules),从而调整它在当前项目中的行为。 - 上下文引用 — 输入
@后跟文件、文件夹、git 差异或 URL,即可把相关内容直接注入消息。Hermes 会自动展开引用并附加正文。 - 检查点 — Hermes 在修改文件前自动快照工作目录,若出现问题,可通过
/rollback轻松回滚。
自动化能力
- 定时任务(Cron) — 使用自然语言或 cron 表达式安排自动运行的任务。任务可附带技能,结果可投递到任意平台,并支持暂停、恢复和编辑。
- 子代理委派 —
delegate_task工具可创建拥有独立上下文、受限工具集和专属终端会话的子代理。最多可并行运行 3 个子代理,用于拆分多任务工作流。 - 代码执行 —
execute_code工具允许代理编写 Python 脚本,以程序化方式调用 Hermes 工具,并在沙箱化 RPC 环境中执行,把多步骤流程压缩成更少的 LLM 往返。 - 事件钩子 — 在关键生命周期节点运行自定义代码。网关钩子适合日志、告警和 webhook;插件钩子适合工具拦截、指标统计和安全控制。
- 批量处理 — 并行运行数百甚至数千个 Hermes 任务,生成结构化的 ShareGPT 轨迹数据,适合训练数据生成、批量评测和实验。
媒体与网页
- 语音模式 — 在 CLI 和消息平台中提供完整语音交互。你可以直接用麦克风和代理对话、收听语音回复,还能在 Discord 语音频道中进行实时语音交流。
- 浏览器自动化 — 支持多种浏览器后端:Browserbase 云服务、Browser Use 云服务、本地 Chrome(通过 CDP)和本地 Chromium,可用于浏览网页、填写表单和提取信息。
- 视觉与图像粘贴 — 支持多模态视觉输入。将剪贴板中的图片粘贴到 CLI 后,代理即可分析、描述或基于图像继续工作,适用于任何具备视觉能力的模型。
- 图像生成 — 使用 FAL.ai 的 FLUX 2 Pro 模型根据文本提示生成图像,并通过 Clarity Upscaler 自动完成 2 倍放大。
- 语音与 TTS — 所有消息平台都支持文本转语音输出和语音消息转录,并提供五种语音合成方案:Edge TTS(免费)、ElevenLabs、OpenAI TTS、MiniMax 和 NeuTTS。
集成能力
- MCP 集成 — 通过 stdio 或 HTTP 连接任意 MCP 服务器。无需编写原生 Hermes 工具,也能接入 GitHub、数据库、文件系统和内部 API 等外部能力,并支持按服务器过滤工具与采样。
- 提供商路由 — 对 AI 提供商请求进行细粒度控制。你可以按成本、速度或质量来优化选择,并配置排序、白名单、黑名单和优先级。
- 备用提供商 — 当主模型出错时,自动切换到备用 LLM 提供商,同时为视觉、压缩等辅助任务提供独立的容错机制。
- 凭证池 — 将同一提供商的 API 请求分散到多个密钥上。在遇到速率限制或失败时自动轮换。
- 记忆提供商 — 接入外部记忆后端(Honcho、OpenViking、Mem0、Hindsight、Holographic、RetainDB、ByteRover),实现跨会话的用户建模与个性化能力,进一步扩展内置记忆系统。
- API 服务器 — 将 Hermes 暴露为 OpenAI 兼容的 HTTP 接口,可连接任何支持 OpenAI 格式的前端应用,如 Open WebUI、LobeChat、LibreChat 等。
- IDE 集成(ACP) — 在 ACP 兼容的编辑器中使用 Hermes,例如 VS Code、Zed 和 JetBrains 系列。聊天记录、工具活动、文件差异与终端命令都可以直接显示在编辑器里。
- 强化学习训练 — 从代理会话中生成轨迹数据,用于强化学习和模型微调。
定制化
- 个性与 SOUL.md — 完全可定制的代理人格。
SOUL.md是主要身份文件,也是系统提示中的首个组成部分;你可以按会话切换内置或自定义的/personality预设。 - 皮肤与主题 — 自定义 CLI 的视觉外观,包括横幅颜色、旋转图标与动词、响应框标签、品牌文案和工具活动前缀。
- 插件 — 无需修改核心代码即可添加自定义工具、钩子和集成。支持三类插件:通用插件(工具/钩子)、记忆提供商(跨会话知识)和上下文引擎(替代性上下文管理),统一通过
hermes plugins管理。