Agent Loop 内部机制

核心编排引擎是 run_agent.py 的 AIAgent 类 —— 约 10,700 行代码，负责从提示词组装到工具调度再到提供方故障转移的全部流程。

核心职责

AIAgent 负责：

通过 prompt_builder.py 组装有效系统提示词和工具模式
选择正确的提供方/API 模式（chat_completions、codex_responses、anthropic_messages）
支持中断的模型调用（具备取消支持）
执行工具调用（串行或通过线程池并发执行）
以 OpenAI 消息格式维护对话历史
处理压缩、重试以及回退模型切换
跟踪父代理与子代理之间的迭代预算
在上下文丢失前刷新持久化内存

两个入口点

# Simple interface — returns final response string
response = agent.chat("Fix the bug in main.py")

# Full interface — returns dict with messages, metadata, usage stats
result = agent.run_conversation(
    user_message="Fix the bug in main.py",
    system_message=None,           # auto-built if omitted
    conversation_history=None,      # auto-loaded from session if omitted
    task_id="task_abc123"
)

chat() 是 run_conversation() 的轻量封装，其作用是从结果字典中提取 final_response 字段。

API 模式

Hermes 支持三种 API 执行模式，由提供方选择、显式参数和基础 URL 推断共同决定：

API 模式	用途	客户端类型
`chat_completions`	兼容 OpenAI 的端点（OpenRouter、自定义服务、大多数提供方）	`openai.OpenAI`
`codex_responses`	OpenAI Codex / Responses API	`openai.OpenAI`（使用 Responses 格式）
`anthropic_messages`	原生 Anthropic Messages API	`anthropic.Anthropic` 通过适配器

模式决定了消息格式、工具调用结构、响应解析方式以及缓存/流式处理行为。三种模式在 API 调用前后均统一为相同的内部消息格式（OpenAI 风格的 role/content/tool_calls 字典）。

模式解析优先级：

显式 api_mode 构造函数参数（最高优先级）
提供方特定检测（例如，anthropic 提供方 → anthropic_messages）
基础 URL 推断（例如，api.anthropic.com → anthropic_messages）
默认值：chat_completions

迭代生命周期

每个代理循环的迭代遵循以下流程：

run_conversation()
  1. Generate task_id if not provided
  2. Append user message to conversation history
  3. Build or reuse cached system prompt (prompt_builder.py)
  4. Check if preflight compression is needed (>50% context)
  5. Build API messages from conversation history
     - chat_completions: OpenAI format as-is
     - codex_responses: convert to Responses API input items
     - anthropic_messages: convert via anthropic_adapter.py
  6. Inject ephemeral prompt layers (budget warnings, context pressure)
  7. Apply prompt caching markers if on Anthropic
  8. Make interruptible API call (_api_call_with_interrupt)
  9. Parse response:
     - If tool_calls: execute them, append results, loop back to step 5
     - If text response: persist session, flush memory if needed, return

消息格式

所有消息在内部均采用 OpenAI 兼容格式：

{"role": "system", "content": "..."}
{"role": "user", "content": "..."}
{"role": "assistant", "content": "...", "tool_calls": [...]}
{"role": "tool", "tool_call_id": "...", "content": "..."}

模型支持的扩展推理内容存储在 assistant_msg["reasoning"] 中，并可通过 reasoning_callback 可选显示。

消息交替规则

代理循环强制执行严格的发言角色交替：

系统消息后：User → Assistant → User → Assistant → ...
工具调用期间：Assistant (with tool_calls) → Tool → Tool → ... → Assistant
禁止连续两个助手消息
禁止连续两个用户消息
仅允许tool 角色拥有连续条目（并行工具结果）

各提供方会验证这些序列，非法的历史记录将被拒绝。

可中断的 API 调用

API 请求被包裹在 _api_call_with_interrupt() 中，该组件在后台线程中运行实际 HTTP 调用，同时监控中断事件：

┌──────────────────────┐     ┌──────────────┐
│  Main thread         │     │  API thread   │
│  wait on:            │────▶│  HTTP POST    │
│  - response ready    │     │  to provider  │
│  - interrupt event   │     └──────────────┘
│  - timeout           │
└──────────────────────┘

当发生中断时（用户发送新消息、收到 /stop 命令或信号）：

放弃 API 线程（响应被丢弃）
代理可处理新输入或干净地关闭
不会将部分响应注入对话历史

工具执行

串行 vs 并发

当模型返回工具调用时：

单个工具调用 → 在主线程中直接执行
多个工具调用 → 通过 ThreadPoolExecutor 并发执行
- 特例：标记为交互式的工具（如 clarify）强制串行执行
- 结果按原始工具调用顺序重新插入，无论完成顺序如何

执行流程

for each tool_call in response.tool_calls:
Resolve handler from tools/registry.py
Fire pre_tool_call plugin hook
Check if dangerous command (tools/approval.py)
       - If dangerous: invoke approval_callback, wait for user
Execute handler with args + task_id
Fire post_tool_call plugin hook
Append {"role": "tool", "content": result} to history

代理级工具

某些工具在到达 handle_function_call() 之前由 run_agent.py 拦截：

工具	拦截原因
`todo`	读取/写入代理本地任务状态
`memory`	向持久化内存文件写入，带字符数限制
`session_search`	通过代理的会话数据库查询会话历史
`delegate_task`	启动子代理（具有隔离上下文）

这些工具直接修改代理状态，并返回合成的工具结果，不经过注册表。

回调接口

AIAgent 支持平台特定回调，实现在 CLI、网关和 ACP 集成中的实时进度反馈：

回调	触发时机	使用方
`tool_progress_callback`	每次工具执行前后	CLI 旋转指示器、网关进度消息
`thinking_callback`	模型开始/停止思考时	CLI “思考中…” 指示器
`reasoning_callback`	模型返回推理内容时	CLI 推理显示、网关推理块
`clarify_callback`	当 `clarify` 工具被调用时	CLI 输入提示、网关交互消息
`step_callback`	每次完整代理回合后	网关步骤追踪、ACP 进度
`stream_delta_callback`	每个流式 token（启用时）	CLI 流式显示
`tool_gen_callback`	从流中解析出工具调用时	CLI 旋转指示器中的工具预览
`status_callback`	状态变化时（思考、执行等）	ACP 状态更新

预算与回退行为

迭代预算

代理通过 IterationBudget 跟踪迭代次数：

默认值：90 次迭代（可通过 agent.max_turns 配置）
每个代理拥有独立预算。子代理获得独立预算，上限为 delegation.max_iterations（默认 50）—— 父代理 + 子代理的总迭代数可超过父代理的限额
达到 100% 时，代理停止并返回已完成工作的摘要

回退模型

当主模型失败时（429 速率限制、5xx 服务器错误、401/403 认证错误）：

检查配置中的 fallback_providers 列表
按顺序尝试每个回退项
成功后，使用新提供方继续对话
对于 401/403 错误，在回退前尝试刷新凭证

回退系统也独立覆盖辅助任务 —— 视觉、压缩、网页提取和会话搜索各自拥有可配置的独立回退链，通过 auxiliary.* 配置节进行设置。

压缩与持久化

压缩触发时机

预检阶段（API 调用前）：若对话长度超过模型上下文窗口的 50%
网关自动压缩：若对话长度超过 85%（更激进，发生在回合之间）

压缩过程

首先将内存刷新到磁盘（防止数据丢失）
将中间对话轮次总结为紧凑摘要
保留最后 N 条消息完整（compression.protect_last_n，默认：20）
保持工具调用/结果消息对完整（永不拆分）
生成新的会话谱系 ID（压缩创建了一个“子”会话）

会话持久化

每回合结束后：

消息保存至会话存储（通过 hermes_state.py 的 SQLite）
内存变更刷新至 MEMORY.md / USER.md
可通过 /resume 或 hermes chat --resume 之后恢复会话

关键源文件

文件	用途
`run_agent.py`	AIAgent 类 —— 完整的代理循环（约 10,700 行）
`agent/prompt_builder.py`	从记忆、技能、上下文文件、个性中组装系统提示词
`agent/context_engine.py`	ContextEngine ABC —— 可插拔的上下文管理
`agent/context_compressor.py`	默认引擎 —— 有损摘要算法
`agent/prompt_caching.py`	Anthropic 提示词缓存标记与缓存指标
`agent/auxiliary_client.py`	用于辅助任务（视觉、摘要）的独立 LLM 客户端
`model_tools.py`	工具模式集合、`handle_function_call()` 调度

核心职责​

两个入口点​

API 模式​

迭代生命周期​

消息格式​

消息交替规则​

可中断的 API 调用​

工具执行​

串行 vs 并发​

执行流程​

代理级工具​

回调接口​

预算与回退行为​

迭代预算​

回退模型​

压缩与持久化​

压缩触发时机​

压缩过程​

会话持久化​

关键源文件​

相关文档- 提供者运行时解析​