图像生成
Hermes Agent 可通过 FAL.ai 的 FLUX 2 Pro 模型,根据文本提示生成图像,并利用 Clarity Upscaler 实现自动 2 倍超分辨率放大,以提升图像质量。
设置
获取 FAL API 密钥
- 访问 fal.ai 注册账号
- 在仪表板中生成 API 密钥
配置密钥
# Add to ~/.hermes/.env
FAL_KEY=your-fal-api-key-here
安装客户端库
pip install fal-client
info
当设置 FAL_KEY 后,图像生成工具将自动启用。无需额外配置工具集。
工作原理
当你要求 Hermes 生成一张图像时:
- 生成 —— 提示词发送至 FLUX 2 Pro 模型 (
fal-ai/flux-2-pro) - 超分辨率放大 —— 生成的图像自动使用 Clarity Upscaler 进行 2 倍放大 (
fal-ai/clarity-upscaler) - 交付 —— 返回放大后的图像 URL
若超分辨率过程因任何原因失败,系统将自动回退为返回原始分辨率图像。
使用方法
只需向 Hermes 提出生成图像的请求即可:
Generate an image of a serene mountain landscape with cherry blossoms
Create a portrait of a wise old owl perched on an ancient tree branch
Make me a futuristic cityscape with flying cars and neon lights
参数说明
image_generate_tool 接受以下参数:
| 参数 | 默认值 | 取值范围 | 说明 |
|---|---|---|---|
prompt | (必填) | — | 所需图像的文本描述 |
aspect_ratio | "landscape" | landscape, square, portrait | 图像宽高比 |
num_inference_steps | 50 | 1–100 | 去噪步数(越多 = 越高质量,越慢) |
guidance_scale | 4.5 | 0.1–20.0 | 与提示词的贴合程度 |
num_images | 1 | 1–4 | 生成图像数量 |
output_format | "png" | png, jpeg | 图像文件格式 |
seed | (随机) | 任意整数 | 用于结果复现的随机种子 |
宽高比
该工具使用简化的宽高比名称,映射到 FLUX 2 Pro 的图像尺寸:
| 宽高比 | 对应尺寸 | 适用场景 |
|---|---|---|
landscape | landscape_16_9 | 壁纸、横幅、场景图 |
square | square_hd | 头像、社交媒体图文 |
portrait | portrait_16_9 | 角色插画、手机壁纸 |
tip
你也可以直接使用 FLUX 2 Pro 的原始尺寸预设:square_hd, square, portrait_4_3, portrait_16_9, landscape_4_3, landscape_16_9。还支持自定义尺寸,最大可达 2048×2048。
自动超分辨率
所有生成的图像均会通过 FAL.ai 的 Clarity Upscaler 自动进行 2 倍放大,具体设置如下:
| 设置项 | 值 |
|---|---|
| 放大倍数 | 2x |
| 创造性 | 0.35 |
| 相似度 | 0.6 |
| 引导强度 | 4 |
| 推理步数 | 18 |
| 正向提示词 | "masterpiece, best quality, highres" + 你的原始提示词 |
| 负向提示词 | "(worst quality, low quality, normal quality:2)" |
超分辨率可增强细节和清晰度,同时保留原图构图。若超分辨率失败(如网络问题或速率限制),系统将自动返回原始分辨率图像。
示例提示词
以下是一些有效的提示词供你尝试:
A candid street photo of a woman with a pink bob and bold eyeliner
Modern architecture building with glass facade, sunset lighting
Abstract art with vibrant colors and geometric patterns
Portrait of a wise old owl perched on ancient tree branch
Futuristic cityscape with flying cars and neon lights
调试
开启图像生成的调试日志:
export IMAGE_TOOLS_DEBUG=true
调试日志将保存至 ./logs/image_tools_debug_<session_id>.json,包含每次生成请求的详细信息,包括参数、耗时及错误记录。
安全设置
图像生成工具默认禁用安全检查(safety_tolerance: 5,最宽松设置)。此配置在代码层面设定,用户不可调整。
平台交付方式
生成的图像根据不同平台采用不同交付方式:
| 平台 | 交付方式 |
|---|---|
| 命令行界面 (CLI) | 以 Markdown 格式输出图像 URL  —— 点击可在浏览器中打开 |
| Telegram | 以图片消息发送,提示词作为标题 |
| Discord | 图像嵌入消息中显示 |
| Slack | 消息中包含图像 URL(Slack 会自动展开) |
| 以媒体消息形式发送 | |
| 其他平台 | 以纯文本形式返回图像 URL |
代理使用 MEDIA:<url> 语法生成响应,平台适配器会将其转换为对应格式。
限制说明
- 需要 FAL API 密钥 —— 图像生成将产生 FAL.ai 账户费用
- 不支持图像编辑 —— 仅支持文生图,不支持局部重绘或图生图
- 基于 URL 的交付 —— 图像以临时的 FAL.ai URL 返回,不会本地保存。URL 通常在数小时内过期
- 超分辨率增加延迟 —— 自动 2 倍放大步骤会增加处理时间
- 单次最多生成 4 张 ——
num_images最大值为 4