技能库 | Hermes Agent



apple-notes

✓ 内置

通过 macOS 上的 memo CLI 管理 Apple Notes（创建、查看、搜索、编辑）

 macOS



apple-reminders

✓ 内置

通过 remindctl CLI 管理 Apple Reminders（列出、添加、完成、删除）

 macOS



findmy

✓ 内置

使用 AppleScript 和屏幕截图，通过 macOS 上的 FindMy.app 追踪 Apple 设备和 AirTags

 macOS



imessage

✓ 内置

通过 macOS 上的 imsg CLI 发送和接收 iMessages/SMS

 macOS

🤖

claude-code

✓ 内置

将编码任务委托给 Claude Code（Anthropic 的 CLI 代理）。适用于构建功能、重构代码、PR 审查和迭代式开发。需要安装 claude CLI

🤖

codex

✓ 内置

将编码任务委托给 OpenAI Codex CLI 代理。适用于构建功能、重构代码、PR 审查和批量问题修复。需要安装 codex CLI 并配置 git 仓库

🤖

hermes-agent

✓ 内置

完整指南：使用和扩展 Hermes Agent — 包括 CLI 使用、设置、配置、启动额外代理实例、网关平台、技能、语音、工具、配置文件，以及简洁的贡献者参考。在帮助用户配置 Hermes、排查问题、启动代理实例或进行代码贡献时加载此技能

🤖

opencode

✓ 内置

将编码任务委托给 OpenCode CLI 代理，用于功能实现、代码重构、PR 审查以及长时间运行的自主会话。需要安装并认证 opencode CLI

🎨

ascii-art

✓ 内置

使用 pyfiglet（571 种字体）、cowsay、boxes、toilet、图像转 ASCII、远程 API（asciified、ascii.co.uk）及 LLM 降级生成 ASCII 艺术。无需 API 密钥

🎨

ascii-video

✓ 内置

ASCII 艺术视频的生产流水线 — 支持任意格式。将视频/音频/图片/生成内容转换为彩色 ASCII 字符视频输出（MP4、GIF、图像序列）。涵盖：视频转 ASCII 转换、音频响应式音乐可视化、生成式 ASCII 动画、混合视频+音频响应、文字/歌词叠加、实时终端渲染。当用户请求：ASCII 视频、文字艺术视频、终端风格视频、字符艺术动画、复古文字可视化、ASCII 音频可视化、视频转 ASCII 艺术、矩阵风格效果，或任何动态 ASCII 输出时使用

🎨

excalidraw

✓ 内置

使用 Excalidraw JSON 格式创建手绘风格图表。生成 .excalidraw 文件，用于架构图、流程图、时序图、概念图等。文件可在 excalidraw.com 打开或上传以生成可分享链接

🎨

manim-video

✓ 内置

使用 Manim Community Edition 创建数学和技术类动画的生产流水线。生成类似 3Blue1Brown 的解释视频、算法可视化、公式推导、架构图和数据故事。当用户请求：动画解释、数学动画、概念可视化、算法讲解、技术解说、3Blue1Brown 风格视频，或任何具有几何/数学内容的程序化动画时使用

🎨

p5js

✓ 内置

使用 p5.js 创建交互式和生成式视觉艺术的生产流水线。生成基于浏览器的草图、生成艺术、数据可视化、交互体验、3D 场景、音频响应视觉、运动图形 — 可导出为 HTML、PNG、GIF、MP4 或 SVG。涵盖：2D/3D 渲染、噪声与粒子系统、流场、着色器（GLSL）、像素操作、动态排版、WebGL 场景、音频分析、鼠标/键盘交互，以及无头高分辨率导出。当用户请求：p5.js 草图、创意编程、生成艺术、交互式可视化、画布动画、基于浏览器的视觉艺术、数据可视化、着色器效果，或任何 p5.js 项目时使用

🎨

popular-web-designs

✓ 内置

从真实网站中提取的 54 个高质量设计系统模板。加载模板后可生成匹配 Stripe、Linear、Vercel、Notion、Airbnb 等网站视觉风格的 HTML/CSS。每个模板包含颜色、排版、组件、布局规则和可直接使用的 CSS 值

🎨

songwriting-and-ai-music

✓ 内置

歌曲创作技巧、AI 音乐生成提示（聚焦 Suno）、恶搞/改编技巧、语音技巧，以及经验总结。这些是工具与思路，而非规则。当艺术需要时，可随时打破它们

🎮

minecraft-modpack-server

✓ 内置

从 CurseForge/Modrinth 服务器包 zip 文件中搭建模组化 Minecraft 服务器。涵盖 NeoForge/Forge 安装、Java 版本、JVM 调优、防火墙设置、局域网配置、备份策略和启动脚本

🎮

pokemon-player

✓ 内置

通过无头模拟方式自主运行 Pokemon 游戏。启动游戏服务器，从内存中读取结构化游戏状态，做出战略决策，并发送按键输入 — 全部通过终端完成

💻

codebase-inspection

✓ 内置

使用 pygount 分析代码库，统计行数（LOC）、语言分布和代码与注释比例。当被要求检查代码行数、仓库大小、语言构成或代码库统计数据时使用

💻

github-auth

✓ 内置

使用 git（普遍可用）或 gh CLI 为代理设置 GitHub 认证。涵盖 HTTPS token、SSH 密钥、凭证助手和 gh auth — 并具备自动检测流程以选择合适方法

💻

github-code-review

✓ 内置

通过分析 git diff 来审查代码变更，对 PR 提交内联评论，并执行彻底的提交前审查。支持 gh CLI，若不可用则回退至 git + GitHub REST API（通过 curl）

💻

github-issues

✓ 内置

创建、管理、分类和关闭 GitHub issues。搜索现有 issue，添加标签、分配人员，并关联 PR。支持 gh CLI，若不可用则回退至 git + GitHub REST API（通过 curl）

💻

github-pr-workflow

✓ 内置

完整的拉取请求生命周期 — 创建分支、提交更改、打开 PR、监控 CI 状态、自动修复失败、合并。支持 gh CLI，若不可用则回退至 git + GitHub REST API（通过 curl）

💻

github-repo-management

✓ 内置

克隆、创建、fork、配置和管理 GitHub 仓库。管理远程仓库、密钥、发布版本和工作流。支持 gh CLI，若不可用则回退至 git + GitHub REST API（通过 curl）

🎵

gif-search

✓ 内置

使用 curl 从 Tenor 搜索并下载 GIF。除 curl 和 jq 外无其他依赖。适用于查找表情 GIF、制作视觉内容，以及在聊天中发送 GIF

🎵

heartmula

✓ 内置

设置并运行 HeartMuLa，即开源音乐生成模型系列（类似 Suno）。支持多语言，可根据歌词和标签生成完整歌曲。

🎵

songsee

✓ 内置

通过 CLI 从音频文件生成频谱图和音频特征可视化（如梅尔频谱、音高图、MFCC、节拍图等）。适用于音频分析、音乐制作调试和视觉文档记录。

🎵

youtube-content

✓ 内置

获取 YouTube 视频字幕，并将其转换为结构化内容（章节、摘要、话题线、博客文章等）。当用户分享 YouTube 链接或视频地址，要求总结视频内容、索取字幕，或希望提取并重新格式化任意 YouTube 视频内容时使用。

🧪

audiocraft-audio-generation

✓ 内置

PyTorch 音频生成库，包含文本到音乐（MusicGen）和文本到声音（AudioGen）。用于根据文本描述生成音乐、创建音效，或进行旋律条件下的音乐生成。

🧪

axolotl

✓ 内置

使用 Axolotl 对 LLM 进行微调的专家指导 —— YAML 配置、100 多个模型、LoRA/QLoRA、DPO/KTO/ORPO/GRPO、多模态支持

🧪

clip

✓ 内置

OpenAI 的模型，连接视觉与语言。支持零样本图像分类、图文匹配和跨模态检索。在 4 亿张图像-文本对上训练。适用于无需微调的图像搜索、内容审核或视觉-语言任务。适合通用图像理解场景。

🧪

dspy

✓ 内置

使用声明式编程构建复杂 AI 系统，自动优化提示词，创建模块化 RAG 系统和智能体 —— Stanford NLP 的 DSPy 框架，用于系统性大语言模型编程

🧪

evaluating-llms-harness

✓ 内置

在 60 多个学术基准测试（MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag 等）上评估 LLM。用于模型质量评测、模型对比、学术结果报告或训练进度追踪。被 EleutherAI、HuggingFace 及各大研究实验室广泛采用。支持 HuggingFace、vLLM、API 接口。

🧪

fine-tuning-with-trl

✓ 内置

使用 TRL 实现基于强化学习的 LLM 微调 —— SFT 用于指令微调，DPO 用于偏好对齐，PPO/GRPO 用于奖励优化，以及奖励模型训练。当需要 RLHF、使模型与人类偏好对齐，或基于人类反馈训练时使用。兼容 HuggingFace Transformers。

🧪

gguf-quantization

✓ 内置

GGUF 格式及 llama.cpp 量化技术，实现高效 CPU/GPU 推理。适用于在消费级硬件、Apple Silicon 设备上部署模型，或在无 GPU 要求下实现灵活的 2-8 位量化。

🧪

grpo-rl-training

✓ 内置

使用 TRL 进行 GRPO/RL 微调的专家指导，适用于推理和特定任务的模型训练

🧪

guidance

✓ 内置

通过正则表达式和语法控制 LLM 输出，确保生成有效 JSON/XML/代码，强制结构化格式，构建多步骤工作流 —— Microsoft Research 的约束生成框架 Guidance

🧪

huggingface-hub

✓ 内置

Hugging Face Hub CLI（hf）—— 搜索、下载、上传模型与数据集，管理仓库，使用 SQL 查询数据集，部署推理端点，管理 Spaces 和存储桶。

🧪

llama-cpp

✓ 内置

在 CPU、Apple Silicon 和消费级 GPU 上运行 LLM 推理，无需 NVIDIA 硬件。适用于边缘部署、M1/M2/M3 Mac 电脑、AMD/Intel GPU 场景，或 CUDA 不可用时。支持 GGUF 量化（1.5-8 位），内存减少且相比 PyTorch 在 CPU 上提速 4-10 倍。

🧪

modal-serverless-gpu

✓ 内置

无服务器 GPU 云平台，用于运行机器学习工作负载。当需要按需获取 GPU 资源而无需管理基础设施、将 ML 模型部署为 API，或运行具有自动扩展能力的批量任务时使用。

🧪

obliteratus

✓ 内置

使用 OBLITERATUS 从开放权重 LLM 中移除拒绝行为 —— 采用机制可解释性技术（差值均值、SVD、白化 SVD、LEACE、SAE 分解等）剥离安全护栏，同时保留推理能力。提供 9 种 CLI 方法、28 个分析模块、116 个模型预设，覆盖 5 个计算层级，锦标赛评估和基于遥测的推荐。当用户希望解封、消除或移除 LLM 拒绝行为时使用。

🧪

outlines

✓ 内置

确保生成过程中输出符合有效 JSON/XML/代码结构，使用 Pydantic 模型实现类型安全输出，支持本地模型（Transformers、vLLM），并通过 Outlines - dottxt.ai 的结构化生成库最大化推理速度

🧪

peft-fine-tuning

✓ 内置

使用 LoRA、QLoRA 及 25+ 方法对 LLM 实现参数高效微调。适用于在 GPU 内存有限的情况下微调大型模型（7B-70B），在仅训练 <1% 参数的前提下实现最小精度损失，或支持多适配器服务。HuggingFace 官方库，已集成至 transformers 生态系统。

🧪

pytorch-fsdp

✓ 内置

使用 PyTorch FSDP 实现全分片数据并行训练的专家指导 —— 参数分片、混合精度、CPU卸载、FSDP2

🧪

segment-anything-model

✓ 内置

图像分割的基础模型，支持零样本迁移。当需要使用点、框或掩码作为提示对图像中的任意对象进行分割，或自动生成图像中所有物体的掩码时使用。

🧪

serving-llms-vllm

✓ 内置

使用 vLLM 的 PagedAttention 和连续批处理技术高效服务 LLM。适用于部署生产级 LLM API、优化推理延迟/吞吐量，或在 GPU 内存有限的情况下服务模型。支持 OpenAI 兼容端点、量化（GPTQ/AWQ/FP8）和张量并行。

🧪

stable-diffusion-image-generation

✓ 内置

通过 HuggingFace Diffusers 使用 Stable Diffusion 模型实现最先进的文本到图像生成。适用于根据文本提示生成图像、执行图像到图像转换、图像修复，或构建自定义扩散流水线。

🧪

unsloth

✓ 内置

使用 Unsloth 实现快速微调的专家指导 —— 训练速度提升 2-5 倍，内存占用降低 50-80%，支持 LoRA/QLoRA 优化

🧪

weights-and-biases

✓ 内置

使用 W&B 跟踪机器学习实验，实现自动日志记录，实时可视化训练过程，通过 sweep 优化超参数，并管理模型注册表 —— 协作式 MLOps 平台

🧪

whisper

✓ 内置

OpenAI 的通用语音识别模型。支持 99 种语言，具备转录、翻译为英语以及语言识别功能。提供从 tiny（39M 参数）到 large（1550M 参数）六种模型尺寸。适用于语音转文字、播客转录或多种语言音频处理。最适合鲁棒的多语言语音识别（ASR）。

✅

google-workspace

✓ 内置

通过 gws CLI（googleworkspace/cli）集成 Gmail、日历、Drive、联系人、表格和文档。使用 OAuth2 认证，并通过桥接脚本自动刷新令牌。需要 gws 可执行文件。

✅

linear

✓ 内置

通过 GraphQL API 管理 Linear 的问题、项目和团队。可创建、更新、搜索和组织问题。使用 API 密钥认证（无需 OAuth）。所有操作通过 curl 完成——无依赖项。

✅

nano-pdf

✓ 内置

使用 nano-pdf CLI 通过自然语言指令编辑 PDF 文件。可修改文本、修复拼写错误、更新标题，并对特定页面的内容进行更改，无需手动编辑。

✅

notion

✓ 内置

通过 curl 使用 Notion API 创建和管理页面、数据库及区块。直接在终端中查询、创建、更新和检索 Notion 工作区内容。

✅

ocr-and-documents

✓ 内置

从 PDF 和扫描文档中提取文本。对于远程 URL 使用 web_extract，对于本地文本型 PDF 使用 pymupdf，对于 OCR/扫描文档使用 marker-pdf。DOCX 文件使用 python-docx，PPTX 文件请参考 powerpoint 技能。

✅

powerpoint

✓ 内置

任何涉及 .pptx 文件的情况均使用此技能——作为输入、输出或两者兼有。包括：创建演示文稿、商业计划书或演讲稿；读取、解析或提取任意 .pptx 文件中的文本（即使后续用于邮件或摘要）；编辑、修改或更新现有演示文稿；合并或拆分幻灯片文件；处理模板、版式、演讲者备注或评论。当用户提到“deck”、“slides”、“presentation”或引用 .pptx 文件名时，无论后续如何使用内容，均应触发该技能。若需打开、创建或操作 .pptx 文件，请使用此技能。

🔍

arxiv

✓ 内置

使用 arXiv 免费 REST API 搜索和获取学术论文。无需 API 密钥。可按关键词、作者、类别或 ID 搜索。可与 web_extract 或 ocr-and-documents 技能结合以阅读完整论文内容。

🔍

blogwatcher

✓ 内置

使用 blogwatcher-cli 工具监控博客和 RSS/Atom 频道更新。可添加博客源，扫描新文章，跟踪已读状态，并按类别过滤。

🔍

llm-wiki

✓ 内置

Karpathy 的 LLM Wiki — 构建并维护一个持久、相互链接的 Markdown 知识库。支持源数据摄入、知识查询以及一致性检查。

🔍

polymarket

✓ 内置

查询 Polymarket 预测市场数据——搜索市场、获取价格、订单簿和价格历史记录。仅读取模式，通过公开 REST API 实现，无需 API 密钥。

🔍

research-paper-writing

✓ 内置

ML/AI 研究论文撰写全流程——从实验设计到分析、起草、修订和投稿。涵盖 NeurIPS、ICML、ICLR、ACL、AAAI、COLM。集成自动化实验监控、统计分析、迭代写作和引文验证。

🐧 Linux macOS