apple-notes
✓ 内置通过 macOS 上的 memo CLI 管理 Apple Notes(创建、查看、搜索、编辑)
apple-reminders
✓ 内置通过 remindctl CLI 管理 Apple Reminders(列出、添加、完成、删除)
findmy
✓ 内置使用 AppleScript 和屏幕截图,通过 macOS 上的 FindMy.app 追踪 Apple 设备和 AirTags
imessage
✓ 内置通过 macOS 上的 imsg CLI 发送和接收 iMessages/SMS
claude-code
✓ 内置将编码任务委托给 Claude Code(Anthropic 的 CLI 代理)。适用于构建功能、重构代码、PR 审查和迭代式开发。需要安装 claude CLI
codex
✓ 内置将编码任务委托给 OpenAI Codex CLI 代理。适用于构建功能、重构代码、PR 审查和批量问题修复。需要安装 codex CLI 并配置 git 仓库
hermes-agent
✓ 内置完整指南:使用和扩展 Hermes Agent — 包括 CLI 使用、设置、配置、启动额外代理实例、网关平台、技能、语音、工具、配置文件,以及简洁的贡献者参考。在帮助用户配置 Hermes、排查问题、启动代理实例或进行代码贡献时加载此技能
opencode
✓ 内置将编码任务委托给 OpenCode CLI 代理,用于功能实现、代码重构、PR 审查以及长时间运行的自主会话。需要安装并认证 opencode CLI
ascii-art
✓ 内置使用 pyfiglet(571 种字体)、cowsay、boxes、toilet、图像转 ASCII、远程 API(asciified、ascii.co.uk)及 LLM 降级生成 ASCII 艺术。无需 API 密钥
ascii-video
✓ 内置ASCII 艺术视频的生产流水线 — 支持任意格式。将视频/音频/图片/生成内容转换为彩色 ASCII 字符视频输出(MP4、GIF、图像序列)。涵盖:视频转 ASCII 转换、音频响应式音乐可视化、生成式 ASCII 动画、混合视频+音频响应、文字/歌词叠加、实时终端渲染。当用户请求:ASCII 视频、文字艺术视频、终端风格视频、字符艺术动画、复古文字可视化、ASCII 音频可视化、视频转 ASCII 艺术、矩阵风格效果,或任何动态 ASCII 输出时使用
excalidraw
✓ 内置使用 Excalidraw JSON 格式创建手绘风格图表。生成 .excalidraw 文件,用于架构图、流程图、时序图、概念图等。文件可在 excalidraw.com 打开或上传以生成可分享链接
manim-video
✓ 内置使用 Manim Community Edition 创建数学和技术类动画的生产流水线。生成类似 3Blue1Brown 的解释视频、算法可视化、公式推导、架构图和数据故事。当用户请求:动画解释、数学动画、概念可视化、算法讲解、技术解说、3Blue1Brown 风格视频,或任何具有几何/数学内容的程序化动画时使用
p5js
✓ 内置使用 p5.js 创建交互式和生成式视觉艺术的生产流水线。生成基于浏览器的草图、生成艺术、数据可视化、交互体验、3D 场景、音频响应视觉、运动图形 — 可导出为 HTML、PNG、GIF、MP4 或 SVG。涵盖:2D/3D 渲染、噪声与粒子系统、流场、着色器(GLSL)、像素操作、动态排版、WebGL 场景、音频分析、鼠标/键盘交互,以及无头高分辨率导出。当用户请求:p5.js 草图、创意编程、生成艺术、交互式可视化、画布动画、基于浏览器的视觉艺术、数据可视化、着色器效果,或任何 p5.js 项目时使用
popular-web-designs
✓ 内置从真实网站中提取的 54 个高质量设计系统模板。加载模板后可生成匹配 Stripe、Linear、Vercel、Notion、Airbnb 等网站视觉风格的 HTML/CSS。每个模板包含颜色、排版、组件、布局规则和可直接使用的 CSS 值
songwriting-and-ai-music
✓ 内置歌曲创作技巧、AI 音乐生成提示(聚焦 Suno)、恶搞/改编技巧、语音技巧,以及经验总结。这些是工具与思路,而非规则。当艺术需要时,可随时打破它们
minecraft-modpack-server
✓ 内置从 CurseForge/Modrinth 服务器包 zip 文件中搭建模组化 Minecraft 服务器。涵盖 NeoForge/Forge 安装、Java 版本、JVM 调优、防火墙设置、局域网配置、备份策略和启动脚本
pokemon-player
✓ 内置通过无头模拟方式自主运行 Pokemon 游戏。启动游戏服务器,从内存中读取结构化游戏状态,做出战略决策,并发送按键输入 — 全部通过终端完成
codebase-inspection
✓ 内置使用 pygount 分析代码库,统计行数(LOC)、语言分布和代码与注释比例。当被要求检查代码行数、仓库大小、语言构成或代码库统计数据时使用
github-auth
✓ 内置使用 git(普遍可用)或 gh CLI 为代理设置 GitHub 认证。涵盖 HTTPS token、SSH 密钥、凭证助手和 gh auth — 并具备自动检测流程以选择合适方法
github-code-review
✓ 内置通过分析 git diff 来审查代码变更,对 PR 提交内联评论,并执行彻底的提交前审查。支持 gh CLI,若不可用则回退至 git + GitHub REST API(通过 curl)
github-issues
✓ 内置创建、管理、分类和关闭 GitHub issues。搜索现有 issue,添加标签、分配人员,并关联 PR。支持 gh CLI,若不可用则回退至 git + GitHub REST API(通过 curl)
github-pr-workflow
✓ 内置完整的拉取请求生命周期 — 创建分支、提交更改、打开 PR、监控 CI 状态、自动修复失败、合并。支持 gh CLI,若不可用则回退至 git + GitHub REST API(通过 curl)
github-repo-management
✓ 内置克隆、创建、fork、配置和管理 GitHub 仓库。管理远程仓库、密钥、发布版本和工作流。支持 gh CLI,若不可用则回退至 git + GitHub REST API(通过 curl)
gif-search
✓ 内置使用 curl 从 Tenor 搜索并下载 GIF。除 curl 和 jq 外无其他依赖。适用于查找表情 GIF、制作视觉内容,以及在聊天中发送 GIF
heartmula
✓ 内置设置并运行 HeartMuLa,即开源音乐生成模型系列(类似 Suno)。支持多语言,可根据歌词和标签生成完整歌曲。
songsee
✓ 内置通过 CLI 从音频文件生成频谱图和音频特征可视化(如梅尔频谱、音高图、MFCC、节拍图等)。适用于音频分析、音乐制作调试和视觉文档记录。
youtube-content
✓ 内置获取 YouTube 视频字幕,并将其转换为结构化内容(章节、摘要、话题线、博客文章等)。当用户分享 YouTube 链接或视频地址,要求总结视频内容、索取字幕,或希望提取并重新格式化任意 YouTube 视频内容时使用。
audiocraft-audio-generation
✓ 内置PyTorch 音频生成库,包含文本到音乐(MusicGen)和文本到声音(AudioGen)。用于根据文本描述生成音乐、创建音效,或进行旋律条件下的音乐生成。
axolotl
✓ 内置使用 Axolotl 对 LLM 进行微调的专家指导 —— YAML 配置、100 多个模型、LoRA/QLoRA、DPO/KTO/ORPO/GRPO、多模态支持
clip
✓ 内置OpenAI 的模型,连接视觉与语言。支持零样本图像分类、图文匹配和跨模态检索。在 4 亿张图像-文本对上训练。适用于无需微调的图像搜索、内容审核或视觉-语言任务。适合通用图像理解场景。
dspy
✓ 内置使用声明式编程构建复杂 AI 系统,自动优化提示词,创建模块化 RAG 系统和智能体 —— Stanford NLP 的 DSPy 框架,用于系统性大语言模型编程
evaluating-llms-harness
✓ 内置在 60 多个学术基准测试(MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag 等)上评估 LLM。用于模型质量评测、模型对比、学术结果报告或训练进度追踪。被 EleutherAI、HuggingFace 及各大研究实验室广泛采用。支持 HuggingFace、vLLM、API 接口。
fine-tuning-with-trl
✓ 内置使用 TRL 实现基于强化学习的 LLM 微调 —— SFT 用于指令微调,DPO 用于偏好对齐,PPO/GRPO 用于奖励优化,以及奖励模型训练。当需要 RLHF、使模型与人类偏好对齐,或基于人类反馈训练时使用。兼容 HuggingFace Transformers。
gguf-quantization
✓ 内置GGUF 格式及 llama.cpp 量化技术,实现高效 CPU/GPU 推理。适用于在消费级硬件、Apple Silicon 设备上部署模型,或在无 GPU 要求下实现灵活的 2-8 位量化。
grpo-rl-training
✓ 内置使用 TRL 进行 GRPO/RL 微调的专家指导,适用于推理和特定任务的模型训练
guidance
✓ 内置通过正则表达式和语法控制 LLM 输出,确保生成有效 JSON/XML/代码,强制结构化格式,构建多步骤工作流 —— Microsoft Research 的约束生成框架 Guidance
huggingface-hub
✓ 内置Hugging Face Hub CLI(hf)—— 搜索、下载、上传模型与数据集,管理仓库,使用 SQL 查询数据集,部署推理端点,管理 Spaces 和存储桶。
llama-cpp
✓ 内置在 CPU、Apple Silicon 和消费级 GPU 上运行 LLM 推理,无需 NVIDIA 硬件。适用于边缘部署、M1/M2/M3 Mac 电脑、AMD/Intel GPU 场景,或 CUDA 不可用时。支持 GGUF 量化(1.5-8 位),内存减少且相比 PyTorch 在 CPU 上提速 4-10 倍。
modal-serverless-gpu
✓ 内置无服务器 GPU 云平台,用于运行机器学习工作负载。当需要按需获取 GPU 资源而无需管理基础设施、将 ML 模型部署为 API,或运行具有自动扩展能力的批量任务时使用。
obliteratus
✓ 内置使用 OBLITERATUS 从开放权重 LLM 中移除拒绝行为 —— 采用机制可解释性技术(差值均值、SVD、白化 SVD、LEACE、SAE 分解等)剥离安全护栏,同时保留推理能力。提供 9 种 CLI 方法、28 个分析模块、116 个模型预设,覆盖 5 个计算层级,锦标赛评估和基于遥测的推荐。当用户希望解封、消除或移除 LLM 拒绝行为时使用。
outlines
✓ 内置确保生成过程中输出符合有效 JSON/XML/代码结构,使用 Pydantic 模型实现类型安全输出,支持本地模型(Transformers、vLLM),并通过 Outlines - dottxt.ai 的结构化生成库最大化推理速度
peft-fine-tuning
✓ 内置使用 LoRA、QLoRA 及 25+ 方法对 LLM 实现参数高效微调。适用于在 GPU 内存有限的情况下微调大型模型(7B-70B),在仅训练 <1% 参数的前提下实现最小精度损失,或支持多适配器服务。HuggingFace 官方库,已集成至 transformers 生态系统。
pytorch-fsdp
✓ 内置使用 PyTorch FSDP 实现全分片数据并行训练的专家指导 —— 参数分片、混合精度、CPU卸载、FSDP2
segment-anything-model
✓ 内置图像分割的基础模型,支持零样本迁移。当需要使用点、框或掩码作为提示对图像中的任意对象进行分割,或自动生成图像中所有物体的掩码时使用。
serving-llms-vllm
✓ 内置使用 vLLM 的 PagedAttention 和连续批处理技术高效服务 LLM。适用于部署生产级 LLM API、优化推理延迟/吞吐量,或在 GPU 内存有限的情况下服务模型。支持 OpenAI 兼容端点、量化(GPTQ/AWQ/FP8)和张量并行。
stable-diffusion-image-generation
✓ 内置通过 HuggingFace Diffusers 使用 Stable Diffusion 模型实现最先进的文本到图像生成。适用于根据文本提示生成图像、执行图像到图像转换、图像修复,或构建自定义扩散流水线。
unsloth
✓ 内置使用 Unsloth 实现快速微调的专家指导 —— 训练速度提升 2-5 倍,内存占用降低 50-80%,支持 LoRA/QLoRA 优化
weights-and-biases
✓ 内置使用 W&B 跟踪机器学习实验,实现自动日志记录,实时可视化训练过程,通过 sweep 优化超参数,并管理模型注册表 —— 协作式 MLOps 平台
whisper
✓ 内置OpenAI 的通用语音识别模型。支持 99 种语言,具备转录、翻译为英语以及语言识别功能。提供从 tiny(39M 参数)到 large(1550M 参数)六种模型尺寸。适用于语音转文字、播客转录或多种语言音频处理。最适合鲁棒的多语言语音识别(ASR)。
google-workspace
✓ 内置通过 gws CLI(googleworkspace/cli)集成 Gmail、日历、Drive、联系人、表格和文档。使用 OAuth2 认证,并通过桥接脚本自动刷新令牌。需要 gws 可执行文件。
linear
✓ 内置通过 GraphQL API 管理 Linear 的问题、项目和团队。可创建、更新、搜索和组织问题。使用 API 密钥认证(无需 OAuth)。所有操作通过 curl 完成——无依赖项。
nano-pdf
✓ 内置使用 nano-pdf CLI 通过自然语言指令编辑 PDF 文件。可修改文本、修复拼写错误、更新标题,并对特定页面的内容进行更改,无需手动编辑。
notion
✓ 内置通过 curl 使用 Notion API 创建和管理页面、数据库及区块。直接在终端中查询、创建、更新和检索 Notion 工作区内容。
ocr-and-documents
✓ 内置从 PDF 和扫描文档中提取文本。对于远程 URL 使用 web_extract,对于本地文本型 PDF 使用 pymupdf,对于 OCR/扫描文档使用 marker-pdf。DOCX 文件使用 python-docx,PPTX 文件请参考 powerpoint 技能。
powerpoint
✓ 内置任何涉及 .pptx 文件的情况均使用此技能——作为输入、输出或两者兼有。包括:创建演示文稿、商业计划书或演讲稿;读取、解析或提取任意 .pptx 文件中的文本(即使后续用于邮件或摘要);编辑、修改或更新现有演示文稿;合并或拆分幻灯片文件;处理模板、版式、演讲者备注或评论。当用户提到“deck”、“slides”、“presentation”或引用 .pptx 文件名时,无论后续如何使用内容,均应触发该技能。若需打开、创建或操作 .pptx 文件,请使用此技能。
arxiv
✓ 内置使用 arXiv 免费 REST API 搜索和获取学术论文。无需 API 密钥。可按关键词、作者、类别或 ID 搜索。可与 web_extract 或 ocr-and-documents 技能结合以阅读完整论文内容。
blogwatcher
✓ 内置使用 blogwatcher-cli 工具监控博客和 RSS/Atom 频道更新。可添加博客源,扫描新文章,跟踪已读状态,并按类别过滤。
llm-wiki
✓ 内置Karpathy 的 LLM Wiki — 构建并维护一个持久、相互链接的 Markdown 知识库。支持源数据摄入、知识查询以及一致性检查。
polymarket
✓ 内置查询 Polymarket 预测市场数据——搜索市场、获取价格、订单簿和价格历史记录。仅读取模式,通过公开 REST API 实现,无需 API 密钥。
research-paper-writing
✓ 内置ML/AI 研究论文撰写全流程——从实验设计到分析、起草、修订和投稿。涵盖 NeurIPS、ICML、ICLR、ACL、AAAI、COLM。集成自动化实验监控、统计分析、迭代写作和引文验证。