老板AI应用课:零基础学会制作数字人视频,搭建属于自己的智能体
说到制作数字人视频,大家都会想到用什么即梦、可灵、蝉境这类的工具,一般就是准备好文案或音频,以及图片和视频进行生成。
也就是说,数字人视频分为图片生成数字人,视频生成数字人,至于音频,你可以用文案去生成音频,也可以上传自己录制的。
大致就是这些操作,而今天老马跟大家分享的是零基础自己动手,搭建一个智能体,这个智能体就是用来制作数字人视频的,而且全程永久免费。
你做出来的数字人智能体,不仅可以自己用,还可以分享给小伙伴们使用,后续也能根据自己的需求,随时调整增加功能,听起来是不是很棒。
所以,这是从根本解决数字人视频制作的难题,把数字人制作的门槛和成本直接按到地上摩擦,让小白也能轻松掌握数字人视频制作的技巧。
好了,废话不多说,我们直接进入实操。
1、安装纳米AI桌面版创建智能体
我们需要用到的工具还是老朋友:纳米AI,不过需要下载电脑桌面版,当然你通过网页版去操作也行,老马是建议下载电脑客户端,地址:n.cn。
安装完之后登录,打开界面看一下右上角,有一个“创建智能体”,点击创建即可,如图:
智能体名称的话你自己随意取一个,老马这里就写“老马数字人”。欢迎语可以写一句话,比如:“欢迎使用老马数字人工具”,头像上传一下,使用权限选择公开。
模型选择的话有很多,不过默认是通义千问(Qwen3-235b),老马觉得已经够用了,这个模型的指令遵循能力(听话)很不错,当然你也可以选择喜欢的模型。
然后知识库的选择默认为空就行,我们这里暂时不需要用到。设定输入框功能里面,把输入问题、上传文件、上传图片都打勾,输入框提示文案可以写一句提示语。
比如老马写的是:“您好,若要生成数字人,请先发送文案文本+上传图片/视频,或上传音频+上传图片/视频”,意思就是告诉使用智能体的用户,怎么去操作。
下面重点来了,在添加MCP工具这里,我们需要添加三个工具,一个是用于文案文本生成语音的MiniMax MCP(免key版),一个是纳米上传图片生成数字人,最后一个是纳米上传视频生成数字人,如图:
最底部的“试着问问我”可以不用设置,因为不需要为用户预设问题。右边的系统提示词也需要设置的,老马给到大家一个模版,如下:
#角色
你是“数字人生成助手”,负责将用户提供的文案或音频与图片/视频合成为高质量的数字人视频。
#核心任务
若用户上传了文案文本和图片:
先调用工具“MiniMax MCP”,使用list_voices列出可以选择的声音,用户可以在指令中指定音色,再使用text_to_audio基于文案生成自然流畅的口播语音(TTS),最后调用工具“纳米 上传图片生成数字人”工具,与用户提供的图片合成为数字人视频。
若用户上传了文案文本和视频:
先调用工具“MiniMax MCP”,使用list_voices列出可以选择的声音,用户可以在指令中指定音色,再使用text_to_audio基于文案生成自然流畅的口播语音(TTS),最后调用工具“纳米 上传视频生成数字人”工具,与用户提供的视频合成为数字人视频。
若用户上传了音频+图片:
直接将该音频作为口播音轨,调用工具“纳米 上传图片生成数字人”工具,与用户提供的图片合成为数字人视频。
若用户上传了音频+视频:
直接将该音频作为口播音轨,调用工具“纳米 上传视频生成数字人”工具,与用户提供的视频合成为数字人视频。
若用户仅提供了文案文本或音频,而未上传图片或视频:
立即提示:“请上传图片或视频,我才能为您生成数字人视频。”
若用户仅上传了图片或视频,而未提供文案文本或音频:
立即提示:“请提供文案文本或上传音频,我才能为您生成数字人视频。”
#输入校验
必须检测到「文案文本」或「音频」二者之一,且至少有一张图片或一段视频,才启动合成流程;否则拒绝执行并给出上述提示。
#输出格式
成功:返回可下载的数字人视频链接。
失败:返回明确错误原因及修正建议。
以上提示词直接复制粘贴到右侧的“系统提示词(prompt)”中即可,原则上不建议大家自行去修改,除非你搞懂了上面提到的MCP里面的一些调用参数,这个文末补充说明会讲一下,如图:
完成以上设置之后,就可以点击右上角的“发布”按钮进行发布了,至此,你的专属数字人已经搭建完毕,就是这么简单。
下面,我们来测试一下智能体制作数字人视频的效果如何。
2、使用智能体制作数字人视频
老马这里演示的是用文案文本,以及分别上传图片,视频的方式去制作数字人。当然,你也可以自己录制音频,或者自己用文本去生成音频,都是可行的。
首先准备一段提示词,建议大家按照老马这样的写法去写,后面带一个voice_id。voice_id的意思你可以理解成为音色,因为我们是要用文本去合成语音。
合成语音的话,就会涉及到音色,比如是男声女声,男的是中年,还是青年,声音是沉稳还是大气等等,这就是音色。还记得我们第一个添加的MCP工具“MiniMax MCP(免key版)”吗?
文本合成语音就是由它来完成的,而它也支持很多种音色可以选择,所以你可以在提示词中注明要采用的音色,这样合成出来的语音才符合你的要求,如图:
老马写的提示词如下,建议参考这种写法,前面写个前缀,让大语言模型好理解一些:
文案:大家好,我是一个数字人,很高兴认识大家。音色:voice_id: Chinese (Mandarin)_Sweet_Lady
MiniMax MCP 支持哪些音色,老马也给大家提供一份中文音色清单,大家在使用的时候,只需要复制voice_id:xxxx这一串即可,清单如下:
Name: 青涩青年音色, voice_id: male-qn-qingse
Name: 精英青年音色, voice_id: male-qn-jingying
Name: 霸道青年音色, voice_id: male-qn-badao
Name: 青年大学生音色, voice_id: male-qn-daxuesheng
Name: 少女音色, voice_id: female-shaonv
Name: 御姐音色, voice_id: female-yujie
Name: 成熟女性音色, voice_id: female-chengshu
Name: 甜美女性音色, voice_id: female-tianmei
Name: 男性主持人, voice_id: presenter_male
Name: 女性主持人, voice_id: presenter_female
Name: 男性有声书1, voice_id: audiobook_male_1
Name: 男性有声书2, voice_id: audiobook_male_2
Name: 女性有声书1, voice_id: audiobook_female_1
Name: 女性有声书2, voice_id: audiobook_female_2
Name: 青涩青年音色-beta, voice_id: male-qn-qingse-jingpin
Name: 精英青年音色-beta, voice_id: male-qn-jingying-jingpin
Name: 霸道青年音色-beta, voice_id: male-qn-badao-jingpin
Name: 青年大学生音色-beta, voice_id: male-qn-daxuesheng-jingpin
Name: 少女音色-beta, voice_id: female-shaonv-jingpin
Name: 御姐音色-beta, voice_id: female-yujie-jingpin
Name: 成熟女性音色-beta, voice_id: female-chengshu-jingpin
Name: 甜美女性音色-beta, voice_id: female-tianmei-jingpin
Name: 聪明男童, voice_id: clever_boy
Name: 可爱男童, voice_id: cute_boy
Name: 萌萌女童, voice_id: lovely_girl
Name: 卡通猪小琪, voice_id: cartoon_pig
Name: 病娇弟弟, voice_id: bingjiao_didi
Name: 俊朗男友, voice_id: junlang_nanyou
Name: 纯真学弟, voice_id: chunzhen_xuedi
Name: 冷淡学长, voice_id: lengdan_xiongzhang
Name: 霸道少爷, voice_id: badao_shaoye
Name: 甜心小玲, voice_id: tianxin_xiaoling
Name: 俏皮萌妹, voice_id: qiaopi_mengmei
Name: 妩媚御姐, voice_id: wumei_yujie
Name: 嗲嗲学妹, voice_id: diadia_xuemei
Name: 淡雅学姐, voice_id: danya_xuejie
Name: Santa Claus, voice_id: Santa_Claus
Name: Grinch, voice_id: Grinch
Name: Rudolph, voice_id: Rudolph
Name: Arnold, voice_id: Arnold
Name: Charming Santa, voice_id: Charming_Santa
Name: Charming Lady, voice_id: Charming_Lady
Name: Sweet Girl, voice_id: Sweet_Girl
Name: Cute Elf, voice_id: Cute_Elf
Name: Attractive Girl, voice_id: Attractive_Girl
Name: Serene Woman, voice_id: Serene_Woman
Name: 沉稳高管, voice_id: Chinese (Mandarin)_Reliable_Executive
Name: 新闻女声, voice_id: Chinese (Mandarin)_News_Anchor
Name: 傲娇御姐, voice_id: Chinese (Mandarin)_Mature_Woman
Name: 不羁青年, voice_id: Chinese (Mandarin)_Unrestrained_Young_Man
Name: 嚣张小姐, voice_id: Arrogant_Miss
Name: 机械战甲, voice_id: Robot_Armor
Name: 热心大婶, voice_id: Chinese (Mandarin)_Kind-hearted_Antie
Name: 港普空姐, voice_id: Chinese (Mandarin)_HK_Flight_Attendant
Name: 搞笑大爷, voice_id: Chinese (Mandarin)_Humorous_Elder
Name: 温润男声, voice_id: Chinese (Mandarin)_Gentleman
Name: 温暖闺蜜, voice_id: Chinese (Mandarin)_Warm_Bestie
Name: 播报男声, voice_id: Chinese (Mandarin)_Male_Announcer
Name: 甜美女声, voice_id: Chinese (Mandarin)_Sweet_Lady
Name: 南方小哥, voice_id: Chinese (Mandarin)_Southern_Young_Man
Name: 阅历姐姐, voice_id: Chinese (Mandarin)_Wise_Women
Name: 温润青年, voice_id: Chinese (Mandarin)_Gentle_Youth
Name: 温暖少女, voice_id: Chinese (Mandarin)_Warm_Girl
Name: 花甲奶奶, voice_id: Chinese (Mandarin)_Kind-hearted_Elder
Name: 憨憨萌兽, voice_id: Chinese (Mandarin)_Cute_Spirit
Name: 电台男主播, voice_id: Chinese (Mandarin)_Radio_Host
Name: 抒情男声, voice_id: Chinese (Mandarin)_Lyrical_Voice
Name: 率真弟弟, voice_id: Chinese (Mandarin)_Straightforward_Boy
Name: 真诚青年, voice_id: Chinese (Mandarin)_Sincere_Adult
Name: 温柔学姐, voice_id: Chinese (Mandarin)_Gentle_Senior
Name: 嘴硬竹马, voice_id: Chinese (Mandarin)_Stubborn_Friend
Name: 清脆少女, voice_id: Chinese (Mandarin)_Crisp_Girl
Name: 清澈邻家弟弟, voice_id: Chinese (Mandarin)_Pure-hearted_Boy
Name: 软软女孩, voice_id: Chinese (Mandarin)_Soft_Girl
Name: 专业女主持, voice_id: Cantonese_ProfessionalHost(F)
Name: 温柔女声, voice_id: Cantonese_GentleLady
Name: 专业男主持, voice_id: Cantonese_ProfessionalHost(M)
Name: 活泼男声, voice_id: Cantonese_PlayfulMan
Name: 可爱女孩, voice_id: Cantonese_CuteGirl
Name: 善良女声, voice_id: Cantonese_KindWoman
接着上传一张图片,或者一个视频(上传视频点上传文件),一起发送过去,智能体就会开始计划工作,调用工具,最终生成数字人视频。生成的数字人视频你可以点击全屏观看后下载。
有时候全屏观看没法显示的,你可以在右边智能体的工作流中,找到最后一步的工作流,里面有一个最终生成的数字人视频网址链接,复制打开这个链接也可以下载的。
下面放两个老马制作的数字人视频效果,第一个是图片生成数字人视频,第二个是视频生成数字人视频,都是使用文本去生成语音,然后结合老马上传的图片和视频去生成的,如下:
https://bot.n.cn/agentchat/080e6e8a78ac4176b5bb45cd363621e3?src=360_llq
https://bot.n.cn/agentchat/0545db6db0034addb28a1e66f71e3a48?src=360_llq
3、补充MCP参数调整说明
有些小伙伴想进一步优化智能体,或者提供更多功能的,那就需要了解一下MCP工具的一些参数了。了解这些参数是什么意思,有什么用,就可以写在系统提示词里面。
比如前面提到的MCP工具“MiniMax MCP(免key版)”,它不仅支持文本合成语音,还支持声音克隆、视频生成等功能,如果你想要你的智能体也支持这些功能,最好是把参数设置写到系统提示词里面。
回到我们一开始搭建智能体的地方,我们添加MCP工具的时候,会打开一个新窗口,新窗口左下角有个MCP工具箱,我们点击进去,如图:
假设我们要了解MiniMax MCP(免key版)这个工具,可以往下滑动就能找到,然后点击这个工具卡片,进去后再往下滑动,找到“概览”,点右边切换到“工具选项”。
工具选项里面都是英文参数,点击每个分类都可以展开,看不懂这些英文的参数描述没有关系,你可以全选后选择翻译即可,如图:
最后,你只需要在系统提示词里面,把工具标识符添加上去,再设置好参数描述里面具体的参数值,就可以默认设定智能体支持一些功能了。
比如工具标识符是“speed”,就是语音朗读速度的意思,参数值是“0.5-2.0”的区间,那么系统提示词你就可以写:“默认生成的语音朗读速度speed:1.0”,这样默认生成的语音朗读速度就是1.0的。
如果你看完以上教程还是懒得自己搭建数字人智能体。那么可以在纳米AI的智能体分类里面,搜索“老马数字人”直接使用。
好了,以上就是今天的分享,有任何问题和需求可以留言,回见!