智谱开源GLM‑TTS,3秒就能克隆你的声音
这到年底,智谱AI就跟下饺子一样,开源了不少东西。
上次给大家介绍的GLM-4.6V视觉理解模型效果就很不错,而GLM‑TTS则是工业级语音合成系统。
语言合成可能大家都听说过B站开源的IndexTTS2,个人感觉GLM‑TTS与之对比不相上下。
GLM‑TTS只需录音3秒,或者上传3秒-10秒的录音文件,即可快速克隆你自己的声音。
克隆自己想要的声音也是可以的,不仅能克隆音色,还能模仿说话习惯。
适合朗读各种文字、情感配音、教育评测、电子书、客服等场景。
做短视频也需要的,像数字人生成的视频,配音就可以用克隆的。
记得以前要做配音,或者克隆自己的声音,成本和时间付出都很大。
网上还有不少收费的配音网站,比如给企业宣传片、产品宣传片做配音。
那种音色效果堪比央视主持人般恢弘大气上档次的配音,按分钟计算价格。
动则配音几分钟就得几千块,现在随着AI的发展,这块的成本几乎被拉低趋近零。
应该说,专业的配音师傅日子也不好过了,普通人轻轻松松就能自己搞定配音。
现在你可以登录官方网站:https://audio.z.ai,在线体验声音合成和声音克隆,在右上角点小人头的头像注册一个账号登录即可,如图:
如果是要调用API接口去生成的话,可以使用官方的开发平台:
https://docs.bigmodel.cn/cn/guide/models/sound-and-video/glm-tts 。
有条件有能力的,那就可以在本地部署,开源地址:
https://github.com/zai-org/GLM-TTS。
老马有想过给大家手搓一个Windows的一键整合包,搓是搓好了。
只不过使用CPU推理的话速度贼慢,GPU则安装环境依赖较为麻烦,对小白用户不友好。
索性还是建议大家使用官方的体验平台,这是最低门槛的操作方式。
GLM-TTS声音合成克隆演示
打开体验平台的网站后,功能界面非常简单,一个语言合成,一个音色克隆,语音合成你只需要在右侧选择音色,输入文本即可,如图:
可惜官方的音色库可选择的实在是太少,不像Minimax那么多,可能更注重于音色克隆吧。
上面这段文本的的合成效果如下,中规中矩,毕竟没有什么情感跟说话习惯的体现:
音色克隆支持在线直接录音,或者上传录音文件,克隆后的音色直接保存在音色库,下次在语音合成的时候就可以选择该音色,输入文本进行合成,如图:
老马也克隆了自己的音色,大概在线录制了4秒左右的声音,合成的语音效果如下:
广普还是克隆得挺到位的,还带有说话的习惯,下面继续克隆个郭德纲的:
老郭的这段朗诵算是声嘶力竭、抑扬顿挫、情感到位,只是官方的体验平台,偶尔使用克隆音色合成语音时,会出现字读错的情况。
这就有点尴尬,还得抽卡一下,一般重试合成就好了,不知道是服务器资源不够,还是什么原因导致的,希望官方能调整优化一下。
下面上点难度,克隆一个极具特色的演员声音,来自超长命电视剧《外来媳妇本地郎》的角色李彩娇。
剧中靓女阿娇的口音是广东高州话版粤语,又给人一种化州话版粤语的感觉,不知道这种口味GLM‑TTS能否适应。
毕竟是粤语,可能最终在合成普通话的时候会有些问题,但重点还是看其音色和情感表达层面效果如何。
先来一段原版的李彩娇声音给大家听听,你们就知道这个声音,方言混杂非标粤语,克隆起来难度是有多大:
还是朗诵同一首诗,克隆后的李彩娇音色合成声音效果如下:
音色有那么一丢丢的像,但这说话的习惯跟声音的灵魂没了,可惜不能选择语言为粤语合成,不然对比会更加明显。
所以克隆正常的,发音没毛病的,哪怕稍微广普、川普一点的声音音色,
GLM‑TTS的效果还是可以的。
后期使用音色合成语音,官方体验平台上只支持300字符以内,短文本是够了,长文本的话就得分段去合成。
总的来说,AI声音克隆与合成又多了一种选择,工具就是这样,比较着去挑选使用,合适自己需求的,那就是好工具。
好了,以上就是今天的分享,欢迎关注、点赞、转发一键三连。有任何问题和需求,请在评论区留言,回见!


