智谱开源GLM‑TTS,3秒就能克隆你的声音

作者: admin 分类: 评论分析 发布时间: 2025-12-14 13:15

这到年底,智谱AI就跟下饺子一样,开源了不少东西。

上次给大家介绍的GLM-4.6V视觉理解模型效果就很不错,而GLM‑TTS则是工业级语音合成系统。

语言合成可能大家都听说过B站开源的IndexTTS2,个人感觉GLM‑TTS与之对比不相上下。

GLM‑TTS只需录音3秒,或者上传3秒-10秒的录音文件,即可快速克隆你自己的声音。

克隆自己想要的声音也是可以的,不仅能克隆音色,还能模仿说话习惯。

适合朗读各种文字、情感配音、教育评测、电子书、客服等场景。

做短视频也需要的,像数字人生成的视频,配音就可以用克隆的。

记得以前要做配音,或者克隆自己的声音,成本和时间付出都很大。

网上还有不少收费的配音网站,比如给企业宣传片、产品宣传片做配音。

那种音色效果堪比央视主持人般恢弘大气上档次的配音,按分钟计算价格。

动则配音几分钟就得几千块,现在随着AI的发展,这块的成本几乎被拉低趋近零。

应该说,专业的配音师傅日子也不好过了,普通人轻轻松松就能自己搞定配音。

现在你可以登录官方网站:https://audio.z.ai,在线体验声音合成和声音克隆,在右上角点小人头的头像注册一个账号登录即可,如图:

如果是要调用API接口去生成的话,可以使用官方的开发平台:
https://docs.bigmodel.cn/cn/guide/models/sound-and-video/glm-tts 。

有条件有能力的,那就可以在本地部署,开源地址:
https://github.com/zai-org/GLM-TTS。

老马有想过给大家手搓一个Windows的一键整合包,搓是搓好了。

只不过使用CPU推理的话速度贼慢,GPU则安装环境依赖较为麻烦,对小白用户不友好。

索性还是建议大家使用官方的体验平台,这是最低门槛的操作方式。

GLM-TTS声音合成克隆演示

打开体验平台的网站后,功能界面非常简单,一个语言合成,一个音色克隆,语音合成你只需要在右侧选择音色,输入文本即可,如图:

可惜官方的音色库可选择的实在是太少,不像Minimax那么多,可能更注重于音色克隆吧。

上面这段文本的的合成效果如下,中规中矩,毕竟没有什么情感跟说话习惯的体现:

音色克隆支持在线直接录音,或者上传录音文件,克隆后的音色直接保存在音色库,下次在语音合成的时候就可以选择该音色,输入文本进行合成,如图:

老马也克隆了自己的音色,大概在线录制了4秒左右的声音,合成的语音效果如下:

广普还是克隆得挺到位的,还带有说话的习惯,下面继续克隆个郭德纲的:

老郭的这段朗诵算是声嘶力竭、抑扬顿挫、情感到位,只是官方的体验平台,偶尔使用克隆音色合成语音时,会出现字读错的情况。

这就有点尴尬,还得抽卡一下,一般重试合成就好了,不知道是服务器资源不够,还是什么原因导致的,希望官方能调整优化一下。

下面上点难度,克隆一个极具特色的演员声音,来自超长命电视剧《外来媳妇本地郎》的角色李彩娇。

剧中靓女阿娇的口音是广东高州话版粤语,又给人一种化州话版粤语的感觉,不知道这种口味GLM‑TTS能否适应。

毕竟是粤语,可能最终在合成普通话的时候会有些问题,但重点还是看其音色和情感表达层面效果如何。

先来一段原版的李彩娇声音给大家听听,你们就知道这个声音,方言混杂非标粤语,克隆起来难度是有多大:

还是朗诵同一首诗,克隆后的李彩娇音色合成声音效果如下:

音色有那么一丢丢的像,但这说话的习惯跟声音的灵魂没了,可惜不能选择语言为粤语合成,不然对比会更加明显。

所以克隆正常的,发音没毛病的,哪怕稍微广普、川普一点的声音音色,

GLM‑TTS的效果还是可以的。

后期使用音色合成语音,官方体验平台上只支持300字符以内,短文本是够了,长文本的话就得分段去合成。

总的来说,AI声音克隆与合成又多了一种选择,工具就是这样,比较着去挑选使用,合适自己需求的,那就是好工具。

好了,以上就是今天的分享,欢迎关注、点赞、转发一键三连。有任何问题和需求,请在评论区留言,回见!

如果觉得我的文章对您有用,请随意赞赏。您的支持将鼓励我继续创作!

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Protected by WP Anti Spam