智谱开源GLM‑TTS，3秒就能克隆你的声音

作者: admin 分类: 评论分析发布时间: 2025-12-14 13:15

这到年底，智谱AI就跟下饺子一样，开源了不少东西。

上次给大家介绍的GLM-4.6V视觉理解模型效果就很不错，而GLM‑TTS则是工业级语音合成系统。

语言合成可能大家都听说过B站开源的IndexTTS2，个人感觉GLM‑TTS与之对比不相上下。

GLM‑TTS只需录音3秒，或者上传3秒-10秒的录音文件，即可快速克隆你自己的声音。

克隆自己想要的声音也是可以的，不仅能克隆音色，还能模仿说话习惯。

适合朗读各种文字、情感配音、教育评测、电子书、客服等场景。

做短视频也需要的，像数字人生成的视频，配音就可以用克隆的。

记得以前要做配音，或者克隆自己的声音，成本和时间付出都很大。

网上还有不少收费的配音网站，比如给企业宣传片、产品宣传片做配音。

那种音色效果堪比央视主持人般恢弘大气上档次的配音，按分钟计算价格。

动则配音几分钟就得几千块，现在随着AI的发展，这块的成本几乎被拉低趋近零。

应该说，专业的配音师傅日子也不好过了，普通人轻轻松松就能自己搞定配音。

现在你可以登录官方网站：https://audio.z.ai，在线体验声音合成和声音克隆，在右上角点小人头的头像注册一个账号登录即可，如图：

如果是要调用API接口去生成的话，可以使用官方的开发平台：
https://docs.bigmodel.cn/cn/guide/models/sound-and-video/glm-tts 。

有条件有能力的，那就可以在本地部署，开源地址：
https://github.com/zai-org/GLM-TTS。

老马有想过给大家手搓一个Windows的一键整合包，搓是搓好了。

只不过使用CPU推理的话速度贼慢，GPU则安装环境依赖较为麻烦，对小白用户不友好。

索性还是建议大家使用官方的体验平台，这是最低门槛的操作方式。

GLM-TTS声音合成克隆演示

打开体验平台的网站后，功能界面非常简单，一个语言合成，一个音色克隆，语音合成你只需要在右侧选择音色，输入文本即可，如图：

可惜官方的音色库可选择的实在是太少，不像Minimax那么多，可能更注重于音色克隆吧。

上面这段文本的的合成效果如下，中规中矩，毕竟没有什么情感跟说话习惯的体现：

音色克隆支持在线直接录音，或者上传录音文件，克隆后的音色直接保存在音色库，下次在语音合成的时候就可以选择该音色，输入文本进行合成，如图：

老马也克隆了自己的音色，大概在线录制了4秒左右的声音，合成的语音效果如下：

广普还是克隆得挺到位的，还带有说话的习惯，下面继续克隆个郭德纲的：

老郭的这段朗诵算是声嘶力竭、抑扬顿挫、情感到位，只是官方的体验平台，偶尔使用克隆音色合成语音时，会出现字读错的情况。

这就有点尴尬，还得抽卡一下，一般重试合成就好了，不知道是服务器资源不够，还是什么原因导致的，希望官方能调整优化一下。

下面上点难度，克隆一个极具特色的演员声音，来自超长命电视剧《外来媳妇本地郎》的角色李彩娇。

剧中靓女阿娇的口音是广东高州话版粤语，又给人一种化州话版粤语的感觉，不知道这种口味GLM‑TTS能否适应。

毕竟是粤语，可能最终在合成普通话的时候会有些问题，但重点还是看其音色和情感表达层面效果如何。

先来一段原版的李彩娇声音给大家听听，你们就知道这个声音，方言混杂非标粤语，克隆起来难度是有多大：

还是朗诵同一首诗，克隆后的李彩娇音色合成声音效果如下：

音色有那么一丢丢的像，但这说话的习惯跟声音的灵魂没了，可惜不能选择语言为粤语合成，不然对比会更加明显。

所以克隆正常的，发音没毛病的，哪怕稍微广普、川普一点的声音音色，

GLM‑TTS的效果还是可以的。

后期使用音色合成语音，官方体验平台上只支持300字符以内，短文本是够了，长文本的话就得分段去合成。

总的来说，AI声音克隆与合成又多了一种选择，工具就是这样，比较着去挑选使用，合适自己需求的，那就是好工具。

好了，以上就是今天的分享，欢迎关注、点赞、转发一键三连。有任何问题和需求，请在评论区留言，回见！

如果觉得我的文章对您有用，请随意赞赏。您的支持将鼓励我继续创作！

马佳彬