智谱开源GLM-4.6V模型,三大能力请收藏好
前两天国内头部大模型厂商智谱AI开源了两个版本的模型。
分别是GLM-4.6V(106B-A12B)和GLM-4.6V-Flash(9B)。
前者面向云端与高性能集群,后者面向本地部署与低延迟应用。
重点在于从视觉理解到自动完成任务的能力提升。
视觉理解的话,从精度上讲达到同参数规模SOTA水平(最高水平)。
自动完成任务,就是Function Call(调用工具或函数)原生能力首次打通。
训练时上下文窗口提升到128k(128000)tokens(词元)。
GLM-4.6V系列相较于GLM-4.5V降价50%,API调用价格低至输入1元/百万tokens,输出3元/百万tokens。
GLM-4.6V-Flash免费供大家使用,GLM-4.6V可以调用API,或者有实力的自行部署。
GLM的编程方案中也针对用户8大类场景定向开发了专用MCP工具,模型可自主调用最匹配的接口。
以上就是GLM-4.6V系列开源模型的大致情况,对于普通用户来说了解即可。
重点应用层面,在于其图文混排与内容创作,长文档和视频理解,以及网页前端复刻。
这三点还是用得上的,我们可以在智谱的产品官网上在线体验到这些能力。
官网地址:https://chat.z.ai,浏览器打开后没账号可以注册一下,如图:
默认使用GLM-4.6V模型,下面老马将分别测试这三个能力的具体表现如何。
图文混排内容创作
不能小看这个内容创作的能力,这意味着很多自媒体,以及新媒体小编们,工作效率大大提升。
以前写文章,可能用AI可以快速把框架,主要内容写好,自己再完善润色一下。
但配图还得自己找,或者AI生图,起码你得保证图片匹配得上内容段落的文义。
现在有了GLM-4.6V,这些工作可以一气呵成,而你需要做的就是写一句话的提示词。
老马就让GLM-4.6V模型写一篇我国成功发射遥感四十七号卫星的公众号推文吧,首先在输入框下面点击选择图文输出,再输入提示词,如图:
不知道是平台的问题,还是老马的网络原因,文章中是有插入的图片,但没有显示出来,如图:
所以有的时候你在看官方的公告推文,或者某些AI博主的评测时,不能尽信,有可能你一试,自己就翻车了,哈哈。
不过图文混排模式下的内容创作算是完成了,如果加上正常显示的图片,一篇完整可用的文章就搞定了。
长文档和视频理解
老马直接用GLM-4.6V找来了小米、腾讯、阿里、百度四家公司2025年的财报,然后让其分析一下今年哪家公司的经营状况比较好。
这些财报文件加起来总共有120页那么多,算是长上下文的文档了,下面就看看GLM-4.6V的表现如何,如图:
结果是还真给你分析对比给出了答案,整个过程耗时一分多钟那样子,以后涉及多文件,长文档的分析再也不用愁了,如图:
视频理解能力是非常实用的,比如我们需要复刻一个爆款短视频,可以把视频丢给大模型进行拉片,把每个分镜和提示词都复刻出来。
或者是把视频内容转成文字,这些操作以前都是用GPT和Gemini出来的效果比较好,对于GLM-4.6V,不妨用一个长视频试试它的能力。
老马下载了影视飓风最近的一个视频,时长23分钟,就是那个挺火的AI可以替代我,那我的意义是什么,如图:
同样是在输入框下面点击视频理解,上传视频最大支持200MB,令人费解的是,129MB的视频却始终上传不了,估计是产品端目前还是有点问题。
无奈,继续压缩视频到90多MB,重试了一下终于上传成功,如图:
最终顺利完成了视频的理解与分析,视频的核心框架与主要观点总结到位,回复不啰嗦,如图:
视频的拆解拉片就不给大家演示了,官方在视频理解下面也有镜头拆解的案例,可以参考一下去复刻一些爆款视频看看。
网页前端复刻
老马一直很想复刻的一个网页,是字节跳动旗下Trae AI编程IDE的国外官网,之前用过很多编程模型、低代码平台都无法复刻成功。
包括目前的王者模型Gemini 3 pro,在谷歌AI Studio中使用Build功能创建应用的形式,也就大概能复刻个七八成。
Trae AI的官网地址:https://www.trae.ai,首页动画效果很绚丽,截图如下:
老马就上传这一屏的页面让GLM-4.6V进行复刻,再往下的网页内容就忽略了。如果要完整复刻整个网页的话,就得截屏整个页面了,如图:
咔咔一顿整,十几秒的功夫就复刻完成了,不得不说GLM-4.6V的速度是真快,复刻后的网页效果如图:
还是七八成的水平,剩下的两三成是背景的粒子动画没有复刻成功。不算动画特效,这个效果也不错了,日常用来复制一些网页,修修改改自己用很方便。
通过以上案例的体验测试,排除智谱产品官网存在的一些不完善,或者资源不足的情况,GLM-4.6V的能力还是值得肯定的。
调用API和自行部署是需要成本,但普通用户使用官网基本能满足需求,门槛也低,不得不说国产真香。
好了,以上就是今天的分享,欢迎关注、点赞、转发一键三连。有任何问题和需求,请在评论区留言,回见!


