玩AI选哪个模型好?哪个模型更合适更划算?答案全在这里
刚接触AI,或者了解过AI一段时间的小伙伴,其实都会有一个困惑,那么多的AI模型究竟该怎么选择。
一个是看各种评测跑分,老觉得新模型会更强,但不知道适不适合自己,还有就是价格贵不贵,性价比高不高。
所以经常就会有这类小伙伴问老马,某某模型跟某某模型相比,哪个更好?哪个更划算?等诸如此类问题。
这还只是大语言模型的选择困难症,如果加上生图、生视频、生音频之类的模型,头都大了,模型还得分开源跟闭源。
还有一个问题就是榜单跑分的权威性,懂的都懂,有点类似于电脑上的娱乐大师跑分,跟实际业务需求存在脱节的情况。
有没有一个第三方、中立、科学、覆盖多场景的大模型评测平台,能够帮助我们基于真实场景,选择到最具性价比的模型呢?
答案以前没有,现在它来了,这得感谢AI圈子里的洛小山大佬,真金白银花11000块钱,测了34205条大模型用例,一共囊括了42+模型。
最终把所有结论汇聚成一个平台,名字叫小山场景化模型能力评测平台,专为AI产品经理和AI时代需要做模型选型的超级个体而生。
平台网址:https://xsct.ai,使用电脑浏览器打开即可使用,无需注册无需付费,还提供了完整的测试方法论和开源数据集,如图:
非常感谢山佬,利用春节假期期间,做了一件足以载入AI行业史册的善事,让我们不再需要亲自去踩坑,付出更多的成本,轻松了解各种模型的特性。
该平台坚持独立运营,不接受模型厂商赞助,数据透明可追溯,同时支持用户提交特定场景测评需求。
平台核心功能老马也总结了一下:
横向对比:支持同一任务下多个模型的输出结果直观对比(如生图质量、网页可运行性)。
细粒度评分:采用多维度独立评分和证据锚定机制,AI会自动标注图片中的具体错误位置和原因。
成本测算:直接对比不同模型在同等调用量下的实际花费,支持汇率换算。
场景化搜索:用户可根据关键词(如“文风迁移”)查找特定场景下的模型排名。
数据可视化:提供雷达图、直方图等图表,便于汇报和发现模型能力短板(如DeepSeek批判性思维较弱、GLM-5数学能力不足等)。
看不太懂没关系,下面跟着老马一步步来了解。
- 榜单排行
文本榜单的排名,测试用例包含了以下任务:写作、翻译、推理、代码、幻觉对抗、角色扮演、润色、摘要等,如图:
图像榜单的排名,测试用例包含了以下任务:风格还原、文字渲染、多语言排版、创意构图等。
网页生成榜单则包含了交互设计、响应式布局、表单、游戏、电商落地页等任务。
该榜单主要体现不同模型在遇到基础、进阶、困难三档难度的任务时,各自的表现如何,并以打分的形式从高到低进行排行。
一般来说,大语言模型会测试文本类任务,以及网页生成任务。多模态大语言模型除了以上任务,还会涉及图像理解,跟图像模型一样,图像理解与图像生成的测试任务均有。
点击榜单上任意一个模型,就能看到对应的雷达图和柱状图,可以同时添加多个模型进行对比,在做模型选型汇报工作的时候就能用上,如图:
雷达图跟柱状图都能切换到不同的测试分类,比如文本、网页、生图、识图。往下滑动还可以看到该模型,或者多模型的不同测试用例的评分,如图:
如果在顶部菜单选择能力评级,你甚至可以直观地看到当前模型,或者多个模型的能力天花板,通过的困难用例越多,说明模型能力越强,如图:
点击任意一个用例,可以查看该用例在不同模型,不同难度下的具体结果,同时会标出该用例下性价比最高的模型,如图:
这个有什么用呢?比如某个用例,刚好跟你的业务场景差不多,你就可以一目了然地看到不同大模型的分数排行,以及经过筛选后价格最合适的模型。
切换到生图模型,拿Nano Banana Pro为例,同样可以按照以上的操作方式去查看,如图:
不同生图模型,在完成美国漫画风格的生图任务时,各自的效果图都能直观地看到,这不比你自己挨个去测方便多了。
回到重点,选择模型最终是得看我们的需求场景,比如你需要使用大语言模型去写文章,需要有创意的写作,但是不知道是GPT好,还是Gemini、DeepSeek好。
这时你就可以在平台上,勾选多个常见的大语言模型,切换到柱状图后,选择L-Creative,重点查看这个创意写作的柱状图展示,如图:
从上图可以看出,Claude Sonnet 4.6是柱状图中柱子最高的,排名第一,Kimi K2.5排第二,其它忽略,这就说明创意写作时可以优先考虑选择Claude Sonnet 4.6模型。
以此类推,不过目前的维度描述还不够简单清楚,希望山佬后期能完善一下不同维度的介绍,比如鼠标移动上去显示中文的说明。
- 其它功能
除了排行榜单,顶部菜单还有不少功能,比如搜索功能,进入后,假设需要搜索代码生成的用例,看看哪个模型最强,如图:
上图显示搜索出来了5个用例,点击任意一个用例照旧可以进入查看详情。比较适合你有明确的需求时,直接进行搜索查看结果。
用例库中则包含了文本、网页、图像三大分类的所有用例,需要说明的一点是,这里的每个用例的Prompt你都是可以自己复制去使用的,如图:
测算工具可以说是一个神器了,可以方便地对比各模型的API调用费用,选择最适合你的方案,如图:
方法论有兴趣的可以去看看,了解一下山佬是如何搭建该评测平台的。最后的前沿是一个时间轴,根据不同模型的发布时间进行排列,如图:
整体体验下来,小山场景化模型能力评测平台的基本功能已经很OK,除了个别体验需要进一步完善,你也可以在平台上进入提需求反馈给山佬。
好了,以上就是今天的分享,欢迎关注、点赞、转发一键三连。有任何问题和需求,请在评论区留言,回见!
对了,老马最近刚创建了一个AI学习交流群,有兴趣进群的小伙伴可以添加老马微信号:immajiabin,添加好友时备注:进群。


