手把手教你用手机本地跑大模型

作者: admin 分类: 评论分析 发布时间: 2026-05-15 13:31

之前给大家介绍过在本地电脑使用Ollama部署大模型,不了解的小伙伴可以回看老文章:10分钟本地免费部署AI大模型,旧电脑也能跑得动

随着推理引擎的发展和模型参数体量越来越小,现在一部普通的手机也能部署大模型,并且顺畅地跑起来。

电脑上跑大模型可以理解,比如很多养小龙虾养马的,只要电脑硬件足够跑得动大模型,那本地部署后去使用还是可以节省一些token费用的。

手机上跑大模型,能想到的替代场景就是,不再用手机上的豆包、千问、Deepseek等AI APP,因为使用它们需要联网。

而你手机本地部署了大模型去跑,不用联网,离线可运行,跟电脑部署一个道理。其次,你的数据跟资料不会被上传到云端,保证了隐私安全。

最后就是免费没有限制,省token费用,像豆包都开始收费了。如果高频使用AI对话,手机本地部署大模型就等于免费,充着电亮着屏幕跑就行。

其它的使用场景就交给大家去脑补了,老马今天迫不及待地给大家推荐一款小巧、简单、开源免费的手机本地大模型超高速、轻量级推理引擎。

它就是来自阿里巴巴的MNN,开源地址:
https://github.com/alibaba/MNN,其实不只是支持手机,电脑也支持的,完全可以替代Ollama。

不过今天主要是介绍手机端的大模型部署使用,所以文末老马也会把安卓跟苹果的APP安装包和下载方式贴出来。

MNN对应的APP名称叫MNN Chat,做得有点类似于豆包这类AI对话APP,基本上差不多。由于是轻量级,所以对你手机的硬件要求并不高。

安卓系统Android 10及以上,iPhone苹果系统iOS 15及以上就能运行,同时保证你手机的存储空间有1个G以上。

因为你要在手机本地部署大模型,是需要去下载模型文件的,模型文件一般体积都不小,最小的都得是几百MB,最大的几个G以上。

因此手机的存储空间要保证足够,运行内存当然也是越大越好,虽然模型推理主要是使用CPU,但大运行内存至少能保证手机不卡顿,推荐4G以上。

这么看来,你淘汰或者闲置的手机就可以利用起来,部署个大模型发挥余热,没事当个离线的AI对话工具也是挺不错的。

下面老马就用红米K70安卓手机作为演示,硬件配置是第二代骁龙8,运行内存16G,存储空间512G,仅供大家参考,你们不一定非得一样的配置。

前面说过了,MNN很轻量,对手机硬件配置要求不高,老手机也能跑得起来,只是说性能好不好,速度快不快罢了。

废话不多说了,直接开整。

MNN Chat APP部署使用大模型

下载完APP的安装包,像红米手机的话,老马是习惯通过QQ发送给手机QQ里面的小号,再从小号使用QQ浏览器运行安装APK文件:

现在的安卓系统对于第三方的APP安装都会有安全提示跟限制,你就根据提示,始终允许安装即可,部分品牌手机还需要输入账号密码去验证。

没有上架官方应用商店的第三方APP就是这样,没有办法,安装的时候多注意一点。像某遥遥领先的鸿蒙系统,那才是变态折腾人,第三方APP安装非常复杂麻烦。

所以老马不打算讲鸿蒙系统如何安装的问题,越讲越气,想当年帮一个朋友的pura 70装一个第三方APP,装到想摔手机,纯属神经病手机。

如果你使用的是鸿蒙系统,那你自己去问AI,去搜索方法,自行搞定。其他品牌的安卓系统手机,一般仔细看看提示,根据提示去操作都能装得上。

装完MNN Chat APP后,直接打开运行就行了,不需要注册登录,直接开箱使用。默认没有下载模型,我们可以点击去下载:

模型市场中提供了很多开源的模型给你下载,不仅有阿里自己的Qwen系列模型,还有Hunyuan、Deepseek、Llama、MiMo、gemma、glm、MiniCPM、gpt-oss、ERNIE等常见的模型:

这里老马下载了个Qwen3.5-0.8B-MNN的小模型作为演示,当然手机硬件性能越强,存储空间越大,可以对应去下载更大参数量的模型。下载模型的速度很快,不到一分钟搞定,下载完点击对话即可:

对话框中默认是开启了思考模式的,这个时候你就可以跟下载好的大模型进行对话了。老马随便发了一句你是什么大模型,很惊艳,速度飞快:

在模型的回复最下面,可以看到两个参数,分别是Prefill和Decode,这两个数值体现了当前我们手机本地跑大模型的性能。

Prefill叫预填充阶段,用来处理用户的输入内容和上下文,将其转换为模型可理解的向量。从上面截图可以看到,老马输入的那句你是什么模型。

大概是24个tokens,约等于24个汉字或字符。而0.10s是处理的总耗时,242.12tokens/s是预填充速度,即每秒处理242.12个输入token。

大白话一句总结,就是老马发了一句24个字的提问,模型用0.10秒就读完并理解了,就问你这个速度快不快。

Decode叫解码生成阶段,表示模型在逐字生成回答内容。从上面截图中可以看到,生成完整回答耗时5.82s,生成的token数是297tokens(约等于297个汉字或字符),生成的速度是51.04tokens/s。

大白话一句话总结,就是模型用了5.82秒,生成了一段297个字的回答内容,平均每秒约输出51个字,在手机端属于非常流畅的水平。

我们继续往下了解MNN Chat,在对话框右上角点击电话图标,可以调出TTS和ASR模型的下载配置列表。MNN Chat支持你使用语言来跟大模型聊天对话,只不过要先下载对应的TTS和ASR模型:

再点右上角的三个点,可以开启新的会话,以及是否勾选开启性能指标:

这里面比较有意思的是API设置,什么意思呢?你下载了模型后,用MNN Chat开启API服务,在局域网内就可以给其他Agent或者应用去调用大模型:

假设你在手机里面也养了龙虾跟马,那就能对接MNN Chat提供的模型API服务,实现手机本地跑大模型,给龙虾和马提供token消耗的效果。

感兴趣的小伙伴可以进一步去这样配置调试,篇幅问题,老马就不展开了,展开了又可以写一篇新的教程了。

MNN Chat自带性能评测,你也可以测试一下看看,当前的手机硬件配置跑所选的大模型性能如何,默认选择CPU进行测试:

如果是选择OpenCl的话,则通过手机GPU的计算去测试。还是那句老话,手机硬件性能越强,你能选择运行推理的模型参数量就越大。若是觉得模型干活不行,不够聪明,那就换个参数量大一点的再试试。

老爷机就算了,老马指的是当前市面上的中高端手机,款式越新当然越好,这种道理就不再啰嗦了,懂的都懂。就好像现在抖音上,还有人相信E5洋垃圾CPU,性能干过i9级CPU一样,这都属于认知差。

安装MNN Chat在手机本地跑大模型的实操就到这里,它确实是手机本地运行大模型最简单的工具之一,不需要电脑,不需要显卡,不需要懂代码技术,十分钟不到就能搞定本地免费安全的离线AI对话工具。

MNN Chat APP安装下载地址:

安卓版下载地址:

https://meta.alicdn.com/data/mnn/apks/mnn_chat_0_8_2_2.apk

苹果版下载地址:

https://apps.apple.com/hk/app/mnn-chat/id6748348797

好了,以上就是今天的分享,欢迎关注、点赞、转发一键三连。有任何问题和需求,请在评论区留言,回见!

对了,老马最近刚创建了一个AI学习交流群,有兴趣进群的小伙伴可以添加老马微信号:immajiabin,添加好友时备注:进群(不备注不通过)。

如果觉得我的文章对您有用,请随意赞赏。您的支持将鼓励我继续创作!

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Protected by WP Anti Spam