手把手教你用手机本地跑大模型

作者: admin 分类: 评论分析发布时间: 2026-05-15 13:31

之前给大家介绍过在本地电脑使用Ollama部署大模型，不了解的小伙伴可以回看老文章：10分钟本地免费部署AI大模型，旧电脑也能跑得动

随着推理引擎的发展和模型参数体量越来越小，现在一部普通的手机也能部署大模型，并且顺畅地跑起来。

电脑上跑大模型可以理解，比如很多养小龙虾养马的，只要电脑硬件足够跑得动大模型，那本地部署后去使用还是可以节省一些token费用的。

手机上跑大模型，能想到的替代场景就是，不再用手机上的豆包、千问、Deepseek等AI APP，因为使用它们需要联网。

而你手机本地部署了大模型去跑，不用联网，离线可运行，跟电脑部署一个道理。其次，你的数据跟资料不会被上传到云端，保证了隐私安全。

最后就是免费没有限制，省token费用，像豆包都开始收费了。如果高频使用AI对话，手机本地部署大模型就等于免费，充着电亮着屏幕跑就行。

其它的使用场景就交给大家去脑补了，老马今天迫不及待地给大家推荐一款小巧、简单、开源免费的手机本地大模型超高速、轻量级推理引擎。

它就是来自阿里巴巴的MNN，开源地址：
https://github.com/alibaba/MNN，其实不只是支持手机，电脑也支持的，完全可以替代Ollama。

不过今天主要是介绍手机端的大模型部署使用，所以文末老马也会把安卓跟苹果的APP安装包和下载方式贴出来。

MNN对应的APP名称叫MNN Chat，做得有点类似于豆包这类AI对话APP，基本上差不多。由于是轻量级，所以对你手机的硬件要求并不高。

安卓系统Android 10及以上，iPhone苹果系统iOS 15及以上就能运行，同时保证你手机的存储空间有1个G以上。

因为你要在手机本地部署大模型，是需要去下载模型文件的，模型文件一般体积都不小，最小的都得是几百MB，最大的几个G以上。

因此手机的存储空间要保证足够，运行内存当然也是越大越好，虽然模型推理主要是使用CPU，但大运行内存至少能保证手机不卡顿，推荐4G以上。

这么看来，你淘汰或者闲置的手机就可以利用起来，部署个大模型发挥余热，没事当个离线的AI对话工具也是挺不错的。

下面老马就用红米K70安卓手机作为演示，硬件配置是第二代骁龙8，运行内存16G，存储空间512G，仅供大家参考，你们不一定非得一样的配置。

前面说过了，MNN很轻量，对手机硬件配置要求不高，老手机也能跑得起来，只是说性能好不好，速度快不快罢了。

废话不多说了，直接开整。

MNN Chat APP部署使用大模型

下载完APP的安装包，像红米手机的话，老马是习惯通过QQ发送给手机QQ里面的小号，再从小号使用QQ浏览器运行安装APK文件：

现在的安卓系统对于第三方的APP安装都会有安全提示跟限制，你就根据提示，始终允许安装即可，部分品牌手机还需要输入账号密码去验证。

没有上架官方应用商店的第三方APP就是这样，没有办法，安装的时候多注意一点。像某遥遥领先的鸿蒙系统，那才是变态折腾人，第三方APP安装非常复杂麻烦。

所以老马不打算讲鸿蒙系统如何安装的问题，越讲越气，想当年帮一个朋友的pura 70装一个第三方APP，装到想摔手机，纯属神经病手机。

如果你使用的是鸿蒙系统，那你自己去问AI，去搜索方法，自行搞定。其他品牌的安卓系统手机，一般仔细看看提示，根据提示去操作都能装得上。

装完MNN Chat APP后，直接打开运行就行了，不需要注册登录，直接开箱使用。默认没有下载模型，我们可以点击去下载：

模型市场中提供了很多开源的模型给你下载，不仅有阿里自己的Qwen系列模型，还有Hunyuan、Deepseek、Llama、MiMo、gemma、glm、MiniCPM、gpt-oss、ERNIE等常见的模型：

这里老马下载了个Qwen3.5-0.8B-MNN的小模型作为演示，当然手机硬件性能越强，存储空间越大，可以对应去下载更大参数量的模型。下载模型的速度很快，不到一分钟搞定，下载完点击对话即可：

对话框中默认是开启了思考模式的，这个时候你就可以跟下载好的大模型进行对话了。老马随便发了一句你是什么大模型，很惊艳，速度飞快：

在模型的回复最下面，可以看到两个参数，分别是Prefill和Decode，这两个数值体现了当前我们手机本地跑大模型的性能。

Prefill叫预填充阶段，用来处理用户的输入内容和上下文，将其转换为模型可理解的向量。从上面截图可以看到，老马输入的那句你是什么模型。

大概是24个tokens，约等于24个汉字或字符。而0.10s是处理的总耗时，242.12tokens/s是预填充速度，即每秒处理242.12个输入token。

大白话一句总结，就是老马发了一句24个字的提问，模型用0.10秒就读完并理解了，就问你这个速度快不快。

Decode叫解码生成阶段，表示模型在逐字生成回答内容。从上面截图中可以看到，生成完整回答耗时5.82s，生成的token数是297tokens（约等于297个汉字或字符），生成的速度是51.04tokens/s。

大白话一句话总结，就是模型用了5.82秒，生成了一段297个字的回答内容，平均每秒约输出51个字，在手机端属于非常流畅的水平。

我们继续往下了解MNN Chat，在对话框右上角点击电话图标，可以调出TTS和ASR模型的下载配置列表。MNN Chat支持你使用语言来跟大模型聊天对话，只不过要先下载对应的TTS和ASR模型：

再点右上角的三个点，可以开启新的会话，以及是否勾选开启性能指标：

这里面比较有意思的是API设置，什么意思呢？你下载了模型后，用MNN Chat开启API服务，在局域网内就可以给其他Agent或者应用去调用大模型：

假设你在手机里面也养了龙虾跟马，那就能对接MNN Chat提供的模型API服务，实现手机本地跑大模型，给龙虾和马提供token消耗的效果。

感兴趣的小伙伴可以进一步去这样配置调试，篇幅问题，老马就不展开了，展开了又可以写一篇新的教程了。

MNN Chat自带性能评测，你也可以测试一下看看，当前的手机硬件配置跑所选的大模型性能如何，默认选择CPU进行测试：

如果是选择OpenCl的话，则通过手机GPU的计算去测试。还是那句老话，手机硬件性能越强，你能选择运行推理的模型参数量就越大。若是觉得模型干活不行，不够聪明，那就换个参数量大一点的再试试。

老爷机就算了，老马指的是当前市面上的中高端手机，款式越新当然越好，这种道理就不再啰嗦了，懂的都懂。就好像现在抖音上，还有人相信E5洋垃圾CPU，性能干过i9级CPU一样，这都属于认知差。

安装MNN Chat在手机本地跑大模型的实操就到这里，它确实是手机本地运行大模型最简单的工具之一，不需要电脑，不需要显卡，不需要懂代码技术，十分钟不到就能搞定本地免费安全的离线AI对话工具。

MNN Chat APP安装下载地址：

安卓版下载地址：

https://meta.alicdn.com/data/mnn/apks/mnn_chat_0_8_2_2.apk

苹果版下载地址：

https://apps.apple.com/hk/app/mnn-chat/id6748348797

好了，以上就是今天的分享，欢迎关注、点赞、转发一键三连。有任何问题和需求，请在评论区留言，回见！

对了，老马最近刚创建了一个AI学习交流群，有兴趣进群的小伙伴可以添加老马微信号：immajiabin，添加好友时备注：进群（不备注不通过）。

大模型

如果觉得我的文章对您有用，请随意赞赏。您的支持将鼓励我继续创作！

马佳彬

手把手教你用手机本地跑大模型

发表回复取消回复

手把手教你用手机本地跑大模型

发表回复 取消回复

发表回复取消回复