在24GB统一内存的M4 MacBook Pro上跑本地大模型,体验究竟如何?开发者jola近日分享了他的完整实践记录,涵盖硬件选择、模型配置、日常使用感受,以及云端模型无法替代的独特价值。这份记录既有惊喜发现,也有真实踩坑,对于考虑迁移到本地AI的用户来说是一份难得的参考。

工具选择:Ollama、llama.cpp还是LM Studio?
jola测试了Ollama、llama.cpp和LM Studio三款主流工具,最终推荐LM Studio作为主力平台。他的理由是:LM Studio提供了更便捷的模型管理界面和稳定的本地API接口,支持`http://localhost:1234/v1`格式的OpenAI兼容调用,这意味着许多现成的客户端工具可以直接连接,无需额外配置适配层。
在客户端选择上,Pi和OpenCode都被证明能与LM Studio良好集成。Pi的优势在于极简界面和快速响应,而OpenCode则提供了更丰富的调试功能。对于日常编程辅助场景,两者都能很好地胜任。
推荐配置:qwen3.5-9b,跑出40 tokens/秒
经过多款模型对比测试,jola最推荐的是qwen3.5-9b的Q4_K_S量化版本。在LM Studio上运行,开启thinking模式和工具调用、128K上下文窗口时,实测输出速度约为40 tokens/秒。这个速度对于日常编程使用已经完全可行——写函数、调bug、解释代码都能在几秒内得到响应。
对于编程任务,jola推荐的参数组合是:temperature=0.6(适度随机性,保留一定创造力但不过度发散),top_p=0.95,top_k=20,min_p=0.0,presence_penalty=0.0,repetition_penalty=1.0(无重复惩罚,因为量化模型本身已有一定重复倾向)。

本地模型的真实代价与独特收获
jola也坦承本地模型的不足之处:需要更多的”照顾”——手动管理工作进程、处理量化精度损失带来的偶尔质量问题、以及在不同模型之间切换时的配置调整成本。这些都是云端API服务”零管理”体验所不具备的麻烦。
但他也指出了云端模型无法替代的价值:无需联网(离线可用)、没有订阅费用压力、对环境更友好(不需要每次查询都走数据中心产生碳排放)、以及——自己动手调教模型本身这件事带来的独特乐趣和成就感。”自己跑起来的模型,感觉完全不一样。”jola写道。
他的结论是:对于愿意折腾、有一定技术背景、重视隐私或经常在网络不稳定环境中工作的用户,本地模型是一个值得认真探索的方向。它不是云端模型的简单替代,而是一种不同的、更有参与感的AI使用方式。

OpenClaw—AI研究