在24GB内存的M4 MacBook Pro上运行本地大模型：一次深度实践

在24GB统一内存的M4 MacBook Pro上跑本地大模型，体验究竟如何？开发者jola近日分享了他的完整实践记录，涵盖硬件选择、模型配置、日常使用感受，以及云端模型无法替代的独特价值。这份记录既有惊喜发现，也有真实踩坑，对于考虑迁移到本地AI的用户来说是一份难得的参考。

工具选择：Ollama、llama.cpp还是LM Studio？

jola测试了Ollama、llama.cpp和LM Studio三款主流工具，最终推荐LM Studio作为主力平台。他的理由是：LM Studio提供了更便捷的模型管理界面和稳定的本地API接口，支持`http://localhost:1234/v1`格式的OpenAI兼容调用，这意味着许多现成的客户端工具可以直接连接，无需额外配置适配层。

在客户端选择上，Pi和OpenCode都被证明能与LM Studio良好集成。Pi的优势在于极简界面和快速响应，而OpenCode则提供了更丰富的调试功能。对于日常编程辅助场景，两者都能很好地胜任。

推荐配置：qwen3.5-9b，跑出40 tokens/秒

经过多款模型对比测试，jola最推荐的是qwen3.5-9b的Q4_K_S量化版本。在LM Studio上运行，开启thinking模式和工具调用、128K上下文窗口时，实测输出速度约为40 tokens/秒。这个速度对于日常编程使用已经完全可行——写函数、调bug、解释代码都能在几秒内得到响应。

对于编程任务，jola推荐的参数组合是：temperature=0.6（适度随机性，保留一定创造力但不过度发散），top_p=0.95，top_k=20，min_p=0.0，presence_penalty=0.0，repetition_penalty=1.0（无重复惩罚，因为量化模型本身已有一定重复倾向）。

本地模型的真实代价与独特收获

jola也坦承本地模型的不足之处：需要更多的”照顾”——手动管理工作进程、处理量化精度损失带来的偶尔质量问题、以及在不同模型之间切换时的配置调整成本。这些都是云端API服务”零管理”体验所不具备的麻烦。

但他也指出了云端模型无法替代的价值：无需联网（离线可用）、没有订阅费用压力、对环境更友好（不需要每次查询都走数据中心产生碳排放）、以及——自己动手调教模型本身这件事带来的独特乐趣和成就感。”自己跑起来的模型，感觉完全不一样。”jola写道。

他的结论是：对于愿意折腾、有一定技术背景、重视隐私或经常在网络不稳定环境中工作的用户，本地模型是一个值得认真探索的方向。它不是云端模型的简单替代，而是一种不同的、更有参与感的AI使用方式。

← 返回文章列表