引言

随着AI技术的不断突破，大模型的计算需求变得越来越庞大，而硬件性能的提升也在不断推高AI应用的边界。对于AI开发者和研究人员来说，选择合适的硬件和平台对提升工作效率至关重大。今天，我们将聚焦于Mac Studio M3 Ultra 512GB这台服务器，测试LM Studio和Ollama在其上的表现。

LM Studio VS Ollama？在Mac Studio M3 Ultra 512GB对决

机器配置

本次对比测试的模型包括：qwen3 14b fp16、qwen3 32b fp16、gemma3:27b-it-fp16、deepseek-v3.1:671b、gpt-oss:20b、gpt-oss:120b。我们选择了几个任务来考察它们的综合能力，任务包括：数值比较、字母统计、经典诗词背诵以及高难度的作文生成。与此同时，我们还将对比两个平台在首字响应时间和Tokens每秒等性能指标上的差异。

评测模型与任务

此次测试我们使用了多种大型语言模型，并设置了以下几个具有挑战性的任务：

“2.11 和 2.2 哪个大？”
一个简单的数值比较任务，主要考察模型的基础数学处理能力。
“deepseek vs qwen 里面有几个字母 e？”
这道任务旨在测试模型的字母统计能力，考察它们对细节的关注和理解。
“背诵毛主席的《沁园春·雪》”
经典诗词的背诵任务，测试模型的记忆和语言表达能力，考察其在长文本理解和回忆方面的准确性。
“写800字的《沁园春·雪》读后感议论文，题目自拟”
这一任务考察模型的创意生成能力，要求模型根据《沁园春·雪》这首诗，生成一篇符合高考满分作文标准的议论文。

评测指标

本次评测主要从以下几个维度进行对比：

答案准确性：对于实际性问题，模型是否能够给出正确的答案。
背诵准确性：模型是否能够准确背诵经典诗词《沁园春·雪》。
作文评分：生成的议论文是否符合高考满分作文标准。我们将利用ChatGPT的自动评分系统，来比较两个平台生成文章的质量。
性能指标：

首字时间：模型首次输出的响应时间。
Tokens每秒：模型处理文本的吞吐量，即每秒处理多少个tokens。

测试结果与分析

Ollama测试数据

LM Studio VS Ollama？在Mac Studio M3 Ultra 512GB对决

Ollama测试

测试模型	qwen3 14b fp16	qwen3 32b fp16	gemma3:27b-it-fp16	deepseek-v3.1:671b	gpt-oss:20b	gpt-oss:120b
任务1：数值比较	答案：正确，首字时间：0.86s，20.73 tokens/s	答案：正确，首字时间：2s，9.56 tokens/s	答案：正确，首字时间：2.33s，11.31 tokens/s	答案：正确，首字时间0.5，21.07 tokens/s	答案：正确，首字时间：0.17s，97.35 tokens/s	答案：正确，首字时间：1.57s，66.74 tokens/s
任务2：字母统计	答案：正确，首字时间：1.06s，20.66 tokens/s	答案：正确，首字时间：0.87s，10.06 tokens/s	答案：错误，首字时间：2.27s，11.29 tokens/s	答案：正确，首字时间：10.54s，20.25 tokens/s	答案：正确，首字时间：0.42s，98.09 tokens/s	答案：正确，首字时间：1.8s，65.94 tokens/s
任务3：背诵《沁园春·雪》	答案：正确，首字时间：0.987s，20.28 tokens/s	答案：正确，首字时间：0.86s，10.05 tokens/s	答案：正确，首字时间：2.27，11.06 tokens/s	答案：正确，首字时间：1.03s，19.58 tokens/s	答案：错误，首字时间：0.49s，92.52 tokens/s	答案：错误，首字时间：1.74s，66.33 tokens/s
任务4：800字议论文	答案：90分，首字时间：1.18s，19.73 tokens/s	答案：92分，首字时间：1.07s，10.01 tokens/s	答案：88分，首字时间：2.26s，10.81 tokens/s	答案：95分，首字时间：14.74s，18.14 tokens/s	答案：72分，首字时间：1.14s，92.94 tokens/s	答案：76分，首字时间：2.03s，65.22 tokens/s
综合表现	全部正确	全部正确	错1题	全部正确	对中文语料支持不好	对中文语料支持不好

LM Studio测试数据

LM Studio VS Ollama？在Mac Studio M3 Ultra 512GB对决

LM Studio运行

测试项目

测试模型	qwen3 14b fp16	qwen3 32b fp16	gemma3:27b-it-fp16	deepseek-v3.1:671b	gpt-oss:20b	gpt-oss:120b
任务1：数值比较	答案：正确，首字时间：0.21s，22.62 tokens/s	答案：正确，首字时间：0.45s，10.05tokens/s	答案：正确，首字时间：2.33s，10.08 tokens/s	答案：正确，首字时间：10.26s，15.59 tokens/s	答案：正确，首字时间：0.932s，93.98 tokens/s	答案：正确，首字时间：0.17，66.45 tokens/s
任务2：字母统计	答案：正确，首字时间：0.46s，22.55 tokens/s	答案：正确，首字时间：2.68s，9.40 tokens/s	答案：错误，首字时间：0.41s，11.61 tokens/s	答案：正确，首字时间：13.1s，14.14 tokens/s	答案：正确，首字时间：1.26s，94.17 tokens/s	答案：正确，首字时间：0.21s，65.94 tokens/s
任务3：背诵《沁园春·雪》	答案：正确，首字时间：0.49s，22.5 tokens/s	答案：正确，首字时间：2.63s，9.26 tokens/s	答案：错误，首字时间：0.41，11.41 tokens/s	答案：正确，首字时间：11.88s，14.36 tokens/s	答案：错误，首字时间：0.47s，92.57 tokens/s	答案：错误，首字时间：0.934s，62.78 tokens/s
任务4：800字议论文	答案：93分，首字时间：0.48s，22.24 tokens/s	答案：92分，首字时间：2.87s，9.04 tokens/s	答案：83分，首字时间：0.41s，11.29 tokens/s	答案：89分，首字时间：13.27s，13.22 tokens/s	答案：88分，首字时间：2.59s，92.3 tokens/s	答案：93分，首字时间：2.43s，62.15 tokens/s
综合表现	全部正确	全部正确	错1题	全部正确	对中文语料支持不好	对中文语料支持不好

总结与提议

通过对比测试，Mac Studio M3 Ultra 512GB版在LM Studio和Ollama两大平台上展现了不错的性能。相对来说LM Studio在首字输出时间、tokens每秒和作文评分方面占据了必定优势。Ollama则在小模型的响应速度和吞吐量方面展现了必定的优势，但是对于大一些的高精度的模型速度会慢一些，尤其是首字输出时间。

通过对qwen3 14b fp16、qwen3 32b fp16、gemma3:27b-it-fp16、deepseek-v3.1:671b、gpt-oss:20b、gpt-oss:120b等几个模型的对比，发目前上述的几个场景中，国产模型有相当的优势，列如gemma3在数字符方面不太准确，gpt-oss的两个模型在中文语料方面支持不太好，而且幻觉严重。因此处理中文信息提议还是采用国产模型。当然，gpt-oss的相应速度是超级不错的。总体测试下来，4bit量化的速度比fp16的速度提升明显，即使是deepseek V3.1的4位量化模型，每秒的tokens也能有20左右。

今天的测试就到这里，希望这些信息对您的选择有参考意义。

文章版权归作者所有，未经允许请勿转载。如内容涉嫌侵权，请在本页底部进入<联系我们>进行举报投诉!

THE END