LM Studio VS Ollama?在Mac Studio M3 Ultra 512GB对决

引言

随着AI技术的不断突破,大模型的计算需求变得越来越庞大,而硬件性能的提升也在不断推高AI应用的边界。对于AI开发者和研究人员来说,选择合适的硬件和平台对提升工作效率至关重大。今天,我们将聚焦于Mac Studio M3 Ultra 512GB这台服务器,测试LM StudioOllama在其上的表现。

LM Studio VS Ollama?在Mac Studio M3 Ultra 512GB对决

机器配置

本次对比测试的模型包括:qwen3 14b fp16qwen3 32b fp16gemma3:27b-it-fp16deepseek-v3.1:671bgpt-oss:20bgpt-oss:120b。我们选择了几个任务来考察它们的综合能力,任务包括:数值比较、字母统计、经典诗词背诵以及高难度的作文生成。与此同时,我们还将对比两个平台在首字响应时间Tokens每秒等性能指标上的差异。

评测模型与任务

此次测试我们使用了多种大型语言模型,并设置了以下几个具有挑战性的任务:

  1. “2.11 和 2.2 哪个大?”
    一个简单的数值比较任务,主要考察模型的基础数学处理能力。
  2. “deepseek vs qwen 里面有几个字母 e?”
    这道任务旨在测试模型的字母统计能力,考察它们对细节的关注和理解。
  3. “背诵毛主席的《沁园春·雪》”
    经典诗词的背诵任务,测试模型的记忆和语言表达能力,考察其在长文本理解和回忆方面的准确性。
  4. “写800字的《沁园春·雪》读后感议论文,题目自拟”
    这一任务考察模型的创意生成能力,要求模型根据《沁园春·雪》这首诗,生成一篇符合高考满分作文标准的议论文。

评测指标

本次评测主要从以下几个维度进行对比:

  • 答案准确性:对于实际性问题,模型是否能够给出正确的答案。
  • 背诵准确性:模型是否能够准确背诵经典诗词《沁园春·雪》。
  • 作文评分:生成的议论文是否符合高考满分作文标准。我们将利用ChatGPT的自动评分系统,来比较两个平台生成文章的质量。
  • 性能指标
    • 首字时间:模型首次输出的响应时间。
    • Tokens每秒:模型处理文本的吞吐量,即每秒处理多少个tokens。

测试结果与分析

Ollama测试数据

LM Studio VS Ollama?在Mac Studio M3 Ultra 512GB对决

Ollama测试

测试模型

qwen3 14b fp16

qwen3 32b fp16

gemma3:27b-it-fp16

deepseek-v3.1:671b

gpt-oss:20b

gpt-oss:120b

任务1:数值比较

答案:正确,首字时间:0.86s,20.73 tokens/s

答案:正确,首字时间:2s,9.56 tokens/s

答案:正确,首字时间:2.33s,11.31 tokens/s

答案:正确,首字时间0.5,21.07 tokens/s

答案:正确,首字时间:0.17s,97.35 tokens/s

答案:正确,首字时间:1.57s,66.74 tokens/s

任务2:字母统计

答案:正确,首字时间:1.06s,20.66 tokens/s

答案:正确,首字时间:0.87s,10.06 tokens/s

答案:错误,首字时间:2.27s,11.29 tokens/s

答案:正确,首字时间:10.54s,20.25 tokens/s

答案:正确,首字时间:0.42s,98.09 tokens/s

答案:正确,首字时间:1.8s,65.94 tokens/s

任务3:背诵《沁园春·雪》

答案:正确,首字时间:0.987s,20.28 tokens/s

答案:正确,首字时间:0.86s,10.05 tokens/s

答案:正确,首字时间:2.27,11.06 tokens/s

答案:正确,首字时间:1.03s,19.58 tokens/s

答案:错误,首字时间:0.49s,92.52 tokens/s

答案:错误,首字时间:1.74s,66.33 tokens/s

任务4:800字议论文

答案:90分,首字时间:1.18s,19.73 tokens/s

答案:92分,首字时间:1.07s,10.01 tokens/s

答案:88分,首字时间:2.26s,10.81 tokens/s

答案:95分,首字时间:14.74s,18.14 tokens/s

答案:72分,首字时间:1.14s,92.94 tokens/s

答案:76分,首字时间:2.03s,65.22 tokens/s

综合表现

全部正确

全部正确

错1题

全部正确

对中文语料支持不好

对中文语料支持不好

LM Studio测试数据

LM Studio VS Ollama?在Mac Studio M3 Ultra 512GB对决

LM Studio运行

测试项目

测试模型

qwen3 14b fp16

qwen3 32b fp16

gemma3:27b-it-fp16

deepseek-v3.1:671b

gpt-oss:20b

gpt-oss:120b

任务1:数值比较

答案:正确,首字时间:0.21s,22.62 tokens/s

答案:正确,首字时间:0.45s,10.05tokens/s

答案:正确,首字时间:2.33s,10.08 tokens/s

答案:正确,首字时间:10.26s,15.59 tokens/s

答案:正确,首字时间:0.932s,93.98 tokens/s

答案:正确,首字时间:0.17,66.45 tokens/s

任务2:字母统计

答案:正确,首字时间:0.46s,22.55 tokens/s

答案:正确,首字时间:2.68s,9.40 tokens/s

答案:错误,首字时间:0.41s,11.61 tokens/s

答案:正确,首字时间:13.1s,14.14 tokens/s

答案:正确,首字时间:1.26s,94.17 tokens/s

答案:正确,首字时间:0.21s,65.94 tokens/s

任务3:背诵《沁园春·雪》

答案:正确,首字时间:0.49s,22.5 tokens/s

答案:正确,首字时间:2.63s,9.26 tokens/s

答案:错误,首字时间:0.41,11.41 tokens/s

答案:正确,首字时间:11.88s,14.36 tokens/s

答案:错误,首字时间:0.47s,92.57 tokens/s

答案:错误,首字时间:0.934s,62.78 tokens/s

任务4:800字议论文

答案:93分,首字时间:0.48s,22.24 tokens/s

答案:92分,首字时间:2.87s,9.04 tokens/s

答案:83分,首字时间:0.41s,11.29 tokens/s

答案:89分,首字时间:13.27s,13.22 tokens/s

答案:88分,首字时间:2.59s,92.3 tokens/s

答案:93分,首字时间:2.43s,62.15 tokens/s

综合表现

全部正确

全部正确

错1题

全部正确

对中文语料支持不好

对中文语料支持不好

总结与提议

通过对比测试,Mac Studio M3 Ultra 512GB版在LM StudioOllama两大平台上展现了不错的性能。相对来说LM Studio在首字输出时间、tokens每秒和作文评分方面占据了必定优势。Ollama则在小模型的响应速度吞吐量方面展现了必定的优势,但是对于大一些的高精度的模型速度会慢一些,尤其是首字输出时间。

通过对qwen3 14b fp16qwen3 32b fp16gemma3:27b-it-fp16deepseek-v3.1:671bgpt-oss:20bgpt-oss:120b等几个模型的对比,发目前上述的几个场景中,国产模型有相当的优势,列如gemma3在数字符方面不太准确,gpt-oss的两个模型在中文语料方面支持不太好,而且幻觉严重。因此处理中文信息提议还是采用国产模型。当然,gpt-oss的相应速度是超级不错的。总体测试下来,4bit量化的速度比fp16的速度提升明显,即使是deepseek V3.1的4位量化模型,每秒的tokens也能有20左右。


今天的测试就到这里,希望这些信息对您的选择有参考意义。

© 版权声明
THE END
如果内容对您有所帮助,就支持一下吧!
点赞0 分享
killfuzziandkissthekitty的头像 - 鹿快
评论 共3条

请登录后发表评论