一次本地部署模型的测试结果

一次本地部署模型的测试结果
一次本地部署模型的测试结果

八个模型评测测试报告

1). 测试概述

本次测试针对以下八个模型进行了统一条件下的对比评测:

  • Gemma-4-31B-IT-Uncensored

  • SuperGemma4-26B-Uncensored

  • Gemma 4 - 26B A4B x Claude Opus 4.6

  • Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2

  • Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled

  • SuperGemma4-26B-Abliterated-Multimodal

  • Gemma-4-31B-IT-Claude-Opus

  • Qwen3.6-35B-A3B-Uncensored

我下载的都是Q4_K_M量化版

2).电脑硬件参数

硬件类型 型号/规格 显卡 NVIDIA GeForce RTX 4090 内存 64GB DDR5 CPU Intel Core i9-13900K

2

4

测试目标是从逻辑推理能力、代码生成能力、响应速度、运行稳定性四个维度,评估八个模型在实际使用场景中的综合表现。

2. 测试方法与统一设置

为保证横向比较公平,本次评测使用了完全一致的测试方式和参数设置。

2.1 统一参数

  • temperature:0.0

  • top_p:1.0

  • 每题采样次数:1

  • 不使用 LLM 裁判

  • 逻辑题采用 exact match 评分

  • 代码题采用程序执行与测试通过率评分

2.2 测试集规模

  • GSM8K:20 题

  • BBH:20 题

  • HumanEval+:10 题

  • MBPP+:10 题

2.3 评分公式

  • 逻辑分 = (GSM8K + BBH) / 2

  • 代码分 = (HumanEval+ + MBPP+) / 2

  • 总分 = (逻辑分 + 代码分) / 2

3. 总体结果汇总

排名 模型 逻辑分 代码分 总分 平均时延 执行失败率 1 Gemma-4-31B-IT-Uncensored 0.9500 1.0000 0.9750 17.64s 0.00 2 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 0.8500 1.0000 0.9250 38.25s 0.00 3 SuperGemma4-26B-Uncensored 0.8750 0.9500 0.9125 4.90s 0.05 3 Qwen3.6-35B-A3B-Uncensored 0.8750 0.9500 0.9125 100.35s 0.05 5 Gemma-4-31B-IT-Claude-Opus 0.8500 0.9000 0.8750 69.27s 0.10 6 Gemma 4 - 26B A4B x Claude Opus 4.6 0.7750 0.9500 0.8625 18.49s 0.05 7 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 0.6000 1.0000 0.8000 58.25s 0.00 8 SuperGemma4-26B-Abliterated-Multimodal 0.7250 0.5000 0.6125 8.04s 0.50

4. 单模型详细测试结果

4.1 Gemma-4-31B-IT-Uncensored

4.1.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 19 / 20 0.95 21.24s - BBH 19 / 20 0.95 29.62s - HumanEval+ 10 / 10 1.00 15.36s 0.00 MBPP+ 10 / 10 1.00 4.35s 0.00 4.1.2 表现分析
  • 0.9750 总分断层登顶,是八个模型中综合实力最强的。

  • 逻辑能力极强,GSM8K 和 BBH 均达到 0.95。BBH 0.95 远超第二名 SuperGemma4 的 0.80。

  • 代码能力满分,HumanEval+ 和 MBPP+ 全部通过。

  • 执行失败率为 0,稳定性最佳之一。

  • 速度适中(17.64s),与 Gemma4-26B 接近。

  • 该模型是本次评测中唯一一个在逻辑、代码、稳定性三个维度均无短板的模型。

4.1.3 结论

Gemma-4-31B-IT-Uncensored 是本次测试中 综合实力最强、无明显短板 的模型。是当前最值得推荐的全能型首选模型。


4.2 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2

4.2.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 20 / 20 1.00 45.08s - BBH 14 / 20 0.70 32.16s - HumanEval+ 10 / 10 1.00 43.15s 0.00 MBPP+ 10 / 10 1.00 32.62s 0.00 4.2.2 表现分析
  • GSM8K 取得满分,数学推理能力是八个模型中最强的之一。

  • 代码能力满分,稳定性优秀。

  • BBH 0.70,复杂逻辑推理能力明显增强。

  • 平均时延 38.25 秒。

4.2.3 结论

Qwen3.5-27B 是 代码能力极强、数学推理极强、综合表现显著提升 的模型,最新重测后已升至综合第二。


4.3 SuperGemma4-26B-Uncensored

4.3.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 19 / 20 0.95 3.09s - BBH 16 / 20 0.80 14.34s - HumanEval+ 10 / 10 1.00 1.44s 0.00 MBPP+ 9 / 10 0.90 0.75s 0.10 4.3.2 表现分析
  • 总分 0.9125 并列第三,逻辑能力仅次于 Gemma-4-31B。

  • 速度是最大亮点,平均时延仅 4.90 秒,是所有模型中最快的。

  • 代码能力很强,HumanEval+ 满分,MBPP+ 仅丢 1 题。

  • 存在少量执行失败(0.05)。

4.3.3 结论

SuperGemma4-26B-Uncensored 是 速度最快 + 综合并列第三 的模型。如果极度看重响应速度,它是最佳选择。


4.4 Qwen3.6-35B-A3B-Uncensored

4.4.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 19 / 20 0.95 92.47s - BBH 16 / 20 0.80 143.65s - HumanEval+ 10 / 10 1.00 93.43s 0.00 MBPP+ 9 / 10 0.90 71.86s 0.10 4.4.2 表现分析
  • 总分 0.9125,与 SuperGemma4-26B-Uncensored 并列第三。

  • 逻辑分 0.875,GSM8K 0.95、BBH 0.80,逻辑能力很强,与 SuperGemma4 持平。

  • 代码分 0.95,HumanEval+ 满分,MBPP+ 少失 1 题。

  • 执行失败率仅 0.05,稳定性良好。

  • 但平均时延高达 100.35s,是所有模型中最慢的,是其最大短板。

4.4.3 结论

Qwen3.6-35B-A3B-Uncensored 是一个 质量高但速度极慢 的模型。综合得分与 SuperGemma4 并列,但时延是其 20 倍。适合不在意响应速度、追求输出质量的场景。


4.5 Gemma-4-31B-IT-Claude-Opus

4.5.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 17 / 20 0.85 85.28s - BBH 17 / 20 0.85 78.65s - HumanEval+ 8 / 10 0.80 71.41s 0.20 MBPP+ 10 / 10 1.00 41.74s 0.00 4.5.2 表现分析
  • 总分 0.8750,综合第五。

  • 逻辑比较稳,GSM8K 和 BBH 都到 0.85。

  • 代码能力较强,MBPP+ 满分,HumanEval+ 有 0.80。

  • 速度偏慢(69.27s),执行失败率 0.10。

4.5.3 结论

Gemma-4-31B-IT-Claude-Opus 是一个 逻辑稳健、代码较强但速度偏慢 的模型。


4.6 Gemma 4 - 26B A4B x Claude Opus 4.6

4.6.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 18 / 20 0.90 18.38s - BBH 13 / 20 0.65 20.64s - HumanEval+ 9 / 10 0.90 18.73s 0.10 MBPP+ 10 / 10 1.00 16.20s 0.00 4.6.2 表现分析
  • 综合均衡,逻辑和代码都较强。

  • 速度适中(18.49s)。

  • 存在一定执行失败率(0.05)。

4.6.3 结论

Gemma 4 - 26B A4B x Claude Opus 4.6 是一个 均衡且响应较快 的模型。


4.7 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled

4.7.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 18 / 20 0.90 26.57s - BBH 6 / 20 0.30 33.21s - HumanEval+ 10 / 10 1.00 129.31s 0.00 MBPP+ 10 / 10 1.00 43.93s 0.00 4.7.2 表现分析
  • 代码能力满分。

  • BBH 仅 0.30,逻辑短板明显。

  • 稳定性良好。

4.7.3 结论

Qwen3-Coder-Next 是一个 偏代码导向 的模型,不推荐作为综合主力。


4.8 SuperGemma4-26B-Abliterated-Multimodal

4.8.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 18 / 20 0.90 5.95s - BBH 11 / 20 0.55 21.35s - HumanEval+ 1 / 10 0.10 2.37s 0.90 MBPP+ 9 / 10 0.90 2.47s 0.10 4.8.2 表现分析
  • HumanEval+ 几乎全军覆没,仅通过 1 题(0.10),执行失败率高达 90%。经三次评测结果高度一致,确认为系统性问题。

  • 代码分仅 0.500,是八个模型中断层最低的(第二低为 Gemma-4-31B-IT-Claude-Opus 的 0.900)。

  • 逻辑能力中规中矩,GSM8K 0.90 尚可,BBH 0.55 一般。

  • MBPP+ 得分 0.90,说明简单代码任务能处理,但复杂函数级代码生成存在严重缺陷。

  • 速度较快(8.04s),但速度无法弥补代码质量的致命缺陷。

  • 总执行失败率 0.50,是所有模型中最差的,远高于第二名的 0.10。

4.8.3 结论

SuperGemma4-26B-Abliterated-Multimodal 是本次测试中 表现最差 的模型。HumanEval+ 代码生成存在系统性缺陷,执行失败率极高,不推荐在任何需要代码能力的场景中使用

5. 横向对比分析

5.1 逻辑能力对比

模型 GSM8K BBH 逻辑分 Gemma-4-31B-IT-Uncensored 0.95 0.95 0.950 SuperGemma4-26B-Uncensored 0.95 0.80 0.875 Qwen3.6-35B-A3B-Uncensored 0.95 0.80 0.875 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 1.00 0.70 0.850 Gemma-4-31B-IT-Claude-Opus 0.85 0.85 0.850 Gemma 4 - 26B A4B x Claude Opus 4.6 0.90 0.65 0.775 SuperGemma4-26B-Abliterated-Multimodal 0.90 0.55 0.725 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 0.90 0.30 0.600

分析:

  • Gemma-4-31B-IT-Uncensored 逻辑能力断层领先(0.950)。

  • SuperGemma4-Uncensored 与 Qwen3.6-35B 并列逻辑第二(0.875)。

  • Qwen3.5-27B 和 Gemma-4-31B-IT-Claude-Opus 紧随其后(0.850)。

  • Qwen3-Coder-Next BBH 仅 0.30,逻辑短板最明显。

5.2 代码能力对比

模型 HumanEval+ MBPP+ 代码分 Gemma-4-31B-IT-Uncensored 1.00 1.00 1.000 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 1.00 1.00 1.000 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 1.00 1.00 1.000 SuperGemma4-26B-Uncensored 1.00 0.90 0.950 Qwen3.6-35B-A3B-Uncensored 1.00 0.90 0.950 Gemma 4 - 26B A4B x Claude Opus 4.6 0.90 1.00 0.950 Gemma-4-31B-IT-Claude-Opus 0.80 1.00 0.900 SuperGemma4-26B-Abliterated-Multimodal 0.10 0.90 0.500

分析:

  • 前六个模型代码能力均在 0.95 以上。

  • Gemma-4-31B-IT-Claude-Opus 代码分 0.90,略低但依然可用。

  • abliterated-multimodal 的 HumanEval+ 仅 0.10,代码分 0.500 断层垫底。

5.3 速度对比

模型 平均时延 SuperGemma4-26B-Uncensored 4.90s SuperGemma4-26B-Abliterated-Multimodal 8.04s Gemma-4-31B-IT-Uncensored 17.64s Gemma 4 - 26B A4B x Claude Opus 4.6 18.49s Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 38.25s Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 58.25s Gemma-4-31B-IT-Claude-Opus 69.27s Qwen3.6-35B-A3B-Uncensored 100.35s

分析:

  • SuperGemma4-26B-Uncensored 速度最快,仅 4.90s。

  • Qwen3.6-35B-A3B-Uncensored 速度最慢(100.35s),是其最大短板。

  • abliterated-multimodal 速度排第二(8.04s),但速度快不能弥补代码质量缺陷。

5.4 稳定性对比

模型 执行失败率 Gemma-4-31B-IT-Uncensored 0.00 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 0.00 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 0.00 SuperGemma4-26B-Uncensored 0.05 Qwen3.6-35B-A3B-Uncensored 0.05 Gemma 4 - 26B A4B x Claude Opus 4.6 0.05 Gemma-4-31B-IT-Claude-Opus 0.10 SuperGemma4-26B-Abliterated-Multimodal 0.50

分析:

  • abliterated-multimodal 执行失败率 0.50,远超其他所有模型,稳定性极差。

6. 关键结论

6.1 综合排名

  1. Gemma-4-31B-IT-Uncensored(总分 0.9750,断层第一,逻辑碾压 + 代码满分 + 零失败)

  2. Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2(总分 0.9250,综合第二,逻辑与代码都接近满分)

  3. SuperGemma4-26B-Uncensored(总分 0.9125,综合并列第三,但速度最快)

  4. Qwen3.6-35B-A3B-Uncensored(总分 0.9125,综合并列第三,质量高但速度最慢)

  5. Gemma-4-31B-IT-Claude-Opus(0.8750)

  6. Gemma 4 - 26B A4B x Claude Opus 4.6(0.8625)

  7. Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled(0.8000)

  8. SuperGemma4-26B-Abliterated-Multimodal(0.6125,不推荐)

6.2 场景化推荐

追求综合最强、全面无短板

推荐:Gemma-4-31B-IT-Uncensored

原因:

  • 总分 0.9750,断层第一

  • 逻辑 0.950(BBH 0.95,碾压全场)

  • 代码满分

  • 执行失败率为 0

  • 速度适中(17.64s)

追求极致速度 + 综合较强

推荐:SuperGemma4-26B-Uncensored

原因:

  • 总分并列第三(0.9125)

  • 速度极快(4.90s),是所有模型中最快的

  • 逻辑和代码都很强

更重视代码生成、数学能力与稳定性

推荐:Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2

原因:

  • GSM8K 满分(八者中唯一)

  • 代码项满分

  • 执行失败率为 0

质量优先、不在意速度

推荐:Qwen3.6-35B-A3B-Uncensored

原因:

  • 逻辑 0.875、代码 0.95,质量很高

  • 与 SuperGemma4-26B-Uncensored 同分(0.9125)

  • 但时延 100.35s,速度是所有模型中最慢的

不推荐

SuperGemma4-26B-Abliterated-Multimodal

原因:

  • HumanEval+ 执行失败率高达 90%,代码分仅 0.50

  • 总执行失败率 0.50,稳定性极差

  • 总分 0.6125,断层垫底

  • 虽然速度较快,但代码生成质量不合格,不适合任何需要代码能力的场景

7. 最终总结

本次测试显示,八个模型在"逻辑、代码、速度、稳定性"四个维度上表现差异显著。

  • Gemma-4-31B-IT-Uncensored:综合实力断层第一,逻辑碾压全场,代码满分,零失败,是当前最值得推荐的全能型首选模型。

  • Qwen3.5-27B:综合第二,代码满分、数学满分,逻辑与速度都有明显提升。

  • SuperGemma4-26B-Uncensored:综合并列第三,速度极快(4.90s),适合对交互效率要求极高的场景。

  • Qwen3.6-35B-A3B-Uncensored:综合并列第三,质量极高,但速度是所有模型中最慢的(100.35s),适合不在意速度的场景。

  • Gemma-4-31B-IT-Claude-Opus:综合第五,逻辑稳健、代码较强,但速度偏慢。

  • Gemma 4 - 26B A4B x Claude Opus 4.6:综合均衡,速度较快,适合作为通用助手。

  • Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled:代码能力强,但逻辑短板明显,更适合作为偏代码专用模型。

  • SuperGemma4-26B-Abliterated-Multimodal:代码生成存在系统性缺陷,执行失败率极高,不推荐使用

如果从实际落地角度只选一个模型,优先推荐 Gemma-4-31B-IT-Uncensored;如果极度看重速度,则 SuperGemma4-26B-Uncensored 是最佳选择。

1 个帖子 - 1 位参与者

阅读完整话题

来源: linux.do查看原文