设备: HA76A0CD6F4010 | 样本数: 48 | 3模型对比 | 测试时间: 2026-04-19T08:34 | 服务器: RTX 5090 32GB
| 模型 | 成功/总数 | 总耗时 | Tok/s ↑ | 质量分 ↑ | JSON OK ↑ | 建议数 | 丰富度 | 响应长度 |
|---|---|---|---|---|---|---|---|---|
| [A] 3.5-APEX Qwen3.5-35B-A3B-APEX-I-Quality.gguf |
48/48 | 239.71s | 157.0 | 4.6/10 | 85% | 1.6 | 10.0 | 1975 |
| [B] 3.5-Opus4.6 Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled.Q4_K_M.gguf |
48/48 | 176.27s | 163.1 | 4.6/10 | 90% | 1.5 | 10.3 | 1466 |
| [C] 3.6-APEX Qwen3.6-35B-A3B-APEX-I-Quality.gguf |
48/48 | 121.81s | 159.1 | 7.1/10 | 100% | 1.8 | 10.5 | 920 |
| 业务维度 | [A] 3.5-APEX | [B] 3.5-Opus4.6 | [C] 3.6-APEX | 说明 |
|---|---|---|---|---|
| 综合业务评分 ↑ | 7.54/10 | 7.98/10 | 8.6/10 | JSON+行动+参与者+话题+风险加权 |
| 行动建议具体性 ↑ | 100% | 100% | 96% | 有优先级且描述>10字的比例 |
| 参与者识别完整度 ↑ | 20% | 43% | 50% | 名称+角色均有效的比例 |
| 话题深度 ↑ | 60% | 60% | 89% | 包含≥2个要点的话题比例 |
| 风险识别数/样本 ↑ | 1.9 | 1.9 | 2.0 | 平均每条录音识别的风险点数 |
| 响应长度 (chars) | 1975 | 1466 | 920 | 输出越精炼越好(参考) |
Generated by model_ab_test.py | RTX 5090 32GB | 2026-04-19T08:34