C
ChaoBro

开源权重模型霸占 Pareto 前沿:13 席中 9 席被中国开源军团拿下

开源权重模型霸占 Pareto 前沿:13 席中 9 席被中国开源军团拿下

开源不再只是"便宜"——它开始赢

长期以来,"开源模型"的标签总是和"性价比""平替"绑定在一起。但在 2026 年 5 月的第一周,这个叙事正在被彻底颠覆。

Artificial Analysis 最新发布的数据显示:在 Intelligence vs. Price 的 Pareto 前沿上,13 个席位中有 9 个被开源权重模型占据。更值得注意的是,这个 Pareto 前沿不是由某一家公司主导的——而是由中国开源军团集体包揽。

当前 Pareto 前沿全景

模型 机构 Intelligence Index 类型 GDPval-AA
GPT-5.5 OpenAI 60 闭源 -
Gemini / Claude Google/Anthropic 57 闭源 -
Kimi K2.6 Moonshot 54 开源权重 1484
MiMo V2.5 Pro 小米 54 开源权重 1578
DeepSeek V4 Pro DeepSeek 52 开源权重 1554
GLM-5.1 智谱 ~50 开源权重 1535
MiniMax M2.7 MiniMax ~49 开源权重 1514

关键观察

  • Kimi K2.6 和 MiMo V2.5 Pro 并列 54 分,是开源权重的天花板
  • 两者在 GDPval-AA(真实 Agent 工作负载)上的分数甚至超过部分闭源模型
  • DeepSeek V4 Pro 以 52 分紧随其后,且 API 价格仅为 GPT-5.5 的零头

一周内的爆炸性跃升

这条推文总结了过去一周的格局变化:

Open Weights Capabilities have Exploded in the Last Week!

Kimi K2.6 & MiMo V2.5 Pro: 54(1T MoE, up to 1M ctx) DeepSeek V4 Pro: 52(1.6T/49B) GPT-5.5: 60 Gemini/Claude: 57

也就是说,在短短一周内,三款中国开源模型同时冲进了 Intelligence Index 的前 10——这在一年前是不可想象的。

这意味着什么

1. 开源权重已经跨过"够用"的临界点

当开源模型在 Intelligence Index 上达到闭源模型的 90% 以上(54 vs 60),而价格仅为后者的 1/10 甚至更低时,"闭源溢价"正在变得难以辩护。

2. 中国模型形成了开源矩阵

不是单点突破,而是矩阵式包围:

维度 领先者 优势
综合智能 Kimi K2.6 / MiMo V2.5 Pro 并列 #54
Agent 能力 MiMo V2.5 Pro GDPval-AA 1578
上下文长度 DeepSeek V4 Pro 1M+ context
编码能力 GLM-5.1 SWE-Bench 94-95% Opus 水平
价格 DeepSeek V4 Pro API 七五折中

3. 闭源模型的护城河在哪里?

当开源模型在智能水平上逼近闭源模型时,闭源厂商的差异化必须转移到其他维度:

  • 安全与合规:企业级 SLA、数据隐私
  • 生态系统:工具链集成(Claude Code、GPT Engineer 等)
  • 多模态:原生视觉/音频理解(MiMo V2.5 Pro 已具备)

行动建议

对于正在做模型选型的技术决策者:

  • 如果预算敏感:DeepSeek V4 Pro(七五折中至 5 月 31 日)是当前最具性价比的选择
  • 如果需要 Agent 能力:MiMo V2.5 Pro 在 GDPval-AA 上领先,MIT 许可证可自由商用
  • 如果需要长上下文:Kimi K2.6 和 MiMo V2.5 Pro 都支持 up to 1M context
  • 如果追求最新能力:闭源模型(GPT-5.5、Claude 5)仍有 5-6 分的 Intelligence 优势

开源权重模型不再是"将就"——在 Pareto 前沿上,它们正在成为"首选"。