C
ChaoBro

Cursor Agent Harness 方法论:不换模型只换架构,Terminal-Bench 从 52.8% 飙升至 66.5%

Cursor Agent Harness 方法论:不换模型只换架构,Terminal-Bench 从 52.8% 飙升至 66.5%

结论先行

Cursor 团队做了一个看似简单却意味深长的实验:

同一个模型(GPT-5.2-Codex),只改 Agent Harness,Terminal-Bench 2.0 得分从 52.8% → 66.5%,排名从 Top 30 外 → Top 5。

这验证了一个关键判断:在 Agent 场景中,架构(Harness)的重要性不亚于模型本身。

公式:Agent = Model + Harness

这是 Cursor 团队提出的核心公式:

  • Model:语言模型,提供理解和生成能力
  • Harness:代理框架层,负责任务拆解、工具编排、上下文管理、错误恢复

模型是必要的,但不是充分的。Harness 才是将语言模型转化为有用 Agent 的关键。

Harness 优化的四个核心维度

1. 上下文管理策略

策略 优化前 优化后
上下文窗口利用 线性填充,经常溢出 分层管理,关键信息优先
历史信息保留 保留所有对话记录 智能压缩,保留决策节点
文件上下文 全文件加载 按需加载 + 摘要缓存

2. 任务拆解与规划

  • 优化前:直接让模型执行复杂任务,失败率高
  • 优化后:先让模型制定执行计划 → 分步骤执行 → 每步验证 → 失败自动回退重试

3. 工具编排

  • 串行 vs 并行:识别可并行执行的步骤,缩短总执行时间
  • 工具选择:动态选择最合适的工具,而非固定工具链
  • 结果验证:每个工具调用后验证输出质量,不合格则调整参数重试

4. 错误恢复机制

  • 优化前:遇到错误即停止
  • 优化后:分级错误处理 → 自动诊断 → 尝试修复 → 超过重试阈值后向用户报告

为什么这件事重要

对行业的影响

当前 AI 社区的注意力过度集中在模型能力上,而忽视了Harness 层的优化空间。Cursor 的实验证明:

  1. Harness 优化可以释放 10-15% 的额外性能(52.8% → 66.5%)
  2. 成本远低于模型升级:不需要更贵的 API 调用
  3. 可迁移性:Harness 优化策略可以应用于不同模型

对开发者的启示

  • 不要只盯着模型切换:在抱怨模型不够好之前,先检查你的 Agent Harness 是否优化到位
  • Harness 是可积累的竞争优势:模型会快速迭代,但好的 Harness 设计可以长期受益
  • 开源 Harness 项目值得关注:如 OpenClaw、Hermes 等框架的架构设计理念

行动建议

场景 建议
已有 Agent 应用 审查 Harness 层的上下文管理、错误恢复、工具编排逻辑
新建 Agent 项目 优先设计 Harness 架构,再选择模型
成本敏感场景 Harness 优化比升级到更贵模型的 ROI 更高
模型已是最优 Harness 是唯一可优化的方向

总结

"模型是引擎,Harness 是变速箱。"好的引擎配差的变速箱,跑不出好性能。Cursor 的实验用数据证明了这个类比——在 Agent 竞赛中,架构优化的重要性正在被严重低估