C
ChaoBro

Coding Agent 跨过"可用临界点":从玩具到生产力的分水岭

一个时间点的回溯

2025 年 11 月,一个名叫 Pete 的开发者在 GitHub 上提交了一个名为 "Warelay" 的项目。第一行代码是一纸 MIT License。他当时大概没想到,这个项目会在接下来的三个月里经历 Warelay → CLAWDIS → CLAWDBOT → Clawdbot → Moltbot → OpenClaw 的六次改名,最终成为一个被全球数十万人使用的 AI 个人助手。

更重要的是,这个项目的绝大部分代码是由 AI 编程 Agent 写出来的。

Simon Willison 在 PyCon US 2026 的五分钟闪电演讲里,用一张时间线把这个故事串了起来。但真正值得关注的不是 OpenClaw 本身,而是它背后那个更大趋势:Coding Agent 在 2025 年 11 月跨过了一个临界点。

"偶尔能用"到"日常可用"

2025 年大部分时间里,OpenAI 和 Anthropic 都在偷偷做同一件事:Reinforcement Learning from Verifiable Rewards(RLVR)

这套训练方法的核心逻辑很直接——与其靠人类标注员给模型输出打分,不如让代码能不能跑、测试能不能过来说话。代码是客观的:它要么编译通过,要么报错;要么测试全绿,要么红一片。这种可验证的奖励信号比人类主观评价精确得多。

到了 11 月,RLVR 的积累开始爆发。搭配 Codex 和 Claude Code 这两个 Agent 框架,Coding Agent 的质量出现了质的跃迁:

  • 之前:能写个脚本、补全函数,但复杂任务频频翻车,需要你花大量时间修它的"蠢错误"
  • 之后:可以作为一个 daily driver 使用,能完成真实的工程任务而不需要你频繁介入

这个分水岭不是某个单一模型发布带来的,而是训练方法 + Agent 框架 + 模型能力三者协同进化的结果。

为什么是 11 月?

回头看,11 月之所以成为转折点,有几个因素叠加:

  1. RLVR 的规模效应开始显现:经过大半年积累,可验证奖励的训练数据达到了某个临界规模
  2. Agent 框架成熟:Codex 和 Claude Code 都迭代到了能稳定管理多步骤编程任务的版本
  3. 上下文窗口和工具调用的优化:Agent 能同时处理更大的代码库、调用更多的外部工具

这三条线在 11 月交汇,形成了一个正反馈循环:更好的 Agent 框架产生更多高质量的编程数据,这些数据反过来训练出更强的模型,更强的模型又让 Agent 框架表现更好。

对普通开发者的意义

这不是一个只有 AI 从业者需要关注的学术趋势。它直接改变了开发者的日常:

  • 新人上手成本降低:不用从零学起,Agent 可以帮你搭建项目骨架、解释代码逻辑
  • 复杂任务分解:以前需要自己拆解的重构任务,现在可以让 Agent 先出方案,你审核后再执行
  • 代码审查辅助:Agent 可以自动检查常见错误模式、安全漏洞、性能瓶颈

但也要清醒——Agent 不会取代你,但会用 Agent 的人会取代不会用的。这个临界点的真正含义是:AI 编程能力已经从"有趣的花招"变成了"必备的基础设施"。

接下来的六个月

Simon Willison 在他的演讲里展示了一张有趣的图:2025 年 11 月到 2026 年初,"最强模型"的宝座在 Anthropic、OpenAI、Google 之间易手了五次。Sonnet 4.5 → GPT-5.1 → Gemini 3 → GPT-5.1 Codex Max → Opus 4.5。

这种竞争节奏不会停下来。但更重要的是,竞争的焦点正在从"谁的模型更强"转向"谁的 Agent 框架更好用"。模型差距在缩小,但 Agent 体验的差距在拉开。

下一个临界点可能是:Agent 不再需要你告诉它做什么,而是能主动发现代码库里的改进空间,自己提出 PR。那一天,也许不会太远了。