Coding Agent 跨过"可用临界点"：从玩具到生产力的分水岭

一个时间点的回溯

2025 年 11 月，一个名叫 Pete 的开发者在 GitHub 上提交了一个名为 "Warelay" 的项目。第一行代码是一纸 MIT License。他当时大概没想到，这个项目会在接下来的三个月里经历 Warelay → CLAWDIS → CLAWDBOT → Clawdbot → Moltbot → OpenClaw 的六次改名，最终成为一个被全球数十万人使用的 AI 个人助手。

更重要的是，这个项目的绝大部分代码是由 AI 编程 Agent 写出来的。

Simon Willison 在 PyCon US 2026 的五分钟闪电演讲里，用一张时间线把这个故事串了起来。但真正值得关注的不是 OpenClaw 本身，而是它背后那个更大趋势：Coding Agent 在 2025 年 11 月跨过了一个临界点。

"偶尔能用"到"日常可用"

2025 年大部分时间里，OpenAI 和 Anthropic 都在偷偷做同一件事：Reinforcement Learning from Verifiable Rewards（RLVR）。

这套训练方法的核心逻辑很直接——与其靠人类标注员给模型输出打分，不如让代码能不能跑、测试能不能过来说话。代码是客观的：它要么编译通过，要么报错；要么测试全绿，要么红一片。这种可验证的奖励信号比人类主观评价精确得多。

到了 11 月，RLVR 的积累开始爆发。搭配 Codex 和 Claude Code 这两个 Agent 框架，Coding Agent 的质量出现了质的跃迁：

之前：能写个脚本、补全函数，但复杂任务频频翻车，需要你花大量时间修它的"蠢错误"
之后：可以作为一个 daily driver 使用，能完成真实的工程任务而不需要你频繁介入

这个分水岭不是某个单一模型发布带来的，而是训练方法 + Agent 框架 + 模型能力三者协同进化的结果。

为什么是 11 月？

回头看，11 月之所以成为转折点，有几个因素叠加：

RLVR 的规模效应开始显现：经过大半年积累，可验证奖励的训练数据达到了某个临界规模
Agent 框架成熟：Codex 和 Claude Code 都迭代到了能稳定管理多步骤编程任务的版本
上下文窗口和工具调用的优化：Agent 能同时处理更大的代码库、调用更多的外部工具

这三条线在 11 月交汇，形成了一个正反馈循环：更好的 Agent 框架产生更多高质量的编程数据，这些数据反过来训练出更强的模型，更强的模型又让 Agent 框架表现更好。

对普通开发者的意义

这不是一个只有 AI 从业者需要关注的学术趋势。它直接改变了开发者的日常：

新人上手成本降低：不用从零学起，Agent 可以帮你搭建项目骨架、解释代码逻辑
复杂任务分解：以前需要自己拆解的重构任务，现在可以让 Agent 先出方案，你审核后再执行
代码审查辅助：Agent 可以自动检查常见错误模式、安全漏洞、性能瓶颈

但也要清醒——Agent 不会取代你，但会用 Agent 的人会取代不会用的。这个临界点的真正含义是：AI 编程能力已经从"有趣的花招"变成了"必备的基础设施"。

接下来的六个月

Simon Willison 在他的演讲里展示了一张有趣的图：2025 年 11 月到 2026 年初，"最强模型"的宝座在 Anthropic、OpenAI、Google 之间易手了五次。Sonnet 4.5 → GPT-5.1 → Gemini 3 → GPT-5.1 Codex Max → Opus 4.5。

这种竞争节奏不会停下来。但更重要的是，竞争的焦点正在从"谁的模型更强"转向"谁的 Agent 框架更好用"。模型差距在缩小，但 Agent 体验的差距在拉开。

下一个临界点可能是：Agent 不再需要你告诉它做什么，而是能主动发现代码库里的改进空间，自己提出 PR。那一天，也许不会太远了。

一个时间点的回溯

"偶尔能用"到"日常可用"

为什么是 11 月？

对普通开发者的意义

接下来的六个月

Related

Anomaly AI：表格撑爆以后，AI 数据分析该长成什么样

Google 的 A2A Codelab 给了一个现实提醒：多 Agent 不是多写几个 bot

A2UI + MCP Apps：Agent UI 的下一步，不该全靠 iframe 硬塞