type
status
date
slug
summary
tags
category
icon
password
AI这两年高速发展到现在,接下来的路该如何走,有很多的AI研究者正在积极的探索这个领域,其中一位就是OpenAI的姚顺雨。最近,姚顺雨发布了一篇新的博客,《AI的下半场》,深入探讨了AI的未来究竟会走向何方。
原文链接:‣
(简要总结):我们正处于人工智能的中场阶段。
几十年来,人工智能的重点一直是开发新的训练方法和模型。这一策略成效显著:从击败国际象棋和围棋世界冠军,到在SAT考试和司法考试中超过大多数人类,再到赢得国际数学奥林匹克(IMO)和国际信息学奥林匹克(IOI)金牌。历史书中的那些里程碑——如DeepBlue、AlphaGo、GPT-4,以及o系列模型——背后,是AI方法论上的根本性创新:搜索、深度强化学习(deep RL)、大规模训练(scaling)和推理(reasoning)。随着时间推移,一切都在不断变得更好。
那么,现在突然发生了什么变化?
用三个词来概括:强化学习终于奏效了(RL finally works)。更准确地说:强化学习终于具备了泛化能力。经历了多次重大弯路和一系列关键进展之后,我们终于找到了一个可行的通用方法,可以用语言与推理来解决广泛的强化学习任务。即便是一年前,如果你告诉大多数AI研究者:有一种单一方法可以同时处理软件工程、创意写作、IMO级别的数学题、键鼠操作以及长篇问答任务——他们一定会觉得你在“幻觉发作”。这些任务每一个都极为困难,许多研究者花整个博士生涯也只专注于其中一个小领域。
但它真的发生了。
那么接下来呢?从现在开始,AI的下半场将从“解决问题”转向“定义问题”。在这个新时代,“评估”将比“训练”更为重要。我们不再只是问:“我们能否训练一个模型来解决X问题?”,而是要问:“我们应该训练AI去做什么?以及我们如何衡量真正的进展?”要在这个下半场取得成功,我们必须及时调整自己的思维模式和技能组合——可能更像一位产品经理的能力模型。
上半场
想要理解AI的上半场,不妨看看在这段时间里胜出的都是什么。
你认为迄今为止最具影响力的AI论文是哪几篇?
我在斯坦福的224N课程中做过这个小测试,结果并不令人意外:Transformer、AlexNet、GPT-3 等。这些论文有什么共同点?它们都提出了某种根本性突破,用于训练出更强的模型。而且,它们之所以能成功发表,是因为在某些基准测试上展现出了显著改进。
但其实,还有一个潜在的共性:这些“赢家”无一例外都是训练方法或模型本身,而非基准或任务。即使是 arguably 最具影响力的基准数据集 ImageNet,其引用量也不到 AlexNet 的三分之一。而在其他领域,这种“方法 vs. 基准”的对比更加悬殊——比如 Transformer 的主要基准测试是 WMT’14,其工作坊报告仅有约1300次引用,而 Transformer 论文则超过了16万次引用。

这正是AI上半场的“游戏规则”:重点在于构建新的模型和方法,而评估与基准测试则是次要的(尽管在论文发表体系中仍属必需)。
为什么会这样?一个重要原因是,在AI的上半场,方法的挑战性和创新性远高于任务本身。从零开始创造一个全新的算法或模型架构——比如反向传播算法、卷积神经网络(如 AlexNet),或 GPT-3 所采用的 Transformer——都需要非凡的洞察力和工程能力。相比之下,为AI定义任务通常显得更为直接:我们只是把人类原本在做的事情(比如翻译、图像识别或国际象棋)转化为标准化的测试任务。这并不需要太多的洞见,甚至不太需要复杂的工程设计。
此外,方法往往比单个任务更具通用性和适用性,因此也更具价值。例如,Transformer 架构最终推动了计算机视觉(CV)、自然语言处理(NLP)、强化学习(RL)等多个领域的发展——远远超出了它最初验证有效性的那个数据集(WMT’14 机器翻译)。一个优秀的新方法,因其简洁且通用,往往能够在多个基准测试中“爬坡前进”(hillclimb),其影响力自然也就超越了具体的某一个任务。
这套“游戏规则”几十年来运行得非常成功,催生了无数改变世界的思想和突破,这些成果通过在各个领域不断刷新的基准测试成绩得以体现。那么,为什么这套规则会发生改变?
因为,过去这些方法和突破的积累,正在带来一种质的飞跃:我们正在接近一套“通用任务解决方案”的可行配方。
配方
那么,这个“配方”到底是什么?它的组成成分其实并不令人意外,包括:大规模语言预训练、规模化(数据和算力),以及推理与行动的能力。这些词听起来或许像是你在旧金山每天都能听到的流行术语,但为什么要称它们为“配方”?
我们可以通过强化学习(Reinforcement Learning, RL)的视角来理解它。强化学习常被视为AI的“终极目标”——毕竟在理论上,RL是被证明可以赢得游戏的最优解;而在实践中,我们也很难想象一个超级人类级别的系统(例如 AlphaGo)不是通过RL实现的。
在强化学习中,有三个关键组成部分:算法、环境、先验知识(priors)。长期以来,RL研究者主要关注的都是“算法”——比如 REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO……这些算法构成了智能体学习的智力核心——而对“环境”和“先验知识”则通常采取固定处理,或只做最简设置。例如,Sutton 和 Barto 所著的经典教材几乎全篇都在讲算法,几乎没有涉及环境建模或先验设定。

然而,在深度强化学习(deep RL)时代,人们逐渐认识到:“环境”在实际效果中极其关键——一个算法的性能往往与它所开发和测试的环境高度相关。如果你忽视环境,就有可能构建出一个只在“玩具场景”中表现出色的“最优算法”。那么,为什么我们不先弄清楚我们真正想解决的环境是什么,再去寻找最适合它的算法呢?
这正是 OpenAI 最初的计划。它开发了 Gym,一个标准的强化学习环境平台,用于各种游戏;随后是 World of Bits 和 Universe 项目,尝试将整个互联网或计算机界面转化为可交互的游戏环境。这听起来是个很不错的计划,不是吗?一旦我们把所有数字世界都转化为可操作的环境,再用聪明的强化学习算法去解决它们——我们就可以实现数字世界的通用人工智能(AGI)。
这个计划很好,但并未完全奏效。OpenAI 在这条路径上取得了巨大进展,例如用 RL 解决了 Dota 游戏、机械手控制等问题。但他们从未真正接近解决“计算机使用”或“网页导航”这类任务,更别提让一个领域的RL智能体迁移到另一个领域。总有些什么缺失了。
直到 GPT-2 或 GPT-3 出现,人们才意识到:真正缺失的部分是“先验知识(priors)”。我们需要强大的语言预训练,将通用的常识与语言知识提炼进模型中,之后才能微调出像 WebGPT 或 ChatGPT 这样的代理智能体(它们也确实改变了世界)。事实证明,在RL中最重要的部分,可能既不是RL算法,也不是环境,而是“先验”,而这些先验甚至可以通过与RL毫无关系的方式获得。
语言预训练为聊天任务创造了良好的先验,但对控制计算机或玩电子游戏则没那么有效。为什么?因为这些任务与互联网文本的分布差异更大,在这些领域上直接使用 SFT(监督微调)或 RL 往往泛化能力较差。我在2019年就注意到了这个问题——当时 GPT-2 刚发布,我尝试在其基础上做 SFT / RL,用于解决文字冒险类游戏。CALM 是世界上第一个基于预训练语言模型构建的强化学习代理。但那个代理需要数百万次 RL 步骤,才能在一个游戏中“爬坡前进”;而且它无法迁移到新游戏中。虽然这种情况在 RL 研究者眼中是正常的,但我却觉得很奇怪——人类玩新游戏时通常能做到“零样本泛化”,表现远优于机器。
就在那时,我迎来了人生中第一次“顿悟时刻”:人类能泛化,是因为我们可以选择的不仅是“去2号柜子”、“用钥匙1打开3号箱子”、“用剑击杀地牢怪物”这样的具体动作,我们还可以选择去“思考”。比如:
“这个地牢很危险,我需要武器才能与之对抗。但现在没有明显的武器,也许我得从锁着的箱子里找。3号箱子在2号柜子里,那我就先过去解锁它。”

“思考”或“推理”是一种奇特的行为——它不会直接改变外部世界,但推理的空间是开放的、组合上无限的。你可以思考一个词、一句话、一整段文字,甚至是一万个随机的英文单词,但你周围的世界并不会因此立刻发生变化。在经典的强化学习理论中,这是一笔糟糕的交易——它使决策变得几乎不可能。
想象一下:你面前有两个盒子,其中一个有100万美元,另一个是空的。你做出一个选择,期望收益是50万美元。现在,如果我往里面加无限多个空盒子,你的期望收益就变成了接近零。
但如果我们把“推理”加入到任何RL环境的行动空间中,我们就可以借助语言预训练带来的“先验知识”来进行泛化,并且可以根据不同决策的复杂性,在测试时灵活使用计算资源。这是一件非常神奇的事情。说实话,我现在可能也没办法完全讲清楚其中的奥妙——也许我需要再专门写一篇博文来解释这一点。
你可以阅读 ReAct 这篇论文,它讲述了将“推理”引入智能体行动空间的最初故事;也可以看看我当时写的那篇文章,记录了我对这个转变的感受。目前,我的直觉解释是:
“即使你加入了无数个空盒子,但你一生中在各种游戏中已经见过这些盒子。你选择这些盒子的过程,其实是在为你在任何一个特定游戏中更好地找到那个有钱的盒子做准备。”
我的抽象解释是:
语言通过推理在智能体中实现了泛化。
一旦我们拥有了正确的RL先验(语言预训练),以及合适的RL环境(把语言推理视为行动),你会发现——RL算法反而成了最不重要的那部分。于是我们看到了 o-series、R1、deep research、会用电脑的智能体,等等令人惊艳的成果陆续诞生。这真是个讽刺的转折!
多年来,RL研究者最关注的始终是算法,几乎没人关注“先验知识”——所有强化学习实验基本上都是从零开始。但我们花了几十年绕弯路,才终于意识到,也许我们一开始就该完全颠倒优先级排序。
就像 Steve Jobs 说的那样:
你无法在当下就把点连成线,只有回头看时,你才会明白一切如何串联起来。
下半场
这个“配方”正在彻底改变这场游戏的规则。回顾AI上半场的玩法:
- 我们开发新的训练方法或模型,让它们不断在各种基准测试上“爬坡”提升。
- 然后我们创造更难的基准测试,继续这个循环。
而如今,这场游戏正在逐步被打破,原因在于:
- 这套“配方”已经将“基准测试爬坡”变成了标准化、产业化流程,不再需要太多新的创意。因为该配方具备强大的扩展性和泛化能力——你也许能为一个特定任务开发出一个新方法,提高5%的表现,但下一代 o-series 模型没针对这个任务都能直接提升30%。
- 即使我们设计了更难的基准测试,这些任务也会很快(而且越来越快)被这套配方攻克。
我的同事 Jason Wei 做了一个非常漂亮的图表,清晰可视化了这个趋势:

那么,在 AI 的下半场,我们还能玩些什么?
如果新的算法方法不再重要,而更难的基准测试也会很快被解出来,那我们该做什么?
我认为,我们应该从根本上重新思考“评估”这件事。这不仅仅意味着要设计更新、更难的基准测试,而是要彻底质疑现有的评估机制,创造出全新的评估方式——只有这样,我们才有可能被迫走出已有配方的“舒适区”,去发明真正全新的方法。
这并不容易,因为人类有惯性思维:我们很少去质疑那些“基本设定”——你会理所当然地接受它们,认为那就是规则,而忘记它们其实只是人为设定,而非自然规律。
为了说明“惯性”的存在,假设你曾在2021年提出一个基于人类考试的评估方法,这是当时非常大胆的创新。但三年后,它已经饱和了。你会怎么做?很可能你会尝试设计一个更难的考试。又比如你解决了一些基础的编程任务,那下一步呢?你大概率会去寻找更难的编程题目,直到达到 IOI 金牌的水平。
这种“惯性”是自然存在的,但问题也随之而来。
AI 已经在国际象棋和围棋中击败世界冠军,在 SAT 和司法考试中超过了大多数人类,并达到了 IOI 和 IMO 的金牌水平。但这个世界并没有发生太大变化,至少从经济或GDP的角度来看,是这样。
我称之为:“效用问题(utility problem)”,并认为它是当前 AI 领域最重要的问题。
也许我们很快就能解决这个“效用问题”,也许不会。但无论如何,问题的根源可能出奇地简单:
我们设计的评估体系,与现实世界中的任务场景,在很多最基本的维度上都不一样。
举两个例子:
- 在评估中,智能体通常会接收一个任务输入,完全自主地执行任务,然后得到一个回报(reward)。但在现实生活中,智能体往往必须在任务过程中持续与人互动。比如你不会一次性给客服发一段超长的消息,然后等十分钟就指望对方回你一份完美的解决方案。
- 如果我们开始质疑这种评估设定,就能催生出一些全新的基准测试,比如:
- Chatbot Arena:引入真实人类参与对话
- tau-bench:使用用户模拟系统,实现人机互动环节的自动评估

评估“理应”是独立同分布(i.i.d.)的。假设你有一个包含500个任务的测试集,那么你会对每个任务独立评估,然后对所有任务的指标取平均,得到一个总体性能评分。但现实中,任务是按顺序完成的,而不是并行进行的。
例如,一个 Google 的软件工程师(SWE)会在不断熟悉 google3 代码库的过程中,越来越擅长解决相关问题;而一个 SWE 智能体却要解决同一个代码库中的很多问题,却无法获得这种“熟悉感”或累积性的认知优势。
我们显然需要“长期记忆(long-term memory)”方法(事实上现在已有一些),但学术界既没有合适的基准来验证这种需求的合理性,也缺乏质疑 i.i.d. 假设的勇气——而这个假设却长期以来是机器学习研究的基础。
这些假设“一直以来”都是如此,在 AI 的上半场,这种假设下开发出的评估方式是合理的。因为当智能水平还较低时,只要能提升智能,通常就能带来更大的效用。
但现在,这套通用配方(recipe)在这些假设条件下已经几乎是“保底可行”的。
所以,在AI 的下半场,新的玩法是:
我们开发面向真实世界效用的新型评估机制或任务。
我们使用这套配方来解决这些任务,或基于配方进行新的增强。重复这个循环。
这场游戏之所以难,是因为它充满了不确定性和陌生感。但这也正是它的魅力所在。
AI 的上半场,玩家在解电子游戏和考试题;
AI 的下半场,玩家将通过将“智能”产品化,创造出数十亿甚至数万亿美元的公司.
AI 的上半场充斥着各种增量式的方法与模型,而到了下半场,这一切将受到筛选。因为只要是在原有假设之下,你的“增量优化”很容易就被下一代 o-series 模型完全碾压。
只有当你打破原有的假设,为智能体设计出全新的任务空间与评估维度,才能真正推动具有变革性的研究(game-changing research)。
欢迎来到 AI 的下半场!
致谢
本文基于我在 Stanford 224N 和哥伦比亚大学的演讲内容整理而成。草稿由我使用 OpenAI 的 deep research 系统读取幻灯片后生成。
写于 2025年4月10日