type
status
date
slug
summary
tags
category
icon
password
AI的下一个阶段又该往哪个方向发展呢?大卫·西尔弗(David Silver)与图灵奖得主、强化学习之父理查德·萨顿(Richard Sutton),共同撰写了一篇最新论文《欢迎来到经验时代(Welcome to the Era of Experience)》,也许会像《苦涩的教训(The Bitter Lesson)》一样,为我们指明未来的发展方向。西尔弗和萨顿在论文中指出,人类数据正在见顶,经验才是下一个超级数据源,真正能够推动AI跃升的数据,必须是可以随着模型变强而自动增长的,而唯一的办法只有经验本身。
AI的下一个阶段又该往哪个方向发展呢?大卫·西尔弗(David Silver)与图灵奖得主、强化学习之父理查德·萨顿(Richard Sutton),共同撰写了一篇最新论文《欢迎来到经验时代(Welcome to the Era of Experience)》,也许会像《苦涩的教训(The Bitter Lesson)》一样,为我们指明未来的发展方向。西尔弗和萨顿在论文中指出,人类数据正在见顶,经验才是下一个超级数据源,真正能够推动AI跃升的数据,必须是可以随着模型变强而自动增长的,而唯一的办法只有经验本身。

从模仿人类到自我进化:AI 进入“经验时代”
我们习惯于认为,人工智能的进步来自“大量数据”的馈赠。无论是 GPT 这样的语言模型,还是图像识别、语音助手、聊天机器人,它们的强大几乎都源于“人类数据”的堆叠。但 David Silver 和 Richard Sutton 在其最新的论文《The Era of Experience》中提出一个颠覆性观点:
“模仿人类”不足以打造真正的超级智能,AI 的下一个飞跃,将来自于“经验”——通过与环境的持续互动学习成长。”
这篇文章预言,我们正在迈入一个新的 AI 时代:经验时代(The Era of Experience)。
三个时代的演进:一图看懂 AI 学习的变迁

时代 | 特征 | 代表技术 |
模拟时代
2014–2019 | 在封闭系统中自我博弈、通过强化学习掌握任务 | AlphaGo、
AlphaZero |
人类数据时代
2019–2023 | 基于海量人类数据模仿学习 | GPT-3、
ChatGPT |
经验时代
2024–未来 | AI 主动与世界交互,自主生成经验并持续学习 | AlphaProof、
Claude 3.5 Computer Use |
在过去,强化学习在棋类游戏和模拟环境中取得巨大成功;随后,大语言模型通过模仿人类数据横空出世。但现在,AI 的瓶颈已逐渐显现:
- 人类数据趋于饱和
- 模仿无法创新
- 经验才是通向未知的钥匙
经验时代的核心特征
- 流动的经验(Streams of Experience):AI 不再是短时对话或任务执行者,而是一个拥有“时间感”的存在,可在长期中不断调整策略和行为。
- 扎根真实世界(Actions and Observations):AI 将通过 API、传感器、用户界面等,主动探索与环境互动,不再是被动输入输出。
- 真实奖励信号(Grounded Rewards):AI 不再依赖人类评分,而是从环境变化中获取“结果导向”的反馈。例如,通过用户健康指标或实验结果来评估学习效果。
- 类人推理方式的超越(Planning and Reasoning):AI 将建立自己的“世界模型”,从行动中推理未来,逐步构建出可能超越人类的非语言逻辑体系。
案例解析
案例1:AlphaProof(DeepMind)
AlphaProof 是第一个在国际数学奥林匹克题目上获得奖牌水平的 AI 系统。它的训练过程突破传统监督学习的限制:
- 初始只使用十万条人类生成的数学证明;
- 随后通过强化学习生成一亿条自我演化的推理链;
- 最终在未见过的高难度题目上展现出超越人类策略。
启示:AI 的创新不再依赖人类经验,而是来自与系统的长期博弈与推理。
案例2:Claude 3.5 Computer Use / GPT with Tool Use
在最新一代 AI 工具中,模型不再只停留在文本问答,而是像用户一样使用电脑:
- 打开网页、编辑文件、运行代码;
- 获取操作反馈,并据此优化后续行为。
启示:AI 正在学习如何“用世界来学习世界”,行动即经验,经验即知识。
从“经验时代”看人类学习的未来
这场范式转移不只是 AI 的革命,也为人类学习、教育和成长方式提供了镜鉴:
模仿学习 | 经验学习 |
学会答题 | 学会提问 |
知识灌输 | 自我建模 |
静态评价 | 环境反馈 |
短期记忆 | 长期成长 |
1. 靠“喂数据”不是终点,人类也需要走出“信息摄取型学习”
在 AI 的“人类数据时代”,智能系统主要通过模仿已有数据(如人类文本)来学习。这类学习方式对应到人类教育,就是我们长期熟悉的“输入-反馈”模式:大量阅读、背诵、应试训练。反思:我们是不是也长期困在“看别人怎么做 → 照着做”的学习圈里?新的 AI 学习范式则强调:从做中学,从错中学,从长期交互中习得策略。对人类来说,这提醒我们:
- 知识的意义在于应用与反馈,而不仅是记忆。
- 只有主动与环境交互,才能形成真正属于自己的能力。
2. 从“碎片学习”到“连续学习”:打造人的“经验流”
传统教育强调的是“课时”、“学期”、“单元”——知识被分割为离散的点。而 AI 的“经验时代”强调的是连续的经验流(streams of experience),即:信息在时间中积累、记忆在反馈中沉淀、目标在长期中调整。对应人类学习,该理念呼唤一个新的目标:让人的成长具有时间一致性与目标延续性。
这意味着:
- 学习不应是断裂的“任务”,而是贯穿一生的“生活流”。
- 教育者应关注:如何帮助学习者积累“长期反馈回路”?
例如:
- 学习一门语言,不仅是为了考试,而是通过多年的使用、反馈和沉淀,形成真正的语言习惯。
- 学习健康知识,不是背公式,而是持续观察身体状态与生活选择之间的因果关系。
3. 学习目标不该仅仅来自老师,而应来自“环境中的真实反馈”
文章指出,AI 奖励机制正在从“人类评分”转向“真实世界的反馈信号”(如健康指标、考试结果、实验数据)。对人类学习的启发是:学习成果不应只是“考了几分”,而是“是否真的带来了生活或认知的改变”。教育的方向,应转向:
- 学习的价值来自真实世界的回响:是否让自己变得更健康、更有效、更有创造力?
- 个人反馈系统的建设:学会感知环境、构建“学习雷达”,不断微调学习路径。
4. AI 推理方式正在超越“人类逻辑”——我们是否也应超越“标准答案思维”?
AI 不再只是模仿人类的链式思维(Chain-of-Thought),而是逐渐发展出非人类语言的推理方式,如符号系统、世界模型、反事实模拟等。对人类来说:
- 教育不能只训练标准解法,而要鼓励多样思维和自我建模。
- 人类也需要发展自己的“世界模型”:从结果反推因果,从局部预测整体,从失败中重构理解。
例如:
- 学会解决问题,而不是只答题。
- 学会提出问题,而不仅仅是回答问题。
5. 人机共进下的新范式:人类需要“具身化的学习 + 智能体辅助”
AI 时代不是要替代人类,而是提示我们:人类的学习可以更加具身化(embodied)、个性化(personalized)、反馈驱动(feedback-driven)。未来学习的新范式可能是:人类借助智能体形成一个“共学系统”,持续感知、记录、反思和调整。例如:
- 一个学生通过 AI 助理持续追踪语言学习的错误模式与进步趋势;
- 一个设计师通过智能体模拟用户体验,迭代设计思路;
- 一个健康管理者通过数据反馈与智能教练协同调节生活方式。
《The Era of Experience》不仅为 AI 指明了方向,也为人类教育提供了革命性的思路:
- 从短期记忆 → 终身反馈流
- 从模仿答案 → 构建理解模型
- 从考试分数 → 环境反馈
- 从孤立学习 → 人机共进
真正有效的学习,是在环境中试错,是在时间中演化,是在真实中成长。
总 结
在过去,大语言模型(LLMs)像是在图书馆中苦读万卷,模仿人类思维;而未来的AI,将像探险家一样走进现实世界,通过行动和反馈持续进化。这意味着:AI 将不再只是“聪明的工具”,而是一个能自我进步、自我纠偏、甚至自主思考的智能体。当然,这也带来新的挑战:如何确保AI行为不脱离人类价值轨道?当AI拥有长期目标,它会不会违背短期人类需求?我们是否准备好了,迎接这种“自我觉醒式”AI?