AI新范式:从模仿人类到自我进化,欢迎来到“经验时代”
2025-4-21
| 2025-4-21
字数 2721阅读时长 7 分钟
type
status
date
slug
summary
tags
category
icon
password
😀
AI的下一个阶段又该往哪个方向发展呢?大卫·西尔弗(David Silver)与图灵奖得主、强化学习之父理查德·萨顿(Richard Sutton),共同撰写了一篇最新论文《欢迎来到经验时代(Welcome to the Era of Experience)》,也许会像《苦涩的教训(The Bitter Lesson)》一样,为我们指明未来的发展方向。西尔弗和萨顿在论文中指出,人类数据正在见顶,经验才是下一个超级数据源,真正能够推动AI跃升的数据,必须是可以随着模型变强而自动增长的,而唯一的办法只有经验本身。
 
 
AI的下一个阶段又该往哪个方向发展呢?大卫·西尔弗(David Silver)与图灵奖得主、强化学习之父理查德·萨顿(Richard Sutton),共同撰写了一篇最新论文《欢迎来到经验时代(Welcome to the Era of Experience)》,也许会像《苦涩的教训(The Bitter Lesson)》一样,为我们指明未来的发展方向。西尔弗和萨顿在论文中指出,人类数据正在见顶,经验才是下一个超级数据源,真正能够推动AI跃升的数据,必须是可以随着模型变强而自动增长的,而唯一的办法只有经验本身。
 
notion image

从模仿人类到自我进化:AI 进入“经验时代”

 
我们习惯于认为,人工智能的进步来自“大量数据”的馈赠。无论是 GPT 这样的语言模型,还是图像识别、语音助手、聊天机器人,它们的强大几乎都源于“人类数据”的堆叠。但 David Silver 和 Richard Sutton 在其最新的论文《The Era of Experience》中提出一个颠覆性观点:
 
“模仿人类”不足以打造真正的超级智能,AI 的下一个飞跃,将来自于“经验”——通过与环境的持续互动学习成长。”
 
这篇文章预言,我们正在迈入一个新的 AI 时代:经验时代(The Era of Experience)。
 

三个时代的演进:一图看懂 AI 学习的变迁

AI 学习范式分为三个阶段
AI 学习范式分为三个阶段
 
时代
特征
代表技术
模拟时代 2014–2019
在封闭系统中自我博弈、通过强化学习掌握任务
AlphaGo、 AlphaZero
人类数据时代 2019–2023
基于海量人类数据模仿学习
GPT-3、 ChatGPT
经验时代 2024–未来
AI 主动与世界交互,自主生成经验并持续学习
AlphaProof、 Claude 3.5 Computer Use
 
在过去,强化学习在棋类游戏和模拟环境中取得巨大成功;随后,大语言模型通过模仿人类数据横空出世。但现在,AI 的瓶颈已逐渐显现:
  • 人类数据趋于饱和
  • 模仿无法创新
  • 经验才是通向未知的钥匙
 

经验时代的核心特征

  1. 流动的经验(Streams of Experience):AI 不再是短时对话或任务执行者,而是一个拥有“时间感”的存在,可在长期中不断调整策略和行为。
  1. 扎根真实世界(Actions and Observations):AI 将通过 API、传感器、用户界面等,主动探索与环境互动,不再是被动输入输出。
  1. 真实奖励信号(Grounded Rewards):AI 不再依赖人类评分,而是从环境变化中获取“结果导向”的反馈。例如,通过用户健康指标或实验结果来评估学习效果。
  1. 类人推理方式的超越(Planning and Reasoning):AI 将建立自己的“世界模型”,从行动中推理未来,逐步构建出可能超越人类的非语言逻辑体系。
 

案例解析

 

案例1:AlphaProof(DeepMind)

AlphaProof 是第一个在国际数学奥林匹克题目上获得奖牌水平的 AI 系统。它的训练过程突破传统监督学习的限制:
  • 初始只使用十万条人类生成的数学证明;
  • 随后通过强化学习生成一亿条自我演化的推理链;
  • 最终在未见过的高难度题目上展现出超越人类策略。
启示:AI 的创新不再依赖人类经验,而是来自与系统的长期博弈与推理。

案例2:Claude 3.5 Computer Use / GPT with Tool Use

在最新一代 AI 工具中,模型不再只停留在文本问答,而是像用户一样使用电脑:
  • 打开网页、编辑文件、运行代码;
  • 获取操作反馈,并据此优化后续行为。
启示:AI 正在学习如何“用世界来学习世界”,行动即经验,经验即知识。
 

从“经验时代”看人类学习的未来

 
这场范式转移不只是 AI 的革命,也为人类学习、教育和成长方式提供了镜鉴:
模仿学习
经验学习
学会答题
学会提问
知识灌输
自我建模
静态评价
环境反馈
短期记忆
长期成长

1. 靠“喂数据”不是终点,人类也需要走出“信息摄取型学习”

在 AI 的“人类数据时代”,智能系统主要通过模仿已有数据(如人类文本)来学习。这类学习方式对应到人类教育,就是我们长期熟悉的“输入-反馈”模式:大量阅读、背诵、应试训练。反思:我们是不是也长期困在“看别人怎么做 → 照着做”的学习圈里?新的 AI 学习范式则强调:从做中学,从错中学,从长期交互中习得策略。对人类来说,这提醒我们:
  • 知识的意义在于应用与反馈,而不仅是记忆。
  • 只有主动与环境交互,才能形成真正属于自己的能力。
 

2. 从“碎片学习”到“连续学习”:打造人的“经验流”

传统教育强调的是“课时”、“学期”、“单元”——知识被分割为离散的点。而 AI 的“经验时代”强调的是连续的经验流(streams of experience),即:信息在时间中积累、记忆在反馈中沉淀、目标在长期中调整。对应人类学习,该理念呼唤一个新的目标:让人的成长具有时间一致性与目标延续性。 这意味着:
  • 学习不应是断裂的“任务”,而是贯穿一生的“生活流”。
  • 教育者应关注:如何帮助学习者积累“长期反馈回路”?
例如:
  • 学习一门语言,不仅是为了考试,而是通过多年的使用、反馈和沉淀,形成真正的语言习惯。
  • 学习健康知识,不是背公式,而是持续观察身体状态与生活选择之间的因果关系。
 

3. 学习目标不该仅仅来自老师,而应来自“环境中的真实反馈”

文章指出,AI 奖励机制正在从“人类评分”转向“真实世界的反馈信号”(如健康指标、考试结果、实验数据)。对人类学习的启发是:学习成果不应只是“考了几分”,而是“是否真的带来了生活或认知的改变”。教育的方向,应转向:
  • 学习的价值来自真实世界的回响:是否让自己变得更健康、更有效、更有创造力?
  • 个人反馈系统的建设:学会感知环境、构建“学习雷达”,不断微调学习路径。
 

4. AI 推理方式正在超越“人类逻辑”——我们是否也应超越“标准答案思维”?

AI 不再只是模仿人类的链式思维(Chain-of-Thought),而是逐渐发展出非人类语言的推理方式,如符号系统、世界模型、反事实模拟等。对人类来说:
  • 教育不能只训练标准解法,而要鼓励多样思维和自我建模
  • 人类也需要发展自己的“世界模型”:从结果反推因果,从局部预测整体,从失败中重构理解。
例如:
  • 学会解决问题,而不是只答题。
  • 学会提出问题,而不仅仅是回答问题。
 

5. 人机共进下的新范式:人类需要“具身化的学习 + 智能体辅助”

AI 时代不是要替代人类,而是提示我们:人类的学习可以更加具身化(embodied)个性化(personalized)反馈驱动(feedback-driven)。未来学习的新范式可能是:人类借助智能体形成一个“共学系统”,持续感知、记录、反思和调整。例如:
  • 一个学生通过 AI 助理持续追踪语言学习的错误模式与进步趋势;
  • 一个设计师通过智能体模拟用户体验,迭代设计思路;
  • 一个健康管理者通过数据反馈与智能教练协同调节生活方式。
 
《The Era of Experience》不仅为 AI 指明了方向,也为人类教育提供了革命性的思路:
  • 从短期记忆 → 终身反馈流
  • 从模仿答案 → 构建理解模型
  • 从考试分数 → 环境反馈
  • 从孤立学习 → 人机共进
 
真正有效的学习,是在环境中试错,是在时间中演化,是在真实中成长。
 

总 结

在过去,大语言模型(LLMs)像是在图书馆中苦读万卷,模仿人类思维;而未来的AI,将像探险家一样走进现实世界,通过行动和反馈持续进化。这意味着:AI 将不再只是“聪明的工具”,而是一个能自我进步、自我纠偏、甚至自主思考的智能体。当然,这也带来新的挑战:如何确保AI行为不脱离人类价值轨道?当AI拥有长期目标,它会不会违背短期人类需求?我们是否准备好了,迎接这种“自我觉醒式”AI?
 
 
  • 思考
  • AI的下半场The Second Half | 姚顺雨 AI生成内容的崛起与挑战
    Loading...