📰 来源: 博客园
2025年图灵奖颁给了强化学习的奠基人Richard Sutton和Andrew Barto。为什么强化学习如此重要?它如何从训练老鼠变成训练大模型?这篇文章带你一探究竟。
一、一个老鼠实验引发的革命
1.1 斯金纳箱:强化学习的源头
1930年代,心理学家斯金纳做了一个著名实验:

"按杠杆 = 有吃的!"
这就是强化学习的核心思想:通过尝试动作,根据获得的奖励调整行为。
半个世纪后,这个思想启发了AI研究者:
如果老鼠能通过"奖励"学会行为,机器能不能也这样学习?
1950年,图灵提出"通过奖惩机制训练机器"的设想。
1957年,Minsky正式提出"强化学习"概念。
强化学习(Reinforcement Learning, RL):让智能体通过与环境交互和"试错",学习最优决策策略以最大化长期累积奖励。
强化学习就像训练宠物:它做对了给奖励(零食),做错了不给奖励。慢慢地,它就学会做正确的事情。
2.2 和其他机器学习方法有什么不同?
2.3 强化学习在学什么?
强化学习的目标:学一套"看情况做决定"的策略
把任何状态映射成最优动作,使得长期累计奖励最大。
三、强化学习的核心概念
用一个例子来理解:训练一个游戏AI
3.2 策略和价值函数
策略(Policy):智能体选择动作的规则
价值函数(Value Function):评估某个状态长期能获得多少奖励
四、强化学习的高光时刻
4.1 AlphaGo:震惊世界
AlphaGo的秘密:
4.2 DeepSeek-R1:大模型的突破
2025年1月,DeepSeek发布DeepSeek-R1:
这是一个里程碑:用强化学习训练大模型的推理能力。
证明了强化学习可以让大模型学会"推理",而不只是"预测下一个字"。
4.3 2025年图灵奖
获奖者:Richard Sutton和Andrew Barto
Richard Sutton的获奖感言:
"强化学习的本质是从经验中学习,这是最自然的学习方式。"
五、经典算法:Q-Learning
5.1 什么是Q-Learning?
Q-Learning是强化学习最经典的入门算法,1989年由Watkins提出。
核心思想:建立一个"Q表",记录每个状态-动作组合的价值。
5.3 Q值怎么更新?
Q值更新公式(贝尔曼方程):
新Q值 = 当前Q值 + 学习率 × (奖励 + γ×最大未来Q值 - 当前Q值)
你以为这个动作值10分
实际做了,立刻得到5分,加上预计未来最多能得8分
所以实际应该值5+8=13分
需要更新你的认识:从10分调到接近13分
5.4 Q-Learning的局限
Q表方法有一个致命问题:状态太多时,Q表存不下!
解决方法:用神经网络代替Q表 → DQN(深度Q网络)
六、进阶算法:PPO与DPO
6.1 PPO:稳定高效的强化学习
PPO(Proximal Policy Optimization)是OpenAI开发的算法,广泛应用于大模型训练。
核心思想:每次更新策略时,不要改变太大,保持稳定。
学习新技能时,不要一次学太多,慢慢进步,避免"走火入魔"。
6.2 DPO:更简单的替代方案
DPO(Direct Preference Optimization)是一种新方法,不需要训练奖励模型!
1. 训练奖励模型(RM)
2. 用奖励模型训练策略
直接用偏好数据优化策略,一步到位!
七、强化学习在大模型中的应用
7.1 RLHF:让模型更"听话"
RLHF(Reinforcement Learning from Human Feedback)是大模型训练的关键环节。
7.2 训练推理能力:DeepSeek-R1的创新
DeepSeek-R1展示了RL的新用法:训练推理能力
DeepSeek-R1的解决方案:
7.3 AlphaGo到大模型:同样的思想
AlphaGo和DeepSeek-R1有什么共同点?
共同核心:通过自我试错,学习最优策略!
八、强化学习的挑战与局限
原因:奖励信号稀疏,策略更新复杂
RL需要大量试错才能学习。
AlphaGo自我对弈了数百万盘棋!
Andrej Karpathy指出:RL会使模型的"熵降低"。
解释
🔗 原文链接: 点击阅读原文
文章评论