大模型基础（四）：强化学习入门-从斯金纳箱到大模型推理

2026年5月4日 10点热度 0人点赞 0条评论

📰 来源: 博客园

2025年图灵奖颁给了强化学习的奠基人Richard Sutton和Andrew Barto。为什么强化学习如此重要？它如何从训练老鼠变成训练大模型？这篇文章带你一探究竟。

一、一个老鼠实验引发的革命

1.1 斯金纳箱：强化学习的源头

1930年代，心理学家斯金纳做了一个著名实验：

老鼠偶然按压杠杆 → 食物掉出来（奖励）

多次之后 → 老鼠主动频繁按压杠杆

"按杠杆 = 有吃的！"

这就是强化学习的核心思想：通过尝试动作，根据获得的奖励调整行为。

半个世纪后，这个思想启发了AI研究者：

如果老鼠能通过"奖励"学会行为，机器能不能也这样学习？

1950年，图灵提出"通过奖惩机制训练机器"的设想。

1957年，Minsky正式提出"强化学习"概念。

强化学习（Reinforcement Learning, RL）：让智能体通过与环境交互和"试错"，学习最优决策策略以最大化长期累积奖励。

强化学习就像训练宠物：它做对了给奖励（零食），做错了不给奖励。慢慢地，它就学会做正确的事情。

2.2 和其他机器学习方法有什么不同？

有监督学习：老师告诉你答案（"这是猫"）

无监督学习：自己找规律（"这些图片很像"）

强化学习：环境告诉你好不好（"得分+10"）

2.3 强化学习在学什么？

强化学习的目标：学一套"看情况做决定"的策略

把任何状态映射成最优动作，使得长期累计奖励最大。

三、强化学习的核心概念

用一个例子来理解：训练一个游戏AI

3.2 策略和价值函数

策略（Policy）：智能体选择动作的规则

价值函数（Value Function）：评估某个状态长期能获得多少奖励

"当前状态很好（血量高、装备好）"

"当前状态很差（血量低、被包围）"

环境执行动作，返回新状态和奖励

智能体根据奖励调整策略

四、强化学习的高光时刻

4.1 AlphaGo：震惊世界

AlphaGo的秘密：

通过不断试错学习最优策略

4.2 DeepSeek-R1：大模型的突破

2025年1月，DeepSeek发布DeepSeek-R1：

这是一个里程碑：用强化学习训练大模型的推理能力。

自我创建和调整的奖励系统

在Math-500等基准测试中媲美OpenAI o1

以极低算力成本实现顶尖性能

证明了强化学习可以让大模型学会"推理"，而不只是"预测下一个字"。

4.3 2025年图灵奖

获奖者：Richard Sutton和Andrew Barto

Richard Sutton的获奖感言：

"强化学习的本质是从经验中学习，这是最自然的学习方式。"

五、经典算法：Q-Learning

5.1 什么是Q-Learning？

Q-Learning是强化学习最经典的入门算法，1989年由Watkins提出。

核心思想：建立一个"Q表"，记录每个状态-动作组合的价值。

在位置A → Q表显示向右价值最高 → 选择向右

在位置B → Q表显示向左价值最高 → 选择向左

5.3 Q值怎么更新？

Q值更新公式（贝尔曼方程）：

新Q值 = 当前Q值 + 学习率 × (奖励 + γ×最大未来Q值 - 当前Q值)

你以为这个动作值10分
实际做了，立刻得到5分，加上预计未来最多能得8分
所以实际应该值5+8=13分
需要更新你的认识：从10分调到接近13分

5.4 Q-Learning的局限

Q表方法有一个致命问题：状态太多时，Q表存不下！

围棋状态：约10^170种（天文数字）

游戏画面：像素级别的状态

解决方法：用神经网络代替Q表 → DQN（深度Q网络）

六、进阶算法：PPO与DPO

6.1 PPO：稳定高效的强化学习

PPO（Proximal Policy Optimization）是OpenAI开发的算法，广泛应用于大模型训练。

核心思想：每次更新策略时，不要改变太大，保持稳定。

学习新技能时，不要一次学太多，慢慢进步，避免"走火入魔"。

6.2 DPO：更简单的替代方案

DPO（Direct Preference Optimization）是一种新方法，不需要训练奖励模型！

1. 训练奖励模型（RM）
2. 用奖励模型训练策略

直接用偏好数据优化策略，一步到位！

更简单（省去RM训练）

更稳定（减少训练步骤）

七、强化学习在大模型中的应用

7.1 RLHF：让模型更"听话"

RLHF（Reinforcement Learning from Human Feedback）是大模型训练的关键环节。

训练奖励模型学习人类偏好

用RL优化模型，使其生成人类喜欢的回答

使模型更符合人类价值观

7.2 训练推理能力：DeepSeek-R1的创新

DeepSeek-R1展示了RL的新用法：训练推理能力

DeepSeek-R1的解决方案：

设计推理奖励（如"思考步骤是否正确"）

用RL训练模型学会推理

接近o1模型的推理水平

7.3 AlphaGo到大模型：同样的思想

AlphaGo和DeepSeek-R1有什么共同点？

共同核心：通过自我试错，学习最优策略！

八、强化学习的挑战与局限

原因：奖励信号稀疏，策略更新复杂

RL需要大量试错才能学习。

AlphaGo自我对弈了数百万盘棋！

Andrej Karpathy指出：RL会使模型的"熵降低"。

解释

🔗 原文链接: 点击阅读原文

标签： AI 人工智能技术博客

最后更新：2026年5月4日