魅力程序猿

  • 首页
  • Java
  • Android
  • APP
    • 扑克计分器
    • Video Wallpaper
  • 联系我
  • 关于我
  • 资助
道子
向阳而生
  1. 首页
  2. AI技术
  3. 正文

大模型基础(四):强化学习入门-从斯金纳箱到大模型推理

2026年5月4日 10点热度 0人点赞 0条评论

📰 来源: 博客园


2025年图灵奖颁给了强化学习的奠基人Richard Sutton和Andrew Barto。为什么强化学习如此重要?它如何从训练老鼠变成训练大模型?这篇文章带你一探究竟。

一、一个老鼠实验引发的革命

1.1 斯金纳箱:强化学习的源头

1930年代,心理学家斯金纳做了一个著名实验:

  • 老鼠偶然按压杠杆 → 食物掉出来(奖励)
  • 多次之后 → 老鼠主动频繁按压杠杆
    image
  • "按杠杆 = 有吃的!"

    这就是强化学习的核心思想:通过尝试动作,根据获得的奖励调整行为。

    半个世纪后,这个思想启发了AI研究者:

    如果老鼠能通过"奖励"学会行为,机器能不能也这样学习?

    1950年,图灵提出"通过奖惩机制训练机器"的设想。

    1957年,Minsky正式提出"强化学习"概念。

    强化学习(Reinforcement Learning, RL):让智能体通过与环境交互和"试错",学习最优决策策略以最大化长期累积奖励。

    强化学习就像训练宠物:它做对了给奖励(零食),做错了不给奖励。慢慢地,它就学会做正确的事情。

    2.2 和其他机器学习方法有什么不同?

  • 有监督学习:老师告诉你答案("这是猫")
  • 无监督学习:自己找规律("这些图片很像")
  • 强化学习:环境告诉你好不好("得分+10")
  • 2.3 强化学习在学什么?

    强化学习的目标:学一套"看情况做决定"的策略

    把任何状态映射成最优动作,使得长期累计奖励最大。

    三、强化学习的核心概念

    用一个例子来理解:训练一个游戏AI

    3.2 策略和价值函数

    策略(Policy):智能体选择动作的规则

    价值函数(Value Function):评估某个状态长期能获得多少奖励

  • "当前状态很好(血量高、装备好)"
  • "当前状态很差(血量低、被包围)"
  • 环境执行动作,返回新状态和奖励
  • 智能体根据奖励调整策略
  • 四、强化学习的高光时刻

    4.1 AlphaGo:震惊世界

    AlphaGo的秘密:

  • 通过不断试错学习最优策略
  • 4.2 DeepSeek-R1:大模型的突破

    2025年1月,DeepSeek发布DeepSeek-R1:

    这是一个里程碑:用强化学习训练大模型的推理能力。

  • 自我创建和调整的奖励系统
  • 在Math-500等基准测试中媲美OpenAI o1
  • 以极低算力成本实现顶尖性能
  • 证明了强化学习可以让大模型学会"推理",而不只是"预测下一个字"。

    4.3 2025年图灵奖

    获奖者:Richard Sutton和Andrew Barto

    Richard Sutton的获奖感言:

    "强化学习的本质是从经验中学习,这是最自然的学习方式。"

    五、经典算法:Q-Learning

    5.1 什么是Q-Learning?

    Q-Learning是强化学习最经典的入门算法,1989年由Watkins提出。

    核心思想:建立一个"Q表",记录每个状态-动作组合的价值。

  • 在位置A → Q表显示向右价值最高 → 选择向右
  • 在位置B → Q表显示向左价值最高 → 选择向左
  • 5.3 Q值怎么更新?

    Q值更新公式(贝尔曼方程):

    新Q值 = 当前Q值 + 学习率 × (奖励 + γ×最大未来Q值 - 当前Q值)
    
    你以为这个动作值10分
    实际做了,立刻得到5分,加上预计未来最多能得8分
    所以实际应该值5+8=13分
    需要更新你的认识:从10分调到接近13分
    

    5.4 Q-Learning的局限

    Q表方法有一个致命问题:状态太多时,Q表存不下!

  • 围棋状态:约10^170种(天文数字)
  • 游戏画面:像素级别的状态
  • 解决方法:用神经网络代替Q表 → DQN(深度Q网络)

    六、进阶算法:PPO与DPO

    6.1 PPO:稳定高效的强化学习

    PPO(Proximal Policy Optimization)是OpenAI开发的算法,广泛应用于大模型训练。

    核心思想:每次更新策略时,不要改变太大,保持稳定。

    学习新技能时,不要一次学太多,慢慢进步,避免"走火入魔"。

    6.2 DPO:更简单的替代方案

    DPO(Direct Preference Optimization)是一种新方法,不需要训练奖励模型!

    1. 训练奖励模型(RM)
    2. 用奖励模型训练策略
    
    直接用偏好数据优化策略,一步到位!
    
  • 更简单(省去RM训练)
  • 更稳定(减少训练步骤)
  • 七、强化学习在大模型中的应用

    7.1 RLHF:让模型更"听话"

    RLHF(Reinforcement Learning from Human Feedback)是大模型训练的关键环节。

  • 训练奖励模型学习人类偏好
  • 用RL优化模型,使其生成人类喜欢的回答
  • 使模型更符合人类价值观
  • 7.2 训练推理能力:DeepSeek-R1的创新

    DeepSeek-R1展示了RL的新用法:训练推理能力

    DeepSeek-R1的解决方案:

  • 设计推理奖励(如"思考步骤是否正确")
  • 用RL训练模型学会推理
  • 接近o1模型的推理水平
  • 7.3 AlphaGo到大模型:同样的思想

    AlphaGo和DeepSeek-R1有什么共同点?

    共同核心:通过自我试错,学习最优策略!

    八、强化学习的挑战与局限

    原因:奖励信号稀疏,策略更新复杂

    RL需要大量试错才能学习。

    AlphaGo自我对弈了数百万盘棋!

    Andrej Karpathy指出:RL会使模型的"熵降低"。

    解释

    🔗 原文链接: 点击阅读原文

    标签: AI 人工智能 技术博客
    最后更新:2026年5月4日

    daozi

    这个人很懒,什么都没留下

    点赞
    < 上一篇

    文章评论

    razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
    取消回复
    搜索
    联系方式

    QQ群:179730949
    QQ群:114559024
    欢迎您加入Android大家庭
    本人QQ:136049925

    赐我一丝安慰
    给我一点鼓励

    COPYRIGHT © 2023 魅力程序猿. ALL RIGHTS RESERVED.

    Theme Kratos Made By Seaton Jiang

    豫ICP备15000477号