魅力程序猿

  • 首页
  • Java
  • Android
  • APP
    • 扑克计分器
    • Video Wallpaper
  • 联系我
  • 关于我
  • 资助
道子
向阳而生
  1. 首页
  2. AI技术
  3. 正文

零基础认识大语言模型(LLM)工作原理(4.Attention:模型是怎么看懂上下文的?)

2026年7月3日 10点热度 0人点赞 0条评论

📰 来源: 博客园


最近正好有空,打算抽时间复盘总结一下这些年零零散散学习的AI知识.

零基础认识大语言模型(LLM)工作原理目录 - GuZhenYin - 博客园

在上一章中,我们知道 Transformer 做了三件事:

  • 把文字变成 Token(第二章)
  • 把 Token 变成向量(Embedding)
  • 让模型在生成每个词时“回头看前文”
  • 但这里有一个关键问题:

    模型到底是怎么“回头看”的?

    人类阅读一句话时,其实会自动做一件事,把重要信息记住,把不重要信息忽略。

    小明昨天去北京出差,今天他回来了。

    因为我们的大脑自动做了“关联”。

    Transformer 的 Attention,本质上就是在模拟这件事。

    我们举一个普通生活中的例子

    假设我们在图书馆找一本书:

    《Java 并发编程实战》

    我们不会把整个图书馆的书都认真读一遍。

  • 找对应技术分类(Java / 并发)
  • 忽略无关书籍(小说、历史)
  • 然后我们会发现,某一排书架上面有相关类别.

    于是我们集中注意力,主要从那一排书架上去找这本书。

    Attention 其实做的事情完全一样,它不是“平均看所有信息”,而是:

    给每一段信息分配不同的重要性权重

    小明昨天去北京出差,今天他回来了。

    它会把前面的 Token 全部拿出来:

    小明
    昨天
    去
    北京
    出差
    今天

    哪些 Token 和“他”最相关?

    我们用人类方式模拟一下:

    模型不会“理解”,但它会做一件类似的事:

    Attention 本质只有一句话:

    当前 Token 会去“查询”前面所有 Token,并决定哪些最重要。

  • 当前 Token:正在预测的词
  • 前面 Token:上下文
  • 现在我们终于可以引入 QKV,但是我们不从数学角度去理解。

    我们用一个简单的“会议室发言”理解 QKV

    我们想象一个会议.每个人都有三种属性:

    ① Key(身份标签)

    ② Query(提问者)

    这个问题就是 Query。

    ③ Value(真正的信息)

    他说的内容就是 Value。

    所以Attention 的计算流程可以简单理解为:

    Query 去匹配 Key,匹配成功后拿 Value

    现在我们回到刚才那句话:

    小明昨天去北京出差,今天他回来了。

    模型内部其实在做如下步骤:

    步骤1:每个 Token 生成 Q/K/V

    步骤 3:加权汇总信息

    模型不会只选一个,而是:

    0.92 × 小明
    0.31 × 北京
    0.10 × 昨天

    “他”的语义 = 小明

    Attention = 给所有历史信息打分 + 加


    🔗 原文链接: 点击阅读原文

    标签: AI 人工智能 技术博客
    最后更新:2026年7月3日

    daozi

    这个人很懒,什么都没留下

    点赞
    < 上一篇

    文章评论

    您需要 登录 之后才可以评论
    搜索
    联系方式

    QQ群:179730949
    QQ群:114559024
    欢迎您加入Android大家庭
    本人QQ:136049925

    赐我一丝安慰
    给我一点鼓励

    COPYRIGHT © 2023 魅力程序猿. ALL RIGHTS RESERVED.

    Theme Kratos Made By Seaton Jiang

    豫ICP备15000477号