魅力程序猿

  • 首页
  • Java
  • Android
  • APP
    • 扑克计分器
    • Video Wallpaper
  • 联系我
  • 关于我
  • 资助
道子
向阳而生
  1. 首页
  2. AI技术
  3. 正文

零基础认识大语言模型(LLM)工作原理(3.大模型绕不开的架构--Transformer到底是怎么工作的?)

2026年7月2日 15点热度 0人点赞 0条评论

📰 来源: 博客园


最近正好有空,打算抽时间复盘总结一下这些年零零散散学习的AI知识.

零基础认识大语言模型(LLM)工作原理目录 - GuZhenYin - 博客园

如果说上一章介绍的是:

那么这一章介绍的就是:

模型的大脑到底是如何工作的。

很多介绍 Transformer 的文章,一开始就是下面这张公式:

看到这里,绝大多数兄弟已经放弃了。

事实上,即使不知道任何数学公式,也完全可以理解 Transformer 的核心思想。

这一章,我们不用矩阵、向量运算这些复杂公式来表述,而是用一个现实例子,说明模型到底是如何"思考"一段文字的。

假设我们给模型输入一句话:

小明昨天去北京出差,今天他回来了。

对于我们人类来说,答案非常简单。

但是,如果你仔细思考,会发现句子里面其实并没有写:

我们的大脑为什么能够知道?

因为我们会自动回忆前面的内容。

于是理解了"他"就是小明。

Transformer 做的事情,其实非常类似。

它也会回头看,不过它不是只看一个词。

而是看前面的所有 Token。

3.2 Transformer 为什么叫 Transformer?

很多人第一次看到:Transformer。

都会问,为什么叫Transformer?

是不是它的直译--变形金刚?(哈哈哈 开个玩笑..)

其实Transformer 的中文一般翻译为:

因为它不断地把一串 Token,逐渐转换成越来越丰富的语义表示。

举个例子,刚开始,模型看到:苹果

经过第一层它开始知道这是:水果。

它知道这里说的是:苹果公司。

iPhone
Mac
Apple Store

于是最终理解这里的苹果,不是水果。

而是:Apple 公司。

注意,这里Token 没变,变化的是模型内部对它的理解。

所以Transformer真正转换的不是文字。

而是,每一个 Token 的语义表示。

那么Transformer是怎么转换token的语义的呢?

3.3 第一步:Embedding

苹果
↓
Token ID
↓
31582

这里很多人会问模型直接处理31582不行吗?

因为31582只是编号,这种编号太短,可存储内容太少,表示的语义也有限。

而且编号之间没有任何关系。

苹果
31582
香蕉
712
北京
89231

从数字来看,31582和712没有任何联系。

但是,我们人类知道苹果和香蕉都属于水果。

因此,模型需要把Token ID变成一种新的表示。

它就是:Embedding(词向量)。

模型给每一个 Token 建立的一张"身份证"。

不过这张身份证不是姓名,住址,出生年月这些。

而是一大串数字.例如:

苹果

↓

[0.13,
-0.42,
0.78,
......]

在大模型里面,可能一个token有几千维这些数字。

共同描述:苹果这个词在语言世


🔗 原文链接: 点击阅读原文

标签: AI 人工智能 技术博客
最后更新:2026年7月2日

daozi

这个人很懒,什么都没留下

点赞
< 上一篇

文章评论

您需要 登录 之后才可以评论
搜索
联系方式

QQ群:179730949
QQ群:114559024
欢迎您加入Android大家庭
本人QQ:136049925

赐我一丝安慰
给我一点鼓励

COPYRIGHT © 2023 魅力程序猿. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang

豫ICP备15000477号