零基础认识大语言模型（LLM）工作原理(3.大模型绕不开的架构--Transformer到底是怎么工作的?)

2026年7月2日 15点热度 0人点赞 0条评论

📰 来源: 博客园

最近正好有空,打算抽时间复盘总结一下这些年零零散散学习的AI知识.

零基础认识大语言模型（LLM）工作原理目录 - GuZhenYin - 博客园

如果说上一章介绍的是：

那么这一章介绍的就是：

模型的大脑到底是如何工作的。

很多介绍 Transformer 的文章，一开始就是下面这张公式：

看到这里，绝大多数兄弟已经放弃了。

事实上，即使不知道任何数学公式，也完全可以理解 Transformer 的核心思想。

这一章，我们不用矩阵、向量运算这些复杂公式来表述，而是用一个现实例子，说明模型到底是如何"思考"一段文字的。

假设我们给模型输入一句话：

小明昨天去北京出差，今天他回来了。

对于我们人类来说，答案非常简单。

但是，如果你仔细思考，会发现句子里面其实并没有写：

我们的大脑为什么能够知道？

因为我们会自动回忆前面的内容。

于是理解了"他"就是小明。

Transformer 做的事情，其实非常类似。

它也会回头看,不过它不是只看一个词。

而是看前面的所有 Token。

3.2 Transformer 为什么叫 Transformer？

很多人第一次看到：Transformer。

都会问,为什么叫Transformer？

是不是它的直译--变形金刚？(哈哈哈开个玩笑..)

其实Transformer 的中文一般翻译为：

因为它不断地把一串 Token,逐渐转换成越来越丰富的语义表示。

举个例子,刚开始,模型看到：苹果

经过第一层它开始知道这是：水果。

它知道这里说的是：苹果公司。

iPhone
Mac
Apple Store

于是最终理解这里的苹果,不是水果。

而是：Apple 公司。

注意,这里Token 没变,变化的是模型内部对它的理解。

所以Transformer真正转换的不是文字。

而是,每一个 Token 的语义表示。

那么Transformer是怎么转换token的语义的呢?

3.3 第一步：Embedding

苹果
↓
Token ID
↓
31582

这里很多人会问模型直接处理31582不行吗？

因为31582只是编号,这种编号太短,可存储内容太少,表示的语义也有限。

而且编号之间没有任何关系。

苹果
31582
香蕉
712
北京
89231

从数字来看,31582和712没有任何联系。

但是,我们人类知道苹果和香蕉都属于水果。

因此,模型需要把Token ID变成一种新的表示。

它就是：Embedding（词向量）。

模型给每一个 Token 建立的一张"身份证"。

不过这张身份证不是姓名,住址,出生年月这些。

而是一大串数字.例如：

苹果

↓

[0.13,
-0.42,
0.78,
......]

在大模型里面,可能一个token有几千维这些数字。

共同描述：苹果这个词在语言世

🔗 原文链接: 点击阅读原文

零基础认识大语言模型（LLM）工作原理(3.大模型绕不开的架构--Transformer到底是怎么工作的?)

3.2 Transformer 为什么叫 Transformer？

3.3 第一步：Embedding

文章评论