📰 来源: 博客园
最近正好有空,打算抽时间复盘总结一下这些年零零散散学习的AI知识.
零基础认识大语言模型(LLM)工作原理目录 - GuZhenYin - 博客园
如果说上一章介绍的是:
那么这一章介绍的就是:
模型的大脑到底是如何工作的。
很多介绍 Transformer 的文章,一开始就是下面这张公式:
看到这里,绝大多数兄弟已经放弃了。
事实上,即使不知道任何数学公式,也完全可以理解 Transformer 的核心思想。
这一章,我们不用矩阵、向量运算这些复杂公式来表述,而是用一个现实例子,说明模型到底是如何"思考"一段文字的。
假设我们给模型输入一句话:
小明昨天去北京出差,今天他回来了。
对于我们人类来说,答案非常简单。
但是,如果你仔细思考,会发现句子里面其实并没有写:
我们的大脑为什么能够知道?
因为我们会自动回忆前面的内容。
于是理解了"他"就是小明。
Transformer 做的事情,其实非常类似。
它也会回头看,不过它不是只看一个词。
而是看前面的所有 Token。
3.2 Transformer 为什么叫 Transformer?
很多人第一次看到:Transformer。
都会问,为什么叫Transformer?
是不是它的直译--变形金刚?(哈哈哈 开个玩笑..)
其实Transformer 的中文一般翻译为:
因为它不断地把一串 Token,逐渐转换成越来越丰富的语义表示。
举个例子,刚开始,模型看到:苹果
经过第一层它开始知道这是:水果。
它知道这里说的是:苹果公司。
iPhone
Mac
Apple Store
于是最终理解这里的苹果,不是水果。
而是:Apple 公司。
注意,这里Token 没变,变化的是模型内部对它的理解。
所以Transformer真正转换的不是文字。
而是,每一个 Token 的语义表示。
那么Transformer是怎么转换token的语义的呢?
3.3 第一步:Embedding
苹果
↓
Token ID
↓
31582
这里很多人会问模型直接处理31582不行吗?
因为31582只是编号,这种编号太短,可存储内容太少,表示的语义也有限。
而且编号之间没有任何关系。
苹果
31582
香蕉
712
北京
89231
从数字来看,31582和712没有任何联系。
但是,我们人类知道苹果和香蕉都属于水果。
因此,模型需要把Token ID变成一种新的表示。
它就是:Embedding(词向量)。
模型给每一个 Token 建立的一张"身份证"。
不过这张身份证不是姓名,住址,出生年月这些。
而是一大串数字.例如:
苹果
↓
[0.13,
-0.42,
0.78,
......]
在大模型里面,可能一个token有几千维这些数字。
共同描述:苹果这个词在语言世
🔗 原文链接: 点击阅读原文
文章评论