零基础认识大语言模型（LLM）工作原理(2.Token 到底是什么？)

2026年7月1日 7点热度 0人点赞 0条评论

📰 来源: 博客园

最近正好有空,打算抽时间复盘总结一下这些年零零散散学习的AI知识.

零基础认识大语言模型（LLM）工作原理目录 - GuZhenYin - 博客园

上一章我们大概总结了一下LLM到底是什么,这一章我们主要讲在LLM中经常提及和广为人知的Token到底是什么.

首先,我们先从一个疑问开始.

2.1 为什么大模型看不懂文字？

第一次接触大模型时，很多人都会产生一个疑问：

ChatGPT 为什么能够读懂中文、英文、日文，甚至还能写代码？

是不是模型里面真的存放了一个"中文字典"？

或者，它是不是像我们一样，一眼就能看到一个汉字？

对于计算机来说，并不存在"文字"这种概念。

计算机能够处理的，永远只有数字。

例如，你现在看到屏幕上的一个字：

在人眼里，它就是一个汉字。

但在计算机内部，它通常会先表示成 Unicode 编码，例如：

继续转换之后，又会变成：

计算机从来没有真正见过"你"这个字，它看到的始终只是数字。

大语言模型当然也是一样。

因此，当我们把一句中文发送给模型时，它首先必须完成一件事情：

把文字转换成模型能够理解的数字。

但是，这里马上会出现另一个问题。

2.2 为什么不能一个字对应一个数字？

假设我们设计一个最简单的大模型。

你 → 1

好 → 2

世 → 3

界 → 4

为什么现实中的 GPT、Claude、Qwen 不这么做？

这个词出现了几千万次。

中华人民共和国
↓
一个Token

再举一个程序员更熟悉的例子。

模型更希望按如下定义token,这样才能更清晰的表示它的维度：

__init__

↓

一个Token

而是按照一种新的单位：

2.3 什么是 Token？

其实在3月23日中国发展高层论坛2026年年会上，国家数据局局长刘烈宏正式公布，AI领域核心概念Token的标准中文译名为词元。这一中文语义其实是相当精准的。

但容易让初学者误以为,Token 就是一个词。

其实完全不是，更准确一点，可以把它理解成：

模型自己发明的一套"文字积木"。

这些积木，有的大，有的小，有的是一个字，有的是半个单词，有的是整个句子。甚至，还有可能只是一个空格。

unbelievable

un
believ
able

有兴趣的可以去openai的Tokenizer试试,地址:Tokenizer - OpenAI API

中文呢? 其实也一样,每个模型的规则都可能会有区别

就是一个 Token。

System.out.println

很可能整个就是一个 Token。

因此Token 并没有固定长度。

让模型能够更高效地表示语言。

2.4 Token 是怎么来的？

点击阅读原文

零基础认识大语言模型（LLM）工作原理(2.Token 到底是什么？)

2.1 为什么大模型看不懂文字？

2.2 为什么不能一个字对应一个数字？

2.3 什么是 Token？

2.4 Token 是怎么来的？

文章评论