📰 来源: 博客园
最近正好有空,打算抽时间复盘总结一下这些年零零散散学习的AI知识.
零基础认识大语言模型(LLM)工作原理目录 - GuZhenYin - 博客园
上一章我们大概总结了一下LLM到底是什么,这一章我们主要讲在LLM中 经常提及和广为人知的Token到底是什么.
首先,我们先从一个疑问开始.
2.1 为什么大模型看不懂文字?
第一次接触大模型时,很多人都会产生一个疑问:
ChatGPT 为什么能够读懂中文、英文、日文,甚至还能写代码?
是不是模型里面真的存放了一个"中文字典"?
或者,它是不是像我们一样,一眼就能看到一个汉字?
对于计算机来说,并不存在"文字"这种概念。
计算机能够处理的,永远只有数字。
例如,你现在看到屏幕上的一个字:
在人眼里,它就是一个汉字。
但在计算机内部,它通常会先表示成 Unicode 编码,例如:
继续转换之后,又会变成:
计算机从来没有真正见过"你"这个字,它看到的始终只是数字。
大语言模型当然也是一样。
因此,当我们把一句中文发送给模型时,它首先必须完成一件事情:
把文字转换成模型能够理解的数字。
但是,这里马上会出现另一个问题。
2.2 为什么不能一个字对应一个数字?
假设我们设计一个最简单的大模型。
你 → 1
好 → 2
世 → 3
界 → 4
为什么现实中的 GPT、Claude、Qwen 不这么做?
这个词出现了几千万次。
中华人民共和国
↓
一个Token
再举一个程序员更熟悉的例子。
模型更希望按如下定义token,这样才能更清晰的表示它的维度:
__init__
↓
一个Token
而是按照一种新的单位:
2.3 什么是 Token?
其实在3月23日中国发展高层论坛2026年年会上,国家数据局局长刘烈宏正式公布,AI领域核心概念Token的标准中文译名为 词元 。这一中文语义其实是相当精准的。
但容易让初学者误以为,Token 就是一个词。
其实完全不是,更准确一点,可以把它理解成:
模型自己发明的一套"文字积木"。
这些积木,有的大,有的小,有的是一个字,有的是半个单词,有的是整个句子。甚至,还有可能只是一个空格。
unbelievable
un
believ
able
有兴趣的可以去openai的Tokenizer试试,地址:Tokenizer - OpenAI API
中文呢? 其实也一样,每个模型的规则都可能会有区别
就是一个 Token。
System.out.println
很可能整个就是一个 Token。
因此Token 并没有固定长度。
让模型能够更高效地表示语言。
2.4 Token 是怎么来的?
点击阅读原文
文章评论