魅力程序猿

  • 首页
  • Java
  • Android
  • APP
    • 扑克计分器
    • Video Wallpaper
  • 联系我
  • 关于我
  • 资助
道子
向阳而生
  1. 首页
  2. AI技术
  3. 正文

零基础认识大语言模型(LLM)工作原理(2.Token 到底是什么?)

2026年7月1日 7点热度 0人点赞 0条评论

📰 来源: 博客园


最近正好有空,打算抽时间复盘总结一下这些年零零散散学习的AI知识.

零基础认识大语言模型(LLM)工作原理目录 - GuZhenYin - 博客园

上一章我们大概总结了一下LLM到底是什么,这一章我们主要讲在LLM中 经常提及和广为人知的Token到底是什么.

首先,我们先从一个疑问开始.

2.1 为什么大模型看不懂文字?

第一次接触大模型时,很多人都会产生一个疑问:

ChatGPT 为什么能够读懂中文、英文、日文,甚至还能写代码?

是不是模型里面真的存放了一个"中文字典"?

或者,它是不是像我们一样,一眼就能看到一个汉字?

对于计算机来说,并不存在"文字"这种概念。

计算机能够处理的,永远只有数字。

例如,你现在看到屏幕上的一个字:

在人眼里,它就是一个汉字。

但在计算机内部,它通常会先表示成 Unicode 编码,例如:

继续转换之后,又会变成:

计算机从来没有真正见过"你"这个字,它看到的始终只是数字。

大语言模型当然也是一样。

因此,当我们把一句中文发送给模型时,它首先必须完成一件事情:

把文字转换成模型能够理解的数字。

但是,这里马上会出现另一个问题。

2.2 为什么不能一个字对应一个数字?

假设我们设计一个最简单的大模型。

你 → 1

好 → 2

世 → 3

界 → 4

为什么现实中的 GPT、Claude、Qwen 不这么做?

这个词出现了几千万次。

中华人民共和国
↓
一个Token

再举一个程序员更熟悉的例子。

模型更希望按如下定义token,这样才能更清晰的表示它的维度:

__init__

↓

一个Token

而是按照一种新的单位:

2.3 什么是 Token?

其实在3月23日中国发展高层论坛2026年年会上,国家数据局局长刘烈宏正式公布,AI领域核心概念Token的标准中文译名为  词元 。这一中文语义其实是相当精准的。

但容易让初学者误以为,Token 就是一个词。

其实完全不是,更准确一点,可以把它理解成:

模型自己发明的一套"文字积木"。

这些积木,有的大,有的小,有的是一个字,有的是半个单词,有的是整个句子。甚至,还有可能只是一个空格。

unbelievable
un
believ
able

有兴趣的可以去openai的Tokenizer试试,地址:Tokenizer - OpenAI API

中文呢? 其实也一样,每个模型的规则都可能会有区别

就是一个 Token。

System.out.println

很可能整个就是一个 Token。

因此Token 并没有固定长度。

让模型能够更高效地表示语言。

2.4 Token 是怎么来的?

点击阅读原文

标签: AI 人工智能 技术博客
最后更新:2026年7月1日

daozi

这个人很懒,什么都没留下

点赞
< 上一篇

文章评论

您需要 登录 之后才可以评论
搜索
联系方式

QQ群:179730949
QQ群:114559024
欢迎您加入Android大家庭
本人QQ:136049925

赐我一丝安慰
给我一点鼓励

COPYRIGHT © 2023 魅力程序猿. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang

豫ICP备15000477号