Skip to content

AI 是怎么学会说话的

一个万亿参数的系统,本质上只做一件事:猜下一个词。这听起来很荒谬,但恰恰是理解所有 AI 能力的钥匙。

ChatGPT 能写诗、写代码、分析合同、解答数学题——但这一切,底层都是同一个动作:猜下一个词

这怎么可能?一个"造句机器",是怎么变成今天这个无所不知的助手的?答案藏在三件事里:一个改变一切的架构、一次用整个互联网喂出来的训练、以及一些至今仍令人困惑的涌现现象。

LLM 把文字切成 Token:Strawberry 被拆成 [str][aw][berry],模型看不见字母,只看见 Token


一、从猜词游戏说起

打开手机输入法,输入"今天天气",屏幕上会弹出几个候选词:"真好"、"不错"、"很热"。这就是最原始的语言模型——根据前面的词,预测下一个最可能出现的词。

大语言模型(Large Language Model,LLM)做的事情,本质上和输入法一样。区别只有一个:上下文窗口。输入法只看前 3 个字,LLM 能看前几万、甚至几十万字。看的越多,猜得越准;猜得越准,生成的文字就越像是真正在"理解"你的意思。

但在谈 LLM 之前,有一个基础概念必须先搞清楚——Token(语言碎片)

LLM 处理的不是字,也不是词,而是 Token——一种介于两者之间的语言碎片。英文的 "strawberry" 会被切成 [str, aw, berry] 三个 Token;中文的"今天"通常是两个 Token。这个细节看似无关紧要,但后面会解释它如何导致了 AI 一本正经数不清字母这件荒唐事。


二、Transformer:让 AI 学会"看全文"

猜词游戏的逻辑很清晰,但要真正做好,有一个根本性的难题:怎么处理长文本中的远距离关联?

2017 年之前,主流的语言模型用的是 RNN(循环神经网络)和 LSTM(长短期记忆网络)。它们的工作方式就像传话筒:从左到右逐字阅读,把"当前状态"传递给下一个位置。理论上可以记住之前的内容,但实际上读到后面,早就把前面忘得差不多了。你让它读一篇长文,文章开头出现的主语,文章结尾它很可能已经不知道指的是谁了。

2017 年 6 月,Google 的研究团队发表了一篇论文,题目直接、自信:Attention Is All You Need。他们提出了 Transformer 架构,核心机制是 Attention(注意力机制)

它和 RNN 的本质差别在于:不再逐字"传话",而是让每个词都能直接看到句子里的所有其他词。

用一个类比:RNN 是开一排传话筒,消息从一端传到另一端,途中不断衰减失真;Transformer 是开一场圆桌会议,每个人都能直接和桌上其他所有人说话。前者越长越难保真,后者无论多少人都能精准沟通。

这个架构还带来了一个工程上的意外之喜:它可以并行计算。RNN 必须按顺序处理,一步等一步;Transformer 可以同时处理所有位置。这意味着可以用 GPU 进行大规模并行训练——而 GPU 正是 AI 时代的基础设施。

这篇论文今天已被引用超过 17.3 万次,是 21 世纪引用量最高的论文之一。它奠定了此后所有 LLM 的基础架构。


三、训练:用整个互联网教一个学生

有了 Transformer,下一个问题是:怎么教它?

答案是:喂数据,海量的数据。

先理解一个关键词:参数(Parameter)

初中数学里的 y = ax + b,a 和 b 就是参数——给定一组数据,训练就是找到最合适的值。但这个方程只有两个参数,能描述的关系非常有限。把它扩展成多维:

y = a₁x₁ + a₂x₂ + a₃x₃ + … + aₙxₙ

现在有 n 个参数,n 越大,模型能捕捉的模式就越复杂。语言里的规律——哪些词经常出现在一起、什么语境下该用什么表达——都可以被编码进这些参数里。

LLM 做的是同一件事,只不过规模远超想象:把这样的变换层层叠加几千次,每一层的输出是下一层的输入。最终,GPT-3 有 1750 亿个参数。训练,就是把这 1750 亿个数都调到最合适的值。

GPT-3 的训练,从一个原始数据集说起:Common Crawl,一份对互联网持续抓取的原始网页存档,原始体积约 45TB。经过严格过滤——去掉低质量内容、重复内容、有毒内容——最终得到 570GB 的高质量文本,约 4000 亿个 Token。加上维基百科、书籍等来源,GPT-3 的训练数据接近半万亿词。

这一阶段叫预训练(Pre-training):模型不断预测下一个 Token,犯错就调整参数,直到它对这半万亿词都能"猜得不错"。在这个过程中,它不只是学会了语法——因为语言本身编码了知识,模型在"学会说话"的同时,也悄悄"学会了"大量关于世界的事实。

但一个只会补全文本的模型,并不是一个好助手。它会继续用户的任何输入,不管那是一个问题、一段有毒的文字还是一句无聊的废话。

这时候需要第二步:微调(Fine-tuning)

具体分两阶段:

首先是 SFT(Supervised Fine-Tuning,监督微调):收集人类示范——"这个问题该怎么回答"——让模型学习"好的回答长什么样"。

然后是 RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习):让人类比较两个回答哪个更好,用这些偏好训练一个"奖励模型",再用强化学习让 LLM 去最大化这个奖励。

OpenAI 2022 年的研究给出了一个反直觉的结论:经过 RLHF 训练的 13 亿参数小模型,在人类评测中赢过 1750 亿参数 GPT-3 的比例高达 71%。参数量 100 倍的差距,被对齐训练轻松抹平。

模型的大小不是唯一重要的事,它学会了什么、以及怎么表达,同样关键。

规模带来的惊喜:涌现能力

研究者在扩大模型规模时,发现了一件奇怪的事。

某些能力,在小模型上完全不存在,但当参数量过了某个阈值,突然就出现了——而且是断崖式涌现,不是渐进提升。多步算术、逻辑推理、类比推断……Google 的一份研究记录了超过 137 种这样的涌现能力,其中许多在参数量达到约 1000 亿时才首次出现。

这被称为涌现能力(Emergent Abilities)。没有人能完全解释它为什么发生。有理论认为,这只是测量方式造成的假象;也有理论认为,这是复杂系统的真实相变。但无论机制如何,一个事实是确定的:把模型做大,就会出现你原本没有设计的新能力。


四、幻觉:流利不等于正确

现在你理解了 LLM 的底层逻辑:预测下一个 Token,用海量文本预训练,用人类反馈微调。

但也正是这个机制,决定了它的根本局限。

LLM 的本质是统计相关性,不是事实检索。

当你问它"2008 年北京奥运会的开幕式导演是谁",它不是去数据库里查一条记录,而是根据训练数据里的模式,生成一个"在统计上最像正确答案的文字串"。大多数时候这是准确的,因为正确信息在训练数据里出现频率高。但如果某个冷僻事实的训练数据不足,或者问题超出了它的知识边界,它就会用同样自信的语气生成一个错误答案。

这就是所谓的幻觉(Hallucination):一本正经地胡说八道。

TruthfulQA 基准测试在 2022 年测量了这个问题:用 817 道专门围绕人类常见误解设计的问题测试 GPT-3,最优条件下真实性得分只有 58%;人类的基准是 94%。更令人不安的发现是:模型越大,得分越低——它"学会"了更多人类的错误知识。

Token 机制带来了另一种局限。还记得 "strawberry" 被切成 [str, aw, berry] 三个碎片吗?LLM 在 Token 的层面上操作,而不是字母层面。它无法"看到"一个词里有几个字母,就像一个只看到词组的人无法数词组里有几个笔画一样。这就是为什么 ChatGPT 曾经无法回答"strawberry 里有几个 r"——不是它不聪明,而是它根本就没在"看"那些字母。(有意思的是,OpenAI 内部将解决这个问题的推理项目代号命名为"Strawberry",也就是后来的 o1 模型。)

还有一个常被误解的问题:上下文窗口(Context Window)

现代 LLM 能处理几十万字的文本,这并不意味着它"记住"了所有内容。每次推理,它只处理当前上下文窗口里的内容;窗口之外的信息,对它来说不存在。更关键的是,即使在窗口内,长文本开头的内容也比结尾的影响力更小——距离输出越近的内容权重越高。

一个关键认知值得反复强调:"流利"不等于"正确","自信"不等于"可靠"。LLM 在输出错误答案时,语气和输出正确答案时一样笃定。它没有"不确定性"的内在信号——至少,第一代 LLM 没有。


结语:一台万亿参数的造句机器,和它的天花板

到这里,你已经理解了 LLM 的底层逻辑:

  • 本质是 Next-Token Prediction,用统计模式预测下一个词
  • 架构是 Transformer,让每个词都能直接看到全文
  • 能力来自规模:用海量数据预训练,用人类反馈微调
  • 局限来自机制:统计相关性不是事实检索,Token 不是字母,流利不等于正确

LLM 学会了说话,而且说得极其流利。但它的回答方式,本质上是"快速直觉反应"——用 Kahneman 的框架来说,这是系统 1。它看到问题,直接输出答案,中间没有"想"的过程。

如果遇到一道复杂的数学题,它可能会自信地给出一个错误答案,就像一个学霸被突然考问时口算出了个错数。

要让 AI 真正"思考",而不只是"反应",需要另一个突破——而这个突破,在 2024 年真的到来了。


参考资料