AI 是怎么学会说话的

一个万亿参数的系统，本质上只做一件事：猜下一个词。这听起来很荒谬，但恰恰是理解所有 AI 能力的钥匙。

ChatGPT 能写诗、写代码、分析合同、解答数学题——但这一切，底层都是同一个动作：猜下一个词。

这怎么可能？一个"造句机器"，是怎么变成今天这个无所不知的助手的？答案藏在三件事里：一个改变一切的架构、一次用整个互联网喂出来的训练、以及一些至今仍令人困惑的涌现现象。

LLM 把文字切成 Token：Strawberry 被拆成 [str][aw][berry]，模型看不见字母，只看见 Token

一、从猜词游戏说起

打开手机输入法，输入"今天天气"，屏幕上会弹出几个候选词："真好"、"不错"、"很热"。这就是最原始的语言模型——根据前面的词，预测下一个最可能出现的词。

大语言模型（Large Language Model，LLM）做的事情，本质上和输入法一样。区别只有一个：上下文窗口。输入法只看前 3 个字，LLM 能看前几万、甚至几十万字。看的越多，猜得越准；猜得越准，生成的文字就越像是真正在"理解"你的意思。

但在谈 LLM 之前，有一个基础概念必须先搞清楚——Token（语言碎片）。

LLM 处理的不是字，也不是词，而是 Token——一种介于两者之间的语言碎片。英文的 "strawberry" 会被切成 [str, aw, berry] 三个 Token；中文的"今天"通常是两个 Token。这个细节看似无关紧要，但后面会解释它如何导致了 AI 一本正经数不清字母这件荒唐事。

二、Transformer：让 AI 学会"看全文"

猜词游戏的逻辑很清晰，但要真正做好，有一个根本性的难题：怎么处理长文本中的远距离关联？

2017 年之前，主流的语言模型用的是 RNN（循环神经网络）和 LSTM（长短期记忆网络）。它们的工作方式就像传话筒：从左到右逐字阅读，把"当前状态"传递给下一个位置。理论上可以记住之前的内容，但实际上读到后面，早就把前面忘得差不多了。你让它读一篇长文，文章开头出现的主语，文章结尾它很可能已经不知道指的是谁了。

2017 年 6 月，Google 的研究团队发表了一篇论文，题目直接、自信：Attention Is All You Need。他们提出了 Transformer 架构，核心机制是 Attention（注意力机制）。

它和 RNN 的本质差别在于：不再逐字"传话"，而是让每个词都能直接看到句子里的所有其他词。

用一个类比：RNN 是开一排传话筒，消息从一端传到另一端，途中不断衰减失真；Transformer 是开一场圆桌会议，每个人都能直接和桌上其他所有人说话。前者越长越难保真，后者无论多少人都能精准沟通。

这个架构还带来了一个工程上的意外之喜：它可以并行计算。RNN 必须按顺序处理，一步等一步；Transformer 可以同时处理所有位置。这意味着可以用 GPU 进行大规模并行训练——而 GPU 正是 AI 时代的基础设施。

这篇论文今天已被引用超过 17.3 万次，是 21 世纪引用量最高的论文之一。它奠定了此后所有 LLM 的基础架构。

三、训练：用整个互联网教一个学生

有了 Transformer，下一个问题是：怎么教它？

答案是：喂数据，海量的数据。

先理解一个关键词：参数（Parameter）。

初中数学里的 y = ax + b，a 和 b 就是参数——给定一组数据，训练就是找到最合适的值。但这个方程只有两个参数，能描述的关系非常有限。把它扩展成多维：

y = a₁x₁ + a₂x₂ + a₃x₃ + … + aₙxₙ

现在有 n 个参数，n 越大，模型能捕捉的模式就越复杂。语言里的规律——哪些词经常出现在一起、什么语境下该用什么表达——都可以被编码进这些参数里。

LLM 做的是同一件事，只不过规模远超想象：把这样的变换层层叠加几千次，每一层的输出是下一层的输入。最终，GPT-3 有 1750 亿个参数。训练，就是把这 1750 亿个数都调到最合适的值。

GPT-3 的训练，从一个原始数据集说起：Common Crawl，一份对互联网持续抓取的原始网页存档，原始体积约 45TB。经过严格过滤——去掉低质量内容、重复内容、有毒内容——最终得到 570GB 的高质量文本，约 4000 亿个 Token。加上维基百科、书籍等来源，GPT-3 的训练数据接近半万亿词。

这一阶段叫预训练（Pre-training）：模型不断预测下一个 Token，犯错就调整参数，直到它对这半万亿词都能"猜得不错"。在这个过程中，它不只是学会了语法——因为语言本身编码了知识，模型在"学会说话"的同时，也悄悄"学会了"大量关于世界的事实。

但一个只会补全文本的模型，并不是一个好助手。它会继续用户的任何输入，不管那是一个问题、一段有毒的文字还是一句无聊的废话。

这时候需要第二步：微调（Fine-tuning）。

具体分两阶段：

首先是 SFT（Supervised Fine-Tuning，监督微调）：收集人类示范——"这个问题该怎么回答"——让模型学习"好的回答长什么样"。

然后是 RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习）：让人类比较两个回答哪个更好，用这些偏好训练一个"奖励模型"，再用强化学习让 LLM 去最大化这个奖励。

OpenAI 2022 年的研究给出了一个反直觉的结论：经过 RLHF 训练的 13 亿参数小模型，在人类评测中赢过 1750 亿参数 GPT-3 的比例高达 71%。参数量 100 倍的差距，被对齐训练轻松抹平。

模型的大小不是唯一重要的事，它学会了什么、以及怎么表达，同样关键。

规模带来的惊喜：涌现能力

研究者在扩大模型规模时，发现了一件奇怪的事。

某些能力，在小模型上完全不存在，但当参数量过了某个阈值，突然就出现了——而且是断崖式涌现，不是渐进提升。多步算术、逻辑推理、类比推断……Google 的一份研究记录了超过 137 种这样的涌现能力，其中许多在参数量达到约 1000 亿时才首次出现。

这被称为涌现能力（Emergent Abilities）。没有人能完全解释它为什么发生。有理论认为，这只是测量方式造成的假象；也有理论认为，这是复杂系统的真实相变。但无论机制如何，一个事实是确定的：把模型做大，就会出现你原本没有设计的新能力。

四、幻觉：流利不等于正确

现在你理解了 LLM 的底层逻辑：预测下一个 Token，用海量文本预训练，用人类反馈微调。

但也正是这个机制，决定了它的根本局限。

LLM 的本质是统计相关性，不是事实检索。

当你问它"2008 年北京奥运会的开幕式导演是谁"，它不是去数据库里查一条记录，而是根据训练数据里的模式，生成一个"在统计上最像正确答案的文字串"。大多数时候这是准确的，因为正确信息在训练数据里出现频率高。但如果某个冷僻事实的训练数据不足，或者问题超出了它的知识边界，它就会用同样自信的语气生成一个错误答案。

这就是所谓的幻觉（Hallucination）：一本正经地胡说八道。

TruthfulQA 基准测试在 2022 年测量了这个问题：用 817 道专门围绕人类常见误解设计的问题测试 GPT-3，最优条件下真实性得分只有 58%；人类的基准是 94%。更令人不安的发现是：模型越大，得分越低——它"学会"了更多人类的错误知识。

Token 机制带来了另一种局限。还记得 "strawberry" 被切成 [str, aw, berry] 三个碎片吗？LLM 在 Token 的层面上操作，而不是字母层面。它无法"看到"一个词里有几个字母，就像一个只看到词组的人无法数词组里有几个笔画一样。这就是为什么 ChatGPT 曾经无法回答"strawberry 里有几个 r"——不是它不聪明，而是它根本就没在"看"那些字母。（有意思的是，OpenAI 内部将解决这个问题的推理项目代号命名为"Strawberry"，也就是后来的 o1 模型。）

还有一个常被误解的问题：上下文窗口（Context Window）。

现代 LLM 能处理几十万字的文本，这并不意味着它"记住"了所有内容。每次推理，它只处理当前上下文窗口里的内容；窗口之外的信息，对它来说不存在。更关键的是，即使在窗口内，长文本开头的内容也比结尾的影响力更小——距离输出越近的内容权重越高。

一个关键认知值得反复强调："流利"不等于"正确"，"自信"不等于"可靠"。LLM 在输出错误答案时，语气和输出正确答案时一样笃定。它没有"不确定性"的内在信号——至少，第一代 LLM 没有。

结语：一台万亿参数的造句机器，和它的天花板

到这里，你已经理解了 LLM 的底层逻辑：

本质是 Next-Token Prediction，用统计模式预测下一个词
架构是 Transformer，让每个词都能直接看到全文
能力来自规模：用海量数据预训练，用人类反馈微调
局限来自机制：统计相关性不是事实检索，Token 不是字母，流利不等于正确

LLM 学会了说话，而且说得极其流利。但它的回答方式，本质上是"快速直觉反应"——用 Kahneman 的框架来说，这是系统 1。它看到问题，直接输出答案，中间没有"想"的过程。

如果遇到一道复杂的数学题，它可能会自信地给出一个错误答案，就像一个学霸被突然考问时口算出了个错数。

要让 AI 真正"思考"，而不只是"反应"，需要另一个突破——而这个突破，在 2024 年真的到来了。

参考资料

Attention Is All You Need，Vaswani et al.，NeurIPS 2017
Language Models are Few-Shot Learners (GPT-3)，Brown et al.，NeurIPS 2020
Training Language Models to Follow Instructions with Human Feedback (InstructGPT)，Ouyang et al.，NeurIPS 2022
Emergent Abilities of Large Language Models，Wei et al.，TMLR 2022
TruthfulQA，Lin et al.，ACL 2022

AI 是怎么学会说话的 ​

一、从猜词游戏说起 ​

二、Transformer：让 AI 学会"看全文" ​

三、训练：用整个互联网教一个学生 ​

规模带来的惊喜：涌现能力 ​

四、幻觉：流利不等于正确 ​

结语：一台万亿参数的造句机器，和它的天花板 ​