AI 大模型发展史：从 ChatGPT 到 Agent 时代（2022-2026）

从生成式 AI 到推理模型，从工具调用到自主 Agent，一文回顾 AI 大模型的关键里程碑。

AI 进化大图景

从 2022 年底 ChatGPT 的惊艳亮相，到 2026 年初本地 Agent 的全面爆发，AI 在短短四年间完成了一次角色蜕变：从被动响应的信息助手，进化为能够自主执行任务的本地执行官。

这不是一次线性升级，而是一场"角色定位"的根本性变革。如果说 2022 年的 AI 是一个博学但被动的图书管理员，2024 年它成了一个能独立思考的参谋，到 2026 年，它已经是一个能替你动手干活的雇员——而且不知疲倦，不要工资。

这篇文章沿着四条主线——思考、感知、行动、普及——梳理这段进化史中的关键节点。

四条演进主线概览

四条演进主线

一、思考：从预测词语到真正推理

思考演进

AI 最早的本质是"猜下一个词"——给定前文，预测最可能出现的下一个 token。这让它能写文章、回答问题，但遇到需要多步推理的题目就会出错，像一个博学但不爱动脑的人。用诺贝尔经济学奖得主 Daniel Kahneman 的框架来说，早期 AI 只有"系统 1"——快速直觉反应，没有"系统 2"——慢速深度思考。

2022 年底 ChatGPT 的爆发，让世界第一次大规模感受到这种能力的上限。它上线仅两个月用户突破一亿，成为人类历史上增长最快的消费级应用，远超 TikTok 用 9 个月、Instagram 用两年半达到同一里程碑的速度。它流利、它博学，但它不会真正"想"。你问它"9.11 和 9.8 哪个大"，它可能自信地告诉你 9.11 更大——因为它本质上在做模式匹配，而不是数学运算。

转折发生在 2024 年 9 月。OpenAI 发布 o1，首个推理模型。它在回答前会先在内部"想一想"（Chain-of-Thought），数学、代码、逻辑题的正确率大幅跃升。在国际数学奥林匹克的基准测试中，o1 的得分从 GPT-4 的 13% 飙升至 83%。这不只是更快，是范式的转变——从"流利地猜"变成"认真地想"。OpenAI 的研究负责人 Mark Chen 将其描述为"教会模型在说话之前先思考"。

2025 年 1 月，DeepSeek 发布 DeepSeek R1，用不足 OpenAI 百分之一的训练成本（据报道约 560 万美元），达到与 o1 相近的推理水平。它在论文中明确提出 RLVR（Reinforcement Learning from Verifiable Rewards）：无需人工标注，只靠可自动验证的奖励信号（比如数学题对错）做强化学习，纯 RL 就能催生推理能力。更令人震惊的是，在训练过程中，模型自发涌现出了"自我反思"和"回溯检查"等行为——没有人教它这么做，它自己学会了。这件事震动全球，重新定义了"顶级 AI 能力需要多少钱"。DeepSeek R1 发布当周，美国科技股市值蒸发超过一万亿美元，英伟达单日跌幅近 17%。

DeepSeek R1 与锯齿形智能

今天，推理模型已成标配，Test-time Compute（推理时多花算力慢慢想）成为继预训练规模之后新的扩展维度——OpenAI 的研究显示，推理时的算力投入和最终表现之间存在近似线性的 Scaling Law。但能力边界依然奇怪——同一个模型，能解开竞赛级数学题，却曾经数不清 "Strawberry" 里有几个字母 "r"。哈佛商学院的 Ethan Mollick 教授与波士顿咨询（BCG）在一项联合研究中，将这种现象命名为 Jagged Intelligence（锯齿形智能）：AI 的能力边界不是一条平滑的线，而是一道参差不齐的锯齿——在某些任务上超越 99% 的人类，在另一些看似简单的任务上却不如小学生。这提醒我们：AI 依然是统计学的产物，不是人类大脑的复刻。使用 AI 的人需要建立一种新的直觉——知道何时可以信任它，何时必须亲自把关。

二、感知：从读文字到看、听、生成视频

感知演进

语言模型诞生时只能处理文字——它的世界是一维的、纯文本的。过去三年，它的感知边界被逐步打开，从图像到语音再到视频，AI 正在获得越来越接近人类的"感官"。

2022 年，图像生成先爆发。Stable Diffusion 开源，任何人用一台普通电脑就能把文字变成图像——AI 创作第一次真正进入普通人手中。在此之前，OpenAI 的 DALL·E 2 和 Google 的 Imagen 已经展示了文生图的可能性，但它们都是闭源的、受限访问的。Stable Diffusion 的开源打破了这道门槛，上线第一个月就有超过 1000 万用户尝试，围绕它涌现出 Midjourney、Civitai 等庞大的创作者生态。艺术家和设计师群体对此反应截然分裂——有人视其为解放创造力的工具，有人视其为对原创作品的系统性掠夺。

随后是理解方向的突破。GPT-4（2023.03） 开始支持图像输入，AI 能"看懂"一张图并回答问题——你可以拍一张冰箱里的照片，它能告诉你这些食材可以做什么菜。GPT-4o（2024.05） 则更进一步——它是第一个真正端到端的多模态模型，文字、语音、视觉由同一个模型统一处理，而不是靠插件拼接。OpenAI 在发布会上的实时演示让人想起电影《Her》中的场景：打开手机对着面前的东西说话，它能实时回应，延迟低至 232 毫秒，接近人类正常对话的反应速度。Sam Altman 在发布后发了一条推文，只有一个词："her"。

视频是最后也是最难的边界。2024 年 2 月，OpenAI 发布 Sora，文字直接生成长达一分钟的连贯视频，物理规律、光影变化、镜头运动都达到了令人震惊的一致性。这不仅是视觉的升级，更意味着 AI 开始理解物理世界的运动规律和因果逻辑——Sora 的技术报告将其定位为"世界模拟器"（World Simulator）。Kling（快手）、Veo（Google）、Seedance（字节）相继跟进，视频生成从"演示级"走向"可用级"。

多模态统一与视频生成

感知能力的扩展意味着：AI 理解世界的方式，正在从"阅读关于世界的描述"变成"直接感知世界本身"。当一个系统能同时看、听、说、读的时候，它与人类的交互就不再是冰冷的命令行输入，而是自然的、类人的沟通。

三、行动：从聊天到替你做事

行动演进

这是过去两年变化最剧烈的一条线，也是最接近"AGI"想象的方向。如果说思考赋予了 AI "大脑"，感知赋予了它"感官"，那么行动能力就是它的"四肢"——它终于能从"纸上谈兵"变成"真枪实干"。

第一步：给 AI 装上工具（2023）

2023 年 6 月，GPT-4 引入 Function Calling。AI 第一次能结构化地调用外部工具——查天气、搜数据库、发邮件。它不再只是"说"，开始能"做事"。这看似是一个小小的 API 更新，但其意义深远：它标志着 LLM 从一个"语言生成器"转变为一个"任务调度中心"。开发者社区迅速嗅到了机会，2023 年下半年出现了 AutoGPT、BabyAGI 等早期 Agent 项目，GitHub 上一度掀起"万物皆可 Agent"的热潮。虽然这些早期项目大多因为模型能力不足而停留在"演示阶段"，但它们为后来的 Agent 浪潮播下了种子。

第二步：让 AI 操控电脑（2024）

2024 年 10 月，Anthropic 推出 Computer Use，Claude 能像人一样操控电脑桌面：移动鼠标、点击按钮、截图、输入文字。Agent 第一次真正伸手触碰真实世界。这意味着 AI 不再需要专门为它开发 API——任何人类能在电脑上完成的操作，AI 理论上都能完成。虽然初期的操控精度和速度还不够理想，但方向已经明确：AI 的执行边界 = 人类的操作边界。

同年 11 月，Anthropic 发布 MCP（Model Context Protocol），一个开放标准协议，统一了 LLM 与外部工具、数据源的连接方式。MCP 的意义类似 USB 接口——在此之前每个工具都要单独适配，有了 MCP，Agent 能力开始可组合、可复用。短短几个月内，围绕 MCP 的生态迅速成型：数据库、浏览器、代码编辑器、文件系统等几十个 MCP Server 被开发出来，形成了一个 Agent 能力的"应用商店"。

Computer Use 与 MCP

第三步：云端 Agent 产品化（2025）

2025 年 3 月，Manus 发布，首个真正产品化的通用 Agent：给它一个目标，它自己规划步骤、搜索、写代码、操控浏览器，在云端沙箱里完成复杂任务。发布后 72 小时内邀请码被炒到数百美元，一码难求。同月，Anthropic 推出 Claude Code，让 Agent 直接在代码库里自主工作——读文件、写代码、跑测试、提 PR，全程不需要人介入。这也催生了一种新的软件工程模式：开发者从"写代码的人"变成了"审代码的人"。

软件开发的范式同步被重构。Andrej Karpathy 在 2025 年 2 月提出 Vibe Coding（氛围编程）：不需要真正写代码，只管用自然语言说需求，AI 全程生成和调试。他在社交媒体上写道："I just see things, say things, run things, and copy-paste things, and it mostly works."（我只是看、说、跑和复制粘贴，大多数时候就能跑通。）他提出了一个更深的洞察——代码的坍缩：代码从"长期资产"变成了"一次性中间产物"，免费、短暂、可随意丢弃。这对整个软件工程的价值体系是一次根本性的冲击：如果代码可以随时重新生成，那么"代码质量""技术债"这些概念的意义是否需要被重新审视？

第四步：本地 Agent 爆发（2026）

云端 Agent 有一个根本性的问题：你的数据必须上传到别人的服务器。你的聊天记录、工作文件、个人习惯——一切都暴露在第三方的基础设施中。对于个人用户来说，这是隐私焦虑；对于企业来说，这是合规红线。

2026 年初，OpenClaw 横空出世，45 天突破 100,000 GitHub Stars（截至目前累计 190,000+），成为 GitHub 史上增长最快的开源项目之一。它运行在用户自己的机器上，将 WhatsApp、Telegram、Slack 等消息平台与本地 LLM + Agent 深度整合，替你发消息、跑脚本、管日历——数据不出本地，一条命令启动。

它的爆发不是偶然。它卡位的，是"只会聊天的 AI"与"过于工程化的 AutoGPT"之间长达两年的断层：普通人第一次真实感受到"AI 可以替我操作电脑"，而且不需要把隐私交出去。OpenClaw 的成功验证了一个判断：AI Agent 的终局不在云端，而在本地。 用户不想要一个替他做事但看得见他一切的全能管家，他要的是一个住在自己家里的助手。

Agent 产品化与本地爆发

能力边界的跃迁路径清晰可见：信息 → 决策 → 执行；从"只能说"到"真的做"。

四、普及：从大公司专利到人人可用

普及之路

AI 能力的演进，始终伴随着另一条线——谁能用得上。技术本身的强弱固然重要，但真正改变世界的，是它从实验室走向每个人手中的速度。

2023 年 7 月，Meta 开源 Llama 2，开源大模型生态全面爆发。在此之前，训练和运行一个强力大模型需要巨额算力和闭源授权。Llama 2 之后，任何人都可以在自己的机器上运行一个，自由微调、自由部署。开源社区的热情在随后两年持续燃烧——Mistral（法国）、Qwen（阿里）、GLM（智谱）等一批高质量开源模型涌现，形成了对 OpenAI 闭源路线的有力制衡。Meta 的 AI 负责人 Yann LeCun 多次公开表示："开源是 AI 安全的最佳路径"——这一判断正在被越来越多的事实验证。

2025 年初 DeepSeek R1 则是另一个维度的普及——不只是模型开源，而是证明了顶级推理能力不需要顶级预算。训练成本不足 OpenAI 百分之一的模型，能达到同等水平。这直接动摇了"只有大公司才能做前沿 AI"的认知。随之而来的是一场 API 价格战：以 GPT-4 级别的能力为基准，2024 年初每百万 token 的调用成本约为 30 美元，到 2025 年底已降至不到 1 美元——跌幅超过 97%。推理从"烧钱的奢侈品"变成了"可以随意调用的基础设施"——这才是 OpenClaw 这类本地 Agent 能够爆发的真正经济基础。

开发门槛也在同步下降。Vibe Coding 的出现意味着，写代码这件事本身的门槛被拆掉了——软件开发从"需要学编程"变成了"需要能描述需求"。Y Combinator 2025 年冬季批次中，有约四分之一的创业公司的代码库中超过 95% 由 AI 生成。Qwen（阿里）、GLM（智谱）等国内开源模型持续跟进，确保这场普及不只发生在英语世界。

成本下降与生态爆发

2026 年 2 月的密集发布——Claude Opus 4.6、Gemini 3.1 Pro、Qwen 3.5-Thinking、GLM-5、Doubao-Seed-2.0——是这条线的最新注脚：推理模型已成标配，模型迭代从"季度级"压缩到"月度级"。AI 进入高速消耗品时代，顶级能力正在以越来越快的速度变得普通。正如 Anthropic CEO Dario Amodei 在 2025 年发表的长文《Machines of Loving Grace》中所预言的：AI 的发展速度不是线性的，它在加速，而我们感知这种加速的能力正在跟不上变化本身。

大事记

大事记时间线（上）

大事记时间线（下）

时间	事件
2022.08	Stable Diffusion 开源，图像生成平民化
2022.11	ChatGPT 发布，两个月用户破亿
2023.03	GPT-4 发布，支持图像输入
2023.06	Function Calling 上线，Tool Use 时代开启
2023.07	Llama 2 开源，开源生态全面爆发
2024.02	Sora 发布，文字生成视频
2024.03	Devin 发布，"首个 AI 软件工程师"
2024.05	GPT-4o 发布，首个端到端多模态模型
2024.09	o1 发布，推理模型范式开启
2024.10	Computer Use，Agent 操控真实电脑
2024.11	MCP 发布，工具连接标准化
2025.01	DeepSeek R1，低成本推理震撼全球
2025.02	Vibe Coding 概念提出，代码开始"坍缩"
2025.03	Manus + Claude Code，Agent 产品化落地
2026.初	OpenClaw，本地 Agent 爆发
2026.02	各大厂密集更新，推理模型成标配

四条演进主线，本质上是同一件事的四个切面：AI 正在从一个你需要主动去用的工具，变成一个主动替你做事的系统。思考能力让它变得可信，感知能力让它理解世界，行动能力让它触碰现实，而普及则决定了这场变化属于所有人，而不只是少数人。

现在是 2026 年初。推理成本趋近于零，Agent 开始在本地运行，模型迭代的速度快过大多数人学会上一个版本的速度。一个深层的问题浮出水面：当 AI 能够处理越来越多的执行细节，人类的核心竞争力将不再是"如何操作工具"，而是你的意图（Intentionality）——如何清晰地定义目标、如何做出 AI 无法替代的价值判断、如何在"万物皆可自动化"的浪潮中，保持对复杂系统的掌控力和对模糊问题的洞察力。

下一个问题不再是"AI 能做什么"，而是"我们想让它做什么，以及不想让它做什么"。

AI 大模型发展史：从 ChatGPT 到 Agent 时代（2022-2026） ​

四条演进主线 ​

一、思考：从预测词语到真正推理 ​

二、感知：从读文字到看、听、生成视频 ​

三、行动：从聊天到替你做事 ​

第一步：给 AI 装上工具（2023） ​

第二步：让 AI 操控电脑（2024） ​

第三步：云端 Agent 产品化（2025） ​

第四步：本地 Agent 爆发（2026） ​

四、普及：从大公司专利到人人可用 ​

大事记 ​