主题
AI 的手脚进化史:从聊天到做事
从 Function Calling 到 MCP,从 Computer Use 到 Agent 落地,AI 用两年时间长出了真正意义上的"手"和"脚"。
2023 年,你让 AI 帮你订一张去上海的高铁票。它的回答大概是:你可以去 12306 或携程搜索,建议提前选好座位,周末票源紧张。
2025 年,你说同一句话。AI 打开浏览器,搜索班次,比价,选出最便宜的那趟,跳转到支付页面,然后停下来问你:请确认支付。
两年,从"动嘴"变成了"动手"。
AI 有了语言能力、推理能力、感知能力。但这一切停留在"理解"层面——它能写订票教程,但自己不会去订。它是一个博学的参谋,不是能替你出差的员工。
要从参谋变成员工,AI 需要两样东西:工具(能调用外部系统)和自主性(能规划并连续执行)。这两样东西,2023 年到 2025 年分四步到位。

第一步:给 AI 装上工具箱(2023)
2023 年 6 月 13 日,OpenAI 更新 API,宣布 gpt-4 和 gpt-3.5-turbo 支持 Function Calling(函数调用)。
这是什么意思?
在此之前,AI 的输出只有一种形式:文字。你问它"现在几点",它只能说"我无法获取实时信息"。Function Calling 改变了这一点——开发者可以用 JSON 格式描述一批函数("查天气""搜数据库""发邮件"),模型在回答时,如果判断需要调用某个函数,就输出一段结构化的调用指令,而不是自然语言。
类比:这就像给一个只会写信的秘书配了一部电话。
一个月后,同样是 OpenAI,又推出了一个特殊的"工具"——Code Interpreter(代码解释器),后来改名 Advanced Data Analysis。
它的逻辑和 Function Calling 一脉相承,但工具换成了一个 Python 运行环境:AI 写好代码,沙箱直接执行,把结果返回给模型。这解决了一个长期痛点——AI 在做数字计算时容易出错,不是因为它"不懂数学",而是因为它在用"猜"的方式生成答案。有了 Code Interpreter,AI 不再猜,它写代码、跑代码、看结果。1 万行数据的统计、复杂公式的求解、图表生成——从"容易出错"变成"几乎不出错"。
这个逻辑后来被彻底放大:如果 AI 能写代码并执行,它就不需要在脑子里"算"任何东西——把计算扔给机器。Vibe Coding 的底层逻辑,就发源于此。
生态反应非常快。同年 3 月,BabyAGI 和 AutoGPT 已经出现——在 Function Calling 之前,它们就开始尝试让 GPT-4 "自主执行任务",方式是把工具描述直接塞进 prompt,然后让模型反复对话。AutoGPT 在几个月内累积了超过 10 万 GitHub Stars,成为当时增长最快的开源项目。
这场热潮很快退烧。
AutoGPT 最常见的失败模式是:进入死循环。它不记得自己已经做过什么,同一个搜索执行了五遍。或者陷入"规划-重新规划"的幻觉循环,耗尽 API 调用额度,什么都没做成。最根本的问题是:模型的推理能力不足以支撑连续自主决策。
一个不能稳定推理的模型,给了工具也是一把双刃剑。
但这次失败是有价值的。它告诉整个行业:Agent 的瓶颈在哪里。
第二步:让 AI 操控任何软件(2024)
Function Calling 的边界很清晰:AI 只能调用开发者预先定义好的函数,有 API 的工具才能用。12306 没有给 AI 开接口,那 AI 就不能订票。
2024 年 10 月 22 日,Anthropic 发布 Computer Use(计算机使用),直接跨过了这道门槛。
Claude 可以像人一样操控电脑:看屏幕截图、移动鼠标、点击按钮、输入文字。它不需要 API——任何人类能在电脑上完成的操作,它理论上都能完成。12306、Excel、本地文件管理器、你公司的内网系统——全部可以。
这个跨越的意义是:AI 的执行边界 = 人类的操作边界。
当然,2024 年 10 月的 Computer Use 还远不够好用。在 OSWorld 基准测试(测试模型完成真实计算机任务的能力)上,Claude 3.5 Sonnet 的初始成绩是 14.9%——同期最好的竞争对手是 7.8%。"最好"意味着 85% 的任务还是完不成。速度慢,精度低,容易在操作到一半时"迷路"。
但方向已经确立,能力曲线开始陡升。到 2026 年 2 月,Claude Sonnet 4.6 在 OSWorld 上的成绩达到 72.5%——一年多里提升了近 5 倍。
第三步:统一语言,打通生态(2024)
工具有了,操控有了,但还有一个更隐蔽的问题。
想象这个场景:100 个 AI 应用,各自连接 200 个外部工具(数据库、浏览器、文件系统、代码编辑器……)。如果没有统一标准,每对连接都要单独开发——100 × 200 = 2 万个适配方案。新出一个模型,整套工作再来一遍。
2024 年 11 月 25 日,Anthropic 发布 MCP(Model Context Protocol,模型上下文协议)。
MCP 的思路是:让工具提供方和模型提供方各实现一次标准协议,剩下的自动互通。就像 USB 接口出现之前,每个外设都有自己的专属线,接口标准化之后,任何设备插上去都能用。
MCP 的 USB 类比绝非夸大。到 2025 年 4 月,MCP 的累计下载量超过 800 万次。2025 年中期,生态里已有超过 5800 个 MCP Server,覆盖 Google Drive、GitHub、Slack、Postgres、浏览器控制、本地文件系统等几乎所有主流工具。2025 年 3 月,OpenAI 正式宣布采用 MCP,这个标准从 Anthropic 的私有协议变成了行业共识。
MCP 的深层意义是:Agent 能力变得可组合、可共享、可复用。
一个 Agent 应用不再需要从零搭建工具箱;一个工具只要支持 MCP,就能被所有兼容 MCP 的 Agent 使用。这为 2025 年 Agent 产品的爆发提供了基础设施。
第四步:从演示变成产品(2025)
三个基础件就位:稳定的推理模型、工具调用能力、标准化的工具生态。
2025 年 3 月 6 日,Manus 发布。
它是一个通用 AI Agent:你给它一个目标,它自己规划步骤——搜索、写代码、操控浏览器,在云端沙箱里把任务完成,全程你可以旁观,也可以随时介入。上线 7 天内,超过 200 万人加入候补名单。邀请码在二手平台被炒到 5 万元人民币。
它的走红不是因为技术上有多突破性,而是因为它第一次把"AI 自主做事"变成了普通人能感受到的产品形态。在 Manus 之前,Agent 是开发者的工具;Manus 之后,Agent 开始有了普通用户。
同月,Anthropic 推出 Claude Code:一个运行在终端里的 Coding Agent,直接在你的代码库中工作——读文件、写代码、跑测试、提 PR,全程不需要人盯着。
能力数字可以量化。SWE-bench(软件工程基准测试) 评估模型在真实 GitHub Issue 上的修复能力:2023 年 10 月,最好的 Agent 只能解决约 2% 的问题;2025 年 11 月,Claude Opus 4.5 达到 80.9%——两年,约 40 倍的提升。开发者从"写代码的人"变成了"审代码的人"。Andrej Karpathy 把这种工作方式称为 Vibe Coding(氛围编程)——"I just see things, say things, run things, and copy-paste things, and it mostly works."
能做什么,不能做什么
Agent 落地了,但它不是万能的。理解它的边界,比知道它能做什么更重要。
可以放心交给 Agent 的任务,有一个共同特征:结构明确,对错可验证。代码生成、数据分析、信息检索、文件整理——这些任务 Agent 完成得稳定,错了也容易发现。
需要人类配合的任务:涉及主观判断、人际关系、商业决策的场景。Agent 可以提供选项,但"选哪个"这件事最好还是人来做。AI 是概率机器,它给出的是最可能的答案,不是最正确的判断。
危险的任务:不可逆的操作——删除文件、发送正式邮件、执行金融交易。一旦 Agent 出错,代价无法挽回。目前业界的共识是:对于高风险操作,Agent 在执行前必须先停下来问人。
一个实用的判断框架:任务的可逆程度 × 错误的后果 决定了你该给 Agent 多大的自主权。

搜索信息?放手让它做。起草邮件?让它写,你来审。给重要客户发邮件?你点发送键。
这是 AI 行动能力的四步进化:工具(2023)→ 直接操控(2024.10)→ 生态标准(2024.11)→ 产品落地(2025)。
两年时间,AI 从"动嘴"变成了"动手"。技术窗口已经打开,接下来的问题不是"能不能"——而是:你打算让它做什么,以及不打算让它做什么。