AI

从 Transformer 到 Agent：AI 是怎么一步步学会「用工具」的

AI 的发展这几年看起来变化很快，但如果把它抽象成一条“能力进化路径”，其实逻辑非常清晰：

从语言建模 → 到工具调用 → 到任务执行系统（Agent）

这不是换模型，而是整个系统范式在升级。

1. Transformer：一个“语言世界的预测机器”

Transformer 的本质很简单，但能力上限很高：

它做的事情只有一件：预测下一个 token

但问题也很明确：

它没有“行动能力”
它不连接外部世界
它不执行任务
它只能在文本空间里“模拟世界”

比如：

用户：帮我查一下东京天气
模型：东京今天可能是晴天，温度大约...

注意，它并没有真的去查天气，它只是“像查到了”。

本质限制

Transformer 是一个：

封闭式概率生成系统

它非常像一个“极强的语言专家”，但不是一个“执行者”。

2. 现实世界的矛盾：光会说是不够的

当 AI 开始进入真实业务场景，这个矛盾被放大了：

企业需要查数据库
需要调 API
需要写代码并执行
需要跨系统协作

但 Transformer 做不到这些。

于是行业开始逼它做一件关键的事：

让 AI 从“说”变成“做”

3. 第一阶段升级：Function Calling（工具接口化）

这是 AI 第一次真正“伸手到外部世界”。

模型不再只输出文本，而是输出结构化指令：

{
  "tool": "get_weather",
  "args": {
    "city": "Tokyo"
  }
}

系统执行流程变成：

LLM → 选择工具 → 后端执行 API → 返回结果 → LLM总结

关键变化

AI 第一次具备：

工具选择能力（Tool Selection）
参数生成能力（Argument Generation）
半结构化输出能力

但它仍然有明显限制：

不会规划多个步骤
不会自己决定“要不要继续查”
每一步都是被动触发

可以理解为：

AI 变成了“会点按钮的客服”，但还不会自己办事。

4. 第二阶段：ReAct —— AI 开始“边想边做”

ReAct（Reason + Act）是一个关键思想：

AI 不应该一次性回答，而应该像人一样：思考 → 行动 → 再思考

典型流程：

思考：用户可能想知道天气，需要查询
行动：调用天气工具
观察：得到 18℃
思考：温度较低，建议提醒穿外套
输出：建议带外套

这一阶段的核心突破

AI 获得了三个重要能力：

1. 过程意识

不再是一次性输出，而是“步骤化思考”。

2. 环境反馈

可以根据工具返回结果调整下一步行为。

3. 动态决策

不是固定流程，而是“边走边改路径”。

这一步非常关键，因为它第一次让 AI 有点像“人在工作”。

5. 第三阶段：Agent —— 从模型到系统的跃迁

当你把以下能力组合起来：

工具调用（Tool Use）
多步规划（Planning）
记忆（Memory）
反思（Reflection）
循环执行（Loop）

就形成了一个新的东西：

Agent（智能体系统）

注意一个关键点：

Agent 不是模型，而是“围绕模型构建的执行系统”

6. Agent 的标准结构（工程视角）

一个典型 Agent 系统通常长这样：

            ┌──────────────┐
            │   Planner    │  ← 任务拆解
            └──────┬───────┘
                   ↓
            ┌──────────────┐
            │     LLM      │  ← 推理决策
            └──────┬───────┘
                   ↓
            ┌──────────────┐
            │   Tools      │  ← 外部能力
            └──────┬───────┘
                   ↓
            ┌──────────────┐
            │   Memory     │  ← 状态与经验
            └──────────────┘

每一层的职责非常明确：

Planner（规划器）

把目标拆成子任务
决定执行顺序

LLM（决策核心）

判断当前步骤
选择工具
生成执行策略

Tools（工具层）

SQL
API
Python
搜索引擎
企业系统

Memory（记忆层）

历史执行记录
用户上下文
长期状态

7. Agent 的关键变化：从“回答问题”到“完成任务”

这是本质区别：

能力维度	Transformer	Agent
输出	文本	结果 + 行动
目标	回答问题	完成任务
行为方式	单轮生成	多步执行
是否使用外部系统	❌	✅
是否有状态	弱	强
是否可恢复执行	❌	✅

8. 一个真实 Agent 工作流（企业级）

举个更接近真实系统的例子：

用户：帮我生成本月销售分析报告

Agent 会这样拆：

Step 1：任务拆解

查询数据库销售数据
按地区/产品分类
生成统计图表
输出分析结论

Step 2：执行工具链

SQL Tool → 拉取数据

Python Tool → 清洗与统计

Chart Tool → 生成图表

Report Tool → 输出文档

Step 3：自我检查

数据是否缺失？
是否异常波动？
是否需要重新查询？

Step 4：最终输出

生成完整报告 + 可视化结果

9. 为什么 Agent 是一次“系统级升级”？

很多人误以为：

Agent = 更聪明的 ChatGPT

但实际上：

❗ Agent 是“AI 从模型走向软件系统”的标志

它的本质变化是：

从“生成器” → “执行器”

AI 不再只是输出内容，而是：

调度工具
管理流程
执行任务
控制结果

10. 工业现实：我们已经进入 Agent 工程时代

现在很多你熟悉的产品，本质都是 Agent：

开发领域

自动写代码 + 跑测试 + 修 bug
CI/CD 自动决策

企业系统

自动生成报表
自动处理工单
自动对账

办公产品

文档生成 + 数据查询 + 图表输出
工作流自动化

11. 下一阶段：Agent → 多 Agent 系统（AI 组织）

下一步不会只是“更强的单体 Agent”，而是：

多个 Agent 组成协作系统

比如：

PM Agent：拆需求
Dev Agent：写代码
QA Agent：测试
Ops Agent：部署

这会形成一个趋势：

AI 从“工具”变成“组织”

12. 结语：AI 的真正转折点

如果用一句话总结这条演进路线：

Transformer 解决“理解语言”，Agent 解决“改变现实”

这中间的鸿沟是：

从“我知道” → “我能做” → “我能完成闭环任务”

而这一步，才是真正意义上的 AI 工程化起点。

如果觉得文章对你有用，请随意赞赏

必看精选

从 Transformer 到 Agent：AI 是怎么一步步学会「用工具」的

https://www.lanzlz.cn/archives/1783054932976

作者

琦的AI

发布于

2026-07-03

更新于

2026-07-03

许可协议

CC BY 4.0

从 Transformer 到 Agent：AI 是怎么一步步学会「用工具」的

1. Transformer：一个“语言世界的预测机器”

本质限制

2. 现实世界的矛盾：光会说是不够的

3. 第一阶段升级：Function Calling（工具接口化）

关键变化

4. 第二阶段：ReAct —— AI 开始“边想边做”

这一阶段的核心突破

1. 过程意识

2. 环境反馈

3. 动态决策

5. 第三阶段：Agent —— 从模型到系统的跃迁

6. Agent 的标准结构（工程视角）

每一层的职责非常明确：

Planner（规划器）

LLM（决策核心）

Tools（工具层）

Memory（记忆层）

7. Agent 的关键变化：从“回答问题”到“完成任务”

8. 一个真实 Agent 工作流（企业级）

Step 1：任务拆解

Step 2：执行工具链

Step 3：自我检查

Step 4：最终输出

9. 为什么 Agent 是一次“系统级升级”？

从“生成器” → “执行器”

10. 工业现实：我们已经进入 Agent 工程时代

开发领域

企业系统

办公产品

11. 下一阶段：Agent → 多 Agent 系统（AI 组织）

12. 结语：AI 的真正转折点

作者

发布于

更新于

许可协议

评论