像 Agent 一样思考:构建 AI 应用的心智模型

像 Agent 一样思考:构建 AI 应用的心智模型

作为技术人员,我们在面对新技术时,往往习惯用旧的隐喻去理解它们。

  • 我们把区块链看作“不可篡改的分布式数据库”。
  • 我们把 React 看作“自动刷新的模板引擎”。
  • 我们把 LLM 看作“会说话的知识库”。

这是当前 AI 应用开发中最大的误区。如果你还在抱怨 ChatGPT 回答不准确、满嘴跑火车(幻觉),那你可能还在像用 Google 一样用它。

在构建 AI Agent 时,我们需要一个根本性的认知转变:LLM 是推理引擎 (Reasoning Engine),而不是知识库 (Knowledge Base)。

1. “新员工”隐喻

想象你是咨询公司的老板,刚招了一个常春藤毕业的、有点死脑筋的实习生。

他的特点

  1. 推理能力极强:阅读理解满分,逻辑归纳满分,能从一堆乱七八糟的文档里总结出核心观点。
  2. Stateless & 没常识:他刚进公司,对你的业务一无所知。你问他“去年 Q4 净利润是多少?”,他脑子里没有数据。为了完成任务,他只能瞎编一个数字(幻觉)。
  3. 绝对服从 (Instruction Following):你给他什么工具,他就用什么工具。

作为老板(开发者),你应该怎么用这个员工?

错误的用法(当成知识库)

“小王,告诉我公司去年净利润是多少?” 结果:小王瞎编了一个数。你查数据库发现错了,大骂 AI 没用。

正确的用法(当成推理引擎)

“小王,这里是内部数据库的查询接口 (Tool),这里是财报文件的路径 (Context)。请利用这些工具,查询去年的财报,计算净利润率,并总结三个亮点。” 结果:小王调用 API 拿到了真实数据,利用逻辑能力分析得头头是道。

这就是 RAG (Retrieval-Augmented Generation)Agents 的本质。我们不指望 LLM “记住”知识(因为训练数据里的知识是压缩的、有损的、过时的),我们只用它的“推理”能力来处理我们要它处理的实时信息。

2. Agent 的核心循环:Plan - Act - Check

人类解决复杂问题时,会下意识地拆解步骤。现代 AI 系统也必须显式地设计这个循环。

这也是 ReAct (Reason + Act) 论文的核心思想。

Phase 1: Planning (规划)

收到一个模糊指令(如“帮我订一张去东京的便宜机票”)时,LLM 第一件事不应该去调 API,而是生成计划。

  • Thinking: 用户从哪出发?几号?
  • Thinking: “便宜”的定义是什么?直飞还是中转?
  • Plan: 1. 询问用户出发地和日期。 2. 搜索航班。 3. 按价格排序。

Phase 2: Execution (执行)

根据第一步的计划,LLM 选择合适的 Tool。 这里体现了 LLM 作为 Router (路由) 的价值。传统软件很难区分“订机票”和“查天气”,往往需要硬编码 if (intent == 'book_flight')。而 LLM 可以根据语义自动路由到 DataPickerWeatherAPI

Phase 3: Reflection (反思/检查)

这是目前 Agent 系统中最缺失的一环,也是区分 Demo 和 Production 的分水岭。 模型生成的 API 调用参数可能是错的。模型生成的代码可能跑不通。 我们需要引入 Critic (批评家) 角色(通常也是一个 LLM)。

Agent: Calls weather_api({ city: "Beijing" }) Environment: Returns 200 OK Critic (Self-Reflection): 等等,用户问的是“明天”,API 返回的是“即时天气”。这个结果不符合预期。我需要重新调用 weather_api({ city: "Beijing", date: "tomorrow" })

这种 Self-Correction (自我修正) 循环,是构建鲁棒 Agent 的关键。

3. 未来的软件架构:概率与确定性的融合

未来的软件架构,不再是硬编码的逻辑树 (if-else),而是 由自然语言连接的概率模块

  • 传统软件

    • 输入:确定性数据 (Click Event, JSON)。
    • 过程:确定性逻辑 (Code)。
    • 输出:确定性 UI 变化。
  • AI 软件

    • 输入:模糊意图 (Natural Language)。
    • 过程:Prompt Chain + Reasoning。一个概率性过程。
    • 输出:执行结果。

这种架构对 容错性 (Fault Tolerance) 提出了极高要求,但带来的 可能性 (Possibility) 是无限的。

4. 放弃“全知全能”的幻想

从 GPT-3 到 GPT-4,再到未来的 GPT-5,模型会变聪明。但作为开发者,我们不能干等着模型变完美

哪怕是最聪明的人类员工也会犯错。关键在于我们如何设计 Workflow (工作流)Guardrails (护栏),让这个不完美的员工产出完美的结果。

  • 把记忆交给向量数据库。
  • 把精确计算交给 Python 代码和 Calculator 工具。
  • 把逻辑推理交给 LLM。

这就是 2025 年 AI 应用开发的终极哲学。