很多企业现在已经过了“要不要用 AI”的阶段,真正的问题变成了:怎么让 AI 从一个局部工具,变成组织持续复利的一部分。

Anthropic 这份《Building AI agents for the enterprise》讲的核心不是某个产品功能,而是企业落地 AI agents 时的一条分水岭:

一边是把 AI 当成聊天框。员工问一句,它答一句;某个团队做一个 demo,短期看起来很酷,但很难进入真实生产流程。

另一边是把 AI 当成可以理解上下文、调用工具、执行多步骤任务的工作系统。它不只是回答问题,而是能参与员工工作、流程自动化和产品能力建设。

这篇文章我会从技术落地视角拆一下:企业为什么需要 agents,应该先改什么,怎么设计试点,以及哪些坑最容易让 AI 项目停在 demo 阶段。

1. Chatbot 和 Agent 的差别,不是界面,而是责任边界

很多企业的第一步都是上一个 chatbot:接 FAQ、查文档、总结会议、写邮件。

这当然有价值,但 chatbot 的工作方式通常是单轮的:用户提出问题,模型返回答案。它不负责拆解任务,也不负责调用系统,更不负责把结果落到某个业务流程里。

Agent 的边界更大。它需要能做几件事:

  • 理解目标,而不是只理解一句 prompt
  • 拆成多个步骤
  • 在步骤之间保留状态
  • 调用内部工具和数据源
  • 根据中间结果调整路径
  • 产出可以交付、审计、复用的结果

比如销售场景里,一个 chatbot 可以回答“这家公司是做什么的”。一个 agent 应该能从 CRM、会议记录、历史邮件、竞品库里拉数据,生成一份客户拜访 briefing,并标出风险、机会和下一步建议。

这就是差别。chatbot 是问答界面,agent 是工作流执行层。

2. 企业 AI 的第一件事:给模型组织上下文

通用模型默认不知道你的公司怎么工作。

它不知道销售团队怎么定义有效商机,不知道法务团队对合同条款的风险分级,不知道财务团队的科目口径,不知道市场团队的品牌语气。没有这些上下文,AI 只能产出“看起来还行”的通用内容,最后仍然需要人重新改一遍。

企业真正的效率来自把组织知识编码进去:

组织标准
  ├─ 术语表
  ├─ 品牌语气
  ├─ 合规要求
  ├─ 审批流程
  ├─ 报表口径
  ├─ 风险框架
  └─ 工具连接方式

这个动作比选模型更重要。两个团队用同一个模型,结果差异可能非常大,原因不是模型能力不同,而是上下文质量不同。

Anthropic 文档里举了几个典型例子:

  • 销售团队连接 CRM、会议记录和客户研究工具,自动生成 call prep
  • 财务团队连接数据仓库,按公司口径生成 reconciliation report
  • 法务团队按内部风险框架审合同,标出偏离标准条款的部分
  • 市场团队按品牌规范生成 campaign brief,并拉取历史表现数据

这些场景的共同点是:AI 没有被当成一个孤立工具,而是被放进了组织已有的知识、数据和流程里。

3. 从员工、流程、产品三个层面看落地路径

企业做 AI agents,不能只盯着“节省多少工时”。更好的拆法是看三层:员工、流程、产品。

员工:让专家能力扩散

第一层是让员工变强。

这里的重点不是让 AI 替代专业判断,而是把重复、密集、低杠杆的信息处理交给 AI。财务分析师少花时间从多个系统拉数据,多花时间解释数据背后的含义;市场同学少花时间重做竞品分析,多花时间判断定位和策略。

最好的信号是:非技术员工不需要理解底层系统,也能完成过去必须依赖专家或数据团队的工作。

L’Oreal 的案例很典型。他们搭了一个基于 Claude 的内部多 agent 平台,让员工用自然语言查询数据,再由系统路由到 15 个以上的专门 agent,生成答案和可视化。结果是每月 44,000 用户、每天 15,000 活跃用户, conversational analytics 准确率达到 99.9%。

这里真正被产品化的不是“聊天”,而是数据团队过去积累的查询能力、指标理解和业务解释能力。

流程:把专家复核变成系统反馈

第二层是流程加速。

企业流程通常慢,不是因为人不努力,而是因为信息量大、责任重、容错率低。监管文件、合同审查、客户支持、临床研究报告,都是典型场景。

AI 进入这些流程后,关键不是“一次生成完美结果”,而是让专家复核可以反哺系统。每一次专家修正、批准、拒绝,都应该成为下一次执行的上下文。

这样系统才有复利:

第一次执行:AI 生成初稿,人类大量修改
第二次执行:AI 复用批准模板和修正记录,人类少改一点
第 N 次执行:AI 已经吸收大部分组织标准,人类主要做判断

Lyft 的客户支持案例就是这个方向。他们用 Claude 做 support assistant,让系统根据客户具体情况调查和处理问题,必要时再把 AI 生成的摘要交给人工客服。结果是支持解决时间降低超过 87%,决策准确率提升超过 30%。

这个数字背后的关键不是“回复更快”,而是 agent 能进入支持流程,查上下文、判断情况、把复杂 case 路由给人。

产品:把 AI 变成新的能力层

第三层是产品转型。

这一步和前两层不一样。员工和流程更多是降本增效,产品层则可能带来新收入、新市场和新的切换成本。

企业在这里的优势不是“我也接了一个模型 API”,而是组合能力:

  • 自有数据
  • 客户信任
  • 领域知识
  • 合规能力
  • 现有系统集成
  • 分发渠道

AI 是能力放大器,壁垒来自 AI 周围的东西。

Rakuten 的案例很有代表性。他们有 70 多个业务,一开始自己搭 agentic infrastructure,包括持久计算、记忆和存储。后来采用 Claude Managed Agents,把执行层交出去,让工程资源回到差异化体验上。结果是专门 agent 可以在一周内上线,重大产品发布从每季度一次变成每两周一次,pilot 中关键错误下降 97%。

这里有个很重要的工程判断:不是所有底层能力都值得自己维护。如果 agent 执行层消耗了大量工程时间,产品团队可能还没做出差异化体验,就先被基础设施拖慢。

4. 信任边界决定 AI 产品能不能上线

企业 AI 项目最容易低估的一件事,是信任边界。

在金融、医疗、法务这类场景里,问题通常不是“模型能不能做”,而是“数据能不能这样流动”。客户数据能不能离开安全边界,谁可以访问,日志怎么审计,合规团队能不能复盘,这些问题决定产品能不能上线。

很多 AI demo 看起来很好,但一进入安全审查就卡住。原因是架构一开始没有把信任边界当成第一约束。

更合理的顺序应该是:

先定义信任边界
再定义可访问数据
再定义工具权限
再设计 agent 工作流
最后优化体验和效率

如果反过来,先做一个功能完整的 demo,再补权限、审计和数据隔离,通常会很痛苦。

这也是企业 agent 和个人效率工具最大的差异。个人工具可以追求灵活,企业 agent 必须默认可治理、可审计、可撤销。

5. Plugins 和 Skills 的本质:把最佳实践产品化

Anthropic 在文档里提到 Claude Cowork、plugins、skills 和 MCP。把产品名放一边,背后的模式更值得关注。

企业需要一种机制,把某个团队的工作方法打包成可复用能力。

一个法律团队的 plugin 不只是连上合同库,它应该包含:

  • 合同模板
  • 风险条款清单
  • 审批路径
  • 常见让步策略
  • 内部术语
  • 输出格式
  • 可调用工具

一个销售团队的 plugin 也不只是连上 CRM,它应该包含销售阶段定义、客户分层规则、竞品资料、call prep 模板和后续跟进标准。

这类配置一旦可复用,组织知识就不再只存在于资深员工脑子里。新员工、跨区域团队、相邻职能都可以直接继承同一套实践。

从工程角度看,plugins 和 skills 解决的是“组织知识的部署问题”:

隐性经验 → 显性流程 → 可执行工作流 → 可复用组织能力

如果没有这层封装,每个团队都会各自写 prompt、各自接工具、各自调流程,最后形成新的 shadow AI sprawl。

6. 一个更稳的企业试点框架

企业 AI 试点不要一开始就追求全公司铺开。更稳的方式是选一个高痛点、可衡量、上下文明确的场景。

第一阶段:定义成功标准

先找 2 到 3 个团队,每个团队只选一个具体流程。

不要写“提升生产力”这种目标,要写能验收的指标:

  • 销售 call prep 时间减少 50%
  • 合同初审从 5 天缩短到 1 天
  • 文档初稿质量达到最终稿的 80%
  • 客服解决时间降低 60%
  • 数据分析请求从提交工单变成自然语言自助查询

指标越具体,试点越不容易变成主观争论。

第二阶段:做 champion pilot

第二阶段让 2 到 3 个 champion team 在真实生产流程里使用,而不是 sandbox demo。

这里要同时看两类数据:

  • 定量指标:使用频率、节省时间、错误率、返工次数、处理周期
  • 定性反馈:员工在哪些场景觉得“这东西真的懂我”,又在哪些场景觉得不可信

很多有价值的发现来自定性反馈。比如用户不一定说“节省了 30 分钟”,但会说“我现在敢直接拿它生成的第一版去开会”。这往往比单纯节省时间更说明问题。

第三阶段:把能力治理起来

试点成功后再扩展到更多团队。

这一步要补齐治理层:

  • plugin marketplace
  • 权限控制
  • 审批流程
  • 使用日志
  • 成本控制
  • 输出审计
  • 数据访问边界
  • 版本管理

治理不是大公司病,而是规模化前提。没有治理,AI 工具会像 SaaS 一样在组织里野蛮生长:每个团队都有自己的工具、prompt、账号和数据出口,最后安全、成本和标准全部失控。

7. 技术团队应该优先建设什么

如果从技术团队视角落地,我会把优先级排成这样:

第一,连接真实系统

Agent 不能只读静态文档。它要能连接 CRM、数据仓库、工单系统、文档库、审批系统和内部搜索。

没有工具调用,agent 只能猜。有了工具调用,它才可能基于实时数据工作。

第二,做最小权限

每个 agent 只拿完成任务所需的权限。能只读就不要写,能读单个系统就不要读全域数据,能人工确认就不要自动执行高风险动作。

权限设计要比 prompt 设计更早。

第三,沉淀可复用上下文

不要让每个用户从零写 prompt。把高频任务的上下文、模板、检查清单和输出格式固化到 skills 或 plugins 里。

这一步决定了 agent 是个人技巧,还是组织能力。

第四,建立评估集

没有 eval,企业 AI 项目很难持续改进。

评估集可以从真实历史任务里来:合同样本、客服 case、销售 briefing、数据查询问题、报告初稿。每次更新模型、工具或 prompt,都跑一遍评估。

第五,让人类反馈回流

专家的修改不应该只停在文档里。哪些地方被改、为什么改、什么输出被批准,都应该能进入知识库或评估流程。

这才是复利的来源。

8. 最容易失败的几种做法

第一种失败,是从“全公司 AI 战略”开始,而不是从一个具体流程开始。战略太大,指标太虚,最后没人能说清楚到底成没成功。

第二种失败,是只做聊天入口,不接内部系统。这样 AI 永远停留在写作助手层面,无法进入真实流程。

第三种失败,是忽视治理。早期为了快,随便接数据、随便给权限、没有审计,后期一进入合规和安全评审就推倒重来。

第四种失败,是把专家从流程里拿掉。企业 agent 最好的状态不是无人驾驶,而是让专家从重复劳动里解放出来,集中处理判断、例外和责任。

第五种失败,是不做复用。每个团队都自己摸索 prompt,短期看很自由,长期看会制造新的知识孤岛。

结语

企业 AI agents 的落地,本质上不是“买一个更聪明的聊天机器人”。

它更像一次组织操作系统升级:把上下文、工具、权限、流程、评估和治理放在一起,让 AI 真正进入工作方式,而不是停在演示窗口里。

最好的起点不需要很大。选一个痛点清楚、指标明确、数据可访问、专家愿意参与的流程,把它做深。只要这个流程能把组织知识沉淀下来,第二个流程就会更快,第三个流程会更稳。

AI 的复利不是来自一次惊艳 demo,而是来自每一次被编码、复用和改进的组织经验。