很多企业现在已经过了“要不要用 AI”的阶段,真正的问题变成了:怎么让 AI 从一个局部工具,变成组织持续复利的一部分。
Anthropic 这份《Building AI agents for the enterprise》讲的核心不是某个产品功能,而是企业落地 AI agents 时的一条分水岭:
一边是把 AI 当成聊天框。员工问一句,它答一句;某个团队做一个 demo,短期看起来很酷,但很难进入真实生产流程。
另一边是把 AI 当成可以理解上下文、调用工具、执行多步骤任务的工作系统。它不只是回答问题,而是能参与员工工作、流程自动化和产品能力建设。
这篇文章我会从技术落地视角拆一下:企业为什么需要 agents,应该先改什么,怎么设计试点,以及哪些坑最容易让 AI 项目停在 demo 阶段。
1. Chatbot 和 Agent 的差别,不是界面,而是责任边界
很多企业的第一步都是上一个 chatbot:接 FAQ、查文档、总结会议、写邮件。
这当然有价值,但 chatbot 的工作方式通常是单轮的:用户提出问题,模型返回答案。它不负责拆解任务,也不负责调用系统,更不负责把结果落到某个业务流程里。
Agent 的边界更大。它需要能做几件事:
- 理解目标,而不是只理解一句 prompt
- 拆成多个步骤
- 在步骤之间保留状态
- 调用内部工具和数据源
- 根据中间结果调整路径
- 产出可以交付、审计、复用的结果
比如销售场景里,一个 chatbot 可以回答“这家公司是做什么的”。一个 agent 应该能从 CRM、会议记录、历史邮件、竞品库里拉数据,生成一份客户拜访 briefing,并标出风险、机会和下一步建议。
这就是差别。chatbot 是问答界面,agent 是工作流执行层。
2. 企业 AI 的第一件事:给模型组织上下文
通用模型默认不知道你的公司怎么工作。
它不知道销售团队怎么定义有效商机,不知道法务团队对合同条款的风险分级,不知道财务团队的科目口径,不知道市场团队的品牌语气。没有这些上下文,AI 只能产出“看起来还行”的通用内容,最后仍然需要人重新改一遍。
企业真正的效率来自把组织知识编码进去:
组织标准
├─ 术语表
├─ 品牌语气
├─ 合规要求
├─ 审批流程
├─ 报表口径
├─ 风险框架
└─ 工具连接方式
这个动作比选模型更重要。两个团队用同一个模型,结果差异可能非常大,原因不是模型能力不同,而是上下文质量不同。
Anthropic 文档里举了几个典型例子:
- 销售团队连接 CRM、会议记录和客户研究工具,自动生成 call prep
- 财务团队连接数据仓库,按公司口径生成 reconciliation report
- 法务团队按内部风险框架审合同,标出偏离标准条款的部分
- 市场团队按品牌规范生成 campaign brief,并拉取历史表现数据
这些场景的共同点是:AI 没有被当成一个孤立工具,而是被放进了组织已有的知识、数据和流程里。
3. 从员工、流程、产品三个层面看落地路径
企业做 AI agents,不能只盯着“节省多少工时”。更好的拆法是看三层:员工、流程、产品。
员工:让专家能力扩散
第一层是让员工变强。
这里的重点不是让 AI 替代专业判断,而是把重复、密集、低杠杆的信息处理交给 AI。财务分析师少花时间从多个系统拉数据,多花时间解释数据背后的含义;市场同学少花时间重做竞品分析,多花时间判断定位和策略。
最好的信号是:非技术员工不需要理解底层系统,也能完成过去必须依赖专家或数据团队的工作。
L’Oreal 的案例很典型。他们搭了一个基于 Claude 的内部多 agent 平台,让员工用自然语言查询数据,再由系统路由到 15 个以上的专门 agent,生成答案和可视化。结果是每月 44,000 用户、每天 15,000 活跃用户, conversational analytics 准确率达到 99.9%。
这里真正被产品化的不是“聊天”,而是数据团队过去积累的查询能力、指标理解和业务解释能力。
流程:把专家复核变成系统反馈
第二层是流程加速。
企业流程通常慢,不是因为人不努力,而是因为信息量大、责任重、容错率低。监管文件、合同审查、客户支持、临床研究报告,都是典型场景。
AI 进入这些流程后,关键不是“一次生成完美结果”,而是让专家复核可以反哺系统。每一次专家修正、批准、拒绝,都应该成为下一次执行的上下文。
这样系统才有复利:
第一次执行:AI 生成初稿,人类大量修改
第二次执行:AI 复用批准模板和修正记录,人类少改一点
第 N 次执行:AI 已经吸收大部分组织标准,人类主要做判断
Lyft 的客户支持案例就是这个方向。他们用 Claude 做 support assistant,让系统根据客户具体情况调查和处理问题,必要时再把 AI 生成的摘要交给人工客服。结果是支持解决时间降低超过 87%,决策准确率提升超过 30%。
这个数字背后的关键不是“回复更快”,而是 agent 能进入支持流程,查上下文、判断情况、把复杂 case 路由给人。
产品:把 AI 变成新的能力层
第三层是产品转型。
这一步和前两层不一样。员工和流程更多是降本增效,产品层则可能带来新收入、新市场和新的切换成本。
企业在这里的优势不是“我也接了一个模型 API”,而是组合能力:
- 自有数据
- 客户信任
- 领域知识
- 合规能力
- 现有系统集成
- 分发渠道
AI 是能力放大器,壁垒来自 AI 周围的东西。
Rakuten 的案例很有代表性。他们有 70 多个业务,一开始自己搭 agentic infrastructure,包括持久计算、记忆和存储。后来采用 Claude Managed Agents,把执行层交出去,让工程资源回到差异化体验上。结果是专门 agent 可以在一周内上线,重大产品发布从每季度一次变成每两周一次,pilot 中关键错误下降 97%。
这里有个很重要的工程判断:不是所有底层能力都值得自己维护。如果 agent 执行层消耗了大量工程时间,产品团队可能还没做出差异化体验,就先被基础设施拖慢。
4. 信任边界决定 AI 产品能不能上线
企业 AI 项目最容易低估的一件事,是信任边界。
在金融、医疗、法务这类场景里,问题通常不是“模型能不能做”,而是“数据能不能这样流动”。客户数据能不能离开安全边界,谁可以访问,日志怎么审计,合规团队能不能复盘,这些问题决定产品能不能上线。
很多 AI demo 看起来很好,但一进入安全审查就卡住。原因是架构一开始没有把信任边界当成第一约束。
更合理的顺序应该是:
先定义信任边界
再定义可访问数据
再定义工具权限
再设计 agent 工作流
最后优化体验和效率
如果反过来,先做一个功能完整的 demo,再补权限、审计和数据隔离,通常会很痛苦。
这也是企业 agent 和个人效率工具最大的差异。个人工具可以追求灵活,企业 agent 必须默认可治理、可审计、可撤销。
5. Plugins 和 Skills 的本质:把最佳实践产品化
Anthropic 在文档里提到 Claude Cowork、plugins、skills 和 MCP。把产品名放一边,背后的模式更值得关注。
企业需要一种机制,把某个团队的工作方法打包成可复用能力。
一个法律团队的 plugin 不只是连上合同库,它应该包含:
- 合同模板
- 风险条款清单
- 审批路径
- 常见让步策略
- 内部术语
- 输出格式
- 可调用工具
一个销售团队的 plugin 也不只是连上 CRM,它应该包含销售阶段定义、客户分层规则、竞品资料、call prep 模板和后续跟进标准。
这类配置一旦可复用,组织知识就不再只存在于资深员工脑子里。新员工、跨区域团队、相邻职能都可以直接继承同一套实践。
从工程角度看,plugins 和 skills 解决的是“组织知识的部署问题”:
隐性经验 → 显性流程 → 可执行工作流 → 可复用组织能力
如果没有这层封装,每个团队都会各自写 prompt、各自接工具、各自调流程,最后形成新的 shadow AI sprawl。
6. 一个更稳的企业试点框架
企业 AI 试点不要一开始就追求全公司铺开。更稳的方式是选一个高痛点、可衡量、上下文明确的场景。
第一阶段:定义成功标准
先找 2 到 3 个团队,每个团队只选一个具体流程。
不要写“提升生产力”这种目标,要写能验收的指标:
- 销售 call prep 时间减少 50%
- 合同初审从 5 天缩短到 1 天
- 文档初稿质量达到最终稿的 80%
- 客服解决时间降低 60%
- 数据分析请求从提交工单变成自然语言自助查询
指标越具体,试点越不容易变成主观争论。
第二阶段:做 champion pilot
第二阶段让 2 到 3 个 champion team 在真实生产流程里使用,而不是 sandbox demo。
这里要同时看两类数据:
- 定量指标:使用频率、节省时间、错误率、返工次数、处理周期
- 定性反馈:员工在哪些场景觉得“这东西真的懂我”,又在哪些场景觉得不可信
很多有价值的发现来自定性反馈。比如用户不一定说“节省了 30 分钟”,但会说“我现在敢直接拿它生成的第一版去开会”。这往往比单纯节省时间更说明问题。
第三阶段:把能力治理起来
试点成功后再扩展到更多团队。
这一步要补齐治理层:
- plugin marketplace
- 权限控制
- 审批流程
- 使用日志
- 成本控制
- 输出审计
- 数据访问边界
- 版本管理
治理不是大公司病,而是规模化前提。没有治理,AI 工具会像 SaaS 一样在组织里野蛮生长:每个团队都有自己的工具、prompt、账号和数据出口,最后安全、成本和标准全部失控。
7. 技术团队应该优先建设什么
如果从技术团队视角落地,我会把优先级排成这样:
第一,连接真实系统
Agent 不能只读静态文档。它要能连接 CRM、数据仓库、工单系统、文档库、审批系统和内部搜索。
没有工具调用,agent 只能猜。有了工具调用,它才可能基于实时数据工作。
第二,做最小权限
每个 agent 只拿完成任务所需的权限。能只读就不要写,能读单个系统就不要读全域数据,能人工确认就不要自动执行高风险动作。
权限设计要比 prompt 设计更早。
第三,沉淀可复用上下文
不要让每个用户从零写 prompt。把高频任务的上下文、模板、检查清单和输出格式固化到 skills 或 plugins 里。
这一步决定了 agent 是个人技巧,还是组织能力。
第四,建立评估集
没有 eval,企业 AI 项目很难持续改进。
评估集可以从真实历史任务里来:合同样本、客服 case、销售 briefing、数据查询问题、报告初稿。每次更新模型、工具或 prompt,都跑一遍评估。
第五,让人类反馈回流
专家的修改不应该只停在文档里。哪些地方被改、为什么改、什么输出被批准,都应该能进入知识库或评估流程。
这才是复利的来源。
8. 最容易失败的几种做法
第一种失败,是从“全公司 AI 战略”开始,而不是从一个具体流程开始。战略太大,指标太虚,最后没人能说清楚到底成没成功。
第二种失败,是只做聊天入口,不接内部系统。这样 AI 永远停留在写作助手层面,无法进入真实流程。
第三种失败,是忽视治理。早期为了快,随便接数据、随便给权限、没有审计,后期一进入合规和安全评审就推倒重来。
第四种失败,是把专家从流程里拿掉。企业 agent 最好的状态不是无人驾驶,而是让专家从重复劳动里解放出来,集中处理判断、例外和责任。
第五种失败,是不做复用。每个团队都自己摸索 prompt,短期看很自由,长期看会制造新的知识孤岛。
结语
企业 AI agents 的落地,本质上不是“买一个更聪明的聊天机器人”。
它更像一次组织操作系统升级:把上下文、工具、权限、流程、评估和治理放在一起,让 AI 真正进入工作方式,而不是停在演示窗口里。
最好的起点不需要很大。选一个痛点清楚、指标明确、数据可访问、专家愿意参与的流程,把它做深。只要这个流程能把组织知识沉淀下来,第二个流程就会更快,第三个流程会更稳。
AI 的复利不是来自一次惊艳 demo,而是来自每一次被编码、复用和改进的组织经验。