翻译: 数字火花 Digitfire
原文地址: https://mmc.vc/research/state-of-agentic-ai-founders-edition/
"客户看到微软的 Copilot 时会想,'哦,太棒了,是 Clippy 2.0!'"—— Marc Benioff,Salesforce 首席执行官
"Copilot?把它想象成在健身房锻炼了十年后的 Clippy。"—— Satya Nadella,微软首席执行官
如果你不知道 Clippy(回形针)是什么(或者更幸运的是,从未遇到过它),那么恭喜你。Clippy 于 1996 年在 Microsoft Office 中推出,是那个臭名昭著的烦人数字回形针,它会向用户提供不请自来的建议,并立即成为世界上最令人讨厌的虚拟助手。我们为什么要提到这个在 2007 年最终被关闭、经常被诟病的 1996 年虚拟助手?因为历史永远不会简单重复,但它常常押韵。
随着智能体 AI 的热潮(以及 Gartner 预测超过 40% 的基于智能体的 AI 计划将在2027 年被放弃),我们问自己:智能体 AI 要想在大型企业的生产环境中部署,需要具备什么条件?智能体产品和 Copilot 要想真正受到员工的喜爱和使用(不像那个饱受诟病的 Clippy),需要具备什么条件?
为此,我们调查了欧洲 30 多位顶尖的智能体 AI 初创公司创始人,并采访了 40 多位从业者,目的不仅是为了构建对智能体 AI 现状的看法,还为了根据我们观察到的成功智能体初创公司所采用的常见做法,创建一本行动手册。我们还收录了调查中未经筛选的原始评论。以下是我们了解到的部分内容:
- 创始人在生产环境中部署 AI 智能体时遇到的最大挑战并非技术问题,而是:
- 工作流程集成和人机交互界面(60% 的初创公司)
- 员工抵触情绪和其他非技术因素(50%)
- 数据隐私和安全(50%)
- 因此,最成功的部署策略涉及从小处着手的方法,从低风险但中等影响、易于验证的任务开始,这些任务能迅速证明清晰的投资回报率(ROI)。如果它能自动化人类用户讨厌的任务,并被定位为增强(而非取代)人类的副驾驶(co-pilot),那就更好了。
- 有高达 62% 的智能体 AI 初创公司已经开始利用业务线(Line of Business)或核心支出预算,这证明该技术正在超越实验阶段。
- 尽管定价策略不断演变,但混合(Hybrid)和按任务(Per Task)是最常用的(各占 23%),而圣杯般的基于结果(Outcome-based)定价目前只有 3% 的公司使用,因为不同的客户看重不同的结果,结果难以归因、衡量和监控,这使得定价难以预测。
- 由于生态系统处于初级阶段,大多数(52%)初创公司是完全或主要在内部构建其智能体基础设施的。
- 初创公司专注于可靠性,超过 90% 的公司报告其解决方案的准确率至少达到 70%。虽然医疗保健初创公司报告的准确率最高(不足为奇),但在以下情况下,中等准确率是可以接受的:用于更简单、低风险、输出易于验证的用例;当高自动化量抵消了较低的准确率时;或者当 AI 实现了以前不可能的全新能力时。
根据我们的发现和对企业从业者的访谈,我们概述了成功部署智能体 AI 的驱动因素,涵盖了从用例的战略性推广到(我们称之为)3E 框架(教育 Education、娱乐 Entertainment 和预期管理 Expectation management)的一切内容。如果您是一家智能体 AI 初创公司,正在寻求克服企业部署中的各种挑战,请直接跳转到我们的观察部分。
如果您是这个领域的创始人,请联系 Advika、Sevi 或 Mina——我们很乐意与您交流。
什么是 AI 智能体,为什么我们需要它们?
"名字有什么关系?我们称之为 AI 智能体的
换个名字也一样炒作"– 威廉·莎士比亚没说过
关于 AI 智能体的定义五花八门,但为了我们讨论的目的,我们描述了它们的主要属性:
- 目标导向(Goal orientation):AI 智能体被分配特定的任务或目标,它们的行动与实现这些目标保持一致。
- 推理(Reasoning):智能体创建计划来实现上述目标,并在规划中纳入不断变化的现实世界背景;它们将主要目标或复杂问题分解为更小、更易于管理的任务,并思考下一步的最佳行动。
- 自主性(Autonomy):AI 智能体独立行动,无需人类持续输入/指令;它们根据周围不断变化的世界做出决策并采取行动(通过工具调用)。鉴于 GenAI 驱动的智能体尚处于萌芽阶段,以及随之而来的各种可靠性问题(以及企业从业者对部署完全自主系统的谨慎态度),我们的智能体定义不要求完全自主。因此,副驾驶(co-pilots)也被纳入我们的定义中(只要它们满足我们列出的其他标准,例如目标导向、推理和通过工具采取行动)。
- 持久性(Persistence):智能体具有记忆,或者能够记住它们过去的经验,并在跨会话中保持对长期目标的关注。这也称为状态管理。
智能体 AI 在三个 C 上模仿人类:缓存(Cache,记忆)——就像我们的记忆一样,它通过向量数据库或状态来回忆过去的事件;命令(Command,肌肉)——就像肌肉一样,它通过工具、插件或 MCP 功能对世界采取行动;连接(Connect,嘴巴)——就像嘴巴选择与谁交谈一样,它在运行时选择 AI 伙伴。总而言之,这些赋予了 AI 类似人类的自主性:记忆、行动和说话。
Alex Polyakov
Adversa 联合创始人兼首席技术官
AI 智能体与基本的 LLM 聊天机器人不同,因为状态管理和工具调用是一个更困难的工程挑战,使得它们的部署更加棘手。多智能体系统(MAS)是其演变,其中智能体可以共享记忆、拥有总体目标并在彼此之间进行协调。这些 MAS 涉及具有专业能力的单个智能体(或更广泛目标的独立子组件)协同工作,以解决复杂问题,甚至跨越组织边界。
鉴于 MAS 将认知负荷分配给多个智能体(每个智能体都针对特定的子任务进行了优化),它们在处理复杂、开放式问题方面表现出优于单智能体方法的性能。它们提高了效率,降低了成本,并提供了更好的容错性和灵活性——这意味着它们在整体性能上优于单智能体系统。
但为什么要使用 AI 智能体呢?为什么不用 RPA(机器人流程自动化)或其他传统的自动化形式呢?这是因为 AI 智能体更适合需要认知能力、推理和适应性的复杂、动态和非结构化任务。与遵循僵化、预定义规则的 RPA 不同,AI 智能体可以朝着目标进行推理,即时做出动态决策,并随着时间的推移进行学习或改进——这使它们能够处理边缘情况和环境变化而不会崩溃。
以前针对空运和海运即期运价定价的自动化解决方案很脆弱,很少能突破 50% 的自动化率。通过摆脱固定的线性流程,并使智能体能够处理和检索做出决策所需的更多非结构化数据,我们可以利用新的智能体能力达到 90% 以上的自动化率。
Dan Bailey
Nexcade 联合创始人兼首席执行官
基于规则的自动化速度快但范围窄——它只能根据已知信息采取行动。安全领域最棘手的问题存在于意图不明显、信号不完整等灰色地带。智能体 AI 更进一步,将分析师级别的推理应用于规则无法解决的边缘情况。它将自动化的规模和人类判断的细微差别结合在一起,使防御者在对抗在模糊性中滋生的攻击时占据上风。
Rahul Powar
Red Sift 创始人兼首席执行官
企业对智能体 AI 的采用情况如何?
某些调查,例如毕马威(KPMG)的 2025 年第三季度 AI 季度脉搏报告指出,AI 智能体的部署量几乎翻了两番,现在有 42% 的组织部署了"至少一些智能体",高于两个季度前的 11%。虽然这听起来很有希望,但我们认为"至少部署了一些智能体"并不能很好地衡量采用的真实情况。我们与从业者的对话表明,是的,大多数大型企业正在生产环境中部署 AI 智能体,但这些部署通常规模相当小。它们也主要集中在(相对)更成熟的领域,例如客户支持、销售和营销、网络安全和技术(例如 AI 编码智能体)。
我们认为从以下几个角度来思考采用情况会更有用:
- 有多少团队和员工真正在日常工作中使用智能体 AI:普华永道(PwC)2025 年 5 月的一项调查指出,对于大多数受访者(68%)来说,只有一半或更少的员工在日常工作中与智能体互动。尽管如此,我们与从业者的对话表明,在企业尚未采用该技术的情况下,员工正在使用个人账户,从而引发了"影子 AI"问题,导致合规问题泛滥。
- 员工在多大程度上将 AI 智能体用于其"潜在可自动化"的工作流程(是很少、部分还是大部分工作流程):我们强调"潜在可自动化"这一点,是因为并非每个工作流程都适合自动化,而且智能体 AI 不一定是该特定任务的最佳自动化技术。虽然收集实际自动化工作流程与潜在可自动化工作流程的数据具有挑战性,但毕马威(来自同一调查)关于"员工如何接受 AI 智能体?"的观察是一个相对有用的指标:只有 10% 的受访者表示"显著采用",即员工热情地采用了 AI 智能体并将其完全整合到工作流程中,而 45% 的受访者表示"轻微采用",即员工开始接受并将 AI 智能体整合到他们的工作中(其余的则得到了褒贬不一的反馈)。
- 为每个工作流程赋予 AI 智能体的自主程度(是只能执行给定工作流程中的部分任务,还是可以端到端地驱动整个工作流程):我们与企业从业者的对话表明,他们正在采取保守的方法。即使智能体 AI 解决方案理论上可以以 80% 的自主水平可靠运行,大多数从业者也会倾向于更高水平的人机协作(human-in-the-loop),并以 50% 的自主水平运行解决方案。
由于篇幅限制,完整报告请访问MMC官网查看原文。