为何 Gartner 把一个数字放上每个董事会议程
2026 年 3 月,Gartner 发布一项预测,将改变所有企业的 AI 预算规划方式。到 2028 年,大型语言模型可观测性将覆盖 50% 的生成式 AI 部署,相比目前的 15% 是三倍增长。
这不是某个预算细项的小幅增长,而是 Gartner 告诉董事会:可观测性即将成为承重型基础设施。
对于香港的营运副总裁、IT 总监与数字转型主管而言,含意非常具体。下次你向财务总监提出 AI 项目时,对方会问一个你目前的试点可能无法回答的问题:明天我们如何知道它仍然运作正常?
什么是 AI 可观测性?
AI 可观测性是一门针对生产环境中语言模型系统进行量度、追踪与评估的工程纪律。它告诉你:AI 做了什么、为什么做、成本多少、是否正确、漂移时如何修复。传统监控追踪服务器健康状况,AI 可观测性追踪推理质量。
这个区别很重要,因为 LLM 系统的失败方式与传统软件不同。网页服务器要么返回 200,要么返回 500。语言模型则返回一个语气自信的答案,但内容可能微妙地错误、稍微偏离主题,或完全是幻觉。标准正常运作仪表板会告诉你模型有回应,但无法告诉你回应是否正确。
为什么企业领袖现在就要关注这件事?
AI 可观测性现在很重要,因为「不具备可观测性的代价」已经跨越董事会层级风险的门槛。2026 年 LLM 可观测性市场估计达 26.9 亿美元,预计 2030 年达 92.6 亿美元,年复合增长率 36.2%。市场增长并非因为供应商有创意,而是因为企业正在付出代价。
三股具体压力推动这场对话。第一是幻觉责任。当面向客户的 AI 给出错误的金融或合规建议时,后果由企业承担。第二是成本漂移。基于 Token 的定价意味着一个行为不当的代理可以在一个月内悄然消耗 4 倍预期预算,而没有人察觉。第三是监管准备度。香港金融管理局于 2026 年 3 月扩展的 GenA.I. Sandbox++ 明确要求参与者展示模型可追溯性与输出监控能力。
合起来看,这些不是工程问题,而是治理问题,因此属于董事会的议题。
AI 可观测性实际上如何运作?
AI 可观测性透过在每一次 AI 系统的互动中捕捉四种独立信号,然后将这些信号转化为评估规则与告警。它在你现有的 AI 工作流上加一层,并不会更换你目前使用的底层模型。
实务上,可观测性层位于你的应用程序与语言模型之间。每个请求与回应、每次工具调用、每次检索、每笔成本事件都会被记录。然后一个独立的评估引擎会根据你定义的评分标准,对输出进行打分:准确性、语气、政策合规性、是否含敏感数据、回应延迟、实际成本。
结果是一张持续更新的 AI 系统行为图像。你不会等到客户投诉才发现代理三星期前就停止遵循退款政策,可观测性层在发生当天就会告诉你。
企业 AI 可观测性的四大支柱是什么?
企业 AI 可观测性建立在四大支柱之上:追踪、评估、成本遥测,以及治理信号。四者合一,把黑盒 AI 系统转化为可审计、可控制、可持续优化的资产。少了任何一根支柱,就只是监控,而非可观测性。
支柱一:追踪。每次互动完整记录:用户提示、系统提示、检索的文件、工具调用、中间推理、最终输出。当出问题时,可以像黑盒记录器一样回放。
支柱二:评估。输出根据你业务专属的评分标准打分。银行的评估器检查是否提供未授权的金融建议;物流公司的评估器检查是否承诺超出 SLA 的交付。通用准确性分数远远不够。
支柱三:成本遥测。Token 使用量、模型选择、每次互动成本都以用户、部门、用例为单位追踪。根据 JetBrains 2026 年的分析,失控的代理循环现已是 AI 成本超支的最大单一来源。
支柱四:治理信号。敏感数据外泄、政策违规、提示注入攻击实时告警,并路由至合规负责人,而非仅工程人员。
生产级 AI 在实务上是什么样子?
生产级 AI 是一个任何输出都可以在数分钟内被追踪、评估、计成本与审计的系统。当这些能力都到位时,试点阶段才算结束。在此之前,AI 项目只是展示,而非部署。
想象一家香港专业服务公司为合伙人推出 AI 客户研究助手。在不具备可观测性的部署下,合伙人信任助手,直到某位合伙人在客户备忘录中发现一个被捏造的引用。公司现在面临对该客户的信誉问题,而且无法判断这种情况发生了多少次,也无法证明问题已修正。
在具备可观测性的部署下,公司看到过去十四天有 3.2% 的引用未通过来源验证评分,识别出大多数失败集中的三个提示,调整系统提示,并在一周内确认失败率降至 0.5% 以下。同一个模型、同一个用例,营运姿态完全不同。
AI 可观测性在预算中应占多少?
根据 Confident AI 与 TrueFoundry 在 2026 年的供应商定价调查,AI 可观测性在企业部署中通常占 AI 基础设施总支出的 10% 至 20%。低于此区间,多半仪器化不足;高于此区间,工具很可能在重复你现有日志堆栈已经做的事。
对一家运作两三个生产级 AI 用例的香港中型企业而言,2026 年的实务起点是每年港币五万至二十万元的可观测性平台费用,视通话量而定。变量不是授权费,而是定义有意义的评估标准所需的工程时数。任何声称开箱即用评分规则已经足够的供应商,都应该被审慎看待。
面对任何 AI 供应商,你应该问哪些关于可观测性的问题?
正确的问题能区分真正理解生产级 AI 的供应商,与那些先做了一个展示、之后才补上可观测性的供应商。一共四个问题,在任何供应商会议中提出,然后观察会议室如何回应。
第一,「给我看一笔真实的生产用户追踪记录,敏感数据可遮罩。」交付过企业客户的供应商可以在数分钟内展示。没有交付过的,会提议再安排另一次跟进会议。
第二,「我现在无法描述清楚的评估标准,你怎么处理?」诚实的答案是:他们协助你建立。任何声称有通用评估器的供应商,卖的只是无法通过你第一次合规审核的通用分数。
第三,「当模型本身更新、我们的评估集失效时,你的工具会怎么做?」根据 Gartner 2026 年 3 月的分析,评估集衰退是可观测性计划在十二个月内失去可信度的最常见原因。
第四,「谁拥有评估标准?工程,还是合规团队?」正确的答案是两者,由合规团队握有否决权。如果供应商的工具无法把告警路由给非工程人员,这个可观测性层永远无法成为治理层。
企业采用 AI 可观测性时最常犯的错误有哪些?
失败的企业导入中持续出现三个错误,每一个都可预防,每一个都要等到计划进行六个月后才会浮现。
第一个错误:把可观测性当作工具选择,而非营运模式选择。平台被选定、部署,然后被忽略,因为没有人拥有评估标准。九十天内仪表板依旧运作,但没有人看。修正方法是在采购平台之前,先指定一位营运角色拥有评估标准的责任。
第二个错误:过度依赖自动化评估器。自动评分快速、一致,但它无法侦测最关键的失败模式:微妙的语气违规、合规灰色地带、政策边缘情况。Gartner 2026 年的指引明确指出:对任何接触客户的 AI 系统,每周对分层样本进行人工审核是不可妥协的要求。
第三个错误:范围起点错误。企业试图在第一天就观测所有用例的所有 AI 互动,在一个季度内精疲力尽。成功的模式是:完整仪器化一个高价值、高风险的用例,证明价值,然后扩展。这也是 HKMA GenA.I. Sandbox++ 参与者正在采用的模式。
香港企业领袖本季的第一步该怎么走?
第一步不是供应商评估,而是针对你目前的 AI 用例进行内部审视,问三个问题:哪一个最暴露在监管或客户风险之下、哪一个运作成本最高、哪一个战略上最重要。三者的交集,就是可观测性回报最快的位置。
大多数香港企业会发现,答案不是最耀眼的 AI 项目,而是那个运作了六个月、无人监督的低调项目。在那个用例上加入可观测性层,会浮现团队原本不知道存在的发现,而把 AI 规模化的论据会自然成形。
跨越试点与生产之间的鸿沟
在 2025 年规模化 AI 的企业,赢得了先行者的论据。在 2026 年规模化 AI 的企业,将赢得治理的论据。AI 可观测性,正是第二个论据的胜负所在。没有它,每个额外试点增加的风险速度都快于它带来的价值;有了它,同样的投资会持续复利。
Gartner 那个 50% 的数字,不是对一个工具品类的预测,而是对企业 AI 成熟度将如何被衡量的预测。早一步抵达的组织,不只是部署更快,他们赢得了规模化的权利。
懂AI的冷,更懂你的难 — UD 同行28年,让科技成为有温度的陪伴。
下一步:与 UD 同行
理解了框架,下一步是找出可观测性能在你的现有 AI 部署中发挥最大价值的位置。UD 团队手把手带你完成每一步:从 AI 准备度评估、用例优先排序、供应商选型,到部署上线与成效追踪,28 年企业服务经验,全程陪你走。