AI推理进入生产环节,企业撞上了“延迟之墙” 原创

作为分布式架构的开创者之一。如今Akamai把同样的思路用到推理上,通过Akamai Inference Cloud,把算力下沉到靠近用户和数据的位置,再配合流量调度、快速回滚与运行时治理,去填补“集中式云”与“实时业务”之间的缝隙。。

过去两年,AI行业最热闹的竞争始终围绕模型展开。参数规模越来越大,上下文窗口越来越长,推理能力不断增强。无论是模型厂商还是企业用户,关注的重点大多集中在模型是否足够聪明方面。

但是,当AI开始进入搜索、推荐、客服、风控,以及企业知识助手等生产系统后,企业发现,真正影响业务效果的瓶颈正在发生变化。很多场景里,用户并不关心模型背后调用了多少参数,也不在意模型是否具备复杂的推理能力。他们更关心的是,结果能否足够快地反馈。

用户或许愿意等待几秒钟,看聊天机器人完成一次复杂思考,但对于搜索结果、客服回复或者交易风控系统来说,几秒钟的等待往往已经超出了可接受的范围。

AI推理进入生产环节,企业撞上了“延迟之墙”

Akamai战略营销和产品负责人 Ari Weil

Akamai战略营销和产品负责人 Ari Weil指出,在《The State of AI Inference 2026》简称报告中披露了一组值得关注的数据:82%的受访组织要求关键AI应用在500毫秒内完成响应,64%的组织希望进一步压缩至250毫秒以内。与此同时,98%的组织认可分布式推理能够带来的业务价值。

这些数字背后反映的是同一个趋势,企业对AI的期待,已经从“能不能用”转向“能不能稳定地用”和“能不能快速地交付”。

换句话说,业务需求已经进入毫秒级时代,但支撑AI运行的基础设施并没有同步完成演进。报告显示,目前仍有46%的企业将推理工作负载部署在单一集中式云平台,未来一到两年,这一比例预计仍将维持在45%左右。

企业一边要求AI按照实时业务系统的标准运行,一边仍然依赖为传统云计算时代设计的部署架构。这种矛盾,正在成为越来越多企业的新挑战。

而反观AI竞争的重点,也正在从模型能力逐渐延伸到系统能力。

01   AI推理成为系统工程

这种变化首先体现在AI应用形态的变化上。根据报告,56%的受访企业已经将AI用于个性化推荐,52%用于客服机器人或虚拟代理,51%用于员工助手,50%用于搜索增强。

这些场景看似不同,却有一个共同特点,它们都已经进入企业的核心业务流程。其实,当AI在实验阶段时,企业关注的是模型效果是否足够好。但当AI开始参与搜索排序、客户服务、风险判断和业务决策后,衡量标准开始发生变化。

模型回答得对不对固然重要,但回答得够不够快、够不够稳定,同样决定着业务结果。

这也是为什么越来越多企业开始关注p95和p99等尾部延迟指标,而不仅仅是平均响应时间。原因很简单。真正影响用户体验的,往往不是系统运行最顺畅的时候,而是在流量高峰、复杂请求或者异常情况下能否保持稳定。

如果绝大多数请求都能在200毫秒内完成,但少数请求需要等待数秒,用户感受到的依然是系统迟缓。

而当企业把响应时间压缩到数百毫秒级别后,模型计算本身,已经不再是整个推理链路中唯一的耗时环节。一次完整的推理请求,从用户发起到结果返回,中间还需要经历网络传输、数据读取、权限验证、系统调用以及结果生成等多个步骤。随着模型效率持续提升,这些原本被忽略的环节开始占据越来越高的时间比例。

换句话说,影响推理效率的已经不仅仅是模型本身,而是整个系统。

02   分布式推理成为企业新选择

如果说延迟压力揭示了AI基础设施面临的新挑战,那么报告里的另一组数据,则反映出企业新的解决路径。报告显示,98%的受访企业认可分布式推理能够创造业务价值,多数企业计划进一步增加相关投入。

企业之所以把目光投向分布式推理,是因为推理任务的运行方式正在发生变化。随着AI进入搜索、推荐、客服、风控以及企业助手等实时业务场景,推理请求不再集中发生在某个地点,而是随着用户分布在不同地区和网络环境之中。

当模型、数据和计算资源长期集中在少数云数据中心时,请求需要跨区域传输,响应时间不仅取决于模型推理速度,也受到网络链路、数据访问以及资源调度等因素影响。

对于要求数百毫秒内完成响应的业务而言,这些额外开销开始变得越来越难以忽视。因此,越来越多企业开始尝试将推理资源部署到更靠近用户和数据的位置。

于是,边缘节点、本地数据中心,以及区域云平台开始承担更多实时推理任务,而中心云则负责模型管理、统一编排以及资源调度。

这也说明,AI推理正在从集中式部署逐渐走向分布式部署。而对于企业来说,目标也已经从获得更强的模型能力,变为缩短从请求发起到结果返回之间的整个路径。

03   延迟下降,复杂度上升

不过,把推理能力部署到更多位置,并不意味着问题就得到了解决。报告显示,随着推理从集中式架构走向分布式架构,企业担心的问题变成了资源管理、系统运维、安全治理以及跨环境协同等更复杂的基础设施问题。

原因也不难理解。当推理任务集中运行时,企业只需要管理少量集群和资源池。但当推理能力被分散到边缘节点、本地数据中心以及多个云平台后,整个系统的复杂度开始快速上升。

先说资源利用率问题。不同地区、不同时段的请求量并不一致。一部分节点可能长期处于高负载状态,而另一部分节点则存在大量闲置资源。如果缺乏统一调度能力,企业很难让整体算力保持高效运行。

其次是数据问题。模型可以部署到多个节点,但数据往往分散在不同系统和不同区域。推理节点距离用户更近,并不意味着其距离数据也更近。如果请求仍然需要频繁跨区域访问数据源,那么网络延迟和传输成本依然存在。

此外,随着推理环境不断扩展,运维压力也在同步增加。企业需要同时管理不同云平台、不同硬件架构以及不同地区的推理服务。系统规模越大,监控、故障定位以及性能优化的难度也会随之增加。

这也是为什么越来越多企业开始关注推理平台本身的管理能力。

04   企业开始为复杂性买单

为了满足实时推理的要求,企业正在不断增加流量调度、故障切换以及回滚控制等能力。

这些手段确实提高了系统弹性,但与此同时,也让推理基础设施变得更加复杂。

报告显示,当被问及AI为何没有进一步实现规模化时,企业给出的首要原因是集成复杂度。21%的受访组织将其视为最大的扩展障碍,其次是基础设施限制、安全与合规风险,以及数据质量与可用性问题。相比之下,仅有6%的企业认为ROI不明确是主要挑战。

这组数据反映出一个变化:对于大多数企业而言,AI的业务价值已经得到验证,真正限制规模化落地的因素开始转向系统本身。

随着推理请求在不同模型、不同区域以及不同基础设施之间动态流动,企业需要管理的不再只是模型性能,还包括流量、成本、安全和治理。

这种复杂性首先体现在性能保障上。

报告显示,50%的企业认为在高峰负载下维持可接受的延迟是当前最困难的扩展挑战,43%的企业则面临突发流量带来的压力。

与此同时,成本管理也变得越来越困难。为了满足实时响应要求,企业往往需要在不同模型、不同区域以及不同服务之间动态调度资源。但路径越灵活,成本就越难预测。报告显示,计算基础设施、模型调用以及网络传输已经成为企业最难准确评估的成本来源。

而当系统复杂度持续增加后,企业又会面临新的问题:如何看清这些资源究竟消耗在什么地方?报告显示,77%的受访组织仍然缺乏持续的单位经济模型追踪能力,难以准确衡量每一次推理请求所对应的成本与收益。

从延迟到成本,从性能到治理,AI推理正在暴露出越来越多传统IT系统曾经经历过的问题。

但区别在于,这一次发生在AI基础设施上。

05 写在最后:AI竞争进入基础设施阶段

把报告的几组数据放在一起,变化已经很清晰了。企业关注的重点,正在从模型能力转向推理基础设施。实时性的要求在不断收紧,部署架构却几乎没动——AI已经进入生产系统,支撑它的基础设施却还停在上一代。

所以,如今谁能更高效地组织数据、网络与算力,更稳定地控制延迟、成本和风险,谁才更可能把模型能力转化为持续的业务成果。

这恰恰是Akamai长期擅长的事。作为分布式架构的开创者之一。如今Akamai把同样的思路用到推理上,通过Akamai Inference Cloud,把算力下沉到靠近用户和数据的位置,再配合流量调度、快速回滚与运行时治理,去填补“集中式云”与“实时业务”之间的缝隙。。

所以,企业今天撞上的这道墙,不是AI的终点,而是它从模型时代走向基础设施时代必须跨过的门槛。能不能跨过去,越来越不取决于谁有最强的模型,而取决于谁能把模型、数据、网络和算力,重新组织成一套真正跑得动、扛得住、也管得好的系统。

归根结底,企业撞上的“延迟之墙”,并不意味着AI走到了头,反倒说明其已经到了规模化落地的阶段。光有聪明的模型,已经不够了,接下来在于谁能让其跑得够快、稳定、投入可控。

或许,能跨过“延迟之墙”,才算企业级AI真正走到了下半场!

 

来源:至顶网计算频道

0赞

好文章,需要你的鼓励

2026

06/03

16:05

分享

点赞

邮件订阅