这也是AI应用落地进入新阶段后出现的关键变化。过去,企业关注的是模型能否生成结果。而现在,企业还需要解决推理请求如何在异构算力之间高效调度、首Token时延如何进一步压缩、GPU利用率如何持续提升、AI应用如何在多云和跨区域环境下实现安全、稳定、合规运行等问题。
围绕这一变化,F5 给出的思路是将其长期积累的应用交付能力,进一步延伸至AI应用交付与安全平台。其核心逻辑是通过其ADSP平台,基于Token的负载均衡方案TBLB(Token Based Load Balancing),以及 “AI红队”“AI护栏”与自动化修复能力,把算力、应用、Token和安全纳入同一套交付体系,进行统一治理。
01 Token经济改写应用交付逻辑
其实,F5三十年的发展始终随着应用形态变化而演进。
1996年,F5推出BIG-IP,围绕互联网应用的稳定性、扩展性和访问性能,推动ADC应用交付控制能力的发展。
进入云计算阶段后,应用加速云化、API化和微服务化,F5的能力也扩展到私有云、公有云和多云环境,进入ADC 2.0阶段。
到了AI时代,应用形态再次变化。大模型、智能体、数据、API和算力基础设施共同构成新的应用体系。“如今,企业需要处理的不再仅仅是传统访问流量,更多的是模型调用、推理排队、Token生成、AI安全防护和跨云协同等问题。”F5北亚区总裁黄彦文指出。

F5北亚区总裁 黄彦文
应用交付对象发生变化后,衡量交付效率的单位也随之变化。F5中国区产品及解决方案总经理陈亮提到,目前中国每天产生的Token规模已达到约140万亿,折算约为每秒16亿Token。当交付规模进入这一量级后,Token 已不再只是模型输出的计量单位,而开始直接对应计算成本、资源消耗、用户体验以及最终的业务价值。
换句话说,每一次Token的生成、调度与交付效率,都会影响企业的AI投入产出比。
围绕Token经济,陈亮提出了四个核心支柱。其一,AI 集群的高并发供给能力决定 Token的生产能力,是整个系统的产能底座;其二,首Token 时延与端到端响应流畅度直接影响用户体验;其三,单位Token的 ROI 决定企业的经济效益;其四,全链路安全能力与长期运行稳定性,决定AI应用能否实现持续、可靠交付。
本质上来看,这是一套围绕Token构建的交付体系,覆盖生成、传输、调度到安全防护的完整生命周期。
02 TBLB解决异构算力的调度难题
当Token成为新的治理对象,算力调度的复杂性也被进一步放大。尤其在中国市场,很多企业会同时使用NVIDIA、AMD、华为、寒武纪、海光信息等不同品牌、不同代际的算力资源。

这种部署方式虽然提升了灵活性,但也带来了模型适配和调度的复杂度。
原因在于,AI推理请求并不像普通Web请求,其代码重构、视频生成、图像生成、文档总结等任务,对后端GPU、模型和推理引擎的消耗并不相同。如果调度系统只能基于连接数、请求数或服务器状态进行分发,就容易出现部分GPU节点拥塞、部分节点低负载的情况。
这也正是F5提出TBLB的背景。在这一机制中,Token除了作为模型输出的计量单位,更作为资源调度的核心对象。系统会结合大模型服务(LLM)运行状态、算力负载、请求排队情况、Token时延,以及推理成功率等信息,实时完成任务分发与资源匹配。

其关键逻辑在于,让不同类型、不同优先级的推理任务,匹配更合适的算力资源,从而在保障响应体验的同时,提高整体资源利用效率。
从具体场景来看,TBLB的价值体现在提升既有资源的使用效率上。
就比如,某汽车行业客户采用6块NVIDIA A40与8块L20的混合部署,通过F5的赋能,在未增加额外算力投入的情况下,实现了首Token生成速度提升30.3%,端到端访问速度提升48.68%;某运营商客户基于华为Ascend 910B算力资源,引入F5能力后,并发用户承载能力提升至少75%,首Token生成速度提升99%。另一家银行业的客户,采用3块阿里平头哥PPU与3块NVIDIA H20的异构架构,优化后首Token生成速度提升42.2%,Token输出流畅度提升7.1%。
F5亚太区首席技术官Mohan Veloo从成本视角解释了这一能力的意义。在他看来,企业建设AI工厂往往意味着数十亿美元级别的算力投入,因此,即便GPU综合利用率仅提升20%,也足以释放可观的经济价值。尤其在GPU采购成本持续增加、供给周期较长、硬件迭代不断加速的背景下,相比持续追加采购,更可持续的路径,是优先激活并释放既有算力资源的潜力。

F5亚太区首席技术官 Mohan Veloo
03 同步推进AI安全闭环与本土创新
如果说TBLB解决的是AI推理阶段的交付效率问题,那么F5围绕AI应用交付平台提供的“AI红队”(AI Red Teaming)与“AI护栏”(AI Guardrails)能力,解决的则是AI应用规模化后的安全治理问题。前者负责主动发现风险,后者负责在运行时防护,两者共同构成AI应用交付过程中的安全闭环。
原因在于,随着Token交付链路不断延长、模型调用场景持续复杂化,AI系统暴露出的攻击面也在快速扩大。企业面对的风险,开始延伸至模型输入、推理过程与输出结果的全链路安全。
Mohan Veloo指出,AI正在改变攻防关系。攻击者已经能够借助AI更快生成攻击载荷、发现漏洞并实现自动化利用,而许多企业的防御体系仍停留在依赖人工研判与静态规则的阶段。这种“攻击自动化、防御人工化”的能力失衡,正在持续放大安全压力。
对此,F5的策略是,通过引入AI能力,形成“发现—防护—修复”的完整闭环。
具体来说,AI红队承担了发现风险的角色,通过AI智能体模拟真实用户行为和攻击路径,对提示词注入、数据泄露、越权访问、越狱攻击等风险进行持续探测。AI护栏则部署在模型调用链路中,对输入、输出以及上下文交互过程进行实时语义分析、策略控制与风险拦截,实现运行时治理。
进一步地,AI红队发现的问题还能够自动调用为AI护栏策略,并结合虚拟补丁能力完成持续修复,在不中断业务运行的前提下缓解安全风险,从而形成从发现到治理再到修复的闭环能力。
从第三方评测结果来看,在SecureIQLab测试中,F5 的AI护栏面对约2万次攻击取得98.36%的总体安全得分。其中,直接提示词注入防御达到99.3%,过度代理防护达到98.7%,敏感数据泄露防护达到99.0%。

针对中文应用场景,F5还基于清华大学公开发布的中文大模型安全数据集进行了验证。材料显示,在脏话侮辱、违法犯罪、偏见歧视等多类敏感内容识别,和指令型攻击场景下F5整体保持领先。
安全能力之外,F5也将AI用于自身服务体系建设。
陈亮介绍,F5已在内部服务体系中引入大模型能力,并命名为ServiceGPT。通过该系统可以打通产品开发体系、知识库、案例系统,辅助服务团队快速完成问题定位与根因分析,使问题研判效率提升约23%,平均定位时间缩短至约0.8天。
这些能力建设,也对应着F5中国战略方向的调整。
黄彦文提到,F5中国战略已从“创新中国,服务中国”升级为“创新中国,链接全球”。TBLB、ServiceGPT,以及新成立的F5 AI应用工程部,都是中国团队推动形成的本土创新成果。这也意味着,中国市场正在成为原创能力向全球输出的重要节点。
在生态层面,F5北亚区区域副总裁及解决方案资深架构咨询师张振伦补充表示,F5将持续投入全球及中国开源生态建设,NGINX也将继续保持开源版本迭代更新。面向中国AI生态,F5计划兼容国内主流推理引擎、开源组件与开发平台,帮助开发者和企业用户更顺畅地接入AI创新能力与安全能力。
此外,针对Kubernetes生态中部分入口控制器后续维护策略调整带来的影响,陈亮表示,作为CNCF黄金会员,F5将持续投入技术与资源,为用户提供成熟、平滑的迁移替代路径。
好文章,需要你的鼓励
企业谈AI基础设施时,注意力往往首先集中在模型、GPU和算力集群上。但当大模型应用走向规模化推理,一个瓶颈开始浮现:算力采购完成,并不意味着Token能够被稳定、低成本、可控地交付出去。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。