据近日业界发布的评测报告显示,以浪潮GPU服务器NF5468A5为平台,搭载2颗AMD Milan-X 7773X运行常见的气象应用WRF和计算流体力学应用OpenFOAM作为性能基准测试,其性能相比搭载两颗Rome 7742时的计算性能提升可高达80%。
NF5468A5是一款4U支持2颗AMD EPYC处理器和8颗双宽GPU卡,面向AI训练、推理、视频编解码等多种应用场景的GPU服务器。此次测试采用分别搭载2颗AMD Milan-X 7773X、Milan 7543和Rome 7742的配置组合。
AMD Milan-X处理器最大的亮点,就是采用3D堆叠技术(3D V-Cache),在不改变处理器面积的前提下,可用L3 缓存(SRAM)总数增加三倍。做个形象的比喻,这种3D堆叠技术就像将把相同面积的平房升级成三层小楼,通过纵向空间成倍扩展缓存数量。评测采用的NF5468A5平台是浪潮信息畅销海内外的弹性云AI服务器NF5468系列的全新产品,率先支持PCIe 4.0技术,4U空间内可装载2颗采用7nm先进制程工艺的AMD EPYC处理器和8块PCIe Gen4接口的AI加速卡,能够最大限度的发挥Milan-X处理器的极致性能。
WRF(The Weather Research and Forecasting Model),即天气预报模式,被誉为是次世代的中尺度天气预报模式,往往用于大范围高分辨的气候模拟,对系统的运算性能、内存的要求非常高;OpenFOAM(Open Source Field Operation and Manipulation)是对连续介质力学问题进行数值计算的软件,经常应用于汽车仿真等行业,进行仿真计算需要处理大量的实时数据,所以对系统的计算能力、数据吞吐能力都有很高的要求。
基于浪潮NF5468A5评测报告显示,Milan-X处理器通过搭载3D堆叠技术获得更高的L3缓存,确实对计算性能有较大提升,而性能改进意味着企业可以在更少的服务器上运行相同的作业,消耗的功率也能有明显降低。如下是评测报告中的性能测试数据:
在WRF测试中,使用单节点相同核心数,以Rome 7742处理器运行时间为基准,在Milan 7543上的计算性能提升14%~27%,而在Milan-X 7773X处理器上性能提升 23%~34%。
在OpenFOAM基准算例motorBike测试中,使用不可压稳态求解器simpleFoam计算模拟摩托车和骑手周围空气的运动情况。同样以Rome 7742处理器为基准,OpenFOAM在Milan 7543处理器使用单节点相同核心测试性能提升23%~28%,在Milan-X 7773X处理器上性能提升34%~80%。
在本次评测中也对NF5468A5有比较细致的介绍,据浪潮官网显示NF5468A5正在推出“超值机型 限免试用”,对该GPU服务器感兴趣的不妨一试。如下是评测中对于浪潮NF5468A5的介绍:
NF5468A5采用分区散热设计,内置独立的CPU和GPU主板,且分别安装在不同的平面。从机箱内部结构来看,设计者将发热量高的的GPU放在了机箱上3U空间,CPU板处于机箱下1U,内置6对12个6056风扇模组配合导风罩,实现机箱内风道分流,正是基于这种独特分层散热设计,使得送测的NF5468A5服务器可以支持280W最高功耗的Milan-X 7773X。系统设计支持32条DDR4 ECC内存,支持LRDIMM/RDIMM,提供高达8T的本地内存,实现与1536 MB 超大L3 cache间的高速数据交互。
NF5468A5采用了CPU直连GPU架构设计,率先支持PCI-E 4.0技术,最大限度提升CPU与GPU间的带宽,降低通信延迟,达到最佳效能,为客户提供极致优化的算力。系统提供丰富的IO扩展能力,提供10个PCIe 4.0 X16扩展槽位,支持8个全高全长的GPU加速卡。提供灵活存储方案,可选前置12 × 3.5英寸硬盘或24 × 2.5英寸硬盘,提供超大的本地存储能力,同时最大可支持8个热插拔NVMe SSD全闪配置,提供存储到内存到L3 cache的高速访存,可实现十倍于高端企业级SATA SSD的IOPS性能,带来极致IO存储性能飞跃。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。