至顶网服务器频道 05月08日 新闻消息: 4月26日,浪潮在其合作伙伴大会IPF18上重磅发布全新AI品牌TensorServer,并同时发布业界首款面向AI云设计的弹性GPU服务器NF5468M5,可提供专为AI云优化的弹性配置能力,支持AI模型训练性能最大化或AI在线推理效能最大化,并提供高性能的数据存储与通讯性能,帮助云服务商快速构建强大敏捷的AI基础架构。目前,NF5468M5已在国内领先的大型公有云的AI云服务中得到率先应用。
浪潮IPF18合作伙伴大会上重磅发布全新AI品牌TensorServer
浪潮集团副总裁彭震表示:"浪潮作为全球领先的AI计算力提供者,全新发布的AI品牌TensorServer将致力于成为AI的承载者与赋能者,通过整合创新AI基础架构系统,向用户交付强自适应、高效加速、灵活拓展的AI基础架构系统,持续推动以计算开启可进化的智慧世界。AI云作为一种新兴的云服务形式,已经得到越来越多公有云厂商、AI初创公司及AI用户的共同青睐。NF5468M5正是TensorServer品牌对AI基础架构创新的承诺在AI云场景的最新产品体现。"
AI云对基础架构的设计带来新的挑战,要求AI服务器具备云虚机的GPU资源支持与高效分配、适合于不同AI训练场景的GPU灵活拓扑、AI线上推理的高并发低延迟与高能效比、大规模AI数据的存储与通信能力。
NF5468M5专为AI云场景对弹性配置能力予以优化,增强了PCI-E拓扑和数量配比的弹性,适配多种框架的运算需求,并增加了易于管理和维护的远程GPU拓扑重构技术。NF5468M5可灵活支持AI模型的线下训练和线上推理两类场景,能够让AI模型训练性能最大化或AI在线推理效能最大化。NF5468M5面向线下训练对性能的需求,可支持8颗最高性能的Tesla Volta GPU以PCI-E或NVLink的高速互联;面向在线推理对高能效比的需求,可支持16颗高能效比的Tesla P4 GPU,适用于语音、图片、视频场景。在智能视频分析场景下,可同时处理300路以上1080p高清视频结构化。NF5468M5同时实现了数据存储与通讯性能极大化,消除IO瓶颈,可支持288TB大容量存储或32TB固态存储,实现高达400Gbps通信带宽和1us的超低延迟。
NF5468M5的发布凸显出浪潮在AI计算平台上的创新能力。此前,浪潮已经相继推出多款创新的AI计算平台,包括全球首款在2U空间内高速互联集成8颗最高性能GPU的AI服务器AGX-2、单机可实现支持16个GPU的超大扩展性节点SR-AI整机柜、率先实现协处理器与CPU计算资源的解耦和重构的AI扩展模块GX-4。目前,浪潮已建立全球领先的AI计算产品系列,适合线下训练的计算加速节点采用浪潮领先业界设计的浮点运算能力强、高扩展的GPU服务器,或KNM 计算加速器,而用于线上识别的计算加速节点采用浪潮低功耗、高能效比的GPU服务器,或者低功耗定制优化推理程序的FPGA加速器。
浪潮全新AI品牌TensorServer将整合提供高性能的AI计算平台、管理套件、框架优化和应用加速,为行业AI转型提供赋能支撑。除完善的AI计算产品外,浪潮TensorServer还可提供包括TensorFlow、Caffe-MPI、CNTK 等浪潮专家优化过的深度学习框架,而AIStation 管理平台可对深度学习框架提供任务管理、登录接口、参数调优等服务,并对节点和计算加速部件进行状态监控和调度等。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。