至顶网服务器频道 05月11日 新闻消息: 5月9-11日,2017 GPU技术大会(GTC17)将在美国圣何塞举行。本届大会设置深度学习与人工智能、自动驾驶与无人车、VR与AR、计算机与机器视觉等12大核心议题,开设654场小型研讨会,有799位嘉宾将分享他们在GPU各个应用领域的心得与经验。

大会现场
据悉GTC17大会期间,浪潮将联合NVIDIA发布最新一代强大的的AI超级计算机,并将是本届大会在人工智能领域最具看点的新品之一。同时,作为铂金赞助商,浪潮还将现场展示SR-AI整机柜、NX5460M4、NF5280M5等多款面向人工智能应用的服务器,以及AI Station深度学习管理系统、T-Eye训练调优工具和并行深度学习框架Caffe-MPI等融工具、管理与框架于一体的强大AI软件平台。

浪潮为GTC17的铂金赞助商
GPU密度最高的SR-AI整机柜
浪潮在4月26日的IPF2017上与百度联合发布的SR-AI整机柜,是目前业界集成度最高的GPU Box。该产品是全球首个采用PCIe Fabric互联架构设计的AI方案,通过PCI-E交换机和I/O BOX两个模块的配合,GPU和CPU物理解耦池化,二者灵活配置,可实现支持16个GPU的超大扩展性节点,最大支持64块GPU,比一般的GPU服务器方案性能提高5-10倍,可支持千亿样本、万亿参数级别的模型训练。

在IPF2017上发布的SR-AI整机柜服务器
企业级AI刀片服务器NX5460M4
NX5460M4是一款面向企业级AI设计的GPU刀片节点,单节点可支持2块GPU卡,单系统可根据实际需求部署8-24个节点,具备极高的可扩展性并支持多种外形、散热和电源设计方案,单一I/O通道交换速率高达100Gbps,而集中管理和无电缆设计则可以有效降低OPEX(运营成本)。

在IPF2017上发布的SR-AI整机柜服务器
通用高扩展性AI服务器NF5280M5
NF5280M5是浪潮新一代旗舰双路服务器,将支持2U4卡的GPU异构方案,采用新一代CPU平台,性能提升得到大幅提升。同时,NF5280M5拥有目前业界最高的可扩展性设计,可支持24块2.5"硬盘和24条DDR4内存,并凭借优化的散热系统和模块化设计,在有限的空间内展现了高效可靠、智能高扩展特性。
提供更高效生产力的AI平台软件
AI Station是浪潮自主研发的人工智能深度学习管理系统,面向深度学习训练集群,可以支持多种深度学习框架,能够快速部署深度学习训练环境,全面管理深度学习训练任务,为深度学习用户提供高效易用的平台。
T-eye是浪潮自主研发的应用特征分析软件,主要用于分析AI应用程序在GPU集群上运行时对硬件及系统资源占用的情况,反映出应用程序的运行特征、热点及瓶颈,从而帮助用户对应用程序算法作出针对性的调整优化。
Caffe-MPI是浪潮开发的全球首款高性能MPI集群版的Caffe深度学习计算框架,在伯克利caffe架构的基础上,采用MPI技术对Caffe予以数据并行的优化,实现了多机多卡的并行计算,可部署到大规模训练平台上完成对大规模数据样本的训练。新版本的Caffe-MPI充分发挥了Nvidia最新的CUDNN性能并实现高性能扩展。

GPU17大会现场
此外,在大会期间,浪潮集团副总裁胡雷钧将做"浪潮AI端到端解决方案"的主题报告,并举行"SR-AI整机柜在深度学习上的应用与示范"、"浪潮Caffe-MPI的优化"等现场报告。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。