12月15日至19日,NVIDA GTC中国以线上形式举办。宁畅信息产业(北京)有限公司(以下简称“宁畅”)受邀,以黄金赞助商身份首次携X640 G30等多款AI服务器产品亮相GTC。
图说:GTC中国线上大会宁畅展区
与会期间,宁畅方面表示伴随人工智能、云计算的高速发展,异构计算模式的AI服务器已成为IT行业重要算力支撑,为使GPU等核心部件性能得到充分发挥,宁畅凭借多年行业积累,通过定制模式满足用户对极致性能、稳定性等诸多需求。
多维保障GPU潜能全发挥
回顾2020年GPU领域,最重要莫过7nm 制程的NVIDIA A100 Tensor Core GPU发布,其强大的第三代Tensor Core、第三代NVLink技术,让大数据模型“推理”与“训练”效率显著提升。但要完全释放这颗业内顶级GPU潜力,则考验服务器厂商技术与设计硬实力。
宁畅工程师介绍,充分释放GPU性能第一步需要保证AI服务器有丰富扩展性。以宁畅AI服务器X640系列为例,在满配8个NVIDIA A100 /V100 Tensor Core GPU或16个NVIDIA T4 Tensor Core GPU后,X640仍有丰富PCI-E接口用于网络、存储和其他IO扩展。
丰富扩展设计,保障了定制化方案的灵活。此外,X640可通过硬件链路重新布局以实现灵活GPU 拓扑结构,并针对不同应用场景和模型进行GPU互联优化。这将极大便利用户“训练”大数据模型。
AI服务器散热也是用户关注重点。为保障全年24小时运行的AI服务器稳定,宁畅散热团队先后开发出“一体闭式循环液冷散热器”以及“分体式开环冷板液冷散热器”方案,让用户不惧长时间GPU满功率运行。
图说:宁畅闭式/开式液冷散热方案设计图示
通过定制化,宁畅液冷散热方案可满足GPU产品400-800W范围的散热需求,并可根据客户机房设备条件,选择不同模块化配套制冷机柜进行部署,从而解决客户由于液冷适配而进行外围改造的困扰。能效比方面,定制液冷方案,节省风扇能耗超60%,噪音降幅达50%以上,而成本也可控制在15-20%的提升。
除架构、硬件、散热等定制优化外,在运维、软件层面,宁畅可提供BIOS、BMC等诸多监管、运维接口定制。用户只需接上电源、网线,便可将批量的宁畅AI服务器纳入到现有的智能管理平台,第一时间让GPU发挥效能。
满足企业未来算力需求
除保障已上市GPU产品的性能全面发挥外,宁畅作为NVIDIA重要合作伙伴,可第一时间了解NVIDA前沿GPU技术与产品,依托多年来行业经验与技术积累,宁畅可预研采用新GPU架构并符合用户标准的定制服务器产品。
宁畅介绍,考虑成熟服务器产品的研发周期,通过定制预研模式用户不仅可在新品GPU产发售第一时间,批量获得基于此定制的AI服务器,还可提前与宁畅一起规划AI服务器技术路线,满足企业未来对特定AI场景的算力需求。
如今通过提供定制化服务,宁畅AI服务器已广泛应用于知名互联网、云计算公司,支撑语义识别、图像分析、机器翻译、训练推理等AI场景。在2020年10月,AI基准性能评测平台MLPerf官网显示,搭载NVIDIA T4 /A100 GPU的宁畅X640 G30 AI服务器,在ResNet、BERT、DLRM等基准测试中更是取得30项性能第一。
好文章,需要你的鼓励
CoreWeave发布AI对象存储服务,采用本地对象传输加速器(LOTA)技术,可在全球范围内高速传输对象数据,无出口费用或请求交易分层费用。该技术通过智能代理在每个GPU节点上加速数据传输,提供高达每GPU 7 GBps的吞吐量,可扩展至数十万个GPU。服务采用三层自动定价模式,为客户的AI工作负载降低超过75%的存储成本。
IDEA研究院等机构联合开发了ToG-3智能推理系统,通过多智能体协作和双重进化机制,让AI能像人类专家团队一样动态思考和学习。该系统在复杂推理任务上表现优异,能用较小模型达到卓越性能,为AI技术的普及应用开辟了新路径,在教育、医疗、商业决策等领域具有广阔应用前景。
谷歌DeepMind与核聚变初创公司CFS合作,运用先进AI模型帮助管理和改进即将发布的Sparc反应堆。DeepMind开发了名为Torax的专用软件来模拟等离子体,结合强化学习等AI技术寻找最佳核聚变控制方式。核聚变被视为清洁能源的圣杯,可提供几乎无限的零碳排放能源。谷歌已投资CFS并承诺购买其200兆瓦电力。
上海人工智能实验室提出SPARK框架,创新性地让AI模型在学习推理的同时学会自我评判,通过回收训练数据建立策略与奖励的协同进化机制。实验显示,该方法在数学推理、奖励评判和通用能力上分别提升9.7%、12.1%和1.5%,且训练成本仅为传统方法的一半,展现出强大的泛化能力和自我反思能力。