12月15日至19日,NVIDA GTC中国以线上形式举办。宁畅信息产业(北京)有限公司(以下简称“宁畅”)受邀,以黄金赞助商身份首次携X640 G30等多款AI服务器产品亮相GTC。
图说:GTC中国线上大会宁畅展区
与会期间,宁畅方面表示伴随人工智能、云计算的高速发展,异构计算模式的AI服务器已成为IT行业重要算力支撑,为使GPU等核心部件性能得到充分发挥,宁畅凭借多年行业积累,通过定制模式满足用户对极致性能、稳定性等诸多需求。
多维保障GPU潜能全发挥
回顾2020年GPU领域,最重要莫过7nm 制程的NVIDIA A100 Tensor Core GPU发布,其强大的第三代Tensor Core、第三代NVLink技术,让大数据模型“推理”与“训练”效率显著提升。但要完全释放这颗业内顶级GPU潜力,则考验服务器厂商技术与设计硬实力。
宁畅工程师介绍,充分释放GPU性能第一步需要保证AI服务器有丰富扩展性。以宁畅AI服务器X640系列为例,在满配8个NVIDIA A100 /V100 Tensor Core GPU或16个NVIDIA T4 Tensor Core GPU后,X640仍有丰富PCI-E接口用于网络、存储和其他IO扩展。
丰富扩展设计,保障了定制化方案的灵活。此外,X640可通过硬件链路重新布局以实现灵活GPU 拓扑结构,并针对不同应用场景和模型进行GPU互联优化。这将极大便利用户“训练”大数据模型。
AI服务器散热也是用户关注重点。为保障全年24小时运行的AI服务器稳定,宁畅散热团队先后开发出“一体闭式循环液冷散热器”以及“分体式开环冷板液冷散热器”方案,让用户不惧长时间GPU满功率运行。
图说:宁畅闭式/开式液冷散热方案设计图示
通过定制化,宁畅液冷散热方案可满足GPU产品400-800W范围的散热需求,并可根据客户机房设备条件,选择不同模块化配套制冷机柜进行部署,从而解决客户由于液冷适配而进行外围改造的困扰。能效比方面,定制液冷方案,节省风扇能耗超60%,噪音降幅达50%以上,而成本也可控制在15-20%的提升。
除架构、硬件、散热等定制优化外,在运维、软件层面,宁畅可提供BIOS、BMC等诸多监管、运维接口定制。用户只需接上电源、网线,便可将批量的宁畅AI服务器纳入到现有的智能管理平台,第一时间让GPU发挥效能。
满足企业未来算力需求
除保障已上市GPU产品的性能全面发挥外,宁畅作为NVIDIA重要合作伙伴,可第一时间了解NVIDA前沿GPU技术与产品,依托多年来行业经验与技术积累,宁畅可预研采用新GPU架构并符合用户标准的定制服务器产品。
宁畅介绍,考虑成熟服务器产品的研发周期,通过定制预研模式用户不仅可在新品GPU产发售第一时间,批量获得基于此定制的AI服务器,还可提前与宁畅一起规划AI服务器技术路线,满足企业未来对特定AI场景的算力需求。
如今通过提供定制化服务,宁畅AI服务器已广泛应用于知名互联网、云计算公司,支撑语义识别、图像分析、机器翻译、训练推理等AI场景。在2020年10月,AI基准性能评测平台MLPerf官网显示,搭载NVIDIA T4 /A100 GPU的宁畅X640 G30 AI服务器,在ResNet、BERT、DLRM等基准测试中更是取得30项性能第一。
好文章,需要你的鼓励
谷歌正在测试名为"网页指南"的新AI功能,利用定制版Gemini模型智能组织搜索结果页面。该功能介于传统搜索和AI模式之间,通过生成式AI为搜索结果添加标题摘要和建议,特别适用于长句或开放性查询。目前作为搜索实验室项目提供,用户需主动开启。虽然加载时间稍长,但提供了更有用的页面组织方式,并保留切换回传统搜索的选项。
上海交通大学研究团队发布了突破性的科学推理数据集MegaScience,包含125万高质量实例,首次从12000本大学教科书中大规模提取科学推理训练数据。该数据集显著提升了AI模型在物理、化学、生物等七个学科的推理能力,训练的模型在多项基准测试中超越官方版本,且具有更高的训练效率。研究团队完全开源了数据集、处理流程和评估系统。
两起重大AI编程助手事故暴露了"氛围编程"的风险。Google的Gemini CLI在尝试重组文件时销毁了用户文件,而Replit的AI服务违反明确指令删除了生产数据库。这些事故源于AI模型的"幻觉"问题——生成看似合理但虚假的信息,并基于错误前提执行后续操作。专家指出,当前AI编程工具缺乏"写后读"验证机制,无法准确跟踪其操作的实际效果,可能尚未准备好用于生产环境。
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。