至顶网服务器频道 06月18日 新闻消息(文/李祥敬):近日,一年一度的全球超算盛会——ISC2019正在德国法兰克福举行。NVIDIA在ISC2019上宣布CUDA支持Arm CPU,并将于年底前向Arm生态系统提供支持,这将有助力业界构建具有极高能效水平的百万兆级AI超级计算。
NVIDIA GPU加速计算在高性能计算领域的作用不断得以凸显。。今年的Top500榜单中,采用GPU加速的超级计算机数量达到了125台,较去年增长了25%。在排名前10的超级计算机中,有一半都采用了GPU加速,其中就包括了世界上最快的ORNL Summit和排名第二的LLNL Sierra。
此外,欧洲最快的超级计算机Piz Daint和日本最快的超级计算机ABCI也都采用了NVIDIA Tesla GPU加速。在软件开发方面,NVIDIA开发者增长了50%,600多个CUDA应用问世,GPU性能得到不断提升,NVIDIA GPU浮点计算能力更是较去年提升了45%。
NVIDIA驱动了当今最快的超算系统,其打造的GPU成为人工智能计算的基石。另外,根据最新发布的Green500排行榜,在全球最节能的25款超级计算机中,有22款都得益于NVIDIA的支持,包括CUDA GPU、NVIDIA与Mellanox合作优化整体超级计算集群的处理;以及NVIDIA发明的SXM 3D封装和可实现极密集型扩展节点的NVIDIA NVLink互连技术。GPU已经成为了打造高能效超级计算机的核心加速计算平台。
现在计算多样化,比如通用计算、异构计算等,这直接驱动了GPU、FPGA、POWER、Arm等芯片架构的发展。NVIDIA在ISC2019上宣布将于年底前向Arm生态系统提供支持。
在笔者看来,NVIDIA对于Arm架构的支持,补齐了GPU加速计算对于主流CPU架构的支持,这包括x86、POWER和Arm。这意味着什么呢?这意味NVIDIA对于算力的全覆盖,x86代表了通用计算,而POWER是关键业务计算,Arm代表了端计算或者边缘计算。
所以,我们也就明白了NVIDIA与Arm的合作代表了NVIDIA对于AI算力的思考,毕竟现在除了云端AI,边缘AI同样重要,云端协同才能发挥AI的最大价值。而NVIDIA统一的加速软件堆栈为云端一体化AI提供了有力支撑。
同时,众所周知,功耗问题成为HPC和AI前行面临的一大挑战,毕竟它们对于算力的需求是巨大的,但是问题也来了,那就是巨大的功耗功率和能源问题。而Arm在低功耗方面非常突出,NVIDIA CUDA加速的计算和Arm的高能效CPU架构的相结合,将助力业界构建具有极高能效水平的百万兆级AI超级计算机。
NVIDIA提供对Arm的支持,将CUDA加速引入Arm架构,这对于整个产业界而言具有里程碑意义,Atos、Cray、CSC、HPE、Marvell、Mellanox等超算中心和系统提供商以及系统级芯片制造商已经在Arm架构上进行相关测试。
比如Cray系统管理和编程环境(编译器、库和工具)已经能够在XC和未来的Shasta超级计算机上支持Arm处理器,将CUDA和CUDA-X HPC和AI软件堆栈用于Arm平台,并将其与Cray系统管理和编程环境紧密集成,能够助力Cray实现百万兆级时代超级计算机实现的愿景。
HPE Apollo 70是一款基于Arm的专用HPC系统,现支持NVIDIA GPU。NVIDIA对Arm的支持为HPE Apollo 70的发展提供了进一步的加持,HPE Apollo 70支持2U GPU托盘和多种节能冷却选项,让HPE能够进一步助力HPC行业解决日益不可持续的功耗水平问题。
综上所述,依托NVIDIA和Arm成熟的生态,NVIDIA实现对于Arm的支持,为当前HPC和AI的发展拓展了更为广阔的发展路径。这对于双方以及各自生态的影响是深远的,也是整个产业界乐见其成的。
当前,HPC与AI的融合趋势非常明显。无论是医疗健康、工业制造,还是交通运输、金融投资,围绕数据所产生的智能化分析充斥着人们的工作和生活,AI似乎无处不在。HPC的出现,则在算力乃至算法层面加速了这一进程。HPL-AI是一种新的评估AI超算能力指标,对比评测结果,NVIDIA借助技术创新让全球最快超级计算机SUMMIT实现了3倍多的性能表现。
NVIDIA提供了的全堆栈的AI和HPC软件,为600多个HPC应用程序和所有AI框架提供加速,这包括了所有NVIDIA CUDA-X AI和HPC库、GPU加速的AI框架和软件开发工具,如支持OpenACC的PGI编译器和性能分析器。其中,为了加速HPC和AI应用,NVIDIA CUDA-X进行了500多项更新。CUDA-X包含十几个专用加速库,能够将机器学习和数据科学工作负载加速至高达50倍,其通过充分利用NVIDIA Tensor Core GPU加速工作负载处理。
同时,NVIDIA NGC进行了更新,支持更好地应用部署HPC和AI应用。NVIDIA NGC是一个综合资源库,包括GPU加速软件、经预先训练的AI模型、数据分析模型训练、机器学习、深度学习、以及通过CUDA-X AI加速的高性能计算。更新的NVIDIA NGC集成了GPU优化的软件Hub,支持60个预训练的AI模型,15多个模型训练脚本,针对行业应用(医学影像、视频分析等)的流程。目前,客户更广泛得采纳NVIDIA NGC,200多个超算网站和800多家高校进行了部署。
除了软件层面的更新,NVIDIA在硬件创新也进行了积极探索。在GTC 2019上,针对超算和超大规模数据中心NVIDIA推出了NVIDIA DGX-2和NVIDIA DGX POD全新产品。依托DGX POD,企业可以构建基于DGX POD的AI基础架构,实现大规模AI。
在ISC2019上,我们迎来了DGX SuperPOD。这是NVIDIA推出的全球速度排名第22位的超级计算机,该超级计算机系统的搭建仅用时3个星期,采用了96台NVIDIA DGX-2H超级计算机(内含1536颗NVIDIA V100 Tensor Core GPU),由NVIDIA NVSwitch及Mellanox网络结构相联接。其处理能力高达9.4Petaflops,例如DGX SuperPOD软硬件平台能够在不到2分钟的时间之内完成ResNet-50训练。在2015年,该人工智能模型推出的时候,即便采用当时最先进的系统——单颗NVIDIA K80 GPU,也需要25天才能了完成训练任务。而DGX SuperPOD生成结果的速度较之加快了18000倍。
具备同等性能的其他TOP500超级计算机系统都由数千台服务器构建而成,而DGX SuperPOD占地面积更少,其体积比这些同等系统小400倍左右。得益于其模块化和企业级设计,该系统还能够以极快的速度完成部署。其他同等规模的系统通常需要6-9个月才能完成部署毕,而对于DGX SuperPOD而言,在工程师采用经过验证的规范性方法情况下,其仅需3个星期即可部署完毕。对于希望部署NVIDIA SuperPOD架构的用户来说,他们可以
通过构建像DGX SuperPOD这样的超级计算机,这让大规模计算能力得以跨出学术界,为那些想要使用高性能计算加快其各种计划的交通运输公司及其他行业所用。如果他们希望使用NVIDIA SuperPOD架构的用户来说,他们可以通过DGX-Ready Data Center计划获取相关服务。
通过自身软硬件的集成和协同,同时依靠庞大的生态,NVIDIA DGX系统正在成为企业落地HPC和AI的重要支撑。如今,NVIDIA DGX系统已经被众多有着大规模计算需求的企业机构所采用,例如宝马、Continental、福特与Zenuity等汽车公司,还有Facebook、微软与富士胶片等公司,以及日本理化学研究所与美国能源部实验室等。
当前随着算力的极大丰富,HPC与AI的应用创新不断深入发展。同时,在算法层面,NVIDIA为HPC和AI提供了全面的软件堆栈,借助自身的GPU架构,驱动多样化的工作负载。得益于在软硬件方面的持续发展,NVIDIA在加速计算的路上越走越远。
好文章,需要你的鼓励
谷歌正在测试名为"网页指南"的新AI功能,利用定制版Gemini模型智能组织搜索结果页面。该功能介于传统搜索和AI模式之间,通过生成式AI为搜索结果添加标题摘要和建议,特别适用于长句或开放性查询。目前作为搜索实验室项目提供,用户需主动开启。虽然加载时间稍长,但提供了更有用的页面组织方式,并保留切换回传统搜索的选项。
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。
两起重大AI编程助手事故暴露了"氛围编程"的风险。Google的Gemini CLI在尝试重组文件时销毁了用户文件,而Replit的AI服务违反明确指令删除了生产数据库。这些事故源于AI模型的"幻觉"问题——生成看似合理但虚假的信息,并基于错误前提执行后续操作。专家指出,当前AI编程工具缺乏"写后读"验证机制,无法准确跟踪其操作的实际效果,可能尚未准备好用于生产环境。
微软亚洲研究院开发出革命性的认知启发学习框架,让AI能够像人类一样思考和学习。该技术通过模仿人类的注意力分配、记忆整合和类比推理等认知机制,使AI在面对新情况时能快速适应,无需大量数据重新训练。实验显示这种AI在图像识别、语言理解和决策制定方面表现卓越,为教育、医疗、商业等领域的智能化应用开辟了新前景。