本周一,英伟达发布了多款全新工具和框架,用以增强实时流体动力学模拟、计算化学、天气预报以及药物开发等任务的运行速度,而依托的正是当前大家最喜爱的流行词:AI。
此番公告强调了英伟达的持续努力,即不仅要使用其GPU加速以往长期运行在CPU之上的高性能计算(HPC)工作负载,同时要减少机器学习技术在各平台上完成这些工作负载所消耗的时间和算力。
根据英伟达数据中心产品营销主管Dion Harris的介绍,即使是少量模糊数学元素的引入,也能给这些工作负载带来巨大的性能提升。
在计算化学方面,英伟达表示与未经AI加速的纯GPU工作负载运行模式相比,使用其AI加速的Alchemi容器或NIM能够将1600万种化学结构的计算速度提升100倍。
有些朋友可能不太熟悉,简而言之,NIM是英伟达的推理微服务,属于包含实现预期目标所需要的全部框架、库及依赖项的容器镜像。在推出后不久,NIM就迅速成为英伟达打包其软件产品的首选方式。
本届SC24大会上公布的其他NIM,还包括用于CorrDiff和FourCastNet天气模型的Earth-2容器以及用于蛋白质模拟的DiffDock 2.0。
在另一个示例中,Harris介绍了英伟达的计算机辅助工程kOmniverse蓝图,其使用多套AI模型来实现对流体动力学计算等任务的实时模拟。
Harris宣称,“传统来讲,针对一辆汽车的模拟往往需要数周、甚至几个月的时间。”
凭借巨大的效率提升以及极低的精度损失,英伟达已经说服高性能计算软件巨头Ansys将这些框架集成到其流体模拟平台当中。
Harris表示,“Altair、Cadence、西门子等公司正在探索如何将这些蓝图整合到自己的服务和产品当中,从而缩短设计周期。”
当然,在高性能计算中使用混合精度及AI来解决体量更大、复杂度更高的问题,其实也不算是什么新鲜事。研究气候模型的研究人员早就在关注这类方法并得到了不少前景光明的结果。然而,让更广泛的高性能计算社区转向这种思维方式,无疑更符合英伟达业务的利益定位。
AI技术的腾飞正为英伟达的数据中心业务带来巨额收入,而这种趋势又被反映在该公司的设计决策当中。Blackwell就是典型案例,在双精度计算方面,其最新一代GPU与Superchips只能说是好坏参半。一方面,FP64矢量性能提升至45万亿次;但在矩阵数学方面,该芯片与H100和H200相比反而略有倒退。
这也导致英伟达相对于AMD处于竞争劣势。AMD不仅为那些拒绝转型的顽派高性能计算用例制造CPU,而且其GPU和APU也承诺提供更高的性能。MI325X可以说是与英伟达Blackwell最具可比性的GPU型号,其在双精度下拥有81万亿悦铃 矢量与163万亿次矩阵计算性能。
在另一方面,英伟达明显是通过牺牲精度的方式换取更极致的FLOPS浮点运算性能,其顶配Blackwell GPU在FP4下可提供20千万亿次算力。
由此可见,英伟达拥有一套明确的高性能计算战略:与其在小从市场上跟AMD奋力争夺,不如说服软件供应商在适当条件下,将模糊矩阵数学和适度的双精度性能相结合往往效果更佳。
这对英伟达来说也并不是一条新路。自从2007年首次公布CUDA以来,该公司对高性能计算社区的贡献不仅体现在超级计算领域,同时也对企业和云计算领域GPU的崛起都产生了积极影响。
在高性能计算领域被基于CPU的架构所主导的时代,要进入该领域必须构建新的框架并调整软件以在GPU上运行。
从各个方面来看,英伟达并没有放弃其传统战略,只是在软件的具体应用方面迸发出了更多创意,而且在对于机器学习的应用也依旧具有实效。总而言之,英伟达现阶段的思路仍然是沿用现有框架并尽一切可能加速计算。
最新的案例就是cuPyNumeric,属于无处不在的NumPy库的“替代方案”。
Harris表示,“NumPy是Python开发人员进行数学模型计算的基础库,目前被超过500万科学行业开发者使用,仅上个月的下载量就达到3亿次。”但他也同时承认,尽管NumPy普及度极高,但在多GPU集群中的库扩展方面却遭遇到不小的挑战。
英伟达宣称,cuPyNumeric能够将NumPy程序自动扩展至规模更大的集群,且无需借助底层分布式计算库。
英伟达本周还扩展了对其量子系统CUDA-Q平台中加速动态模拟的支持。Harris表示,“依托GPU对这些全面量子比特模拟进行加速,研究人员可以测试新的量子处理器设计方案。以往对50种设计迭代进行模拟可能需要一年左右的时间,但现在大家可以在不到一个小时内轻松完成。”
谷歌正是首批将CUDA-Q应用于英伟达EOS超级计算机以运行大规模量子模拟的公司之一。
好文章,需要你的鼓励
第一资本就凭借着对数据资源的差异化运用成功脱颖而出。”这样的基础不仅彻底改变了该公司进军银行业的方式,还建立起良性循环,使得更好的数据支撑起更强大的分析能力,进而改善客户交互并产生出更多数据。
Fortinet有着三大重要组成部分,“安全组网”、“unified SASE(统一SASE)”、“AI赋能安全组网”过去三年同比平均增长了14.6%、21.7%、22.3%,远超行业同期的9%、19%、14%的增长率。
近日Max Chan和我们分享了Avnet公司在现代数字领域得到的经验教训,从优化云支出到利用AI提高客户满意度。
金融服务公司Discover Financial Services采用容器化方法来实现其工作负载的敏捷性和灵活性,同时探索生成式AI的长期优势。