其关键在于选择、开放性和规模
Jeff McVeigh,英特尔副总裁兼超级计算事业部总经理
高性能计算(HPC)代表了当今技术的顶峰,现代一些最重要的发现都借助了这些先进的机器。现在,我们正站在新一代高性能计算的入口处,其技术的可扩展性和普遍性能够为我们的生活带来翻天覆地的变化。
这一点在抗击新冠肺炎疫情中表现得最为明显。疫情爆发之初,科研机构就在研究实验室以及“高性能计算即服务”的云环境中利用这些先进的超级计算机,来监测、研究、治疗新冠病毒,并运用此项技术开发了用于治疗新冠肺炎的药物。人们正以惊人的速度逐步实现这些目标,这离不开高性能计算技术的广泛应用。
其实在迎来E级运算时代之际,我们才刚刚起步。现阶段,超级计算已经推动了科学探索的发展,并能够帮助解决气候变化和慢性病治疗等关键问题。未来,它将有助于解决我们尚未遇到、甚至无法想象的问题和危机。
英特尔的目标是普及高性能计算并实现高性能计算普及化。为此,我们必须拥抱各种技术,以实现数量级的性能提升、转变高性能计算的可访问性并重新思考我们如何构建为这些系统提供动力的组件。基于此,我们以性能、开放性和规模作为策略基础。
性能:从无所不在的计算架构开始
x86架构是当今高性能计算的发动机,为绝大多数系统提供动力。庞大的安装量使开发人员和客户能够访问世界上最大的生态系统以支持和部署高性能计算工作负载。x86 架构还提供了始终如一的代际性能提升。
现有的这一代英特尔®至强®可扩展处理器已被我们的高性能计算生态系统合作伙伴广泛采用,而下一代英特尔至强可扩展处理器Sapphire Rapids也增加了新功能,目前也作为样品正提供给客户进行测试。Sapphire Rapids为高性能计算生态系统提供多种功能,首次封装了能够充分利用Sapphire Rapids多单元架构的高带宽内存HBM2e。Sapphire Rapids还带来了增强的性能、新的加速器、PCIe 5.0和其他针对人工智能、数据分析和高性能计算负载而优化的新功能。
高性能计算负载发展迅猛。它们变得更加多样化、专有化,也同时需要混合的异构架构。尽管x86架构仍然是标量负载的动力来源,但如果要想实现数量级的性能提升并进一步超越E级运算时代,就必须以批判性的思维来审视高性能计算负载在矢量、矩阵和空间架构中的运行方式,并且必须确保这些架构能够无缝地协同配合。
英特尔已经采用了“整体工作负载”策略,即针对特定负载的加速器和图形处理器(GPU),无论是硬件还是软件,都可以与中央处理器(CPU)无缝配合。我们正在通过下一代英特尔至强可扩展处理器和Xe HPC GPU(代号“Ponte Vecchio”)来实施该战略,它们将用于阿贡国家实验室的2百亿亿次级*极光(Aurora)超级计算机。Ponte Vecchio具备最高的单插槽和单节点计算密度,利用我们先进的封装技术即嵌入式多芯片互连桥接(EMIB)和Foveros封装了47个单元。Ponte Vecchio上运行着100多个高性能计算应用。我们还与包括ATOS、戴尔、惠普、联想、浪潮、Quanta以及超微在内的合作伙伴和客户合作,在他们最新的超级计算机上安装部署Ponte Vecchio处理器。
通过开放性实现高性能计算的普及
要想真正普及高性能计算并实现高性能计算普及化,就需要一种开放的协作方式。英特尔致力于提供基于行业标准的开放平台,以此促进广泛的协作。我们的目标是推动标准制定并创建关键硬件平台,让整个行业团结在一起,在此基础上进行开发。
众所周知,GPU编程由于缺乏适用标准而发展受阻。因此自从GPU进入高性能计算领域以来,行业就面临着CPU和GPU各有一个独立的软件堆栈的挑战,而oneAPI编程模式则试图打破这些孤岛。
oneAPI是一种开放、统一的跨架构编程模式,适用于CPU、GPU和诸如FPGA等的加速器架构,能够允许异构计算环境的编程,所有这些都使用一个代码库和软件堆栈。如此一来,开发人员只需跨架构编程一次,而且客户也不会受制于某个单独的供应商。
下个月,我们将发布英特尔® oneAPI 2022工具包。相比于去年12月份发布的oneAPI 2021版本,该款新的工具包增加了900多项新功能。通过第一个统一的C++/SYCL/Fortran 编译器和数据并行Python,即将发布的版本增加了面向CPU和GPU的跨架构开发功能。今天,我们还宣布建立另外两个oneAPI卓越中心,加入由领先的科研学术机构组成的蓬勃发展的全球生态系统,提供开源端口并扩展硬件支持、新技术、服务和课程,以推动oneAPI在生态系统内部的普及。
我们深知,要想真正普及高性能计算,还有很多工作有待完成。现阶段我们正在做的事将使人们能够在未来随时随地利用最新的高性能计算技术。
大规模制造:英特尔的IDM 2.0战略
高性能计算普及化需要规模效应。英特尔致力于提供推动创新和增长所需的组件和技术。通过英特尔IDM 2.0战略的差异化优势,我们能够带领高性能计算客户进入创新、制造和产品领先的新时代。
我们正在快速执行为期多年的 IDM 2.0战略,这对我们的高性能计算客户来说,是个大好消息,因为我们能够利用行业领先的制造能力以及我们在封装技术方面的领先地位来设计最好的产品,并使用最好的IP,提供下一个超级计算机时代所需的产品。
我们坚定不移地致力于实现高性能计算普及化这一承诺,为此我们也持续投入以推动技术进步来解决最棘手的问题。
当我们越来越接近新一代超级计算机的时候,我们能取得哪些成就?我无比期待答案的揭晓。
Jeff McVeigh是英特尔公司副总裁兼超级计算事业部总经理
1 巅峰性能
好文章,需要你的鼓励
Anthropic发布了面向成本敏感用户的Claude Haiku 4.5大语言模型,定价为每百万输入令牌1美元,输出令牌5美元,比旗舰版Sonnet 4.5便宜三倍。该模型采用混合推理架构,可根据需求调整计算资源,支持多模态输入最多20万令牌。在八项基准测试中,性能仅比Sonnet 4.5低不到10%,但在编程和数学任务上超越了前代Sonnet 4。模型响应速度比Sonnet 4快两倍以上,适用于客服聊天机器人等低延迟应用场景。
上海AI实验室联合多家顶尖机构开发出全球首个科学推理大模型SciReasoner,该模型在2060亿科学数据上训练,支持103个科学任务,能够像科学家一样进行逻辑推理并展示思考过程。它实现了化学、生物学、材料科学等多领域知识整合,在分子设计、性质预测、文献分析等方面表现出色,为科学研究提供了强大的AI助手工具。
英国初创公司Nscale将为微软建设四个AI数据中心,总计部署约20万个GPU,合同价值高达240亿美元。首个数据中心将于明年在葡萄牙开建,配备1.26万个GPU。德州数据中心规模最大,将部署10.4万个GPU,容量从240兆瓦扩展至1.2吉瓦。所有设施将采用英伟达最新Blackwell Ultra显卡。
南洋理工大学研究团队开发出SHINE方法,这是一种无需额外训练就能实现高质量图像合成的新技术。该方法通过巧妙引导现有AI模型的潜能,能够在复杂光影条件下完美合成图像,包括准确的阴影生成和水面倒影效果。研究团队还创建了ComplexCompo基准测试集,验证了SHINE在各种挑战性场景中的卓越性能,为图像编辑技术的发展开辟了新方向。