在人工智能驱动下,云计算行业正在经历根本性的转变,需要一种全新的设计方法。Ampere Computing为提升云计算的效率和性能而设计处理器。
Ampere 首席产品官 Jeff Wittich告诉记者,Ampere在业内首创了云原生处理器的类别,其专为可持续的云而设计。这表现为云原生处理器能够实现性能和能效的双领先,天然适合云基础设施。

继Ampere Altra和Ampere Altra Max之后,Ampere Computing宣布推出全新AmpereOne系列处理器,该处理器拥有多达192个单线程Ampere核,内核数量为业界最高。这是第一款基于Ampere新自研核的产品,由Ampere自有IP全新打造。
01 自研核,AmpereOne不止于此
Jeff Wittich表示,AmpereOne现已投产并交付给客户。AmpereOne能够为云工作负载提供更高的性能、更高的可扩展性以及更高的密度。这是第一款基于Ampere新自研核的产品,由Ampere自有IP全新打造,拥有多达192个单线程Ampere核,内核数为业界最高,帮助Ampere进一步扩大在每机架性能方面的优势。
不管是云端工作负载还是AI应用,它们需要更多算力IO、内存以及带宽。192个内核为AmpereOne带来了巨大的性能优势,比如在云环境中运行虚拟机(VM),AmpereOne每机架运行的虚拟机数量是AMD Genoa的2.9倍,是英特尔Sapphire Rapids的4.3倍。
在生成式AI方面,相比AMD Genoa,AmpereOne可每秒多提供2.3倍的帧数(图像),在运行稳定的扩散模型中胜出。此外在运行DLRM模型的推荐系统中,通过AmpereOne响应的查询数量是AMD Genoa的每秒查询数量的两倍多。
除了192个自研设计的Ampere核,AmpereOne能够为AI工作负载以及其他的云工作负载提供出色的性能和能效以外,还能够提供一些新功能满足其他领域的需求,比如网格拥塞管理(Mesh Congestion Management)、细粒度电源管理(Fine Grained Power Management)和内存标签(Memory Tagging)等,为高性能、高利用率的多用户环境(如云)提高了性能一致性、可管理性和安全性。
AmpereOne系列处理器中采用Chiplet设计,能够具备更高的灵活度和可扩展性、平衡的高性能,加快了整个芯片设计周期,产品上市的速度会更快。
02 产品组合更完整,满足客户多样化需求
随着AmpereOne的正式推出,Ampere丰富了产品组合,同时进一步提升了产品的性能、可扩展性和效率,满足所有云原生计算需求——从最低的功耗、最多的限制条件,到规模最大的客户需求。
此外,Ampere Altra和Ampere Altra Max将继续为云以及其他需要以最低能耗提供最高性能的关键细分市场服务。

Jeff Wittich说,AmpereOne系列处理器并不是要取代Ampere Altra系列,而是在它的基础之上,进行持续的扩张。“在未来很长一段时间里,Ampere Altra系列处理器还会继续销售,为我们的客户提供服务支持。我们希望能够满足不同客户的需求。”
需要注意的是因为AmpereOne系列处理器和Ampere Altra系列处理器都是基于ARM ISA。所有能够在Ampere Altra系列处理器上运行的代码,在全新的AmpereOne系列处理器上运行不存在兼容性问题,不需要进行任何改动。
对于这些不同产品的组合,客户可以根据不同的场景需求选择合适的产品,比如在边缘计算场景,客户可以选择32核、功耗40瓦的Ampere Altra处理器;而对于更大算力需求的客户,比如大规模数据中心用户,他们可以选择高达192核的AmpereOne系列处理器。
目前整个AI正对数据中心产生深远影响,特别是生成式AI加剧了对算力的需求。通常AI工作负载分为AI训练和AI推理,而通过Ampere云原生处理器进行AI推理,可获得卓越的可扩展性和性能,也打破了效率的瓶颈,而这正是令云服务提供商(CSPs)困扰的问题,因为使用GPU会带来极高的能耗,而且容量扩展会受到制约,可部署的服务器数量也会受到限制。而Ampere的云原生处理器通过提供卓越的性能和能效,恰好能够解决这些行业痛点,尤其是对于AI推理来说。
三年前,Ampere收购了专注于创建AI软件的OnSpecta公司,OnSpecta通过创建AI软件助力硬件在AI负载之下运行更快。过去几年Ampere的AI团队的主要工作包括:建立形成标准框架的Libraries(库),助力人们以更高性能运行Ampere Altra。
除了在软件方面有所布局外,Ampere的AI团队还和硬件团队、架构团队在AmpereOne的特性上进行优化合作,为AmpereOne的内核带来了卓越的AI性能,比如 AmpereOne系列处理器提供了全新的 BF16支持,确保不同数据格式的支持。
Ampere的客户群正在不断扩大,包括谷歌云、微软Azure、甲骨文云、阿里云、百度云、京东云和腾讯云等领先的云服务提供商(CSP),以及HPE和Supermicro等领先的原始设备制造商(OEM),Ampere持续扩张生态合作,让Ampere的产品面向更多的用户,触手可及。
Ampere将继续在多种不同的云应用上继续扩展。Ampere Altra系列处理器目前不只是应用于公有云,也有私有云、企业、混合云、边缘计算等场景中,都有相应的部署。边缘是云的延伸,Ampere Altra系列处理器具备更高的核数,提供更高的算力,在资源限制较多的边缘环境也可以带来更优异的整体性能的表现。
“Ampere已经在高性能、高效率的云原生处理器中占领了一席之地,并一直引领市场,而且我相信我们会持续扩大这方面的领先优势。除了能效和性能,我认为很重要的是,Ampere就是纯粹为云打造,并且是真正的云原生。”Jeff Wittich最后说。
好文章,需要你的鼓励
CPU架构讨论常聚焦于不同指令集的竞争,但实际上在单一系统中使用多种CPU架构已成常态。x86、Arm和RISC-V各有优劣,AI技术的兴起更推动了对性能功耗比的极致需求。当前x86仍主导PC和服务器市场,Arm凭借庞大生态系统在移动和嵌入式领域领先,RISC-V作为开源架构展现巨大潜力。未来芯片设计将更多采用异构计算,多种架构协同工作成为趋势。
苏州大学研究团队提出"语境降噪训练"新方法,通过"综合梯度分数"识别长文本中的关键信息,在训练时强化重要内容、抑制干扰噪音。该技术让80亿参数的开源模型在长文本任务上达到GPT-4o水平,训练效率比传统方法高出40多倍。研究解决了AI处理长文档时容易被无关信息干扰的核心问题,为文档分析、法律研究等应用提供重要突破。
Vast Data与云计算公司CoreWeave签署了价值11.7亿美元的多年期软件许可协议,这标志着AI基础设施存储市场的重要转折点。该协议涵盖Vast Data的通用存储层及高级数据平台服务,将帮助CoreWeave提供更全面的AI服务。业内专家认为,随着AI集群规模不断扩大,存储系统在AI基础设施中的占比可能从目前的1.9%提升至3-5%,未来五年全球AI存储市场规模将达到900亿至2000亿美元。
清华大学团队首次揭示了困扰AI训练领域超过两年的"幽灵故障"根本原因:Flash Attention在BF16精度下训练时会因数字舍入偏差与低秩矩阵结构的交互作用导致训练崩溃。研究团队通过深入分析发现问题源于注意力权重为1时的系统性舍入误差累积,并提出了动态最大值调整的解决方案,成功稳定了训练过程。这项研究不仅解决了实际工程问题,更为分析类似数值稳定性挑战提供了重要方法论。