在人工智能驱动下,云计算行业正在经历根本性的转变,需要一种全新的设计方法。Ampere Computing为提升云计算的效率和性能而设计处理器。
Ampere 首席产品官 Jeff Wittich告诉记者,Ampere在业内首创了云原生处理器的类别,其专为可持续的云而设计。这表现为云原生处理器能够实现性能和能效的双领先,天然适合云基础设施。

继Ampere Altra和Ampere Altra Max之后,Ampere Computing宣布推出全新AmpereOne系列处理器,该处理器拥有多达192个单线程Ampere核,内核数量为业界最高。这是第一款基于Ampere新自研核的产品,由Ampere自有IP全新打造。
01 自研核,AmpereOne不止于此
Jeff Wittich表示,AmpereOne现已投产并交付给客户。AmpereOne能够为云工作负载提供更高的性能、更高的可扩展性以及更高的密度。这是第一款基于Ampere新自研核的产品,由Ampere自有IP全新打造,拥有多达192个单线程Ampere核,内核数为业界最高,帮助Ampere进一步扩大在每机架性能方面的优势。
不管是云端工作负载还是AI应用,它们需要更多算力IO、内存以及带宽。192个内核为AmpereOne带来了巨大的性能优势,比如在云环境中运行虚拟机(VM),AmpereOne每机架运行的虚拟机数量是AMD Genoa的2.9倍,是英特尔Sapphire Rapids的4.3倍。
在生成式AI方面,相比AMD Genoa,AmpereOne可每秒多提供2.3倍的帧数(图像),在运行稳定的扩散模型中胜出。此外在运行DLRM模型的推荐系统中,通过AmpereOne响应的查询数量是AMD Genoa的每秒查询数量的两倍多。
除了192个自研设计的Ampere核,AmpereOne能够为AI工作负载以及其他的云工作负载提供出色的性能和能效以外,还能够提供一些新功能满足其他领域的需求,比如网格拥塞管理(Mesh Congestion Management)、细粒度电源管理(Fine Grained Power Management)和内存标签(Memory Tagging)等,为高性能、高利用率的多用户环境(如云)提高了性能一致性、可管理性和安全性。
AmpereOne系列处理器中采用Chiplet设计,能够具备更高的灵活度和可扩展性、平衡的高性能,加快了整个芯片设计周期,产品上市的速度会更快。
02 产品组合更完整,满足客户多样化需求
随着AmpereOne的正式推出,Ampere丰富了产品组合,同时进一步提升了产品的性能、可扩展性和效率,满足所有云原生计算需求——从最低的功耗、最多的限制条件,到规模最大的客户需求。
此外,Ampere Altra和Ampere Altra Max将继续为云以及其他需要以最低能耗提供最高性能的关键细分市场服务。

Jeff Wittich说,AmpereOne系列处理器并不是要取代Ampere Altra系列,而是在它的基础之上,进行持续的扩张。“在未来很长一段时间里,Ampere Altra系列处理器还会继续销售,为我们的客户提供服务支持。我们希望能够满足不同客户的需求。”
需要注意的是因为AmpereOne系列处理器和Ampere Altra系列处理器都是基于ARM ISA。所有能够在Ampere Altra系列处理器上运行的代码,在全新的AmpereOne系列处理器上运行不存在兼容性问题,不需要进行任何改动。
对于这些不同产品的组合,客户可以根据不同的场景需求选择合适的产品,比如在边缘计算场景,客户可以选择32核、功耗40瓦的Ampere Altra处理器;而对于更大算力需求的客户,比如大规模数据中心用户,他们可以选择高达192核的AmpereOne系列处理器。
目前整个AI正对数据中心产生深远影响,特别是生成式AI加剧了对算力的需求。通常AI工作负载分为AI训练和AI推理,而通过Ampere云原生处理器进行AI推理,可获得卓越的可扩展性和性能,也打破了效率的瓶颈,而这正是令云服务提供商(CSPs)困扰的问题,因为使用GPU会带来极高的能耗,而且容量扩展会受到制约,可部署的服务器数量也会受到限制。而Ampere的云原生处理器通过提供卓越的性能和能效,恰好能够解决这些行业痛点,尤其是对于AI推理来说。
三年前,Ampere收购了专注于创建AI软件的OnSpecta公司,OnSpecta通过创建AI软件助力硬件在AI负载之下运行更快。过去几年Ampere的AI团队的主要工作包括:建立形成标准框架的Libraries(库),助力人们以更高性能运行Ampere Altra。
除了在软件方面有所布局外,Ampere的AI团队还和硬件团队、架构团队在AmpereOne的特性上进行优化合作,为AmpereOne的内核带来了卓越的AI性能,比如 AmpereOne系列处理器提供了全新的 BF16支持,确保不同数据格式的支持。
Ampere的客户群正在不断扩大,包括谷歌云、微软Azure、甲骨文云、阿里云、百度云、京东云和腾讯云等领先的云服务提供商(CSP),以及HPE和Supermicro等领先的原始设备制造商(OEM),Ampere持续扩张生态合作,让Ampere的产品面向更多的用户,触手可及。
Ampere将继续在多种不同的云应用上继续扩展。Ampere Altra系列处理器目前不只是应用于公有云,也有私有云、企业、混合云、边缘计算等场景中,都有相应的部署。边缘是云的延伸,Ampere Altra系列处理器具备更高的核数,提供更高的算力,在资源限制较多的边缘环境也可以带来更优异的整体性能的表现。
“Ampere已经在高性能、高效率的云原生处理器中占领了一席之地,并一直引领市场,而且我相信我们会持续扩大这方面的领先优势。除了能效和性能,我认为很重要的是,Ampere就是纯粹为云打造,并且是真正的云原生。”Jeff Wittich最后说。
好文章,需要你的鼓励
Lumen Technologies对美国网络的数据中心和云连接进行重大升级,在16个高连接城市的70多个第三方数据中心提供高达400Gbps以太网和IP服务。该光纤网络支持客户按需开通服务,几分钟内完成带宽配置,最高可扩展至400Gbps且按使用量付费。升级后的网络能够轻松连接数据中心和云接入点,扩展企业应用,并应对AI和数据密集型需求波动。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
RtBrick研究警告,运营商面临AI和流媒体服务带宽需求"压倒性"风险。调查显示87%运营商预期客户将要求更高宽带速度,但81%承认现有架构无法应对下一波AI和流媒体流量。84%反映客户期望已超越网络能力。尽管91%愿意投资分解式网络,95%计划五年内部署,但仅2%正在实施。主要障碍包括领导层缺乏决策支持、运营转型复杂性和专业技能短缺。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。