在人工智能驱动下,云计算行业正在经历根本性的转变,需要一种全新的设计方法。Ampere Computing为提升云计算的效率和性能而设计处理器。
Ampere 首席产品官 Jeff Wittich告诉记者,Ampere在业内首创了云原生处理器的类别,其专为可持续的云而设计。这表现为云原生处理器能够实现性能和能效的双领先,天然适合云基础设施。
继Ampere Altra和Ampere Altra Max之后,Ampere Computing宣布推出全新AmpereOne系列处理器,该处理器拥有多达192个单线程Ampere核,内核数量为业界最高。这是第一款基于Ampere新自研核的产品,由Ampere自有IP全新打造。
01 自研核,AmpereOne不止于此
Jeff Wittich表示,AmpereOne现已投产并交付给客户。AmpereOne能够为云工作负载提供更高的性能、更高的可扩展性以及更高的密度。这是第一款基于Ampere新自研核的产品,由Ampere自有IP全新打造,拥有多达192个单线程Ampere核,内核数为业界最高,帮助Ampere进一步扩大在每机架性能方面的优势。
不管是云端工作负载还是AI应用,它们需要更多算力IO、内存以及带宽。192个内核为AmpereOne带来了巨大的性能优势,比如在云环境中运行虚拟机(VM),AmpereOne每机架运行的虚拟机数量是AMD Genoa的2.9倍,是英特尔Sapphire Rapids的4.3倍。
在生成式AI方面,相比AMD Genoa,AmpereOne可每秒多提供2.3倍的帧数(图像),在运行稳定的扩散模型中胜出。此外在运行DLRM模型的推荐系统中,通过AmpereOne响应的查询数量是AMD Genoa的每秒查询数量的两倍多。
除了192个自研设计的Ampere核,AmpereOne能够为AI工作负载以及其他的云工作负载提供出色的性能和能效以外,还能够提供一些新功能满足其他领域的需求,比如网格拥塞管理(Mesh Congestion Management)、细粒度电源管理(Fine Grained Power Management)和内存标签(Memory Tagging)等,为高性能、高利用率的多用户环境(如云)提高了性能一致性、可管理性和安全性。
AmpereOne系列处理器中采用Chiplet设计,能够具备更高的灵活度和可扩展性、平衡的高性能,加快了整个芯片设计周期,产品上市的速度会更快。
02 产品组合更完整,满足客户多样化需求
随着AmpereOne的正式推出,Ampere丰富了产品组合,同时进一步提升了产品的性能、可扩展性和效率,满足所有云原生计算需求——从最低的功耗、最多的限制条件,到规模最大的客户需求。
此外,Ampere Altra和Ampere Altra Max将继续为云以及其他需要以最低能耗提供最高性能的关键细分市场服务。
Jeff Wittich说,AmpereOne系列处理器并不是要取代Ampere Altra系列,而是在它的基础之上,进行持续的扩张。“在未来很长一段时间里,Ampere Altra系列处理器还会继续销售,为我们的客户提供服务支持。我们希望能够满足不同客户的需求。”
需要注意的是因为AmpereOne系列处理器和Ampere Altra系列处理器都是基于ARM ISA。所有能够在Ampere Altra系列处理器上运行的代码,在全新的AmpereOne系列处理器上运行不存在兼容性问题,不需要进行任何改动。
对于这些不同产品的组合,客户可以根据不同的场景需求选择合适的产品,比如在边缘计算场景,客户可以选择32核、功耗40瓦的Ampere Altra处理器;而对于更大算力需求的客户,比如大规模数据中心用户,他们可以选择高达192核的AmpereOne系列处理器。
目前整个AI正对数据中心产生深远影响,特别是生成式AI加剧了对算力的需求。通常AI工作负载分为AI训练和AI推理,而通过Ampere云原生处理器进行AI推理,可获得卓越的可扩展性和性能,也打破了效率的瓶颈,而这正是令云服务提供商(CSPs)困扰的问题,因为使用GPU会带来极高的能耗,而且容量扩展会受到制约,可部署的服务器数量也会受到限制。而Ampere的云原生处理器通过提供卓越的性能和能效,恰好能够解决这些行业痛点,尤其是对于AI推理来说。
三年前,Ampere收购了专注于创建AI软件的OnSpecta公司,OnSpecta通过创建AI软件助力硬件在AI负载之下运行更快。过去几年Ampere的AI团队的主要工作包括:建立形成标准框架的Libraries(库),助力人们以更高性能运行Ampere Altra。
除了在软件方面有所布局外,Ampere的AI团队还和硬件团队、架构团队在AmpereOne的特性上进行优化合作,为AmpereOne的内核带来了卓越的AI性能,比如 AmpereOne系列处理器提供了全新的 BF16支持,确保不同数据格式的支持。
Ampere的客户群正在不断扩大,包括谷歌云、微软Azure、甲骨文云、阿里云、百度云、京东云和腾讯云等领先的云服务提供商(CSP),以及HPE和Supermicro等领先的原始设备制造商(OEM),Ampere持续扩张生态合作,让Ampere的产品面向更多的用户,触手可及。
Ampere将继续在多种不同的云应用上继续扩展。Ampere Altra系列处理器目前不只是应用于公有云,也有私有云、企业、混合云、边缘计算等场景中,都有相应的部署。边缘是云的延伸,Ampere Altra系列处理器具备更高的核数,提供更高的算力,在资源限制较多的边缘环境也可以带来更优异的整体性能的表现。
“Ampere已经在高性能、高效率的云原生处理器中占领了一席之地,并一直引领市场,而且我相信我们会持续扩大这方面的领先优势。除了能效和性能,我认为很重要的是,Ampere就是纯粹为云打造,并且是真正的云原生。”Jeff Wittich最后说。
好文章,需要你的鼓励
这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型、时序型和其他类型,发现在主流评测中高达70%的问题实际上未测试真正的视频理解能力。通过重新评估现有模型,研究团队证明单一总分可能掩盖关键能力差距,并提出了更高效的评测方法,为未来视频AI评测提供了新方向。
这篇来自KAIST AI研究团队的论文提出了"差分信息分布"(DID)这一创新概念,为理解直接偏好优化(DPO)提供全新视角。研究证明,当偏好数据编码了从参考策略到目标策略所需的差分信息时,DPO中的对数比率奖励形式是唯一最优的。通过分析DID熵,研究解释了对数似然位移现象,并发现高熵DID有利于通用指令跟随,而低熵DID适合知识密集型问答。这一框架统一了对DPO目标、偏好数据结构和策略行为的理解,为语言模型对齐提供理论支持。
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使最佳表现的Gemini 1.5 Pro也仅达46.8%平均分,远低于人类水平。研究揭示输入分辨率、OCR能力等内在因素和辅助信息、思维链推理等外部因素对性能有显著影响,为未来视频文本理解研究提供了方向。
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略,ZeroGUI显著提升了代理性能,在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖,为GUI代理技术的大规模应用铺平了道路。