微软和合作伙伴发布了开源RTL,用于一种新的数据压缩机制,而英特尔公布了另一个实现安全块的类似项目。这些举措表明,参与开放计算项目(Open Compute Project,OCP)的数据中心巨头们,正在朝着芯片开源迈出第一步。
以上提到的这些项目,是推动全球最大数据中心向前发展的深度和广度的一个指标。当下,摩尔定律正在放缓,深度学习等工作负载不断增加,这迫使工程师们全力以赴追求性能提升。
例如,有厂商展示了冷却高速芯片的六种替代方法,包括浸泡浴。一位厂商高管表示,由于目前有十几款热门处理器和加速器正在研发中,因此他希望OCP委员会能够在明年之前起草相关的标准。
今年有超过3500名工程师注册参加了OCP大会,其中有约178受访者称,他们每年在数据中心设备上的花费为25.6亿美元,预计到2022年将增加至近110亿美元。
自2011年Facebook成立OCP以来,该组织已经发布了数十款服务器、交换机以及其他系统和主板的开源设计。成员企业代表们表示,他们希望这些新项目只是芯片开源的一个开始。
微软服务器设计总经理Kushagra Vaid表示:“在云服务提供商中,我们开创了贡献RTL的先例,我希望其他人也紧随其后…对于一项新的压缩标准来说,你需要为整个行业做出贡献,你需要大量的芯片。”
“拉手风琴的男子”:英特尔Jason Waxman与浪潮公司共同设计了一款四路服务器,并表示英特尔将在今年推出Nervana训练推理处理器。(图片来源:EE Times)
Project Zipline是对所谓“数据洪流”的一种响应措施,根据最近的一项研究显示,预计到2025年每年产生的数据量将达到175ZB。Project Zipline定义了优化数据中心的霍夫曼编码的一种变体,在模式匹配的IP块中实现的。Project Zipline将微软测试文件大小减少了了92%-96%,同时可以在微秒级处理吞吐量达每秒数十GB。
Vaid坦言,推出新的压缩技术需要一定的时间。到目前为止,Project Zipline得到了AMD、Arm,Broadcom、Cadence、Intel、Marvell、Mellanox和Synopsys等厂商的支持。
在另一个项目Project Cerberus中,OCP的目标是将使用Project Cerberus创建的处理器信任根扩展到服务器的所有组件中,这就需要Facebook、Intel和微软等厂商定义一个新的协议和IP块。
这种方法让目前Cerberus主板上使用的NXP控制器成为主控制器,与每个外围芯片中的从属块进行通信。英特尔发言人表示,这几家厂商将开放这些外围块的源代码。
一位微软工程师描述了他的项目:将服务器主板分解为多个模块,以降低成本并缩短设计时间。该项目负责人Siamak Tavallaei(下图)已经公布了这一概念的高级描述内容,并且已经有十几家企业有兴趣在今年夏天设计出原型。
这种方法让处理器和内存变成了一个模块,可以在定义好芯片后立即开始设计。各种CPU模块都可以采用一种安全控制器模块,这种模块运行固件、监控温度、控制风扇和其他基本杂务。
采用基于PCIe Gen 4的I/O线缆,可以有助于减少电路板空间并缩短处理器与I/O之间的距离。距离缩短可以节省高达60%的PCB材料,并在机箱中腾出更多空间,用于容纳更多端口、PCIe插槽、甚至是GPU等加速器。
微软Siamak Tavallaei描述了一种针对模块化主板的新概念。
随着处理器和加速器变得体积更大,散热更多,各种替代性的冷却系统也开始风靡。
微软的Vaid表示:“今年展会上有很多很时髦的想法。到明年,如果OCP说‘这个功率下我们需要X,那个功率下我们更倾向于其他冷却系统’,那会是个不错的事情。”
OCP的冷却委员开展这方面的工作刚刚几个月的时间,所以明年OPC大会要看到相应的标准问世还是很有野心的。在今年的大会上,参会者看到了各种各样的热管、泵和更奇特的冷却技术。
台湾的WiWynn公司展示了一种两相(液体到蒸汽)浸没系统,可以冷却48-V Facebook Diablo Pass服务器的100个节点。
有一家厂商预计,除了一些网络巨头正在自主研发的解决方案之外,市场中现有多达十几种液冷产品,甚至是浸入式系统,现在也有多达八个竞争公司展示了他们的单相或者双相系统。
侵入式系统厂商Submer表示,他们目前在测试4兆瓦的系统,预计将在几天内公布10兆瓦的首个部署案例。
在LinkedIn的展位上,Zutacore展示了多个解决方案,从用于1U服务器(上图)的管道,到用于机架和热交换装置(看起来就像是有着金属外壳的汽车散热器)的液冷系统。
Facebook正在酝酿着明年推出大量的加速器。
例如,Facebook正在与Broadcom和Verisilicon合作开发一款用于视频转码器的ASIC,它可以处理各种任务,包括处理来自手机的不稳定上传,到Facebook Watch的下一个系列。它兼容H.264、VP9和AV1等多种编码器。
芯片方面需要在10 W的60帧/秒的速度下处理两个4K流,并且并行编码多个流,此外还需要支持ffmpeg和VAPI标准,Facebook技术战略总监Vijay Rao这样表示。
对于AI推理任务来说,Facebook希望芯片能够达到至少5 TOPS/W的性能。目前Facebook正在与Esperanto、Habana、Intel、Marvell和Qualcomm围绕用于推理任务的开源Glow编译器展开合作。
Facebook的Emerald Pool是一种机械和电气设计,针对可容纳8个加速器的服务器,目前采用的是PCIe Gen 3总线。
微软正在将AMD Naples服务器添加到自己的数据中心x86阵容中,但到目前为止,微软还无法将Arm服务器投入生产。最后一个难题,是怎么让复杂云软件堆栈中的很多依存关系变得平滑,Vaid希望可以在一年时间内解决这个问题。
Marvell的ThunderX2是高通取消Centriq之后唯一的候选芯片。但是,微软有望在新的Ampere芯片上市之后对其进行测试。
华为展示了自己的1月份推出的双路Arm服务器,现在华为提供了每个插槽有64个定制核心的样品。
在存储方面,Facebook和微软正在测试英特尔的Optane,但对目前的结果保持缄默。微软展示了一款功耗为400 W的256 TB 1U闪存阵列,计划在下个月投入生产时采用32个英特尔代号Ruler的16TB 3D NAND卡。
微软Vaid展示了一个Project Denali主板,它将大多数固件作业推送到服务器,将SSD控制器缩小到仅管理NAND介质的简单芯片,从而节省资金并简化管理。
在网络方面,Mediatek的Nephos部门公布了自己的6.4 Tbits/s交换芯片所赢得的10个设计奖项,其中一些设计已经在位于中国和美国的数据中心运行了。Nephos已经生产出了一款12.8 Tbits/s多芯片器件,采用TSMC的7纳米工艺及InFO封装。
竞争对手Innovium公司表示,他们正在生产自己的12.8T芯片,今年该芯片设计被思科两款交换机采用。该领域的领导者Broadcom公司也在发售自己的12.8T Tomhawk-3,但应该还没有采用7纳米芯片。
与此同时,诺基亚也在领导着一个OCP项目,面向用于电信边缘网络的标准机箱,目前板子和机械设计已经开源贡献给Open Edge,可在各种条件下的部署提供服务。
Facebook展示了最新的交换机设计——Minipack,该涉及采用了Broadcom的Tomahawk-3芯片和设备,为大量25G光端口提供服务。此外,Facebook还公布了一个新的数据中心拓扑结构,将四层折叠改为三层堆叠,以节省成本并减少跳数。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。