微软和合作伙伴发布了开源RTL,用于一种新的数据压缩机制,而英特尔公布了另一个实现安全块的类似项目。这些举措表明,参与开放计算项目(Open Compute Project,OCP)的数据中心巨头们,正在朝着芯片开源迈出第一步。
以上提到的这些项目,是推动全球最大数据中心向前发展的深度和广度的一个指标。当下,摩尔定律正在放缓,深度学习等工作负载不断增加,这迫使工程师们全力以赴追求性能提升。
例如,有厂商展示了冷却高速芯片的六种替代方法,包括浸泡浴。一位厂商高管表示,由于目前有十几款热门处理器和加速器正在研发中,因此他希望OCP委员会能够在明年之前起草相关的标准。
今年有超过3500名工程师注册参加了OCP大会,其中有约178受访者称,他们每年在数据中心设备上的花费为25.6亿美元,预计到2022年将增加至近110亿美元。
自2011年Facebook成立OCP以来,该组织已经发布了数十款服务器、交换机以及其他系统和主板的开源设计。成员企业代表们表示,他们希望这些新项目只是芯片开源的一个开始。
微软服务器设计总经理Kushagra Vaid表示:“在云服务提供商中,我们开创了贡献RTL的先例,我希望其他人也紧随其后…对于一项新的压缩标准来说,你需要为整个行业做出贡献,你需要大量的芯片。”
“拉手风琴的男子”:英特尔Jason Waxman与浪潮公司共同设计了一款四路服务器,并表示英特尔将在今年推出Nervana训练推理处理器。(图片来源:EE Times)
Project Zipline是对所谓“数据洪流”的一种响应措施,根据最近的一项研究显示,预计到2025年每年产生的数据量将达到175ZB。Project Zipline定义了优化数据中心的霍夫曼编码的一种变体,在模式匹配的IP块中实现的。Project Zipline将微软测试文件大小减少了了92%-96%,同时可以在微秒级处理吞吐量达每秒数十GB。
Vaid坦言,推出新的压缩技术需要一定的时间。到目前为止,Project Zipline得到了AMD、Arm,Broadcom、Cadence、Intel、Marvell、Mellanox和Synopsys等厂商的支持。
在另一个项目Project Cerberus中,OCP的目标是将使用Project Cerberus创建的处理器信任根扩展到服务器的所有组件中,这就需要Facebook、Intel和微软等厂商定义一个新的协议和IP块。
这种方法让目前Cerberus主板上使用的NXP控制器成为主控制器,与每个外围芯片中的从属块进行通信。英特尔发言人表示,这几家厂商将开放这些外围块的源代码。
一位微软工程师描述了他的项目:将服务器主板分解为多个模块,以降低成本并缩短设计时间。该项目负责人Siamak Tavallaei(下图)已经公布了这一概念的高级描述内容,并且已经有十几家企业有兴趣在今年夏天设计出原型。
这种方法让处理器和内存变成了一个模块,可以在定义好芯片后立即开始设计。各种CPU模块都可以采用一种安全控制器模块,这种模块运行固件、监控温度、控制风扇和其他基本杂务。
采用基于PCIe Gen 4的I/O线缆,可以有助于减少电路板空间并缩短处理器与I/O之间的距离。距离缩短可以节省高达60%的PCB材料,并在机箱中腾出更多空间,用于容纳更多端口、PCIe插槽、甚至是GPU等加速器。
微软Siamak Tavallaei描述了一种针对模块化主板的新概念。
随着处理器和加速器变得体积更大,散热更多,各种替代性的冷却系统也开始风靡。
微软的Vaid表示:“今年展会上有很多很时髦的想法。到明年,如果OCP说‘这个功率下我们需要X,那个功率下我们更倾向于其他冷却系统’,那会是个不错的事情。”
OCP的冷却委员开展这方面的工作刚刚几个月的时间,所以明年OPC大会要看到相应的标准问世还是很有野心的。在今年的大会上,参会者看到了各种各样的热管、泵和更奇特的冷却技术。
台湾的WiWynn公司展示了一种两相(液体到蒸汽)浸没系统,可以冷却48-V Facebook Diablo Pass服务器的100个节点。
有一家厂商预计,除了一些网络巨头正在自主研发的解决方案之外,市场中现有多达十几种液冷产品,甚至是浸入式系统,现在也有多达八个竞争公司展示了他们的单相或者双相系统。
侵入式系统厂商Submer表示,他们目前在测试4兆瓦的系统,预计将在几天内公布10兆瓦的首个部署案例。
在LinkedIn的展位上,Zutacore展示了多个解决方案,从用于1U服务器(上图)的管道,到用于机架和热交换装置(看起来就像是有着金属外壳的汽车散热器)的液冷系统。
Facebook正在酝酿着明年推出大量的加速器。
例如,Facebook正在与Broadcom和Verisilicon合作开发一款用于视频转码器的ASIC,它可以处理各种任务,包括处理来自手机的不稳定上传,到Facebook Watch的下一个系列。它兼容H.264、VP9和AV1等多种编码器。
芯片方面需要在10 W的60帧/秒的速度下处理两个4K流,并且并行编码多个流,此外还需要支持ffmpeg和VAPI标准,Facebook技术战略总监Vijay Rao这样表示。
对于AI推理任务来说,Facebook希望芯片能够达到至少5 TOPS/W的性能。目前Facebook正在与Esperanto、Habana、Intel、Marvell和Qualcomm围绕用于推理任务的开源Glow编译器展开合作。
Facebook的Emerald Pool是一种机械和电气设计,针对可容纳8个加速器的服务器,目前采用的是PCIe Gen 3总线。
微软正在将AMD Naples服务器添加到自己的数据中心x86阵容中,但到目前为止,微软还无法将Arm服务器投入生产。最后一个难题,是怎么让复杂云软件堆栈中的很多依存关系变得平滑,Vaid希望可以在一年时间内解决这个问题。
Marvell的ThunderX2是高通取消Centriq之后唯一的候选芯片。但是,微软有望在新的Ampere芯片上市之后对其进行测试。
华为展示了自己的1月份推出的双路Arm服务器,现在华为提供了每个插槽有64个定制核心的样品。
在存储方面,Facebook和微软正在测试英特尔的Optane,但对目前的结果保持缄默。微软展示了一款功耗为400 W的256 TB 1U闪存阵列,计划在下个月投入生产时采用32个英特尔代号Ruler的16TB 3D NAND卡。
微软Vaid展示了一个Project Denali主板,它将大多数固件作业推送到服务器,将SSD控制器缩小到仅管理NAND介质的简单芯片,从而节省资金并简化管理。
在网络方面,Mediatek的Nephos部门公布了自己的6.4 Tbits/s交换芯片所赢得的10个设计奖项,其中一些设计已经在位于中国和美国的数据中心运行了。Nephos已经生产出了一款12.8 Tbits/s多芯片器件,采用TSMC的7纳米工艺及InFO封装。
竞争对手Innovium公司表示,他们正在生产自己的12.8T芯片,今年该芯片设计被思科两款交换机采用。该领域的领导者Broadcom公司也在发售自己的12.8T Tomhawk-3,但应该还没有采用7纳米芯片。
与此同时,诺基亚也在领导着一个OCP项目,面向用于电信边缘网络的标准机箱,目前板子和机械设计已经开源贡献给Open Edge,可在各种条件下的部署提供服务。
Facebook展示了最新的交换机设计——Minipack,该涉及采用了Broadcom的Tomahawk-3芯片和设备,为大量25G光端口提供服务。此外,Facebook还公布了一个新的数据中心拓扑结构,将四层折叠改为三层堆叠,以节省成本并减少跳数。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。