随着数据中心CPU用途日益多样化,Nevine Nassif和团队想方设法使其具备更强的能力、更高的效率,使其更加无懈可击。
有时候,提高绩效的方法不是赋予更多的权力或能力,而是减少冗杂的工作量,使其专注于最擅长的事情。
与其让才华横溢的主厨洗菜、切菜,不如给她雇个帮手,让她花更多的时间烹饪美食。这样,你将获得品质更高、也更具创意的佳肴。
英特尔高级院士兼至强总工程师Nevine Nassif介绍道,同理,对于全新的第四代英特尔®至强®可扩展处理器来说,“主厨”相当于微处理器的内核,而“助手”则是芯片上的专用加速器。
Nassif表示:“你不会希望这些功能强大的多用途内核耗费大量时间去做简单的压缩加密算法或迁移数据——内置加速器可以更快、更高效地完成这些工作,同时释放内核来完成更重要的任务。”
其直观结果就是产品性能效率的飞跃。当加速器成为处理工作的一部分时,英特尔1月发布的第四代至强可扩展处理器(代号“Sapphire Rapids”)的每瓦性能几乎是前代产品的3倍1。
总工程师的首要任务:将想法转化为芯片
巨大的收获源自多年的积累。作为总工程师,Nassif从头到尾见证了这一切。
首先,由首席架构师根据市场和技术专家的意见及专业知识勾勒出芯片的功能,随后总工程师组队确定能否、以及如何构建、测试并交付这些功能。
这就类似行政总厨或酒店老板要求厨师长在菜单上的法式海鲜炖菜上加点新花样——即便这个要求已经足够明确了,但厨师长仍需要弄清楚实际的配料和流程,才能持续稳定地出品大量完美的菜肴。
早期的任务是利用可用的人才、工具和时间,将架构转化为实际设计。其后随着产品的出现,这个角色逐渐转变为主要的问题解决者、协调者和倾听者。
Nassif强调:“我是一个非常乐观的人,所以,我需要确保身边有足够多的人可以告诉我坏消息,让我回到现实中,这点非常重要。”这也意味着团队需要接受来自各个方面的新想法。
“有些事情我非常了解,但也有很多事情我并不了解。我依靠其他团队伙伴来帮助我解决问题,同时幸运的是,我身边确实有一群非常优秀的人。”
Nassif在至强芯片开发过程中求助于众多“副厨”,他们是来自芯片特定领域、制造和组装、测试和验证,以及全公司众多其他领域的专家。
扫清障碍,打造即插即用的芯片
不同于以往,Sapphire Rapids项目极具挑战性。该产品为英特尔首次引入了多项技术和制造工艺,如全新内存、接口及加速器等。这也是首次通过将多个晶片组合在一个封装上来打造至强芯片,之前曾被称为“像缝被子一样做芯片”。
Nassif指出:“我们始终致力于能够实现芯片大规模的即插即用,即一个芯片由多个单独调优的芯粒组成。通过把特定的新或是更新的芯粒与经过验证、现成可用的芯粒混合在一起用于常规功能,可以更快推出全新且种类丰富的芯片。
Nassi表示:“Sapphire清除了技术上的障碍。”第四代至强整合了四个相同的芯粒,把总体能力提升至新水平,基本上实现了即插即用的目标。换句话说,它采用了所有可能的选项来提高性能,即在引入新 “厨房助理”的同时,也加入了更多“主厨”。
扫清障碍不仅意味着要了解制造流程,也需要深谙测试详情。然而,随着现代数据中心规模的不断扩大,上述流程也日益复杂化。Nassif认为:“客户常会以意想不到的方式应用我们的产品,这也会时常让我们感到惊讶。”
在大型云数据中心中的至强处理器几乎从不休息,始终在不停歇地处理各种应用。
发现旧bug和新限制
客户会以新的方式推广过往的产品,在推广过程中偶尔会发现bug,如简单的打字错误、两个不相关组件之间的电气干扰等,而这些bug可能也存在于新处理器中。Nassif指出:“只要我们了解到反馈,就会去查看。反思为什么会有疏漏?如何才能改变?”
Nassif解释道,团队将在多代产品中运行新的测试,现有的测试将在产品生命周期的每个步骤中进行检查并随之改进。她指出:“为尽早发现漏洞,我们一直在努力学习。”
随着项目并行开展,Nassif也是Sapphire Rapids后续产品Emerald Rapids的总工程师,因此可以汲取经验教训。
Nassif表示:“工程是极具创造性的,相当大一部分是艺术。”
随着每一个新挑战的克服、每一个错误的解决,以及流程、工具和人员的改进,艺术变成了科学。但他们深知,下一个挑战依然近在眼前。
Nassif表示:“为了实现目标,你必须接受尝试新事务、并坦然面对失败。这条路上没有魔法,只有坚持按照想法去实践才能抵达终点。”
1 参见[E1]intel.com/processorclaims:第四代英特尔®至强®可扩展处理器。结果可能有所不同。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。