随着数据中心CPU用途日益多样化,Nevine Nassif和团队想方设法使其具备更强的能力、更高的效率,使其更加无懈可击。
有时候,提高绩效的方法不是赋予更多的权力或能力,而是减少冗杂的工作量,使其专注于最擅长的事情。
与其让才华横溢的主厨洗菜、切菜,不如给她雇个帮手,让她花更多的时间烹饪美食。这样,你将获得品质更高、也更具创意的佳肴。
英特尔高级院士兼至强总工程师Nevine Nassif介绍道,同理,对于全新的第四代英特尔®至强®可扩展处理器来说,“主厨”相当于微处理器的内核,而“助手”则是芯片上的专用加速器。
Nassif表示:“你不会希望这些功能强大的多用途内核耗费大量时间去做简单的压缩加密算法或迁移数据——内置加速器可以更快、更高效地完成这些工作,同时释放内核来完成更重要的任务。”
其直观结果就是产品性能效率的飞跃。当加速器成为处理工作的一部分时,英特尔1月发布的第四代至强可扩展处理器(代号“Sapphire Rapids”)的每瓦性能几乎是前代产品的3倍1。
总工程师的首要任务:将想法转化为芯片
巨大的收获源自多年的积累。作为总工程师,Nassif从头到尾见证了这一切。
首先,由首席架构师根据市场和技术专家的意见及专业知识勾勒出芯片的功能,随后总工程师组队确定能否、以及如何构建、测试并交付这些功能。
这就类似行政总厨或酒店老板要求厨师长在菜单上的法式海鲜炖菜上加点新花样——即便这个要求已经足够明确了,但厨师长仍需要弄清楚实际的配料和流程,才能持续稳定地出品大量完美的菜肴。
早期的任务是利用可用的人才、工具和时间,将架构转化为实际设计。其后随着产品的出现,这个角色逐渐转变为主要的问题解决者、协调者和倾听者。
Nassif强调:“我是一个非常乐观的人,所以,我需要确保身边有足够多的人可以告诉我坏消息,让我回到现实中,这点非常重要。”这也意味着团队需要接受来自各个方面的新想法。
“有些事情我非常了解,但也有很多事情我并不了解。我依靠其他团队伙伴来帮助我解决问题,同时幸运的是,我身边确实有一群非常优秀的人。”
Nassif在至强芯片开发过程中求助于众多“副厨”,他们是来自芯片特定领域、制造和组装、测试和验证,以及全公司众多其他领域的专家。
扫清障碍,打造即插即用的芯片
不同于以往,Sapphire Rapids项目极具挑战性。该产品为英特尔首次引入了多项技术和制造工艺,如全新内存、接口及加速器等。这也是首次通过将多个晶片组合在一个封装上来打造至强芯片,之前曾被称为“像缝被子一样做芯片”。
Nassif指出:“我们始终致力于能够实现芯片大规模的即插即用,即一个芯片由多个单独调优的芯粒组成。通过把特定的新或是更新的芯粒与经过验证、现成可用的芯粒混合在一起用于常规功能,可以更快推出全新且种类丰富的芯片。
Nassi表示:“Sapphire清除了技术上的障碍。”第四代至强整合了四个相同的芯粒,把总体能力提升至新水平,基本上实现了即插即用的目标。换句话说,它采用了所有可能的选项来提高性能,即在引入新 “厨房助理”的同时,也加入了更多“主厨”。
扫清障碍不仅意味着要了解制造流程,也需要深谙测试详情。然而,随着现代数据中心规模的不断扩大,上述流程也日益复杂化。Nassif认为:“客户常会以意想不到的方式应用我们的产品,这也会时常让我们感到惊讶。”
在大型云数据中心中的至强处理器几乎从不休息,始终在不停歇地处理各种应用。
发现旧bug和新限制
客户会以新的方式推广过往的产品,在推广过程中偶尔会发现bug,如简单的打字错误、两个不相关组件之间的电气干扰等,而这些bug可能也存在于新处理器中。Nassif指出:“只要我们了解到反馈,就会去查看。反思为什么会有疏漏?如何才能改变?”
Nassif解释道,团队将在多代产品中运行新的测试,现有的测试将在产品生命周期的每个步骤中进行检查并随之改进。她指出:“为尽早发现漏洞,我们一直在努力学习。”
随着项目并行开展,Nassif也是Sapphire Rapids后续产品Emerald Rapids的总工程师,因此可以汲取经验教训。
Nassif表示:“工程是极具创造性的,相当大一部分是艺术。”
随着每一个新挑战的克服、每一个错误的解决,以及流程、工具和人员的改进,艺术变成了科学。但他们深知,下一个挑战依然近在眼前。
Nassif表示:“为了实现目标,你必须接受尝试新事务、并坦然面对失败。这条路上没有魔法,只有坚持按照想法去实践才能抵达终点。”
1 参见[E1]intel.com/processorclaims:第四代英特尔®至强®可扩展处理器。结果可能有所不同。
好文章,需要你的鼓励
这项由加州大学圣地亚哥分校和微软研究院合作开发的REAL框架,通过程序分析反馈训练大型语言模型生成高质量代码。与传统方法不同,REAL采用强化学习将代码安全性和可维护性作为奖励信号,不依赖人工标注或特定规则。研究在多个数据集上的实验表明,REAL在保证功能正确性的同时显著提高了代码质量,有效解决了"即兴编程"中的安全漏洞和维护性问题,为AI辅助编程提供了新的范式。
加州大学伯克利分校与Meta FAIR研究团队开发了"Self-Challenging"框架,让大语言模型通过自己创建和解决任务来提升能力。该方法引入创新的"Code-as-Task"格式,包含指令、验证函数、示例解决方案和失败案例,确保生成的任务既可行又有挑战性。在工具计算、网页浏览、零售服务和航班预订四种环境测试中,仅使用自生成训练数据,Llama-3.1-8B模型性能提升了两倍多,证明AI可以通过自我挑战实现有效学习,减少对人类标注的依赖。
南洋理工大学与SenseTime Research合作提出了PoseFuse3D-KI,一种创新的人体中心关键帧插值框架。该方法将3D人体模型信息融入扩散过程,解决了现有技术在处理复杂人体动作时产生扭曲结果的问题。研究团队开发了专门的SMPL-X编码器直接从3D空间提取几何信息,并设计了融合网络将3D线索与2D姿态无缝整合。他们还构建了CHKI-Video数据集,包含2,614个视频片段及完整的人体标注。实验结果显示,PoseFuse3D-KI在PSNR上提升9%,LPIPS减少38%,显著超越现有方法。
这项研究提出了LongGuide算法,解决了大型语言模型在长文本生成任务中的局限性。研究团队发现,仅依靠上下文学习无法使模型充分掌握文本的语言和格式特性。LongGuide通过自动生成两种指导原则:度量指导原则和输出约束指导原则,显著提升了模型性能。在七种长文本生成任务中,该方法使开源和闭源模型的ROUGE-L评分平均提高约6%。LongGuide具有通用性强、易于学习、成本效益高等优点,为提升AI长文本生成能力提供了新方向。