在2019年Hot Chips大会上,英特尔公布了即将推出的高性能人工智能(AI)加速器——英特尔Nervana神经网络处理器的最新细节,包括用于训练的NNP-T和用于推理的NNP-I。英特尔工程师还介绍了混合芯片封装技术、英特尔®傲腾™数据中心级持久内存和光学I/O小芯片技术的细节。
“要想实现‘人工智能无处不在’的未来愿景,我们必须解决数据的积压问题,确保企业能够有效利用数据,必要的时候在收集数据的地方对数据进行处理,并更明智地利用上游的数据和计算资源。数据中心和云端需要为复杂的AI应用提供高性能和可扩展的通用计算,以及专门的加速。在人工智能无处不在的未来愿景中,从硬件到软件再到应用,都需要一种全面的解决方案。”——Naveen Rao,英特尔公司全球副总裁兼人工智能产品事业部总经理
将数据转化为信息、再转化为知识,需要硬件架构和封装、内存、存储、互连技术的相互配合,这些技术不断演进并支持新兴且日益复杂的应用场景和AI技术。AI专用加速器能够在适当的时间为客户提供合适的智能,比如全新构建的英特尔Nervana NNP。
英特尔Nervana NNP-T——全新构建,旨在大规模训练深度学习模型。英特尔Nervana NNP-T(神经网络处理器)不断突破深度学习训练的极限。它优先考虑两个关键的实际因素:尽可能快地训练网络并在给定的功率预算内完成训练。这款深度学习训练处理器在构建时充分考虑到灵活性,并在计算、通信和内存之间取得平衡。虽然英特尔至强可扩展处理器增加了AI指令集并为人工智能奠定良好基础,但全新构建的NNP-T考虑到了应对大型模型所需的功能特性和要求,不必提供额外所需以支持传统技术。为了满足未来的深度学习需求,英特尔Nervana NNP-T具备灵活性和可编程性,因此可以进行定制,以便加速各种负载,无论是现有负载还是新兴负载。
英特尔Nervana NNP-I——针对主要数据中心负载的高性能深度学习推理。英特尔Nervana NNP-I专为推理而设计,旨在大规模加速深度学习部署,它充分利用英特尔的10纳米制程技术和Ice Lake内核,在所有主要数据中心负载上提供业界领先的每瓦性能。此外,英特尔Nervana NNP-I在不影响性能或功耗效率的前提下,提供了高度可编程性。随着人工智能在各项负载中变得无处不在,拥有一个易于编程、时延较短、可快速移植代码并支持所有主要深度学习框架的专用推理加速器,企业就能将数据的全部潜力转化为可践行的洞察而加以利用。
Lakefield——三维封装中的混合核心。Lakefield是业界首款采用3D堆叠和IA混合计算架构的产品,将用于新一类移动设备。利用英特尔最新的10纳米制程和Foveros先进封装技术,Lakefield在待机功率、核心面积和封装高度上都比前几代技术有了显著降低。Lakefield带来的顶级计算性能和超低热设计功率,让全新纤薄外观的设备、二合一设备和双屏设备都能以极低的待机功耗始终在线、始终互联。
TeraPHY——用于高带宽、低功耗通信的封装内光学I/O小芯片。英特尔和Ayar Labs共同演示了整体内封光件(MIPO)与高性能系统芯片(SOC)的业界首次集成。Ayar Labs的TeraPHY光学I/O小芯片与采用英特尔嵌入式多芯片互连桥接(EMIB)技术的英特尔Stratix 10 FPGA共同封装,从芯片封装中提供高带宽、低功耗的数据通信,在一定时间内的延续距离高达2公里。此次合作将消除数据传输中性能、功耗和成本的固有瓶颈,帮助以新方法为摩尔定律的下一阶段构建计算系统。
英特尔傲腾数据中心级持久内存——架构和性能。现已批量出货的英特尔傲腾数据中心级持久内存是内存/存储层级结构中首款被称为持久内存的产品,并处于整个层级结构中全新的一层。基于英特尔3D XPoint技术,傲腾数据中心级持久内存拥有内存模块外形,能够以接近内存的速度提供超大容量,纳秒级的低延时,并提供本地化的持久存储。两种运行模式(内存模式和App Direct模式)的详细信息以及性能示例展示了这一全新层级如何支持数据供应子系统的完全重新架构,从而支持更快的,以及新的工作负载。
好文章,需要你的鼓励
这项由加州大学圣地亚哥分校和微软研究院合作开发的REAL框架,通过程序分析反馈训练大型语言模型生成高质量代码。与传统方法不同,REAL采用强化学习将代码安全性和可维护性作为奖励信号,不依赖人工标注或特定规则。研究在多个数据集上的实验表明,REAL在保证功能正确性的同时显著提高了代码质量,有效解决了"即兴编程"中的安全漏洞和维护性问题,为AI辅助编程提供了新的范式。
加州大学伯克利分校与Meta FAIR研究团队开发了"Self-Challenging"框架,让大语言模型通过自己创建和解决任务来提升能力。该方法引入创新的"Code-as-Task"格式,包含指令、验证函数、示例解决方案和失败案例,确保生成的任务既可行又有挑战性。在工具计算、网页浏览、零售服务和航班预订四种环境测试中,仅使用自生成训练数据,Llama-3.1-8B模型性能提升了两倍多,证明AI可以通过自我挑战实现有效学习,减少对人类标注的依赖。
南洋理工大学与SenseTime Research合作提出了PoseFuse3D-KI,一种创新的人体中心关键帧插值框架。该方法将3D人体模型信息融入扩散过程,解决了现有技术在处理复杂人体动作时产生扭曲结果的问题。研究团队开发了专门的SMPL-X编码器直接从3D空间提取几何信息,并设计了融合网络将3D线索与2D姿态无缝整合。他们还构建了CHKI-Video数据集,包含2,614个视频片段及完整的人体标注。实验结果显示,PoseFuse3D-KI在PSNR上提升9%,LPIPS减少38%,显著超越现有方法。
这项研究提出了LongGuide算法,解决了大型语言模型在长文本生成任务中的局限性。研究团队发现,仅依靠上下文学习无法使模型充分掌握文本的语言和格式特性。LongGuide通过自动生成两种指导原则:度量指导原则和输出约束指导原则,显著提升了模型性能。在七种长文本生成任务中,该方法使开源和闭源模型的ROUGE-L评分平均提高约6%。LongGuide具有通用性强、易于学习、成本效益高等优点,为提升AI长文本生成能力提供了新方向。