至顶网服务器频道 09月30日 新闻消息(文/李祥敬): 随着市场对大数据和人工智能(AI)需求的增长,FPGA的可再编程技术可以满足数据中心应用的处理要求,适应其不断变化的工作负载。借助可再配置的逻辑、内存和数字信号处理模块,FPGA可通过适当编程来执行任何类型的功能,同时实现高吞吐量和实时性能,因而适用于许多关键的企业和云应用。
近日,英特尔推出了采用英特尔Stratix 10 SX FPGA(英特尔超强大的FPGA)的全新英特尔可编程加速卡(PAC),以扩充其现场可编程门阵列(FPGA)加速平台产品组合。借助面向英特尔至强CPU及FPGA的加速栈,这款高带宽卡可为数据中心开发人员提供强大的平台,用于部署基于FPGA的加速工作负载。
据悉,HPE将成为首家将采用Stratix 10 SX FPGA的英特尔PAC,和面向英特尔至强可扩展处理器及FPGA的英特尔加速栈,整合至其服务器产品的OEM。
英特尔可编程解决方案事业部产品市场总监Sabrina Gomez表示,这是英特尔第二款可编程加速器产品,可以极大地丰富我们面向数据中心可编程加速器平台整个产品的组合。“所谓丰富的话并不是要取代之前的加速卡产品,因为这些不同代的产品能力、大小和功耗设计是不一样的,互为补充,并不是有了这款功能更强大的产品就取代了之前一代的产品。”
与之前宣布的采用英特尔Arria 10 FPGA的英特尔PAC一样,全新采用Stratix 10 SX FPGA的英特尔PAC支持设计合作伙伴生态系统,他们致力于交付广泛应用工作负载的加速IP。采用Stratix 10 SX FPGA的英特尔PAC是一种外形更大的卡,专为内嵌处理和内存密集型工作负载而构建,如流分析和视频转码。而外形较小的采用Arria 10 FPGA的英特尔PAC适用于回溯测试、数据库加速和图像处理等工作负载。
Sabrina介绍说,全新英特尔可编程加速卡(PAC)使用了Stratix 10的FPGA,它的密度是前一代产品的两倍,可以支持280万个逻辑单元。而且,它使用的是支持DDR4 DIMM的内存,内存的密度也比以前更大。
相比采用Arria 10 FPGA的英特尔PAC,此次推出的PAC的应用场景更多广泛,比如人工智能、基因组学、风险管理等。“全新的产品给了客户更大的选择能力。客户可以根据他所需要的性能、带宽、功耗以及体积的要求,选择适合他们自己的加速卡产品。”Sabrina说。
面向英特尔至强CPU及FPGA的加速栈支持行业领先的操作系统、虚拟化和编排软件,它能够为软件开发人员提供一种通用接口,帮助他们更快速实现商用、简化管理以及利用日益扩大的加速器工作负载生态系统。
本解决方案包括:
通过这种优化的解决方案堆栈,加速数据中心工作负载,企业可以获得三种好处:一个是能够更快地实现创收、第二个是管理简化、第三个是更广泛的生态系统支持。
为了实现广泛的合作伙伴支持,英特尔支持FPGA驱动程序提交到Linux内核,这样可以获得广泛的Linux支持,也可以支持很多不同的操作系统。英特尔还与合作伙伴推出了工作负载店面,帮助客户对工作负载进行评估和部署,进而实现工作负载按使用或按节点许可,优化自身的工作负载。“第一阶段评估是为了让大家能够更容易地采纳我们的产品,第二个阶段是让用户更容易地部署我们的产品。”
对于未来加速卡的发展前景,Sabrina表示,企业级数据中心应用是很大的市场,未来云端也会有更多FPGA的部署,加速产品的市场规模还是非常大的,而且英特尔处在一个很有利的位置。“目前,英特尔加速卡还是以数据中心应用为主,但是未来会扩展到更多的行业,包括联网、基础设施、物联网、边缘计算等等。FPGA加速市场还是很光明的。”
最后,Sabrina总结说,全新PAC加速卡是英特尔第二代的加速产品,丰富了整个加速平台产品的组合。这款产品可以提高数据中心的效率,降低数据中心的能耗,以及总的拥有成本(TCO)。另外,它支持内嵌处理以及内存需要比较大的一些应用,比如说编解码和流分析、视频编解码等。全新的加速工作负载将显著增强数据中心的功 能,并提高其容量。最后,英特尔PAC加速卡有很广泛的合作伙伴支持,英特尔软件堆栈和生态系统支持在数据中心内无缝集成,并支持从芯片到协调层的整个过程,从晶片到编排层都有端到端的支持。
好文章,需要你的鼓励
北京交通大学与西蒙弗雷泽大学联合研发的混合神经-MPM方法实现了实时交互式流体模拟。该方法巧妙结合神经物理学与传统数值求解器,在低时空分辨率下运行神经网络并设置保障机制自动切换到MPM,显著降低计算延迟同时保持高保真度。团队还设计了基于扩散模型的控制器,支持用户通过简单草图直观控制流体行为,为游戏、VR和设计领域提供了实用解决方案。
这项研究介绍了EgoZero,一种创新的机器人学习系统,能够仅通过Project Aria智能眼镜捕获的人类示范数据,训练出零样本迁移的机器人操作策略。研究团队提出了一种形态无关的状态-动作表示方法,使用点集来统一人类和机器人数据,并开发了从原始视觉输入中提取准确3D表示的技术。在没有任何机器人训练数据的情况下,EgoZero在7种真实世界操作任务上实现了70%的成功率,展示了强大的泛化能力,为解决机器人学习中的数据瓶颈问题提供了新思路。
FLAME-MoE是卡内基梅隆大学团队开发的首个全透明混合专家语言模型研究平台,包含7个规模从3800万到17亿活跃参数的模型。它采用每层64位专家、top-8选择和2位共享专家的架构,公开所有训练数据、代码和检查点。实验显示,FLAME-MoE比相同计算量的密集模型提升3.4个百分点,并揭示了三个关键发现:专家逐渐专注于特定词汇子集,专家协同激活保持稀疏多样,路由行为在训练早期就趋于稳定。这一平台为MoE模型的系统研究提供了前所未有的开放基础。
这篇论文介绍了ModernGBERT,一个由维尔茨堡大学研究团队开发的高性能德语编码器模型家族(1.34亿和10亿参数版本)。研究将ModernBERT的创新架构应用于德语,同时通过LLM2Vec方法将德语解码器模型转换为编码器以进行对比研究。在SuperGLEBer和MTEB等基准测试中,ModernGBERT 10亿参数模型不仅超越了之前最先进的德语编码器,还在性能和参数效率方面优于转换后的编码器。研究团队还证明了更大模型能有效利用大规模单语语料库,为德语自然语言处理提供了全透明、高性能的资源。