至顶网计算频道 11月21日 新闻消息(文/李祥敬):近日,全新英特尔Stratix 10 GX 10M FPGA量产。该产品是全球密度最高的FPGA,并基于现有的英特尔Stratix 10 FPGA架构以及英特尔先进的嵌入式多芯片互连桥接(EMIB)技术。英特尔Stratix 10 GX 10M FPGA利用EMIB技术融合了两个高密度英特尔Stratix 10 GX FPGA核心逻辑晶片(每个晶片容量为510万个逻辑单元)以及相应的I/O单元。
英特尔Stratix 10 GX 10M FPGA拥有1020万个逻辑单元,其密度约为Stratix 10 GX 1SG280 FPGA的3.7倍,IO连接是其2倍,同等容量下功耗降低40%。后者为原英特尔Stratix 10系列中元件密度最高的设备。最大容量FPGA对于客户来说的价值是显而易见的,但是站在FPGA供应商的立场,这也显示出了英特尔的技术领导地位。
英特尔网络和自定义逻辑事业部副总裁兼FPGA和电源产品营销总经理Patrick Dorsey表示,这款最大容量的FPGA能够被设计、制造并交付,得益于英特尔的EMIB(嵌入式多芯片互连桥接)封装技术实现多颗晶片单个封装,同时实现快速的新品上市交付。“英特尔的EMIB技术只是多项IC工艺技术、制造和封装创新中的一项,正是这些创新的存在,让英特尔得以设计、制造并交付目前世界上密度最高(代表计算能力)的FPGA。”
英特尔Stratix 10 GX 10M FPGA是第一款使用EMIB技术并在逻辑和电气上将两个FPGA构造晶片结合到一起的英特尔FPGA,实现高达1020万个逻辑单元密度。在该设备上,数万个连接通过多颗EMIB将两个FPGA构造晶片进行连接,从而在两个单片FPGA构造晶片之间形成高带宽连接。
以前,英特尔使用了EMIB技术将I/O和内存单元连接到FPGA构造晶片,从而实现了英特尔Stratix 10 FPGA家族的规模和种类不断扩张。例如,英特尔Stratix 10 MX设备集成了8GB或16GB的EMIB相连的3D堆叠HBM2 SRAM单元。最近发布的英特尔Stratix 10 DX FPGA则集成了EMIB相连的P tile,具备PCIe 4.0兼容能力。
对于将两个FPGA晶片封装在一起的设计,Patrick表示,从制造工艺角度角度看,一个晶片尺寸太大了,这个尺寸不匹配目前晶片生产模具,所以我们把它一分为二。有一点值得注意的是我们所有的FPGA都是多晶片的封装,但Stratix 10 GX 10M是唯一一个把两个FPGA逻辑晶片封装在一起的产品。
从技术最优的角度看,单FPGA逻辑晶片是首选,但Stratix 10 GX 10M从尺寸上无法选择单晶片。这款新品FPGA功能非常强大,当你把这么多功能放在一个封装里散热可能会是一个难题,但Stratix 10 GX 10M所针对的ASIC原型设计和仿真市场,通常并不需要运行太快的速度,所以这个问题并不严重。当然用户也可以选择让这款FPGA高速运行,英特尔拥有先进的液体冷却技术协助散热设计。
英特尔Stratix 10 DX FPGA中使用的P tile是兼容 PCIe 4.0的PCI-SIG系统集成设备清单中的首款组件级设备。最近发布的英特尔Agilex FPGA 中也同样紧密集成了同款P tile,因而也能兼容PCIe 4.0设备。英特尔Stratix 10 DX和英特尔Agilex FPGA中使用的P tile是这一应用的又一绝佳范例,它展示了诸如EMIB的先进制造和生产技术,以及如何让英特尔将一系列新产品快速推向市场,并投入全面生产。
在Patrick看来,用来制造英特尔Stratix 10 GX 10M FPGA的半导体和封装技术,并不仅仅是为了制造世界上最大型的FPGA,这只是一个附加值,尽管相当重要,但并不是最重点。重点在于这些技术让英特尔能够通过整合不同的半导体晶片,包括FPGA、ASIC、eASIC结构化ASIC、I/O单元、3D堆叠内存单元和光子器件等,用于将几乎任何类型的设备整合到封装系统(SiP)中,以满足特定的客户需求。这些先进技术彼此结合,构成了英特尔独特、创新且极具战略性的优势。
同时,Stratix 10 GX 10M FPGA支持oneAPI。今天的计算架构并不只局限于CPU,还包括GPU、FPGA以及专用的AI芯片。英特尔oneAPI能够简化跨CPU、GPU、FPGA、人工智能和其它加速器的各种计算引擎的编程开发。
仿真和原型设计系统旨在帮助半导体厂商在芯片制造前发现和避免代价高昂的软硬件设计缺陷,从而节省数百万美元。芯片在制造完成后修复硬件设计缺陷的成本要高得多,通常需要昂贵的重新设计费用。当设备制造出来并交付给终端客户,解决这些问题的成本甚至会更高。正因为风险如此之高,且有可能节省的费用如此之多,这些原型设计和仿真系统为IC设计团队带来了实实在在的价值。仿真和原型设计系统的使用已经越来越普及,因为在经济风险如此之高的情况下,没有哪个设计团队负责人敢于忽视这项谨慎的验证性投资。
ASIC原型设计和仿真市场对当前最大容量的FPGA需求格外急切。有数家供应商提供商用现成(COTS)ASIC原型设计和仿真系统,对于这些供应商而言,能够将当前最大的FPGA用于ASIC仿真和原型设计系统中,就意味着获得了巨大的竞争优势。
此外,包括英特尔在内的很多大型半导体公司都开发了自定义原型设计和仿真系统,并在流片前使用该系统来验证自身最大规模、最复杂、风险最高的ASSP和SoC设计。ASIC仿真和原型设计系统可以帮助设计团队大幅降低设计风险。因此,包括英特尔Stratix 10 FPGA和更早的Stratix III、Stratix IV和Stratix V设备在内的英特尔FPGA,十多年来一直被用做很多仿真和原型设计系统的基础设备。
Patrick解释说,ASIC仿真和原型设计系统支持很多与IC和系统开发相关的工作,包括:使用真实硬件的算法开发;芯片制造前的早期SoC软件开发;RTOS验证;针对硬件和软件的极端条件测试;连续设计迭代的回归测试。
使用最大型的FPGA,就能够在尽可能少的FPGA设备中纳入大型ASIC、ASSP和SoC设计。英特尔Stratix 10 GX 10M FPGA是用于此类应用的一系列大型FPGA系列中的最新设备。该款全新的英特尔Stratix 10 FPGA支持仿真和原型设计系统的开发,适用于耗用亿级ASIC门的数字IC设计。英特尔Stratix 10 GX 10M将赋能下一代5G、AI、网络ASIC验证,同时其现已支持英特尔Quartus Prime软件套件。该套件采用新款专用IP,明确支持ASIC仿真和原型设计。
对于FPGA、eASIC和ASIC的选择,Patrick说,他们都是定制类型的芯片,针对不同的应用场景,各有所长。当把FPGA可重复编程的功能去掉,可以获得更小的晶片尺寸,实现低功耗和更低的成本。对于不需FPGA可重复编程这种灵活性功能的客户来说,eASIC和ASIC都可以供客户选择。eASIC不会是低功耗或低成本的最佳选择,但它能帮客户实现从eASIC到ASIC的快速实现。就速度上来说ASIC比 eASIC更快,客户可以在ASIC上实现更多的定制。对于高性能和速度来说,ASIC比eASIC更快也有更好的性能。但eASIC的NRE更低,研发和设计时间更短。“客户可以根据自己的需求如可重复编程、低功耗或低成本等功能来选择不同的产品。”
谈及市场布局,Patrick表示,英特尔会持续加大对FPGA的投资和研发投入。目前最大的挑战其实是FPGA的生态系统建设。英特尔在进行更多FPGA平台级的开发,建立更多软件堆栈,更多主板的开发工作,努力为FPGA创造新的市场机遇,适应更多新应用的场景。这意味着英特尔需要和更多的系统集成商、增值服务的渠道商合作,一起推动FPGA市场的发展。
“未来,FPGA市场会持续增长,从数据中心端一直到边缘端的网络加速例如5G。实现数据更快速的传输,需要技术的优化和创新,因为FPGA所提供灵活性,将加速技术创新。另外就是人工智能,我们预计到2022年人工智能的市场规模将会是200亿美金,如果FPGA占到其中的5%-10%,市场容量将会是10-20亿美元。还有一个FPGA增长的应用市场是智慧城市、智慧工厂,包括大量视频分析处理的工作以及物联网边缘计算。”Patrick最后说。
好文章,需要你的鼓励
这项由加州大学圣地亚哥分校和微软研究院合作开发的REAL框架,通过程序分析反馈训练大型语言模型生成高质量代码。与传统方法不同,REAL采用强化学习将代码安全性和可维护性作为奖励信号,不依赖人工标注或特定规则。研究在多个数据集上的实验表明,REAL在保证功能正确性的同时显著提高了代码质量,有效解决了"即兴编程"中的安全漏洞和维护性问题,为AI辅助编程提供了新的范式。
加州大学伯克利分校与Meta FAIR研究团队开发了"Self-Challenging"框架,让大语言模型通过自己创建和解决任务来提升能力。该方法引入创新的"Code-as-Task"格式,包含指令、验证函数、示例解决方案和失败案例,确保生成的任务既可行又有挑战性。在工具计算、网页浏览、零售服务和航班预订四种环境测试中,仅使用自生成训练数据,Llama-3.1-8B模型性能提升了两倍多,证明AI可以通过自我挑战实现有效学习,减少对人类标注的依赖。
南洋理工大学与SenseTime Research合作提出了PoseFuse3D-KI,一种创新的人体中心关键帧插值框架。该方法将3D人体模型信息融入扩散过程,解决了现有技术在处理复杂人体动作时产生扭曲结果的问题。研究团队开发了专门的SMPL-X编码器直接从3D空间提取几何信息,并设计了融合网络将3D线索与2D姿态无缝整合。他们还构建了CHKI-Video数据集,包含2,614个视频片段及完整的人体标注。实验结果显示,PoseFuse3D-KI在PSNR上提升9%,LPIPS减少38%,显著超越现有方法。
这项研究提出了LongGuide算法,解决了大型语言模型在长文本生成任务中的局限性。研究团队发现,仅依靠上下文学习无法使模型充分掌握文本的语言和格式特性。LongGuide通过自动生成两种指导原则:度量指导原则和输出约束指导原则,显著提升了模型性能。在七种长文本生成任务中,该方法使开源和闭源模型的ROUGE-L评分平均提高约6%。LongGuide具有通用性强、易于学习、成本效益高等优点,为提升AI长文本生成能力提供了新方向。