至顶网服务器频道 11月28日 新闻消息(文/邹大斌): 风气云涌的人工智能(AI)/机器学习(ML)推动了芯片行业的快速发展。为了响应AI市场的旺盛需求,CPU、GPU、FPGA等厂商也都加快了产品更新和新产品推出的脚步。日前Achronix半导体宣布,推出第四代嵌入式FPGA产品Speedcore Gen4 eFPGA IP,以支持客户将FPGA功能集成到他们的SoC之中。除了性能、功耗方面的持续改进外,Achronix新一代产品针对AI/ML应用做出了特别的设计,其中新增的机器学习处理器(MLP)将带来AI/ML应用性能3倍的提升。
Achronix是一家主要提供eFPGA(嵌入式FPGA) IP的供应商。其商业模式类似ARM,本身不生产eFPGA芯片,而是提供eFPGA芯片设计给下游厂商,有FPGA领域的ARM之称。eFPGA属于FPAG的一个细分领域,早期主要用于ASIC芯片设计中的通信交换,用于提高SoC的灵活性,同时降低体机、功耗和成本,但如今已经扩展到包括云计算、5G、边缘计算、网络加速、存储、自动加速等多个领域。
Speedcore是Achronix于2016年推出的一个eFPGA IP,上市后受到了市场的广泛认可。新推出的最新一代产品Speedcore Gen4采用台积电7纳米的制程工艺,在保留了原有的Speedcore eFPGA IP的功能,即可将可编程硬件加速功能引入广泛的计算、网络和存储应用,实现接口协议桥接/转换、算法加速和数据包处理,将性能提高了60%、功耗降低了50%、芯片面积减少65%。在Speedcore Gen4架构中,还针对AI做了特别的设计,从而为人工智能和机器学习(AI / ML)应用提供了性能/功耗比最高和成本最低的解决方案。
“与PC和移动设备的普及相比,AI的普及速度将更快,而在AI应用领域,FPGA有着自己独特的优势,包括性能、功耗等。”Achronix Semiconductor公司市场营销副总裁Steve Mensor表示。
Achronix Semiconductor公司市场营销副总裁Steve Mensor
Steve Mensor介绍,与以前的Achronix FPGA产品相比,新的Achronix机器学习处理器(MLP)利用了人工智能/机器学习处理的特定属性,并将这些应用的性能提高了300%。这是通过多种架构性创新来实现的,这些创新可以同时提高每个时钟周期的性能和操作次数。
据悉,新的Achronix机器学习处理器(MLP)是一个完整的人工智能/机器学习计算引擎,它与存储器紧密耦合,支持定点和多个浮点数格式和精度。每个机器学习处理器包括一个循环寄存器文件(Cyclical Register File),它用来存储重用的权重或数据。各个机器学习处理器与相邻的机器学习处理器单元模块和更大的存储单元模块紧密耦合,以提供最高的处理性能、每秒最高的操作次数和最低的功率分集。这些机器学习处理器支持各种定点和浮点格式,包括Bfloat16、16位、半精度、24位和单元块浮点。用户可以通过为其应用选择最佳精度来实现精度和性能的均衡。
为了补充机器学习处理器并提高人工智能/机器学习的计算密度,Speedcore Gen4查找表(LUT)可以实现比任何独立FPGA芯片产品高出两倍的乘法器。领先的独立FPGA芯片在21个查找表可以中实现6x6乘法器,而Speedcore Gen4仅需在11个LUT中就可实现相同的功能,并可在1 GHz的速率上工作。
除了MLP之外,与上一代Speedcore产品相比,新的Speedcore Gen4架构实现了多项创新,从而可将系统整体性能提高60%。其中查找表的所有方面都得到了增强,以支持使用最少的资源来实现各种功能,从而可缩减面积和功耗并提高性能。其中的更改包括将ALU的大小加倍、将每个LUT的寄存器数量加倍、支持7位函数和一些8位函数、以及为移位寄存器提供的专用高速连接。
其中的路由架构也借由一种独立的专用总线路由结构得到了增强。此外,在该路由结构中还有专用的总线多路复用器,可有效地创建分布式的、运行时可配置的交换网络。这为高带宽和低延迟应用提供了最佳的解决方案,并在业界首次实现了将网络优化应用于FPGA互连。
在供货方面,Steve Mensor透露,目前对于已量产的Speedcore架构,Achronix可在6周内为客户配置并提供Speedcore eFPGA IP和支持文件。采用台积电7nm工艺节点的Speedcore Gen4将于2019年上半年投入量产,但是芯片设计企业现已可以联系Achronix,以获得支持其特定需求的Speedcore Gen4实例。Achronix还将于2019年下半年提供用于台积电16nm和12nm工艺节点的Speedcore Gen4 eFPGA IP。
另外,Achronix的ACE设计工具中包括了Speedcore Gen4 eFPGAs的预先配置示例实例,它们可支持客户针对性能、资源使用率和编译时间去评估Speedcore Gen4的结果质量;Achronix现已可提供支持Speedcore Gen4的ACE设计工具。Speedcore采用了一种模块化的架构,它可根据客户的要求轻松配置其大小。Achronix使用其Speedcore Builder工具来即刻创建新的Speedcore实例,以便满足客户对其快速评估的要求。对于需要了解芯片尺寸和功率信息的客户,可以联系Achronix来了解有关其特定Speedcore Gen4 eFPGA的面积和工艺要求的详细信息。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。