至顶网计算频道 10月31日 新闻消息(文/邹大斌):日前,Achronix与Molex旗下的FPGA加速器产品供应商BittWare联合宣布:推出一类全新的、面向高性能计算和数据加速应用的FPGA加速卡。
新推出的VectorPath S7t-VG6加速卡搭载了Achronix今年新推出的Speedster 7tAC7t1500独立FPGA芯片,该产品采用7nm工艺打造,在同类PCIe FPGA加速卡中提供了目前业界最高性能的接口。这些高性能接口包括1x400GbE和2x100GbE接口,以及总带宽为4Tbps的8组GDDR6的板上存储器,使该加速卡成为高带宽数据加速应用的理想选择。
众所周知,当下越来越多的企业纷纷引入人工智能技术,相应地带来了对计算能力的旺盛需求,也带火了数据中心加速器市场。根据Research and Markets的研究数据,数据中心加速器市场将从2018年的28.4亿美元增长到 2023年的211.9亿美元,年复合增长率(CAGR)达到49.47%。这其中FPGA以其在人工智能训练场景中的独特优势,而成为年复合增长率最高的细分市场。
“对于许多应用(比如很多AI应用训练场景),FPGA比GPU和CPU有更高的性能、功耗比率,同时与ASIC相比,FPGA又具有可重配置的特性,因此,有着广泛的应用前景。”Achronix市场营销副总裁Steve Mensor表示。
Achronix市场营销副总裁Steve Mensor
实际上,很多大型企业早就已经将FPGA引入了自己的数据中心,比如,在微软Azure和亚马逊AWS等巨头的大型和超大型数据中心内都已经广泛部署FPGA。
Steve Mensor说:“这些巨头们有着很强的技术能力和人才资源,所以它们可以自己把FPGA整合到自己的计算平台中,用以加速应用。而众多中小公司受限于自己的技术实力,要享受到FPGA的好处,就需要第三方的帮助,VectorPath S7t-VG6加速卡的到来就可以满足它们的需求。”
据悉,专为高性能和高带宽数据应用设计的VectorPath加速卡具有以下硬件功能:400GbE QSFP-DD和100GbE QSFP56接口;8组GDDR6存储器可提供4 Tbps的总带宽;1组带有错误检查和纠正(ECC)功能的、运行频率为2666MHz的DDR4存储器;符合PCIe的要求并获得了认证;Speedster7t FPGA芯片集成了带宽为20 Tbps的二维片上网络(NoC);692K的6输入查找表(LUT);40K Int8 MAC提供高于80 TOps的算力;OCuLink – 用于连接扩展卡的4通道PCIe Gen 4连接器。
VectorPath加速卡还包括一整套Achronix的ACE开发工具,以及BittWare的基板管理控制器和开发工具包,其中包括API、PCIe驱动程序、诊断自测和应用示例设计,以提供快速的、开箱即用的体验。专为原型设计和大批量生产应用而设计的VectorPath S7t-VG6加速卡使设计人员能够处理极大量的数据,这是前几代FPGA无法做到的。
值得一提的是,VectorPath中采用的Speedster7t FPGA系列芯片为高带宽数据加速应用提供了全新的性能和适应性。一个是其内置的人工智能/机器学习(AI / ML),大幅提升了人工智能应用的性能;另一个是它革命性的2D片上网络(NoC)技术,其带宽容量超过20 Tbps,可将数据从高速接口移动到FPGA逻辑架构,或跨越FPGA逻辑架构进行数据移动。该2D NoC通过在每个方向上为每个NoC行和列提供256位的单向总线和总计512 Gbps的带宽,从而缓解了数据瓶颈。NoC的主要接口是行业标准的AXI通道。在ACE 8.0设计软件中,现已提供对Speedster7t AC7t1500器件的初始软件支持。
VectorPath S7t-VG6加速卡将于2020年第二季度初开始供货。企业有多种方式可以买到VectorPath:一是可以通过BittWare采购VectorPath加速卡,另一个是可以通过其OEM供应商(如戴尔、HPE等)采购集成了VectorPath加速卡的服务器。另外,也可以直接采购BittWare的TeraBox FPGA Server,这是BittWare为VectorPath定制的服务器。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。