至顶网服务器频道 (文/董培欣):
10月19日,由传统硬件开发拓展为硬件开发、应用软件开发、嵌入式软件开发的2017赛灵思开发者大会在北京召开。在会上赛灵思软件和IP产品开发部高级副总裁Salil Raje、战略市场开发总监Andy Walsh向我们展示了Xilinx FPGA如何通过从“硬”到“软”的技术发展路线,为机器学习、视频编码、数据分析乃至基因分析提供出更高效的计算处理能力。
赛灵思软件和IP产品开发部高级副总裁Salil Raje(右)、战略市场开发总监Andy Walsh(左)
通常提到FPGA,首先想到的是一款可编程的硬件产品,无论是用在嵌入式设备上,还是用在网络传输加速方面,与软件似乎都没有太多的直接联系。对于普通用户而言,要对FPGA产品进行应用,有两条鸿沟需要跨越:第一条是FPGA的硬件编程模式,将FPGA变为适于处理用户应用的硬件产品;第二条是开发相应的应用软件开发环境,需要打造软件工程师熟悉的设计环境让这个硬件产品可以为更广泛的软件及系统级工程师所用。
随着云计算技术的兴起,FPGA与用户应用之间的距离在被迅速拉近。本次赛灵思开发者大会,正是赛灵思引领FPGA应用迅速扩展的发展趋势,希望通过专家、成功用户和社区的共同努力, 驱动由传统硬件开发拓展至应用软件开发与嵌入式软件开发的发展进程。
通过Salil Raje总裁的介绍我们可以了解,目前越来越多的开发者和工程都会在赛灵思的MPSoC和SDSoC上开发应用,在云端赛灵思用SDAccel再加上可重配置加速堆栈 (RAS, Reconfigurable Acceleration Stack ) 帮助客户在云端开发应用,在云这个层面上赛灵思的SDSoC和加速堆栈使得IP可以作为处理器在云端运用。在未来五年里看到潜在的用户增加5倍,也就是服务25万的数量。赛灵思的目标市场,也扩展到自动驾驶汽车、无人机、监控以及所有视觉和机器学习等相关的应用之中。
为什么要使用FPGA?FPGA的应用可以为用户带来哪些方面的益处?会后的记者访谈中,Andy Walsh先生向我们进行了深入的分析。
通用计算能力的不足
CPU的优势在于,可以对多种应用业务进行处理。但不足之处在于,单核处理性能已经多年停滞不前、处理器的功耗问题也正在成为制约云计算计算能力的发展。而随着云计算中机器学习、视频转码、数据库加速等高性能计算业务发展,传统CPU架构已经难以负担这些类业务的应用处理,CPU架构正在触及计算能力的天花板。
此外,用户对应用业务的处理模式也在发生改变。以前通过本地硬件对业务应用进行处理,现在,有更多的计算业务是在云端通过云计算系统进行分析。另外,还有很多智能化设备的广泛运用,产生出海量信息需要即时在本地进行处理。而遭遇到性能瓶颈的CPU对这些应用处理需求,已经难以胜任。
FPGA为计算加速
随后Andy Walsh向大家展示了通过FPGA加速与服务器级CPU处理能力对比的情况:
深鉴科技利用FPGA进行机器学习推断的云识别,加速倍数是40倍。Ngcodec是做视频解码的企业,编码追诉率方面达到10倍加速。Ryft做大数据分析,这里提速是90倍。还有edico genome做基因组分析,用FPGA加速后,基因组分析的速度提升了一百倍。
当前Edico和费城儿童医院正准备利用AWS上部署的FPGA系统,准备创造新的基金测序基因分析记录。阿里云也正在建立基于赛灵思FPGA的F2与F3数据中心,此外百度云、华为云等云计算厂商也在进行着FPGA数据中心的建设和应用。正在为更多的用户提供具有更高计算能力的FPGA应用。下图展示了借助不断增加的超大型数据中心用户的合作,赛灵思通过每单个这样超大型客户,就能满足愈来愈多的应用开发企业(Apps))、软件及服务(SaaS)企业以及终端用户企业的需求,FPGA的用户群将因此成规模化发展。
高性能低功耗的FPGA产品与云计算系统的异构融合,可以为人们提供出更加智慧化的功能应用。让用户不再为专业的FPGA硬件设计而烦脑,可以轻松调用基于FPGA加速的功能应用。也正是赛灵思召开开发者大会的目的。相信随着FPGA在云计算系统中所占比重的提升,随着在终端、端点内利用FPGA芯片对数据应用加速的普及,智慧化的人工智能时代,必将加速向我们走来。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。