至顶网服务器频道 08月23日 新闻消息: 8月23日,在伦敦举行的人工智能领域顶级会议KDD2018大会上,浪潮发布支持TensorFlow的FPGA计算加速引擎TF2,该产品可帮助AI客户快速实现基于主流AI训练软件和深度神经网络模型DNN的FPGA线上推理,并通过全球首创的FPGA上DNN的移位运算技术获得AI应用的高性能和低延迟。
目前,采用FPGA技术实现AI应用的线上推理从而获得可定制性、低延迟和高性能功耗比成为诸多AI公司采纳的技术路线。但FPGA技术进入到大规模AI业务部署仍旧存在软件编写门槛高、性能优化受限、功耗难以控制等诸多挑战。浪潮此次发布的TF2计算加速引擎的目标就是期望为客户解决在AI应用FPGA技术的这些挑战。
TF2计算加速引擎由两部分组成,第一部分是模型优化转换工具TF2 Transform Kit,它将经过TensorFlow等框架训练得到的深度神经网络模型数据进行优化转换处理,大幅降低模型数据文件大小,如它可将32位浮点模型数据压缩为4位整型数据模型,使得实际模型数据文件大小精简到原来的1/8,并基本保持原始模型数据的规则存储;第二部分是FPGA智能运行引擎TF2 Runtime Engine,它可实现将前述已优化转换的模型文件自动转化为FPGA目标运行文件,为了消除深度神经网络如CNN等对FPGA的DSP浮点计算能力的依赖,浪潮创新设计了移位运算技术,它可将32位浮点特征图数据量化为8位整型数据,并结合前述4位整型模型数据,转换卷积操作浮点乘法计算为8位整数移位运算,这将大幅提升FPGA做推理计算的性能并有效降低其实际运行功耗。这也是目前全球首次在基本保持原始模型计算精度的前提下在FPGA上实现深度神经网络DNN的移位运算。
在浪潮F10A FPGA卡上采用SqueezeNet模型对TF2计算加速引擎进行的测试表现出了非常好的计算性能。F10A是全球首款支持Arria 10芯片的半高半长的 FPGA加速卡。SqueezeNet是一种典型的卷积神经网络架构,模型精简但其精度和AlexNet不相上下,特别适合于实时性要求较高的图像类AI应用场景。在F10A上运行经过TF2引擎优化加速的SqueezeNet模型,在基本保持原始精度的情况下,单张图片的计算耗时为0.674ms,在计算精度和延迟方面均略优于目前广泛使用的GPU加速卡P4。
浪潮TF2计算加速引擎通过移位运算、模型优化等技术创新,提高了FPGA上AI计算性能,降低了FPGA的AI软件实现门槛,将支持FPGA广泛应用于AI生态推动更多AI应用落地。浪潮计划将TF2开放给其人工智能客户,并将持续升级开发支持多种模型优化技术、最新深度神经网络模型以及采用最新芯片的FPGA加速卡,预计新一代高性能FPGA加速卡的性能将是F10A的三倍左右。
浪潮是全球领先的AI计算力厂商,从计算平台、管理套件、框架优化、应用加速等四个层次致力于打造敏捷、高效、优化的AI基础设施。浪潮已成为百度、阿里和腾讯的最主要的AI服务器供应商,并与科大讯飞、商汤、旷视、今日头条、滴滴等人工智能领先科技公司保持在系统与应用方面的深入紧密合作,帮助AI客户在语音、图像、视频、搜索、网络等方面取得数量级的应用性能提升。据IDC《2017年中国AI基础架构市场调查报告》显示,浪潮AI服务器市场份额达57%高居第一。
好文章,需要你的鼓励
Anthropic发布SCONE-bench智能合约漏洞利用基准测试,评估AI代理发现和利用区块链智能合约缺陷的能力。研究显示Claude Opus 4.5等模型可从漏洞中获得460万美元收益。测试2849个合约仅需3476美元成本,发现两个零日漏洞并创造3694美元利润。研究表明AI代理利用安全漏洞的能力快速提升,每1.3个月翻倍增长,强调需要主动采用AI防御技术应对AI攻击威胁。
NVIDIA联合多所高校开发的SpaceTools系统通过双重交互强化学习方法,让AI学会协调使用多种视觉工具进行复杂空间推理。该系统在空间理解基准测试中达到最先进性能,并在真实机器人操作中实现86%成功率,代表了AI从单一功能向工具协调专家的重要转变,为未来更智能实用的AI助手奠定基础。
Spotify年度总结功能回归,在去年AI播客功能遭遇批评后,今年重新专注于用户数据深度分析。新版本引入近十项新功能,包括首个实时多人互动体验"Wrapped Party",最多可邀请9位好友比较听歌数据。此外还新增热门歌曲播放次数显示、互动歌曲测验、听歌年龄分析和听歌俱乐部等功能,让年度总结更具互动性和个性化体验。
这项研究解决了现代智能机器人面临的"行动不稳定"问题,开发出名为TACO的决策优化系统。该系统让机器人在执行任务前生成多个候选方案,然后通过伪计数估计器选择最可靠的行动,就像为机器人配备智能顾问。实验显示,真实环境中机器人成功率平均提升16%,且系统可即插即用无需重新训练,为机器人智能化发展提供了新思路。