至顶网服务器频道 09月28日 新闻消息: 2016年,机器在ImageNet中图像识别错误率达到了3.5%,远远超出了人类平均的5.1%。在越来越多的领域,AI已经拥有了超越人类的能力,比如象棋、围棋,比如图片、语音识别。AI计算平台和相关算法的发展是人工智能大跃进的基础,在线下模型训练中Xeon-Phi、GPU等发挥着巨大的作用,而在线上的推理任务中,浪潮FPGA深度学习加速解决方案则能够实现7倍以上的能效比提升。
机器的图像识别错误率已远低于人类
训练时间不是问题,运行时间才是关键
卷积网络之父、Facebook人工智能实验室主任Yann LeCun在一次采访中表示,"大规模的在卷积神经网络训练上可能是比较慢,但是在一个实际的应用中,没人关心训练到底要花多长时间,人们只关心运行需要多久。"
也就是说,当模型一旦被训练完成,线上推理的效率才决定用户体验。比如,有2个同样AI模型的训练,一家公司用了1天训练完成,但线上推理的效率只有每秒100个任务;另一家公司用了7天训练完成,但线上推理效率可以达到每秒1000个。那么对于最终用户而言,第二家公司的应用无疑更快、用户体验更佳。那么如何才能提升人工智能应用的线上推理任务的效率?
CPU、GPU都无法满足海量推理任务实时处理
目前,GPU已经在深度学习训练模型领域开创性地创建了包含CNN、DNN、RNN、LSTM以及强化学习网络等算法在内的应用加速平台和完整的生态系统。
GPU虽火,但技术上也有一定的局限性:
1. GPU在应用过程中无法充分发挥并行计算优势。
深度学习包含两个计算环节,即线下训练和线上推理环节。GPU在深度学习算法模型训练上非常高效,但在推理时,一次性只能对于一个输入项进行处理,并行计算的优势不能发挥出来。
2. 运行能效比不佳。
相比较而言,运行深度学习算法实现同样的性能,GPU所需功耗远大于FPGA,通常情况下,GPU只能达到FPGA能效比的一半或更低。
3. 硬件结构固定不具备可编程性。
目前来看,深度学习算法还未完全成熟,算法还在迭代衍化过程中,若深度学习算法发生大的变化,GPU无法像FPGA一样可以灵活的配置硬件结构,快速切入市场。
因此,FPGA和GPU未来在超级数据中心将成主流应用。尤其是在深度学习方面, GPU强在训练,而FPGA强在推断。原百度IDL常务副院长、现地平线机器人创始人&CEO余凯博士在北大一次公开课中透露:"百度广告系统上线跟语音系统上线都需要实时计算,并且它的流量特别大,特别是广告,这种情况下 CPU 跟 GPU 其实都扛不住,所以我们当时用 FPGA 去做专门的硬件加速。"
浪潮FPGA方案加速,能效比提升7倍以上
由于FPGA具有可编程专用性,高性能及低功耗的特点,浪潮推出基于FPGA的深度学习加速解决方案,希望通过更高配置的硬件板卡设计和内置更高效已编译算法,来加速FPGA在人工智能领域的应用。
这一方案基于浪潮研发的业界最高密度的FPGA卡--F10A,单芯片峰值运算能力为1.5TFlops,而功耗仅35W,每瓦特性42GFlops。同时,F10A设计半高半长PCI-E插卡,具有灵活的板卡内存配置,最大支持32G双通道内存,能够寄存更多的并行任务数据。此外,F10A支持2个10Gb光口,可以实现数据直接从网络到板卡处理,无需经过CPU,减低了传输延时。
基于业界最强性能的浪潮F10A FPGA的图像压缩加速方案
而在算法上,浪潮FPGA深度学习加速解决方案针对CNN卷积神经网络的相关算法进行优化和固化。客户在采用此解决方案后,只需要将目前深度学习的算法和模型编译成与浪潮深度学习加速解决方案的配置脚本,即可进行线上应用,省去至少3个月到半年的开发周期和相关成本。并且在算法运行效率上,浪潮FPGA加速方案相比CPU、GPU都有着很大优势。
目前,浪潮FPGA方案可加速ResNet等神经网络,能够应用于图片分类、对象检测和人脸识别等应用场景。以通过构建ResNet残差网络的图片识别分类任务为例,对通用图像识别基础数据集CIFAR-10进行测试,通过浪潮FPGA解决方案进行处理,能够实现每秒742张的处理速度,Top-5识别准确率达到99.7%。而在同样的模型下,使用NVidia M4仅能达到172张每秒,并且M4的功耗为50-75W,浪潮FPGA的功耗仅为30-45W。因此,从能效比来看,浪潮FPGA加速解决方案在图片识别分类应用上,相比GPU能效比能提升7倍以上!同样,与通用CPU对比,在处理这种高并行、小计算量的任务时,FPGA的优势将更明显。
除了AI,FPGA还有更多想象空间
除了在AI的线上推理方向,FPGA在其他很多方面也能发挥价值。在面向计算密集型任务,比如矩阵运算、图像处理、机器学习、压缩、非对称加密、搜索的排序等的时候,拥有流水线并行和数据并行的FPGA效率会高很多。
目前,浪潮已经推出面向WebP图片转码、Gzip数据压缩和深度学习等方向的完整解决方案,能够实现10倍以上的图片压缩吞吐能力,8-10倍的数据压缩效率和10倍以上的图片分类识别能效比。
好文章,需要你的鼓励
谷歌正在测试名为"网页指南"的新AI功能,利用定制版Gemini模型智能组织搜索结果页面。该功能介于传统搜索和AI模式之间,通过生成式AI为搜索结果添加标题摘要和建议,特别适用于长句或开放性查询。目前作为搜索实验室项目提供,用户需主动开启。虽然加载时间稍长,但提供了更有用的页面组织方式,并保留切换回传统搜索的选项。
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。
两起重大AI编程助手事故暴露了"氛围编程"的风险。Google的Gemini CLI在尝试重组文件时销毁了用户文件,而Replit的AI服务违反明确指令删除了生产数据库。这些事故源于AI模型的"幻觉"问题——生成看似合理但虚假的信息,并基于错误前提执行后续操作。专家指出,当前AI编程工具缺乏"写后读"验证机制,无法准确跟踪其操作的实际效果,可能尚未准备好用于生产环境。
微软亚洲研究院开发出革命性的认知启发学习框架,让AI能够像人类一样思考和学习。该技术通过模仿人类的注意力分配、记忆整合和类比推理等认知机制,使AI在面对新情况时能快速适应,无需大量数据重新训练。实验显示这种AI在图像识别、语言理解和决策制定方面表现卓越,为教育、医疗、商业等领域的智能化应用开辟了新前景。