扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
目前,国内人工智能技术已经日趋成熟,科大讯飞的语音识别、小米的智能硬件都从各个领域影响着我们的生活。人工智能背后,是由深度学习建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,让机器会思考会判断。但是深度学习所需要的并行计算不是CPU的强项,因此高性能的CPU+GPU协处理加速的服务器正成为实现深度学习必不可少的基础硬件。
但是,目前市场上GPU服务器的配置各异,有2U2卡,1U4卡,3U8卡,4U4卡,4U8卡等等服务器形态。如何做好选择,搭建最合理的训练架构,是开启深度学习之路的第一步,这一步也会关系到后期训练的效果。那么,阿里巴巴、奇虎等领先的互联网企业为何选择NF5568M4这类4U4卡的异构超算服务器?
性能为王,但仍需考虑适用性
多卡GPU+CPU架构架构需要大量的GPU核心数,在单机内的选型原则,以最多卡数为主。理论上,单机越多GPU卡的堆叠,性能也会达到更高。但是,每块GPU卡的功耗在235W—250W左右,加上服务器的CPU和其他部件,一台4卡GPU机器在工作状态会达到近2000W的功率,而8卡的甚至能达到3600W以上。
GPU卡因强大的并行计算能力而成为“功耗大户”
目前,大部分公司的机房都是租赁的IDC机房,现在国内机房提供的机柜一般为42U高度,电量10A,13A或者16A,换算为功率就是2200W,2860W或者3520W。而42U的机柜用电,被4U高度的GPU全部占用,这显然不能被接受。因此,像浪潮NF5568M4这类单机4块GPU卡的配置是目前互联网行业的主流,既能达到足够的计算能力,又能兼顾机房用电。
浪潮NF5568M4异构超算服务器
4U高度,给热空气一点出路
一台4卡GPU机器在工作状态会达到近2000W的功率,而8卡的甚至能达到3600W以上,如此大的功率就有大量的散热需求,一般情况下,GPU卡和服务器风扇的设计比例是1:1,以满足散热需求。但是根据实测1U或2U高度的服务器,一旦达到4卡或8卡跑满,整机温度曾经飙升到96摄氏度!
浪潮NF5568M4具有良好的散热性能
为了解决散热问题,只能大幅度的提高机器风扇的转速,这样会大大提高机器的功耗,功耗问题还是其次,问题是提高风扇转速之后带来较大的噪音和震动,会严重缩减机器的寿命,甚至会发生宕机,给业务带来严重影响。另外1U、2U由于空间受限,也会对扩展能力产生影响,没有办法实现双网卡+raid保护功能。
浪潮NF5568M4拥有4U的高度,因此内部有更多的空间和通道用于散热,并且单机设计了多达10个散热风扇,给热空气留一点出路,也就为GPU卡降低一点温度。
优化Caffe框架,实现多机多卡GPU集群
随着神经网络模型的日趋复杂,模型训练所需要的计算性能也急剧攀升。单机单卡甚至单机多卡的设计已经不能满足部分用户的需求。为此,浪潮发布集群版Caffe-MPI计算框架,实现跨GPU服务器的并行计算。
它采用高性能计算行业成熟的MPI技术对Caffe版本进行数据并行的优化,可通过IB网络将多台NF5568M4组成GPU并行计算集群。据实测,由4台NF5568M4组成的16卡GPU集群,性能较单卡提升13倍,节点扩展效率达到90%以上。既发挥4卡机器稳定性、散热等优势,又能实现多机多卡的高性能GPU计算集群,满足客户高强度并行计算需求。
新一代Caffe-MPI在4节点下16卡的性能较单卡提升13倍
另外,浪潮Caffe-MPI增加了对cuDNN库的支持,利用这款针对深度神经网络的GPU加速数学例程库,开发者可以将其集成到更高级的机器学习框架中,从而加速其深度学习项目和产品的开发工作。
浪潮NF5568M4的4U4卡设计更适合当前的数据中心的电力、散热设计,并且可以通过开源的浪潮Caffe-MPI构建多机多卡的GPU计算集群,因此成为目前互联网行业GPU服务器的主流机型。目前,浪潮的深度学习解决方案已经应用在腾讯、阿里、奇虎、科大讯飞、京东等众多互联网公司,正在支持各种不同类型的“超级大脑”为社会提供智能化的服务。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者