直播如何不卡顿？！浪潮推出高性价比视频编解码解决方案

当下，每分钟都有300小时的视频被上传到Youtube，每天有5400000个视频被上传到Facebook上，并且Facebook上每天的视频浏览量超过80亿次！据思科预测数据显示，2019年，互联网带宽的80%都将被在线视频所占用！

而在线视频数量和质量的发展之快，让许多在线视频平台措手不及。7月，Papi酱在多家视频直播平台开始她的首播秀，这个将近90分钟的直播吸引了超过2000万人在线观看。但是，猜得出开始却猜不到结局，在某些直播平台上，Papi酱的关注粉丝从一开始 400 万，下降到最后不足 250 万，直接掉粉150多万！甚至有些不明真相的吃瓜群众直接路转黑。这是为什么呢？事后papi酱表示：直播中声音太man。这其实是视频出了问题，直播视频在转码或者传输过程中有了很大的失真，造成直播效果大打折扣。

编解码效率决定用户体验

这还仅仅是管中窥豹，不只是在直播，许多网友在用手机登录视频网站看视频时都会遇见各式各样的问题，比如缓冲时间长、播放不流畅、图像不清晰、占内存和耗费大量流量等，如何快速的转码、传输、播放越来越多的高清视频，成为困扰各公司IT技术人员的难题。

目前主流随着今年视频采集技术的成熟，在线视频的原视频尺寸、帧率等都提升很快，如果不经过转码压缩就直接传给播放端，会造成延迟和缓冲缓慢，过大的视频也会造成移动流量的浪费。因此在线视频服务商都在利用新的技术，保障在线视频清晰的前提下，尽量减小视频大小并达到流畅播放，不论采用直播云，还是用自有物理服务器集群，视频编解码硬件的效率在一定程度上决定了在线视频应用的用户体验。

CPU+专用加速卡才是王道

服务器对视频解码的速度取决于多种参数（分辨率、码率、视频压缩标准等），不同的操作系统、视频容器、视频播放器、编解码器对解码的速度有很大的影响，因此需要拥有高并行计算能力的专用加速卡配合CPU来进行协同运算。

视频编解码运算总的来说是基于空间相似度的压缩技术，其运算的基本容器就是矩阵，因此在这一领域视频编解码加速卡的高并行计算能力使得其生来就有优势。但是在视频编解码的处理过程中，视频编解码专用加速卡却并不是能够独立完成的，能够完成的过程包括运动预测、运动补偿、帧内与帧间压缩的DCT变换这些涉及矩阵的部分，在这些部分里，矩阵可以被以元素为单位分割成大量可并行的运算单元，因此加速卡能够运用其多核心并行计算能力来高效处理。但是，对于DCT量化、变长编码这样的基础数值运算则需要以串行的方式进行处理，加速卡就无能为力了。因此在实际应用中通过加速卡来进行视频编解码任务实际上还需要大量CPU的帮助才能实现。这就好比一个团队里，加速卡是年轻气盛的编程高手，C++多线程写得飞起，但是他的头上有一个资深的架构师/全栈工程师CPU，能够解决一切的问题。

CPU+加速卡协处理计算，浪潮推高性价比视频编解码解决方案

近日，浪潮推出了面向在线视频网站、直播应用的高性价比视频编解码解决方案，以NF5280M4为基础平台，通过双路Intel E5-2600v4系列CPU，配合2块视频编解码专用加速卡，实现单机并行处理108路H.264 1080p 30fps、12路H.265 1080p 30fps，并且能够实现2路30fps的4K视频的实时转码播放。

NF5280M4

为何浪潮视频编解码解决方案能够实现单机的高并发处理？上面我们介绍到CPU+专用加速卡的协同计算能够加速视频编解码任务，那么这套方案中视频编解码专用加速卡又有那些黑科技？浪潮不仅在整机层面上实现CPU、专用加速卡的协同，其实在加速卡内部，也同样运用了这一技术，加速卡中也同样拥有专用的视频处理芯片。

方案中，视频编解码专用加速卡由3块Intel 至强 E3 v4 CPU组成，每块CPU包含4颗主频可达2.9GHz的物理核心，负责支撑视频编解码中DCT量化、变长编码等需要串行计算的部分。支持AVX2，整数矢量操作从128位扩展到256位，而整数指令在图像及视频处理中使用较多，因此在非标准或者非常高质量需求的视频编码上的效率更高。

并且，每块Intel E3 v4 CPU中都会集成了一块Iris Pro P6300核显，拥有完整的48个EU单元，还配备了128MB的eDRAM缓存，支持DDR3L 1600MHz内存，相比上代产品视频处理能力提升1.8倍以上。而集成在加速卡中后，编解码中的任务调度由CPU来进行，并行计算部分由集成显卡来进行处理。通过加速卡内部的CPU+视频处理芯片的协处理计算，提升视频编解码任务的效率。