当下,每分钟都有300小时的视频被上传到Youtube,每天有5400000个视频被上传到Facebook上,并且Facebook上每天的视频浏览量超过80亿次!据思科预测数据显示,2019年,互联网带宽的80%都将被在线视频所占用!
而在线视频数量和质量的发展之快,让许多在线视频平台措手不及。7月,Papi酱在多家视频直播平台开始她的首播秀,这个将近90分钟的直播吸引了超过2000万人在线观看。但是,猜得出开始却猜不到结局,在某些直播平台上,Papi酱的关注粉丝从一开始 400 万,下降到最后不足 250 万,直接掉粉150多万!甚至有些不明真相的吃瓜群众直接路转黑。这是为什么呢?事后papi酱表示:直播中声音太man。这其实是视频出了问题,直播视频在转码或者传输过程中有了很大的失真,造成直播效果大打折扣。
编解码效率决定用户体验
这还仅仅是管中窥豹,不只是在直播,许多网友在用手机登录视频网站看视频时都会遇见各式各样的问题,比如缓冲时间长、播放不流畅、图像不清晰、占内存和耗费大量流量等,如何快速的转码、传输、播放越来越多的高清视频,成为困扰各公司IT技术人员的难题。
目前主流随着今年视频采集技术的成熟,在线视频的原视频尺寸、帧率等都提升很快,如果不经过转码压缩就直接传给播放端,会造成延迟和缓冲缓慢,过大的视频也会造成移动流量的浪费。因此在线视频服务商都在利用新的技术,保障在线视频清晰的前提下,尽量减小视频大小并达到流畅播放,不论采用直播云,还是用自有物理服务器集群,视频编解码硬件的效率在一定程度上决定了在线视频应用的用户体验。
CPU+专用加速卡才是王道
服务器对视频解码的速度取决于多种参数(分辨率、码率、视频压缩标准等),不同的操作系统、视频容器、视频播放器、编解码器对解码的速度有很大的影响,因此需要拥有高并行计算能力的专用加速卡配合CPU来进行协同运算。
视频编解码运算总的来说是基于空间相似度的压缩技术,其运算的基本容器就是矩阵,因此在这一领域视频编解码加速卡的高并行计算能力使得其生来就有优势。但是在视频编解码的处理过程中,视频编解码专用加速卡却并不是能够独立完成的,能够完成的过程包括运动预测、运动补偿、帧内与帧间压缩的DCT变换这些涉及矩阵的部分,在这些部分里,矩阵可以被以元素为单位分割成大量可并行的运算单元,因此加速卡能够运用其多核心并行计算能力来高效处理。但是,对于DCT量化、变长编码这样的基础数值运算则需要以串行的方式进行处理,加速卡就无能为力了。因此在实际应用中通过加速卡来进行视频编解码任务实际上还需要大量CPU的帮助才能实现。这就好比一个团队里,加速卡是年轻气盛的编程高手,C++多线程写得飞起,但是他的头上有一个资深的架构师/全栈工程师CPU,能够解决一切的问题。
CPU+加速卡协处理计算,浪潮推高性价比视频编解码解决方案
近日,浪潮推出了面向在线视频网站、直播应用的高性价比视频编解码解决方案,以NF5280M4为基础平台,通过双路Intel E5-2600v4系列CPU,配合2块视频编解码专用加速卡,实现单机并行处理108路H.264 1080p 30fps、12路H.265 1080p 30fps,并且能够实现2路30fps的4K视频的实时转码播放。
NF5280M4
为何浪潮视频编解码解决方案能够实现单机的高并发处理?上面我们介绍到CPU+专用加速卡的协同计算能够加速视频编解码任务,那么这套方案中视频编解码专用加速卡又有那些黑科技?浪潮不仅在整机层面上实现CPU、专用加速卡的协同,其实在加速卡内部,也同样运用了这一技术,加速卡中也同样拥有专用的视频处理芯片。
方案中,视频编解码专用加速卡由3块Intel 至强 E3 v4 CPU组成,每块CPU包含4颗主频可达2.9GHz的物理核心,负责支撑视频编解码中DCT量化、变长编码等需要串行计算的部分。支持AVX2,整数矢量操作从128位扩展到256位,而整数指令在图像及视频处理中使用较多,因此在非标准或者非常高质量需求的视频编码上的效率更高。
并且,每块Intel E3 v4 CPU中都会集成了一块Iris Pro P6300核显,拥有完整的48个EU单元,还配备了128MB的eDRAM缓存,支持DDR3L 1600MHz内存,相比上代产品视频处理能力提升1.8倍以上。而集成在加速卡中后,编解码中的任务调度由CPU来进行,并行计算部分由集成显卡来进行处理。通过加速卡内部的CPU+视频处理芯片的协处理计算,提升视频编解码任务的效率。
而浪潮NF5280M4服务器中的双路E5 CPU则负责整体方案的调度和多卡并行计算的协调。这样一方面避免了视频编解码任务对CPU的极高负载。另一方面使用PCIE外接加速卡的形式也能极大的提升计算密度,相比传统单路E3 CPU服务器,浪潮视频编解码解决方案的计算密度能够提升6倍以上。
据测试,之前采用100台通用x86服务器来处理的1500路并发编解码任务,使用浪潮视频编解码解决方案仅需要15台,计算密度更高,且相比通用服务器方案有超过10%以上的成本优化。
好文章,需要你的鼓励
三星与AI搜索引擎Perplexity合作,将其应用引入智能电视。2025年三星电视用户可立即使用,2024和2023年款设备将通过系统更新获得支持。用户可通过打字或语音提问,Perplexity还为用户提供12个月免费Pro订阅。尽管面临版权争议,这一合作仍引发关注。
浙江大学团队提出动态专家搜索方法,让AI能根据不同问题灵活调整内部专家配置。该方法在数学、编程等任务上显著提升推理准确率,且不增加计算成本。研究发现不同类型问题偏爱不同专家配置,为AI推理优化开辟新路径。
苹果M5 MacBook Pro评测显示这是一次相对较小的升级。最大变化是M5芯片,CPU性能比M4提升约9%,多核性能比M4 MacBook Air快19%,GPU性能提升37%。功耗可能有所增加但电池续航保持24小时。评测者认为该产品不适合M4用户升级,但对使用older型号用户仍是强有力选择。
清华大学研究团队提出SIRI方法,通过"压缩-扩张"交替训练策略,成功解决了大型推理模型"话多且准确率低"的问题。实验显示,该方法在数学竞赛题上将模型准确率提升43.2%的同时,输出长度减少46.9%,真正实现了效率与性能的双重优化,为AI模型训练提供了新思路。