视频已经占领了互联网,几乎有80%的流量都是来自视频。过去几年,数据中心越来越依赖GPU加速卡来对网络上运行的大量视频流量进行转码,从而卸载CPU的大部分工作,以期降低延迟、成本和功耗。
随着视频性质的转变,这也只会变得更具挑战性。过去流行的模式,是由Netflix这样的公司为主导的一对多点播环境,或者是像体育比赛直播这样的赛事,其中视频源从一个地方开始,流经云数据中心运行,内容交付网络(CDN)和边缘服务器,然后到达企业办公室或者是消费者家中。
但是这个过程中总是存在一点点延迟的,因为需要在数据中心完成大量处理和计算以确保良好的质量,或者因为广播公司需要几秒钟的延迟来进行视频编辑。在这种情况下,这种程度的延迟并不是一个很大的问题。
但视频的交互性越来越强,不仅是Twitch视频游戏直播服务等消费者应用,还有在疫情期间被在家办公群体采用的视频会议等企业工具。2019年12月,Zoom每天有1000万用户。到2020年6月,随着疫情席卷全球,这个数字达到了3亿,其他服务例如微软的Teams和思科的Webex,也出现了类似的增长。
这种交互式视频环境带来了更大的压力,也就是需要数据中心资源来减少延迟或者是消除延迟。2021年,视频市场中有70%的视频都是交互式视频。
AMD公司高级产品营销经理Vincent Fung表示:“在网络管道和服务器端处理方面,这开始给基础设施造成压力。以前传统[的基础设施]模型开始没有太大经济意义了,要跟上发展步伐满足这些场景的需求,变得越来越困难。”
此类用途正是AMD首席执行官Lisa Su和其他高管在去年初以350亿美元收购可编程芯片制造商赛灵思(Xilinx)时想到的。通过Zen微架构、Epyc服务器CPU以及Radeon GPU,AMD过去几年中大举回归数据中心,占据了超过25%的数据中心CPU市场,同时看到了在GPU市场的增长空间。
将赛灵思收入囊中,让AMD在数据中心领域的影响力越来越大,不仅通过FPGA,还通过AI引擎、自适应片上系统、以及用于网络和边缘等领域的软件。赛灵思还构成了AMD自适应和嵌入式计算事业部的基础,带来了一系列专用视频编码卡。
这其中,还包括了赛灵思在2020年推出的Alveo U30媒体加速卡,旨在用于实时流媒体工作负载,通过云端的Amazon Web Services EC2 VGT1实例或者在预配置设备中进行现场视频转码。Fung表示,AMD“一直期待互动媒体的发展,因此我们推出了第一代产品,即U30。”现在,AMD正在推出下一代产品Alveo MA35D的样品,这是一款数据中心媒体加速卡和专用视频编码卡,与U30相比有显著的改进。
Fung说,实时视频流越来越多,这“造成了流量的急剧增加”。“在一对多变成多对多的情况下,当我们查看这些交互式用例时,从视频的角度,这就需要做更多的处理。你消除了为解决这些非常苛刻的交互式用例而必须做出的妥协。有很多人在使用它,所以你需要高性能。你希望将带宽成本降至最低,因为带宽占用量是很大的,耗电量都成为了一部分支出。”
与Alveo U30一样,MA35D专为实时交互式视频编码而设计,是AMD收购赛灵思之后推出的首款产品。MA35D包含了2个5nm ASIC视频处理单元(VPU),可以提供4倍的同步视频流——最多32个1080p60通道——并支持8K和AV1分辨率编码,Fung表示,这是计算密集型的最新标准。
根据AMD公司视频战略和开发负责人Sean Gardner表示,现在有很多大公司都采用了该标准,包括Meta、微软和思科,以及谷歌YouTube、Netflix和Roku等此类服务。
Gardner说:“这项标准已经问世,但十分有限,每一个新标准,理论目标都是实现比以前标准高50%的压缩效率。如果我们锁定在了视觉质量,那么我需要多少字位才能达到这一质量标准?每个新标准都力求降低50%的带宽来实现这一质量水平,但每个步骤都要在编码端有所花费,因为这就是差异所在。你要让解码成本更低,因为编码体积很大——或者曾经体积很大,现在已经开始有所改观——但这会导致每个新编解码器有5到7倍的损失。”
他说,延迟是关键。
“Netflix没有延迟[问题],他们可能需要10个小时——确实如此——来处理一小时的视频,并且他们可以在产能过剩的下班时间使用这些带宽。但现场直播需要在16毫秒内进行,否则你就落后于实时,每秒60帧。想想这个场景,你可以使用Zoom、Teams或者Webex,可能有数十亿人同时使用这些服务。或者像Twitch这样拥有数十万个用户的服务。另一方面是,对于实时[流媒体]来说,你不能使用类似缓存CDN的架构,因为你无法承受它所带来的延迟。这就是为什么需要加速。”
除了4倍的通道密度外,测试还表明,将于第三季度投产、建议零售价为1595美元的MA35D每通道成本降低2倍,压缩率降低1.8倍,延迟降低4倍。此外MA35D还可以进行扩展,从带有卡的32个流到扩展到有8个卡的服务器格式256个流,然后扩展到机架或数据中心级别,提供高达52%的比特率降低以节省带宽。
除了VPU,该加速卡还包括了编码器和解码器、自适应比特率缩放器、用于沉浸式计算的合成器引擎、视觉质量引擎和“Look-Ahead”,用于分析运动内容以及高效压缩,此外还有用于优化视觉质量的AI处理器。
主机CPU通信是通过PCI-Express 5.0总线进行,该总线向后兼容Gen4。
Fung表示:“加速器是整个视频管道,目标是不必把任何这类任务放在芯片之外,这样我们就可以保持一致的性能水平。我们可以交付的内容不会受到近实时用例的影响。一切都在这里,硬件化了。我们这里有一个AI模块,典型的编码、解码都在这里进行,但同时我们也有基础的优化。”
在视频领域,AMD正在寻求摆脱Nvidia的GPU战略,Nvidia的T4 Tensor Core主要针对AI推理和L4图形,而英特尔及其GPU Flex系列则主要用于数据中心媒体流。Gardner说,当流媒体视频数量开始增加的时候,唯一真正厉害的是Nvidia GPU。
现在大家都看到这类加速卡有两个关键应用,分别是视频和人工智能。视频市场现在很庞大,但AI也在兴起。AMD正在针对这两大用例制定策略。
他还说:“一切都开始开放了,英特尔和Nvidia继续通过GPU推动发展,或者英特尔正在尝试用大AI和小视频,英特尔正以一种中等视频、中等AI来解决这个问题。我们从99%的视频开始,已经添加了一些小型AI,但我们并没有试图进入智能城市和监控领域。这种AI专门针对在线的、像素级的处理。”
好文章,需要你的鼓励
这项研究由新加坡国立大学团队开发的DualParal技术,通过创新的双重并行架构解决了AI视频生成的长度限制问题。该方法同时在时间帧和模型层两个维度实现并行处理,配合分块降噪机制、特征缓存和协调噪声初始化策略,使生成分钟级长视频成为可能。实验表明,在生成1,025帧视频时,DualParal比现有技术减少了高达6.54倍的延迟和1.48倍的内存成本,同时保持了高质量的视频输出,为内容创作者提供了生成更长、更复杂视频叙事的新工具。
SoloSpeech是约翰霍普金斯大学研究团队开发的创新语音处理技术,针对"鸡尾酒会效应"问题提出了全新解决方案。该系统通过级联生成式管道整合压缩、提取、重建和校正过程,实现了高质量目标语音提取。与传统判别式模型相比,SoloSpeech采用无需说话者嵌入的设计,直接利用提示音频的潜在空间信息与混合音频对齐,有效避免特征不匹配问题。在Libri2Mix及多个真实世界数据集上的评测显示,SoloSpeech在清晰度、质量和泛化能力上均达到了领先水平,为语音分离技术开辟了新方向。
这项由北京大学深圳研究生院、伟湾大学、腾讯ARC实验室和兔小贝智能联合研究的Sci-Fi框架,通过创新的对称约束机制,解决了视频帧间插值中的关键问题。研究团队设计了轻量级EF-Net模块,增强结束帧约束力,使其与起始帧形成平衡影响,从而生成更自然流畅的中间过渡帧。实验证明,该方法在各种场景下都优于现有技术,特别适用于电影制作、动画创作和视频编辑领域,显著降低了人力成本。
这项来自西北大学和谷歌的研究突破了传统马尔可夫强化学习的局限,通过贝叶斯自适应RL框架解释了大语言模型中涌现的反思性推理行为。研究团队提出的BARL算法通过维护多个解题策略的后验分布,指导模型何时何地进行反思性探索,在数学推理任务上展现出显著优势,比基线方法减少高达50%的标记使用量,同时提高了准确率。这一研究不仅解释了"为什么反思有用",还提供了实用的指导原则,为AI系统的自适应推理能力开辟了新方向。