互联网级的视频需要属于自己的超级计算力

视频已经占领了互联网，几乎有80%的流量都是来自视频。过去几年，数据中心越来越依赖GPU加速卡来对网络上运行的大量视频流量进行转码，从而卸载CPU的大部分工作，以期降低延迟、成本和功耗。

随着视频性质的转变，这也只会变得更具挑战性。过去流行的模式，是由Netflix这样的公司为主导的一对多点播环境，或者是像体育比赛直播这样的赛事，其中视频源从一个地方开始，流经云数据中心运行，内容交付网络（CDN）和边缘服务器，然后到达企业办公室或者是消费者家中。

但是这个过程中总是存在一点点延迟的，因为需要在数据中心完成大量处理和计算以确保良好的质量，或者因为广播公司需要几秒钟的延迟来进行视频编辑。在这种情况下，这种程度的延迟并不是一个很大的问题。

但视频的交互性越来越强，不仅是Twitch视频游戏直播服务等消费者应用，还有在疫情期间被在家办公群体采用的视频会议等企业工具。2019年12月，Zoom每天有1000万用户。到2020年6月，随着疫情席卷全球，这个数字达到了3亿，其他服务例如微软的Teams和思科的Webex，也出现了类似的增长。

这种交互式视频环境带来了更大的压力，也就是需要数据中心资源来减少延迟或者是消除延迟。2021年，视频市场中有70%的视频都是交互式视频。

互联网级的视频需要属于自己的超级计算力

AMD公司高级产品营销经理Vincent Fung表示：“在网络管道和服务器端处理方面，这开始给基础设施造成压力。以前传统[的基础设施]模型开始没有太大经济意义了，要跟上发展步伐满足这些场景的需求，变得越来越困难。”

此类用途正是AMD首席执行官Lisa Su和其他高管在去年初以350亿美元收购可编程芯片制造商赛灵思（Xilinx）时想到的。通过Zen微架构、Epyc服务器CPU以及Radeon GPU，AMD过去几年中大举回归数据中心，占据了超过25%的数据中心CPU市场，同时看到了在GPU市场的增长空间。

将赛灵思收入囊中，让AMD在数据中心领域的影响力越来越大，不仅通过FPGA，还通过AI引擎、自适应片上系统、以及用于网络和边缘等领域的软件。赛灵思还构成了AMD自适应和嵌入式计算事业部的基础，带来了一系列专用视频编码卡。

这其中，还包括了赛灵思在2020年推出的Alveo U30媒体加速卡，旨在用于实时流媒体工作负载，通过云端的Amazon Web Services EC2 VGT1实例或者在预配置设备中进行现场视频转码。Fung表示，AMD“一直期待互动媒体的发展，因此我们推出了第一代产品，即U30。”现在，AMD正在推出下一代产品Alveo MA35D的样品，这是一款数据中心媒体加速卡和专用视频编码卡，与U30相比有显著的改进。

互联网级的视频需要属于自己的超级计算力

Fung说，实时视频流越来越多，这“造成了流量的急剧增加”。“在一对多变成多对多的情况下，当我们查看这些交互式用例时，从视频的角度，这就需要做更多的处理。你消除了为解决这些非常苛刻的交互式用例而必须做出的妥协。有很多人在使用它，所以你需要高性能。你希望将带宽成本降至最低，因为带宽占用量是很大的，耗电量都成为了一部分支出。”

与Alveo U30一样，MA35D专为实时交互式视频编码而设计，是AMD收购赛灵思之后推出的首款产品。MA35D包含了2个5nm ASIC视频处理单元（VPU），可以提供4倍的同步视频流——最多32个1080p60通道——并支持8K和AV1分辨率编码，Fung表示，这是计算密集型的最新标准。

根据AMD公司视频战略和开发负责人Sean Gardner表示，现在有很多大公司都采用了该标准，包括Meta、微软和思科，以及谷歌YouTube、Netflix和Roku等此类服务。

Gardner说：“这项标准已经问世，但十分有限，每一个新标准，理论目标都是实现比以前标准高50%的压缩效率。如果我们锁定在了视觉质量，那么我需要多少字位才能达到这一质量标准？每个新标准都力求降低50%的带宽来实现这一质量水平，但每个步骤都要在编码端有所花费，因为这就是差异所在。你要让解码成本更低，因为编码体积很大——或者曾经体积很大，现在已经开始有所改观——但这会导致每个新编解码器有5到7倍的损失。”

他说，延迟是关键。

“Netflix没有延迟[问题]，他们可能需要10个小时——确实如此——来处理一小时的视频，并且他们可以在产能过剩的下班时间使用这些带宽。但现场直播需要在16毫秒内进行，否则你就落后于实时，每秒60帧。想想这个场景，你可以使用Zoom、Teams或者Webex，可能有数十亿人同时使用这些服务。或者像Twitch这样拥有数十万个用户的服务。另一方面是，对于实时[流媒体]来说，你不能使用类似缓存CDN的架构，因为你无法承受它所带来的延迟。这就是为什么需要加速。”

除了4倍的通道密度外，测试还表明，将于第三季度投产、建议零售价为1595美元的MA35D每通道成本降低2倍，压缩率降低1.8倍，延迟降低4倍。此外MA35D还可以进行扩展，从带有卡的32个流到扩展到有8个卡的服务器格式256个流，然后扩展到机架或数据中心级别，提供高达52%的比特率降低以节省带宽。

除了VPU，该加速卡还包括了编码器和解码器、自适应比特率缩放器、用于沉浸式计算的合成器引擎、视觉质量引擎和“Look-Ahead”，用于分析运动内容以及高效压缩，此外还有用于优化视觉质量的AI处理器。

互联网级的视频需要属于自己的超级计算力

主机CPU通信是通过PCI-Express 5.0总线进行，该总线向后兼容Gen4。

Fung表示：“加速器是整个视频管道，目标是不必把任何这类任务放在芯片之外，这样我们就可以保持一致的性能水平。我们可以交付的内容不会受到近实时用例的影响。一切都在这里，硬件化了。我们这里有一个AI模块，典型的编码、解码都在这里进行，但同时我们也有基础的优化。”

在视频领域，AMD正在寻求摆脱Nvidia的GPU战略，Nvidia的T4 Tensor Core主要针对AI推理和L4图形，而英特尔及其GPU Flex系列则主要用于数据中心媒体流。Gardner说，当流媒体视频数量开始增加的时候，唯一真正厉害的是Nvidia GPU。

现在大家都看到这类加速卡有两个关键应用，分别是视频和人工智能。视频市场现在很庞大，但AI也在兴起。AMD正在针对这两大用例制定策略。

他还说：“一切都开始开放了，英特尔和Nvidia继续通过GPU推动发展，或者英特尔正在尝试用大AI和小视频，英特尔正以一种中等视频、中等AI来解决这个问题。我们从99%的视频开始，已经添加了一些小型AI，但我们并没有试图进入智能城市和监控领域。这种AI专门针对在线的、像素级的处理。”

来源：至顶网计算频道

0赞

好文章，需要你的鼓励

互联网级的视频需要属于自己的超级计算力

来源：至顶网计算频道

2023

04/13

12:31

分享

点赞

“4个9”韧性的背后，西云数据以技术与运营加速企业数字化创新

Google力推手机AI功能引发关注

Meta发布AI翻译功能，支持脸书和Instagram内容实时转换

HPE发布Nvidia Blackwell驱动的AI服务器，抢占AI市场需求

ISACA推出AI安全管理高级认证项目

谷歌推出智能体SOC系统提升安全事件响应速度

Lumen升级400GB数据中心连接基础设施助力AI发展

AI和流媒体推动，2030年面临"网络危机"

Pine64停产Pro手机转向RISC-V业务

日立Vantara将VSP One块存储扩展至Azure云平台

Finchetto光学数据包交换机：光无法存储的技术挑战与突破

Python开发者调查显示增长强劲，但基金会资金面临困境

为什么昇腾是DeepSeek的“最优解”？

从黄仁勋CES全程高能演讲，看英伟达庞大AI棋局：物理AI、AI PC、通用机器人

OpenAI权威报告！美国再不抓紧，1750亿美元将投资中国

趋势丨光谱技术与民用市场，相逢在AI

电源管理芯片产业分析报告（2024完整版）

英特尔：旗下的“主打”18A 产品将于2025 年下半年投产

重塑全球市场：AI革命推动专用芯片需求一路高涨

AWS CISO谈网络安全“融入”芯片、安全服务和应用市场

数据中心液冷散热技术及应

OpenAI甩王炸！发布新模型o3，一夜再次改变世界！

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: