什么是企业数字化最热门的应用?ChatGPT吗?不,是视频直播!在这个数据爆炸的时代,直播这种更高效更快捷的内容生成方式正在迅速崛起。以作者为例,生成一篇高质量文章的周期,需要以周来计算。而制作一个相同内容的视频,时间就可以用天来计算了。在效率提升的同时,视频所提供的内容展现能力,也不是文章所可以媲美的。文章是否会被视频替代,目前尚无法进行定论,但是视频内容的飞速增长趋势已经无法阻挡。
而在视频内容爆发的同时,视频转码能力的瓶颈却开始显现。当前无论是手机、电脑还是工作站都可以实现视频转码工作,但想要生成一段高质量的视频内容,就需要借助高性能电脑,甚至工作站、服务器的能力来实现了。但在企业中高性能电脑、工作站、服务器的数量毕竟有限,已经越来越难以满足爆发性的视频转码工作需求。
在2023年4月6日,AMD 推出首款 5nm 基于 ASIC 的媒体加速器卡,开启大规模交互式流媒体服务新时代。
AMD推的 Alveo™ MA35D 媒体加速器,具备两个 5 纳米基于 ASIC 的、支持 AV1 压缩标准的视频处理单元( VPU ),专为推动大规模直播互动流媒体服务新时代而打造。
Alveo MA35D具备集成的人工智能( AI )处理器和专用视频质量引擎
Alveo MA35D 媒体加速器可提供高通道密度(每卡支持 32 路 1080p60 转码密度)、高功效以及超低时延性能,这些对于降低目前用于扩展此类计算密集型内容交付所需的飞涨的基础设施成本至关重要。相较于上一代 Alveo U30 媒体加速器,Alveo MA35D 的通道密度提高了 4 倍、每通道功耗降低了 2 倍、时延降低了 4 倍。
该加速器还具备集成的人工智能( AI )处理器和专用视频质量引擎,能够以更低的带宽提升体验质量。AI 处理器会逐帧评估内容并动态调整编码器设置,以提高感知视觉质量,同时最大限度降低比特率。优化技术则包括用于文本和面部分辨率的感兴趣区域( ROI )编码、用于纠正剧烈运动和复杂场景的伪影检测,以及用于比特率优化预测洞察的内容感知编码。并针对主流 H.264 和 H.265 编解码器提供了超低时延支持,并配备下一代 AV1 转码器引擎,可节省高达 52% 的带宽。
AMD AECG 数据中心事业部总经理 Dan Gibbons 表示:
“我们与客户和合作伙伴紧密协作,不仅在于了解其技术要求,还要了解其在有益地部署大容量交互式流媒体服务时所面临的基础设施挑战。我们打造的 Alveo MA35D 具备量身定制的 ASIC 架构,以满足这些供应商的定制需求,实现同时降低资本和运营支出,从而大规模地为其用户和内容创作者提供沉浸式体验。”
当前传统的广播流媒体,主要是由软件和CPU提供支持。在传统的直播活动中主要采取一对多的模式,由于视频流的数量比较少,同时时延比较可控,因而可以用比较传统的现有网络形式来支持直播服务。
相较于传统的直播场景,下一代的直播场景则主要为多对多模式,即每个人都是主播,既是数据源也是接收器,这样的场景包括连线观赏、直播购物、在线拍卖和社交流媒体等。这样的应用场景要求对数据的处理更加贴近用户,要求把这样的处理去转移到网络的边缘。在边缘来处理这些应用场景,意味着原来通过云集中的方式能够获得的经济效益已经不复存在了,因此也就需要彻底改变基础设施部署模式。
随着当前流媒体直播对时延的要求越来越高,而且部署在边缘的成本也在提高。这驱使我们致力于开发新一代的实况交互式流媒体解决方案。这样的实时、交互式的流媒体应用场景要求低时延和大容量。新的架构才能够适应这些变化带来的成本压力。Alveo MA35D针对一系列新的应用场景做了优化。
从Dan Gibbons的介绍中可以了解,Alveo MA35D能够大大地改善经济性,从而使得新的应用场景变得商业可行。它同时具有高密度、超低时延的处理单元以及人工智能的赋能。Alveo MA35D卡可通过以每流1瓦的功率每卡提供多达32路1080p60转码密度。一个配备 8 张卡的 1U 机架式服务器可提供 256 个通道,以实现每服务器、每机架或每数据中心的转码密度最大化。Alveo MA35D的4K编码时延最低8毫秒,仅为常规处理时间(16毫秒)的一半。Alveo MA35D具备22 TOPS AI算力(INT8),可以支持非常多的新的应用场景,可以很好地来满足客户对于行业的期待。
当前视频市场的年均复合增长率已经达到了20%,其中有70%为视频直播。现如今直播会逐步地演化为交互式的流媒体,在这个过程当中,也面临着低延时以及整个流视频的数量容量的挑战。而Alveo MA35D产品的出现,可以协助企业更好实现连线观赏、直播购物、在线拍卖和社交流媒体等大容量交互式流媒体应用,从而令企业通过这些新应用场景更好地实现商业变现。
好文章,需要你的鼓励
本文探讨了达成人工通用智能(AGI)七大路线中的线性进阶路径,预测了从2025年至2040年 AI 技术与社会效应的关键年度节点。
这项研究介绍了一种新型多模态扩散模型,能够同时生成量子电路的离散结构和连续参数。由因斯布鲁克大学和NVIDIA公司研究人员开发,该模型利用两个独立但协同工作的扩散过程处理门类型选择和参数预测,克服了传统量子电路编译方法的效率瓶颈。研究证明了该模型在不同量子比特数量、电路深度和参数化门比例下的有效性,并通过快速电路生成创建了数据集,从中提取出有价值的结构见解,为量子电路合成提供了新方向。
SenseFlow是香港科技大学等机构联合开发的文本到图像蒸馏技术,解决了大型流匹配模型蒸馏的三大难题。研究团队提出隐式分布对齐(IDA)稳定训练过程,段内引导(ISG)优化时间步重要性分配,并设计基于视觉基础模型的判别器提升生成质量。实验表明,SenseFlow能将SD 3.5和FLUX等12B参数级模型成功蒸馏为仅需4步生成的高效版本,同时保持甚至超越原模型在多项指标上的表现,代表了AI图像生成效率提升的重要突破。
MASKSEARCH是阿里巴巴集团同义实验室开发的新型预训练框架,通过创新的"检索增强掩码预测"任务,训练大型语言模型像人类一样主动使用搜索工具获取信息。这项框架包含两个阶段:首先在掩码预测任务上预训练,然后在下游任务上微调,大幅提升模型在开放域问答中的表现。研究采用监督微调和强化学习两种方法,结合多代理系统和课程学习策略,使AI能够自主分解问题、使用搜索工具并基于搜索结果进行推理。