该软件定义平台帮助全球广播和流媒体领域的开发者实现 AI 赋能的媒体解决方案。
无论是提供体育直播节目、流媒体服务、网络广播还是社交平台内容,媒体公司都面临着颇具挑战的形势。
越来越多的观众倾向于互动内容和个性化内容;虚拟现实(VR)和增强现实(AR)技术日益成为主流;新的视频压缩标准正在给传统计算基础设施带来挑战;AI 正在产生全方位的影响。
在多变的环境下,媒体公司可以利用 AI 赋能的媒体解决方案灵活满足其不断变化的开发和交付需求,这将使他们获益匪浅。
NVIDIA Holoscan for Media 现已上市,该软件定义平台可帮助开发者轻松构建直播媒体应用,利用 AI 为其增效并部署到各个媒体平台。
全新媒体应用开发方法
Holoscan for Media 提供了一种全新的直播媒体开发方法。它通过提供基于互联网协议(IP)且不受专用硬件、环境或地点限制的云原生架构,来简化应用开发过程。而且该平台还集成了开源技术以及其他受到广泛应用的技术,既简化了向客户交付应用的流程,同时又优化了成本。
直播媒体市场的传统应用开发依赖于专用硬件。由于软件与硬件绑定,开发者在创新或升级应用时会受到限制。
无论是本地部署还是云部署,每种部署都有自己的构造,这使得开发成本变得高昂且低效。除了设计应用的用户界面和核心功能外,开发者还必须构建额外的基础设施服务,这进一步消耗了研发预算。
由于构建 AI 软件堆栈的复杂性,AI 的整合成为了最重大的挑战,阻碍了许多试点项目中的应用投产。
Holoscan for Media 的底层架构可将软件定义视频部署到与 AI 应用(包括生成式 AI 工具)相同的软件堆栈上,降低了将 AI 集成到应用开发中的难度,使想要将 AI 应用整合到直播视频的供应商和研发部门从中受益。
由于 Holoscan for Media 是一个云原生平台,因此无论是在云端、本地还是在边缘,该架构的运行均不受位置限制。除此之外,它不依赖于任何特定设备、现场可编程逻辑门阵列(FPGA)或装置。
Holoscan for Media 架构包含身份验证、日志记录和安全等服务,以及帮助广播公司迁移到基于 IP 的技术的功能,例如 SMPTE ST 2110 传输协议、用于定时和同步的精确时间协议,以及用于动态设备管理的 NMOS 控制器和注册表等。
日益壮大的合作伙伴生态系统
Beamr、Complimato、Lawo、Media.Monks、Pebble、RED Digital Cinema、索尼和 Telestream 等早期采用者正在使用 Holoscan for Media 深入改变直播媒体行业。
软件定义生产工作流提供商 Media.Monks 的创新和创意解决方案高级副总裁 Lewis Smithingham 表示:“我们将 Holoscan for Media 作为我们广播和媒体工作流的核心基础设施,它为我们提供了强大的规模,使我们能够在各种频道和平台上根据观众兴趣提供内容。”
专业数字电影摄影机制造商 RED Digital Cinema 的产品管理副总裁 Jeff Goodman 表示:“Holoscan for Media 将各种应用分门别类,并实现了它们之间的可互操作,这让我们可以在一个平台上轻松采用多家不同公司的最新创新成果。它大幅降低了集成的复杂性并将显著加快创新的步伐。我们十分高兴能够参与其中。”
索尼媒体解决方案业务高级总经理 Masakazu Murata 表示:“我们相信 NVIDIA Holoscan for Media 是推动行业下一代产品和服务发展的途径之一,它让我们可以按需扩展 GPU 能力。我们在 Holoscan for Media 上运行的 M2L-X 软件切换台原型展示了客户如何在 GPU 集群上运行索尼的解决方案。”
数字媒体软件和解决方案提供商 Telestream 高级副总裁兼总经理 Charlie Dunn 表示:“Telestream 致力于改变媒体行业的格局,追求在不牺牲质量和用户友好性的前提下提高效率和内容体验。我们已将 Holoscan for Media 平台无缝集成到我们的 INSPECT IP 视频监控解决方案中,为达到 ST 2110 标准开辟了一条清晰、高效的途径。”
在 NAB Show 上体验 Holoscan for Media
这些合作伙伴将于 4 月 13 日至 17 日在拉斯维加斯举行的广播、媒体和娱乐行业盛会——NAB Show上展示他们如何使用 NVIDIA Holoscan for Media。
好文章,需要你的鼓励
这项研究介绍了一种名为FlowPathAgent的神经符号代理系统,用于解决流程图归因问题。研究团队提出了流程图精细归因这一新任务,构建了FlowExplainBench评估基准,并开发了结合视觉分割、符号图构建和基于代理的图形推理的方法。实验表明,该方法在归因准确性上比现有基线提高了10-14%,特别在处理复杂流程图时表现出色,为提升人工智能系统在处理结构化视觉-文本信息时的可靠性和可解释性提供了新途径。
这项研究首次从神经元层面揭示了大型语言模型(LLM)评估中的"数据污染"机制。研究团队发现当模型在训练中接触过测试数据时,会形成特定的"捷径神经元",使模型无需真正理解问题就能给出正确答案。他们提出了一种新方法,通过识别并抑制这些神经元(仅占模型总神经元的约1%),成功恢复了模型的真实能力表现。实验证明,该方法与权威可信基准测试结果高度一致(相关系数>0.95),并在不同基准和参数设置下都表现出色,为解决LLM评估可信度问题提供了低成本且有效的解决方案。
这份来自向量研究所、康奈尔大学和格罗宁根大学研究团队的综述分析了基于大语言模型的代理型多智能体系统中的信任、风险和安全管理框架(TRiSM)。研究系统地探讨了代理型AI从概念基础到安全挑战,提出了包含治理、可解释性、模型运营和隐私/安全四大支柱的TRiSM框架。文章还详细分析了威胁向量、风险分类,并通过真实案例研究展示了潜在脆弱性。
这项研究提出了一种名为ConfiG的创新方法,通过生成针对性的数据增强样本来解决知识蒸馏中的协变量偏移问题。研究团队利用教师模型和学生模型之间的预测差异,引导扩散模型生成那些能挑战学生模型的样本,从而减少模型对训练数据中欺骗性特征的依赖。实验表明,该方法在CelebA、SpuCo Birds和Spurious ImageNet数据集上显著提升了模型在缺失组别上的性能,为资源受限环境下的AI应用提供了实用解决方案。