NVIDIA近日在美国丹佛举行的Siggraph大会上宣布,正在大幅扩展NVIDIA Inference Microservices(NIM)库以涵盖物理环境、高级视觉建模和各种垂直应用。
亮点包括Hugging Face推理即服务上线了NVIDIA云,以及对三维训练和推理的扩展支持。
NIM是一组容器化微服务,作为NVIDIA AI Enterprise套件的一个组成部分提供给用户,可以简化和加快AI模型的部署。每个NIM都是针对各种硬件设置量身定制的优化推理引擎,可以通过应用程序接口访问,以减少延迟和运营成本,提高性能和可扩展性。开发者可以使用NIM快速部署AI应用,而无需进行大量定制,并且使用的是专有数据微调模型。
NVIDIA表示,Hugging Face将在NVIDIA DGX云上提供推理即服务,为Hugging Face的400万开发者提供更高的性能,让他们更轻松地访问无服务器推理。Hugging Face提供了一个专门用于自然语言处理和机器学习开发和准备的平台,以及一个用于NLP任务(例如文本分类、翻译和问答)的预训练模型库,还提供了一个大型数据集存储库,这些数据集针对Transformers的使用进行了优化,Transformers是一个开源Python库,提供使用NLP模型的资源。
NVIDIA还宣布了在生成式物理AI方面取得的进步,包括用于构建交互式视觉AI代理的Metropolis参考工作流程。Metropolis是一组开发者工作流程和工具,用于在所有类型的硬件上构建、部署和扩展生成式AI应用。NVIDIA还宣布推出了新的NIM微服务,可以帮助开发者训练物理机器以处理复杂的任务。
3D世界
这次公告包括了三个新的Fast Voxel Database NIM(FVDB)微服务,支持用于三维世界的新深度学习框架。FVDB是一个新的深度学习框架,用于生成现实世界的AI就绪虚拟表示。它是建立在OpenVDB之上的,后者是一个行业标准的结构和程序库,用于模拟和渲染水、火、烟和云等稀疏体积数据。
FVDB的空间规模是先前框架的4倍,性能提高了3.5倍,提供了对大量真实世界数据集的访问路径,通过组合以前需要多个深度学习库的功能来简化流程。
NVIDIA同时宣布的还有三项微服务——USD Code、USD Search和USD Validate,都使用通用场景描述开源交换格式来创建任意3D场景。
USD Code可以回答OpenUSD知识问题并生成Python代码,USD Search支持自然语言访问大量OpenUSD 3D和图像数据库。USD Validate会检查上传文件与OpenUSD发布版本的兼容性,使用Omniverse云API生成完全渲染的路径跟踪图像。
NVIDIA Omniverse和模拟技术副总裁Rev Lebaredian表示:“我们构建了世界上第一个能够理解基于OpenUSD的语言、几何、材料、物理和空间的生成式AI模型。”
物理AI支持
NVIDIA宣布为物理AI量身定制的NIM支持语音和翻译、视觉和逼真的动画和行为。视觉AI代理使用计算机视觉功能来感知和与物理世界交互并执行推理任务。
它们是由一类称为视觉语言模型的新型生成式AI模型提供支持的,这些模型可以增强决策能力、准确性、交互性和性能。NVIDIA的AI和DGX超级计算机可以用于训练物理AI模型,Omniverse和OVX超级计算机可用于完善数字孪生中的技能。
应用领域包括机器人,因此NVIDIA表示将为世界领先的机器人制造商、AI模型开发商和软件制造商提供一套服务、模型和计算平台,以开发、训练和构建下一代人形机器人(如图所示)。
产品包括用于机器人模拟和学习的NIM微服务和框架、用于运行多级机器人工作负载的OSMO编排服务以及支持AI和模拟的远程操作工作流程,可显着减少训练机器人所需的人类演示数据量。
Lebaredian说,生成式AI的视觉输出通常是“随机且不准确的,艺术家无法按照自己的意愿编辑有限的细节,借助Omniverse和NIM微服务,设计师或艺术家就可以构建一个地面实况3D场景,为生成式AI提供条件。他们在Omniverse中组装场景,从而将品牌认可的资产(如可乐瓶)和各种道具和环境模型聚合到一个场景中。”
NVIDIA NIM将提供Getty Images的4K图像生成API和Shutterstock的3D资产生功能,用于使用文本或图像提示生成图像,两者都使用了NVIDIA Edify,一种用于视觉生成式AI的多模式架构。
Lebaredian表示:“自2016年以来,我们一直在投资OpenUSD,从而使工业企业和物理AI开发者能够更轻松、更快速地开发高性能模型,让Omniverse也变得更轻松、更快速。”NVIDIA还与共同创立Open USD联盟的Apple公司展开合作,构建从图形交付网络到Apple Vision Pro的混合渲染管道流。现在开发者可以通过早期访问计划获得在Omniverse上实现此功能的软件开发工具包和API。
开发者可以使用NIM微服务和Omniverse Replicator等来构建支持AI的生成式合成数据管道,解决经常限制模型训练的真实世界数据短缺问题。
即将推出的NIM或者USD Layout、USD Smart Material以及FDB Mesh Generation,可以生成由Omniverse API渲染的、基于OpenUSD的网格。
好文章,需要你的鼓励
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。
OpenAI明确表示要成为互联网一切事物的主导界面。AI智能体正在改变用户的数字习惯,从健康记录分析到购物指导,ChatGPT已经在多个领域扩展影响力。用户快速采用AI工具,但企业和生态系统的适应速度滞后。电商领域的权力分配尚不明确,用户偏好AI驱动的答案优先体验,品牌则推动生成式引擎优化。研究旨在了解用户与企业在AI变革中的适应差异。
微软亚洲研究院开发出革命性的认知启发学习框架,让AI能够像人类一样思考和学习。该技术通过模仿人类的注意力分配、记忆整合和类比推理等认知机制,使AI在面对新情况时能快速适应,无需大量数据重新训练。实验显示这种AI在图像识别、语言理解和决策制定方面表现卓越,为教育、医疗、商业等领域的智能化应用开辟了新前景。