Nvidia近日宣布对Nvidia AI Enterprise软件套件进行重大更新,2.1版新增支持企业可用于运行人工智能和机器学习工作负载的关键工具和框架。

去年8月Nvidia推出的Nvidia AI Enterprise是一个端到端的AI软件套件,捆绑了各种人工智能和机器学习工具,并且这些工具已经过优化,可以在Nvidia的GPU和其他硬件上运行。
Nvidia表示,此次发布的亮点之一是对高级数据科学用例的支持,最新版本的Nvidia Rapids是一套开源软件库和API,用于完全在GPU上执行数据科学管道。Nvidia表示,Rapids能够将AI模型训练的时间从几天缩短到几分钟。该套件的最新版本通过添加新模型、技术和数据处理功能,为数据工作流提供了更大的支持。
Nvidia AI Enterprise 2.1还支持最新版本的Nvidia TAO Toolkit,这是一个低代码和无代码框架,可使用自定义数据微调预训练的人工智能和机器学习模型,以产生更准确的计算机视觉、语音和语言理解模型。TAO Toolkit 22.05版本提供了多项新功能,例如REST API集成、预训练权重导入、TensorBoard集成以及新的预训练模型。
为了在混合云和多云环境中更容易使用AI,Nvidia表示将在现有基于裸机和VMwarevSphere部署的OpenShift支持之外,增加对公有云中运行Red Hat OpenShift的支持。此外,AI Enterprise 2.1还支持新的Microsoft Azure NVads A10 v5系列虚拟机。
Nvidia解释说,这些是任何公有云提供的首批Nvidia虚拟GP实例,可以实现更地成本的“部分GPU共享”。例如,客户可以更灵活地采用不同大小的GPU,从1/6个A10 GPU一直到2个完整的A10 GPU。
最后一项更新和Domino Data Lab有关,Domino Data Lab的MLOps平台现在已经通过了AI Enterprise的认证。Nvidia解释说,通过这项认证,Domino Data Lab将有助于降低部署风险,通过AI Enterprise确保MLOps的可靠性和高性能。Nvidia表示,企业使用这两个平台,可以受益于工作负载编排、自助式基础设施和增强协作,在虚拟化服务器和主流加速服务器上进行具有高成本效益的扩展。
对于有兴趣试用最新版AI Enterprise的企业,Nvidia表示将提供一些新的LaunchPad服务供他们使用。LaunchPad服务可以在私有加速计算环境中提供对AI Enterprise的即时、短期访问,环境中有动手实验室,客户可以使用这些实验室来试用AI Enterprise平台。新实验室环境包括在VMware vSphere with Tanzu上进行图像分类的多节点训练,以及使用Nvidia Triton部署欺诈检测XGBoost模型的机会等等。
好文章,需要你的鼓励
企业谈AI基础设施时,注意力往往首先集中在模型、GPU和算力集群上。但当大模型应用走向规模化推理,一个瓶颈开始浮现:算力采购完成,并不意味着Token能够被稳定、低成本、可控地交付出去。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。