HPE成为加入Nvidia阵营的最近一家系统制造商,于近日宣布推出一系列针对AI优化的联合开发系统,以及针对生成式AI的联合销售和营销集成。
近日在美国拉斯维加斯举行的HPE Discover大会上,HPE表示,这些打包系统可以将AI工程师、数据科学家和运营团队的生产力提高高达90%。
HPE Private Cloud AI具有Nvidia AI计算、网络和软件,以及HPE通过GreenLake云提供的AI专用存储和计算产品的深度集成。GreenLake是一系列云和即服务选项,旨在提供类似云的功能,不管IT基础设施如何,都采用按需付费的定价方式。
该产品由用于IT运营的全新OpsRamp AI Copilot提供支持,有四种配置以支持各种AI工作负载。
HPE Private Cloud AI支持使用专有数据进行推理、微调和检索自动生成工作负载,将数据隐私、安全性、透明度、治理控制与ITOps以及AIOps功能相结合。
AIOps使用机器学习和数据分析来自动化和改进IT运营任务。ITOps包含了一系列活动,可确保组织的IT基础设施顺利运行。
基于Nvidia AI Enterprise而构建
AI和数据软件堆栈的基础是Nvidia AI Enterprise软件平台和推理微服务。Nvidia AI Enterprise旨在快速开发和部署Copilot以及其他生成式AI应用。NIM是一组用于优化AI模型推理的微服务。
HPE AI Essentials软件则是一组精选的AI和数据基础工具,具有统一的控制平面,可适用于各种用途。HPE表示,该工具中包含了企业支持和AI服务,例如数据和模型合规性,具有可扩展功能,可确保AI管道合规、可解释和可重现。
HPE首席技术官Fidelma Russo表示:“它已经准备好启动了,你只需将其插入,连接到云,三次点击后即可启动并运行起来。”
HPE将该软件包称为AI模型训练和云中RAG的本地替代方案。“我们的目标市场是那些希望转向AI,并且意识到在云中运行这些模型会压垮预算的企业,”HPE高级副总裁、高性能计算和AI业务总经理Neil MacDonald这样表示。
Russo称,在本地部署AI推理,“在保持数据私密的同时,对于推理工作负载而言,成本效益是原来的四到五倍。”
基础设施堆栈中包括了Nvidia Spectrum-X以太网网络、HPE GreenLake文件存储和HPE ProLiant服务器,支持Nvidia L40S、Nvidia H100 NVL Tensor Core GPU以及Nvidia GH200 NVL2机架级平台。
四种配置
该产品基于ProLiant处理器提供了四种配置,从小型到超大型不等,每种配置都是模块化且可扩展的。
HPE表示,未来将支持Nvidia GB200 NVL72/NVL2以及新的Nvidia Blackwell、Rubin和Vera架构。
Greenlake为混合环境中的端点、工作负载和数据提供了管理服务和可观察性服务。OpsRamp为整个Nvidia加速计算堆栈提供了可观察性,包括NIM和AI软件、Nvidia Tensor Core GPU、AI集群、Nvidia Quantum InfiniBand和Spectrum Ethernet交换机。
新的OpsRamp运营型Copilot利用Nvidia的计算平台,通过对话助手分析大型数据集以获得洞察。OpsRamp还将集成CrowdStrike的应用接口,以提供跨基础设施和应用的端点安全的统一服务地图视图。
HPE和Nvidia将与服务提供商Deloitte、HCL Technologies、Infosys、Tata Consultancy Service以及Wipro共同销售这个服务器包。
瞄准AI能源成本
另外,HPE和工程巨头Danfoss A/S宣布合作提供一种现成的热回收模块,作为打包产品的一个组成部分,为那些开发AI模型以减少IT设备散发热量的组织提供帮助。
该产品结合了HPE可扩展的Modular Data Center,采用小型的、高密度容器的形式,几乎可以部署在任何地方,同时采用直接液体冷却等技术,将总体能耗降低了20%。Danfoss将提供热再利用模块,从数据中心捕获多余的热量,将其引导到现场和邻近的建筑物和行业,还将提供无油压缩机,将数据中心的冷却效率提高多达30%。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。