为企业级运算、储存、网络解决方案和绿色计算技术等领域的Super Micro Computer, Inc. (SMCI) ,近日宣布扩大最广泛的人工智能(AI)GPU服务器产品组合,此系列整合了最新的NVIDIA Ampere系列GPU,包括NVIDIA A100、A30和A2。
Supermicro最新的NVIDIA认证系统的AI性能是前几代产品的高十倍,确保支持AI的应用程序,如图像分类、物体检测、强化学习、推荐、自然语言处理(NLP)、自动语音识别(ASR),能大幅降低成本,更快得到深入洞察。除了推理,Supermicro高效能的A100 HGX 8-GPU和4-GPU服务器相比于前几代系统,在大数据分析方面提高了三倍AI训练速度和八倍性能。
Supermicro总裁暨首席执行官Charles Liang表示:“Supermicro以广泛的系统组合持续引领GPU市場,针对从边缘到云端的任何工作负载进行优化。我们针对云游戏的整体解决方案在一个2U 2节点系统中提供多达12个单宽度GPU,实现了卓越的密度和效率。此外,Supermicro还推出了新的通用GPU平台,將所有主要的CPU、GPU,以及结构和散热解决方案整合在一起。”
Supermicro E-403服务器是分布式AI推理应用的理想选择,适用于如交通控制和办公大楼环境等。Supermicro Hyper-E边缘服务器通过每个系统有多达三个A100 GPU为边缘应用带来了前所未有的推理能力。Supermicro現在提供完整的IT解決方案,可加速工程和设计专业人员之间的协作,其中包含了NVIDIA认证的服务器、储存装置、网络交换机以及用于专业级可视化和协作的NVIDIA Enterprise Omniverse软件。
NVIDIA加速计算部总经理兼副总裁Ian Buck表示:“ Supermicro广泛的NVIDIA认证系统由采用NVIDIA Ampere架构的完整GPU产品组合提供支持。Supermicro的客户可从中获得卓越效能,应用于各种类型的现代化AI工作流程——从边缘的推理,到云端的高效能运算,还有两者之间的一切应用。”
Supermicro效能强大的数据中心2U和4U GPU(Redstone、Delta)系统将率先上市,支持新的Quantum-2 InfiniBand产品系列和BlueField DPU。NVIDIA Quantum-2 InfiniBand解决方案包括高带宽、超低延迟适配器、交换机和电缆,以及能为数据中心带来高效能的完整软件,该解决方案运行于整个Supermicro产品系列。
与上一代InfiniBand通讯适配器和交换机相比,采用Quantum-2 InfiniBand的系统提供400 Gb/s的传输速率、每端口高2倍的带宽、更高的交换器密度,和每交换机高32倍的AI加速,并且能同时支持Intel或AMD处理器。
随着混合式工作环境成为常态,产业需要新技术来确保人力的技术平等。NVIDIA的Omniverse Enterprise和Supermicro GPU服务器的组合,将彻底颠覆复杂的3D工作流程,从而带来无限迭代和更快速的创新产品上市时间。此外,NVIDIA的Omniverse Enterprise,以及用于将AI整合到其企业工作流程中的AI Enterprise on VMware已针对Supermicro的NVIDIA认证系统进行了优化和测试,使地理位置分散的团队也能够无缝协作。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。