ZDNet至顶网服务器频道 03月02日 新闻消息:AMD公司近日宣布,惠普ProLiant DL380 Gen9已经采用为高性能计算而生的AMD FirePro™S9150服务器GPU(图形处理单元)。AMD FirePro™服务器GPU与惠普ProLiant DL380 Gen9服务器结合,专门用于各种应用计算,包括学术和政府集群,石油和天然气研究和深度神经网络。强大的软件生态系统支持AMD FirePro™S9150服务器GPU,让开发人员能够更好地利用其计算性能,包括针对OpenCL™2.0的支持。
AMD FirePro™服务器GPU采用首款以计算负载为中心的AMD GCN架构,支持增强双精度浮点计算,双精度计算性能突破每秒2万亿次大关。借助16GB GDDR5显存和235瓦最大功耗,AMD FirePro s9150服务器GPU提供巨大计算性能,同时最大化可用的功率预算。
AMD专业显卡总经理Karl Freund表示:“我们很自豪能够为惠普服务器用户提供AMD FirePro服务器GPU和计算能力,来管理各种场景的密集型计算负载。惠普ProLiant DL380 Gen9服务器用户可以受益于开放标准,如OpenCL™和OpenMP,也能受益于GPU计算和多GPU支持。”
惠普机架式和塔式服务器副总裁和总经理Peter Schrady表示:“借助AMD FirePro GPU,惠普ProLiant DL380可以比以往更快地运行图形密集型应用程序。我们的政府、学术界和能源客户将会看到性能优势,让惠普ProLiant服务器帮助他们完成更多工作和任务。”
借助AMD Stream技术,客户将能够利用AMD FirePro s9150服务器GPU提供的大规模并行处理能力,加速图形之外的应用程序。AMD FirePro s9150服务器GPU特点:
◆2.53 TFLOPS峰值双精度性能 – 最高领先竞争产品77%
◆5.07 TFLOPS峰值单精度性能 – 最高领先竞争产品18%
◆业界领先的显存配置 – 16GB GDDR5显存,512-bit显存界面,显存带宽高达320 GB/s
◆2816个流处理器(44个GCN计算单元)
◆支持纠错码 (ECC) 显存(仅限外部显存)
◆支持OpenCL™ 2.0
◆最大功耗235瓦
AMD FirePro s9150服务器GPU通过开启OpenMP,支持各行业工作负载处理。OpenMP是在C、C ++和Fortran语言中实现高层次并行计算的API。在细分市场,如石油和天然气,计算机辅助工程与计算科学,许多组织都在OpenMP上进行了大量投资,以创建可扩展的工作负载。 AMD与PathScale公司合作支持OpenMP 4.0,将允许用户在这些HPC领域利用AMD FirePro s9150服务器GPU的计算能力。
此外,惠普ProLiant WS460c图形刀片服务器采用了AMD FirePro™ S4000X服务器GPU。凭借高品质的3D图形和多重显示功能,AMD FirePro™ S4000X服务器GPU模块,为远程桌面提供了工作站级图形性能。AMD FirePro™ S4000X服务器GPU在设计上考虑到刀片服务器和刀片工作站平台特点,每个模块最大功耗45瓦,包括2GB GDDR5显存,显存带宽高达72GB/s,并支持多达六个高分辨率远程显示设备。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。