作者:Stephanie Condon
在SC19大会上,AMD将宣布新的、基于Epyc处理器的AWS和微软Azure实例,以及Epyc的其他一些进展。
在实现了一些重要的HPC里程碑的一年之后,AMD本周展示了其在高性能计算市场的最新动作。在SC19大会上,这家芯片制造商宣布了新的、基于Epyc处理器AWS和微软Azure云实例,介绍了Epyc的新进展并且发布了ROCm 3.0版本的软件。AMD还宣布首个基于Epyc处理器的系统已经进入了TOP500名单。
AMD数据中心解决方案事业部总经理Scott Aylor对ZDNet表示,SC19大会是“我们将支持百亿亿次时代的技术推向市场的垫脚石。”
Aylor表示,指导AMD技术路线图的“北极星”是联邦政府决定投资AMD技术以建造Frontier百亿亿次超级计算机的决定。这个耗资6亿美元的百亿亿级系统——基于AMD的Epyc CPU和Radeon Instinct GPU处理器,并使用了Cray的Shasta架构和Slingshot网络——到2021年进入实验室时,将成为世界上最快的超级计算机。
在去年八月,AMD推出了第二代Epyc——全球第一款7纳米服务器处理器。处理器的性能提升为AMD带来了更好的HPC前景。
为了展示其Epyc的实力,AMD表示微软Azure正在围绕着第二代Epyc处理器构建其最高性能的HPC实例。Azure新的、针对高性能计算的HBv2使用了AMD EPYC 7742处理器,该产品目前正在进行预览。
此外,亚马逊网络服务(AWS)正在扩大对第二代Epyc处理器的使用,该公司宣布即将推出新的C5a计算密集型实例。其中包括C5a、C5ad以及裸机EC2实例。Aylor表示:“他们正在将AMD技术用于性能最高的C系列实例。”
AMD的OEM和ODM合作伙伴也正在扩大第二代Epyc的业务范围:
在最终用户方面,AMD宣布它凭借着法国高性能计算组织的GENCI系统重新跻身于全球最快超级计算机500强的榜单。该组织宣布了Joliot-Curie超级计算机的最新扩展,该系统基于Atos BullSequana XH2000,使用了EPYC 7H12处理器。
该产品赢得的其他客户包括圣地亚哥超级计算机中心的新Expanse超级计算机系统,该系统使用了Dell EMC PowerEdge服务器和第二代Epyc处理器。Expanse拥有728个双插槽Dell EMC PowerEdge C6525,这些Dell EMC PowerEdge C6525都使用了第二代AMD Epyc处理器。预计Expanse的最高性能可以达到5 petaflops。
苏黎世联邦理工学院(瑞士联邦理工学院)将使用Epyc 7742处理器为新型Euler VI超级计算机提供动力。英国原子武器机构的新型Vulcan超级计算机也将使用第二代Epyc处理器,英国最快的新型超级计算机ARCHER2也将使用该处理器。
同时,AMD还推出了ROCm 3.0版,这是一个开源、独立于编程语言的GPU计算平台。现在,它支持基于LLVM的编译器HIP-clang,并提供改进了的CUDA转换功能。它扩展了对HPC编程模型和应用程序的加速支持,例如OpenMP编程、LAMMPS和NAMD。它还为诸如Kubernetes、Singularity、SLURM、TAU等系统和工作负载部署工具提供了支持。现在ROCm还向上集成到领先的TensorFlow和PyTorch机器学习框架中,这些框架可用于增强学习、自动驾驶及图像和视频检测等应用。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。